Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc

Metody statistické analýzy doc. Ing. Dagmar Blatná, CSc.

Bankovní institut vysoká škola, a.s. Praha 2011

METODY STATISTICKÉ ANALÝZY Autor:

doc. Ing. Dagmar Blatná, CSc.

Recenzenti:

doc. Ing. Jiří Trešl, CSc. Ing. Diana Bílková, Dr.

Vydal:

Bankovní institut vysoká škola, a.s., Nárožní 2600/9 Praha

Tisk:

powerprint s.r.o., Brandejsovo náměstí 1219/1, 165 00, Praha 6 – Suchdol

Vydání:

první

Rok vydání:

duben 2011

Místo vydání:

Praha

2011 © Bankovní institut vysoká škola, a.s. Všechna práva vyhrazena. Žádná část této publikace nebude jakýmkoliv způsobem reprodukována bez předchozího písemného souhlasu Bankovního institut vysoké školy, a.s ISBN 978-80-7265-129-0

Metody statistické analýzy

OBSAH Úvod........................................................................................................................................................ 5 I

METODY ZKOUMÁNÍ ZÁVISLOSTÍ ............................................................................................... 6 I.1

Zkoumání závislosti kategoriálních znaků................................................................................... 6

I.2

Jednofaktorová analýza rozptylu (ANOVA)............................................................................... 11

I.3

Regresní analýza....................................................................................................................... 15

I.3.1 I.4

Korelační analýza ...................................................................................................................... 34

I.4.1

Jednoduchá (párová) korelace .......................................................................................... 35

I.4.2

Test nezávislosti pořadovou korelací ................................................................................ 43

I.5

II

Jednoduchá (párová) regresní analýza............................................................................. 17

Vícenásobná lineární regresní a korelační analýza .................................................................. 45

I.5.1

Vícenásobná regrese ........................................................................................................ 45

I.5.2

Vícenásobná korelace ....................................................................................................... 47

I.5.3

Multikolinearita................................................................................................................... 50

I.6

Regrese s kategoriální proměnnou ........................................................................................... 52

I.7

KONTROLNÍ OTÁZKY .............................................................................................................. 53

I.8

PŘÍLADY NA PROCVIČENÍ...................................................................................................... 54

I.9

ZÁKLADNÍ VÝRAZY.................................................................................................................. 61

METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD........................................................ 63 II.1

Druhy a charakteristiky časových řad.................................................................................... 63

II.2

Dekompozice časových řad................................................................................................... 69

II.3

Vyrovnávání časových řad .................................................................................................... 70

II.3.1

Analytické vyrovnání časových řad ................................................................................... 70

II.3.2

Adaptivní přístupy k trendové složce................................................................................. 74

II.4 II.4.1

Zkoumání sezónnosti v časových řadách ............................................................................. 78 Sezónní očišťování ............................................................................................................ 82

II.5

Náhodná složka časových řad............................................................................................... 84

II.6

Extrapolace časových řad ..................................................................................................... 85

II.7

Korelace v časových řadách.................................................................................................. 86 Obsah 3

Bankovní institut vysoká škola

II.8

KONTROLNÍ OTÁZKY .......................................................................................................... 89

II.9

PŘÍKLADY NA PROCVIČENÍ ............................................................................................. 90

II.10

ZÁKLADNÍ VÝRAZY............................................................................................................. 97

III

MARKETINGOVÉ PRŮZKUMY .................................................................................................... 99 III.1

Způsoby zjišťování údajů a výběrové postupy ...................................................................... 99

III.1.1

Způsoby zjišťování údajů............................................................................................... 99

III.1.2

Výběrové postupy ........................................................................................................ 100

III.1.3

Stanovení velikosti výběrového souboru..................................................................... 101

III.2

Vybrané metody používané ke zpracování údajů získaných ve výběru.............................. 101

III.2.1

Porovnání struktury výběrového a základního souboru .............................................. 102

III.2.2

Ověřování změny názorů ............................................................................................ 103

III.2.3

Test o shodě podílů v k souborech.............................................................................. 105

III.2.4

Neparametrické testy shody průměrů dvou nezávislých výběrů ................................. 106

III.2.5

Kruskalův-Wallisův test (neparametrická analýza rozptylu)........................................ 109

III.2.6

Použití vícerozměrných statistických metod v marketingových průzkumech.............. 112

III.3

KONTROLNÍ OTÁZKY ........................................................................................................ 117

III.4

PŘÍKLADY NA PROCVIČENÍ ........................................................................................... 118

III.5

ZÁKLADNÍ VÝRAZY............................................................................................................ 122

IV

SEZNAM LITERATURY .............................................................................................................. 124

V

PŘÍLOHY – STATISTICKÉ TABULKY ....................................................................................... 125

4

Obsah


ÚVOD Skripta Metody statistické analýzy jsou učebním textem pro kurz Statistické metody magisterského studia Bankovního institutu. Tento kurz navazuje na kurz Statistika a pravděpodobnost a předpokládá statistické znalosti v něm obsažené, zejména popisnou statistiku a metody statistické indukce (teorii statistických odhadů a teorii testování statistických hypotéz). Skripta jsou rozdělena do tří kapitol. I. kapitola se zabývá základními statistickými analytickými metodami umožňujícími zkoumat závislosti jak mezi kategoriálními tak i mezi kvantitativními proměnnými (kontingenční analýzu, analýzu rozptylu, regresní a korelační analýzu). II. kapitola obsahuje základní metody statistické analýzy a extrapolace časových řad. III. kapitola je věnována aplikaci statistických postupů v marketingových průzkumech a obsahuje popis základních způsobů zjišťování údajů a některé jednodušší metody použitelné v průzkumech. Analogicky jako ve skriptech Statistika a pravděpodobnost je výklad koncipován především tak, aby studenti pochopili podstatu metod a uměli rozhodnout, kterou metodu by bylo možno pro řešení konkrétní úlohy použít v praxi a jak interpretovat získané výsledky. Pro lepší porozumění vykládané problematice jsou uvedeny řešené příklady s interpretací získaných výsledků. Příklady je nutno chápat jako ilustrativní, jsou vědomě zjednodušené, slouží především k pochopení látky a výpočetních postupů. Řešení příkladů uvedených v textu je většinou prováděno bez použití počítače, u regresní analýzy a u metod analýzy časových řad jsou uvedeny i výstupy z počítače s použitím programu STATGRAPHICS nebo SAS. Popisované postupy obsahuje i většina dalších specializovaných statistických programů, např. SPPS, STATISTICA, S-Plus apod., příklady lze řešit i pomocí tabulkových kalkulátorů, např. EXCEL. Výstupy z jiných statistických programů mají většinou podobný tvar jako uvedené výstupy ze STATGRAPHICS nebo SAS. Ve srovnání s předchozím učebním textem Metody statistické analýzy určeném pro studenty BIVŠ, jsou tato skripta upravena a rozšířena tak, aby více vyhovovala i potřebám studentů kombinovaného studia. Protože se často jedná o metody, které jsou bez použití počítače obtížně řešitelné, je větší pozornost věnována porozumění a interpretaci výstupů ze statistických programových systémů SAS a STATGRAPHICS. Na závěr každé kapitoly jsou zařazeny kontrolní otázky a příklady k procvičení vysvětlené látky. K příkladům jsou uvedeny výsledky, v některých případech i postup řešení, většinou provedený pomocí EXCELu. U každé kapitoly je rovněž uveden i anglicko-český slovník základních statistických pojmů a výrazů používaných v příslušné kapitole, neboť lze předpokládat, že při aplikaci statistických postupů v praxi se studenti častěji setkají s počítačovými programy, v nichž budou použity anglické výrazy. V přílohové části jsou připojeny základní statistické tabulky. Seznam literatury uvádí vybrané české i zahraniční publikace, které je možno využít k doplnění a rozšíření metod a postupů uvedených ve skriptech.

doc. Ing. Dagmar Blatná, CSc.

Úvod 5


I

METODY ZKOUMÁNÍ ZÁVISLOSTÍ

V prvém kurzu statistiky (Pravděpodobnost a statistika) jsme se u statistických souborů zabývali zkoumáním jednotlivých statistických znaků odděleně, neuvažovali jsme, že mezi nimi mohou být nějaké souvislosti a vzájemné vztahy. Přitom právě objevování a popisování souvislostí jevů patří k nejdůležitějším statistickým úkolům při kvantitativních výzkumech. Existuje celá řada, často složitých a náročných metod a postupů zkoumání závislostí, které jsou bez použití počítačů prakticky nezvládnutelné. V tomto kurzu si uvedeme pouze základní jednoduché metody zkoumání závislostí a vzájemných vztahů mezi statistickými znaky. Musíme si vždy být vědomi, že existují různé druhy statistických znaků (základní třídění je na znaky kategoriální a číselné) a výběr statistické metody, kterou chceme použít pro zkoumání závislostí, závisí na typu zkoumaných znaků. V této kapitole se budeme zabývat základními statistickými postupy a metodami, které se používají při analýzách závislostí, projevujících se v hromadných údajích. Prvotními údaji jsou v tomto případě hodnoty sledovaných proměnných, zjištěné u každé z n jednotek určitého souboru (předpokládáme konečného), jímž může být soubor osob, firem, zemí aj. Na údaje o n jednotkách konečného souboru je nutné pohlížet jako na výběrová data. Je-li možno předpokládat, že tato data jsou výběrem z nekonečného základního souboru, použijeme metody statistické indukce (viz kapitola IV skript Pravděpodobnost a statistika), které umožňují provádět z těchto výběrových dat zevšeobecňující úsudky. Z hlediska použitých dat pro zkoumání závislostí mezi proměnnými lze uvést základní metody zkoumání závislostí: • kontingenční analýza:

-

kategoriální (slovní) znaky

• analýza rozptylu:

-

sledovaný znak číselný, třídící znak slovní nebo číselný

• pořadová korelace:

-

dva pořadové znaky

• regresní a korelační analýza: -

I.1

dva nebo více číselných znaků

Zkoumání závislosti kategoriálních znaků

S kategoriálními proměnnými se setkáváme často zejména v oblasti průzkumů v různých oblastech (marketingové průzkumy, průzkumy veřejného mínění, sociologické průzkumy apod.) V rámci kategoriálních proměnných je třeba rozlišovat mezi nominálními a ordinálními (pořadovými) proměnnými. K nominálním patří např. typ vzdělání (ekonomické, technické, přírodovědné apod.), mezi ordinální patří např. stupeň vzdělání (základní, středoškolské, vysokoškolské, doktorské). Zatímco hodnoty nominálních proměnných lze řadit v podstatě libovolně, u ordinálních proměnných je přirozené je řadit podle jejich hodnoty od nejnižší (nejméně významné, nejméně pozitivní) až po nejvyšší (nejvýznamnější, nejpozitivnější apod.). Nejdříve si popíšeme dvourozměrnou tabulku rozdělení četností kategoriálních znaků – nazývanou kontingenční tabulka. Sledované kategoriální znaky označíme A a B. Znak A nabývá k obměn, znak B s obměn. V kontingenční tabulce zobrazujeme rozdělení četností obou sledovaných znaků podle jednotlivých obměn obou znaků (obvykle řadíme obě proměnné ve směru od nejmenší po největší)

6

Metody zkoumání závislostí


i tzv. četnosti sdružené (což jsou počty jednotek nabývajících současně i - tou obměnu znaku A a j tou obměnu znaku B). Tabulka I-1 Kontingenční tabulka

A/B A1 A2

B1 B2 B 3 ... B j ... n11 n12 n13 ... n1j ... n21 n22 n23 ... n2j ... . . . . ni1 ni2 ni3 ... nij ...

•

Ai

• • •

Ak n •j

nk1 n •1

nk2 n•2

nk3 ... nkj n•3 ... n•j

Bs n1s n2s . nis

n i• n1• n2•

... nks ... n•s

nk • n

n i•

Znak A : i = 1, 2, ..., k. Znak B : j = 1, 2, ..., s.

Četnosti v políčkách uvnitř kontingenční tabulky označujeme nij a nazýváme je sdružené četnosti. Četnosti označené ni• a n•j jsou četnosti okrajové (marginální); (přitom ni• představují rozdělení četností znaku A, n•j pak představují rozdělení četností znaku B). Celkový počet jednotek souboru n je celková četnost. Mezi četnostmi v kontingenční tabulce platí vztahy:

(I.1)

n=

k

s



nij =

i =1 j =1

k

 i =1

ni • =

s

n j =1

•j

Při zkoumání závislosti mezi kategoriálním proměnnými se nejčastěji používá test o nezávislosti dvou kategoriálních znaků, často nazývaný χ2 - test nezávislosti v kontingenční tabulce.

χ2 - test nezávislosti v kontingenční tabulce K rozhodnutí o tom, jestli lze na základě zjištěných dat prohlásit dvě kategoriální proměnné za závislé či nikoliv, slouží test o nezávislosti. Testujeme při něm nulovou hypotézu o nezávislosti, alternativní hypotéza pak tvrdí, že se jedná o závislost. Vede-li test při dostatečně nízké hladině významnosti k přijetí alternativní hypotézy, lze s malým rizikem omylu říci, že jsou obě proměnné závislé, vede-li test k nezamítnutí nulové hypotézy o nezávislosti, lze pouze konstatovat, že nelze toto tvrzení zamítnout, chybný by byl závěr o nezávislosti obou proměnných. Tedy, v tomto testu formulujeme nulovou a alternativní hypotézu: H0 : znaky A a B jsou nezávislé H1 : non H0 (jsou závislé). Testové kriterium označené G má za platnosti nulové hypotézy rozdělení χ2[(k-1).(s-1)].

Metody zkoumání závislostí 7


k

G=

(I.2)

s



(ne,ij − no,ij ) 2 n

i =1 j =1

,

kde ne,ij jsou empirické (zjištěné) četnosti, no,ij jsou teoretické (očekávané) četnosti, (tj. takové, které by byly v jednotlivých políčkách tabulky, kdyby platila nulová hypotéza o nezávislosti) Teoretické četnosti vypočítáme podle vztahu

(I.3)

no,ij =

.

ni• n• j n

.

Kritický obor tvoří hodnoty testového kriteria G ≥ χ21-α [(k-1).(s-1)]. Použití uvedeného testu má omezení v tom, že maximálně 20 % teoretických četností smí být menší než 5. Pokud není tato podmínka splněna, slučujeme skupiny (obměny), přičemž samozřejmou podmínkou je, abychom sloučili obměny sledovaných znaků tak, aby tvořily logické skupiny (většinou se jedná o skupiny, které jsou v tabulce vedle sebe, pokud ovšem jsme dodrželi výše uvedený předpoklad uspořádání kategorií od nejnižší po nejvyšší). Příklad I.1 Na základě údajů získaných z průzkumu u 400 pracovníků firmy ověřte na 5% - ní hladině významnosti, jestli absolvování vzdělávacích kurzů ve firmě ovlivňuje výslednou úroveň jejich znalostí ověřovanou vědomostním testem. Tabulka I-2 Tabulka zjištěných (empirických) četností

Nechodil

Znalosti podprůměrné 75

Znalosti průměrné 36

Znalosti nadprůměrné 31

Občasná účast

27

19

33

79

Chodil pravidelně

31

62

86

179

133

117

150

400

Navštěvování kurzů

Četnosti

n• j

Četnosti ni• 142

Výpočet teoretických četností podle vzorce (I.3): 47,2 = (142 .133)/ 400, atd…. Tabulka I-3 Tabulka teoretických (očekávaných) četností

Nechodil

Znalosti podprůměrné 47,2

Znalosti průměrné 41,5

Znalosti nadprůměrné 53,3

Občasná účast

26,3

23,1

29,6

79

Chodil pravidelně

59,5

52,4

67,1

179

133

117

150

400

Navštěvování kurzů

Četnosti

8

n• j


Četnosti ni• 142


Testové kriterium vypočítáme podle vzorce (I.2)

(75 - 47, 2)2 (36 - 41, 5)2 (31 - 53, 3)2 (27 - 26, 3)2 (86 - 67, 1)2 + + + + ... + = 47, 2 41, 5 53, 3 26, 3 67, 1 = 48, 268

G =

Kritickou hodnotu

2 χ12−α [ (k − 1)( s − 1] = χ 0,95 [4]

Hodnota testového kriteria G = 48,268 >

najdeme v přílohové tabulce II.

2 χ 0,95 [4] = 9,5, což znamená, že na 5% hladině významnosti

zamítáme H0 o nezávislosti úrovně znalostí na navštěvování vzdělávacích kurzů a přijímáme tvrzení alternativní hypotézy, že navštěvování kurzů ovlivňuje úroveň znalostí (ověřovanou testem). Testem o nezávislosti posoudíme, jestli můžeme nebo nemůžeme zamítnout hypotézu o nezávislosti. K posouzení, jak je závislost silná (těsná), počítáme různé statistické charakteristiky, které nabývají hodnot z intervalu <0;1>, případně z polouzavřeného intervalu <0;1). Jsou-li obě proměnné statisticky nezávislé, nabývají hodnoty 0. To znamená, že z hodnot blízkých nule lze usuzovat na slabou závislost, naopak z hodnost blížících se jedné lze usuzovat na silnou závislost. Obecně platí, čím je hodnota použité charakteristiky kontingence bližší 1, tím je závislost silnější a naopak. V případě měření síly (těsnosti) závislosti mezi kategoriálními proměnnými se používají míry kontingence, uvedeme alespoň dva nejpoužívanější - Pearsonův koeficient kontingence a Cramerův koeficient kontingence (v počítačích označovaný jako Cramerovo V), které navazují na výpočet χ2 testu nezávislosti v kontingenční tabulce s testovým kriteriem G. Pearsonův koeficient kontingence

(I.4)

CP =

G G+n

.

nabývá hodnot <0;1). Horní mez je dána hodnotou h = min[(k - 1);(s - 1)]. S rostoucím h (tj. s růstem rozměrů kontingenční tabulky) se horní mez Pearsonova koeficientu blíží jedné, ale ani při pevné závislosti hodnotu 1 nenabude. Cramerův koeficient kontingence (Cramerovo V)

(I.5)

CC =

G n.h

,

kde h = min[(k - 1);(s - 1)]. Cramerův koeficient kontingence může nabýt hodnoty v intervalu <0;1>. Používat Cramérův koeficient kontingence je výhodné, pokud pracujeme se čtvercovou kontingenční tabulkou.

Příklad I.2 Pokračování příkladu I.1. Posuďte těsnost závislosti úrovně znalostí na absolvování kurzů Pearsonovým a Cramérovým koeficientem kontingence.



K výpočtům koeficientů kontingence použijeme vzorce (I.4) a (I.5).

CP =

CC =

G G+n G = n.h

=

48, 268 = 0, 328 , 48, 268 + 400

48, 268 = 0, 245 400.2 .

Z hodnot koeficientů kontingence můžeme učinit následující závěr: i když jsme na 5% ní hladině významnosti prokázali statistickou významnost závislosti úrovně znalostí na absolvování kurzů (zamítli jsme hypotézu o nezávislosti), je tato závislost statisticky významná, ale její těsnost není příliš silná. Nejjednodušší a přitom velmi častý je případ kategoriálních dat, která mohou nabývat pouze dvou obměn (nejčastěji se jedná o odpovědi na otázky typu má – nemá, souhlasí – nesouhlasí apod.). Kontingenční tabulka v takovém případě má jen dva řádky a dva sloupce a nazývá se čtyřpolní tabulka (nebo také asociační tabulka). Tabulka I-4 Asociační tabulka A/B

B1

B2

n i•

A1

n11

n12

n1•

A2

n 21

n 22

n2•

n• j

n• 1

n• 2

n

Testové kriterium hypotézy o nezávislosti kategoriálních dat se v tomto případě zjednoduší a má tvar:

G=

(I.6)

n(n11 n22 − n12 n21 ) 2 n1• n2• n•1 n•2

s rozdělením χ (1) . 2

Kritický obor tohoto testu tvoří hodnoty testového kriteria G ≥ χ1−α (1) . 2

Těsnost závislosti dvou kategoriálních dat lze posoudit koeficientem asociace, který má tvar

rAB =

(I.7)

n11 n22 − n12 n21 n1• n2• n•1 n•2

.

Koeficient asociace může nabývat hodnoty v intervalu <-1;1>. Čím je hodnota koeficientu asociace bližší ± 1, tím je závislost těsnější. Když rAB = ± 1, mluvíme o úplné asociaci, v případě koeficientu asociace rAB = 0 se jedná o nezávislost. Znaménko koeficientu asociace určuje směr závislosti (přímá nebo nepřímá). Poznámka. K posouzení těsnosti závislosti je možno v tomto případě použít rovněž Pearsonův nebo Cramérův koeficient kontingence (jsou dané vzorci (I.4). a (I.5), z koeficientů kontingence ale nemůžeme posoudit směr závislosti).

10



Příklad I.3 Posuďte na 5% hladině významnosti, jestli existuje závislost mezi způsobem placení v obchodním domě a tím, zda se jedná o pravidelného nebo náhodného zákazníka, máte-li k dispozici údaje z průzkumu provedeného u 200 zákazníků. Údaje uvádí Tabulka I-5. Tabulka I-5 Údaje průzkumu Zákazník Pravidelný Náhodný Celkem

Placení kreditní kartou 69 40 109

Placení hotově 52 39 91

Celkem 121 79 200

Testové kriterium vypočtené podle vzorce (I.6):

G=

200.(69.39 - 40.52)2 121.79.109.91

Kritická hodnota

= 0, 787 .

χ 02,95 (1) = 3,84 .

Hodnota testového kriteria nespadá do kritického oboru, nemůžeme proto na hladině významnosti 5 % zamítnout hypotézu o nezávislosti; neprokázali jsme tedy závislost mezi způsobem placení a typem zákazníka. V případě, kdy testem nezávislosti nezamítneme nulovou hypotézu o nezávislosti, nemá smysl posuzovat sílu (těsnost) závislosti.

I.2

Jednofaktorová analýza rozptylu (ANOVA)

Analýza rozptylu patří k základním statistickým metodám aplikovaným při vyhodnocování experimentálních pokusů. Používá se v případech, kdy chceme posoudit jednostrannou závislost, zda sledovaný číselný statistický znak závisí na jiném znaku, podle něhož byl sledovaný znak roztříděn do skupin. Jako příklad použití můžeme uvést zkoumání vlivu faktoru na hospodářský proces, vlivu způsobu opatření na výsledek procesu, vlivu absolvování typu školy na úspěšnost v přijímacích zkouškách, závislost ceny akcií na odvětví apod. Tuto úlohu ale můžeme formulovat i tak, že chceme ověřit, zda střední hodnoty skupin (podsouborů) sledovaného znaku vytvořené podle třídícího hlediska (třídícího znaku) jsou stejné, jinými slovy to znamená ověřit významnost rozdílů mezi výběrovými průměry většího počtu náhodných výběrů. Třídící znak může být kategoriální (slovní) nebo číselný. V úloze analýzy rozptylu testujeme nulovou hypotézu H0 : μ1 = μ2 = μ3 = .... = μk, H1 : alespoň dvě střední hodnoty se liší nebo ve tvaru Metody zkoumání závislostí 11


H0 : hodnoty znaku y nezávisí na třídícím znaku A, H1 : hodnoty znaku y závisí na třídícím znaku A. Základním předpokladem, z něhož jednofaktorová analýza rozptylu vychází, je, že všech k výběrů je nezávislých a každý z nich pochází z normálního rozdělení s různými středními hodnotami, ale stejnými rozptyly rovnými konstantě σ2. Shrneme-li to, je při použití analýzy rozptylu nutno si uvědomit, že její použití je vázáno na splnění následujících předpokladů: -

výběry jsou nezávislé,

-

každý z k výběrů pochází z normálního rozdělení N(μi, σ2i),

-

počet pozorování je větší než počet skupin ( n > k ),

-

rozptyly všech k skupin jsou stejné

σ 12 = σ 22 = ... = σ k2 .

Předpoklad normality většinou neověřujeme (říkáme, že test je robustní, to znamená málo citlivý na porušení normality), ale předpoklad shody rozptylů musíme ověřit vždy, neboť v případě nedodržení tohoto předpokladu je třeba pro řešení použít jinou statistickou metodu (např. Kruskalův - Wallisův test, viz kapitola III.2.5). Shodu rozptylů ověříme Bartlettovým nebo Cochranovým testem. Tyto testy jsou výpočetně náročnější, proto je neuvádíme, jsou ale obsaženy ve všech statistických paketech, které obsahují rovněž analýzu rozptylu (posouzení, zda zamítnout, resp. nezamítnout testovanou hypotézu o rovnosti rozptylů provádíme podle p - hodnoty (p - value) Je-li p-value ≤ α, zamítáme testovanou hypotézu, je-li p-value > α, testovanou hypotézu nezamítáme a víme, že jsme oprávněni použít analýzu rozptylu). Při jednofaktorové analýze rozptylu se zkoumá, zda lze variabilitu hodnot numerické proměnné Y vysvětlovat jediným faktorem A. Podkladem pro analýzu jsou hodnoty y na různých úrovních znaku A. Základní myšlenka analýza rozptylu spočívá v rozložení celkové variability sledovaného znaku Y na variabilitu příslušející vlivu, podle něhož bylo provedeno třídění hodnot znaku Y (tj. meziskupinovou variabilitu) a na variabilitu, která je způsobena dalšími blíže nespecifikovanými vlivy, které rovněž ovlivňují variabilitu sledovaného znaku a které způsobují kolísání hodnot uvnitř skupin vytvořených podle třídícího znaku (vnitroskupinovou variabilitu). Celkovou variabilitu charakterizuje celkový součet čtverců Q k

ni

Q =  ( yij − y ) 2 ,

(I.8)

i =1 j =1

variabilitu příslušející vlivu, podle něhož bylo provedeno třídění hodnot y charakterizuje meziskupinový součet čtverců QM k

QM =

(I.9)

 ( y − y) n , i

2

i

i =1

variabilitu zbytkovou (způsobenou dalšími blíže nespecifikovanými činiteli, které ovlivňují vedle faktoru A kolísání hodnot proměnné y) pak charakterizuje reziduální součet čtverců QR

12



k

QR = 

(I.10)

i =1

ni

(y

ij

− yi ) 2 .

j =1

Platí přitom vztah

Q = QM + QR.

(I.11)

V uvedených vzorcích jsou výběrové průměry i- té úrovně

yi

a celkový výběrový průměr

y vypočteny

podle vzorců

1 yi = n

(I.12)

ni



y=

yij , ,

j =1

1 k ni  yij . n i =1 j =1

Testové kriterium analýzy rozptylu je konstruováno jako podíl variability meziskupinové a variability vnitroskupinové, každá z nich je dělena příslušnými stupni volnosti. Testové kriterium má tvar k



QM (n − k ) ( yi − y ) 2 ni i =1 F = k −1 = , ni k QR 2 ( yij − yi ) n − k (k − 1)

(I.13)

 i =1 j =1

Testové kriterium (I.13) má rozdělení F [k-1; n-k]. Kritický obor tvoří všechny hodnoty testového kriteria, pro něž F ≥ F1-α [k-1; n-k]. Hypotézu o nezávislosti zamítáme v případě, kdy meziskupinová variabilita hodnot y je výrazně vyšší než variabilita vnitroskupinová. Výpočty analýzy rozptylu je zvykem uvádět ve formě tabulky analýzy rozptylu (viz. Tabulka I-6):

Tabulka I-6 Tabulka analýzy rozptylu Zdroj variability

Součet čtverců

Počty stupňů volnosti

Průměrné čtverce

Sledovaný faktor

QM

k-1

QM /( k-1)

Reziduální

QR

n-k

QR /(n-k)

Celkem

Q

n-1

Testové kriterium

F

Příklad I.4 Banka chce porovnat výkonnosti tří poboček z hlediska srovnatelných produktů. Každá pobočka byla testována po stejnou dobu a byl zaznamenán počet srovnatelných produktů za sledované období. Úkolem je na 5% hladině významnosti otestovat předpoklad stejné průměrné výkonnosti poboček.



Získané hodnoty v jednotlivých pobočkách jsou: Pobočka 1

47

53

49

50

46

Pobočka 2

55

54

58

61

52

Pobočka 3

54

50

51

51

49

Nulovou a alternativní hypotézu formulujeme:

Ho : μ1 = μ2 = μ3

H1 :

(průměrné výkonnosti všech poboček jsou stejné),

průměrná výkonnost alespoň jedné z poboček je jiná.

Nejprve vypočteme potřebné skupinové průměry a celkový průměr:

y1 = (47 + 53 + 49 + 50 + 46) / 5 = 49 y2 = (55 + 54 + 58 + 61 + 52) / 5 = 56 y3 = (54 + 50 + 51 + 51 + 49) / 5 = 51 , y = ( y1 + y2 + y3 ) / 3 = (49 + 56 + 51) / 3 = 52 . Součty čtverců (podle vzorců ( I.8.), (I.9.), (I.10) jsou potom: 2

2

2

Q = (47 - 52) + (53 - 52) + ... + (49 - 52) = 224 , QM = 5((49 − 52) 2 + (56 − 52) 2 + (51 − 52) 2 ) = 130 , 2

2

2

QR = (47 - 49) + (53 - 49) + ... + (49 - 51) = 94 . Výsledky výpočtů uvedeme v tabulce analýzy rozptylu:

Tabulka I-7 Tabulka analýzy rozptylu výkonnosti poboček Zdroj variability

Testové kriterium

2

Průměrné čtverce 65

94

12

7,83

8,30

224

14

Součet čtverců

Stupně volnosti

Sledovaný faktor

130

Reziduální Celkem

Kritickou hodnotou je kvantil F1-α [k-1; n-k] = F0,95 (2; 12) = 3, 89 . Protože testová statistika F = 8,30 je větší než kritická hodnota F0,95 (2; 12) = 3, 89 , zamítáme na 5% hladině významnosti nulovou hypotézu o rovnosti výkonnosti všech poboček. Průměrné výkony poboček musí být tedy pokládány za rozdílné.

Protože výpočty analýzy rozptylu jsou výpočetně náročné (zejména při větším počtu hodnot sledovaného znaku a větším počtu tříd), lze předpokládat, že se můžete spíše setkat s výstupem analýzy z počítače. Všechny specializované statistické programové systémy analýzu rozptylu

14



(ANOVA) obsahují (ANOVA obsahuje i MS EXCEL). V tabulce I-8 uvádíme výstup ze systému SAS pro data Příkladu I.4 (výstupy ostatních počítačových systémů jsou obdobné). Tabulka I-8 Výstup analýzy rozptylu v systému SAS Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

2

130.000

65.000

8.30

0.0055

Error

12

94.000

7.833

Corrected Total

14

224.000

Počítačové programy uvádějí u testového kriteria p - hodnotu (zde označenou Pr > F). Hodnota (Pr > F) = 0,0055 je v našem příkladě menší než zvolená hladina významnosti α = 0,05, což znamená, že na 5 % hladině významnosti zamítneme nulovou hypotézu o stejné výkonnosti poboček. Závěr testu pomocí hodnoty Pr > F je samozřejmě stejný jako na základě porovnání hodnoty testového kriteria s kritickou hodnotou, jak bylo provedeno výše v Příkladě I.4.

I.3

Regresní analýza

Základní statistická metoda, která se zabývá zkoumáním závislostí mezi numerickými znaky se nazývá regresní a korelační analýza. Je to souhrn metod a postupů, které slouží k analýze vztahu středních hodnot numerické proměnné Y a hodnot druhé numerické proměnné X nebo většího počtu numerických proměnných Xi. Při zkoumání závislostí dvou znaků mluvíme o jednoduché regresní a korelační analýze. V případě zkoumání závislostí více znaků se jedná o vícenásobnou regresní a korelační analýzu (dvojnásobnou, trojnásobnou atd.). Ze začátku se omezíme pouze na nejjednodušší případ zkoumání závislosti mezi dvěma číselnými znaky – jednoduchou regresní analýzu. Budeme se zabývat nejvýznamnější formou vzájemných vztahů a souvislostí mezi dvěma číselnými znaky, kterou je příčinná (kauzální) závislost. Příčinnou závislostí se rozumí situace, kdy výskyt jednoho jevu, který označujeme jako příčina, má za následek (účinek) výskyt jiného jevu. Příčinu budeme nazývat nezávisle proměnná a označovat ji X, následek nazýváme závisle proměnná a označujeme jej Y. Mohou přitom nastat dva zcela odlišné případy. Pokud jedné hodnotě nezávisle proměnné X vždy přísluší jen jedna hodnota závisle proměnné Y, mluvíme o závislosti pevné (funkční, deterministické). S takovým typem závislosti se setkáváme např. v matematice nebo ve fyzice. Například dráha u přímočarého pohybu je rychlost násobená časem (d = v.t). Při zkoumání společenských jevů se ale s pevnou závislostí nesetkáme, neboť každý jev je spojen a ovlivňován celou skupinou jiných jevů, které mnohdy ani neumíme zjistit. Například peněžní vydání všech rodin, které mají stejný příjem, nejsou stejná. Závisí na počtu dětí a jejich stáří, způsobu bydlení, zvyklostech, nárocích atd. Jedná se o závislost volnou (statistickou, korelační), kdy jedné hodnotě jednoho znaku (tzv. nezávisle proměnné, resp. vysvětlující proměnné x) odpovídají různé hodnoty druhého znaku (závisle (vysvětlované) proměnné y). Statisticky je možné zjistit směr (průběh) této závislosti i zjistit, na kterých vlivech závisí více a na kterých méně. Při zkoumání závislostí je vhodné Metody zkoumání závislostí 15


pracovat s rozsáhlými statistickými soubory, protože u malých souborů se může výrazně projevit působení různých vedlejších a náhodných vlivů, které může zjištěné výsledky zkreslit. Užitečnou pomůckou při jednoduché regresní analýze (tj., když zkoumáme závislost mezi dvěma jevy) je tzv. bodový diagram (scatter plot). V tomto grafu je v pravoúhlé soustavě souřadnic znázorněna jako bod každá dvojice hodnot (xi,yi ) všech n pozorování. Na Obrázku I-1 je graf pevné závislosti a na Obrázku I-2 graf volné závislosti. Obrázek I-1 Bodový graf pevné závislosti

Obrázek I-2 Bodový graf volné závislosti

V regresní analýze se budeme zabývat zejména případem statistické (volné) závislosti. Na Obrázku I-3 a Obrázku I-4 jsou uvedeny dva různé bodové grafy (scatter plots). I samotný bodový graf nám může poskytnout základní informace o závislosti sledovaných znaků. Z bodových diagramů můžeme posoudit ♥ průběh závislosti – jak typ závislosti (lineární, nelineární), tak i směr závislosti (kladná, záporná), ♥ sílu závislosti - tj. stupeň kolísání hodnot kolem čáry vyjadřují průběh závislosti.

Obrázek I-3 Bodový graf volné přímé závislosti

Obrázek I-4 Bodový graf volné nepřímé závislosti

Na Obrázku I-3 vidíme, že se jedná o závislost přímou (kladnou), jejíž průběh můžeme popsat přímkou, na Obrázku I-4 je závislost nepřímá (záporná), vhodnou analytickou funkcí popisující 16



závislost, by zde mohla být parabola. Jak je zřejmé z obou obrázků, neliší se obě uvedené závislosti jen z hlediska průběhu závislosti, ale i z hlediska kolísání hodnot kolem čáry vyjadřující průběh závislostí – touto úlohou se budeme blíže zabývat v kapitole I.4. Při zkoumání závislostí mezi kvantitativními znaky tedy budeme řešit dva základní úkoly: 1. Vystihnout průběh závislosti, tj. zjistit tendence změny jedné proměnné Y při změnách druhé proměnné X ( tzv. regresní úkol), 2. Charakterizovat sílu (těsnost) této závislosti (korelační úkol). Shrneme-li dosud uvedené, lze uvést, že regresní analýza je souhrn metod a postupů, pomocí nichž ♠

popisujeme průběh statistické závislosti,

♠ odhadujeme hodnoty závisle proměnné Y odpovídající dané hodnotě jedné nebo více nezávisle proměnných Xi..

I.3.1

Jednoduchá (párová) regresní analýza

V celé regresní analýze budeme zásadně používat označení Y... závisle proměnná (vysvětlovaná proměnná), X... nezávisle proměnná (vysvětlující proměnná). O údajích, které jsou podkladem pro regresní analýzu se předpokládá, že byly získány náhodným výběrem. Regresní model popisující průběh závislosti mezi závisle proměnnou Y a nezávisle proměnnou X v základním souboru nazýváme teoretická (hypotetická) regresní funkce a zapíšeme jej obecně ve tvaru: (I.14) kde

Y = f (x, β0, β1 , β2 , ... , βk ) + ε,

β j jsou regresní parametry (parametry regresní funkce), j = 0,1, 2, …, k, ε je náhodná složka (je způsobena vlivy, které nezahrnuje regresní funkce).

V praxi pracujeme s experimentálními daty a teoretickou regresní funkci odhadujeme na základě výpočtů z výběrových dat. Odhadem teoretické regresní funkce je výběrová (empirická) regresní funkce, kterou napíšeme ve tvaru (I.15) kde

yˆ = f (x, b0 , b1, b2, ... , bk ) bi jsou výběrové regresní parametry (odhady regresních parametrů βi ),

Rozdíl mezi empirickou hodnotou a odpovídající teoretickou hodnotou ležící na výběrové regresní funkci označujeme e a nazýváme ho reziduum. Reziduum je tedy odhadem náhodné složky a vypočteme je podle vztahu Metody zkoumání závislostí 17


ei = yi − yˆ i .

(I.16)

U "klasického regresního modelu" předpokládáme, že rezidua (náhodné chyby) mají normální rozdělení s nulovou střední hodnotou a konstantním rozptylem a jsou vzájemně nekorelovaná.

Postup (kroky) regresní analýzy: 1. volba typu regresní funkce (nalezení regresního modelu), 2. odhad parametrů regresního modelu, 3. testování hypotéz o těchto parametrech (ověření významnosti parametrů regresního modelu), 4. ověření vhodnosti zvoleného regresního modelu (posouzení kvality regresního modelu). Jednotlivé kroky regresní analýzy postupně probereme podrobněji.

I.3.1.1

Volba typu regresní funkce (nalezení regresního modelu)

Úkolem je nalézt vhodnou analytickou funkci, která nejlépe vystihne průběh závislosti závisle proměnné Y na nezávisle proměnné X. Vhodnou analytickou funkci volíme na základě: ♣ věcně-logického rozboru zkoumaných závislostí, ♣ grafického znázornění (bodového diagramu) – viz např. Obrázek I-3 a I-4, ♣ pomocí matematicko-statistických kriterií, s nimiž se seznámíme v kapitole I.3.1.5. Při volbě regresní funkce platí zásada, že se snažíme k popisu závislosti použít pokud možno jednodušší funkci, která vyhovuje z hlediska uvedených kriterií (tzv. "princip parsimonie").

I.3.1.2

Odhad parametrů regresního modelu

Regresní funkce, kterými můžeme popsat závislost dvou numerických proměnných, můžeme rozdělit do dvou základních skupin, na nichž potom také závisí použitá metoda odhadu parametrů regresní funkce:

♣ funkce lineární v parametrech (někdy se používá název funkce lineární z hlediska parametrů), ♣ funkce nelineární v parametrech. Funkce lineární v parametrech jsou všechny funkce, které lze obecně vyjádřit ve tvaru (I.17)

Y = β0 + β1 f1(x) + β2 f2(x) + ...+ βk fk(x) + ε.

Kde funkce f(x) nazýváme regresory.

18



Mezi funkce lineární v parametrech patří například: přímka

Y = β0 + β1 x

parabola

Y = β0 + β1 x + β2 x 2

polynomická funkce

Y = β0 + β1 x + β2 x2 + ...+ β k xk

hyperbola

Y = β0 + β1 / x

logaritmická funkce

Y = β0 + β1 log x.

Funkce nelineární v parametrech jsou všechny regresní funkce, které nelze vyjádřit ve tvaru (I.17). Patří sem například: exponenciální funkce

Y = β 0 β 1 x,

mocninná funkce

Y = β0 xβ1.

různé druhy S-křivek (např. logistická funkce).

Základní metoda odvození parametrů regresních modelů lineárních v parametrech je metoda nejmenších čtverců (MNČ). MNČ si vysvětlíme na nejjednodušším případě, kterým je přímková regrese. Teoretickou regresní přímku vyjádříme ve tvaru (I.18)

Y = β0 + β1 x,

její odhad - výběrová regresní přímka - má zápis (I.19)

yˆ = b0 + b1 x.

Cílem MNČ je najít přímku, která nejlépe popisuje průběh závislosti, tj. přímku, která je zjištěným (empirickým) hodnotám nejblíže. Pro takovou přímku musí být součet rozdílu empirických a modelových hodnot (tj. součet reziduí) roven nule. Toto ale je podmínkou nutnou, ale ne postačující, proto musíme přidat další podmínku, kterou je, aby součet čtverců rozdílu empirických a modelových hodnot (tj. součet čtverců reziduí) byl minimální:

(I.20)

n

n

i =1

i =1

S =  ( yi − yî ) 2 =  ei2 = min.

Dosadíme- li do vztahu (I.20) rovnici přímky, dostaneme výraz S ve tvaru n

(I.21)

S =  ( yi − b0 − b1 xi ) 2 = min. i =1

Vycházíme-li při odhadu parametrů regresní přímky ze vztahu (I.21), říkáme, že se jedná o parametry odvozené metodou nejmenších čtverců.



Matematicky vyjádřeno, jedná se o nalezení extrému funkce dvou proměnných. Tuto úlohu řešíme tak, že rovnici (I.21) parciálně zderivujeme podle obou hledaných parametrů b0 a b1 a derivace položíme rovny nule: n

dS = 2 ( yi − b0 − b1 xi ).(−1) = 0 db0 i =1



(I.22) n

dS = 2 ( yi − b0 − b1 xi ).(− xi ) = 0 db1 i =1



Po úpravě této soustavy dvou rovnic dostaneme tzv. normální rovnice ve tvaru: n

y

i

(I.23)

i =1

n

= nb0 + b1  xi i =1

n

y x

i i

i =1

n

n

i =1

i =1

= b0  xi + b1  xi2

a z nich vypočteme hledané parametry regresní přímky b0 a b1 . Nejdříve uvedeme tvar pro výpočet parametru b1 , který označujeme byx a nazýváme jej výběrový regresní koeficient. Parametr byx je směrnicí výběrové regresní přímky (tzn., vyjadřuje průměrnou změnu závisle proměnné Y při jednotkové změně nezávisle proměnné X). Je-li hodnota regresního koeficientu kladná, jedná se o kladnou (přímou) závislost mezi Y a X, tj., s růstem hodnot x mají hodnoty závisle proměnné y rostoucí tendenci. Je-li hodnota regresního koeficientu záporná, jedná se o zápornou (nepřímou) závislost obou sledovaných proměnných.

(I.24)

b1 = byx =

n

n

i =1

i =1

n

n yi xi −  xi

y

i

i =1

 n  n x −   xi  i =1  i =1  n

2

2 i

Vzorec pro výpočet regresního koeficientu (I.24) lze upravit do tvaru

(I.25)

byx =

xy - x y x2 - x 2

Kde výraz v čitateli je tzv. výběrová kovariance označovaná sxy , s níž se budeme dále zabývat v kapitole I.4.1, ve jmenovateli je rozptyl vysvětlující proměnné s2x.. Parametr b0 je absolutní člen přímky a je to bod, v němž regresní přímka protíná svislou osu y. V ekonomických úlohách často parametr b0 nemá interpretační smysl.

(I.26)

b0 =

n

n

i =1

i =1 n


i =1 n

n x − ( xi ) i =1

20

n

n

 yi  xi2 −  yi xi  xi 2 i

i =1

i =1

2

.


Jednodušeji lze parametr b0 vypočítat pomocí vztahu: (I.27)

b0 = y − b yx x .

.

Výpočet parametrů byx a b0 z neuspořádaných údajů (tj. dvojic hodnot (xi, yi ) u všech n zjištěných jednotek) je i bez použití speciálního statistického programu poměrně jednoduchý, lze s výhodou využít i jakýkoliv tabulkový kalkulátor (např. MS EXCEL), neboť stačí vypočítat výrazy:  xi,,  yi , xi 2,  xi yi:, jak je vidět z Tabulky I-9. Tabulka I-9 Výpočet regresních parametrů xi

yi

xi2

xi yi

x1

y1

x12

x1 y1

x2

y2

2 2

x

x2 y2

.. ..

.. ..

.. ..

.. ..

xn

yn

xn2

 xi

xn yn 2 i

 x

 yi

 xi y i

Protože v regresní analýze odhadujeme parametry teoretické regresní přímky pomocí výběrových regresních parametrů, jsou vypočítané parametry b0 a byx

bodové odhady parametrů β0 a β1

teoretického regresního modelu. Důležitou vlastností parametrů odvozených metodou nejmenších čtverců je, že se jedná o odhady nevychýlené (nezkreslené), platí tedy

(I.28)

est β0 = b0

E(b0) = β 0

est β1 = byx

E(byx) = β1

Pokud jsou parametry b0 a byx nezkreslené (nevychýlené) odhady, potom také výběrová regresní přímka je nezkresleným odhadem teoretické regresní přímky. K posouzení přesnosti provedených regresních odhadů, potřebujeme znát rozptyl reziduí D(ε) = σ2. Jeho nezkresleným odhadem je reziduální rozptyl s2 n

(I.29)

s2 =

(y

i

n

− yî ) 2

i =1

n− p

=

e

2 i

i =1

n− p

,

kde p je počet parametrů regresní funkce (pro přímku je p = 2). Pro přímku je reziduální rozptyl dán vzorcem: n

(y

i

(I.30)

s2 =

− yî ) 2

i =1

n−2

.

Přesnost odhadů výběrových regresních parametrů b0 a byx (jsou to nevychýlené odhady) měříme směrodatnými chybami jejich odhadů, tj.

sbo , sbyx . Vzorce lze nalézt ve specielní literatuře (např. v [8], Metody zkoumání závislostí 21


[9] nebo v [11] ), všechny statistické počítačové programy je automaticky počítají. Zde si pouze uvedeme, že směrodatné chyby odhadů regresních parametrů jsou násobky reziduálního rozptylu s2 (závisí tedy na čtverci odchylek zjištěných hodnot od modelu, z čehož plyne, že u modelu, kde původní hodnoty mají velkou variabilitu, i rezidua mohou být velká a odhad parametrů regresního modelu bude málo přesný). Lze rovněž vypočítat intervalové odhady parametrů regresního modelu (princip intervalových odhadů regresních parametrů je stejný jako v případě odhadů parametrů polohy základního souboru popsaný ve skriptech Pravděpodobnost a statistika, kapitola IV.2). ´Při zvolené spolehlivosti 1-α jsou dvoustranné intervaly spolehlivosti pro regresní parametry vymezeny nerovnostmi:

P (b0 − t1−α

(I.31)

sbo ≤ β 0 ≤ b0 + t1−α

2

P (b yx − t1−α

2

2

sb yx ≤ β1 ≤ b yx + t1−α

sbo ) = 1 − α 2

sbyx ) = 1 − α

Intervalové odhady vyrovnaných hodnot (tj., hodnot ležících na regresní čáře popisující průběh závislosti) pak stanovíme podle vztahu

P ( yˆ i − t1−α / 2 s yi ≤ Yi ≤ yˆ i + t1−α / 2 s yi ) = 1 − α .

(I.32)

Interval spolehlivosti pro odhad hodnot regresní přímky není ve všech bodech na regresní přímce stejně široký. Nejužší je v bodě se souřadnicemi [ x ; y ]. Tento poznatek má praktické uplatnění v tom, že odhad hodnot nezávisle proměnné Y pomocí vypočtené regresní přímky bude přesnější pro hodnoty v okolí průměrné hodnoty nezávisle proměnné X, čím více se od průměru x vzdalujeme, tím bude vypočtený interval spolehlivosti pro hodnotu y širší, tudíž odhad méně přesný. Dosazením libovolné další hodnoty nezávisle proměnné x do vypočtené regresní rovnice, získáme regresní predikce pro různé hodnoty nezávisle proměnné x. Intervaly spolehlivosti regresní predikce budou opět tím přesnější, čím je vypočtená regresní závislost těsnější (tzn, čím je vyšší hodnota korelačního koeficientu (resp. indexu determinace)) a čím je hodnota nezávisle proměnné x bližší průměru x . Predikční intervaly jsou vždy širší než intervalové odhady pro hodnoty ležící na regresní křivce. Kvantily Studentova rozdělení ve vzorcích (I.30) a (I.31) pro výpočet intervalů spolehlivosti mají obecně [n − p] stupňů volnosti, tedy pro přímkovou regresi bereme kvantily t [n − 2].

I.3.1.3

Testy hypotéz o parametrech regresní funkce

Nejčastěji používaným testem, který používají i počítačové programy regresní analýzy, je test o nulové hodnotě regresního parametru s nulovou hypotézou: Ho : β j = 0.

j = 0,1,2,…,k

Je používána oboustranná alternativní hypotéza H1 : β j ≠ 0. Testové kriterium má tvar

(I.33)

22


t=

bj sbj

.


Testové kriterium (I.33) má Studentovo rozdělení s [n − p]

stupni volnosti. Pro případ přímkové

regrese tvoří kritický obor hodnoty testového kriteria t ≤ tα /2 [n − 2] a t ≥ t1-α /2[n − 2]. Test o nulové hodnotě parametru β1 je testem lineární nezávislosti mezi oběma proměnnými, neboť v případě nezamítnutí testované hypotézy Ho : β1 = 0 nezamítáme předpoklad, že směrnice teoretické regresní přímky je nulová, tj. předpoklad, že přímka je rovnoběžná s osou x. Jinými slovy tento předpoklad říká, že Y je nezávislé na X, neboť pro různé hodnoty x jsou hodnoty y stále stejné. • Zamítnutí hypotézy o nulové hodnotě regresního parametru β1 znamená přijetí předpokladu, že střední hodnota vysvětlované proměnné Y se změní o konstantu byx při jednotkové změně nezávisle proměnné X. • Zamítnutí hypotézy o nulové hodnotě regresního parametru β0 znamená přijetí předpokladu, že regresní přímka neprochází počátkem (nulou). Protože výpočet směrodatných chyb potřebných pro výpočet testového kriteria t je výpočetně náročný, uvádíme pouze výstup z počítače i s uvedením interpretace získaných výsledků. Interpretace v počítačových programových paketech: Počítačové programy u každého testu uvádějí hladinu významnosti, na níž je test významný tzv. p hodnotu (p - value, resp. significance level). Pokud je p - value ≤ α, znamená to zamítnutí testované hypotézy o nulové hodnotě parametru, tzn. potvrzení významnosti regresního parametru.

Příklad I-5. Tabulka I-10 obsahuje údaje o stáří a ceně 10 ojetých aut. Zkonstruujte model závislosti ceny (v tis. Kč) Y na stáří (v letech) X a odhadněte cenu auta starého 10 let. Tabulka I-10 Data a výpočty pro regresní analýzu

i

xi

yi

xi2

yi2

xi.yi

1 2 3 4 5 6 7 8 9 10

3 4 5 6 7 7 8 8 9 9 66

167 165 139 149 119 129 89 115 76 89 1237

9 16 25 36 49 49 64 64 81 81 474

27889 27225 19321 22201 14161 16641 7921 13225 5776 7921 162281

501 660 695 894 833 903 712 920 684 801 7603

∑

Na Obrázku I-5 je uveden bodový graf závislosti ceny na stáří automobilu. Z grafu je patrné, že závislost je nepřímá a přímka zřejmě může být vhodným regresním modelem sledované závislosti.



Obrázek I-5

Bodový diagram závislosti ceny a stáří souboru automobilů

Výpočty provedeme “ručně” a porovnáme s výpočty ze statistického software SAS. Výpočet parametrů regresní přímky podle vzorců ( I.24) a (I.27):

byx =

n

n

n

i =1

i =1

i =1

n  yi xi −  xi  yi n  n  n  xi2 −   xi  i =1  i =1 

b0 = y - byx x = Rovnice

2

=

10.7603 − 66.1237 = −14,615 . 10.474 − 662

1237 66 + 14, 615 = 220, 156 10 10

regresní

přímky

závislosti

ceny

ojetého

auta

na

stáří

auta

má

tedy

tvar

yˆ = 220,156 − 14, 615 x . Regresní koeficient byx= −14,615 můžeme interpretovat tak, že každý rok cena ojetého auta průměrně klesá o 14615 Kč. Absolutní člen odpovídá průměrné ceně nového auta (tzn, ve stáří nula). V tabulce I-11 je uveden výstup tohoto příkladu z počítače: Tabulka I-11 Výstup z počítače (SAS): Parameter Estimates Variable

DF

Parameter Estimate

Standard Error

t Value

Pr > |t|

Intercept

1

220.15625

12.80329

17.20

<.0001

Stari

1

-14.61458

1.85966

-7.86

<.0001

Ve výstupu z PC v řádku Intercept vidíme hodnotu absolutního členu 220,156, v řádku Stari hodnotu regresního koeficientu (-14,615). Pro výpočet hodnot testového kriteria t testujícího významnost jednotlivých parametrů použijeme vypočtené hodnoty směrodatných odchylek odhadů regresních parametrů (sloupec Standard Error).

24



Dílčí t-testy vypočteme podle vzorce (I.33):

220,156 = 17, 20 12,803 −14, 615 t= = −7.86 1,8597 t=

Hodnotu testového kriteria t porovnáme s kritickými hodnotami t0,975 (8) = 2,306 ,. t0,025 (8) = −2, 306 . V obou případech je hodnota testového kriteria menší než kritická hodnota při uvažované hladině významnosti α = 0,05. V obou případech tedy zamítáme hypotézu o nulové hodnotě parametru. Stejný závěr můžeme udělat přímo z vypočtené hodnoty testového kriteria t uvedené v Tabulce I-11 ve sloupci t Value a z p – hodnoty (Pr > │t │), která má v obou případech hodnotu menší než 0,05. Odhad ceny auta starého 10 let vypočítáme dosazením hodnoty x = 10 do vypočítané regresní rovnice:

yˆ = 220,156 − 14, 615.10 = 74, 010 .

Příklad I.6 Agentura zabývající se potravinářským trhem provedla průzkum ve vybraných obchodech v Praze. Pro náš příklad bylo náhodně vybráno 30 obchodů a sledované znaky: počet prodaných kusů litrových ananasových džusů balených v obalech Tetra-Pak, cena za jeden litr a velikostní kategorie obchodu (1 - hypermarket, ...,6 - večerka). Úkolem průzkumu bylo posoudit na 5% hladině významnosti, zda počet prodaných kusů závisí na ceně a na velikosti obchodu. Data získaná v průzkumu jsou uvedena v Tabulce I-12. V této části úlohy se zaměříme pouze na popsání závislosti mezi počtem prodaných kusů a cenou (příklad bude pokračovat v kapitole I.4, Příklad I.9). Závisle proměnnou (vysvětlovanou proměnnou) Y je počet kusů, vysvětlující (nezávisle proměnnou) X je cena. Na Obrázku I-6 je zobrazen bodový graf závislosti počtu prodaných kusů na ceně.



Tabulka I-12 Data z průzkumu ve 30 prodejnách Obchod 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

Prodej Kusů 33 21 12 38 19 28 26 7 2 6 15 18 2 5 37 26 29 19 4 27 31 19 32 18 9 5 8 1 4 30

Velikost obchodu 3 2 3 2 3 3 2 6 5 2 3 1 4 6 1 1 1 2 4 2 3 2 1 3 3 2 3 4 2 1

Cena 38 40 42,5 36,5 40 38 38 43,5 50 45 40 40 55 45 36,5 38 38 38 42 38 38 39,5 36,5 39,5 42,5 45 42 55 45 38

Obrázek I-6 Bodový diagram závislosti počtu prodaných kusů na ceně

Bodovy diagram

Prodej_kusu

40 30 20 10 0

36,5

38

39,5

40

42

42,5

43,5

45

50

55

Cena Z Obrázku I-6 je zřejmé, že závislost je nepřímá, jako vhodná regresní funkce by mohla přicházet v úvahu i závislost přímková. Potřebné výpočty pro výpočet regresní přímky uvádí Tabulka I-13 26



Tabulka I-13 Výpočetní tabulka i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Celkem

yi 33 21 12 38 19 28 26 7 2 6 15 18 2 5 37 26 29 19 4 27 31 19 32 18 9 5 8 1 4 30 531

xi 38 40 42,5 36,5 40 38 38 43,5 50 45 40 40 55 45 36,5 38 38 38 42 38 38 39,5 36,5 39,5 42,5 45 42 55 45 38 1243

xi yi 1254 840 510 1387 760 1064 988 304,5 100 270 600 720 110 225 1350,5 988 1102 722 168 1026 1178 750,5 1168 711 382,5 225 336 55 180 1140 20615

xi2 1444 1600 1806,25 1332,25 1600 1444 1444 1892,25 2500 2025 1600 1600 3025 2025 1332,25 1444 1444 1444 1764 1444 1444 1560,25 1332,25 1560,25 1806,25 2025 1764 3025 2025 1444 52196

Parametry regresní přímky vypočítáme podle vzorců (I.24) a (I.27):

byx =

n

n

i =1

i =1

n yi xi −  xi

n

y

i

i =1

  n xi2 −   xi  i =1  i =1  n

b0 = y − b yx x =

n

2

=

30.20615 − 1243. 531 = −1, 9962 . 30.52196 − 12432

1243 531 − (−1,996) = 100,41. 30 30

.Rovnice regresní přímky popisující závislost mezi počtem prodaných kusů a cenou tedy má tvar

yˆ = 100,41 -1,996 x.



Regresní koeficient byx = −1,996 můžeme interpretovat tak, že s růstem ceny o 1 Kč, dochází v průměru k poklesu prodaných kusů o 2. Pro porovnání uvádíme v tabulce I-14 výstupní tabulku regresní analýzy z počítačového statistického programu STATGRAPHICS.

Tabulka I-14 Výstupní tabulka regresní analýzy z PC Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: Pocet_kusu Independent variable: Cena ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 100,41 10,3167 9,73272 0,0000 Slope -1,99621 0,247333 -8,07092 0,0000 -----------------------------------------------------------------------------

Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 2766,94 1 2766,94 65,14 0,0000 Residual 1189,36 28 42,477 ----------------------------------------------------------------------------Total (Corr.) 3956,3 29 Correlation Coefficient = -0,836287 R-squared = 69,9377 percent Standard Error of Est. = 6,51744

V Tabulce I-14 jsou ve sloupci Estimate vypočtené regresní koeficienty, Standard Error jsou směrodatné odchylky regresních parametrů, ve sloupci T-Statistic je proveden výpočet testu významnosti obou regresních parametrů podle vzorce (I.26). Při „ručním“ výpočtu bychom hodnotu testového kriteria porovnávali s kritickou hodnotou t1-α /2 (n − 2) = t0,975 (28) = 2,048. U obou parametrů je hodnota testového kriteria v kritickém oboru, zamítáme hypotézu o nulové hodnotě regresních parametrů. Počítačový výstup u obou parametrů uvádí hodnoty P-Value menší než hladina významnosti α = 0,05, zamítáme tedy hypotézu o nulové hodnotě regresních parametrů. Tento závěr je samozřejmě stejný jako při porovnání testového kriteria t s kritickou hodnotou. Důležitý je i závěr o zamítnutí nulové hodnoty zejména u regresního koeficientu, neboť nám dovoluje interpretovat regresní koeficient jako průměrnou změnu závisle proměnné při jednotkové změně nezávisle proměnné. Poznámka: význam a interpretaci pojmů a údajů v dolní části výstupu a údajů pod tabulkou si vysvětlíme u Příkladu I-9.

I.3.1.4

Nelineární regresní funkce

Pokud použijeme nelineární funkci (z hlediska průběhu), která je funkcí lineární v parametrech, pak k odhadu parametrů používáme také metodu nejmenších čtverců..

28



Často používanou nelineární regresní funkcí je parabola. Potom mluvíme o parabolické regresi. Teoretická regresní parabola a její odhad – výběrová regresní parabola – mají tvar: (I.34)

Y = β0 + β1 x + β2 x 2

(I.35)

yˆ = b0 + b1 x +b2 x2.

Parametry regresní paraboly odvodíme opět MNČ: n

(I.36)

S =  ( yi − b0 − b1 xi − b2 xi2 ) 2 = min. i =1

Protože funkce má tři parametry, musíme pro odvození parametrů regresní paraboly spočítat parciální derivace podle všech tří parametrů a položit je rovny nule: (I.37)

dS = 0; db0

dS = 0; db1

dS = 0; db2

Po úpravách získáme soustavu normálních rovnic ve tvaru:  yi = nb0 + b1  xi + b2  xi2 (I.38)

 yi xi = b0  xi + b1  xi2 + b2  xi3  yi xi2 = b0  xi2 + b1  xi3 + b2  xi4

jejímž řešením jsou odhady parametrů b0 , b1 ,b2 .

Regresní modely nelineární vzhledem k parametrům mohou být v některých případech převedeny na lineární modely pomocí vhodné transformace a odhady jejich parametrů lze získat MNČ, anebo musí být řešeny některou numerickou metodou (viz např. [8]). Postup odhadu parametrů funkcí nelineárních v parametrech: 1. Najdeme vhodný tzv. počáteční odhad, 2. Počáteční odhad postupně zlepšujeme iteračními postupy tak dlouho, až dostaneme odhad s požadovanou přesností. ad 1. Metod počátečních odhadů existuje celá řada, uvedeme alespoň některé z nich: ♥ metoda linearizující transformace, ♥ metoda apriorní informace, ♥ metoda vybraných bodů.



Metoda linearizující transformace Model s nelineární regresní funkcí (funkcí nelineární v parametrech) převedeme vhodnou transformací na model lineární a odhady jeho parametrů získáme MNČ. Například nelineární exponenciální funkci Y = β0 β1 x

(I.39)

převedeme na funkci lineární v parametrech zlogaritmováním: log Y = log β0 + x log β1.

(I.40) Pro linearizaci funkce

1 b 0 + b 1x

Y =

(I.41)

můžeme použít převrácené hodnoty

1

(I.42)

Y

= b 0 + b 1x .

Metoda apriorní informace Jako počáteční odhady použijeme hodnoty parametrů doporučované ekonomickou teorií nebo hodnoty známé z předchozího šetření (výpočtu). Metoda vybraných bodů Vybereme tolik bodů (dvojic hodnot (xi ,yi,)) kolik parametrů má zvolená regresní funkce. Souřadnice těchto bodů (hodnoty dvojic (xi,yi)) dosadíme do rovnice regresní funkce. Získáme tím soustavu nelineárních rovnic, jejichž řešením jsou hledané počáteční odhady parametrů zvolené regresní funkce. Ad 2 Metody postupného zlepšování počátečních odhadů používají iterační postupy např. Gauss-Newtonův, Marquardtův apod. Princip postupného zlepšování spočívá v tom, že v každém kroku se počítá součet čtverců reziduí n

n

i =1

i =1

S =  ( yi − yî ) 2 =  ei2 ,

(I.43)

postup končí, když rozdíl součtu čtverců reziduí v následujícím kroku se od předchozího liší jen nevýznamně málo (např. na 5. desetinném místě) Si − Si-1 < ε.

(I.44)

I.3.1.5

Posouzení kvality regresní funkce

Regresní funkce je tím vhodnější, čím jsou napozorované hodnoty více soustředěny kolem regresní křivky popisující průběh závislosti. 30



Označíme-li yi empirické (zjištěné) hodnoty závisle proměnné Y,

yˆ i vyrovnané hodnoty (hodnoty ležící na regresní křivce), pak pomocí empirických a vyrovnaných hodnot lze konstruovat tři různé součty čtverců odchylek s různou vypovídací schopností: celkový součet čtverců (který charakterizuje celkovou variabilitu)

Q=

(I.45)

n

(y

i

− y)2

i =1

teoretický součet čtverců charakterizuje část variability závisle proměnné Y zachycenou regresní funkcí n

QT =

(I.46)

 ( yˆ − y )

2

,

i =1

reziduální součet čtverců charakterizuje část variability závisle proměnné Y, kterou nelze vysvětlit regresní funkcí

QR =

(I.47)

n

(y

i

− yˆ i ) 2 .

i =1

Přitom platí

I.3.1.6

(I.48)

Q = QT + QR .

I.3.1.7

Jako míry vhodnosti regresní funkce lze použít celou řadu kritérií založených na uvedených rozptylech a kvalitu modelu pak posoudit souborně podle všech kriterií.

♦ Reziduální rozptyl n

(I.49)

s R2 =

QR = n− p

(y

i

− yˆ i ) 2

i =1

n− p

.

Vhodná je regresní funkce, která má nejmenší reziduální rozptyl. ♦ Determinační index (index determinace), který je konstruován jako poměr teoretického součtu čtverců a celkového součtu čtverců:



n

I2 =

(I.50)

QT = Q

 ( yˆ

i

i =1 n

(y

− y) 2 .

i

− y)

2

i =1

Protože se jedná o podíl jedné části rozptylu na celku, může index determinace nabývat pouze hodnot v intervalu < 0;1 >. Index determinace vyjádřený v % udává, jakou část rozptylu závisle proměnné Y lze vysvětlit zvolenou regresní funkcí. Pokud se blíží hodnota I2 jedné, lze usuzovat, že byla použita vhodná regresní funkce a že mezi Y a X existuje silná závislost. Pokud se blíží hodnota I2 nule, pak usuzujeme buď, že byla použita nevhodná regresní funkce nebo že mezi Y a X existuje jen slabá závislost. Index determinace se někdy používá i k charakterizování síly závislosti mezi proměnnými Y a X: ♣ pokud je jeho hodnota vysoká (blízká jedné), lze usuzovat na silnou závislost, ♣ z nízké hodnoty indexu determinace ale nelze usuzovat, že mezi Y a X neexistuje závislost, neboť může existovat, ale jiného typu než byla použitá regresní funkce. Za vhodnější bereme takovou funkci, která má vyšší index determinace. Při výběru vhodné regresní funkce z několika funkcí s různým počtem parametrů je nutno si uvědomit, že velikost indexu determinace závisí na počtu parametrů regresní funkce (roste s počtem parametrů). V takovém případě se pro posouzení, která funkce je vhodnější, používá upravený (modifikovaný) index determinace (v počítačích označený adjusted R - squared), který penalizuje složitost funkce vyjádřenou počtem parametrů: 2 I upr = 1 − (1 − I 2

(I.51)

n −1 . n− p

♦ "Významnost" regresních koeficientů ověřená dílčími t - testy o nulových hodnotách regresních koeficientů (H0 : β j = 0 ):

t=

(I.52)

bj sbj

,

t (n-p) .

Za vhodnou bereme regresní funkci, která má významné regresní parametry (tj., zamítneme hypotézu o nulové hodnotě regresních parametrů). ♦ Celkový F – test testuje nulovou hypotézu: H0 : β0 = c,

β1 = β2 = .... = βk = 0. H1 : alespoň jeden z parametrů β1, β2,.... ,βk není nulový.

32



Testové kriterium celkového F - testu má tvar:

(I.53)

QT p −1 . F= QR n− p

F [(p-1); (n-p)]

Kritický obor tvoří hodnoty testového kriteria F ≥ F1-α [(p-1);(n-p)]. Vede-li celkový F - test k nezamítnutí hypotézy H0 (říkáme, že test je nevýznamný), je zvolená regresní funkce nevhodná. V tomto případě už nemá smysl provádět dílčí t - testy. Je-li celkový F- test významný, nelze ještě usuzovat, že byla zvolena vhodná regresní funkce. Tento závěr je oprávněný, jestliže i dílčí t - testy jsou významné.

Příklad I.7 Pro údaje Příkladu I.6 posuďte, jestli existuje vhodnější regresní funkce než přímka, kterou jsme použili v Příkladu I.6. Vhodnou funkci vybereme podle výše procenta rozptylu závisle proměnné Y, který můžeme vysvětlit vlivem nezávisle proměnné X při použití dané regresní funkce, tj. pomocí velikosti indexů determinace (v počítačích označené R - squared). Výpočty indexu determinace pro některé regresní funkce uvádí Tabulka I-15. Tabulka I-15 Porovnání regresních modelů pomocí indexu determinace Model

R-squared

S-curve

93,52

Multiplicative

92,46

Exponential

90,56

Linear

69,94

Z tabulky I-15 je zřejmé, že vhodnější regresní funkcí by mohla být např. S - křivka, pomocí této regresní závislosti by bylo možno vysvětlit 93,52 % rozptylu počtu prodaných kusů, zatímco pomocí přímkového modelu pouze 69,94 % . Na Obrázku I-7 je uveden graf závislosti s regresním modelem s S - křivkou, tabulka I-16 obsahuje výstupní tabulku modelu s použitím regresní S - křivky.



Obrázek I-7 Regresní S-křivka závislosti počtu prodaných kusů na ceně

40

Pocet_kusu

30 20 10 0 36

40

44

48

52

56

Cena

Tabulka I-16

Výstupní tabulka – regresní model S-křivka

Regression Analysis - S-curve model: Y = exp(a + b/X) ----------------------------------------------------------------------------Dependent variable: Pocet_kusu Independent variable: Cena ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept -6,7948 0,465906 -14,5841 0,0000 Slope 381,723 18,9824 20,1093 0,0000 -----------------------------------------------------------------------------

Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 26,6595 1 26,6595 404,39 0,0000 Residual 1,84593 28 0,065926 ----------------------------------------------------------------------------Total (Corr.) 28,5054 29 Correlation Coefficient = 0,96708 R-squared = 93,5243 percent Standard Error of Est. = 0,256761

Regresní model (S-křivku) nyní zapíšeme ve tvaru

I.4

yˆ = exp(−6,7948 +

381,723 ). x

Korelační analýza

Korelační analýza je základní statistickou metodou měření síly (těsnosti) lineárních závislostí numerických proměnných. Silou (těsností) závislosti rozumíme stupeň, s nímž se závislost blíží funkční závislosti. Jinými slovy, závislost je tím silnější, čím více jsou jednotlivé napozorované hodnoty blíže regresní čáře popisující průběh závislosti.

34



Při korelační analýze předpokládáme, že všechna napozorovaná data jsou hodnotami vícerozměrné náhodné veličiny, tedy při uvažování dvojic hodnot předpokládáme, že jsou hodnotami dvourozměrné proměnné apod. Na rozdíl od regresní analýzy může v korelační analýze kterákoliv z uvažovaných proměnných vystupovat jako závisle proměnná a ostatní jako nezávisle proměnné, neboť mezi proměnnými existuje tzv. vzájemná závislost.

I.4.1

Jednoduchá (párová) korelace

V nejjednodušším (a nejčastějším) případě závislosti dvou číselných proměnných Y a X má smysl sledovat regresní vztahy:

(I.54)

Y = β 0 + β1 x

yˆ = b0 + b yx x

X = β 0 + β1 y

xˆ = a 0 + bxy y

Přímky (I.54) se nazývají sdružené regresní přímky a jejich směrnice byx , bxy jsou sdružené regresní koeficienty. Vzájemná poloha sdružených regresních přímek charakterizuje těsnost závislosti mezi oběma proměnnými. Použitím MNČ odvodíme regresní koeficienty sdružených regresních přímek ve tvaru: n

n b yx =



y i xi −

i =1

 i =1

 y 

(I.55)

bxy =



n

y i xi −

i =1

n

n

 i =1

i

i =1

  n xi2 −  xi   i =1 

n

n

n

xi

i =1

n

n

n

2

=

2

x −x

2

=

s xy s x2

.

n

 y xi

i =1

 yi2 −   

xy − x. y

n

 i =1

i =1

 yi   

2

i

=

xy − x . y y2 − y2

=

s xy s 2y

.

Absolutní členy sdružených regresních přímek vypočítáme pomocí vztahů: (I.56)

b0 = y - byx x a 0 = x - bxyy

Sílu závislosti dvou proměnných lze posoudit pomocí tzv. kovariance sxy = syx= cov(x,y):



n

 ( x − x ).( y − y ) i

s xy =

(I.57)

i

i =1

n

= xy − x. y .

Kovariance může nabývat kladných i záporných hodnot a její znaménko určuje směr závislosti. Základní mírou síly (těsnost) lineární závislosti dvou proměnných je párový korelační koeficient ryx, který je definován jako poměr kovariance syx a součinu směrodatných odchylek obou proměnných sx a sy :

ryx =

(I.58)

sxy = s xs y

xy - x .y (x 2 - x 2 )(y2 - y 2 )

.

Korelační koeficient může nabývat hodnot v intervalu < -1; 1 >. Znaménko korelačního koeficientu vyjadřuje směr závislosti: ryx > 0 kladná závislost

ryx = 1

ryx < 0 záporná závislost

ryx = -1 pevná (funkční) nepřímá lineární závislost.

pevná (funkční) přímá lineární závislost

Zvláštní případ představuje hodnota korelačního koeficientu ryx = 0, kdy se jedná o lineární nezávislost.

Čtverec korelačního koeficientu se nazývá koeficient determinace. Tato míra těsnosti závislosti je rovna součinu obou sdružených regresních koeficientů:

ryx2 =

(I.59)

s xys xy s x2sy2

= byxbxy .

Ze vztahu (I.59) lze odvodit další vzorec pro výpočet korelačního koeficientu, pokud známe rovnice obou sdružených regresních přímek:

ryx = rxy = ± b yx bxy .

(I.60)

V tomto případě výpočtu musíme znaménko korelačnímu koeficientu přiřadit dodatečně podle následujícího schématu: Tabulka I-17 Vztah mezi sdruženými regresními koeficienty a korelačním koeficientem Sdružené regresní koeficienty

byx + -

bxy + -

Korelační koeficient

rxy + -

Poznámka: různá znaménka sdružených regresních koeficientů nejsou možná. 36



Při interpretaci výše korelačního koeficientu si vždy musíme uvědomit, že je mírou těsnosti lineární závislosti: - je-li korelační koeficient ryx vypočítaný z výběrových dat blízký ±1, jedná se o silnou lineární závislost mezi proměnnými Y a X, - blíží-li se korelační koeficient ryx nule, znamená to, že sledované proměnné jsou lineárně slabě korelované. To ale ještě neznamená, že jsou nezávislé, protože mezi nimi může existovat závislost jiná než lineární. Při výpočtech bez použití počítače se používá výpočetní tvar korelačního koeficientu, pro nějž potřebujeme předem vypočítat pouze výrazy  xi,,  yi ,  xi 2,Σyi2,  xi yi. Výpočetní tvar korelačního koeficientu se často uvádí ve tvaru: n

n

i =1

ryx =

(I.61)



n

y i xi −

 n  n xi2 −    i =1  



n

 i =1

n

 y xi

i =1

i

i =1

 n   n   xi yi2 −          i =1 2



n

 i =1

2

.

 yi      

Příklad I.8 Pokračování Příkladu I.5. Na 5% hladině významnosti posuďte těsnost závislosti mezi cenou a stářím auta a posuďte kvalitu lineárního modelu. Korelační koeficient můžeme vypočítat podle vzorce (I.61) na základě dat z Tabulky I-10.

ryx =

10.7603 - 66.1237 10.474 - 662 . 10.162281 - 12372

= 0, 9409

Hodnotu korelačního koeficientu můžeme rovněž vypočítat z dat výstupu z PC (Tabulka I-18), kde je uveden index determinace R-square = 0,8853, korelační koeficient je odmocnina z indexu determinace.

ryx = R 2 = 0,8853 = 0,9409

.

Index determinace R-square = 0,8853 můžeme rovněž použít k posouzení těsnosti závislosti. Index determinace nám říká, že 88,5 % variability ceny můžeme vysvětlit stářím automobilu (nevysvětlená část variability ceny je způsobena počtem ujetých km, zachovalostí, výbavou auta apod.)



Tabulka I-18 Výstup ze SASu 11.52387

R-Square

0.8853

123.70000

Adj R-Sq

0.8710

Root MSE Dependent Mean

9.31598

Coeff Var

Tabulka I-19 uvádí výstup analýzy rozptylu ze systému SAS s údaji pro výpočet celkového F- testu, hodnotu F – testu a hodnotu p – value.. Tabulka I-19 Výstup ze SASu Analysis of Variance Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

1

8201.70417

8201.70417

61.76

<.0001

Error

8

1062.39583

132.79948

Corrected Total

9

9264.10000

Celkový F- test posoudí vhodnost modelu a významnost korelačního koeficientu. V Tabulce I-19 jsou všechny potřebné údaje pro výpočet F-testu podle vzorce (I.53).

QT

8201, 70

p- 1 1 F = = = 61, 76 QR 1062, 39 n- p

F1−α [( p − 1); (n − p )] = F0,95 [1;8] = 5,31 .

8

Celkový F- test potvrzuje, že regresní model je vyhovující. Stejný závěr bychom udělali na základě hodnoty Pr > F, která je menší než 0,05.

Příklad I-9. Posuďte sílu závislosti počtu prodaných kusů a ceny džusů z Příkladu I-6. V Tabulce I-20 jsou uvedeny potřebné výpočty. Závislost byla v Příkladu I-6 popsána regresní přímkou

yˆ = 100,41 -1,996 x. Těsnost (sílu) této závislosti charakterizuje korelační koeficient vypočítaný podle vzorce (I.61).

ryx =

38

30.20615 - 531.1243 2

2

(30.13355 - 531 )(30.52196 - 1243 )


= - 0, 8363 ;

ryx2 = 0, 6994 .


Korelační koeficient je záporný, což vyjadřuje nepřímou závislost mezi počtem prodaných kusů a cenou. Čtverec korelačního koeficientu můžeme interpretovat tak, že z 69,95 % lze variabilitu hodnot závisle proměnné Y vysvětlit variabilitou hodnot nezávisle proměnné X. Výpočet korelačního koeficientu z počítače je uveden v Tabulce I-14 pod tabulkou analýzy rozptylu.

Tabulka I-20 Potřebné propočty pro výpočet korelačního koeficientu i

xi

yi

xi2

y i2

xiyi

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Celkem

33 21 12 38 19 28 26 7 2 6 15 18 2 5 37 26 29 19 4 27 31 19 32 18 9 5 8 1 4 30 531

38 40 42,5 36,5 40 38 38 43,5 50 45 40 40 55 45 36,5 38 38 38 42 38 38 39,5 36,5 39,5 42,5 45 42 55 45 38 1243

1089 441 144 1444 361 784 676 49 4 36 225 324 4 25 1369 676 841 361 16 729 961 361 1024 324 81 25 64 1 16 900 13355

1444 1600 1806,25 1332,25 1600 1444 1444 1892,25 2500 2025 1600 1600 3025 2025 1332,25 1444 1444 1444 1764 1444 1444 1560,25 1332,25 1560,25 1806,25 2025 1764 3025 2025 1444 52196

1254 840 510 1387 760 1064 988 304,5 100 270 600 720 110 225 1350,5 988 1102 722 168 1026 1178 750,5 1168 711 382,5 225 336 55 180 1140 20615

Při výpočtu korelačního koeficientu z experimentálních dat si vždy musíme uvědomit, že vypočítaný výběrový korelační koeficient ryx je bodovým odhadem teoretického korelačního koeficientu ρyx těsnosti závislosti v základním souboru.

Výběrový korelační koeficient ryx je konzistentní odhad, ale není

odhad nevychýlený (je zkreslený). Zkreslení odhadu je tím menší, čím je větší výběrový soubor a čím je mezi y a x silnější závislost. Metody zkoumání závislostí 39


Nezkresleným odhadem párového korelačního koeficientu ρyx je upravený (adjusted) korelační koeficient r∗yx. Čtverec upraveného korelačního koeficientu se nazývá upravený koeficient determinace (v počítačových programech bývá označen adjusted R - squared).

ryx*2 = 1 - (1 - ryx2 )

(I.62)

n- 1 . n- 2

Vysoká hodnota výběrového korelačního koeficientu nemusí ještě znamenat silnou závislost v základním souboru, neboť může být zkreslena v důsledku náhodnosti výběru, zejména v případě malých výběrů. Významnost výběrového korelačního koeficientu ověřujeme testem nezávislosti. Nulová hypotéza testu nezávislosti: H0 : ρyx = 0. Testové kriterium významnosti korelačního koeficientu má Studentovo rozdělení t [n - 2].

t=

(I.63)

ryx n - 2 1 - ryx2

.

Kritický obor tohoto testu závisí na alternativní hypotéze: Tabulka I-21 Vymezení kritických oborů Alternativní hypotéza

Kritický obor

H1 : ρyx ≠ 0

t ≥ t1 -α /2 (n –2)

H1 : ρyx < 0

t ≤ t α (n-2)

H1 : ρyx > 0

t ≥ t 1 - α (n-2)

t ≤ t α / 2 (n-2)

Při velkých výběrech můžeme brát místo kvantilů Studentova rozdělení kvantily normovaného normálního rozdělení u.

Příklad I.10 Otestujte na 5% hladině významnosti statistickou významnost korelačního koeficientu závislosti počtu prodaných kusů na ceně z Příkladu I.9 pomocí testového kriteria t. Korelační koeficient závislosti vypočtený z údajů 30 obchodů byl v Příkladu I.9 vypočten:

ryx = - 0, 8363 . Pro ověření významnosti vypočteného korelačního koeficientu použijeme test podle vzorce (I.63):

t=

40

ryx n - 2 1 - ryx2

=

- 0, 8363 28 1 - 0, 83632


= - 8, 071 .


Kritické hodnoty testu jsou kvantily: - při jednostranné alternativní hypotéze t0,05 [28] = −1,701, - při dvoustranné alternativní hypotéze t0,025 [28] = −2,048. Vypočítaný korelační koeficient ryx = − 0,8363 značí statisticky významnou závislost při uvažování jak oboustranné, tak i jednostranné alternativy, neboť hodnota testového kriteria t = − 8,071 v obou případech leží v kritickém oboru.

Příklad I.11 Předpokládejme, že vypočtený výběrový korelační koeficient měl hodnotu ryx = 0,3. Ověřte na 5% hladině významnosti jeho statistickou významnost, víte-li, že byl vypočten z výběru a) 11 jednotek, b) 51 jednotek. a) n = 11

t=

ryx n - 2 2 yx

1- r

=

0, 3 9 2

1 - 0, 3

= 0, 943 .

Kritické hodnoty testu jsou kvantily: t0,95 [9] = 1,83 t0,975 [9] = 2,26 Z výsledku testu vidíme, že pro výběrový korelační koeficient ryx = 0,3, pokud byl vypočtený z výběru rozsahu n = 11 nemůžeme na 5% hladině významnosti zamítnout nulovou hypotézu o nezávislosti (tzn., že korelační koeficient nevyjadřuje na 5% hladině významnosti statisticky významnou závislost). b) n = 51

t=

ryx n - 2 2 yx

1- r

=

0, 3 49 1 - 0, 32

= 2, 2 .

Kritické hodnoty testu jsou nyní kvantily: t0,95 [49] = 1,677 t0,975 [49] = 2,01 V případě výběru rozsahu n = 51 zamítáme na 5% hladině významnosti hypotézu o nezávislosti, tedy výběrový korelační koeficient ryx = 0,3 značí na 5% hladině významnosti statisticky významnou závislost. Statistické počítačové programy častěji používají k ověření významnosti korelačního koeficientu analýzu rozptylu s testovým kriteriem konstruovaným jako podíl variability vysvětlené modelem a reziduální variability: Metody zkoumání závislostí 41


n

F=

(I.64)

2 sM s R2

QM p −1 = = QR n− p

 ( y − y) i

2

i =1

p −1 n

 ( y − yˆ ) i

i =1

i

,

F [p-1;n−p].

2

n− p

kde p je počet parametrů regresní funkce. Testové kriterium má Fischerovo rozdělení F [p −1 ; n − p]. V případě přímkové závislosti je p = 2 a testové kriterium lze upravit do tvaru n

 ( y − y) i

2

i =1

F=

(I.65)

n

1

 ( y − yˆ ) i

i =1

i

.

F [1;n−2].

2

n−2

Alternativní hypotézu uvažujeme oboustrannou H1 : ρyx ≠ 0, tedy kritický obor tvoří hodnoty testového kriteria F ≤ Fα /2 [1; n - 2] a F ≥ F1- α /2 [1; n - 2]. Testové kriterium dané vzorcem (I.65) lze upravit do tvaru:

F=

(I.66)

ryx2 (n − 2) 1 − ryx2

.

Příklad I.12 Otestujte na 5% hladině významnosti statistickou významnost korelačního koeficientu závislosti počtu prodaných kusů na ceně z Příkladu I.9 pomocí testového kriteria F. Korelační koeficient ryx = -0,8363. Testové kriterium podle vzorce (I.66)

F=

ryx2 (n - 2) 1 - ryx2

=

0, 83632 . 28 1 - 0, 83632

= 65, 14

Kritická hodnota F0,95 [1; 28] = 4,196.

42



Hodnota testového kriteria leží v kritickém oboru, zamítáme tedy na 5% hladině významnosti hypotézu o nezávislosti. Závěr pomocí analýzy rozptylu je samozřejmě stejný jako v případě testování hypotézy o nezávislosti t- testem v Příkladě I.10. Poznámka: Podklady pro výpočet testu pomocí testového kriteria ve tvaru (I.65) je možno najít ve výstupní tabulce analýzy rozptylu uvedené v Tabulce I-14:

F=

2766, 94 = 65,14 1189, 36 28

K posouzení významnosti slouží hodnota p-value. Jelikož je p-value menší než hladina významnosti, na níž provádíme testování (tj. α = 0,05), zamítáme hypotézu o nezávislosti počtu prodaných kusů na ceně.

I.4.2

Test nezávislosti pořadovou korelací

Chceme-li získat rychlou informaci o závislosti dvou znaků, je možno jednotlivé hodnoty obou proměnných nahradit jejich pořadovými čísly a vypočítat Spearmanův koeficient pořadové korelace. Tento postup lze samozřejmě použít i tehdy, když máme rovnou k dispozici pořadové znaky nebo v případě, kdy jeden znak je pořadový a druhý číselný, v takovém případě číselný znak převedeme na znak pořadový.. V takových případech testujeme nulovou hypotézu: H0: mezi znaky X a Y neexistuje pořadová závislost (tzn., že znaky jsou nezávislé, tedy ρyx=0), H1: existuje pořadová závislost mezi znaky X a Y nebo jednostranné alternativy: H1 : existuje kladná pořadová závislost (existuje shoda pořadí), H1 : existuje záporná pořadová závislost (existuje neshoda pořadí). Pro testování této nulové hypotézy vypočítáme Spearmanův koeficient pořadové korelace n

6. (I.67)

rS = 1 −

 (i i =1

x

− iy )2

n(n 2 − 1)

,

kde ix a iy jsou pořadí srovnávaných hodnot sledovaných proměnných X a Y. Existují-li shodné hodnoty, přiřadíme každé z nich průměr z pořadí, které by tyto hodnoty získaly v případě, kdyby nebyly shodné. Koeficient pořadové korelace může nabývat hodnot v intervalu < −1;1 >, přičemž hodnoty rS blízké 1 značí shodu pořadí, tedy kladnou závislost; hodnoty Spearmanova koeficientu pořadové korelace blízké −1 vyjadřují neshodu pořadí, tudíž zápornou závislost; hodnoty blízké nule vyjadřují nezávislost



pořadí. Ke statistickému ověření významnosti koeficientu rS jsou tabelovány kritické hodnoty nebo můžeme významnost závislosti ověřit pomocí t-testu analogicky jako u korelačního koeficientu. Testové kriterium významnosti Spearmanova koeficientu má Studentovo rozdělení t [n−2].

t=

(I.68)

ryx n - 2 1 - ryx2

.

Kritický obor závisí na alternativní hypotéze: H1 : ρyx ≠ 0

t ≤ tα /2 (n - 2) t ≥ t1- α /2 (n - 2)

H1 : ρyx < 0

t ≤ tα (n - 2)

H1 : ρyx > 0

t ≥ t1- α (n - 2).

Příklad I.13 Ověřte na 5% - ní hladině významnosti shodu hodnocení 12 pracovníků vedoucím a srovnáním výkonů jednotlivých pracovníků (činnost ohodnocena počtem získaných bodů). Údaje a potřebné výpočty uvádí Tabulka I-22. (Hodnocení pomocí bodů musíme nejdříve převést na pořadí). H0 : mezi pořadím vedoucího a pořadím výkonů neexistuje pořadová závislost, H1 : existuje shoda pořadí hodnocení (uvažujeme jen jednostrannou alternativu).

Tabulka I-22 Data a výpočty Spearmanova koeficientu Pracovník A B C D E F G H I J K L 

Pořadí vedoucího 4 5 12 2 3 10 7 11 9 1 6 8 x

Body za výkon 93 119 110 87 99 176 150 144 125 101 92 170 X

Pořadí bodů 3 7 6 1 4 12 10 9 8 5 2 11 x

Výpočty ix – iy 1 -2 6 1 -1 -2 -3 2 1 -4 4 -3 X

Spearmanův koeficient pořadové korelace vypočítáme podle vzorce (I.67) n

6 rS = 1 −

44

 (i

x

− iy )2

i =1

2

n(n − 1)

= 1−

6.102 = 0,643 , 12.143


Výpočty (ix - iy )2 1 4 36 1 1 4 9 4 1 16 16 9 102


testové kriterium podle vzorce (I.68)

rS

t=

n- 2 =

1 - rS2

0, 643. 10 1 - 0, 6432

= 2, 65 ,

kritická hodnota t1-α [n−2] = t0,95 [10] = 1,81. Hodnota testového kriteria t = 2,65 je vyšší než kritická hodnota t0,95 [10] = 1,81, zamítáme tedy hypotézu o nezávislosti obou pořadí a můžeme konstatovat, že shoda pořadí hodnocení vedoucího a pořadí výkonů je na 5% - ní hladině významnosti statisticky významná.

I.5

Vícenásobná lineární regresní a korelační analýza

I.5.1

Vícenásobná regrese

Nyní si regresní úlohu z kapitoly I.2 rozšíříme a budeme uvažovat jednu závisle proměnnou (vysvětlovanou proměnnou) Y a několik nezávisle proměnných (vysvětlujících proměnných) X1, X2 , ..., Xk. Regresní funkce bude ve tvaru y = f (x1, x2, ..... xk). Výklad provedeme na nejjednodušším případě vícenásobné závislosti - trojnásobné regresi, což je případ se dvěma vysvětlujícími proměnnými X1 a X2. Teoretická regresní funkce (v případě trojnásobné závislosti se jedná o rovnici teoretické regresní roviny) má nyní tvar

Yi = β 0 + β1 x1i + β 2 x 2i + ε i ,

(I.69) kde β0

je absolutní člen rovnice,

β1 a β2 jsou teoretické dílčí regresní koeficienty, εi

je náhodná složka.

Rovnice výběrové regresní funkce (výběrové regresní roviny) pak bude

yˆ i = b0 + b1 x1i + b2 x2i ,

(I.70) kterou přepíšeme do tvaru:

yˆ i = b y. x

(I.71) kde

x 1 2

by . x x

je absolutní člen regresní rovnice,

1 2

byx . x , byx 1

2

+ b yx1. x2 x1i + b yx2 . x1 x2i ,

2

. x1

jsou výběrové dílčí regresní koeficienty (odhady teoretických dílčích



regresních koeficientů), Odhady parametrů β0, β1 a β2 získáme metodou nejmenších čtverců: n

S=

(I.72)

 ( y i − b y. x x

1 2

i =1

− b yx1. x21 x1i − b yx2 .x1 x 2i ) 2 = min .

Interpretace dílčích regresních koeficientů:

byxi . xj

představuje průměrnou změnu závisle proměnné Y odpovídající jednotkové změně nezávisle

proměnné Xi umístěné před tečkou za předpokladu, že proměnná Xj za tečkou je konstantní.

Teoretický obecný vícenásobný lineární regresní model má analogicky tvar

Yi = β 0 + β1 x1i + β 2 x2i + ... + β k xki + ε i

(I.73)

A jeho odhad – výběrový vícenásobný regresní model (I.74)

yˆ i = b y . x1x2 ... xk + b yx1 . x2 x3 .... xk x1i + b yx2 . x1x3 ... xk x2i + ... + b yxk . x1x2 ... xk −1 xki

Odhady parametrů regresní rovnice odvodíme opět pomocí MNČ. Statistickou významnost jednotlivých dílčích regresních parametrů ověříme t-testem jako v případě jednoduché regrese. Testujeme nulovou hypotézu: Ho : β j = 0,

j = 0,1,…,k

Nejčastěji je používána oboustranná alternativní hypotéza H1 : β j ≠ 0. Testové kriterium má tvar (stejně jako v případě jednoduché závislosti)

(I.75)

t=

bj sbj

.

Testové kriterium (I.75) má Studentovo rozdělení, nyní s (n − p) stupni volnosti. Kritický obor tvoří hodnoty testového kriteria t ≤ tα /2 (n − p) a t ≥ t1-α /2 (n − p), kde p značí počet parametrů funkce. V případě, když t-testem zjistíme, že některý z dílčích regresních koeficientů není statisticky významný, většinou (ale ne vždy) to znamená, že příslušná vysvětlující proměnná je v regresním modelu nadbytečná a lze ji z modelu vypustit.

46



I.5.2

Vícenásobná korelace

Ve vícenásobné korelační analýze se setkáváme se třemi druhy korelačních koeficientů: • výběrové párové korelační koeficienty, které měří těsnost lineární závislosti dvou proměnných a to jak závislosti mezi závisle proměnnou y a jednotlivými vysvětlujícími proměnnými, tak i těsnost lineární závislosti všech dvojic vysvětlujících proměnných:

ryx1 , ryx2 , ryx3 ,..., ryxk,, rx1x2 , rx1x3, rx2x3, rx1xk, ..... Výběrové párové korelační koeficienty jsou odhady teoretických párových korelačních koeficientů

ρyx1 , ρy x2 , ρyx3 , ..., ρy xk , ρx1 x2 , ρx1 x3 , ρx2 x3 , ρx1 xk …. • výběrové dílčí (parciální) korelační koeficienty měří těsnost lineární závislosti dvou proměnných uvedených před tečkou za předpokladu, že vliv ostatních proměnných uvedených za tečkou je konstantní. Např. výběrový dílčí korelační koeficient ryx1 . x2 x3 .... xk měří těsnost lineární závislosti mezi Y a X1 za předpokladu, že všechny ostatní proměnné umístěné za tečkou jsou konstantní. Tento výběrový dílčí korelační koeficient je bodovým odhadem teoretického dílčího korelačního koeficientu ρ yx1. x2 x3 ... xk . Výběrové dílčí korelační koeficienty můžeme vypočítat s využitím jednoduchých korelačních koeficientů. Pro případ nejjednodušší vícenásobné závislosti – trojnásobné regrese, platí následující vzorce:

(I.76)

ry. x1x2 =

(I.77)

ry. x2 x1 =

ryx1 − ryx2 .rx1x2

(1 − r )(1 − r ) , 2 yx2

2 x1x2

ryx2 − ryx1 .rx1x2

(1 − r )(1 − r ) . 2 yx1

2 x1x2

• vícenásobný korelační koeficient měří těsnost lineární závislosti mezi proměnnou před tečkou a všemi proměnnými umístěnými za tečkou (tj. sílu společného působení všech vysvětlujících proměnných). Výběrový vícenásobný korelační koeficient ry. x1x2 x3 ... xk koeficientu korelace

ρ y. x1 x2 x3 ... xk .

je bodovým odhadem vícenásobného

Je to odhad vychýlený (zkreslený). Nezkresleným odhadem je

upravený (modifikovaný) vícenásobný korelační koeficient. K posouzení těsnosti vícenásobné závislosti se častěji používá čtverec vícenásobného korelačního koeficientu, tzv. vícenásobný koeficient determinace 2

vícenásobný koeficient determinace r y . x x

1 2 ... xk

ρ 2 y. x1x2 ... xk a

jeho odhad výběrový

.



2

Vícenásobný koeficient determinace r y . x x

1 2 ... xk

můžeme interpretovat jako podíl variability závisle

proměnné y, který lze vysvětlit společným působením všech vysvětlujících proměnných. V počítačových programech je vícenásobný koeficient determinace označován R-squared. K ověření významnosti vícenásobného korelačního koeficientu se obvykle provádí celkový F-test významnosti vztahu mezi závisle proměnnou a celým souborem k nezávisle proměnných. Testované hypotézy mají tvar:

H 0 : β k = konst.

β1 = β 2 = ... = β k = 0

,

H 1 : ne všechna β i = 0 ,

i = 1,2,...,k.

Test provádíme pomocí analýzy rozptylu. Používáme testové kriterium n

(I.78)

F=

2 sM s R2

QM p −1 = = QR n− p

 ( y − y) i

i =1

2

p −1

n

 ( y − yˆ ) i

i

. 2

i =1

n− p Celkový test je vždy pravostranný. Při platnosti H0 má testová statistika F-rozdělení s počty stupňů volnosti (p-1) a (n-p). Kritický obor tvoří hodnota testového kriteria F ≥ F1-α [p-1; n-p].

Příklad I.14 Použijte data průzkumu v potravinářských obchodech z Příkladu I.6 a vypočítejte model lineární regresní závislosti počtu prodaných kusů na ceně i velikosti obchodu a posuďte sílu této závislosti. Data průzkumu jsou uvedena v Tabulce I-12. Závisle proměnnou (vysvětlovanou proměnnou) Y je počet kusů, vysvětlující (nezávisle proměnné) jsou nyní dvě : X je cena, Z je velikost obchodu. Protože ruční výpočty v této situaci jsou již náročnější, uvádíme v Tabulce I-23 pouze řešení – počítačový výstup ze STATGRAPHICS.

48



Tabulka I-23 Výstupní tabulka vícenásobní regresní analýzy. Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: Pocet_kusu ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT 93,7211 10,9382 8,56828 0,0000 Cena -1,72892 0,295915 -5,84261 0,0000 Velikost_obchodu -1,64489 1,05463 -1,55968 0,1305 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 2865,24 2 1432,62 35,45 0,0000 Residual 1091,06 27 40,4095 ----------------------------------------------------------------------------Total (Corr.) 3956,3 29 R-squared = 72,4223 percent R-squared (adjusted for d.f.) = 70,3795 percent

Regresní model vícenásobné závislosti má tvar:

yˆ = 93,7211 − 1,72892 x − 1,64489 z Ve sloupci T-statistic v Tabulce I-23 jsou vypočteny hodnoty testového kriteria podle vzorce (I.75). Kritickou hodnotou je kvantil t1-α /2 (n - p) = t0,975(27) = 2,052. Hodnota testového kriteria t-testu u dílčího regresního koeficientu u proměnné X (cena) je větší než kritická hodnota, zamítáme hypotézu o nezávislosti a lze konstatovat, že počet prodaných kusů se sníží v průměru o 1,7289 při zvýšení ceny o 1 Kč za předpokladu, že by zůstala nezměněná velikost obchodů. Hodnota t - testu u dílčího regresního koeficientu u proměnné Z leží v oboru přijetí, nulovou hypotézu o nezávislosti tedy nezamítáme. Stejný závěr bychom udělali podle hodnoty P-value v Tabulce I-23. Na základě těchto výsledků můžeme předpokládat, že vysvětlující proměnná „velikost obchodu“ je v regresním modelu nadbytečná a bylo by možno ji z modelu vypustit. Těsnost vícenásobné závislosti charakterizuje vícenásobný korelační koeficient, který vypočítáme jako odmocninu z R-squared adjusted (ve spodní části Tabulky I - 23), tedy

ry.xz =

0, 703795 = 0, 8389 .

Hodnota R-squared adjusted je upravený index determinace, který značí, že společným působením obou vysvětlujících proměnných (ceny a velikosti obchodu) je možno vysvětlit 70,3795 % variability závisle proměnné (počtu prodaných kusů). Porovnáme-li velikost upraveného indexu determinace vícenásobné regresní závislosti (70,3795 %) s velikostí indexu determinace párové závislosti z Příkladu I-6 (69,9377 %), je vidět, že zařazením další vysvětlující proměnné do regresního modelu se dosáhlo jen nepatrného zvýšení vysvětleného Metody zkoumání závislostí 49


procenta variability závisle proměnné (počtu prodaných kusů). V takových případech dáme přednost jednoduššímu modelu závislosti, v našem případě by to bylo některému z modelů uvedených v Příkladě I-7.

I.5.3

Multikolinearita

V případě vícenásobné regresní závislosti není vhodné, aby proměnné zařazené do vícenásobného vztahu byly silně závislé. Lineární závislost mezi vysvětlujícími proměnnými se nazývá multikolinearita. Multikolinearita způsobuje, že odhady regresních koeficientů mohou být nepřesné, zvětšují se odhady směrodatných chyb regresních parametrů i regresních odhadů. Zvětšení velikosti odhadů směrodatných chyb se odráží i ve výsledcích testů hypotéz o nulových hodnotách regresních koeficientů Testy jsou pak v podstatně menší míře schopny odkrývat nesprávnost těchto hypotéz. O multikolinearitě, která znehodnocuje odhady a testy hypotéz, se říká, že je to „škodlivá multikolinearita“. Poněkud zjednodušeně řečeno, multikolinearitu považujeme za „škodlivou“, pokud některé párové korelační koeficienty mezi vysvětlujícími proměnnými jsou větší než 0,8. (někdy se uvádí 0,75). Pro odkrytí existence multikolinearity existují testy, např. Farrarův – Glauberův test, popsaný např. v [8]. Zjistíme-li existenci multikolinearity, většinou to znamená, že není vhodné zařadit takto silně korelované vysvětlující proměnné společně do vícenásobného regresního vztahu. Pro ověření, kterou z dvojice silně korelovaných regresorů z regresní rovnice vyřadit, existují speciální kriteria.

S problémem multikolinearity souvisí otázka metody volby vhodné podmnožiny vysvětlujících proměnných. Uvedeme základní metody: • metoda postupného přidávání vysvětlujících proměnných, • metoda postupného vyřazování proměnných, • metoda stupňovité regrese (STEPWISE). Stručně k metodě postupného přidávání vysvětlujících proměnných. Postupujeme následovně: 1. jako první zařadíme do vícenásobného vztahu tu vysvětlující proměnnou Xi , která má nejvyšší párový korelační koeficient se závisle proměnnou Y, 2. jako další zařadíme proměnnou Xj, která má vysoký párový korelační koeficient se závisle proměnnou Y, ale současně není silně závislá s již zařazenou proměnnou Xi. 3. Při zařazování dalších proměnných do vícenásobného vztahu ověřujeme, zda nejsou silně závislé se všemi již zařazenými proměnnými. (V případě práce na PC ověřujeme významnost přidání dalších proměnných, tj. zvýšení % vysvětleného rozptylu proměnné Y, tzv. dílčími F-testy.) Metodu si ukážeme na zjednodušeném příkladě. 50



Příklad I.15 Máme k dispozici tabulku korelačních koeficientů mezi závisle proměnnou Y a pěti vysvětlujícími proměnnými a chceme vybrat vhodnou množinu vysvětlujících proměnných do vícenásobného vztahu. Tabulka I-24 Příklad matice párových korelačních koeficientů x1

x2

x3

x4

x5

y

0,56

0,82

0,14

0,73

0,47

x1

1,00

0,15

0,60

0,20

0,30

1,00

0,20

0,85

0,21

1,00

0,05

0,82

1,00

0,46

x2 x3 x4

1,00

x5

Jako první vybereme do vícenásobného vztahu proměnnou X2, neboť má nejvyšší párový korelační koeficient se závisle proměnnou Y. Další by přicházela v úvahu proměnná X4, ale z tabulky korelačních koeficientů vidíme, že je silně závislá se zařazenou proměnnou X2. Vezmeme proto další vysvětlující proměnnou X1 Tuto proměnnou zařadíme, neboť není silně závislá s již zařazenou proměnnou X2. Při zařazování další proměnné X5, již musíme ověřovat závislost s oběma zařazenými proměnnými X2 a X1. Při zařazování poslední proměnné X3 sledujeme závislost s již třemi zařazenými proměnnými. Výsledný vícenásobný regresní model tedy bude mít tvar :

yˆ = b y. x1x2 x5 + b yx1. x2 x5 x1 + b yx

2 . x1 x5

x 2 + b yx5 . x1x2 x5 .

Jinou možností by bylo vybrat vysvětlující proměnné X4, X1,X5 a použít vícenásobný regresní model

yˆ = b y. x1x4 x5 + b yx1. x4 x5 x1 + b yx

4 . x1 x5

x 4 + b yx5 . x1x4 x5 .

Metoda STEPWISE Postup je analogický jako v případě metody postupného přidávání vysvětlujících proměnných, ale při hodnocení významnosti zařazení další vysvětlující proměnné se testuje F-testem, co by se stalo, kdyby byly vysvětlující proměnné zařazeny v jiném pořadí. Je možno vyřadit již zařazenou proměnnou, pokud je nová kombinace proměnných lepší. 1. Jako první se zařadí vysvětlující proměnná s nejvyšším párovým korelačním koeficientem, 2. v každém kroku se vypočítají dílčí korelační koeficienty a F-testy pro zařazení další proměnné a Ftesty pro vyřazení již zařazené proměnné, 3. postup se opakuje tak dlouho, dokud přínos některé další proměnné je významný (tzn. dokud přidání další proměnné významně zvýší % vysvětleného rozptylu proměnné Y).



I.6

Regrese s kategoriální proměnnou

Dosud uvedené regresní modely uvažovaly pouze kvantitativní proměnné. Často se ale vyskytne situace, kdy potřebujeme zařadit rovněž jednu nebo více kategoriálních proměnných. V takovém případě používáme pro popis kategoriálních proměnných umělé proměnné. Počet umělých proměnných v regresním modelu je roven počtu kategorií minus jedna. Ve zvláštním případě, když nabývá kategoriální proměnná pouze dvou hodnot, je jedna z hodnot kódována jako nula a druhá jako jedna.

Příklad I.16 Chceme určit možný vliv věku (X1 ) a pohlaví (D) na plat. Výběrová data jsou:

Věk Pohlaví Plat (tis.Kč)

23 M 12

27 Ž 13.2

29 M 14.7

36 M 18

37 Ž 17.1

40 Ž 18.3

46 M 22.5

50 Ž 21.9

54 Ž 23.4

59 M 27

Nejprve provedeme přiřazení umělých proměnných. Označíme D = 0 (osoba je muž) a D = 1 (osoba je žena). Potom má regresní model tvar:

Y = 3,222 + 0,405 x − 1,274 D a tedy Y = 3,222 + 0,405x (muži), Y = 1,948 + 0,405x (ženy).

Přirozeně bychom v tomto případě mohli zavést obrácené přiřazení a to D = 1 (muži) a D = 0 (ženy). Regresní model v tomto případě má tvar

Y = 1,948 + 0,405 x + 1,274 D a tedy Y = 3,222 + 0,405x (muži), Y = 1,948 + 0,405x (ženy). Získaný výsledek můžeme interpretovat tak, že průměrný plat mužů je o 1274 Kč vyšší než průměrný plat žen.

52



I.7

KONTROLNÍ OTÁZKY

Co vyjadřují okrajové četnosti v kontingenční tabulce? Co vyjadřují sdružené četnosti v kontingenční tabulce? Na čem je založeno testové kriterium chí-kvadrát testu nezávislosti? Jaké znáte míry těsnosti závislosti kategoriálních znaků? Patří asociační tabulka mezi kontingenční tabulky? Jaké úlohy řešíme pomocí analýzy rozptylu? Jaký je princip a hlavní myšlenka analýzy rozptylu? V jakých situacích nemůžeme analýzu rozptylu použít? Co znamená pojem statistická závislost? Jaké jsou kroky regresní analýzy? Kdy lze použít k odhadům parametrů regresní funkce metodu nejmenších čtverců? Co vyjadřuje regresní koeficient? Co je residuum? Jaké znáte metody počátečních odhadů regresních parametrů a v jakých situacích je použijeme? Co posuzujeme dílčími t-testy? Co posuzuje celkový F-test? Co vyjadřuje index determinace? Jakých hodnot může nabývat kovariance? Co měří korelační koeficient? Proč je korelační koeficient vhodnější mírou těsnosti závislosti než kovariance? Co vidíme ze vzájemné polohy sdružených regresních přímek? Jaký je vztah mezi sdruženými regresními koeficienty? Jak souvisí znaménko regresního a korelačního koeficientu? Jaký je vztah mezi korelačním koeficientem a koeficientem determinace? Podle jakých kritérií posuzujeme vhodnost použité regresní funkce? Kdy a k čemu se používá upravený index determinace? Co měří Spearmanův koeficient? V jakých situacích používáme Spearmanův koeficient? Co vyjadřuje dílčí regresní koeficient? Co vyjadřuje dílčí korelační koeficient? Co charakterizuje vícenásobný koeficient determinace?



Co chápeme pod pojmem multikolinearita? Jaké znáte metody volby vhodné podmnožiny vysvětlujících proměnných ve vícenásobném regresním modelu? Jak je posuzována statistická významnost provedeného testu v počítačových výstupech?

I.8

PŘÍLADY NA PROCVIČENÍ

P.I.1 Bylo zjišťováno, zda četba sledovaných časopisů souvisí se vzděláním čtenářů. Z průzkumu provedeného u 400 osob byly zjištěny údaje uvedené v tabulce. Ověřte na 5% hladině významnosti, zda existuje závislost mezi sledovanými znaky a posuďte těsnost této závislosti. Vzdělání

Časopis A

B

C

ZŠ

75

75

50

SŠ

40

70

40

VŠ

35

5

10

P.I.2 92 náhodně vybraných osob bylo dotázáno, zda vidělo určitou reklamu a zda kupuje zboží, jehož se reklama týkala. Existuje závislost mezi uvedenými znaky? Uvažujte 5% hladině významnosti. Reklama

Kupuje zboží

Nekupuje

Ano

19

22

Ne

13

38

P.I.3 Ve skupině 30 lidí bylo 12 očkováno proti chřipce. Z těchto 12 očkovaných onemocněl 1 člověk, z 18 neočkovaných onemocnělo 9 lidí. Ověřte na 5% hladině významnosti, jestli existuje závislost mezi očkováním a onemocněním a posuďte těsnost závislosti. Logicky zdůvodněte směr této závislosti. P.I.4 K ověření vhodnosti postřiku k ošetření stromů by proveden pokus s 300 stromy, z nichž 100 bylo ponecháno bez ošetření. U neošetřených stromů byla zjištěna prvotřídní kvalita v 58 případech, u ostatních ve 134 případech. Ověřte na 1% hladině významnosti, jestli postřik má vliv na kvalitu. P.I.5 Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Rozhodněte na 5% hladině významnosti, zda způsob umístění zboží ovlivňuje počet prodaných kusů. Umístění

Počet prodaných kusů

A

42

48

36

50

B

53

92

104

77

C

122

115

91

88

P.I.6 Doplňte ve výstupní tabulce ANOVA chybějící data, víte-li, že soubor 20 pozorování byl roztříděn do 5 skupin. Na 5% hladině významnosti ověřte hypotézu o nezávislosti sledovaného znaku na třídícím znaku a vypočítejte poměr determinace. 54



Source

DF

Sum of Squares

Mean Square

F Value

Model

?

88.80

22.20

?

Error

?

15.00

?

Corrected Total

?

103.80

P.I.7 Pomocí experimentu byla testována spotřeba při použití 3 druhů benzínu, s každým druhem bylo provedeno 5 pokusů. Doplňte tabulku a rozhodněte na 5% hladině významnosti, zda druh benzínu ovlivňuje spotřebu. Source

DF

Sum of Squares

Mean Square

F Value ?

Model

?

?

?

Error

?

0,08

?

Corrected Total

?

0,25

P.I.8 Vypočtěte parametry regresní přímky vystihující závislost měsíčních výdajů v Kč za určité zboží (Y) na počtu členů domácnosti. Počet členů

1

2

3

4

5

6

Výdaje

550

750

1200

1450

2200

2250

P.I.9 Máme k dispozici údaje o loňské a letošní poptávce po určitém výrobku získané ze šesti prodejen. K popisu závislosti použijte přímkovou regresi, vypočítejte vyrovnané hodnoty a posuďte těsnost závislosti korelačním koeficientem. Interpretujte regresní koeficient a index determinace. Loni (X)

20

60

70

100

150

260

Letos (Y)

50

60

60

120

230

320

P.I.10 U 10 jednotek byly sledovány dva znaky X a Y (viz tabulka). Vypočítejte parametry regresní přímky popisující závislost znaku Y na znaku X, vypočítejte těsnost závislosti a na 5% hladině významnosti ověřte významnost těsnosti této závislosti. X

2

3

4

3

5

4

6

7

7

9

Y

4

5

5

6

6

7

7

8

9

10

P.I.11 V následující tabulce je výstup regresní analýzy z počítače. Doplňte chybějící údaje, napište rovnici regresní přímky, vypočítejte koeficient determinace a interpretujte výsledky t-testů a F-testu.



Parameter Estimates Variable

DF

Parameter Estimate

Standard Error

t Value

Pr > |t|

Intercept

1

1.61340

1.88180

?

0.4057

A

1

1.23711

0.26286

?

0.0003

Analysis of Variance Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

1

?

259.79381

?

0.0003

Error

14

164.20619

11.72901

Corrected Total

15

424.00000

P.I.12 Doplňte chybějící údaje v tabulce, víte-li, že se jedná o přímkovou regresi vypočítanou ze souboru 18 pozorování, napište rovnici regresní přímky, vypočítejte koeficient determinace a korelační koeficient a posuďte, o jaký typ závislosti se jedná. Parameter Estimates Variable

DF

Parameter Estimate

Standard Error

t Value

Pr > |t|

Intercept

1

57.45148

4.57131

12.57

<.0001

C

1

-0.72412

0.11237

-6.44

<.0001

Analysis of Variance

P.I.13

Source

DF

Sum of Squares

Mean Square

Model

?

?

7250.180

Error

?

2793.598

?

Corrected Total

?

10043.778

F Value

Pr > F

41.52

<.0001

Závislost y na x byla charakterizována regresní přímkou

yˆ = 25,7 − 1,66 x. Vypočítejte

korelační koeficient, víte-li, že rozptyl proměnné Y je čtyřikrát větší než rozptyl proměnné X. (Využijte vzorců (I.55) a (I.58). P.I.14 Na výstavě bylo představeno 12 nových výrobků přihlášených do soutěže Výrobek roku. Jednotlivé výrobky byly označeny A, B,..,L. Porota sestavená z odborníků stanovila pořadí výrobků

56



takto: G, A, J, E, K, B, C, L, D, I, H, F. Návštěvníky výstavy bylo stanoveno pořadí : J, G, K, A, L, I, E, B, F, C, D, H. Posuďte na 5% hladině významnosti shodu názorů odborné poroty a návštěvníků. I.15 U 10 výrobků zákazníci hodnotili vzhled a funkčnost pomocí pořadí. Pořadí vzhledu

3

7

5

10

9

8

4

1

6

2

Pořadí funkčnosti

4

9

2

10

8

7

6

3

5

1

Vypočtěte charakteristiku intenzity závislosti mezi pořadími a ověřte na 5%-ní hladině významnosti její významnost.

VÝSLEDKY PŘÍKLADŮ P.I.1

Použitá metoda: kontingenční analýza. Testové kriterium G = 32,889. Kritická hodnota

χ 02,95 ( 4) = 9,488 . Na 5% hladině významnosti zamítneme hypotézu o nezávislosti a přijmeme tvrzení, že typ časopisu závisí na vzdělání. CP = 0,276, jedná se o slabší závislost. P.I.2 Testové kriterium G = 4,36, kritická hodnota χ 02,95 (1) = 3,84 , na 5% hladině zamítáme hypotézu o nezávislosti prodeje na shlédnutí reklamy. P.I.3 Údaje uspořádáme do asociační tabulky Očkování

Onemocnělo Ano

Ne

Očkováno

1

11

Neočkováno

9

9

Testové kriterium G = 5,625. Kritická hodnota

χ 02,95 (1) = 3,84 . Zamítáme hypotézu o nezávislosti.

Pearsonův koeficient kontingence CP = 0,397. Koeficient asociace rAB = − 0,433. Jedná se o nepřímou závislost – očkování snižuje možnost onemocnění. P.I.4 Data přepíšeme do asociační tabulky.

Ošetření

Kvalita I.jakost

Ostatní

Ano

134

66

Ne

58

42

Testové kriterium G = 2,344; Kritická hodnota χ 02,99 (1) = 6,63 . Nezamítáme hypotézu o nezávislosti, ošetření nemá vliv na kvalitu. P.I.5 Analýza rozptylu. (Výpočetně náročnější příklad). Testové kriterium F =13,56, kritická hodnota F0,95 [2;9]= 4,257. Na 5% hladině zamítáme hypotézu o nezávislosti prodeje na umístění zboží. Stejný závěr bychom udělali podle p-hodnoty 0,0019<0,05. Poměr determinace je 0,7508.



Podrobnější výsledky z počítače: Level

N

Prodej Mean

St Dev

1

4

44.00

6.324

2

4

81.50

21.977

3

4

104.00

17.029

Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

2

7350.00

3675.00

13.56

0.0019

Error

9

2439.00

271.00

Corrected Total

11

9789.00

R-Square Coeff Var Root MSE A Mean 0.750843

21.51906

16.46208

76.50000

P.I.6 Úplná tabulka ANOVA: Source

DF

Sum of Squares

Mean Square

F Value

Model

4

88.80

22.20

22.20

Error

15

15.00

1.00

Corrected Total

19

103.80

Testujeme hypotézu o nezávislosti. Hodnota testového kriteria F = 22,2. V tabulkách najdeme kritickou hodnotu F0,95 (4,15) = 3,056. Hodnota testového kriteria leží v kritickém oboru, zamítáme na 5% hladině významnosti hypotézu o nezávislosti sledovaného znaku na třídícím znaku. Poměr determinace P2 = 88,8/103,8 = 0.8555, t.zn., že 85,55 % variability sledovaného znaku můžeme vysvětlit vlivem třídícího znaku.

P.I.7 Úplná tabulka ANOVA: Source

58

DF

Sum of Squares

Mean Square

F Value 12,74

Model

2

0,17

0,08500

Error

12

0,08

0,00667

Corrected Total

14

0,25



Hodnota testového kriteria F = 12,74. Kritická hodnota F0,95 (2,12) = 3,885. Hodnota testového kriteria leží v kritickém oboru, zamítáme na 5% hladině významnosti hypotézu o nezávislosti spotřeby na druhu benzinu. P.I.8 Regresní přímka má tvar yˆ = 0,90 + 374,29 x. Z velikosti regresního koeficientu můžeme usuzovat, že u domácnosti o 1 člena větší, lze očekávat měsíční výdaje větší o 374,29 Kč. P.I.9

Regresní přímka má tvar

yˆ = 0,687 + 1,266 x. Z velikosti regresního koeficientu můžeme

usuzovat, že průměrný přírůstek loňské poptávky o 1 kus, vede k průměrnému přírůstku v dalším roce o 1,266 kusu. Vyrovnané hodnoty yˆ i dostaneme dosazením jednotlivých xi do vypočtené rovnice regresní přímky. Získáme vyrovnané hodnoty: 26, 77, 89, 127, 191, 330. Korelační koeficient ryx = 0,972. Index determinace r2 = 0,944. Lze tedy 94,4% variability letošní poptávky vysvětlit použitým regresním modelem. P.I.10 Rovnice regresní přímky yˆ = - 2,305 + 1,090 x; Korelační koeficient ryx = 0,931. Testové kriterium t = 7,23; kritická hodnota t0,95 (8) = 1,86. P.I.11 Uvádíme výstup s dopočítanými hodnotami. Musí platit Q = QM + QR. t = bj /sbj . Parameter Estimates Variable

DF

Parameter Estimate

Standard Error

t Value

Pr > |t|

Intercept

1

1.61340

1.88180

0.86

0.4057

A

1

1.23711

0.26286

4.71

0.0003

Regresní rovnice má tvar

yˆ = 1,613 + 1,237 x. Na základě t-testu nemůžeme zamítnout hypotézu,

že regresní přímka prochází počátkem. Hypotézu o nulové hodnotě regresního koeficientu zamítáme, lze tedy regresní koeficient interpretovat tak, že při růstu hodnot x o 1, dochází průměrně k růstu hodnot y o 1,237. Analysis of Variance Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

1

259.79381

259.79381

22.15

0.0003

Error

14

164.20619

11.72901

Corrected Total

15

424.00000

Koeficient determinace vypočítáme jako podíl součtu čtverců variability modelové a reziduální, tj., 259,794/424 = 0,6127. Tedy 61,27 % variability závisle proměnné můžeme vysvětlit vlivem vysvětlující



proměnné x. P-value ( Pr > F) u testového kriteria F-testu znamená zamítnutí nezávislosti a potvrzuje vhodnost regresního modelu. P.I.12 Rovnice regresní přímky je yˆ = 57,451 - 0,724 x. Podle hodnoty Pr > |t| je regresní koeficient statisticky významný, tudíž jej můžeme interpretovat tak, že průměrná změna hodnot y při jednotkové změně hodnot x je − 0,724 (tj., pokles o 0,724). Doplněná tabulka analýzy rozptylu Analysis of Variance Source

DF

Sum of Squares

Mean Square

F Value

Pr > F

Model

1

7250.180

7250.180

41.52

<.0001

Error

16

2793.598

174.599

Corrected Total

17

10043.778

Koeficient determinace je 0,7218, korelační koeficient − 0,8496. Závislost je záporná. P.I.13 Korelační koeficient je ryx = − 0,415. S využitím vzorců (I.55), (I.58). P.I.14 Těsnost závislosti posoudíme pomocí Spearmanova koeficientu pořadové korelace. rS = 0,74. Testové kriterium t = 3,11. Kritická hodnota t0,95 (8) = 1,86. Zamítáme hypotézu o nezávislosti, prokázali jsme na 5% hladině významnosti dobrou shodu názorů odborné poroty a návštěvníků výstavy. P.I.15 Těsnost závislosti posoudíme pomocí Spearmanova koeficientu pořadové korelace. rS = 0,842. Testové kriterium t = 4,41. Kritická hodnota t0,95 (8) = 1,86. Zamítáme hypotézu o nezávislosti, na 5% hladině významnosti jsme prokázali závislost pořadí mezi vzhledem a funkčností výrobků.

60



I.9

ZÁKLADNÍ VÝRAZY

analysis of variance

analýza rozptylu

association

asociace

causal dependence

příčinná závislost

cell of a table

políčko tabulky

classical linear regression model

klasický lineární regresní model

coefficient of association

koeficient asociace

coefficient of contingency

koeficient kontingence

coefficient of determination

koeficient determinace

coefficient of linear correlation

koeficient lineární korelace

coefficient of multiple correlation

koeficient vícenásobné korelace

coefficient of multiple determination

koeficient vícenásobné determinace

contingency table

kontingenční tabulka

correlation

korelace

correlation table

korelační tabulka

correlation dependence

korelační závislost

covariance

kovariance

degree of relationship

stupeň intenzity vztahu

dependent variable

závisle proměnná

deterministic relationship

deterministický vztah

dummy variable

umělá proměnná

error sum of squares

reziduální součet čtverců

experimental design

plán pokusu, návrh pokusu

explanatory variable

vysvětlující proměnná

factor

faktor

F-distribution

rozdělení F (Fisherovo-Snedecorovo)

global test, overall test

globální test, celkový test

independent variable

nezávisleproměnná

intercept

konstantní člen v regresní rovnici

least squares method

metoda nejmenších čtverců

models linear in parameters

modely lineární v parametrech

multicollinearity

multikolinearita

multiple regression

vícenásobná regrese

multiple determination coefficient

koeficient vícenásobné determinace

non-linear correlation

nelineární korelace

normal equations

normální rovnice

one-way analysis of variance

jednofaktorová analýza rozptylu

partial correlation coefficient

parciální korelační koeficient

partial derivative

parciální derivace

prediction interval

interval spolehlivosti pro predikci individuální hodnoty Metody zkoumání závislostí 61


random error term

náhodná chyba, náhodná složka

rank correlation

pořadová korelace

regression analysis

regresní analýza

regression curve

regresní křivka

regression sum of squares

regresní součet čtverců,

residual

reziduum

simple linear regression model

jednoduchý lineární regresní model

slope

směrnice

Spearman rank correlation coefficient

Spearmanův koeficient pořadové korelace

statistical relationship

statistický vztah

sum of squares of deviations

součet čtverců odchylek

total sum of squares

celkový součet čtverců

treatment, factor level

úroveň faktoru, hladina faktoru

uncorrelated variables

nekorelované veličiny

62



II

METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD

II.1

Druhy a charakteristiky časových řad

Časovou řadou rozumíme řadu hodnot určitého ukazatele uspořádanou z hlediska přirozené časové posloupnosti, tj. od minulosti směrem k přítomnosti. Přitom je nutné, aby věcná náplň ukazatele a jeho prostorové vymezení byly shodné v celém sledovaném období. V kapitole II.1 skript Pravděpodobnost a statistika byly popsány možnosti porovnání změny (vývoje) sledovaného ukazatele ve dvou různých časových obdobích pomocí bazických a řetězových indexů. Chceme-li provést rozbor za delší časové období, musíme použít i další metody práce s časovými řadami. Hned v úvodu si uvedeme důležité rozdělení časových řad na řady úsekové (intervalové) a řady okamžikové. Toto třídění je důležité, protože pro každý typ časových řad se používají jiné metody jejich rozboru. Úseková (intervalová) časová řada obsahuje údaje za určité časové období (den, týden, měsíc, rok), např. ukazatele výroby, odpracovaná doba, vyplacené mzdy, počet postavených bytů, vývoz určité komodity apod. Velikost úsekového ukazatele závisí na délce období (úseku). Je zřejmé, že např. počet bankovních příkazů v určité bance za měsíc je vyšší než za týden. Intervalové ukazatele lze shrnovat pomocí součtu. Průměrnou úroveň intervalového ukazatele za určité období lze charakterizovat aritmetickým průměrem n

y

i

y=

(II.1)

i =1

n

kde n je počet období. Srovnávat údaje úsekové časové řady je možné jen tehdy, jsou-li všechny úseky stejně dlouhé. Pracujeme-li s časovými řadami měsíčních nebo týdenních údajů, je někdy účelné přepočítat údaje na stejnou délku úseku, tj. provést "očišťování kalendářních variací": • očišťování na kalendářní dny, • očišťování na pracovní dny, • očišťování na obchodní dny. Např. očišťování na kalendářní dny provádíme přepočtem na „průměrný měsíc“:

(II.2)

yto = yt

kt kt

,

kde kt je počet kalendářních dnů v daném měsíci,

kt je průměrná délka měsíce ( kt

= 365/12 = 30,417).

METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 63


Příklad II.1 Očistěte danou časovou řadu na kalendářní dny. Tabulka II-1 Původní a očištěné hodnoty časové řady Měsíc I II III IV V VI VII VIII IX X XI XII

Počet dní 31 28 31 30 31 30 31 31 30 31 30 31

yt 1200 1150 1850 1750 1800 1775 1300 1350 1850 1900 2050 2000

yt0 1177,43 1249,27 1815,21 1774,33 1766,15 1799,67 1275,55 1324,61 1875,72 1864,27 2078,50 1962,39

y1o = 1200 (30,417 / 31) = 1177,43 Úsekové časové řady se graficky zobrazují nejčastěji pomocí sloupkových grafů (např. Obrázek II-1, kde je zobrazena časová řada z Příkladu II.1), méně časté je použití spojnicového grafu, v němž se hodnoty úsekového ukazatele kreslí vždy ke středu úseku, k němuž se vztahují. Obrázek II-1 Graf úsekové časové řady 2500,00 2000,00 1500,00 1000,00 500,00 0,00 1

2

3

4

5

6 7

8

9 10 11 12

Okamžikové časové řady jsou řady ukazatelů, které se vztahují k určitému okamžiku (datu), např. počet pracovníků k určitému datu, úroková sazba k určitému datu, stav zásob na konci roku apod. Hodnota okamžikového ukazatele nezávisí na délce intervalu, za který je ukazatel sledován, okamžikové ukazatele není možno sčítat. Průměrnou hodnotu sledovaného ukazatele charakterizuje chronologický průměr. Při výpočtu chronologického průměru postupujeme tak, že průměrujeme aritmetické průměry za sebou jdoucích okamžikových ukazatelů. a) V případě, když je vzdálenost mezi jednotlivými okamžiky stejná, vypočítáme průměrnou hodnotu jako:

64



y1 + y2 2

y=

(II.3)

+

y2 + y3

+ ... +

2

yn - 1 + yn 2

n- 1

.

Vzorec (II.3) je možno upravit do tvaru

y1 y= 2

(II.4)

+ y2 + y3 + ... + yn - 1 +

n- 1

yn 2 .

Příklad II.2 Vypočítejte průměrný počet obyvatel obce v letech 2003 – 2009. Data uvádí Tabulka II-2. (Uvažujeme stejnou délku roku, zanedbáme rozdílnou délku přestupných let). Tabulka II-2 Počet obyvatel obce Okamžik zjišťování

počet obyvatel

31.12.03

350

31.12.04

342

31.12.05

324

31.12.05

324

31.12.07

346

31.12.08

386

31.12.09

364

350 364 + 342 + 324 + 324 + 346 + 386 + 2 = 346, 5 y = 2 6 Průměrný počet obyvatel v dané obci ve sledovaném období byl 346,5.

b) Pokud intervaly mezi okamžiky, k nimž se vztahují údaje časové řady, nejsou stejné, musíme použít vážený chronologický průměr, kde jednotlivé dílčí průměry vážíme délkou vzdálenosti okamžiků:

y1 + y2

(II.5)

y=

2

(t2 - t1 ) +

y2 + y3 2

(t3 - t2 ) + ... +

yn - 1 + yn 2

tn - t1

(tn - tn - 1 )

.

Příklad II.3 Vypočítejte průměrný roční počet pracovníků firmy. Údaje uvádí Tabulka II-3.



Tabulka II-3 Počet pracovníků firmy Datum 1.1.

Počet Zaměstnanců 4

Vzdálenost okamžiků 151

1.6.

10

183

1.12.

50

31

31.12.

50

4 + 10 10 + 50 50 + 50 151 + 183 + 31 2 2 2 y= = 22,18 . 151 + 183 + 31 Průměrný počet zaměstnanců firmy v daném roce byl 22,18 osob.

Okamžikovou časovou řadou je např. řada míry inflace vyjádřené přírůstkem průměrného ročního indexu spotřebitelských cen v letech 1994 až 2009, která je uvedená v Tabulce II-4, graficky znázorněná na Obrázku II-2.

Tabulka II-4 Časová řada ročních údajů – Míra inflace v letech 1994 až 2009 rok

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

t

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

yt

10,1

9,1

8,8

8,5

10,7

2,1

3,9

4,7

1,8

0,1

2,8

1,9

2,5

2,8

6,3

1,0

Ke grafickému znázornění okamžikových časových řad se používají spojnicové grafy. Hodnoty časové řady se vynášejí k příslušným časovým okamžikům, lomená čára spojující jednotlivé body tvoří spojnicový graf. Obrázek II-2 Míra inflace v ČR v letech 1994 až 2009

66



Zvláštním typem časových řad jsou časové řady součtové (kumulativní), které zobrazují postupné narůstání hodnot ukazatele během časového období a tím umožňují porovnat narůstání hodnot srovnávaných ukazatelů v různých souborech, různých obdobích, ale i např. porovnání plánu a skutečnosti.

Příklad II.4 Příprava studenta na zkoušku, na níž má nastudovat 490 stránek a k nastudování má týden (7 dní). Tabulka II-5 Sledování plánu a skutečnosti

80

Kumulativní plán 70

Kumulativní skutečnost 80

70

90

140

170

+ 30

3

70

80

210

250

+ 40

4

70

30

280

280

0

5

70

40

350

320

- 30

6

70

60

420

280

- 40

7

70

80

490

460

- 30

Den

Plán

Skutečnost

1

70

2

Rozdíl + 10

V posledním sloupci Tabulky II-5 můžeme sledovat rozdíly mezi plánem studia a jeho skutečností. (Komentář výsledku ponechávám studentům).

Charakteristiky časových řad Obdobně jako statistické znaky ve statistickém souboru, je možno i hodnoty sledovaného znaku v časové řadě popsat jednoduchými souhrnnými charakteristikami, z nichž jsou nejužívanější: absolutní přírůstek (první diference) je definovaný jako rozdíl dvou za sebou následujících hodnot časové řady

Δy t = y t − y t −1 ,

(II.6)

t = 2,3,…,n

průměrný absolutní přírůstek za určité období vypočítáme jako aritmetický průměr absolutních přírůstků n

 Δy

i

(II.7)

Δ=

(II.8)

Δ=

i =1

n −1

=

( y2 − y1 ) + ( y3 − y2 ) + ... + ( yn − yn −1 ) , n −1

yn − y1 , n −1



druhé diference jsou definovány jako rozdíl dvou za sebou jdoucích prvních diferencí (absolutních přírůstků) 2 Δ yt

(II.9)

= Δ y t − Δ y t −1 ,

t = 3,4,…,n

koeficient růstu je podíl hodnoty časové řady v čase t a hodnoty v čase předcházejícím

kt =

(II.10)

yt yt- 1

,

t = 2,3,…,n

průměrný koeficient růstu za n období vypočítáme jako geometrický průměr všech koeficientů růstu sledovaného období

(II.11)

k=

n- 1

k2 k3 ...kn =

(II.12)

k=

n- 1

yn . y1

y2 y3 y ... n , y1 y2 yn - 1

n- 1

Příklad II.5 Vypočítejte absolutní přírůstky, koeficienty růstu, průměrný absolutní přírůstek a průměrný koeficient růstu sledovaného ukazatele za období 2006-2010. (Údaje i výpočty uvádí Tabulka II-6). Tabulka II-6 Absolutní přírůstky a koeficienty růstu Rok

yt

Δ yt

kt

2006

150

-

-

2007

163

13

1,087

2008

127

- 36

0,779

2009

120

-7

0,945

2010

130

10

1,083



-

- 20

x

n

 Δy

i

Δ=

i =1

n −1

=

−20 = −5 4

nebo

Δ=

yn − y1 130 − 150 = = −5 n −1 4

Průměrný přírůstek daného ukazatele za období 2006 – 2010 je (-5), to znamená průměrný roční pokles byl 5.

k=

68

n- 1

k2 k3 ...kn =

4

1, 087.0, 779.0, 945.1, 083 = 0, 965



nebo

k=

n- 1

yn = y1

4

130 = 0, 965 . 150

Průměrný koeficient růstu je 0,965, to znamená průměrný roční pokles o 3,5 %.

Z příkladu je zřejmé, že pokud je průměrný přírůstek kladný, průměrný koeficient růstu je větší než jedna, dochází tedy k růstu v časové řadě, pokud je průměrný záporný, koeficient růstu je menší než jedna, dochází tedy k poklesu hodnot sledovaného ukazatele.

II.2

Dekompozice časových řad

Pod pojmem dekompozice časové řady rozumíme rozklad časové řady na složky charakterizující různé druhy pohybů v časové řadě, které umíme popsat a kvantifikovat. Při rozboru vývoje ukazatelů časových řad nás většinou nejvíce zajímá hlavní směr (tendence) vývoje ukazatele, kterému říkáme trend. Mluvíme pak o rostoucím trendu, o klesajícím trendu nebo o časové řadě bez trendu, pokud její hodnoty kolísají kolem nějaké stálé hodnoty. Vývoj reálných ukazatelů většinou není plynulý, ale vyskytují se výkyvy (poklesy nebo růst), které mohly být způsobeny různými vlivy, které nesouvisí s vývojem sledovaného ukazatele. U některých časových řad můžeme pozorovat i určitou pravidelnost výkyvů uvnitř jednotlivých let. Např. maloobchodní obrat je pravidelně nejvyšší v posledním čtvrtletí roku (vliv vánočních nákupů), ale např. výroba v letních měsících každoročně klesá (období dovolených) apod. Výkyvům, které se v průběhu roku pravidelně opakují, říkáme sezónní výkyvy neboli sezónnost. Výkyvy s periodicitou delší než jeden rok nazýváme cykličnost. Kromě trendu, cyklických a sezónních výkyvů jsou v časové řadě ještě výkyvy způsobené náhodami a různými drobným, často nezjistitelnými vlivy, kterým dohromady říkáme nahodilé kolísání. K analýze časových řad lze využít různé přístupy, uvedeme alespoň klasický přístup spočívající v analytickém vyrovnání časové řady a adaptivní přístup, kam zařazujeme např. vyrovnání klouzavými průměry a exponenciální vyrovnávání. Existují i další metody, s nimiž se v tomto kurzu nesetkáme, např. Boxova-Jenkinsova metodologie, faktorová analýza, intervenční analýza, harmonická analýza, spektrální analýza atd. Nebudeme se rovněž zabývat zkoumáním cykličnosti. Časovou řadu můžeme vyjádřit jako funkci yt = f (Yt , ε t), kde yt je řada empirických hodnot, Yt je deterministická složka časové řady obsahující trend Tt a sezónnost St, (případně i cykličnost Ct),

ε t je náhodná složka časové řady. Podle toho, jaké uvažujeme vztahy mezi složkami v časové řadě, rozeznáváme základní modely časových řad, které vyjádříme ve tvaru:



Aditivní model yt = Tt + St + εt..

(II.13) Multiplikativní model

yt = Tt . St . εt .

(II.14) Smíšený model

yt = Tt . St + εt..

(II.15)

Poznámka: St ,εt mají v různých modelech různý význam.

Nyní si postupně probereme, jak kvantifikovat jednotlivé složky časové řady, výsledný model potom dostaneme složením jednotlivých složek podle výše uvedených typů modelů.

II.3

Vyrovnávání časových řad

Pod pojmem vyrovnání časové řady rozumíme nahrazení empirických hodnot časové řady řadou teoretických hodnot, které charakterizují vývoj časové řady za předpokladu, že je očištěn od sezónní a náhodné složky.

II.3.1

Analytické vyrovnání časových řad

Analytické vyrovnání časových řad znamená nahrazení původních hodnot časové řady hodnotami vhodné analytické funkce (přímky, paraboly, exponenciály, hyperboly atd.). Analytické vyrovnání časové řady spočívá v popisu trendu časové řady analytickou funkcí T = f (t). Vhodnou analytickou funkci volíme na základě grafického zobrazení časové řady (většina statistických počítačových programů i tabulkových kalkulátorů nabízí spojnicové (čárové) grafy, logického rozboru vývoje časové řady a matematicko-statistických kriterií. Výhodou analytického vyrovnání je možnost předvídat další vývoj do budoucna. Tomuto postupu říkáme extrapolace. Počítat extrapolace (tj. předpovědi hodnot do budoucnosti) můžeme pouze tehdy, jestli lze předpokládat, že ve vývoji sledovaného ukazatele nedojde k podstatným změnám a vývojový trend se nezmění (tzv. princip ceteris paribus). Trendové funkce mohou být buď lineární v parametrech nebo nelineární v parametrech. K odhadům parametrů trendových funkcí lineárních v parametrech používáme (obdobně jako v regresní analýze) metodu nejmenších čtverců (MNČ). MNČ ukážeme na příkladě vyrovnání časové řady přímkou (tj. použijeme k vyrovnání lineární trend): (II.16)

70

T = a + bt .



Analogicky jako u regresní analýzy spočívá MNČ v minimalizaci součtu čtverců odchylek napozorovaných a teoretických hodnot časové řady: n

S =  ( yt − Tt ) 2 = min. (II.17)

t =1 n

S =  ( yt − a − b.tt ) 2 = min. t =1

Po zderivování výrazu S podle obou parametrů a položení derivací rovno nule získáme normální rovnice. n

n

 yt = n.a + b. tt (II.18)

t =1

t =1

n

n

n

t =1

t =1

t =1

 yt tt = a. tt + b. tt2 a jejich řešením odvodíme odhady parametrů. Parametr a je absolutní člen přímky (bod, v němž trendová přímka protíná osu y). n

(II.19)

a=

 yt

n

n

n

t =1 n

t =1 n

t =1

 tt2 −  tt . tt yt

t =1

n  t − (  tt ) 2 t

t =1

.

2

t =1

Při výpočtu hodnoty absolutního členu můžeme využít faktu, že trendová přímka (v případě, když parametry byly odvozeny metodou nejmenších čtverců) prochází bodem se souřadnicemi ( t , y ) a parametr a je možno také vypočítat podle vzorce (II.20)

a = y − b.t .

Parametr b je směrnice přímky (vyjadřuje průměrný přírůstek (resp. úbytek) hodnot y při změně času o jednotku). n

(II.21)

b=

n

n

t =1 n

t =1

n. tt yt −  yt  tt t =1

n

n t − ( tt ) t =1

2 t

.

2

t =1

Příklad II.6 Vyrovnejte 9-ti měsíční časovou řadu hodnot y danou v Tabulce II-7.



Tabulka II-7 Vyrovnání časové řady trendovou přímkou Měsíc

t

yt

t2

ytt

Leden Únor Březen Duben Květen Červen Červenec Srpen Září 

1 2 3 4 5 6 7 8 9 45

82 77 78 76 79 87 86 84 89 738

1 4 9 16 25 36 49 64 91 285

82 154 234 304 395 522 602 672 801 3766

Výpočet parametrů trendové přímky podle vzorce (II.21)

b=

9.3766 − 738.45 = 1, 2667 30.285 − 452

a = y - bt =

738 45 - 1, 2667 = 75, 667 9 9

Trendová přímka má tvar

T = 75,667 + 1,2667 t.

Příklad II.7 Vypočítejte předpověď hodnoty ukazatele y pro data Příkladu II.6 pro měsíc říjen. Předpověd na říjen získáme tak, že dosadíme do rovnice trendu hodnotu t = 10, což je hodnota t, která by příslušela říjnu: T10 = 88,333.

Příklad II.8 Vyrovnejte přímkou časovou řadu vkladů let 1990 – 2002 z Tabulky II-8. Tabulka II-8 Vklady v letech 1990 – 2002 Rok Vklady v mil. Kč

1990

1991

1992

1993

1994

1995

1996

1997

1998

1999

2000

2002

183986 220718 260172 314205 376224 454729 527314 627617 694416 700145 744558 826821 838856

V Tabulce II-9 uvádíme výstupní tabulku z počítače pomocí programu STATGRAPHICS. Tabulka II-8 Vyrovnání časové řady vkladů přímkou

Trend Model Summary Parameter Estimate Stnd. Error t P-value ---------------------------------------------------------------------------Constant -1,18629E8 4,33952E6 -27,3369 0,000000 Slope 59694,3 2174,11 27,457 0,000000 ----------------------------------------------------------------------------

72

2001



Rovnice trendové přímky:

T = - 1,1863E 8 + 59694, 3 t .

Parametr b můžeme interpretovat jako průměrný roční přírůstek vkladů (59694,3mil. Kč). Hodnota p-value (stejně jako v regresní analýze) vyjadřuje, že parametr b je statisticky významně odlišný od nuly (nulová směrnice přímky znamená, že přímka je rovnoběžná s osou t, tzn, že sledovaný ukazatel se v čase nemění). Na Obrázku II-3 je zobrazeno vyrovnání časové řady vkladů domácností přímkou. Obrázek II-3 Vyrovnání časové řady vkladů domácností přímkou

Linear trend = -1,18629E8 + 59694,3 t

Vklady_domacnosti

(X 1,E6) 1 0,8 0,6 0,4 0,2 0 1990

1992

1994

1996

1998

2000

2002

II.3.1.1 Výběr vhodného modelu trendu Srovnání různých modelů lze provést na základě výpočtu různých měr, které jsou založeny na reziduích (odchylkách zjištěných hodnot od hodnot vyrovnaných, tj. ležících na trendové čáře). Nejčastěji se používá střední kvadratická chyba (Mean Squared Error):

(II.22)

MSE =

1 n  ( yt − Tt )2 , n t =1

která představuje průměrnou hodnotu kvadratických odchylek měřených hodnot od trendu Tt . Počítačové programy častěji pod názvem MSE počítají (II.23)

MSE =

1 n  ( yt − Tt )2 , n − p t =1

kde p je počet parametrů trendové funkce Jinou mírou adekvátnosti trendu je střední absolutní chyba:



MAE =

(II.24)

1 n

n

 y −T t

t

t =1

vypočtená jako aritmetický průměr absolutních diferencí mezi pozorovanou a trendovou hodnotou. Je zřejmé, že čím menší je hodnota MSE nebo MAE, tím lépe vystihuje zvolený model pozorované hodnoty.

Příklad II.9 Posuďte, zda pro analytické vyrovnání časové řady vkladů z Tabulky II-8 je vhodnější trendovou funkcí parabola ve srovnání s trendovou přímkou vypočtenou v Příkladě II-8. Výpočty ze systému STATGRAPHICS uvádí Tabulka II-10. Tabulka II-9 Porovnání trendových funkcí pro vyrovnání časové řady vkladů domácností Models -----(A) Linear trend = -1,18629E8 + 59694,3 t (B) Quadratic trend = -2,49894E9 + 2,44479E6 t + -597,468 t^2 (C) Exponential trend = exp(-248,669 + 0,131121 t)

Estimation Period Model MSE MAE MAPE ME MPE -----------------------------------------------------------------------(A) 8,60266E8 21126,5 4,75839 5,73122E-9 -0,270354 (B) 8,74828E8 21759,0 5,44293 0,0946937 (C) 5,92097E9 52493,7 9,46565 -1970,54 -0,606374

Střední čtvercová chyba (MSE) i ostatní míry vhodnosti jsou nižší pro přímku, lze tedy konstatovat, že přímka je v daném případě vhodnější trendovou funkcí než parabola.

II.3.2

Adaptivní přístupy k trendové složce

V této kapitole uvedeme dva nejběžnější adaptivní postupy: -

vyrovnání klouzavými průměry

-

exponenciální vyrovnání.

Vyrovnání klouzavými průměry Vyrovnání klouzavými průměry (na rozdíl od analytického vyrovnání) spočívá v tom, že časovou řadu vyrovnáváme pomocí polynomických funkcí postupně po krátkých úsecích zvaných klouzavá část. Časovou řadu tedy nevyrovnáme jednou analytickou funkcí, která by měla stejný model v průběhu celé sledované řady, ale lomenou čarou, která se přizpůsobuje (adaptuje) na změny hodnot v časové řadě.

74



Vyrovnání klouzavými průměry pak spočívá v nahrazení řady původních hodnot řadou průměrů vypočítaných z určitého počtu hodnot časové řady, zvané klouzavá část. Délku klouzavé části volíme následovně:

Časová řada ročních údajů Časová řada čtvrtletních údajů Časová řada měsíčních údajů Časová řada denních údajů

m = 3,5,7,... m=4 m = 12 m = 7.

Pokud použijeme k postupnému vyrovnávání přímku, mluvíme o prostých klouzavých průměrech. Vypočítané průměry se nazývají klouzavé průměry, protože při jejich výpočtu se vychází ze součtů, které postupně získáváme tak, že po časové řadě "sklouzneme" vždy o jedno období dále. Například, počítáme-li klouzavé průměry ze 3 hodnot časové řady, je první klouzavý průměr vypočten z 1.,2. a 3. hodnoty, druhý klouzavý průměr z 2.,3. a 4. hodnoty, další ze 3.,4. a 5., atd. Vypočítané klouzavé průměry vždy přiřazujeme prostřednímu období, z něhož byl průměr vypočítán. Součty pro výpočet klouzavých průměrů jsou klouzavé úhrny. Prostý klouzavý průměr délky m vypočítáme podle vzorce p

y

i ,t

ˆ m yk =

(II.25)

i =− p

m

=

yt − p + yt − p +1 + ... + yt + ... + yt + p m

.

Prostý klouzavý průměr je vypočítán jako průměr z p hodnot, které předcházejí vyrovnávané hodnotě yt,, vyrovnávané hodnoty yt a p hodnot, které za ní následují. Klouzavá část má tedy délku m = 2p + 1.

Příklad II-11 Vyrovnání ČŘ ročních údajů klouzavými průměry délky m = 3 a m = 5. Tabulka II -10 Vyrovnání časové řady klouzavými průměry

Rok 1 2 3 4 5 6 7 8 9 10

3 4 8 6 7 10 8 10 14 12

3-leté klouzavé 3-leté klouzavé 5-leté klouzavé 5-leté klouzavé úhrny průměry úhrny průměry • • • • 15 5 • • 18 6 28 5,6 21 7 35 7,0 23 7,67 39 7,8 25 8,33 41 8,2 28 9,33 49 9,8 32 10,67 54 10,8 36 12 • • • • • •



Následující Obrázek II-4 zobrazuje vyrovnání časové řady 3-člennými a 5-ti člennými klouzavými průměry. Povšimněte si, že vyrovnání klouzavými průměry “zhlazuje” danou časovou řadu.

Obrázek II-4 Vyrovnání časové řady klouzavými průměry

Časovou řadu čtvrtletních údajů je vhodné vyrovnat klouzavými průměry vypočtenými ze čtyř hodnot časové řady. V tomto případě se průměry vztahují k období mezi 2. a 3. hodnotou, z nichž byl průměr vypočten. Potom ale musí následovat tzv. centrování, které znamená výpočet aritmetického průměru ze dvou sousedních klouzavých průměrů. Centrovaný klouzavý průměr je již přiřazen konkrétnímu období. Příklad II-11 Vyrovnejte časovou řadu z předchozího Příkladu II-10 čtyřčlennými klouzavými průměry m = 4. Rozdíl proti předchozímu příkladu je v tom, že nyní budeme předpokládat, že data mají charakter čtvrtletních dat. (Čtyřčlenné klouzavé úhrny a čtyřčlenné klouzavé průměry umísťujeme doprostřed mezi druhé a třetí období, z nichž jsou počítány - v Tabulce II-12 není toto přiřazení přesné, z technických důvodů jsou řádky posunuté o polovinu řádku níže). Na Obrázku II-5 je grafické znázornění vyrovnání této časové řady pomocí 4-členných klouzavých průměrů Tabulka II-11 Vyrovnání časové řady centrovanými klouzavými průměry

76

Rok

yt

1 2 3 4 5 6 7 8 9 10

3 4 8 6 7 10 8 10 14 12

4-členný klouzavý úhrn

4-členný klouzavý průměr

21 25 31 31 35 42 44

5,25 6,25 7,75 7,75 8,75 10,50 11


Centrovaný klouzavý Průměr • • 5,75 7,00 7,75 8,25 9,23 10,75 • •


Obrázek II-5 Vyrovnání čtvrtletní časové řady centrovanými klouzavými průměry

Klouzavými průměry získáme vyrovnané hodnoty, které vyjadřují tendenci vývoje časové řady, nemůžeme ale provádět extrapolace, protože p posledních (ale také prvních) hodnot časové řady zůstane nevyrovnaných. Poznámka 1: Některé počítačové programy dopočítají chybějící vyrovnané hodnoty pomocí tzv. asymetrických klouzavých průměrů (v nich je nejvyšší váha přiřazena období, pro nějž se hodnoty klouzavého průměru dopočítávají). Poznámka 2: Kromě uvedených prostých klouzavých průměrů existují také vážené klouzavé průměry, u nichž k vyrovnání klouzavé části používáme jinou analytickou funkci než přímku, nejčastěji parabolu. V takovém případě jednotlivá pozorování časové řady mají přiřazené váhy Wi, které jsou souměrné podle prostřední hodnoty, největší váhu má vyrovnávaná hodnota a na obě strany od vyrovnávané hodnoty se váhy snižují. (II.26)

yˆ k ,t =

p

 Wi yt +i ;

i =− p

p

W

i

= 1.

i =− p

II.3.2.1 Exponenciální vyrovnávání Druhá vyrovnávací technika, exponenciální vyrovnávání, je vhodná zejména pro provádění krátkodobých predikcí. Metoda vychází z myšlenky, že novější pozorování mají větší význam pro předpovídání dalšího vývoje, než pozorování starší. Zavedeme tedy nový pojem – stáří pozorování k (k = 0,1,...,n-1 ). (k = 0 má poslední hodnota časové řady, k = n −1 pak první hodnota časové řady). Časovou řadu hodnot y1, y2, ... , yn-1, yn (kde yn = přítomnost), přepíšeme do tvaru:

yn-k, yn-k-1,...., yn-1, yn. Parametry exponenciálního vyrovnání jsou potom odvozeny modifikovanou MNČ, v níž čtverce odchylek napozorovaných a vyrovnaných hodnot jsou násobeny vahami wk,, které jsou závislé na stáří pozorování k (k = 0,1,...,n-1 ). METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 77


Modifikovaná metoda nejmenších čtverců má tvar n −1

S =  ( yn − k − Tn − k ) 2 wk = min . ,

(II.27)

k =0

kde k = 0,1,...,n-1 je stáří pozorování. Váhy lze vyjádřit ve tvaru

wk = α k ,

(II.28)

0< α <1 ;

k = 0,1,...,n-1.

kde α je tzv. vyrovnávací konstanta. Vyrovnávací konstanta může nabývat hodnot 0 < α < 1. Předpokládá se tedy, že váhy klesají exponenciálně směrem do minulosti. Vyrovnaná hodnota časové řady v období t (tj.

Yt ) je vypočtena jako:

t −1

Yt = (1 − α )  α j yt − j

(II.29)

0 < α < 1,

j =0

Pro první hodnotu časové řady

Y1 = y1 Pro výpočet dalších hodnot je výhodné použít rekurentní vzorec: (II.30)

Yt = (1 − α ) yt + α Yt −1

t = 2,3,...,n,

kde Yt −1 je vyrovnaná hodnota v předchozím období. Exponenciálním vyrovnáváním vypočítáme vyrovnané hodnoty časové řady jako lineární kombinaci současné hodnoty a všech minulých hodnot časové řady. Důležitým problémem v exponenciálním vyrovnávání je volba vyrovnávací konstanty α. Vyrovnávací procedura reaguje “rychle” na změny pozorovaných hodnot, je-li α blízké nule. Naproti tomu, je-li α blízké jedné, reakce na změny pozorovaných hodnot je “pomalá”. Prakticky se volí taková hodnota α , která minimalizuje hodnotu MSE. Pokud jde o predikci, poslední vyrovnaná hodnota

Yt

je současně

předpovědí Yˆt +1 pro příští časové období.

II.4

Zkoumání sezónnosti v časových řadách

U časových řad čtvrtletních nebo měsíčních údajů je důležitou informací i znalost sezónního kolísání časových řad, tj. výkyvů s periodicitou v rámci jednoho roku, nejčastěji uvažujeme čtvrtletní nebo měsíční periodicitu. Hodnoty časové řady nyní označíme yij, kde i = 1, 2, ..., m označuje roky, j = 1,2, ..., s jsou sezóny. (Počet pozorování časové řady potom tedy je n = m.s). 78



K měření sezónního kolísání používáme:

• sezónní (periodické) odchylky Δpij jsou definovány jako rozdíl mezi hodnotou časové řady yij a hodnotou očištěnou od sezónních vlivů.

Δ pij = y ij − Yij ,

(II.31)

kde vyrovnaná hodnota Yij může být buď průměrná hodnota časové řady, vyrovnaná hodnota analytickou funkcí

Tij

nebo klouzavý průměr

yˆ k ,ij .

Pokud časová řada nemá trend, vypočítáme sezónní odchylku jako rozdíl skutečného údaje a průměru hodnot časové řady. V případě časové řady s trendem je sezónní odchylka počítána jako rozdíl hodnoty časové řady a hodnoty vyrovnané (analytickou funkcí nebo klouzavým průměrem). Když je sezónní odchylka kladná, mluvíme o sezónním nárůstu, v případě, když je záporná, pak se jedná o sezónní pokles. Sezónní odchylky používáme jako míru sezónnosti v případě aditivního modelu časové řady.

Průměrná sezónní odchylka j-té sezóny se vypočítá podle vztahu m

Δp Δ pj =

(II.32)

j =1

m m

 Δ pj =

(II.33) kde

Tij

m

(y

ij

=

m −1

(y =

− Tij ) ,

m m

Δ p ij

j =1

ij

j =1

ij

− yˆ k ,ij )

j =1

m −1

.

jsou hodnoty vyrovnané analytickou funkcí pro i - tý rok a j - tou sezónu,

yˆ k ,ij jsou hodnoty vyrovnané klouzavými průměry pro i - tý rok a j - tou sezónu. Součet průměrných sezónních odchylek přes všechny sezóny by měl být roven nule. Pokud se tento součet nule nerovná, vypočítáme rozdíl součtu průměrných sezónních odchylek od nuly a ten rovnoměrně rozdělíme k jednotlivým sezónám a tím získáme tzv. sezónní faktory, jejichž součet je roven nule.

• Sezónní (periodické) indexy pij jsou definovány jako podíl hodnoty časové řady yij a hodnoty očištěné od sezónních vlivů.

(II.34)

pij =

yij Yij

.



U časové řady bez trendu vypočítáme sezónní index jako poměr skutečného údaje a průměru hodnot časové řady. V případě časové řady s trendem je sezónní index počítán jako poměr hodnoty časové řady ku hodnotě vyrovnané analytickou funkcí nebo klouzavým průměrem. Sezónní indexy se vyjadřují v % a jejich hodnota minus 100 udává počet procent, o které se skutečný údaj odlišuje od průměrné hodnoty časové řady nebo od hodnoty vyjadřující trend. Když je sezónní index větší než 1 (nebo 100 %), mluvíme o sezónním nárůstu, když je menší, pak se jedná o sezónní pokles. Sezónní indexy používáme jako míru sezónnosti v případě multiplikativního modelu časové řady. Průměrný sezónní index j-té sezóny

(II.35)

pj =

m

y ij

j =1

ij

T m m

(II.36) kde

pj =

y ij

 yˆ j =1

,

k ,ij

m −1

,

Tij jsou hodnoty vyrovnané analytickou funkcí pro i - tý rok a j - tou sezónu, yˆ k ,ij jsou hodnoty vyrovnané klouzavými průměry pro i - tý rok a j - tou sezónu.

Součet průměrných sezónních indexů počítaných u časové řady by měl být roven počtu sezón s (např. u čtvrtletních časových řad 4). Pokud není tato podmínka splněna, přepočítáme skutečné průměrné sezónní indexy poměrem [s / součet průměrných sezónních indexů]. Získáme tak sezónní faktory.

Příklad II-12 V následující Tabulce II-13 máme čtvrtletní data sledovaného ukazatele za tři roky. Časovou řadu: - Vyrovnejte klouzavými průměry vhodné délky. - Vypočítejte sezónní odchylky pro jednotlivá období časové řady. - Vypočítejte průměrné sezónní odchylky a sezónní faktory pro jednotlivá čtvrtletí. - Graficky znázorněte vyrovnání časové řady klouzavými průměry. Tabulka II-13 Sezónní časová řada Čtvrtl./rok

2008

2009

2010

I

510

530

550

II

530

570

580

III

560

610

610

IV

550

570

600

Protože se jedná o časovou řadu čtvrtletních dat, použijeme klouzavou část m = 4. Vypočtené centrované klouzavé průměry a sezónní odchylky uvádí následující Tabulka II-14:

80



Tabulka II-14 Výpočetní tabulka

Období

Data yt

Centrované klouzavé průměry

Sezónní odchylky

1/I 1/II 1/III 1/IV 2/I 2/II 2/III 2/IV 3/I 3/II 3/III 3/IV

510 530 560 550 530 570 610 570 550 580 610 600

540 547.5 558.75 567.5 572.5 576.25 577.5 581.25

20 2.5 -28.75 2.5 37.5 -6.25 -27.5 -1.25

V Tabulce II-15 jsou vypočítané průměrné sezónní odchylky podle vzorce (II.33) a sezónní faktory se součtem rovným nule. Tabulka II-15 Sezónní indexy a sezónní faktory Čtvrtletí I II III IV ∑

Sezónní Sezónní odchylky faktory -28.125 -27.9688 0.625 0.78125 28.75 28.90625 -1.875 -1.71875 -0.625 0

Grafické znázornění vyrovnání časové řady centrovanými klouzavými průměry je v Obrázku II-6. Obrázek II-6 Vyrovnání časové řady centrovanými klouzavými průměry

Centrované klouzavé průměry 620 600 580 560 540 520 500 480 460 1/I

1/II

1/III

1/IV

2/I

2/II

2/III

2/IV

3/I

3/II

3/III

3/IV

čtvtrl



II.4.1

Sezónní očišťování

Existuje-li v časové řadě sezónní složka, může do značné míry zakrývat dynamiku sledovaných jevů a tím znemožňuje provádět objektivní srovnávání hodnot uvnitř daného roku, proto se provádí sezónní očišťování. Sezónní očišťování je jiný přístup k nalezení vývojové tendence časové řady. Při sezónním očištění vyloučíme z časové řady sezónní složku a získáme tak řadu obsahující pouze trendovou a náhodnou složku. V počítačových programech jsou očištěné hodnoty označované „adjusted data“. yot = yt − St = Tt + εt..

(II.37)

V případě aditivního modelu vypočítáme sezónně očištěná data jako rozdíl skutečné hodnoty a příslušného sezónního faktoru

y o ,ij = y ij − Δ p j ,

(II.38)

u multiplikativního modelu vypočítáme sezónně očištěná data jako podíl skutečné hodnoty a příslušného sezónního faktoru

yo,ij =

(II.39)

yij pj

.

Příklad II-13 Vyrovnejte časovou řadu čtvrtletních údajů obratů dané firmy za období I./2004 – IV./2010 klouzavými průměry, posuďte sezónnost sezónními indexy a očistěte tuto časovou řadu od sezónnosti. Data jsou uvedena v Tabulce II-16 v prvém sloupci. Výpočet klouzavých průměrů a sezónně očištěných dat pomocí programu STATGRAPHICS jsou v dalších sloupcích Tabulky II-16., v Tabulce II-17 jsou uvedeny vypočtené sezónní faktory. Na Obrázku II-7 je grafické znázornění časové řady obratu za sledované období. Obrázek II-7 Grafické znázornění časové řady obratu dané firmy 400 380 360 340 320 300 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

Z nakresleného grafu časové řady obratu na obrázku II-7 je zřejmé, že časová řada nemá významný trend, proto k popisu sezónnosti můžeme použít sezónní odchylky i sezónní indexy. V příkladě ukážeme aplikaci sezónních indexů. Klouzavé průměry mají délku m = 4.

82



Tabulka II-16 Vyrovnání časové řady obratu klouzavými průměry a sezónně očištěná data Období 2004/I 2004/II 2004/III 2004/IV 2005/I 2005/II 2005/III 2005/IV 2006/I 2006/II 2006/III 2006/IV 2007/I 2007/II 2007/III 2007/IV 2008/I 2008/II 2008/III 2008/IV 2009/I 2009/II 2009/III 2009/IV 2010/I 2010/II 2010/III 2010/IV

Data

Klouzavé průměry

302,2 321,8 345,2 334,4 319,9 343,0 367,9 350,3 339,1 360,7 386,2 361,7 340,4 357,6 378,0 356,8 336,8 351,0 368,6 344,9 324,2 348,1 370,0 348,3 338,2 355,5 378,2 361,9

328,11 332,98 338,46 343,29 347,68 352,29 356,79 360,50 362,09 361,86 360,45 358,81 357,75 356,48 354,48 351,81 348,75 346,81 346,63 347,23 349,40 352,08 354,03 356,75

Očištěná data 319,27 322,25 326,29 335,44 337,96 343,48 347,75 351,39 358,25 361,21 365,04 362,83 359,62 358,10 357,29 357,91 355,82 351,49 348,41 345,97 342,51 348,59 349,73 349,38 357,30 356,00 357,48 363,03

Tabulka II-17 Sezónní faktory v % Čtvrtletí I II III IV

Sezónní faktory 94,65 99,86 105,80 99,69

Vypočtené sezónní faktory lze interpretovat následovně: ve sledovaném období dochází v prvém čtvrtletí k sezónnímu poklesu obratu v průměru o 5,35 %, ve druhém a čtvrtém čtvrtletí k malému průměrnému sezónnímu poklesu (o 0,14 %, resp. 0,31 %), ve třetím čtvrtletí byla v průměru úroveň obratu vyšší než průměr o 5,8 % (sezónní nárůst 5,8 %). Další komplexní příklad vyrovnání sezónní časové řady včetně grafického znázornění je uveden v Příkladech na procvičení.



II.5

Náhodná složka časových řad

Náhodnou složku chápeme jako výsledek působení souboru náhodných vlivů a lze ji vyjádřit ve tvaru

ε t = yt − Yt .

(II.40)

V klasickém modelu časové řady o náhodné složce předpokládáme, že splňuje tři základní předpoklady: 1. střední hodnota náhodné složky je nulová, tj. že platí

E (ε t ) = 0,

(II.41)

t = 1, 2,..., n .

2. Rozptyl náhodné složky je konstantní (předpoklad homoskedasticity náhodných poruch)

D(ε t ) = σ 2 ,

(II.42)

t = 1, 2,..., n .

3. Náhodné poruchy jsou vzájemně nezávislé, tj.

cov(ε t , ε t + k ) = 0,

(II.43.)

k ≠ 0.

Pokud neplatí třetí předpoklad o nezávislosti náhodných poruch, říkáme, že náhodné poruchy jsou autokorelované (to znamená, že náhodná porucha v čase t je závislá na poruše v čase t-1). Odhadem náhodné složky je reziduum, které vypočítáme jako rozdíl empirické hodnoty a odhadu teoretické hodnoty časové řady, tj.

et = yt − Yˆt .

(II.44)

kde odhadem teoretické hodnoty časové řady je buď trendová složka, součet trendové a sezónní složky nebo klouzavý průměr. K ověřování předpokladů o náhodné složce se používají různé testy založené na reziduích. Pokud zjistíme, že není splněn některý z předpokladů o náhodné složce, potom můžeme konstatovat, že použitý model časové řady není dobrý. Uvedeme si pouze test ověřující nezávislost reziduí – Durbinův - Watsonův test, který testuje nulovou hypotézu o nulové hodnotě koeficientu autokorelace ρ :

Ho : ρ = 0 H1 : ρ ≠ 0 Testové kriterium Durbinova - Watsonova testu má tvar n

 (e

t

(II.45)

d=

t =2

− et −1 ) 2

n

e

,

2 t

t =1

84


0< d < 4.


Testové kriterium Durbinova – Watsonova testu nabývá hodnot v intervalu 0
II.6

Extrapolace časových řad

Jak již bylo řečeno v kapitole II.3.1, rozumíme extrapolací prodloužení trendu časové řady do budoucnosti. Vychází z deterministického přístupu, že analyzovaná časová řada nebude do budoucna měnit své chování. Prognóza v čase t na i období dopředu znamená odhad hodnoty časové řady v okamžiku t+i, tj. odhad hodnoty

yˆ t +i . Dobu, na kterou počítáme předpověď, nazýváme horizont předpovědi.

Metody, které použijeme k provedení prognózy, závisí na typu prognózované časové řady: -

časové řady bez trendu a bez sezónnosti extrapolujeme průměrem hodnot časové řady

(II.45) -

Pt (i) =

y,

časové řady se zřejmým trendem, který lze vyjádřit analytickou funkcí extrapolujeme tak, že dosadíme do trendové funkce horizont předpovědi i

(II.47) -

y

Pt(i) =

yˆ t +i = a + b(t + i),

u časových řad se sezónností (aditivní nebo multiplikativní model) nejdříve vypočítáme vhodné sezónní charakteristiky ( Δ

pij nebo p j ), vyloučíme sezónnost (provedeme sezónní

očištění) a pro sezónně očištěná data vypočítáme s vhodnou trendovou funkcí extrapolace na j období dopředu. K těmto extrapolacím přičteme (resp. je vynásobíme) příslušné sezónní faktory ( Δ

pij nebo p j ). Např. pro lineární trend

(II.48)

Pt (i ) = yˆ t +1 = a + b (t + i ) + Δ p j

aditivní model

(II.49)

Pt (i ) = yˆ t +1 = [a + b (t + i )] p j

multiplikativní model

-

Pro předpovědi časové řady s výkyvy, nepravidelnostmi apod. použijeme adaptivní přístupy (např. exponenciální vyrovnávání) nebo jiné metody, např. Boxovu-Jenkinsovu metodologii, kterými se v tomto kurzu nezabýváme, lze je nalézt např. v [2] nebo v [3].

Příklad II-14 Pro data z Příkladu II-13 vypočítejte extrapolace na všechna čtvrtletí roku 2011 s použitím multiplikativního modelu. METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 85


Sezónně očištěná časová řada z Příkladu II-13 (poslední sloupec Tabulky II-16) byla vyrovnána trendovou přímkou

T=

184,548 + 0,83167 t.

Extrapolace této sezónně očištěné řady na 4 období dopředu jsou uvedeny ve třetím sloupci Tabulky II-18. Prognózy na rok 2011 podle vzorce (II.49) získáme vynásobením extrapolací vypočtených ze sezónně očištěné řady příslušnými sezónními faktory jednotlivých čtvrtletí. Tabulka II-18 Předpovědí obratu na rok 2011

I/11

Sezónní faktory v % 94,6549

II/11

99,8594

362,526

362,016288

III/11

105,7960

363,358

384,418230

IV/11

99,6898

364,19

363,060283

Čtvrtletí

Extrapolace

Prognózy

361,695

342,362041

Podmínky použití klasických statistických metod k extrapolacím: -

časová řada musí být přiměřeně dlouhá,

-

časová řada musí mít jednoznačný trend, který lze aproximovat co nejjednodušší analytickou funkcí,

-

je třeba rozlišovat mezi krátkodobou a dlouhodobou prognózou (podle účelu),

-

statistickou analýzu je třeba provádět současně s věcnou analýzou,

-

kvalitu předpovědi posuzovat statistickými kriterii.

II.7

Korelace v časových řadách

Závislost ukazatelů v časových řadách nelze posuzovat stejnými metodami (tzn. výpočtem korelačního koeficientu) jako v případě korelace prostorové, neboť by to mohlo mnohdy vést ke zcela nesprávným závěrům o existenci závislosti. U ukazatelů sledovaných v časových řadách se může mnohdy jednat o zdánlivou korelaci, která je způsobena buď paralelismem časových řad (tj. podobným průběhem) nebo je to projev autokorelace časových řad. Autokorelací časových řad rozumíme korelační závislost mezi jednotlivými pozorováními časové řady. Existenci autokorelace ověřujeme výpočtem koeficientu autokorelace 1. řádu (korelace za sebou následujících členů časové řady), resp. koeficientů autokorelace vyšších řádů nebo aplikací Durbinova - Watsonova testu (počítá jej většina statistických počítačových programů).

86



Při zjištění autokorelace v časových řadách postupujeme následujícím způsobem: -

vyloučíme systematickou složku (trend, resp. i sezónnost), tzn. osamostatníme náhodnou složku časové řady, získáme tzv. rezidua:

(II.50)

e yi = y i − Yi ,

(II.51)

e xi = xi − X i ,

-

ověříme neautokorelovanost reziduí Durbinovým - Watsonovým testem

(hodnoty testového kriteria Durbinova - Watsonova testu nabývají hodnot pouze v intervalu < 0 ; 4 >, nezávislost vyjadřují hodnoty testového kriteria d blízké 2), -

pokud rezidua nejsou autokorelovaná, vypočítáme korelační koeficient reziduí

-

z výše korelačního koeficientu reziduí

reyex ,

rexey usuzujeme na těsnost závislosti mezi y a x.

Příklad II-15 V restauraci byla 10 následujících dní sledována polední a večerní tržba. Chceme posoudit, jestli existuje závislost mezi polední a večerní tržbou. Data uvádí Tabulka II-19. Tabulka II-19 Časové řady polední a večerní tržby T 1 2 3 4 5 6 7 8 9 10 

Večer yt 175 176 177 180 183 183 186 182 186 188 1816

Poledne xt 37 39 38 38 42 45 41 44 45 42 411

Na Obrázku II-8 je znázorněn průběh obou časových řad. Z grafu vidíme, že se polední i večerní tržby vyvíjejí podobně a hodnoty obou časových řad mají mírně rostoucí trend. Potřebné výpočty reziduí jsou v Tabulce II-20.



Obrázek II-8 Řada údajů polední a večerní tržby 200 150 100 50 0 1

2

3

4

5

6

7

8

9

10

Pokud bychom chtěli hodnotit závislost večerní a polední tržby nám známým korelačním koeficientem, pak bychom vypočítali, že korelační koeficient původních dat rytxt = 0,7278. Tento koeficient by představoval silnou, statisticky významnou závislost večerní a polední tržby, ale výpočtem DurbinovaWatsonova testu bychom zjistili, že se jedná o zdánlivou korelaci (v našem případě vidíme zjevný paralelismus obou časových řad).

• Vypočítáme proto trendové funkce pro obě časové řady

T y = 173,933 + 1,394 t Tx = 36,800 + 0,782 t.

• Zbavíme obě časové řady trendových složek a vypočítáme rezidua ey a ex, (výpočet reziduí je v Tabulce II-20) Tabulka II-20 Rezidua večerní a polední tržby t 1 2 3 4 5 6 7 8 9 10 

Večer yt 175 176 177 180 183 183 186 182 186 188 1816

Poledne xt 37 39 38 38 42 45 41 44 45 42 411

ey

ex

-0,32727 -0,72121 -1,11515 0,49091 2,09697 0,70303 2,30909 -3,08485 -0,47879 0,12727 0

-0,58182 0,63636 -1,14545 -1,92727 1,29091 3,50909 -1,27273 0,94546 1,16364 -2,61818 0

• Ověříme kvalitu reziduí Durbin-Watsonovým testem (vzorec II.45)

d e y = 2,09283

dex =

2,05702.

Hodnoty Durbin-Watsonova testem testu mají hodnoty blízké 2, tedy ukazují, že rezidua nejsou autokorelovaná.

88



• Vypočítáme korelační koeficient reziduí

re y ex = − 0,058 . Z výše korelačního koeficientu reziduí plyne, že ukazatele y a x jsou nezávislé, nelze tedy na základě polední tržby dělat předpoklady o večerní tržbě.

Opožděná (asynchronní) korelace V časových řadách se někdy vliv určitého ukazatele neprojevuje ve stejném období, ale s určitým časovým posunem (lagem). Závislost mezi ukazateli takových řad zkoumáme stejnými metodami jako korelaci mezi ukazateli stejných časových období, ale musíme uvažuvat vliv jedné proměnné posunutý o lag.

II.8

KONTROLNÍ OTÁZKY

Co chápeme pojmem očištění sezónních variací? Jaký je rozdíl mezi úsekovou a okamžikovou časovou řadou? Co vystupuje jako váha při výpočtu chronologického průměru? Je třeba k výpočtu průměrného koeficientu růstu znát všechny hodnoty časové řady? Co chápete pod pojmem dekompozice časové řady? Jaké druhy grafů použijeme k zobrazení časové řady? Jakou metodu použijeme k odvození parametrů trendové přímky? Lze použít MNČ pro odvození parametrů trendové exponenciály? Jaký efekt má vyrovnání časové řady klouzavými průměry? Bude “hladší” čára klouzavých průměrů pro délku klouzavé části m = 3 nebo m = 5 ? Kdy mluvíme o prostých klouzavých průměrech? Z kolika hodnot časové řady je vždy vypočítán centrovaný klouzavý průměr pro délku klouzavé části m=4? Patří centrované klouzavé průměry do prostých klouzavých průměrů a proč? V čem spočívá princip exponenciálního vyrovnávání? V jaké situaci použijeme k posouzení sezónnosti sezónní indexy a kdy sezónní odchylky? Co jsou sezónní faktory? Jaké složky obsahuje sezónně očištěná časová řada? Jaké znáte metody sezónního očištění časové řady? Podle čeho byste vybrali vhodný model časové řady? Jaké vlastnosti musí splňovat náhodná složka časové řady? METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 89


Co plyne ze zjištění, že některý z předpokladů o náhodné složce není splněn? Za jakých podmínek lze použít klasické metody časových řad k prognózám? Jak postupujeme v případě korelace ukazatelů, které jsou v časových řadách? Co chápeme „lagem“ v časových řadách?

II.9

PŘÍKLADY NA PROCVIČENÍ

P.II.1 T-1.

Vypočítejte průměrný počet dopravních nehod v ČR v letech 2004-2008 uvedených v tabulce Tabulka T-1 ROK

2004

2005

2006

2007

2008

Počet nehod

1316

1261

1087

1248

1167

P.II.2 V Tabulce T-2 máme k dispozici údaje o průměrné míře registrované nezaměstnanosti k 31.12. v letech 2004 – 2009. Vypočítejte průměrnou míru nezaměstnanosti v daném období. Tabulka T-2 ROK

2004

2005

2006

2007

2008

Míra nezaměstnanosti

9,47

8,88

7,67

5,98

5,96

P.II.3 Vypočítejte průměrný počet pracovníků v podniku na základě dat v Tabulce T-3. Tabulka T-3 Datum

1.1.

1.2.

1.4.

1.7.

1.9.

1.10.

1.11.

31.12.

Počet

87

89

96

100

114

116

120

130

P.II.4 Charakterizujte časovou řadu údajů za roky 2002 - 2009 uvedenou v Tabulce T-4 průměrným přírůstkem a průměrných koeficientem růstu. Posuďte, zda v letech 2003 - 2008 byl růst rychlejší než v celém období. Tabulka T-4 Rok yt

2002

2003

2004

2005

2006

2007

2008

2009

2

5

8

12

6

3

9

12

P.II.5 Časovou řadu údajů za léta 2002 – 2009 z Tabulky T-5: a) vyrovnejte přímkou, b) vypočítejte vyrovnané hodnoty, c) odhadněte hodnotu ukazatele v roce 2010 a v r. 2011 za předpokladu neměnného vývoje,

90



d) vypočítejte rezidua, e) vypočítejte střední čtvercovou chybu (MSE). Tabulka T-5 Rok

2002

2003

2004

2005

2006

2007

2008

2009

2

5

9

12

15

14

14

12

yt

P.II.6 Data Příkladu II.5 byla vyrovnána také trendovou parabolou a exponenciální funkcí. Posuďte, která trendová funkce je nejvhodnější na základě uvedených chyb (viz Tabulka T-6) Tabulka T-6 Models: (A)

Linear trend = 0,107143 + 2,47619 t

(B)

Quadratic trend = -0,0714286 + 2,58333 t + -0,0119048 t^2

(C)

Exponential trend = exp(0,939205 + 0,286078 t)

Model

MSE

MAE

--------------------------------(A)

0,6627

0,5268

(B)

0,7904

0,5416

(C)

7,4704

1,8151

P.II.7 Časovou řadu údajů v Tabulce T-7 za období 2003 – 2010 vyrovnejte přímkou a. vypočítejte extrapolace na roky 2011 – 2013. Tabulka T-7 Rok

2003

2004

2005

2006

2007

2008

2009

2010

yt

178

186

211

235

260

250

272

270

P.II.8 Vyrovnejte časovou řadu 10 období uvedenou v Tabulce T-8 klouzavými průměry délky m = 3 a m = 5 a graficky je znázorněte původní řadu i řadu vyrovnaných hodnot. Tabulka T-8 Rok

1

2

3

4

5

6

7

8

9

10

yt

3

8

1

6

8

10

6

8

13

6

P.II.9 Proveďte sezónní očištění časové řady uvedené v Příkladě II-12 v textu kapitoly II. ►► P.II.10 (výpočetně náročnější příklad, nepovinné). Vypočítejte extrapolace na následující rok (tj. na 4 čtvrtletí) u časové řady z Příkladu P. II.9.



VÝSLEDKY PŘÍKLADŮ P.II.1 Úseková časová řada. Průměrný počet dopravních nehod ve sledovaném období byl 1215,8. P.II.2 Prostý chronologický průměr. Průměrná míra registrované nezaměstnanosti byla ve sledovaném období 7,56. P.II.3 Chronologický průměr (vážený). Průměrný počet pracovníků ve sledovaném roce je 105. P.II.4 Absolutní přírůstky a koeficienty růstu uvádí následující Tabulka T-9. Tabulka T-9 yt 2

Δ yt X

kt x

5

3

2,5

8

3

1,6

12

4

1,5

6

-6

0,5

3

-3

0,5

9

6

3

12

3

1,33

V letech 2002 - 2009 byl průměrný přírůstek 1,4286 a průměrný koeficient růstu 1,348, tj. průměrný roční růst o 34,8 %. V letech 2003 - 2008 byl růst 1,125, tj., průměrný růst o 12,5%, tedy byl pomalejší než v celém sledovaném období. P.II.5 Potřebné výpočty pro odhad parametrů trendové přímky jsou v Tabulce T-10. Tabulka T-10 i

yt

t

t2

yt tt

1

2

1

1

2

2

5

2

4

10

3

9

3

9

27

4

10

4

16

40

5

12

5

25

60

6

14

6

36

84

7

18

7

49

126

8

20

8

64

160

Σ

90

36

204

509

Výpočty parametrů trendové přímky n

b=

t =1

n

n

t =1 n

t =1

n tt2 − ( tt ) 2 t =1

92

n

n. tt yt −  yt  tt =

8.509 − 90.36 = 2,476 8.204 − 36 2

t =1



a = y − bt =

90 36 − 2,476 = 0,107 8 8

Model: Lineární trend T= 0,107 + 2,476 t b) Vyrovnané hodnoty dostaneme dosazením do trendové funkce za t hodnoty 1,2,…,8. Výpočty uvádí Tabulka T-11. Tabulka T-11 t

Data

Vyrovnané Hodnoty

Rezidua

yt - Tt

e2

1 2 3 4 5 6 7 8

2 5 9 10 12 14 18 20

2,583 5,059 7,536 10,012 12,488 14,964 17,441 19,917

-0,583 -0,059 1,464 -0,012 -0,488 -0,964 0,559 0,083

0,3399 0,0035 2,1433 0,0001 0,2381 0,9292 0,3125 0,0069

c) do vypočítané trendové funkce dosadíme za hodnotu časové proměnné t hodnotu 9 a 10. T2010 = 0,107 + 2,476. 10 = 22,393 T2011 = 0,107 + 2,476. 11 = 24,869 d) Rezidua vypočítáme jako rozdíl zjištěných a vyrovnaných hodnot

e)

MSE =

yt - Tt .

1 n 3,97362 ( yt − Tt ) 2 = = 0,6627.  8−2 n − p t =1

P.II.6 Podle MSE i MAE je nejvhodnější trendovou funkcí přímka. P.II.7 Potřebné výpočty pro nalezení trendové přímky jsou v následujících tabulkách Tabulce T-12 a Tabulce T-13. Výpočty parametrů trendové přímky

b=

8.8987 − 1862.36 = 14,47 8.204 − 36 2

a=

1862 36 − 14,476 = 167,607 8 8

Lineární trend T = 167,607 + 14,47 t .



Tabulka T-12 Rok

yt

t

t2

yt tt

2003

178

1

1

178

2004

186

2

4

372

2005

211

3

9

633

2006

235

4

16

940

2007

260

5

25

1300

2008

250

6

36

1500

2009

272

7

49

1904

2010

270

8

64

2160

Σ

1862

36

204

8987

Tabulka T-13 Extrapolace časové řady Rok

t

yt

2003

1

178

Vyrovnané hodnoty 182,083

2004

2

186

196,559

2005

3

211

211,035

2006

4

235

225,511

2007

5

260

239,987

2008

6

250

254,463

2009

7

272

268,939

2010

8

270

283,415

2011

9

.

297,891

2012

10

.

312,367

2013

11

.

326,843

P.II.8 Vypočítané 3-členné a 5-členné klouzavé průměry uvádí Tabulka T-14, grafické zobrazení vyrovnání časové řady klouzavými průměry Obrázek O1. Tabulka T-14 yt

3-kp

5-kp

3 8

4

1

5

5,2

6

5

6,6

8

8

6,2

10

8

7,6

6

8

9

8

9

8,6

13

9

6

94



Obrázek O1 Extrapolace časové řady

P.II.9 Sezónně očištěné hodnoty vypočítané podle vzorce (II.38) jsou uvedené v Tabulce T-15. V Obrázku O2 je znázorněná původní a sezónně očištěná časová řada dat Příkladu II.9. Tabulka T-15 Sezónně očištěná data

1/I

Původní data yt 510

Sezónně očištěná data yot 537.9688

1/II

530

529.2188

1/III

560

531.0938

1/IV

550

551.7188

2/I

530

557.9688

2/II

570

569.2188

2/III

610

581.0938

2/IV

570

571.7188

3/I

550

577.9688

3/II

580

579.2188

3/III

610

581.0938

3/IV

600

601.7188

Období

Obrázek O 2 Sezónně očištěná řada 620 600 580

yt

560

yot

540 520 500 1

2

3

4

5

6

7

8

9 10 11 12



P.II.10 Data i potřebné výpočty jsou uvedeny v Tabulce T-16. Ze sezónně očištěných dat uvedených v Tabulce T-16 (sloupec 2) vypočítáme trendovou přímku:

T = 525, 7718 + 5.907 t. Dosazením do této trendové funkce za hodnoty času t = 13,14,15,16 vypočítáme extrapolace (viz. sloupec 3). K těmto extrapolacím připočteme sezónní faktory (sloupec 4). Výsledné extrapolace na další rok jsou uvedeny ve sloupci 5 Tabulky T-16. Tabulka T-16 Extrapolace sezónní časové řady

96

Extrapolace. z yot

Sezónní faktory

Extrapolace se sezónností

.

602,5077

-27,9688

574,5389

14

.

608,4146

0,78125

609,1959

15

.

614,3215

28,90625

643,2278

16

.

620,2284

-1,71875

618,5097

t

yot

1

537,9688

2

529,2188

3

531,0938

4

551,7188

5

557,9688

6

569,2188

7

581,0938

8

571,7188

9

577,9688

10

579,2188

11

581,0938

12

601,7188

13



II.10

ZÁKLADNÍ VÝRAZY

abscissa

osa úseček

absolute increase

absolutní přírůstek

additive model

aditivní model

adjusted data

sezónně očištěna data

ascending function

rostoucí funkce

autocorrelation

autokorelace

centered moving average

centrovaný klouzavý průměr

coordinate

souřadnice

chronologic mean

chronologický průměr

curve

křivka

cyclical component

cyklická složka

deseasonalized time series

časová řada s eliminovanou sezónní složkou

descending function

klesající funkce

exponential smoothing

exponenciální vyrovnávání

exponential trend

exponenciální trend

extreme value

extrémní hodnota

fitting

vyrovnání, prokládání

fitting with mowing averages

vyrovnání klouzavými průměry

fixed base index

bazický index

forecasting

předpovídání

fluctuations

výkyvy, kolísání

growth coefficient

koeficient růstu

increment

přírůstek

interval length

délka intervalu

interval series

intervalová řada

lag

časový posun

linear trend

lineární trend

logistic curve

logistická křivka

long-term movement

dlouhodobý pohyb

mean absolute error

střední absolutní chyba

mean error of prediction

střední chyba předpovědi

mean growth rate

průměrné tempo růstu

mean square error

střední kvadratická chyba

mixed model

smíšený model

moment series

okamžiková řada

monthly periodicity

měsíční periodicita

moving averages

klouzavé průměry

moving part

klouzavá část METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 97


moving total

klouzavý úhrn

multiplicative model

multiplikativní model

ordinate

osa pořadnic

period

období

periodic term

periodická složka

periodicity

periodicita

period of survey

období zjišťování

pie chart

koláčový (výsečový) graf

prediction

předpověď, predikce

predicted value

hodnota předpovědi

proportional seasonality

proporcionální sezónnost

quadratic trend

kvadratický trend

quaeter

čtvrtletí

quaeterly periodicity

čtvrtletní periodicita

random component, irregular component

náhodná složka, nepravidelná složka

ratio-to-moving-average

poměr měřené hodnoty ke klouzavému průměru

seasonal component

sezónní složka

seasonal index

sezónní index

seasonal variation

sezónní kolísání

seasonally adjusted time series

sezónně očištěná časová řada

secular trend

dlouhodobý trend

series

řada

short-term

krátkodobý

simple moving average

prostý klouzavý průměr

slope

sklon, směrnice

smoothing

vyrovnání, vyhlazení

smoothing constant

vyrovnávací konstanta

straight line

přímka

systematic component

systematická složka

time independent

nezávislý na čase

time interval

časový interval

time point

časový okamžik

time scale

časová stupnice

time series

časová řada

time series correlation

korelace časových řad

trend analysis

analýza trendu

trend curve

křivka trendu

trend-free series

řada bez trendu

weighted moving average

vážený klouzavý průměr

yearly period

roční období

98



III

MARKETINGOVÉ PRŮZKUMY

Marketingové průzkumy jsou součástí procesu marketingového řízení firmy. Marketingovými průzkumy se obvykle rozumí shromažďování, zpracování a vyhodnocování údajů, které jsou nezbytné pro úspěšné marketingové řízení firmy. Těmito průzkumy se zjišťuje podnikatelské prostředí, trhy, názory zákazníků, potřeby, vnější i vnitřní možnosti firmy, konkurenční prostředí, údaje o kupním chování podniků, domácností i individuálních spotřebitelů, údaje o odezvě spotřebitelů na nové výrobky, údaje o konkurenci, údaje charakterizující účinnost reklamy a řada jiných potřebných údajů. Průzkumy v oblasti trhu, názorů a veřejného mínění se zabývají specializovaná pracoviště. V těchto skriptech jsou uvedeny pouze základní přístupy a statistické postupy, využitelné ve firemní praxi. Podrobnější informace je nutno hledat ve specializované literatuře, např. v [13], [14], [, [16], [17], [7].

III.1

Způsoby zjišťování údajů a výběrové postupy

V marketingových průzkumech se pracuje se dvěma zdroji dat: sekundárními a primárními. Rozdíl mezi nimi je v účelu, pro který byla data získána. Sekundární data byla získána k jinému účelu a nejsou určena jen pro průzkumy, většinou nepokrývají potřeby konkrétního průzkumu, mnohdy je lze využít z části. Patří sem např. různé statistické přehledy, registry, katalogy, databáze apod. Například údaje z Českého statistického úřadu o stavu a pohybu obyvatelstva v podrobném územním členění, data statistiky rodinných účtů o příjmech, výdajích a spotřebě domácností v členění podle typů domácností a příjmových skupin, data mikrocensů apod. Rovněž sem lze zařadit výsledky některých dřívějších průzkumů specializovaných agentur prováděných v příslušné oblasti. Pokud je možno při marketingovém výzkumu využít sekundární data, bývá to výhodné, protože tím se celý výzkum zlevní. Je ale důležité znát informace o metodice získání a vyhodnocování takových dat a rovněž mít informace o věrohodnosti sekundárních údajů. Pro potřeby marketingových výzkumů je možno sekundární data získat buď zdarma nebo za úplatu. Primární data jsou originální údaje shromažďované přímo pro daný průzkum. Zdrojem primárních dat je zkoumaná jednotka, např. firma, domácnost, jednotlivec, prodejna apod.

III.1.1 Způsoby zjišťování údajů Při průzkumech trhu a výzkumech veřejného mínění se používá celá řada postupů zjišťování primárních dat komunikací s dotázaným. Mezi nejužívanější nástroje výzkumu využitelné i ve firemní praxi patří: - vyplňování písemných dotazníků nebo anketních lístků. Dotazník může mít různou formu, např. uveřejněnou v časopise, rozdávanou zákazníkům, rozesílanou poštou se žádostí o vyplnění apod. Nevýhodou je nemožnost kontrolovat výběrovou proceduru, většinou je nízká návratnost dotazníků, výsledky nemohou být přesné, mohou sloužit pouze pro informaci. - dotazování je nejrozšířenější způsob získávání údajů při průzkumech a může mít různé formy. Tazatel buď přímo vyhledá dotázaného, např. doma nebo ho zastaví na ulici apod. nebo se může jednat o telefonický dotaz, který se většinou používá k získání rychlé odezvy, např. na televizní pořad, marketingové průzkumy 99


určitou událost apod. U nás je dosud méně častý dialog dotázaného s počítačem (pomocí e-mailu), ale tato forma dialogu se rychle rozvíjí. - volnější scénář rozhovoru. Předpokladem je dobře proškolený tazatel – tuto formu používají specializované firmy. Ve všech metodách je základní jednotkou výzkumného nástroje otázka, na níž může existovat určitá škála odpovědí. Specializované firmy nebo organizace zabývající se prováděním průzkumů obvykle disponují tzv. tazatelskou sítí, což jsou pracovníci najatí a vyškolení k provádění průzkumů, kteří získávají odpovědi na zjišťované otázky. Podrobnější informace o technikách pořizování primárních dat lze najít ve specializované literatuře, z uvedených zdrojů např. v [13], [14], [15], [16], [17].

III.1.2 Výběrové postupy V oblasti průzkumu trhu, marketingových průzkumech, sociologických výzkumech a v průzkumech veřejného mínění se pracuje pouze na základě výběrových šetření. Vedle klasických náhodných výběrů popsaných ve skriptech Pravděpodobnost a statistika (kapitola IV.1) se používají i další výběrové techniky, jimiž lze pořídit výběrový soubor: anketa, metoda základního masivu a záměrný výběr. Musíme si však uvědomit, že z informací získaných z výběru, který nesplňuje podmínky náhodnosti, nemůžeme v mnoha případech provádět objektivní pravděpodobnostní závěry. Anketa zpravidla oslovuje pouze určitou vybranou část statistických jednotek (jednotlivců, podniků, apod.). Informace se získávají většinou z dotazníků, které byly rozeslány určitému okruhu respondentů nebo na které určitá skupina respondentů odpověděla (např. anketa v časopise, ve firmě). Informace získané anketním šetřením nelze považovat za obecně platné, jejich zobecnění na celou populaci je riskantní. Metodu základního masivu je možné použít v případech, kdy se základní soubor skládá z několika velkých jednotek (např. podniků) a velkého počtu malých jednotek (např. drobných výrobců). Šetření se provede pouze ve velkých jednotkách a malé se vynechají. Metoda má výhodu ve snížení nákladů na šetření, získané výsledky ale nelze bez problémů zobecnit, protože nevystihnou specifika malých jednotek. Při záměrných výběrech skupina odborníků (nebo znalec) vybere jednotky, které považuje za typické. Záměrný výběr je často vytvářen jako kvótní výběr. Jeho základní myšlenkou je získat výběrový soubor, který by byl zmenšeninou základního souboru a zajišťoval stejnou strukturu některých znaků výběrového a základního souboru, např. shodné procento domácností zaměstnaneckých, dělnických, důchodců, nezaměstnaných atd. ve výběru jako je v celém základním souboru, stejné věkové složení, stejná vzdělanostní struktura apod. Tazatelé provádějí kontaktování vybraných osob a získávají od nich informace podle instrukcí, které obsahují zadání úkolu a kvóty ve formě rozdělení četností. V průzkumech veřejného mínění se zkoumají názory, postoje a určité aktivity obyvatelstva. Výběr může být prováděn jako pravděpodobnostní (náhodný) na základě opory výběru, kterou může být např. registr obyvatelstva, volební seznamy, seznam zákazníků určitého výrobce, seznam sídel firem určitého typu apod. Výběr jednotek lze provádět na základě opory výběru přímo nebo může být 100 marketingové průzkumy


vybráno místo, zahrnující skupinu výběrových jednotek, z níž je v dalším kroku vybrána jednotka nebo jsou prošetřeny všechny jednotky skupiny. Často se používají složitější techniky výběru, a to vícestupňový výběr, při němž se například nejdříve náhodně vyberou města, v nich byty a v nich konkrétní osoby nebo oblastní výběr, při němž se základní soubor rozdělí do stejnorodějších částí (oblastí) a z nich se provádí výběr, nejčastěji jako kvótní. Při praktickém provádění výběrů založených na opoře výběru vznikají při výzkumech veřejného mínění a terénních průzkumech teoretické problémy, proto se často používají modifikované postupy, např. náhodná procházka, což je obdoba systematického výběru. Podle opory výběru je náhodně vybrána tzv. startovací adresa a od ní se stanoveným směrem vybírá každý k-tý dům nebo byt nebo firma, v nichž se provede průzkum.

III.1.3 Stanovení velikosti výběrového souboru Přesné stanovení velikosti výběru, který by zabezpečil získané odhady v požadované přesnosti, je možné pouze v případě náhodných výběrů a to vždy pouze při provádění odhadů ve spojitosti s konkrétními úsudky o parametrech základního souboru (odhad průměru, podílu apod.), jak jsme uvedli v kapitole IV. skript Pravděpodobnost a statistika.

(III.1)

n≥

u12−α / 2σ 2 u12−α / 2 V 2 = Δ2 δ2

Ve vzorci (III.1) je σ2 rozptyl a V je variační koeficient základního souboru. Musíme si uvědomit, že čím žádáme vyšší spolehlivost odhadu, tím je nutno volit větší rozsah výběru (např. při 95% spolehlivosti odhadu je třeba mít 1,4 krát větší rozsah výběru než při spolehlivosti 90%). Je třeba si uvědomit, že při spolehlivosti odhadu 95 % vede zmenšování přípustné chyby na polovinu ke čtyřnásobnému zvýšení rozsahu výběru. Při velké variabilitě je nutno volit větší rozsah výběru. U číselných proměnných, které se sledují ve výzkumech veřejného mínění a v průzkumech trhu, se nejčastěji vyskytují hodnoty variačního koeficientu od 0,3 do 1,0; jim odpovídá při 95% spolehlivosti rozsah výběru od 217 do 1537. Při použití metody kvótního výběru se v průzkumech trhu a ve výzkumech veřejného mínění považují za dostatečně spolehlivé výsledky získané z výběru 500 jednotek (osob), nejčastější jsou výběrové soubory kolem 1000 osob.

III.2

Vybrané metody používané ke zpracování údajů získaných ve výběru

K metodám, používaným ke zpracování údajů marketingových výzkumů, patří především běžné statistické postupy, jakými je uspořádání údajů do tabulek, jejich grafické znázornění a výpočty charakteristik úrovně a variability, s nimiž jsme se seznámili v popisné statistice v kapitole I. ve skriptech Statistika a pravděpodobnost.

marketingové průzkumy 101


Ke zpracování číselných údajů získaných z výběru formou náhodného výběru, můžeme použít metody a postupy popsané v kapitole IV.3 skript Statistika a pravděpodobnost, zejména testy o parametrech základních souborů: testy o střední hodnotě, testy o relativní četnosti, testy o rozptylu, testy rovnosti průměrů dvou závislých výběrů (párové testy, např. parametrický t–test), testy o rovnosti dvou nezávislých výběrů, testy rovnosti středních hodnot, test rovnosti rozptylů apod. Existuje ale široká oblast analýzy, kde použití parametrických testů, které jsme se učili v kurzu Pravděpodobnost a statistika, nelze nebo alespoň není vhodné používat. Ve většině takových situací lze použít neparametrických metod. Z nich si uvedeme některé neparametrické testy, které ve srovnání s odpovídajícími parametrickými testy (s nimiž jsme se seznámili ve skriptech Pravděpodobnost a statistika), mají výhodu v tom, že jsou méně citlivé na porušení předpokladů použitelnosti. Zejména je lze použít v případech, když víme, že rozdělení, z něhož byl pořízen výběr, není normální (případně, kdy rozdělení neznáme a vzhledem k rozsahu výběru nelze toto rozdělení ověřit) a zejména v případech, kdy pracujeme s malými výběry. Nevýhodou neparametrických testů je nižší síla testu než odpovídajícího parametrického testu. V průzkumech se často vyskytují odpovědi, které nejsou číselné, ale slovní (kategoriální), např. vyjádření spokojenosti s obsluhou v bance (velmi spokojen, spokojen, nespokojen) apod. K řešení úloh tohoto typu využijeme metody testování nezávislosti kategoriálních znaků popsané v kapitole I.5 těchto skript. Odpovědi (výsledky) na otázky mají často formu pořadí, nebo je lze do této podoby převést (např. uspořádáním podle velikosti). K posouzení závislosti dvou proměnných X a Y, které mají charakter pořadových čísel, je možno použít Spearmanův koeficient pořadové korelace popsaný v kapitole I.4. V této kapitole uvedeme alespoň některé další jednoduché a často používané metody, které je možno ke zpracování údajů z průzkumů použít, další je možno nalézt ve specializované literatuře, např. [13], [16], [17].

III.2.1 Porovnání struktury výběrového a základního souboru V praxi průzkumů trhu je třeba často ověřit, zda struktura výběru (např. osob podle jejich věkové struktury, zdrojů příjmu, velikosti příjmu, názorů apod.) odpovídá struktuře základního souboru, pro který chceme výsledky průzkumu zobecnit (základní souborem zde může být oblast, země, firma apod.) Splnění podmínky stejné struktury výběru a základního souboru je předpokladem, že závěry získané z výběru, lze zobecnit. Jiným typem úlohy je ověření, zda odpovědi získané z výběru, mají strukturu, která byla očekávána (předpokládána) v záměru firmy. Úlohám tohoto druhu říkáme testy shody. Jednoduchou metodou určenou k řešení takových úloh je chí-kvadrát test dobré shody popsaný v kapitole I.4 těchto skript. Je-li hodnota testového kriteria χ 2 větší než je kritická hodnota, je prokázána neshoda struktury základního a výběrového souboru a dělat zobecňující závěry na základě výběru není možné. V opačném případě lze výběrový soubor považovat za reprezentativní vzorek základního souboru. Test dobré shody je možno použít i v případě ověření shody rozdělení (struktury) výběru s předem předpokládanou strukturou, např. strukturou poskytovaných úvěrů apod. Připomeňme, že požadavkem pro použití χ 2 - testu dobré shody je, aby alespoň 80 % očekávaných (teoretických) četností bylo větších než 5 a žádná nebyla menší než 1. Splnění této podmínky se někdy zabezpečuje slučováním sousedních tříd (skupin) nebo příbuzných variant znaku. (Při 102 marketingové průzkumy


slučování skupin musíme přísně dbát na to, aby slučované skupiny tvořily takový celek, který bude mít interpretovatelný smysl.)

Příklad III-1 Při marketingovém průzkumu byl získán výběrový soubor 254 respondentů starších 18 let ve struktuře dané v Tabulce III-1. Ověřte, zda struktura respondentů odpovídá struktuře obyvatelstva celé oblasti, v níž žije 29 % zaměstnanců, 20 % podnikatelů, 6 % pracujících v zemědělství, 18 % důchodců, 16 % studujících a 11 % nezaměstnaných. Tabulka III-1 Struktura 254 respondentů Výpočty

(ne,i - no,i )2

πo,i

Teoretické Četnosti no,i = n πo,i

Očekávaná struktura

Kategorie respondentů

Počet respondentů ne,i

Zaměstnanci

127

0,29

73,66

38,626

Podnikatelé

54

0,20

50,8

0,282

Zemědělci

11

0,06

15,24

1,189

Důchodci

27

0,18

45,72

7,665

Studující

20

0,16

40,64

10,483

Nezaměstnaní

15

0,11

27,94

5,993

Celkem

254

1,00

254

64,147

Teoretické četnosti jsou vypočteny podle vzorce

no,i

no,i = n πo,i.

Testové kritérium k

χ = 2

i =1

(ne,i − no,i ) 2 no,i

= 66,147 .

Kritická hodnota χ12−α (k − 1) = χ 02,95 (5) = 11,07 Hodnota testového kritéria χ 2 = 66,147 spadá do kritického oboru, zamítáme tedy na 5% hladině významnosti hypotézu H0 o souladu struktury respondentů a struktury obyvatel v oblasti. Tento závěr má ale velmi důležitý praktický důsledek: závěry, které by byly udělány na základě průzkumu u vybraného souboru respondentů, nemusí odrážet názory obyvatel dané oblasti a mohou vést k nesprávným závěrům v provedeném průzkumu.

III.2.2 Ověřování změny názorů V marketingových průzkumech často pracujeme se závislými výběry. O závislých výběrech mluvíme nejčastěji tehdy, sledujeme-li u n náhodně vybraných jednotek stejný znak ve dvou po sobě následujících obdobích nebo určitý znak u týchž jednotek při jiných podmínkách. Jednotlivá marketingové průzkumy 103


pozorování lze tedy chápat jako párově závislá. Příkladem může být zájem podnikatelů o určitý bankovní produkt před a po reklamě, ověření změny prodejnosti výrobku vlivem působení nějakého opatření (např. změny daňového systému, celních předpisů apod.), ověření vhodnosti různých technologických způsobů zpracování apod. "Pár" mohou tvořit také pozorování zjišťovaná na tomtéž subjektu (jednotce) ve dvou různých situacích nebo se může jednat o logický pár, např. manželský, kdy zjišťujeme od obou členů páru číselné údaje o tomtéž znaku resp. odpovědi na stejnou otázku. Posouzení změny názorů respondentů po nějaké kampani nebo vlivem nějakého opatření lze řešit např. použitím Mc Nemarova testu významnosti změn, který se obecně používá k ověření shody podílů sledované varianty alternativního znaku ve dvou souborech, z nichž byly pořízeny závislé výběry. Předpokládá se, že oba výběry mohou nabývat pouze dvou hodnot (nula a jedna, ano a ne). Sestavíme tabulku obsahující četnosti kombinací výsledků v obou výběrech (viz tabulka.III-2)

Tabulka III-2 Tabulka k testu ověřování změny názorů Názor

Po opatření

Před opatřením

0

1

0

A

B

1

C

D

Podmínkou použití testu je, aby bylo B+C > 10. Testovým kriteriem Mc Nemarova testu je výraz



G =

(III.2)

které

má

při

platnosti

( B - C - 1)2

testované

B+C hypotézy

,

rozdělení

χ12−α (1) .

Kritickou

hodnotou

je

kvantil χ 02,95 (1) = 3,84 . Změnu názorů považujeme za prokázanou, pokud hodnota testového kriteria G0 překročí kritickou hodnotu 3,84.

Příklad III-2 K ověření účinnosti televizní reklamy na změnu názorů zákazníků na určitý bankovní produkt bylo provedeno zjištění názorů náhodně vybraných 320 zákazníků jedné banky. Výsledky odpovědí uvádí Tabulka III-3. Tabulka III-3 Názory zákazníků Názor

104 marketingové průzkumy

Po kampani

Před kampaní

Příznivý

Nepříznivý

Příznivý

149

24

Nepříznivý

50

97


Testové kriterium podle vzorce (III.2) 

G =

( 24 - 50 - 1)2 24 + 50

= 8, 45

Kritická hodnota χ 02,95 (1) = 3,84 . Protože Go = 8,45 > 3,84, lze změnu názorů vlivem TV kampaně považovat na 5% hladině významnosti za prokázanou.

III.2.3 Test o shodě podílů v k souborech Chceme-li ověřit shodu podílů určité varianty znaku ve více než dvou souborech, má testové kriterium tvar

1 G = p (1 − p ) ∗

(III.3)

k

 i =1

(mi − ni p ) 2 ni

s rozdělením χ 2 (k − 1) , kde mi je počet jednotek se sledovanou vlastností v i-tém výběru, ni je rozsah i-tého výběru,

p=

m ; n

m=

k



n=

mi ;

i =1

k

 ni ; i =1

Vypočtenou hodnotu testového kriteria G* porovnáme s kritickou hodnotou χ12−α (k − 1) . Je-li hodnota testového kriteria G* větší než kritická hodnota, zamítáme předpoklad o shodě podílů sledovaného znaku v k souborech. Příklad III-3 Průzkumem provedeným u 332 osob byla zjišťována nespokojenost klientů ve čtyřech bankách. Výsledky průzkumu jsou uvedeny v tabulce III-4. Posuďte na 5% hladině významnosti rozdílnost podílu nespokojených klientů ve 4 srovnávaných bankách. Tabulka III-4 Údaje průzkumu ve srovnávaných bankách Banka

Počet klientů

Počet nespokojených

A

123

19

B

69

4

C

38

9

D

102

12

Celkem

332

44



p=

44 = 0,1325 . 322

Potřebné výpočty jsou uvedeny v Tabulce III-5. Tabulka III-5 Výpočty testu významnosti rozdílu nespokojených zákazníků Banka

(mi - ni p)2

1

(mi - ni p )2

ni

mi

pi

ni p

A

123

19

0,154

16,298

7,30

0,0593

B

59

4

0,058

7,812

14,53

0,2463

C

48

9

0,237

6,360

6,97

0,1452

D

102

12

0,117

13,515

2,29

0,0225

Celkem

322

44

x

43,985

31,09

0,4733

ni

Hodnota testového kriteria podle (III.2) je

G∗ =

1 .0,4733 = 4,12 0,1325. 0,8675

Vypočtenou hodnotu testového kriteria G* = 4,12 porovnáme s kritickou hodnotou rozdělení

χ12−α (k − 1) = χ 02.95 (3) = 7,81 .

Protože hodnota testového kriteria je menší než kritická hodnota,

nebyla prokázána různost podílu nespokojených klientů ve srovnávaných bankách.

III.2.4 Neparametrické testy shody průměrů dvou nezávislých výběrů Při marketingových průzkumech je další častou úlohou ověřování, zda dva soubory mají stejnou úroveň hodnot, charakterizovanou průměry. Stejná úroveň sledovaného znaku mnohdy znamená, že učiněné opatření, sledovaný faktor, změna podmínek apod. neměly vliv na celkovou změnu úrovně hodnot. Při výběru vhodného testu musíme brát v úvahu, jestli se jedná o velké výběry nebo jestli máme k dispozici pouze malý počet jednotek, z nichž byly vypočítány srovnávané průměry. Nezávislé výběry získáme v případech výběru jednotek ze dvou souborů. Rozdělení základních souborů, z nichž byly provedeny výběry, nemusí být shodné, ani rozsah srovnávaných výběrů nemusí být stejný. V případě, když základní soubory mají normální rozdělení nebo v případech, kdy rozsahy výběrů z obou základních souborů jsou velké, použijeme k ověření shody průměrů parametrický t-test uvedený ve skriptech Statistika a pravděpodobnost, kapitola IV.3.2.4, v případech, kdy rozdělení základních souborů neznáme a rozsah výběrů je malý, dáme přednost mediánovému nebo dvouvýběrovému Wilcoxonovu testu.



Mediánový test Z prvého souboru je vybráno n1 jednotek, z druhého souboru n2 jednotek. Oba výběry spojíme, tím vytvoříme tzv, sdružený výběr o rozsahu

n = n1 + n 2 .

Pro sudý rozsah sdruženého výběru n je

hodnota testového kriteria mediánového testu rovna počtu pozorování prvního výběru, které leží nad

S M . Kritické hodnoty testového kriteria S M jsou

mediánem sdruženého výběru, které označíme

tabelovány (viz např. [1] nebo [4]). Pro větší výběry lze použít testové kriterium:

uM =

(III.4)

SM -

n1 2

±

n1n2 4n

1 2.

(Korekční koeficient ±1/2 je tzv. oprava na spojitost, kladnou hodnotu má v případě, když hodnota v čitateli je záporná, zápornou v případě kladné hodnoty čitatele). Vypočtenou hodnotu testového kriteria

uM porovnáme s kritickými hodnotami normovaného normálního rozdělení ua resp. u1- a

resp.⏐ u1- a / 2 ⏐ podle typu alternativní hypotézy.

Dvouvýběrový Wilcoxonův test Výběry obvykle volíme tak, aby rozsah 1.výběru byl menší nebo roven rozsahu 2. výběru. Postup testu spočívá ve vytvoření sdruženého výběru s rozsahem n a jeho uspořádání vzestupně podle velikosti. Jednotlivým hodnotám se přiřadí pořadová čísla Ri (i = 1,2,...,n). Součet pořadí hodnot prvního výběru, tj. hodnot výběru

(III.5)

Xn + 1, Xn + 2,..., Xn 1

1

X1, X 2,..., Xn

1

označíme

T1

a analogicky součet pořadí hodnot druhého

označíme T2 . Musí platit, že

T1 + T2 =

n(n + 1) 2

.

Testovým kriteriem dvouvýběrového Wilcoxonova testu je SW = T1, tj. součet všech pořadových čísel odpovídajících 1. výběru. Kritické hodnoty testového kriteria jsou tabelovány (viz např. [1] nebo [4]). Pro velké výběry je možno použít aproximace rozdělení Wilcoxonova testového kriteria normálním rozdělením a použít testové kriterium ve tvaru uvažujícího opravu na nespojitost

(III.6)

uW =

SW -

n1 (n + 1)

±

2 n1n2 (n + 1)

1 2,

12 které má při platnosti nulové hypotézy o rovnosti středních hodnot obou souborů přibližně normální rozdělení. Hypotézu zamítáme, když

uW > u1- a / 2

při dvoustranném testu nebo uW < uα resp.

uW > u1−α při jednostranných testech.



Příklad III-4 Banky zavádějí nový produkt. Na základě údajů z náhodného výběru 5 filiálek banky A a 8 filiálek banky B chceme posoudit na 5% hladině významnosti, zda ve sledovaném zaváděcím období lze považovat obě banky za stejně úspěšné. U filiálek banky A byly zjištěny tyto počty uzavřených smluv: 135, 124, 164, 119 a 138. U banky B: 103, 174, 98, 110, 118, 134, 102 a 122. U neparametrických testů se nejčastěji bere za charakteristiku střední hodnoty výběrový medián. Testujeme tedy nulovou hypotézu

H0 : ~ x1 = ~ x2 . Alternativní hypotézu uvažujeme oboustrannou

H1 : ~ x1 ≠ ~ x2 (bylo by možno i uvažovat, že banka A je úspěšnější, tedy alternativní hypotézu jednostrannou). Hypotézu ověříme pomocí mediánového i pomocí Wilcoxonova dvouvýběrového testu. Potřebné výpočty jsou v tabulce III-6. (Ve sloupci „počet smluv“ je sdružený výběr, v dalším sloupci je uspořádání sdruženého výběru podle velikosti, poslední sloupec uvádí pořadí jednotlivých filiálek sdruženého výběru podle počtu uzavřených smluv.) Tabulka III-6 Data a výpočty mediánového a Wilcoxonova test i

Počet smluv

1 2 3 3 4 5 6 7 8 10 11 12 13

135 124 164 119 138 103 174 98 110 118 134 102 122

Uspořádaný výběr 98 102 103 110 118 119 122 124 134 135 138 164 174

Pořadí počtu smluv 10 8 12 6 11 3 13 1 4 5 9 2 7

Pro výpočet mediánového testu musíme nejdříve najít medián sdruženého výběru. Je jím sedmá hodnota uspořádaného výběru, tj,

~ x = 122 . Nad mediánem sdruženého výběru leží 4 jednotky prvého výběru, tedy SM = 4. . Testové kriterium mediánového testu podle vzorce (III-4)



. uM

=

4−

5 1 − 2 2 = 1,14 5.8 4.13

Kritické hodnoty : u0,975 = 1,96; u0,025 = -1,96; u0,95 = 1,645. Hodnota testového kriteria leží v oboru přijetí jak pro případ oboustranné, tak i jednostranné alternativní hypotézy. Testovanou hypotézu na 5% hladině významnosti nezamítáme. Pro výpočet testového kriteria Wilcoxonova testu sečteme pořadí všech jednotek prvého výběru (banky A): SW = 47.. Testové kriterium Wilcoxonova testu podle vzorce (III-6)

uw =

47 −

5.14 1 − 2 2 = 1,68. 5.8.14 12

Kritické hodnoty :

u0,975 = 1,96; u0,025 = -1,96; u0,95 = 1,645.

Hodnota testového kriteria Wilcoxonova testu pro případ oboustranné alternativní hypotézy leží v oboru přijetí, pro případ jednostranné alternativní hypotézy leží v kritickém oboru. Tedy testovanou hypotézu o stejné úrovni uzavřených smluv v obou bankách na 5% hladině významnosti nezamítáme, pokud je otázkou jen zjištění, jestli se počty statisticky významně odlišují. Pokud bychom ale rovnou předpokládali, že úroveň je vyšší v bance A (tj., pokud bychom použili jednostrannou alternativu), pak na 5% hladině významnosti můžeme tvrdit, že banka A je úspěšnější.

III.2.5 Kruskalův-Wallisův test (neparametrická analýza rozptylu) Kruskalův-Wallisův test slouží k ověření shody úrovně spojitého sledovaného znaku v k nezávislých výběrech. Rozsahy výběrů nemusí být stejné, ale požaduje se, aby všechny byly větší než 5. Testovaná hypotéza předpokládá, že všech k výběrů pochází ze stejného základního souboru nebo ze souborů, které mají stejnou úroveň zkoumaného spojitého znaku, testuje tedy hypotézu

H 0 : μ1 = μ 2 = ... = μ k . Alternativní hypotéza toto tvrzení popírá. Nejčastěji používaný tvar testové statistiky Kruskalova-Wallisova testu je dán vzorcem:

(III.7)

Q KW =

12 n(n + 1)

k

T j2

n j =1

− 3(n + 1) ,

j



kde k je počet výběrů, nj je počet jednotek v j-tém výběru, n je celkový rozsah výběru n = nj, Tj je součet pořadí jednotek náležejících j-tému výběru. Když existují shodná pozorování, přiřazuje se jim průměrné pořadí vypočtené jako aritmetický průměr pořadí ve shodných jednotkách. Vlastní postup Kruskalova-Wallisova testu spočívá ve spojení hodnot všech k výběrů do jediného souboru s rozsahem n = nj, uspořádání hodnot sdruženého výběru a přiřazení pořadových čísel od 1 do n. Pro každý výběr pak vypočítáme součet pořadí jednotek příslušejících do k-tého výběru, který označíme Tj. Pokud je v každé skupině nj > 5 pozorování, pak při platnosti nulové hypotézy má veličina

QKW přibližně

rozdělení χ 2 ( k − 1) . Jestliže je hodnota testového kriteria

QKW větší

než

kvantil χ12−α (k − 1) , zamítáme hypotézu o shodě úrovně testovaného znaku ve všech skupinách. Pokud Kruskalovým-Wallisovým testem zamítneme testovanou hypotézu o shodné úrovni sledovaného znaku ve všech skupinách, je užitečné posoudit, které skupiny se vzájemně významně odlišují. V případě, kdy všech k výběrů má stejný rozsah, tj., když platí

n1 = n2 = ... = nk = m

(říkáme, že jde o vyvážené třídění), je možno použít k posouzení, které dvojice se liší, tzv. Neményiho metodu vícenásobného porovnání. Tato metoda spočívá ve výpočtu rozdílů a jejich porovnání s kritickou hodnotou. Je-li

Ti - Tj

Ti - Tj

větší nebo rovno tabelované kritické hodnotě,

zamítáme nulovou hypotézu o shodnosti středních hodnot srovnávané dvojice. Postup opakujeme pro všech k(k-1)/2 dvojic

Ti - Tj

. Pro m < 16 a k < 10 pro α = 0,05 a α = 0,01 existují tabulky kritických

hodnot pro vícenásobné porovnávání na základě pořadí. (Tabulky viz např. [1] nebo [4].).

Příklad III-5 U přijímacích zkoušek sledujeme počty bodů z matematiky a chceme pro rychlou předběžnou informaci posoudit, jestli výsledky jsou závislé na typu absolvované střední školy: gymnázium, průmyslovka, obchodní akademie, ostatní střední školy. Náhodně vybereme 8 písemek studentů každého z uvažovaných typů školy. Údaje uvádí Tabulka III-7. Pro test použijeme 5% hladinu významnosti. Pro provedení testu spojíme hodnoty všech čtyř výběrů do jednoho souboru s rozsahem n = 32, ve druhém sloupci uspořádáme hodnoty spojeného výběru a přiřadíme jim pořadová čísla od 1 do 32. Pro každý výběr pak vypočítáme součet pořadí jednotek příslušejících do k-tého výběru, který označíme Tj Potřebné výpočty obsahuje tabulka III-8.



Tabulka III-7 Výsledky testů vybraných studentů Student/škola

Gymnázium

Průmyslovka

1 2 3 4 5 6 7 8

78 95 47 78 85 96 75 83

93 74 58 85 60 72 67 59

Obchodní akademie 32 72 65 41 67 52 53 70

Ostatní střední školy 84 42 54 76 69 61 71 66

Tabulka III-8 Výpočetní tabulka Kruskalova-Wallisova testu i

Počet bodů xi

1 2 3 4 5 6 7 8

78 95 47 78 85 96 75 83

Uspořádaný výběr 32 41 42 47 52 53 54 58

93 74 58 85 60 72 67 59

59 60 61 68 66 67 67 68

32 72 65 41 67 52 53 70

70 71 72 72 74 75 76 78

84 42 54 76 69 61 71 66

78 83 84 85 85 93 95 96

 9 10 11 12 13 14 15 16

 17 18 19 20 21 22 23 24

 25 26 27 28 29 30 31 32



Pořadí 24,5 31 4 24,5 28,5 32 22 26 192,5 30 21 8 28,5 10 19,5 14,5 8 140,5 1 19,5 12 2 14,5 5 6 17 77 27 3 7 23 16 11 18 13 118

Kruskalův-Wallisův test používá testové kriterium dané vzorcem (III-7)



Q KW =

12  192,5 2 140,5 2 77 2 118 2 + + + 32.33  8 8 8 8

  − 3 . 33 = 9,878 .  

Vypočtenou hodnotu testového kriteria porovnáme s kritickou hodnotou rozdělení χ 02,95 (3) = 7,81 . Hodnota testového kriteria je v tomto případě větší než kritická hodnota, proto pomocí Kruskalova – Wallisova testu zamítneme hypotézu o shodě výsledků testů studentů z různých typů škol. Pro posouzení, které dvojice se vzájemně liší, použijeme Neményiho metodu vícenásobného porovnání. Výpočet rozdílů │Ti - Tj│ je uveden v tabulce III-9. Tabulka III-9 Neményiho metoda vícenásobného porovnání Škola

Průmyslovka

Gymnázium Průmyslovka Obchodní akademie

52

Obchodní akademie 115,5 63,5

Ostatní 74,5 22,5 41

Z tabulky kritických hodnot v [1] nebo v [4] bychom našli pro k = 4 a m = 8 kritickou hodnotu pro vícenásobné porovnání nezávislých výběrů rovnou 96,4. Protože pouze rozdíl 115,5 je větší než kritická hodnota 96,4, považujeme za významně odlišné počty bodů z matematiky u studentů gymnázií a obchodních akademií. Ostatní rozdíly nejsou na 5% hladině významnosti významné.

III.2.6 Použití vícerozměrných statistických metod v marketingových průzkumech Možnosti využívání výkonné výpočetní techniky a existence celé řady specializovaných statistických paketů umožňují také aplikace náročnějších statistických metod, zejména vícerozměrných. Je ale třeba upozornit, že automatické používání těchto metod bez hlubších statistických znalostí ještě samo o sobě neznamená, že budou získány relevantní a hlavně použitelné výsledky. Pochopení a znalost těchto metod jsou užitečné pro lepší komunikaci mezi zadavatelem úkolu (klientem) a pracovištěm, které aplikaci takových metod při řešení určitých problémů může nabídnout. Stanovení smyslu a cíle užití vícerozměrné metody je podmíněno především věcnou znalostí dané problematiky. Pro volbu vhodné statistické metody je rozhodující vlastní zadání úlohy, ale také charakter proměnných a vztahy mezi nimi, tj., zda lze nebo nelze určit směr závislosti a určit tak proměnné vysvětlované a vysvětlující. Mezi nejužívanější vícerozměrné metody v oblasti marketingových výzkumů patří: vícenásobná regresní a korelační analýza, vícenásobná analýza rozptylu, analýza kovariance, faktorová analýza, analýza hlavních komponent,



shluková analýza, diskriminační analýza, metoda AID (automatic interaction detector) analýza preferencí (conjointní analýza).

Úlohy vícerozměrné analýzy vymezíme následovně: uvažujeme případy, kdy u n osob, objektů nebo jiných jednotek pozorování sledujeme p statistických znaků. Experimentální jednotky nemusí představovat nestrukturovaný výběr, ale mohou být předem klasifikovány podle určitého předem daného kriteria s využitím doplňkových informací. Podstatným znakem tohoto pojetí vícerozměrné analýzy je okolnost, že p-rozměrná pozorování (vztažená k různým objektům) lze označit za statisticky nezávislá, i když sledované vlastnosti mají většinou řadu vnitřních vztahů a souvislostí. Vícerozměrné metody lze zhruba rozdělit do dvou skupin a to na metody, které umožňují odlišit, která proměnná je vysvětlovaná a které vysvětlující a na metody, které to nevyžadují. Do první skupiny metod patří např. vícenásobná regresní a korelační analýza, vícenásobná analýza rozptylu, analýza kovariance, diskriminační analýza, metoda AID (automatic interaction detector) a analýza preferencí (conjointní analýza), do druhé skupiny faktorová analýza, analýza hlavních komponent, shluková analýza. Stručně, bez matematického aparátu popíšeme princip, podmínky použití metody a možné oblasti aplikace některých vícerozměrných metod. Podrobnější popis metod je možno najít např. v literatuře [7] nebo v [13]. S vícenásobnou regresní a korelační analýzou jsme se seznámili v kapitole I.4,

Vícerozměrná analýza rozptylu Vícenásobná analýza rozptylu je rozšířením jednoduché analýzy rozptylu popsané v kapitole I.1. Posuzujeme pak rozdíl v úrovni p kvantitativních proměnných v několika skupinách, do kterých se soubor rozpadá podle variant některého kvalitativního znaku (třídícího znaku). Popíšeme si poměrně jednoduchý případ zkoumání závislosti kvantitativních proměnných na dvou faktorech u a v. Situaci popisuje model

yijl = μ + τ i + ω j + ψ ij + ε ijl ,

(III.8) kde i = 1,2,…,k, j = 1,2,…,q, l = 1,2,…nij.

Každé vícerozměrné pozorování je vyjádřeno jako součet obecné konstanty μ, efektu faktoru u na i-té úrovni, τj , efektu faktoru v na j-té úrovni, ωj, efektu interakce obou faktorů na i-té úrovni, popř. j-té úrovni ψij a reziduální složky εijl.



Základní myšlenka vícerozměrné analýzy rozptylu spočívá v rozložení celkové variability faktoru sledovaného znaku y na variabilitu příslušející vlivu faktoru u, variabilitu příslušející vlivu faktoru v, variabilitu vlivem interakce obou faktorů a variabilitu reziduální.

Diskriminační analýza Tato metoda spočívá v tom, že pro soubor jednotek rozdělených do dvou (nebo více) skupin, hledáme kriterium pro zařazení jednotky do některé skupiny na základě zjištění hodnot několika znaků u této jednotky. Toto kriterium pak může být použito při klasifikaci jednotek, u nichž nevíme, do které skupiny patří. Předpokladem použití diskriminační analýzy je odlišnost skupin z hlediska sledovaných znaků. Tento předpoklad je třeba nejdříve prověřit testem o rovnosti středních hodnot. Pokud se rozdíl mezi skupinami neprokáže, nemůže být diskriminační analýza úspěšně použita. Je-li prováděna diskriminace do více skupin, je spočteno pro každou skupinu lineární diskriminační skóre a jednotka je zařazena do skupiny s jeho nejvyšší hodnotou. Výpočty jsou poměrně náročné a bez užití výpočetní techniky prakticky nemožné. Jako příklady použití diskriminační analýzy lze uvést následující úlohy: predikce úpadku firmy na základě finančních charakteristik, posouzení kvality úvěru (schopnosti splácet), predikce chování zákazníka v budoucnu (např. úmyslu změnit banku, pojišťovnu, zakoupení určitého výrobku apod.).

Metoda AID (automatic interaction detector) Cílem metody AID je rozdělit soubor na určitý počet podskupin tak, aby byly vzhledem k závisle proměnné homogennější než je výchozí soubor. Třídění je prováděno podle různých nominálních vysvětlujících proměnných při opakovaném použití jednoduché analýzy rozptylu. V prvním kroku je pro každou kombinaci kategorií vysvětlujících proměnných vypočten součet čtverců a soubor se rozdělí na skupiny podle té proměnné, pro kterou je meziskupinová variabilita největší. V dalších krocích se postup opakuje pro každou z vytvořených skupin, ty se opět rozdělí, atd. Výstupem procedury je AID strom, který znázorňuje postup při větvení souboru, velikosti vytvořených skupin, použitá kritéria pro dělení (kategorie vysvětlujících proměnných) a hodnoty závisle proměnné v jednotlivých skupinách.

Analýza preferencí (conjointní analýza) Conjointní analýza se využívá při analyzování spotřebitelských preferencí a hodnocení podobnosti či rozdílnosti různých produktů. Měří se, jak jsou jednotlivé vlastnosti produktu důležité pro zákazníka. Při formulování úlohy musí být vybrány nejdůležitější vlastnosti produktu a identifikovány jejich možné úrovně či kategorie. Nejjednodušší model conjointní analýzy je lineární model, který lze zapsat ve tvaru



m

U=

(III.9)

ki

 uij xij , i =1 j =1

kde U je celkové skóre užitečnosti produktu, m je počet sledovaných znaků, ki je počet kategorií i-tého znaku (i = 1,2,…, m), uij je užitečnost j-té kategorie (j = 1,2,…,ki) i-tého znaku, xij je zjištěná j-tá kategorie i-tého znaku (v případě použití umělé proměnné nabývá jen hodnot 0 a 1). Odhad parametrů funkce dílčích užitečností uij lze získat jako při vícerozměrné analýze rozptylu metodou nejmenších čtverců, závisle proměnnou jsou preference udávané respondentem. Analýza preferencí klade poměrně velké nároky na respondenty zejména v případech, kdy se mají rozhodovat mezi většími počty vlastností. Často se vyskytují úlohy, kdy výchozí počet znaků, sledovaných a zkoumaných jevů a procesů je značný a pro interpretaci nepřehledný. Pro zjednodušení analýzy a usnadnění interpretace je možno použít metod, kdy sledované znaky nahradíme menším počtem jiných, podstatnějších znaků (latentních proměnných), shrnujících informaci o výchozích proměnných, aniž by došlo k větší ztrátě informace. Od latentních proměnných se požaduje, aby maximálně vysvětlovaly původní proměnné (tj., aby vysvětlovaly maximum celkového rozptylu původních proměnných). Do této skupiny metod patří analýza hlavních komponent a faktorová analýza. Obě metody vycházejí z matice korelačních koeficientů. Proměnné nejsou apriorně členěny podle směru závislosti na vysvětlující a vysvětlované. Pokud je hlavním cílem snížit počet proměnných, použije se metoda hlavních komponent, pokud se požaduje aby nové latentní proměnné vysvětlily vzájemné závislosti mezi pozorovanými proměnnými, použijeme faktorovou analýzu.

Faktorová analýza Faktorová analýza nerozlišuje vysvětlující a vysvětlované proměnné. Metoda vychází z předpokladu, že vzájemné závislosti proměnných jsou důsledkem působení v pozadí stojících neměřitelných veličin – faktorů. Velký počet proměnných může být nahrazen menším počtem faktorů a tak snížena dimenze úlohy, pozorované závislosti vysvětleny jednodušším způsobem. Cílem faktorové analýzy je vyjádřit každou j-tou proměnnou jako lineární kombinaci několika společných faktorů (III.10)

kde xj

x j = z j 1 f1 + z j 2 f2 + ... + z jm fm + e j

je j-tá proměnná (j = 1,2,…, p),

f1,…,fm jsou společné faktory,



zjk

jsou parametry, tzv. faktorové zátěže j-té proměnné u k-tého faktoru (k=1,2,…,m),

ej

je reziduum (tzv. specifické nebo chybové faktory).

K odhadu faktorových zátěží slouží náhodný výběr obsahující n pozorování každé z p proměnných. Metoda vychází z matice všech párových korelačních koeficientů. Při interpretaci výsledků faktorové analýzy často bývá problémem rozumná interpretace společných faktorů.

Shluková analýza (clusterová analýza) Úlohou shlukové analýzy je na základě hodnot pozorovaných proměnných rozdělit soubor jednotek do relativně homogenních skupin (shluků). Objekty ve skupině jsou z hlediska těchto proměnných podobné a od jiných skupin se liší. Shluková analýza se uplatňuje při klasifikaci objektů, ale lze ji použít také k redukci počtu proměnných a ke zjednodušení úlohy. Uplatnění shlukové analýzy je úspěšné zejména v případech, kde se sledovaný soubor reálně rozpadá do přirozených shluků. K dispozici máme n objektů a p proměnných. Uvažují se různé druhy rozložení množiny a prvků do k shluků tak, aby objekty uvnitř vytvořeného shluku si byly co nejvíce podobné a naopak, aby se co nejvíce odlišovaly od objektů z jiných shluků . K hodnocení podobnosti objektů a pro hodnocení podobnosti shluků se používají různé míry vzdálenosti (např. euklidovská, Hemmingova, Čebyševova, Mahalanobisova). Ke shlukování se používá, řada metod spojování shluků, z nichž nejznámější jsou, metoda nejbližšího souseda, metoda nejvzdálenějšího souseda, metoda průměrné vazby, centroidní metoda, Wardova metoda. Shlukovou analýzu lze využít při segmentaci trhu, při sdružování zákazníků podle rozdílného kupního chování, hodnocení rizikovosti žadatelů o úvěr, analýza zákazníků a jejich typologie na základě dosažitelných znaků apod. Graficky jsou vytvořené shluky přehledně znázorněny pomocí tzv. dendrogramu. Na Obrázku III-1 je jako ukázka dendrogram roztřídění členských zemí Evropské unie do 4 shluků vytvořených z hlediska 12 uvažovaných ukazatelů členských zemí EU v roce 2009. V tomto případě bylo n = 27, p = 12. Vytvořené shluky zemí byly následující: 1. Belgie (1), Dánsko (4), Německo (5), Irsko (7), Lucembursko (15), Nizozemí (18), Rakousko (19), Finsko (25), Švédsko (26) a Spojené království (27) 2. Bulharsko (2), Estonsko (6), Litva (14), Rumunsko (22) 3. Česká republika (3), Lotyšsko (13), Maďarsko (16), Malta (17), Polsko (20), Portugalsko (21), Slovinsko (23), Slovensko (24) 4. Řecko (8), Španělko (9), Francie (10), Itálie (11), Kypr (12). Z obrázku III-1 můžeme například vidět, že Česká republika byla z hlediska všech uvažovaných ukazatelů nejvíce podobná se Slovinskem. Dalším poznatkem je, že země 15 (Lucembursko) se od všech ostatních zemí EU významně odlišuje, nevytvořila shluk se žádnou z evropských zemí, nejblíže ale má ke skupině ostatních zemí skupiny 1.



Obrázek III-1 Dendrogram členských zemí EU z hlediska 12 ukazatelů

Dendrogram 50

Ward's Method,Euclidean

Distance

40 30 20 10

1 5 27 7 4 18 19 25 26 15 2 22 6 13 3 23 14 12 16 17 20 24 8 10 21 9 11

0

III.3

KONTROLNÍ OTÁZKY

Jaké jsou nejužívanější způsoby zjišťování údajů v marketingových průzkumech? Jaké znáte základní výběrové postupy užívané v marketingových průzkumech? Na základě jakých údajů stanovíme velikost výběru? Které z parametrických a neparametrických testů probíraných v kurzu Pravděpodobnost a statistika přicházejí v úvahu využít v marketingových průzkumech? Jaké jsou výhody neparametrických testů ve srovnání s parametrickými? V jakých situacích při provádění marketingových průzkumů aplikujeme testy shody? Co posuzujeme pomocí Mc Nemarova testu? Jak se liší tabulka pro Mc Nemarův test a čtyřpolní tabulka pro výpočet kontingence? Který parametrický test odpovídá mediánovému a který dvouvýběrovému Wilcoxonovu testu? V kterých situacích použijete parametrické testy o rovnosti dvou středních hodnot a ve kterých dvouvýběrové neparametrické testy? Jaká je hlavní myšlenka jednorozměrné analýzy rozptylu? V jakých situacích použijeme Kruskalův – Wallisův test místo analýzy rozptylu? Jaký je princip neparametrické analýzy rozptylu? Které znáte vícerozměrné statistické metody využívané v marketingových průzkumech? Jaké další statistické metody, se kterými jste se seznámili v obou kurzech statistiky, by bylo možné využít v marketingových průzkumech?



III.4

PŘÍKLADY NA PROCVIČENÍ

P.III.1 V parlamentních volbách získaly 4 nejsilnější strany 30 %, 20 %, 15 % a 10 % hlasů, zbytek byl rozdělen mezi ostatní strany. Při volbách do obecního zastupitelstva v jedné obci zíslaly tyto strany 1400, 900, 1900 a 600 z celkového počtu 5000 hlasů. Ověřte na 5% hladině významnosti, jestli rozdělení hlasů v komunálních volbách v dané obci odpovídá výsledkům při parlamentních volbách. P.III.2 V tabulce TIII-1 jsou uvedeny četnosti odpovědí průzkumu provedeného u 800 osob. Otázky se týkaly hodnocení ekonomické situace jejich rodiny, posouzení, zda se ekonomická situace rodiny zlepšila nebo nikoliv a zda očekávají, že se ekonomická situace jejich rodiny v příštím roce zlepší nebo ne. Na 5% hladině významnosti ověřte, jestli ekonomická situace v příštím roce závisí na ekonomické situaci v minulém roce. TIII-1 Ekonomická situace rodiny se v minulém roce

Ekonomická situace rodiny se v příštím roce Nezlepší

Zlepší

Nezlepšila

552

74

Zlepšila

43

131

P.III.3 Bylo zkoumáno, zda podání určitého léku má jako vedlejší účinek změnu rychlosti srážení krve. Náhodně bylo vybráno 100 pacientů a u každého z nich se zjistilo, zda má rychlou nebo pomalou srážlivost krve. Pak byl pacientům podán sledovaný lék a po přiměřené době byla znovu vyšetřena srážlivost krve. Výsledky jsou uvedeny v tabulce TIII-2. Na 5% hladině významnosti máme ověřit, jestli podání léku má nebo nemá vliv na rychlost srážení krve. TIII-2 Srážlivost krve po podáním léku

Srážlivost krve před podáním léku

Pomalá

Rychlá

Pomalá

24

28

Rychlá

12

36

P.III.4 Na školu bylo přijato 142 studentů, kteří byli náhodně rozděleni do 4 skupin A, B, C, a D. Každá skupina měla jiného vyučujícího a předmět jim byl přednášen jiným způsobem. Na konci semestru všichni studenti psali stejný test. Byl zaznamenán počet studentů v každé skupině, kteří vyřešili všechny zadané úlohy. Úkolem je na 5% hladině významnosti posoudit, jestli rozdíly mezi počty úspěšných studentů v jednotlivých skupinách jsou náhodné nebo jestli lze prokázat systematické rozdíly ve výsledcích jednotlivých skupin. Výsledky testu uvádí tabulka TIII-3. TIII-3 Skupina

A

B

C

D

Celkem

Počet úspěšných studentů

5

8

17

15

45

Počet všech studentů

35

36

37

34

142



P.III.5 Pro rozhodnutí, který způsob balení sušeného mléka použít, je třeba ověřit, jestli mléko lépe odolává vlhkosti v papírových krabicích se specielní úpravou nebo v plechovkách s víčkem. K ověření byly naměřeny údaje o vlhkosti po určité době skladování v 6 krabicích a v 12 plechovkách, obsahujících stejnorodé vzorky skladované v týchž podmínkách. Údaje měření: Krabice

: 13,1 12,1 10,5 14,0 10,1 12,8

Plechovky : 18,6 11,2 14,0 13,6 14,2 18,1 15,0 14,2 13,1 15,4 10,9 13,8 Test proveďte na 5% hladině významnosti. P.III.6 Bylo vybráno 13 stejných výrobků od dvou výrobců, z nichž každý používá jinou technologii výroby. Deklarovaný obsah tuku ve výrobku je 5 %. Ověřte na 5% hladině významnosti, jestli obě použité technologie zaručují stejný obsah tuku ve výrobku. Výrobce I : 5,7; 5,5; 4,3; 5,9; 5,2; 5,6; 5,8; 5,1; Výrobce II: 5,0; 4,5; 4,2; 5,4; 4,4;

VÝSLEDKY PŘÍKLADŮ P.III.1 Test shody. Hodnota testového kriteria k

2

χ =



(nei − noi ) 2

i =1

Kritická hodnota

noi

= 68,67.

χ 02,95 = 9,488.

Zamítáme na 5% hladině významnosti nulovou hypotézu, rozložení

hlasů v komunálních volbách neodpovídá rozložení hlasů v parlamentních volbách. P.III.2 V tabulce TIII-4 jsou doplněné marginální četnosti. TIII-4 Ekonomická situace rodiny se v minulém roce

Ekonomická situace rodiny se v příštím roce Nezlepší

Zlepší

Součet

Nezlepšila

552

74

626

Zlepšila

43

131

174

Součet

595

205

800

Ověřujeme nulovou hypotézu, že není závislost mezi ekonomickou situací v minulém a příštím roce. Hodnota testového kriteria podle vzorce (I.6)

G=

800.(552.131 - 74.43)2 626.174.595.205

= 287, 759 .

Kritická hodnota χ20,95(1) = 3,84. Zamítáme hypotézu o nezávislosti. Pearsonův koeficient kontingence CP = 0,514, koeficient asociace rA = 0,599. marketingové průzkumy 119


Mohli bychom použít i Mc Nemarův test

G=

( 74 − 43 − 1) 2 74 + 43

= 7,69

Kritická hodnota χ20,95(1) = 3,84. Zamítáme hypotézu o nezávislosti. P.III.3 Použijeme Mc Nemarův test TIII-5 Srážlivost krve před podáním léku

G =

( 28 - 12 - 1)2 28 + 12

Srážlivost krve po podání léku Pomalá

Rychlá

Součet

Pomalá

24

28

52

Rychlá

12

36

48

Součet

36

64

100

= 5, 62

Kritická hodnota χ20,95(1) = 3,84. Zamítáme hypotézu o nezávislosti. P.III.4 Jedná se o posouzení rovnosti podílu ve 4 skupinách Použijeme vzorec (III.3).

p=

45 = 0, 3169 142

G∗ =

1 p (1 − p )

k

 i =1

(mi − ni p ) 2 = 12,288. ni

Kritická hodnota χ20,95(3) = 7,81. Zamítáme hypotézu, že rozdíly mezi skupinami jsou náhodné a přijmeme hypotézu, že se na 5% hladině významnosti liší. P.III.5 Testujeme nulovou hypotézu o rovnosti středních hodnot. Použijeme dvouvýběrový Wilcoxonův test. Výpočty jsou zřejmé z tabulky TIII-6 Sw = 33 Asymptotické testové kriterium (podle vzorce (III.6) má hodnotu uW = - 0,219. Kritická hodnota u0,975 = 1,96. Nezamítáme hypotézu o rovnosti středních hodnot.



TIII-6 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

Vlhkost 13,1 12,1 10,5 14,0 10,1 12,8 18,6 11,2 14,0 13,5 14,2 18,1 15,0 14,2 13,1 15,4 10,9 13,8

Uspořádaný výběr

Pořadí

10,1 10,5 10,9 11,2 12,1 12,8 13,1 13,1 13,5 13,8 14,0 14,0 14,2 14,2 15,0 15,4 18,1 18,6

7,5 5 2 11,5 1 6 18 4 11,5 9 13,5 17 15 13,5 7,5 16 3 10

P.III.5 Testujeme nulovou hypotézu o rovnosti středních hodnot. Použíjeme dvouvýběrový Wilcoxonův test. Sw = 70. Asymptotické testové kriterium (podle vzorce (III.6) má hodnotu uW = 1,98. Kritická hodnota u0,975 = 1,96. Zamítáme hypotézu o rovnosti použitých technologií.



III.5

ZÁKLADNÍ VÝRAZY

arranging by size

uspořádání podle velikosti

assumption

předpoklad

cell of a table

políčko tabulky

categorical variable

slovní (kategoriální) proměnná

category

kategorie

cluster analysis

shluková analýza

coefficient of contingency

koeficient kontingence

conjoint analysis

analýza preferencí

contingency table

kontingenční tabulka

data collection

sběr dat

data processing

zpracování dat

deviation

odchylka

discriminant analysis

diskriminační analýza

effect

efekt, účinek

eigenvalue

charakteristické číslo

enquete

anketa

expected frequency

teoretická četnost, očekávaná četnost

exploratory survey

předběžné zjišťování

factor analysis

faktorová analýza

false hypothesis

nepravdivá hypotéza

finite population

konečný soubor

goodness-of-fit test

test dobré shod

grouping

třídění

homogeneity

homogenita, stejnorodost

homoskedasticity

homoskedasticita

incomplete survey

neúplné zjišťování

inquiry

šetření

interaction

interakce

linear combination

lineární kombinace

lottery sampling

losování

marketing research

marketingový výzkum

multiple classification

vícestupňové třídění

multiple rank test

vícenásobný pořadový test

multivariate analysis

vícerozměrná analýza

n-dimensional space

n-rozměrný prostor

nested classification

hierarchické třídění

nonparametric test

neparametrický test

non-random sampling

nenáhodný výběr

nonparametric test

neparametrický test



nonrejection region

obor přijetí (hypotézy)

null hypothesis

nulová hypotéza

number of classes

počet tříd

observed frequency

pozorovaná četnost

observed values

pozorované hodnoty

one-way classification

jednoduché třídění

one-way analysis of variance

jednofaktorová analýza rozptylu

opinion survey

průzkum názorů

order

pořadí

ordered sample

uspořádaný výběr

ordered series

uspořádaná řada

paired observations

párová pozorování

paired samples, matched samples

párové výběry

parametric test

parametrický test

pool

průzkum, anketa

population size

rozsah základního souboru

principal component

hlavní komponenta

questionnaire

dotazník

random sample

náhodný výběr

rank correlation ceofficient

koeficient pořadové korelace

rank test

pořadový test

ratio scale

poměrová stupnice

rejection region

obor zamítnutí (hypotézy)

right-tailed test

pravostranný test

sample size

rozsah výběru

sampling

pořízení výběru

scale

stupnice, škála

significance level

hladina významnosti

simple random sample

prostý náhodný výběr

small sample

malý výběr

statistical decision

statistické rozhodnutí

statistical hypothesis

statistická hypotéza

statistical survey

statistické zjišťování

test of independence

test nezávislosti

test statistic

testové kritérium

true hypothesis

pravdivá hypotéza

two-tailed test

oboustranný test

two-way classification

dvojné třídění

value

hodnota

variance-ratio test

test o shodě rozptylů



IV

SEZNAM LITERATURY

1 ANDĚL, J. Statistické metody. 2. Vydání. Praha. Matfyzpress, MFF UK 1998. 274 s. ISBN 8085863-27-8. 2 ARLT,J., ARLTOVÁ, M. : Ekonomické časové řady: vlastnosti, metody modelování, příklady a aplikace. Praha Grada 2007, ISBN 978-80-247-1319-9 3. ARLT, J. , ARLTOVÁ, M., RUBLÍKOVÁ, E.: Analýza ekonomických časových řad s příklady, Praha, VŠE 2002, ISBN 80-245-0307-7 4. BLATNÁ,D.: Neparametrické metody. Testy založené na pořádkových a pořadových statistikách. Praha: VŠE 1996. ISBN 80-7079-607-3. 5. BLATNÁ,D.: Statistické aspekty terénních průzkumů II. Praha: VŠE 1994. ISBN 80-7079-377-5 6. BLATNÁ, D.: Metody statistické analýzy. BIVŠ 2004. ISBN 890-7265-062-9. 7. HEBÁK,P., HUSTOPECKÝ,J., PECÁKOVÁ,I., PRŮŠA,M., ŘEZANKOVÁ,H, SVOBODOVÁ, A., VLACH,P: Vícerozměrné statistické metody (3). Praha: Informatorium 2005. ISBN 80-7333-039-3. 8. HINDLS, R., HRONOVÁ, S., SEGER, J.: Statistika pro ekonomy. Praha: Professional Publishing 2007., ISBN 978-80-86946-43-6. 9 HINDLS, R., HRONOVÁ, S., NOVÁK,I.: Analýza dat v manažerském rozhodování. Praha: Grada Publishing 1999. ISBN 80-7169-255-7. 10. JAROŠOVÁ,E., PECÁKOVÁ,I.: Příklady k předmětu Statistika B. Praha: VŠE 2000. 11. MAREK,L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing 2007., 978-8086946-40-5 12. MASON, R.D., LIND, D.A., MARCHAL, W.G.: Statistical Techniques in Business and Economics. Boston: Irwin McGraw-Hill 1999. 13. PECÁKOVÁ,I.: Statistika v terénních průzkumech. Praha: Professional Publishing 2007, ISBN 978-80-86946-74-0 14. PECÁKOVÁ,I., NOVÁK,I.,HERZMANN,J.: Pořizování a vyhodnocování dat ve výzkumech veřejného mínění. Praha: VŠE 1998. 15. PECÁKOVÁ, I. Statistické aspekty terénních průzkumů. [D.] 1. Praha: VŠE 1995. ISBN 80-7079737-1 16. PŘIBOVÁ,M. a kol.: Marketingový výzkum v praxi. Praha, Grada 1996. 17. ŘEZANKOVÁ, H. Analýza dat z dotazníkových šetření. Praha: Professional Publishing 2007. ISBN 978-80-86946-49-8 18. TREŠL, J.: Statistika. Praha: SVŠES 2003. ISBN 80-86744-01-9. 19. WONNACOTT, T.H., WONNACOTT, R.J: Statistika pro obchod a hospodářství. Překlad z angličtiny. Praha: Victoria Publishing 1993.

124 Seznam literatury


V

PŘÍLOHY – STATISTICKÉ TABULKY

Tabulka I

Kvantily normovaného normálního rozdělení (uP)

Tabulka II

Kvantily rozdělení χ2

Tabulka III

Kvantily rozdělení t

Tabulka IV

Kvantily rozdělení F

Přílohy – statistické tabulky 125

Tabulka I Kvantily normovaného normálního rozdělení (uP) P

P

P

P

0,50 0,51 0,52 0,53 0,54

uP 0,000 0,025 0,050 0,075 0,100

0,75 0,76 0,77 0,78 0,79

uP 0,674 0,706 0,739 0,772 0,806

0,950 0,951 0,952 0,953 0,954

uP 1,645 1,655 1,665 1,675 1,685

0,975 0,976 0,977 0,978 0,979

uP 1,960 1,970 1,995 2,014 2,034

0,55 0,56 0,57 0,58 0,59

0,126 0,151 0,176 0,202 0,228

0,80 0,81 0,82 0,83 0,84

0,842 0,878 0,915 0,954 0,994

0,955 0,956 0,957 0,958 0,959

1,695 1,706 1,717 1,728 1,739

0,980 0,981 0,982 0,983 0,984

2,054 2,075 2,097 2,120 2,144

0,60 0,61 0,62 0,63 0,64

0,253 0,279 0,305 0,332 0,358

0,85 0,86 0,87 0,88 0,89

1,036 1,080 1,126 1,175 1,227

0,960 0,961 0,962 0,963 0,964

1,751 1,762 1,774 1,787 1,799

0,985 0,986 0,987 0,988 0,989

2,170 2,197 2,226 2,257 2,290

0,65 0,66 0,67 0,68 0,69

0,385 0,412 0,440 0,468 0,496

0,90 0,905 0,910 0,915 0,920

1,282 1,311 1,341 1,372 1,405

0,965 0,966 0,967 0,968 0,969

1,812 1,825 1,838 1,852 1,866

0,990 0,991 0,992 0,993 0,994

2,326 2,366 2,409 2,457 2,512

0,70 0,71 0,72 0,73 0,74

0,524 0,553 0,583 0,613 0,643

0,925 0,930 0,935 0,940 0,945

1,440 1,476 1,514 1,555 1,598

0,970 0,971 0,972 0,973 0,974

1,881 1,896 1,911 1,927 1,943

0,995 0,996 0,997 0,998 0,999

2,576 2,652 2,748 2,878 3,090

Pro P < 0,5 jsou hodnoty kvantilů dány vztahem uP = -u1-P.

Tabulka II Kvantily rozdělení 2 P 1 2 3 4 5

0,0005 0,06393 0,02100 0,0153 0,0639 0,158

0,001 0,05157 0,02200 0,0243 0,0908 0,210

0,005 0,04393 0,0100 0,0717 0,207 0,412

0,01 0,03157 0,0201 0,115 0,297 0,554

0,025 0,03982 0,0506 0,216 0,484 0,831

0,05 0,02393 0,103 0,352 0,711 1,15

0,10 0,0158 0,211 0,584 1,06 1,61

6 7 8 9 10

0,299 0,485 0,710 0,972 1,26

0,381 0,598 0,857 1,15 1,48

0,676 0,989 1,34 1,73 2,16

0,872 1,24 1,65 2,09 2,56

1,24 1,69 2,18 2,70 3,25

1,64 2,17 2,73 3,33 3,94

2,20 2,83 3,49 4,17 4,87

11 12 13 14 15

1,59 1,93 2,31 2,70 3,11

1,83 2,21 2,62 3,04 3,48

2,60 3,07 3,57 4,07 4,60

3,05 3,57 4,11 4,66 5,23

3,82 4,40 5,01 5,63 6,26

4,57 5,23 5,89 6,57 7,26

5,58 6,30 7,04 7,79 8,55

16 17 18 19 20

3,54 3,98 4,44 4,91 5,40

3,94 4,42 4,90 5,41 5,92

5,14 5,70 6,26 6,84 7,43

5,81 6,41 7,01 7,63 8,26

6,91 7,56 8,23 8,91 9,39

7,96 8,67 9,39 10,1 10,9

9,31 10,1 10,9 11,7 12,4

21 22 23 24 25

5,90 6,40 6,92 7,45 7,99

6,45 6,98 7,53 8,08 8,65

8,03 8,64 9,26 9,89 10,5

8,90 9,54 10,2 10,9 11,5

10,3 11,0 11,7 12,4 13,1

11,6 12,3 13,1 13,8 14,6

13,2 14,0 14,8 15,7 16,5

26 27 28 29 30

8,54 9,09 9,66 10,2 10,8

9,22 9,80 10,4 11,0 11,6

11,2 11,8 12,5 13,1 13,8

12,2 12,9 13,6 14,3 15,0

13,8 14,6 15,3 16,0 16,8

15,4 16,2 16,9 17,7 18,5

17,3 18,1 18,9 19,8 20,6



Tabulka II pokračování P

Kvantily rozdělení 2

1 2 3 4 5

0,90 2,71 4,61 6,25 7,78 9,24

0,95 3,84 5,99 7,81 9,49 11,1

0,975 5,02 7,38 9,35 11,1 12,8

0,99 6,63 9,21 11,3 13,3 15,1

0,995 7,88 10,6 12,8 14,9 16,7

0,999 10,8 13,8 16,3 18,5 20,5

0,9995 12,1 15,2 17,7 20,0 22,1

6 7 8 9 10

10,6 12,0 13,4 14,7 16,0

12,6 14,1 15,5 16,9 18,3

14,4 16,0 17,5 19,0 20,5

16,8 18,5 20,1 21,7 23,2

18,5 20,3 22,0 23,6 25,2

22,5 24,3 26,1 27,9 29,6

24,1 26,0 27,9 29,7 31,4

11 12 13 14 15

17,3 18,5 19,8 21,0 22,3

19,7 21,0 22,4 23,7 25,0

21,9 23,3 24,7 26,1 27,5

24,7 26,2 27,7 29,1 30,6

26,8 28,3 29,8 31,3 32,8

31,3 32,9 34,5 36,1 37,7

33,1 34,8 36,5 38,1 39,7

16 17 18 19 20

23,5 24,8 26,0 27,2 28,4

26,3 27,6 28,9 30,1 31,4

28,8 30,2 31,5 32,9 34,2

32,0 33,4 34,8 36,2 37,6

34,3 35,7 37,2 38,6 40,0

39,3 40,8 42,3 43,8 452

41,3 42,9 44,4 46,0 47,5

21 22 23 24 25

29,6 30,9 32,0 33,2 34,4

32,7 33,9 35,2 36,4 37,7

35,5 36,8 38,1 39,4 40,6

38,9 40,3 41,6 43,0 44,3

41,4 42,8 44,2 45,6 46,9

46,8 48,3 49,7 51,2 52,6

49,0 50,5 52,0 53,5 54,9

26 27 28 29 30

35,6 36,7 37,9 39,1 40,3

38,9 40,1 41,3 42,6 43,8

41,9 43,2 44,5 45,7 47,0

45,6 47,0 48,3 49,6 50,9

48,3 49,6 51,0 52,3 53,7

54,1 55,5 56,9 58,3 59,7

56,4 57,9 59,3 60,7 62,2



Tabulka III Kvantily rozdělení t P 1 2 3 4 5 6 7 8 9 10

0,90 3,078 1,886 1,638 1,553 1,476 1,440 1,415 1,397 1,383 1,372

0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812

0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228

0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764

0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169

11 12 13 14 15 16 17 18 19 20

1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325

1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725

2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086

2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528

3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845

21 22 23 24 25 26 27 28 29 30

1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310

1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697

2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042

2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457

2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750



2

1

4,351 4,325 4,301 4,279 4,260 4,242 4,225 4,210 4,196 4,183

4,171 4,085 4,001 3,920 3,842

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

161,45 18,513 10,128 7,709 6,608 5,987 5,591 5,318 5,117

4,965 4,844 4,747 4,667 4,600 4,543 4,494 4,451 4,414 4,381

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV a

2

3,316 3,232 3,150 3,072 2,996

3,493 3,467 3,443 3,422 3,403 3,385 3,369 3,354 3,340 3,328

4,103 3,982 3,885 3,806 3,739 3,682 3,634 3,592 3,555 3,522

199,50 19,000 9,552 6,944 5,786 5,143 4,737 4,459 4,257

3

2,922 2,839 2,758 2,680 2,605

3,098 3,073 3,049 3,028 3,009 2,991 2,975 2,960 2,947 2,934

3,708 3,587 3,490 3,411 3,344 3,287 3,239 3,197 3,160 3,127

215,71 19,164 9,277 6,591 5,410 4,757 4,347 4,066 3,863

4

2,690 2,606 2,525 2,447 2,372

2,866 2,840 2,817 2,796 2,776 2,759 2,743 2,728 2,714 2,701

3,478 3,357 3,259 3,179 3,112 3,056 3,007 2,965 2,928 2,895

224,58 19,247 9,117 6,388 5,192 4,534 4,120 3,838 3,633

2,534 2,450 2,368 2,290 2,214

2,711 2,685 2,661 2,640 2,621 2,603 2,587 2,572 2,558 2,545

3,326 3,204 3,106 3,025 2,958 2,901 2,852 2,810 2,773 2,740

230,16 19,296 9,014 6,256 5,050 4,387 3,972 3,688 3,482

5

6

2,421 2,336 2,254 2,175 2,099

2,599 2,573 2,549 2,528 2,508 2,490 2,474 2,459 2,445 2,432

3,217 3,095 2,996 2,915 2,848 2,791 2,741 2,699 2,661 2,628

233,99 19,330 8,941 6,163 4,950 4,284 3,866 3,581 2,274

Kvantily F0,95 rozdělení F 7

2,334 2,249 2,167 2,087 2,010

2,514 2,488 2,464 2,442 2,423 2,405 2,388 2,373 2,359 2,346

3,136 3,012 2,913 2,832 2,764 2,707 2,657 2,614 2,577 2,544

236,77 19,353 8,887 6,094 4,876 4,207 3,787 3,501 3,293

8

2,266 2,180 2,097 2,016 1,938

2,447 2,421 2,397 2,375 2,355 2,337 2,321 2,305 2,291 2,278

3,072 2,948 2,849 2,767 2,699 2,641 2,591 2,548 2,510 2,477

238,88 19,371 8,845 6,041 4,818 4,147 3,726 3,438 3,230

9

2,211 2,124 2,040 1,959 1,880

2,393 2,366 2,342 2,320 2,300 2,282 2,266 2,250 2,236 2,223

3,020 2,896 2,796 2,714 2,646 2,588 2,538 2,494 2,456 2,423

240,54 19,385 8,812 5,999 4,773 4,099 3,677 3,388 3,179

2

10

2,348 2,321 2,297 2,275 2,255 2,237 2,220 2,204 2,190 2,177

2,165 2,077 1,993 1,911 1,831

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

241´,88 19,396 8,786 5,964 4,735 4,060 3,637 3,347 3,137

2,978 2,854 2,753 2,671 2,602 2,544 2,494 2,450 2,412 2,378

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV a /pokračování

12

2,092 2,004 1,917 1,834 1,752

2,278 2,250 2,226 2,204 2,183 2,165 2,148 2,132 2,118 2,105

2,913 2,788 2,687 2,604 2,534 2,475 2,425 2,381 2,342 2,308

243,91 19,413 8,745 5,912 4,678 4,000 3,575 3,284 3,073

15

2,015 1,925 1,836 1,751 1,666

2,203 2,176 2,151 2,128 2,108 2,089 2,072 2,056 2,041 2,028

2,845 2,719 2,617 2,533 2,463 2,404 2,352 2,308 2,269 2,234

245,95 19,429 8,703 5,858 4,619 3,938 3,511 3,218 3,006

1,932 1,839 1,748 1,659 1,571

2,124 2,096 2,071 2,048 2,027 2,008 1,990 1,974 1,959 1,945

2,774 2,646 2,544 2,459 2,388 2,328 2,276 2,230 2,191 2,156

248,01 19,446 8,660 5,803 4,558 3,874 3,445 3,150 2,937

20

1,887 1,793 1,700 1,608 1,517

2,083 2,054 2,028 2,005 1,984 1,964 1,946 1,930 1,915 1,901

2,737 2,609 2,506 2,420 2,349 2,288 2,235 2,190 2,150 2,114

249,05 19,454 8,639 5,774 4,527 3,842 3,411 3,115 2,901

24

30

1,841 1,744 1,649 1,554 1,459

2,039 2,010 1,984 1,961 1,939 1,919 1,901 1,884 1,869 1,854

2,700 2,571 2,466 2,380 2,308 2,247 2,194 2,148 2,107 2,071

250,09 19,462 8,617 5,746 4,496 3,808 3,376 3,079 2,864


1,792 1,693 1,594 1,495 1,394

1,994 1,965 1,938 1,914 1,892 1,872 1,853 1,836 1,820 1,806

2,661 2,531 2,426 2,339 2,266 2,204 2,151 2,104 2,063 2,026

251,14 19,471 8,594 5,717 4,464 3,774 3,340 3,043 2,826

60

1,740 1,637 1,534 1,429 1,318

1,946 1,917 1,890 1,865 1,842 1,822 1,803 1,785 1,769 1,754

2,621 2,490 2,384 2,297 2,223 2,160 2,106 2,058 2,017 1,980

252,20 19,479 8,572 5,688 4,431 3,740 3,304 3,005 2,787

120

1,684 1,577 1,467 1,352 1,221

1,896 1,866 1,838 1,813 1,790 1,768 1,749 1,731 1,714 1,698

2,580 2,448 2,341 2,252 2,178 2,114 2,059 2,011 1,968 1,930

253,25 19,487 8,549 5,658 4,398 3,705 3,267 2,967 2,748

1,622 1,509 1,389 1,254 1,000

1,843 1,812 1,783 1,757 1,733 1,711 1,691 1,672 1,654 1,638

2,538 2,405 2,296 2,206 2,131 2,066 2,010 1,960 1,917 1,878

 254,32 19,496 8,527 5,628 4,365 3,669 3,230 2,928 2,707

2

1

5,872 5,827 5,786 5,750 5,717 5,686 5,659 5,633 5,610 5,588

5,568 5,424 5,286 5,152 5,024

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

647,79 38,506 17,443 12,218 10,007 8,813 8,073 7,571 7,209

6,937 6,724 6,554 6,414 6,298 6,200 6,115 6,042 5,978 5,922

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV b

2

4,182 4,051 3,925 3,805 3,689

4,461 4,420 4,383 4,349 4,319 4,291 4,266 4,242 4,221 4,201

5,456 5,256 5,096 4,965 4,857 4,765 4,687 4,619 4,560 4,508

799,50 39,000 16,044 10,649 8,434 7,260 6,542 6,060 5,715

3

3,589 3,463 3,343 3,227 3,116

3,859 3,819 3,783 3,751 3,721 3,694 3,670 3,647 3,626 3,607

4,826 4,630 4,474 4,347 4,242 4,153 4,077 4,011 3,954 3,903

864,16 39,165 15,439 9,979 7,764 6,599 5,890 5,416 5,078

3,250 3,126 3,008 2,894 2,786

3,515 3,475 3,440 3,408 3,379 3,353 3,329 3,307 3,286 3,267

4,468 4,275 4,121 3,996 3,892 3,804 3,729 3,665 3,608 3,559

899,58 39,248 15,101 9,605 7,388 6,227 5,523 5,053 4,718

4

3,027 2,904 2,786 2,674 2,567

3,289 3,250 3,215 3,184 3,155 3,129 3,105 3,083 3,063 3,044

4,236 4,044 3,891 3,767 3,663 3,576 3,502 3,438 3,382 3,333

921,85 39,298 14,885 9,365 7,146 5,988 5,285 4,817 4,484

5


2,867 2,744 2,627 2,515 2,408

3,128 3,090 3,055 3,023 2,995 2,969 2,945 2,923 2,903 2,884

4,072 3,881 3,728 3,604 3,501 3,415 3,341 3,277 3,221 3,172

937,11 39,331 14,735 9,197 6,978 5,820 5,119 4,652 4,320

7

2,746 2,624 2,507 2,395 2,288

3,007 2,969 2,934 2,902 2,874 2,848 2,824 2,802 2,782 2,763

3,950 3,759 3,607 3,483 3,380 3,293 3,219 3,156 3,100 3,051

948,22 39,355 14,624 9,074 6,853 5,696 4,995 4,529 4,197

8

2,651 2,529 2,412 2,299 2,192

2,913 2,874 2,839 2,808 2,779 2,753 2,729 2,707 2,687 2,669

3,855 3,664 3,512 3,388 3,285 3,199 3,125 3,061 3,005 2,956

956,66 39,373 14,540 8,980 6,757 5,600 4,899 4,433 4,102

9

2,557 2,452 2,334 2,222 2,114

2,837 2,798 2,763 2,731 2,703 2,677 2,653 2,631 2,611 2,592

3,779 3,588 3,436 3,312 3,209 3,123 3,049 2,985 2,929 2,880

963,28 39,387 14,473 8,905 6,681 5,523 4,823 4,357 4,026

2

10

2,774 2,735 2,700 2,668 2,640 2,614 2,590 2,568 2,547 2,529

2,511 2,388 2,270 2,157 2,048

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

968,93 39,398 14,419 8,844 6,619 5,461 4,761 4,295 3,964

3,717 3,526 3,374 3,250 3,147 3,060 2,986 2,922 2,866 2,817

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV b /pokračování

12

2,412 2,288 2,169 2,055 1,945

2,676 2,637 2,602 2,570 2,541 2,515 2,491 2,469 2,448 2,430

3,621 3,430 3,277 3,153 3,050 2,963 2,889 2,825 2,769 2,720

976,71 39,415 14,337 8,751 6,525 5,366 4,666 4,200 3,868

15

2,307 2,182 2,061 1,945 1,833

2,573 2,534 2,498 2,467 2,437 2,411 2,387 2,364 2,344 2,325

3,522 3,330 3,177 3,053 2,949 2,862 2,788 2,723 2,667 2,617

984,87 39,431 14,253 8,657 6,428 5,269 4,568 4,101 3,769

2,195 2,068 1,945 1,825 1,709

2,465 2,425 2,389 2,357 2,327 2,301 2,276 2,253 2,232 2,213

3,419 3,226 3,073 2,948 2,844 2,756 2,681 2,616 2,559 2,509

993,10 39,448 14,167 8,560 6,329 5,168 4,467 4,000 3,667

20

2,136 2,007 1,882 1,760 1,640

2408 2,368 2,332 2,299 2,269 2,242 2,217 2,195 2,174 2,154

3,365 3,173 3,019 2,893 2,789 2,701 2,625 2,560 2,503 2,452

997,25 39,456 14,124 8,511 6,278 5,117 4,415 3,947 3,614

24

30

2,074 1,943 1,815 1,690 1,556

2,349 2,308 2,272 2,239 2,209 2,182 2,157 2,133 2,112 2,092

3,311 3,118 2,963 2,837 2,732 2,644 2,568 2,502 2,445 2,394

1001,4 39,465 14,081 8,461 6,227 5,065 4,362 3,894 3,560


2,009 1,875 1,744 1,614 1,484

2,287 2,247 2,210 2,176 2,146 2,118 2,093 2,069 2,048 2,028

3,255 3,061 2,906 2,7880 2,674 2,585 2,509 2,442 2,384 2,333

1005,6 39,473 14,037 8,411 6,175 5,013 4,309 3,840 3,506

60

1,940 1,803 1,667 1,530 1,388

2,223 2,182 2,145 2,111 2,080 2,052 2,026 2,002 1,980 1,959

3,198 3,004 2,848 2,720 2,614 2,524 2,447 2,380 2,321 2,270

1009,8 39,481 13,992 8,360 6,125 4,959 4,256 3,784 3,449

120

1,866 1,724 1,581 1,433 1,268

2,156 2,114 2,076 2,042 2,010 1,981 1,955 1,930 1,907 1,886

3,140 2,944 2,787 2,659 2,552 2,461 2,383 2,315 2,256 2,203

1014,0 39,490 13,947 8,309 6,069 4,905 4,199 3,728 3,392

1,787 1,637 1,482 1,310 1,000

2,085 2,042 2,003 1,968 1,935 1,906 1,878 1,853 1,829 1,807

3,080 2,883 2,725 2,596 2,487 2,395 2,316 2,247 2,187 2,133

 1018,3 39,498 13,902 8,257 6,0115 4,849 4,142 3,670 3,333

2

1

8,096 8,017 7,945 7,881 7,823 7,770 7,721 7,677 7,636 7,598

7,563 7,314 7,077 6,851 6,635

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

4052,2 98,503 34,116 21,198 16,258 13,745 12,246 11,259 10,561

10,044 9,646 9,330 9,074 8,862 8,683 8,531 8,400 8,285 8,185

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV c

2

5,390 5,179 4,977 4,787 4,605

5,849 5,780 5,719 5,664 5,614 5,568 5,526 5,488 5,453 5,421

7,559 7,206 6,927 6,701 6,515 6,359 6,226 6,112 6,013 5,926

4999,5 99,000 30,817 18,000 13,274 10,925 9,547 8,649 8,022

3

4,510 4,313 4,126 3,949 3,782

4,938 4,874 7,817 4,765 4,718 4,676 4,637 4,601 4,568 4,538

6,552 6,217 5,953 5,739 5,564 5,417 5,292 5,185 5,092 5,010

5403,5 99,166 29,457 16,694 12,060 9,780 8,451 7,591 6,992

4,018 3,828 3,649 3,480 3,319

4,431 4,369 4,313 4,264 4,218 4,177 4,140 4,106 4,074 4,045

5,994 5,668 5,412 5,205 5,035 4,893 4,773 4,669 4,579 4,500

5624,6 99,249 28,710 15,977 11,392 9,148 7,847 7,006 6,422

4

3,699 3,514 3,339 3,174 3,017

4,103 4,042 3,988 3,939 3,895 3,855 3,818 3,785 3,754 3,725

5,636 5,316 5,064 4,862 4,695 4,556 4,437 4,336 4,428 4,171

5763,7 99,299 28,237 15,522 10,967 8,746 7,460 6,632 6,057

5


3,474 3,291 3,119 2,956 2,802

3,871 3,812 3,758 3,710 3,667 3,627 3,591 3,558 3,528 3,500

5,386 5,069 4,821 4,620 4,456 4,318 4,202 4,102 4,015 3,939

5859,0 99,332 27,911 15,207 10,672 8,466 7,191 6,371 5,802

7

3,305 3,124 2,953 2,792 2,639

3,699 3,640 3,587 3,539 3,496 3,457 3,421 3,388 3,358 3,330

5,200 4,886 4,640 4,441 4,278 4,142 4,026 3,927 3,841 3,765

5928,3 99,356 27,672 14,976 10,456 8,260 6,993 6,178 5,613

8

3,173 2,993 2,823 2,663 2,511

3,564 3,506 3,453 3,406 3,363 3,324 3,288 3,256 3,226 3,198

5,057 4,745 4,499 4,302 4,140 4,005 3,890 3,791 3,705 3,631

5981,6 99,374 27,489 14,799 10,289 8,102 6,840 6,029 5,467

9

3,067 2,888 2,719 2,559 2,407

3,457 3,398 3,346 3,299 3,256 3,217 3,182 3,149 3,120 3,092

4,942 4,632 4,388 4,191 4,030 3,895 3,780 3,682 3,597 3,523

6022,5 99,388 27,345 14,639 10,158 7,976 6,719 5,911 5,351

2

10

3,368 3,310 3,258 3,211 3,168 3,129 3,094 3,062 3,032 3,005

2,979 2,801 2,632 2,472 2,321

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

6055,8 99,399 27,229 14,546 10,051 7,874 6,620 5,814 5,257

4,849 4,539 4,296 4,100 3,939 3,805 3,691 3,593 3,508 3,434

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV c /pokračování/

12

2,843 2,665 2,496 2,336 2,185

3,231 3,173 3,121 3,074 3,032 2,993 2,958 2,926 2,896 2,869

4,706 4,397 4,155 3,960 3,800 3,666 3,553 3,455 3,371 3,297

6106,3 99,416 27,052 14,374 9,888 7,718 6,469 5,667 5,111

15

2,700 2,522 2,352 2,192 2,039

3,088 3,030 2,978 2,931 2,889 2,850 2,815 2,783 2,753 2,726

4,558 4,251 4,010 3,815 3,656 3,522 3,409 3,312 3,227 3,153

6157,3 99,432 26,872 14,198 9,722 7,559 6,314 5,515 4,962

2,549 2,369 2,198 2,035 1,878

2,938 2,880 2,827 2,781 2,738 2,699 2,664 2,632 2,602 2,574

4,405 4,099 3,858 3,665 3,505 3,372 3,259 3,162 3,077 3,003

6208,7 99,449 26,690 14,020 9,553 7,396 6,155 5,359 4,808

20

2,469 2,288 2,115 1,950 1,791

2,859 2,801 2,749 2,702 2,659 2,620 2,585 2,552 2,522 2,495

7,327 4,021 3,781 3,587 3,427 3,294 3,181 3,084 2,999 2,925

6234,6 99,458 26,598 13,929 9,467 7,313 6,074 5,279 4,729

24

30

2,386 2,203 2,029 1,860 1,696

2,779 2,720 2,668 2,620 2,577 2,538 2,503 2,470 2,440 2,412

4,247 3,941 3,701 3,507 3,348 3,214 3,101 3,003 2,919 2,844

6260,7 99,466 26,505 13,838 9,379 7,229 5,992 5,198 4,649


2,299 2,114 1,936 1,763 1,592

2,695 2,636 2,583 2,536 2,492 2,453 2,417 2,384 2,354 2,325

4,165 3,860 3,619 3,425 3,266 3,132 3,018 2,921 2,835 2,761

6286,8 99,474 26,411 13,745 9,291 7,143 5,908 5,116 4,567

60

2,208 2,019 1,836 1,656 1,473

2,608 2,548 2,495 2,447 2,404 2,364 2,327 2,294 2,263 2,234

4,082 3,776 3,536 3,341 3,181 3,047 2,933 2,835 2,749 2,674

6313,0 99,483 26,316 13,652 9,202 7,057 5,824 5,032 4,483

120

2,111 1,917 1,726 1,533 1,325

2,517 2,457 2,403 2,354 2,310 2,270 2,233 2,198 2,167 2,138

3,997 3,690 3,449 3,255 3,094 2,960 2,845 2,746 2,660 2,584

6339,4 99,491 26,221 13,558 9,112 6,969 5,737 4,946 4,398

2,006 1,805 1,601 1,381 1,000

2,421 2,360 2,306 2,256 2,211 2,169 2,132 2,097 2,064 2,034

3,909 3,603 3,361 3,165 3,004 2,868 2,753 2,653 2,566 2,489

 6366,0 99,501 26,125 13,463 9,020 6,880 5,650 4,859 4,311

2

1

9,944 9,830 9,727 9,635 9,551 9,475 9,406 9,342 9,284 9,230

9,180 8,828 8,495 8,179 7,879

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

16211 198,50 55,552 31,333 22,785 18,635 16,236 14,688 13,614

12,826 12,226 11,754 11,374 11,060 10,798 10,575 10,384 10,218 10,073

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV d

2

6,355 6,066 5,795 5,539 5,298

6,987 6,891 6,806 6,730 6,661 6,598 6,541 6,489 6,440 6,396

9,427 8,912 8,510 8,187 7,922 7,701 7,514 7,354 7,215 7,094

20000 199,00 49,799 26,284 18,314 14,544 12,404 11,042 10,107

3

5,239 4,976 4,729 4,497 4,279

5,818 5,730 5,652 5,582 5,519 5,462 5,409 5,361 5,317 5,276

8,081 7,600 7,226 6,926 6,680 6,476 6,303 6,156 6,028 5,916

21615 199,17 47,467 24,259 16,530 12,917 10,882 9,597 8,717

4,623 4,374 4,140 3,921 3,715

5,174 5,091 5,017 4,950 4,890 4,835 4,785 4,740 4,698 4,659

7,343 6,881 6,521 6,234 5,998 5,803 5,638 5,497 5,375 5,268

22500 199,25 46,196 23,155 15,556 12,028 10,050 8,805 7,956

4

4,228 3,986 3,760 3,548 3,350

4,762 4,681 4,609 4,544 4,486 4,433 4,384 4,340 4,300 4,262

6,872 6,422 6,071 5,791 5,562 5,372 5,212 5,075 4,956 4,853

23056 199,30 45,392 22,456 14,940 11,464 9,522 8,3302 7,471

5


3,949 3,713 3,492 3,285 3,091

4,472 4,393 4,323 4,259 4,202 4,150 4,103 4,059 4,020 3,983

6,545 6,102 5,757 5,482 5,257 5,071 4,913 4,779 4,663 4,561

23437 199,33 44,838 21,975 14,513 11,073 9,155 7,952 7,134

7

3,742 3,509 3,291 3,087 2,897

4,257 4,179 4,109 4,047 3,991 3,939 3,893 3,850 3,811 3,775

6,303 5,865 5,525 5,253 5,031 4,847 4,692 4,559 4,445 4,345

23715 199,36 44,434 21,622 14,200 10,786 8,885 7,694 6,885

8

3,580 3,350 3,134 2,933 2,744

4,090 4,013 3,944 3,882 3,826 3,776 3,730 3,688 3,649 3,613

6,116 5,682 5,345 5,076 4,857 4,674 4,521 4,389 4,276 4,177

23925 199,37 44,126 21,352 13,961 10,566 8,678 7,496 6,693

9

3,451 3,222 3,008 2,808 2,621

3,956 3,880 3,812 3,750 3,695 3,645 3,599 3,557 3,519 3,483

5,968 5,537 5,202 4,935 4,717 4,536 4,384 4,254 4,141 4,043

24091 199,39 43,882 21,139 13,772 10,391 8,514 7,339 6,541

2

10

3,847 3,771 3,703 3,642 3,587 3,537 3,492 3,450 3,412 3,377

3,344 3,117 2,904 2,705 2,519

20 21 22 23 24 25 26 27 28 29

30 40 60 120 

24,224 199,40 43,686 20,967 13,618 10,250 8,380 7,211 6,417

5,847 5,418 5,086 4,820 4,603 4,424 4,272 4,142 4,031 3,933

1

10 11 12 13 14 15 16 17 18 19

1 2 3 4 5 6 7 8 9

Tabulka IV d /pokračování/

12

3,179 2,953 2,742 2,544 2,358

3,678 3,602 3,535 3,475 3,420 3,370 3,325 3,284 3,246 3,211

5,661 5,236 4,906 4,643 4,428 4,250 4,099 3,971 3,860 3,763

24426 199,42 43,387 20,705 13,384 10,034 8,176 7,015 6,227

15

3,006 2,781 2,571 2,373 2,187

3,502 3,427 3,360 3,300 3,246 3,196 3,152 3,110 3,073 3,038

5,471 5,049 4,721 4,460 4,247 4,070 3,921 3,793 3,683 3,587

24630 199,43 43,085 20,438 13,146 9,814 7,968 6,814 6,033

2,823 2,598 2,387 2,188 2,000

3,318 3,243 3,176 3,117 3,062 3,013 2,969 2,928 2,890 2,855

5,274 4,855 4,530 4,270 4,059 3,883 3,734 3,607 3,498 3,402

24836 199,45 42,778 20,167 12,903 9,589 7,754 6,608 5,832

20

2,727 2,502 2,290 2,089 1,898

3,222 3,147 3,081 3,021 2,967 2,918 2,873 2,832 2,794 2,759

5,173 4,756 4,432 4,173 3,961 3,786 3,638 3,511 3,402 3,306

24940 199,46 42,622 20,030 12,780 9,474 7,645 6,503 5,729

24

30

2,628 2,402 2,187 1,984 1,789

3,123 3,049 2,982 2,922 2,868 2,819 2,774 2,733 2,695 2,660

5,071 4,654 4,331 4,073 3,862 3,687 3,538 3,412 3,303 3,208

25044 199,47 42,466 19,892 12,656 9,358 7,735 6,396 5,625


2,524 2,296 2,079 1,871 1,669

3,022 2,947 2,880 2,820 2,765 2,716 2,671 2,630 2,592 2,557

4,966 4,551 4,228 3,970 3,760 3,585 3,437 3,311 3,201 3,106

25148 199,47 42,308 19,752 12,530 9,241 7,423 6,288 5,519

60

2,415 2,184 1,962 1,747 1,533

2,916 2,841 2,774 2,713 2,659 2,609 2,563 2,522 2,483 2,448

4,859 4,445 4,123 3,866 3,655 3,480 3,332 3,206 3,096 3,000

25253 199,48 42,149 19,611 12,402 9,122 7,309 6,177 5,410

120

2,300 3,064 1,834 1,606 1,364

2,806 2,730 2,663 2,602 2,546 2,496 2,450 2,408 2,369 2,333

4,750 4,337 4,015 3,758 3,547 3,372 3,224 3,097 2,987 2,891

25359 199,49 41,989 19,468 12,274 9,002 7,193 6,065 5,300

2,176 1,932 1,688 1,431 1,000

2,690 2,614 2,546 2,484 2,428 2,377 2,330 2,287 2,247 2,210

4,639 4,226 3,904 3,647 3,436 3,260 3,112 2,984 2,873 2,776

 25465 199,51 41,829 19,325 12,144 8,879 7,076 5,951 5,188

Metody statistické analýzy. doc. Ing. Dagmar Blatná, CSc

Recommend Documents