Metody statistické analýzy doc. Ing. Dagmar Blatná, CSc.
Bankovní institut vysoká škola, a.s. Praha 2011
METODY STATISTICKÉ ANALÝZY Autor:
doc. Ing. Dagmar Blatná, CSc.
Recenzenti:
doc. Ing. Jiří Trešl, CSc. Ing. Diana Bílková, Dr.
Vydal:
Bankovní institut vysoká škola, a.s., Nárožní 2600/9 Praha
Tisk:
powerprint s.r.o., Brandejsovo náměstí 1219/1, 165 00, Praha 6 – Suchdol
Vydání:
první
Rok vydání:
duben 2011
Místo vydání:
Praha
2011 © Bankovní institut vysoká škola, a.s. Všechna práva vyhrazena. Žádná část této publikace nebude jakýmkoliv způsobem reprodukována bez předchozího písemného souhlasu Bankovního institut vysoké školy, a.s ISBN 978-80-7265-129-0
Metody statistické analýzy
OBSAH Úvod........................................................................................................................................................ 5 I
METODY ZKOUMÁNÍ ZÁVISLOSTÍ ............................................................................................... 6 I.1
Zkoumání závislosti kategoriálních znaků................................................................................... 6
I.2
Jednofaktorová analýza rozptylu (ANOVA)............................................................................... 11
I.3
Regresní analýza....................................................................................................................... 15
I.3.1 I.4
Korelační analýza ...................................................................................................................... 34
I.4.1
Jednoduchá (párová) korelace .......................................................................................... 35
I.4.2
Test nezávislosti pořadovou korelací ................................................................................ 43
I.5
II
Jednoduchá (párová) regresní analýza............................................................................. 17
Vícenásobná lineární regresní a korelační analýza .................................................................. 45
I.5.1
Vícenásobná regrese ........................................................................................................ 45
I.5.2
Vícenásobná korelace ....................................................................................................... 47
I.5.3
Multikolinearita................................................................................................................... 50
I.6
Regrese s kategoriální proměnnou ........................................................................................... 52
I.7
KONTROLNÍ OTÁZKY .............................................................................................................. 53
I.8
PŘÍLADY NA PROCVIČENÍ...................................................................................................... 54
I.9
ZÁKLADNÍ VÝRAZY.................................................................................................................. 61
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD........................................................ 63 II.1
Druhy a charakteristiky časových řad.................................................................................... 63
II.2
Dekompozice časových řad................................................................................................... 69
II.3
Vyrovnávání časových řad .................................................................................................... 70
II.3.1
Analytické vyrovnání časových řad ................................................................................... 70
II.3.2
Adaptivní přístupy k trendové složce................................................................................. 74
II.4 II.4.1
Zkoumání sezónnosti v časových řadách ............................................................................. 78 Sezónní očišťování ............................................................................................................ 82
II.5
Náhodná složka časových řad............................................................................................... 84
II.6
Extrapolace časových řad ..................................................................................................... 85
II.7
Korelace v časových řadách.................................................................................................. 86 Obsah 3
Bankovní institut vysoká škola
II.8
KONTROLNÍ OTÁZKY .......................................................................................................... 89
II.9
PŘÍKLADY NA PROCVIČENÍ ............................................................................................. 90
II.10
ZÁKLADNÍ VÝRAZY............................................................................................................. 97
III
MARKETINGOVÉ PRŮZKUMY .................................................................................................... 99 III.1
Způsoby zjišťování údajů a výběrové postupy ...................................................................... 99
III.1.1
Způsoby zjišťování údajů............................................................................................... 99
III.1.2
Výběrové postupy ........................................................................................................ 100
III.1.3
Stanovení velikosti výběrového souboru..................................................................... 101
III.2
Vybrané metody používané ke zpracování údajů získaných ve výběru.............................. 101
III.2.1
Porovnání struktury výběrového a základního souboru .............................................. 102
III.2.2
Ověřování změny názorů ............................................................................................ 103
III.2.3
Test o shodě podílů v k souborech.............................................................................. 105
III.2.4
Neparametrické testy shody průměrů dvou nezávislých výběrů ................................. 106
III.2.5
Kruskalův-Wallisův test (neparametrická analýza rozptylu)........................................ 109
III.2.6
Použití vícerozměrných statistických metod v marketingových průzkumech.............. 112
III.3
KONTROLNÍ OTÁZKY ........................................................................................................ 117
III.4
PŘÍKLADY NA PROCVIČENÍ ........................................................................................... 118
III.5
ZÁKLADNÍ VÝRAZY............................................................................................................ 122
IV
SEZNAM LITERATURY .............................................................................................................. 124
V
PŘÍLOHY – STATISTICKÉ TABULKY ....................................................................................... 125
4
Obsah
Metody statistické analýzy
ÚVOD Skripta Metody statistické analýzy jsou učebním textem pro kurz Statistické metody magisterského studia Bankovního institutu. Tento kurz navazuje na kurz Statistika a pravděpodobnost a předpokládá statistické znalosti v něm obsažené, zejména popisnou statistiku a metody statistické indukce (teorii statistických odhadů a teorii testování statistických hypotéz). Skripta jsou rozdělena do tří kapitol. I. kapitola se zabývá základními statistickými analytickými metodami umožňujícími zkoumat závislosti jak mezi kategoriálními tak i mezi kvantitativními proměnnými (kontingenční analýzu, analýzu rozptylu, regresní a korelační analýzu). II. kapitola obsahuje základní metody statistické analýzy a extrapolace časových řad. III. kapitola je věnována aplikaci statistických postupů v marketingových průzkumech a obsahuje popis základních způsobů zjišťování údajů a některé jednodušší metody použitelné v průzkumech. Analogicky jako ve skriptech Statistika a pravděpodobnost je výklad koncipován především tak, aby studenti pochopili podstatu metod a uměli rozhodnout, kterou metodu by bylo možno pro řešení konkrétní úlohy použít v praxi a jak interpretovat získané výsledky. Pro lepší porozumění vykládané problematice jsou uvedeny řešené příklady s interpretací získaných výsledků. Příklady je nutno chápat jako ilustrativní, jsou vědomě zjednodušené, slouží především k pochopení látky a výpočetních postupů. Řešení příkladů uvedených v textu je většinou prováděno bez použití počítače, u regresní analýzy a u metod analýzy časových řad jsou uvedeny i výstupy z počítače s použitím programu STATGRAPHICS nebo SAS. Popisované postupy obsahuje i většina dalších specializovaných statistických programů, např. SPPS, STATISTICA, S-Plus apod., příklady lze řešit i pomocí tabulkových kalkulátorů, např. EXCEL. Výstupy z jiných statistických programů mají většinou podobný tvar jako uvedené výstupy ze STATGRAPHICS nebo SAS. Ve srovnání s předchozím učebním textem Metody statistické analýzy určeném pro studenty BIVŠ, jsou tato skripta upravena a rozšířena tak, aby více vyhovovala i potřebám studentů kombinovaného studia. Protože se často jedná o metody, které jsou bez použití počítače obtížně řešitelné, je větší pozornost věnována porozumění a interpretaci výstupů ze statistických programových systémů SAS a STATGRAPHICS. Na závěr každé kapitoly jsou zařazeny kontrolní otázky a příklady k procvičení vysvětlené látky. K příkladům jsou uvedeny výsledky, v některých případech i postup řešení, většinou provedený pomocí EXCELu. U každé kapitoly je rovněž uveden i anglicko-český slovník základních statistických pojmů a výrazů používaných v příslušné kapitole, neboť lze předpokládat, že při aplikaci statistických postupů v praxi se studenti častěji setkají s počítačovými programy, v nichž budou použity anglické výrazy. V přílohové části jsou připojeny základní statistické tabulky. Seznam literatury uvádí vybrané české i zahraniční publikace, které je možno využít k doplnění a rozšíření metod a postupů uvedených ve skriptech.
doc. Ing. Dagmar Blatná, CSc.
Úvod 5
Bankovní institut vysoká škola
I
METODY ZKOUMÁNÍ ZÁVISLOSTÍ
V prvém kurzu statistiky (Pravděpodobnost a statistika) jsme se u statistických souborů zabývali zkoumáním jednotlivých statistických znaků odděleně, neuvažovali jsme, že mezi nimi mohou být nějaké souvislosti a vzájemné vztahy. Přitom právě objevování a popisování souvislostí jevů patří k nejdůležitějším statistickým úkolům při kvantitativních výzkumech. Existuje celá řada, často složitých a náročných metod a postupů zkoumání závislostí, které jsou bez použití počítačů prakticky nezvládnutelné. V tomto kurzu si uvedeme pouze základní jednoduché metody zkoumání závislostí a vzájemných vztahů mezi statistickými znaky. Musíme si vždy být vědomi, že existují různé druhy statistických znaků (základní třídění je na znaky kategoriální a číselné) a výběr statistické metody, kterou chceme použít pro zkoumání závislostí, závisí na typu zkoumaných znaků. V této kapitole se budeme zabývat základními statistickými postupy a metodami, které se používají při analýzách závislostí, projevujících se v hromadných údajích. Prvotními údaji jsou v tomto případě hodnoty sledovaných proměnných, zjištěné u každé z n jednotek určitého souboru (předpokládáme konečného), jímž může být soubor osob, firem, zemí aj. Na údaje o n jednotkách konečného souboru je nutné pohlížet jako na výběrová data. Je-li možno předpokládat, že tato data jsou výběrem z nekonečného základního souboru, použijeme metody statistické indukce (viz kapitola IV skript Pravděpodobnost a statistika), které umožňují provádět z těchto výběrových dat zevšeobecňující úsudky. Z hlediska použitých dat pro zkoumání závislostí mezi proměnnými lze uvést základní metody zkoumání závislostí: • kontingenční analýza:
-
kategoriální (slovní) znaky
• analýza rozptylu:
-
sledovaný znak číselný, třídící znak slovní nebo číselný
• pořadová korelace:
-
dva pořadové znaky
• regresní a korelační analýza: -
I.1
dva nebo více číselných znaků
Zkoumání závislosti kategoriálních znaků
S kategoriálními proměnnými se setkáváme často zejména v oblasti průzkumů v různých oblastech (marketingové průzkumy, průzkumy veřejného mínění, sociologické průzkumy apod.) V rámci kategoriálních proměnných je třeba rozlišovat mezi nominálními a ordinálními (pořadovými) proměnnými. K nominálním patří např. typ vzdělání (ekonomické, technické, přírodovědné apod.), mezi ordinální patří např. stupeň vzdělání (základní, středoškolské, vysokoškolské, doktorské). Zatímco hodnoty nominálních proměnných lze řadit v podstatě libovolně, u ordinálních proměnných je přirozené je řadit podle jejich hodnoty od nejnižší (nejméně významné, nejméně pozitivní) až po nejvyšší (nejvýznamnější, nejpozitivnější apod.). Nejdříve si popíšeme dvourozměrnou tabulku rozdělení četností kategoriálních znaků – nazývanou kontingenční tabulka. Sledované kategoriální znaky označíme A a B. Znak A nabývá k obměn, znak B s obměn. V kontingenční tabulce zobrazujeme rozdělení četností obou sledovaných znaků podle jednotlivých obměn obou znaků (obvykle řadíme obě proměnné ve směru od nejmenší po největší)
6
Metody zkoumání závislostí
Metody statistické analýzy
i tzv. četnosti sdružené (což jsou počty jednotek nabývajících současně i - tou obměnu znaku A a j tou obměnu znaku B). Tabulka I-1 Kontingenční tabulka
A/B A1 A2
B1 B2 B 3 ... B j ... n11 n12 n13 ... n1j ... n21 n22 n23 ... n2j ... . . . . ni1 ni2 ni3 ... nij ...
•
Ai
• • •
Ak n •j
nk1 n •1
nk2 n•2
nk3 ... nkj n•3 ... n•j
Bs n1s n2s . nis
n i• n1• n2•
... nks ... n•s
nk • n
n i•
Znak A : i = 1, 2, ..., k. Znak B : j = 1, 2, ..., s.
Četnosti v políčkách uvnitř kontingenční tabulky označujeme nij a nazýváme je sdružené četnosti. Četnosti označené ni• a n•j jsou četnosti okrajové (marginální); (přitom ni• představují rozdělení četností znaku A, n•j pak představují rozdělení četností znaku B). Celkový počet jednotek souboru n je celková četnost. Mezi četnostmi v kontingenční tabulce platí vztahy:
(I.1)
n=
k
s
nij =
i =1 j =1
k
i =1
ni • =
s
n j =1
•j
Při zkoumání závislosti mezi kategoriálním proměnnými se nejčastěji používá test o nezávislosti dvou kategoriálních znaků, často nazývaný χ2 - test nezávislosti v kontingenční tabulce.
χ2 - test nezávislosti v kontingenční tabulce K rozhodnutí o tom, jestli lze na základě zjištěných dat prohlásit dvě kategoriální proměnné za závislé či nikoliv, slouží test o nezávislosti. Testujeme při něm nulovou hypotézu o nezávislosti, alternativní hypotéza pak tvrdí, že se jedná o závislost. Vede-li test při dostatečně nízké hladině významnosti k přijetí alternativní hypotézy, lze s malým rizikem omylu říci, že jsou obě proměnné závislé, vede-li test k nezamítnutí nulové hypotézy o nezávislosti, lze pouze konstatovat, že nelze toto tvrzení zamítnout, chybný by byl závěr o nezávislosti obou proměnných. Tedy, v tomto testu formulujeme nulovou a alternativní hypotézu: H0 : znaky A a B jsou nezávislé H1 : non H0 (jsou závislé). Testové kriterium označené G má za platnosti nulové hypotézy rozdělení χ2[(k-1).(s-1)].
Metody zkoumání závislostí 7
Bankovní institut vysoká škola
k
G=
(I.2)
s
(ne,ij − no,ij ) 2 n
i =1 j =1
,
kde ne,ij jsou empirické (zjištěné) četnosti, no,ij jsou teoretické (očekávané) četnosti, (tj. takové, které by byly v jednotlivých políčkách tabulky, kdyby platila nulová hypotéza o nezávislosti) Teoretické četnosti vypočítáme podle vztahu
(I.3)
no,ij =
.
ni• n• j n
.
Kritický obor tvoří hodnoty testového kriteria G ≥ χ21-α [(k-1).(s-1)]. Použití uvedeného testu má omezení v tom, že maximálně 20 % teoretických četností smí být menší než 5. Pokud není tato podmínka splněna, slučujeme skupiny (obměny), přičemž samozřejmou podmínkou je, abychom sloučili obměny sledovaných znaků tak, aby tvořily logické skupiny (většinou se jedná o skupiny, které jsou v tabulce vedle sebe, pokud ovšem jsme dodrželi výše uvedený předpoklad uspořádání kategorií od nejnižší po nejvyšší). Příklad I.1 Na základě údajů získaných z průzkumu u 400 pracovníků firmy ověřte na 5% - ní hladině významnosti, jestli absolvování vzdělávacích kurzů ve firmě ovlivňuje výslednou úroveň jejich znalostí ověřovanou vědomostním testem. Tabulka I-2 Tabulka zjištěných (empirických) četností
Nechodil
Znalosti podprůměrné 75
Znalosti průměrné 36
Znalosti nadprůměrné 31
Občasná účast
27
19
33
79
Chodil pravidelně
31
62
86
179
133
117
150
400
Navštěvování kurzů
Četnosti
n• j
Četnosti ni• 142
Výpočet teoretických četností podle vzorce (I.3): 47,2 = (142 .133)/ 400, atd…. Tabulka I-3 Tabulka teoretických (očekávaných) četností
Nechodil
Znalosti podprůměrné 47,2
Znalosti průměrné 41,5
Znalosti nadprůměrné 53,3
Občasná účast
26,3
23,1
29,6
79
Chodil pravidelně
59,5
52,4
67,1
179
133
117
150
400
Navštěvování kurzů
Četnosti
8
n• j
Metody zkoumání závislostí
Četnosti ni• 142
Metody statistické analýzy
Testové kriterium vypočítáme podle vzorce (I.2)
(75 - 47, 2)2 (36 - 41, 5)2 (31 - 53, 3)2 (27 - 26, 3)2 (86 - 67, 1)2 + + + + ... + = 47, 2 41, 5 53, 3 26, 3 67, 1 = 48, 268
G =
Kritickou hodnotu
2 χ12−α [ (k − 1)( s − 1] = χ 0,95 [4]
Hodnota testového kriteria G = 48,268 >
najdeme v přílohové tabulce II.
2 χ 0,95 [4] = 9,5, což znamená, že na 5% hladině významnosti
zamítáme H0 o nezávislosti úrovně znalostí na navštěvování vzdělávacích kurzů a přijímáme tvrzení alternativní hypotézy, že navštěvování kurzů ovlivňuje úroveň znalostí (ověřovanou testem). Testem o nezávislosti posoudíme, jestli můžeme nebo nemůžeme zamítnout hypotézu o nezávislosti. K posouzení, jak je závislost silná (těsná), počítáme různé statistické charakteristiky, které nabývají hodnot z intervalu <0;1>, případně z polouzavřeného intervalu <0;1). Jsou-li obě proměnné statisticky nezávislé, nabývají hodnoty 0. To znamená, že z hodnot blízkých nule lze usuzovat na slabou závislost, naopak z hodnost blížících se jedné lze usuzovat na silnou závislost. Obecně platí, čím je hodnota použité charakteristiky kontingence bližší 1, tím je závislost silnější a naopak. V případě měření síly (těsnosti) závislosti mezi kategoriálními proměnnými se používají míry kontingence, uvedeme alespoň dva nejpoužívanější - Pearsonův koeficient kontingence a Cramerův koeficient kontingence (v počítačích označovaný jako Cramerovo V), které navazují na výpočet χ2 testu nezávislosti v kontingenční tabulce s testovým kriteriem G. Pearsonův koeficient kontingence
(I.4)
CP =
G G+n
.
nabývá hodnot <0;1). Horní mez je dána hodnotou h = min[(k - 1);(s - 1)]. S rostoucím h (tj. s růstem rozměrů kontingenční tabulky) se horní mez Pearsonova koeficientu blíží jedné, ale ani při pevné závislosti hodnotu 1 nenabude. Cramerův koeficient kontingence (Cramerovo V)
(I.5)
CC =
G n.h
,
kde h = min[(k - 1);(s - 1)]. Cramerův koeficient kontingence může nabýt hodnoty v intervalu <0;1>. Používat Cramérův koeficient kontingence je výhodné, pokud pracujeme se čtvercovou kontingenční tabulkou.
Příklad I.2 Pokračování příkladu I.1. Posuďte těsnost závislosti úrovně znalostí na absolvování kurzů Pearsonovým a Cramérovým koeficientem kontingence.
Metody zkoumání závislostí 9
Bankovní institut vysoká škola
K výpočtům koeficientů kontingence použijeme vzorce (I.4) a (I.5).
CP =
CC =
G G+n G = n.h
=
48, 268 = 0, 328 , 48, 268 + 400
48, 268 = 0, 245 400.2 .
Z hodnot koeficientů kontingence můžeme učinit následující závěr: i když jsme na 5% ní hladině významnosti prokázali statistickou významnost závislosti úrovně znalostí na absolvování kurzů (zamítli jsme hypotézu o nezávislosti), je tato závislost statisticky významná, ale její těsnost není příliš silná. Nejjednodušší a přitom velmi častý je případ kategoriálních dat, která mohou nabývat pouze dvou obměn (nejčastěji se jedná o odpovědi na otázky typu má – nemá, souhlasí – nesouhlasí apod.). Kontingenční tabulka v takovém případě má jen dva řádky a dva sloupce a nazývá se čtyřpolní tabulka (nebo také asociační tabulka). Tabulka I-4 Asociační tabulka A/B
B1
B2
n i•
A1
n11
n12
n1•
A2
n 21
n 22
n2•
n• j
n• 1
n• 2
n
Testové kriterium hypotézy o nezávislosti kategoriálních dat se v tomto případě zjednoduší a má tvar:
G=
(I.6)
n(n11 n22 − n12 n21 ) 2 n1• n2• n•1 n•2
s rozdělením χ (1) . 2
Kritický obor tohoto testu tvoří hodnoty testového kriteria G ≥ χ1−α (1) . 2
Těsnost závislosti dvou kategoriálních dat lze posoudit koeficientem asociace, který má tvar
rAB =
(I.7)
n11 n22 − n12 n21 n1• n2• n•1 n•2
.
Koeficient asociace může nabývat hodnoty v intervalu <-1;1>. Čím je hodnota koeficientu asociace bližší ± 1, tím je závislost těsnější. Když rAB = ± 1, mluvíme o úplné asociaci, v případě koeficientu asociace rAB = 0 se jedná o nezávislost. Znaménko koeficientu asociace určuje směr závislosti (přímá nebo nepřímá). Poznámka. K posouzení těsnosti závislosti je možno v tomto případě použít rovněž Pearsonův nebo Cramérův koeficient kontingence (jsou dané vzorci (I.4). a (I.5), z koeficientů kontingence ale nemůžeme posoudit směr závislosti).
10
Metody zkoumání závislostí
Metody statistické analýzy
Příklad I.3 Posuďte na 5% hladině významnosti, jestli existuje závislost mezi způsobem placení v obchodním domě a tím, zda se jedná o pravidelného nebo náhodného zákazníka, máte-li k dispozici údaje z průzkumu provedeného u 200 zákazníků. Údaje uvádí Tabulka I-5. Tabulka I-5 Údaje průzkumu Zákazník Pravidelný Náhodný Celkem
Placení kreditní kartou 69 40 109
Placení hotově 52 39 91
Celkem 121 79 200
Testové kriterium vypočtené podle vzorce (I.6):
G=
200.(69.39 - 40.52)2 121.79.109.91
Kritická hodnota
= 0, 787 .
χ 02,95 (1) = 3,84 .
Hodnota testového kriteria nespadá do kritického oboru, nemůžeme proto na hladině významnosti 5 % zamítnout hypotézu o nezávislosti; neprokázali jsme tedy závislost mezi způsobem placení a typem zákazníka. V případě, kdy testem nezávislosti nezamítneme nulovou hypotézu o nezávislosti, nemá smysl posuzovat sílu (těsnost) závislosti.
I.2
Jednofaktorová analýza rozptylu (ANOVA)
Analýza rozptylu patří k základním statistickým metodám aplikovaným při vyhodnocování experimentálních pokusů. Používá se v případech, kdy chceme posoudit jednostrannou závislost, zda sledovaný číselný statistický znak závisí na jiném znaku, podle něhož byl sledovaný znak roztříděn do skupin. Jako příklad použití můžeme uvést zkoumání vlivu faktoru na hospodářský proces, vlivu způsobu opatření na výsledek procesu, vlivu absolvování typu školy na úspěšnost v přijímacích zkouškách, závislost ceny akcií na odvětví apod. Tuto úlohu ale můžeme formulovat i tak, že chceme ověřit, zda střední hodnoty skupin (podsouborů) sledovaného znaku vytvořené podle třídícího hlediska (třídícího znaku) jsou stejné, jinými slovy to znamená ověřit významnost rozdílů mezi výběrovými průměry většího počtu náhodných výběrů. Třídící znak může být kategoriální (slovní) nebo číselný. V úloze analýzy rozptylu testujeme nulovou hypotézu H0 : μ1 = μ2 = μ3 = .... = μk, H1 : alespoň dvě střední hodnoty se liší nebo ve tvaru Metody zkoumání závislostí 11
Bankovní institut vysoká škola
H0 : hodnoty znaku y nezávisí na třídícím znaku A, H1 : hodnoty znaku y závisí na třídícím znaku A. Základním předpokladem, z něhož jednofaktorová analýza rozptylu vychází, je, že všech k výběrů je nezávislých a každý z nich pochází z normálního rozdělení s různými středními hodnotami, ale stejnými rozptyly rovnými konstantě σ2. Shrneme-li to, je při použití analýzy rozptylu nutno si uvědomit, že její použití je vázáno na splnění následujících předpokladů: -
výběry jsou nezávislé,
-
každý z k výběrů pochází z normálního rozdělení N(μi, σ2i),
-
počet pozorování je větší než počet skupin ( n > k ),
-
rozptyly všech k skupin jsou stejné
σ 12 = σ 22 = ... = σ k2 .
Předpoklad normality většinou neověřujeme (říkáme, že test je robustní, to znamená málo citlivý na porušení normality), ale předpoklad shody rozptylů musíme ověřit vždy, neboť v případě nedodržení tohoto předpokladu je třeba pro řešení použít jinou statistickou metodu (např. Kruskalův - Wallisův test, viz kapitola III.2.5). Shodu rozptylů ověříme Bartlettovým nebo Cochranovým testem. Tyto testy jsou výpočetně náročnější, proto je neuvádíme, jsou ale obsaženy ve všech statistických paketech, které obsahují rovněž analýzu rozptylu (posouzení, zda zamítnout, resp. nezamítnout testovanou hypotézu o rovnosti rozptylů provádíme podle p - hodnoty (p - value) Je-li p-value ≤ α, zamítáme testovanou hypotézu, je-li p-value > α, testovanou hypotézu nezamítáme a víme, že jsme oprávněni použít analýzu rozptylu). Při jednofaktorové analýze rozptylu se zkoumá, zda lze variabilitu hodnot numerické proměnné Y vysvětlovat jediným faktorem A. Podkladem pro analýzu jsou hodnoty y na různých úrovních znaku A. Základní myšlenka analýza rozptylu spočívá v rozložení celkové variability sledovaného znaku Y na variabilitu příslušející vlivu, podle něhož bylo provedeno třídění hodnot znaku Y (tj. meziskupinovou variabilitu) a na variabilitu, která je způsobena dalšími blíže nespecifikovanými vlivy, které rovněž ovlivňují variabilitu sledovaného znaku a které způsobují kolísání hodnot uvnitř skupin vytvořených podle třídícího znaku (vnitroskupinovou variabilitu). Celkovou variabilitu charakterizuje celkový součet čtverců Q k
ni
Q = ( yij − y ) 2 ,
(I.8)
i =1 j =1
variabilitu příslušející vlivu, podle něhož bylo provedeno třídění hodnot y charakterizuje meziskupinový součet čtverců QM k
QM =
(I.9)
( y − y) n , i
2
i
i =1
variabilitu zbytkovou (způsobenou dalšími blíže nespecifikovanými činiteli, které ovlivňují vedle faktoru A kolísání hodnot proměnné y) pak charakterizuje reziduální součet čtverců QR
12
Metody zkoumání závislostí
Metody statistické analýzy
k
QR =
(I.10)
i =1
ni
(y
ij
− yi ) 2 .
j =1
Platí přitom vztah
Q = QM + QR.
(I.11)
V uvedených vzorcích jsou výběrové průměry i- té úrovně
yi
a celkový výběrový průměr
y vypočteny
podle vzorců
1 yi = n
(I.12)
ni
y=
yij , ,
j =1
1 k ni yij . n i =1 j =1
Testové kriterium analýzy rozptylu je konstruováno jako podíl variability meziskupinové a variability vnitroskupinové, každá z nich je dělena příslušnými stupni volnosti. Testové kriterium má tvar k
QM (n − k ) ( yi − y ) 2 ni i =1 F = k −1 = , ni k QR 2 ( yij − yi ) n − k (k − 1)
(I.13)
i =1 j =1
Testové kriterium (I.13) má rozdělení F [k-1; n-k]. Kritický obor tvoří všechny hodnoty testového kriteria, pro něž F ≥ F1-α [k-1; n-k]. Hypotézu o nezávislosti zamítáme v případě, kdy meziskupinová variabilita hodnot y je výrazně vyšší než variabilita vnitroskupinová. Výpočty analýzy rozptylu je zvykem uvádět ve formě tabulky analýzy rozptylu (viz. Tabulka I-6):
Tabulka I-6 Tabulka analýzy rozptylu Zdroj variability
Součet čtverců
Počty stupňů volnosti
Průměrné čtverce
Sledovaný faktor
QM
k-1
QM /( k-1)
Reziduální
QR
n-k
QR /(n-k)
Celkem
Q
n-1
Testové kriterium
F
Příklad I.4 Banka chce porovnat výkonnosti tří poboček z hlediska srovnatelných produktů. Každá pobočka byla testována po stejnou dobu a byl zaznamenán počet srovnatelných produktů za sledované období. Úkolem je na 5% hladině významnosti otestovat předpoklad stejné průměrné výkonnosti poboček.
Metody zkoumání závislostí 13
Bankovní institut vysoká škola
Získané hodnoty v jednotlivých pobočkách jsou: Pobočka 1
47
53
49
50
46
Pobočka 2
55
54
58
61
52
Pobočka 3
54
50
51
51
49
Nulovou a alternativní hypotézu formulujeme:
Ho : μ1 = μ2 = μ3
H1 :
(průměrné výkonnosti všech poboček jsou stejné),
průměrná výkonnost alespoň jedné z poboček je jiná.
Nejprve vypočteme potřebné skupinové průměry a celkový průměr:
y1 = (47 + 53 + 49 + 50 + 46) / 5 = 49 y2 = (55 + 54 + 58 + 61 + 52) / 5 = 56 y3 = (54 + 50 + 51 + 51 + 49) / 5 = 51 , y = ( y1 + y2 + y3 ) / 3 = (49 + 56 + 51) / 3 = 52 . Součty čtverců (podle vzorců ( I.8.), (I.9.), (I.10) jsou potom: 2
2
2
Q = (47 - 52) + (53 - 52) + ... + (49 - 52) = 224 , QM = 5((49 − 52) 2 + (56 − 52) 2 + (51 − 52) 2 ) = 130 , 2
2
2
QR = (47 - 49) + (53 - 49) + ... + (49 - 51) = 94 . Výsledky výpočtů uvedeme v tabulce analýzy rozptylu:
Tabulka I-7 Tabulka analýzy rozptylu výkonnosti poboček Zdroj variability
Testové kriterium
2
Průměrné čtverce 65
94
12
7,83
8,30
224
14
Součet čtverců
Stupně volnosti
Sledovaný faktor
130
Reziduální Celkem
Kritickou hodnotou je kvantil F1-α [k-1; n-k] = F0,95 (2; 12) = 3, 89 . Protože testová statistika F = 8,30 je větší než kritická hodnota F0,95 (2; 12) = 3, 89 , zamítáme na 5% hladině významnosti nulovou hypotézu o rovnosti výkonnosti všech poboček. Průměrné výkony poboček musí být tedy pokládány za rozdílné.
Protože výpočty analýzy rozptylu jsou výpočetně náročné (zejména při větším počtu hodnot sledovaného znaku a větším počtu tříd), lze předpokládat, že se můžete spíše setkat s výstupem analýzy z počítače. Všechny specializované statistické programové systémy analýzu rozptylu
14
Metody zkoumání závislostí
Metody statistické analýzy
(ANOVA) obsahují (ANOVA obsahuje i MS EXCEL). V tabulce I-8 uvádíme výstup ze systému SAS pro data Příkladu I.4 (výstupy ostatních počítačových systémů jsou obdobné). Tabulka I-8 Výstup analýzy rozptylu v systému SAS Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
2
130.000
65.000
8.30
0.0055
Error
12
94.000
7.833
Corrected Total
14
224.000
Počítačové programy uvádějí u testového kriteria p - hodnotu (zde označenou Pr > F). Hodnota (Pr > F) = 0,0055 je v našem příkladě menší než zvolená hladina významnosti α = 0,05, což znamená, že na 5 % hladině významnosti zamítneme nulovou hypotézu o stejné výkonnosti poboček. Závěr testu pomocí hodnoty Pr > F je samozřejmě stejný jako na základě porovnání hodnoty testového kriteria s kritickou hodnotou, jak bylo provedeno výše v Příkladě I.4.
I.3
Regresní analýza
Základní statistická metoda, která se zabývá zkoumáním závislostí mezi numerickými znaky se nazývá regresní a korelační analýza. Je to souhrn metod a postupů, které slouží k analýze vztahu středních hodnot numerické proměnné Y a hodnot druhé numerické proměnné X nebo většího počtu numerických proměnných Xi. Při zkoumání závislostí dvou znaků mluvíme o jednoduché regresní a korelační analýze. V případě zkoumání závislostí více znaků se jedná o vícenásobnou regresní a korelační analýzu (dvojnásobnou, trojnásobnou atd.). Ze začátku se omezíme pouze na nejjednodušší případ zkoumání závislosti mezi dvěma číselnými znaky – jednoduchou regresní analýzu. Budeme se zabývat nejvýznamnější formou vzájemných vztahů a souvislostí mezi dvěma číselnými znaky, kterou je příčinná (kauzální) závislost. Příčinnou závislostí se rozumí situace, kdy výskyt jednoho jevu, který označujeme jako příčina, má za následek (účinek) výskyt jiného jevu. Příčinu budeme nazývat nezávisle proměnná a označovat ji X, následek nazýváme závisle proměnná a označujeme jej Y. Mohou přitom nastat dva zcela odlišné případy. Pokud jedné hodnotě nezávisle proměnné X vždy přísluší jen jedna hodnota závisle proměnné Y, mluvíme o závislosti pevné (funkční, deterministické). S takovým typem závislosti se setkáváme např. v matematice nebo ve fyzice. Například dráha u přímočarého pohybu je rychlost násobená časem (d = v.t). Při zkoumání společenských jevů se ale s pevnou závislostí nesetkáme, neboť každý jev je spojen a ovlivňován celou skupinou jiných jevů, které mnohdy ani neumíme zjistit. Například peněžní vydání všech rodin, které mají stejný příjem, nejsou stejná. Závisí na počtu dětí a jejich stáří, způsobu bydlení, zvyklostech, nárocích atd. Jedná se o závislost volnou (statistickou, korelační), kdy jedné hodnotě jednoho znaku (tzv. nezávisle proměnné, resp. vysvětlující proměnné x) odpovídají různé hodnoty druhého znaku (závisle (vysvětlované) proměnné y). Statisticky je možné zjistit směr (průběh) této závislosti i zjistit, na kterých vlivech závisí více a na kterých méně. Při zkoumání závislostí je vhodné Metody zkoumání závislostí 15
Bankovní institut vysoká škola
pracovat s rozsáhlými statistickými soubory, protože u malých souborů se může výrazně projevit působení různých vedlejších a náhodných vlivů, které může zjištěné výsledky zkreslit. Užitečnou pomůckou při jednoduché regresní analýze (tj., když zkoumáme závislost mezi dvěma jevy) je tzv. bodový diagram (scatter plot). V tomto grafu je v pravoúhlé soustavě souřadnic znázorněna jako bod každá dvojice hodnot (xi,yi ) všech n pozorování. Na Obrázku I-1 je graf pevné závislosti a na Obrázku I-2 graf volné závislosti. Obrázek I-1 Bodový graf pevné závislosti
Obrázek I-2 Bodový graf volné závislosti
V regresní analýze se budeme zabývat zejména případem statistické (volné) závislosti. Na Obrázku I-3 a Obrázku I-4 jsou uvedeny dva různé bodové grafy (scatter plots). I samotný bodový graf nám může poskytnout základní informace o závislosti sledovaných znaků. Z bodových diagramů můžeme posoudit ♥ průběh závislosti – jak typ závislosti (lineární, nelineární), tak i směr závislosti (kladná, záporná), ♥ sílu závislosti - tj. stupeň kolísání hodnot kolem čáry vyjadřují průběh závislosti.
Obrázek I-3 Bodový graf volné přímé závislosti
Obrázek I-4 Bodový graf volné nepřímé závislosti
Na Obrázku I-3 vidíme, že se jedná o závislost přímou (kladnou), jejíž průběh můžeme popsat přímkou, na Obrázku I-4 je závislost nepřímá (záporná), vhodnou analytickou funkcí popisující 16
Metody zkoumání závislostí
Metody statistické analýzy
závislost, by zde mohla být parabola. Jak je zřejmé z obou obrázků, neliší se obě uvedené závislosti jen z hlediska průběhu závislosti, ale i z hlediska kolísání hodnot kolem čáry vyjadřující průběh závislostí – touto úlohou se budeme blíže zabývat v kapitole I.4. Při zkoumání závislostí mezi kvantitativními znaky tedy budeme řešit dva základní úkoly: 1. Vystihnout průběh závislosti, tj. zjistit tendence změny jedné proměnné Y při změnách druhé proměnné X ( tzv. regresní úkol), 2. Charakterizovat sílu (těsnost) této závislosti (korelační úkol). Shrneme-li dosud uvedené, lze uvést, že regresní analýza je souhrn metod a postupů, pomocí nichž ♠
popisujeme průběh statistické závislosti,
♠ odhadujeme hodnoty závisle proměnné Y odpovídající dané hodnotě jedné nebo více nezávisle proměnných Xi..
I.3.1
Jednoduchá (párová) regresní analýza
V celé regresní analýze budeme zásadně používat označení Y... závisle proměnná (vysvětlovaná proměnná), X... nezávisle proměnná (vysvětlující proměnná). O údajích, které jsou podkladem pro regresní analýzu se předpokládá, že byly získány náhodným výběrem. Regresní model popisující průběh závislosti mezi závisle proměnnou Y a nezávisle proměnnou X v základním souboru nazýváme teoretická (hypotetická) regresní funkce a zapíšeme jej obecně ve tvaru: (I.14) kde
Y = f (x, β0, β1 , β2 , ... , βk ) + ε,
β j jsou regresní parametry (parametry regresní funkce), j = 0,1, 2, …, k, ε je náhodná složka (je způsobena vlivy, které nezahrnuje regresní funkce).
V praxi pracujeme s experimentálními daty a teoretickou regresní funkci odhadujeme na základě výpočtů z výběrových dat. Odhadem teoretické regresní funkce je výběrová (empirická) regresní funkce, kterou napíšeme ve tvaru (I.15) kde
yˆ = f (x, b0 , b1, b2, ... , bk ) bi jsou výběrové regresní parametry (odhady regresních parametrů βi ),
Rozdíl mezi empirickou hodnotou a odpovídající teoretickou hodnotou ležící na výběrové regresní funkci označujeme e a nazýváme ho reziduum. Reziduum je tedy odhadem náhodné složky a vypočteme je podle vztahu Metody zkoumání závislostí 17
Bankovní institut vysoká škola
ei = yi − yˆ i .
(I.16)
U "klasického regresního modelu" předpokládáme, že rezidua (náhodné chyby) mají normální rozdělení s nulovou střední hodnotou a konstantním rozptylem a jsou vzájemně nekorelovaná.
Postup (kroky) regresní analýzy: 1. volba typu regresní funkce (nalezení regresního modelu), 2. odhad parametrů regresního modelu, 3. testování hypotéz o těchto parametrech (ověření významnosti parametrů regresního modelu), 4. ověření vhodnosti zvoleného regresního modelu (posouzení kvality regresního modelu). Jednotlivé kroky regresní analýzy postupně probereme podrobněji.
I.3.1.1
Volba typu regresní funkce (nalezení regresního modelu)
Úkolem je nalézt vhodnou analytickou funkci, která nejlépe vystihne průběh závislosti závisle proměnné Y na nezávisle proměnné X. Vhodnou analytickou funkci volíme na základě: ♣ věcně-logického rozboru zkoumaných závislostí, ♣ grafického znázornění (bodového diagramu) – viz např. Obrázek I-3 a I-4, ♣ pomocí matematicko-statistických kriterií, s nimiž se seznámíme v kapitole I.3.1.5. Při volbě regresní funkce platí zásada, že se snažíme k popisu závislosti použít pokud možno jednodušší funkci, která vyhovuje z hlediska uvedených kriterií (tzv. "princip parsimonie").
I.3.1.2
Odhad parametrů regresního modelu
Regresní funkce, kterými můžeme popsat závislost dvou numerických proměnných, můžeme rozdělit do dvou základních skupin, na nichž potom také závisí použitá metoda odhadu parametrů regresní funkce:
♣ funkce lineární v parametrech (někdy se používá název funkce lineární z hlediska parametrů), ♣ funkce nelineární v parametrech. Funkce lineární v parametrech jsou všechny funkce, které lze obecně vyjádřit ve tvaru (I.17)
Y = β0 + β1 f1(x) + β2 f2(x) + ...+ βk fk(x) + ε.
Kde funkce f(x) nazýváme regresory.
18
Metody zkoumání závislostí
Metody statistické analýzy
Mezi funkce lineární v parametrech patří například: přímka
Y = β0 + β1 x
parabola
Y = β0 + β1 x + β2 x 2
polynomická funkce
Y = β0 + β1 x + β2 x2 + ...+ β k xk
hyperbola
Y = β0 + β1 / x
logaritmická funkce
Y = β0 + β1 log x.
Funkce nelineární v parametrech jsou všechny regresní funkce, které nelze vyjádřit ve tvaru (I.17). Patří sem například: exponenciální funkce
Y = β 0 β 1 x,
mocninná funkce
Y = β0 xβ1.
různé druhy S-křivek (např. logistická funkce).
Základní metoda odvození parametrů regresních modelů lineárních v parametrech je metoda nejmenších čtverců (MNČ). MNČ si vysvětlíme na nejjednodušším případě, kterým je přímková regrese. Teoretickou regresní přímku vyjádříme ve tvaru (I.18)
Y = β0 + β1 x,
její odhad - výběrová regresní přímka - má zápis (I.19)
yˆ = b0 + b1 x.
Cílem MNČ je najít přímku, která nejlépe popisuje průběh závislosti, tj. přímku, která je zjištěným (empirickým) hodnotám nejblíže. Pro takovou přímku musí být součet rozdílu empirických a modelových hodnot (tj. součet reziduí) roven nule. Toto ale je podmínkou nutnou, ale ne postačující, proto musíme přidat další podmínku, kterou je, aby součet čtverců rozdílu empirických a modelových hodnot (tj. součet čtverců reziduí) byl minimální:
(I.20)
n
n
i =1
i =1
S = ( yi − yˆi ) 2 = ei2 = min.
Dosadíme- li do vztahu (I.20) rovnici přímky, dostaneme výraz S ve tvaru n
(I.21)
S = ( yi − b0 − b1 xi ) 2 = min. i =1
Vycházíme-li při odhadu parametrů regresní přímky ze vztahu (I.21), říkáme, že se jedná o parametry odvozené metodou nejmenších čtverců.
Metody zkoumání závislostí 19
Bankovní institut vysoká škola
Matematicky vyjádřeno, jedná se o nalezení extrému funkce dvou proměnných. Tuto úlohu řešíme tak, že rovnici (I.21) parciálně zderivujeme podle obou hledaných parametrů b0 a b1 a derivace položíme rovny nule: n
dS = 2 ( yi − b0 − b1 xi ).(−1) = 0 db0 i =1
(I.22) n
dS = 2 ( yi − b0 − b1 xi ).(− xi ) = 0 db1 i =1
Po úpravě této soustavy dvou rovnic dostaneme tzv. normální rovnice ve tvaru: n
y
i
(I.23)
i =1
n
= nb0 + b1 xi i =1
n
y x
i i
i =1
n
n
i =1
i =1
= b0 xi + b1 xi2
a z nich vypočteme hledané parametry regresní přímky b0 a b1 . Nejdříve uvedeme tvar pro výpočet parametru b1 , který označujeme byx a nazýváme jej výběrový regresní koeficient. Parametr byx je směrnicí výběrové regresní přímky (tzn., vyjadřuje průměrnou změnu závisle proměnné Y při jednotkové změně nezávisle proměnné X). Je-li hodnota regresního koeficientu kladná, jedná se o kladnou (přímou) závislost mezi Y a X, tj., s růstem hodnot x mají hodnoty závisle proměnné y rostoucí tendenci. Je-li hodnota regresního koeficientu záporná, jedná se o zápornou (nepřímou) závislost obou sledovaných proměnných.
(I.24)
b1 = byx =
n
n
i =1
i =1
n
n yi xi − xi
y
i
i =1
n n x − xi i =1 i =1 n
2
2 i
Vzorec pro výpočet regresního koeficientu (I.24) lze upravit do tvaru
(I.25)
byx =
xy - x y x2 - x 2
Kde výraz v čitateli je tzv. výběrová kovariance označovaná sxy , s níž se budeme dále zabývat v kapitole I.4.1, ve jmenovateli je rozptyl vysvětlující proměnné s2x.. Parametr b0 je absolutní člen přímky a je to bod, v němž regresní přímka protíná svislou osu y. V ekonomických úlohách často parametr b0 nemá interpretační smysl.
(I.26)
b0 =
n
n
i =1
i =1 n
Metody zkoumání závislostí
i =1 n
n x − ( xi ) i =1
20
n
n
yi xi2 − yi xi xi 2 i
i =1
i =1
2
.
Metody statistické analýzy
Jednodušeji lze parametr b0 vypočítat pomocí vztahu: (I.27)
b0 = y − b yx x .
.
Výpočet parametrů byx a b0 z neuspořádaných údajů (tj. dvojic hodnot (xi, yi ) u všech n zjištěných jednotek) je i bez použití speciálního statistického programu poměrně jednoduchý, lze s výhodou využít i jakýkoliv tabulkový kalkulátor (např. MS EXCEL), neboť stačí vypočítat výrazy: xi,, yi , xi 2, xi yi:, jak je vidět z Tabulky I-9. Tabulka I-9 Výpočet regresních parametrů xi
yi
xi2
xi yi
x1
y1
x12
x1 y1
x2
y2
2 2
x
x2 y2
.. ..
.. ..
.. ..
.. ..
xn
yn
xn2
xi
xn yn 2 i
x
yi
xi y i
Protože v regresní analýze odhadujeme parametry teoretické regresní přímky pomocí výběrových regresních parametrů, jsou vypočítané parametry b0 a byx
bodové odhady parametrů β0 a β1
teoretického regresního modelu. Důležitou vlastností parametrů odvozených metodou nejmenších čtverců je, že se jedná o odhady nevychýlené (nezkreslené), platí tedy
(I.28)
est β0 = b0
E(b0) = β 0
est β1 = byx
E(byx) = β1
Pokud jsou parametry b0 a byx nezkreslené (nevychýlené) odhady, potom také výběrová regresní přímka je nezkresleným odhadem teoretické regresní přímky. K posouzení přesnosti provedených regresních odhadů, potřebujeme znát rozptyl reziduí D(ε) = σ2. Jeho nezkresleným odhadem je reziduální rozptyl s2 n
(I.29)
s2 =
(y
i
n
− yˆi ) 2
i =1
n− p
=
e
2 i
i =1
n− p
,
kde p je počet parametrů regresní funkce (pro přímku je p = 2). Pro přímku je reziduální rozptyl dán vzorcem: n
(y
i
(I.30)
s2 =
− yˆi ) 2
i =1
n−2
.
Přesnost odhadů výběrových regresních parametrů b0 a byx (jsou to nevychýlené odhady) měříme směrodatnými chybami jejich odhadů, tj.
sbo , sbyx . Vzorce lze nalézt ve specielní literatuře (např. v [8], Metody zkoumání závislostí 21
Bankovní institut vysoká škola
[9] nebo v [11] ), všechny statistické počítačové programy je automaticky počítají. Zde si pouze uvedeme, že směrodatné chyby odhadů regresních parametrů jsou násobky reziduálního rozptylu s2 (závisí tedy na čtverci odchylek zjištěných hodnot od modelu, z čehož plyne, že u modelu, kde původní hodnoty mají velkou variabilitu, i rezidua mohou být velká a odhad parametrů regresního modelu bude málo přesný). Lze rovněž vypočítat intervalové odhady parametrů regresního modelu (princip intervalových odhadů regresních parametrů je stejný jako v případě odhadů parametrů polohy základního souboru popsaný ve skriptech Pravděpodobnost a statistika, kapitola IV.2). ´Při zvolené spolehlivosti 1-α jsou dvoustranné intervaly spolehlivosti pro regresní parametry vymezeny nerovnostmi:
P (b0 − t1−α
(I.31)
sbo ≤ β 0 ≤ b0 + t1−α
2
P (b yx − t1−α
2
2
sb yx ≤ β1 ≤ b yx + t1−α
sbo ) = 1 − α 2
sbyx ) = 1 − α
Intervalové odhady vyrovnaných hodnot (tj., hodnot ležících na regresní čáře popisující průběh závislosti) pak stanovíme podle vztahu
P ( yˆ i − t1−α / 2 s yi ≤ Yi ≤ yˆ i + t1−α / 2 s yi ) = 1 − α .
(I.32)
Interval spolehlivosti pro odhad hodnot regresní přímky není ve všech bodech na regresní přímce stejně široký. Nejužší je v bodě se souřadnicemi [ x ; y ]. Tento poznatek má praktické uplatnění v tom, že odhad hodnot nezávisle proměnné Y pomocí vypočtené regresní přímky bude přesnější pro hodnoty v okolí průměrné hodnoty nezávisle proměnné X, čím více se od průměru x vzdalujeme, tím bude vypočtený interval spolehlivosti pro hodnotu y širší, tudíž odhad méně přesný. Dosazením libovolné další hodnoty nezávisle proměnné x do vypočtené regresní rovnice, získáme regresní predikce pro různé hodnoty nezávisle proměnné x. Intervaly spolehlivosti regresní predikce budou opět tím přesnější, čím je vypočtená regresní závislost těsnější (tzn, čím je vyšší hodnota korelačního koeficientu (resp. indexu determinace)) a čím je hodnota nezávisle proměnné x bližší průměru x . Predikční intervaly jsou vždy širší než intervalové odhady pro hodnoty ležící na regresní křivce. Kvantily Studentova rozdělení ve vzorcích (I.30) a (I.31) pro výpočet intervalů spolehlivosti mají obecně [n − p] stupňů volnosti, tedy pro přímkovou regresi bereme kvantily t [n − 2].
I.3.1.3
Testy hypotéz o parametrech regresní funkce
Nejčastěji používaným testem, který používají i počítačové programy regresní analýzy, je test o nulové hodnotě regresního parametru s nulovou hypotézou: Ho : β j = 0.
j = 0,1,2,…,k
Je používána oboustranná alternativní hypotéza H1 : β j ≠ 0. Testové kriterium má tvar
(I.33)
22
Metody zkoumání závislostí
t=
bj sbj
.
Metody statistické analýzy
Testové kriterium (I.33) má Studentovo rozdělení s [n − p]
stupni volnosti. Pro případ přímkové
regrese tvoří kritický obor hodnoty testového kriteria t ≤ tα /2 [n − 2] a t ≥ t1-α /2[n − 2]. Test o nulové hodnotě parametru β1 je testem lineární nezávislosti mezi oběma proměnnými, neboť v případě nezamítnutí testované hypotézy Ho : β1 = 0 nezamítáme předpoklad, že směrnice teoretické regresní přímky je nulová, tj. předpoklad, že přímka je rovnoběžná s osou x. Jinými slovy tento předpoklad říká, že Y je nezávislé na X, neboť pro různé hodnoty x jsou hodnoty y stále stejné. • Zamítnutí hypotézy o nulové hodnotě regresního parametru β1 znamená přijetí předpokladu, že střední hodnota vysvětlované proměnné Y se změní o konstantu byx při jednotkové změně nezávisle proměnné X. • Zamítnutí hypotézy o nulové hodnotě regresního parametru β0 znamená přijetí předpokladu, že regresní přímka neprochází počátkem (nulou). Protože výpočet směrodatných chyb potřebných pro výpočet testového kriteria t je výpočetně náročný, uvádíme pouze výstup z počítače i s uvedením interpretace získaných výsledků. Interpretace v počítačových programových paketech: Počítačové programy u každého testu uvádějí hladinu významnosti, na níž je test významný tzv. p hodnotu (p - value, resp. significance level). Pokud je p - value ≤ α, znamená to zamítnutí testované hypotézy o nulové hodnotě parametru, tzn. potvrzení významnosti regresního parametru.
Příklad I-5. Tabulka I-10 obsahuje údaje o stáří a ceně 10 ojetých aut. Zkonstruujte model závislosti ceny (v tis. Kč) Y na stáří (v letech) X a odhadněte cenu auta starého 10 let. Tabulka I-10 Data a výpočty pro regresní analýzu
i
xi
yi
xi2
yi2
xi.yi
1 2 3 4 5 6 7 8 9 10
3 4 5 6 7 7 8 8 9 9 66
167 165 139 149 119 129 89 115 76 89 1237
9 16 25 36 49 49 64 64 81 81 474
27889 27225 19321 22201 14161 16641 7921 13225 5776 7921 162281
501 660 695 894 833 903 712 920 684 801 7603
∑
Na Obrázku I-5 je uveden bodový graf závislosti ceny na stáří automobilu. Z grafu je patrné, že závislost je nepřímá a přímka zřejmě může být vhodným regresním modelem sledované závislosti.
Metody zkoumání závislostí 23
Bankovní institut vysoká škola
Obrázek I-5
Bodový diagram závislosti ceny a stáří souboru automobilů
Výpočty provedeme “ručně” a porovnáme s výpočty ze statistického software SAS. Výpočet parametrů regresní přímky podle vzorců ( I.24) a (I.27):
byx =
n
n
n
i =1
i =1
i =1
n yi xi − xi yi n n n xi2 − xi i =1 i =1
b0 = y - byx x = Rovnice
2
=
10.7603 − 66.1237 = −14,615 . 10.474 − 662
1237 66 + 14, 615 = 220, 156 10 10
regresní
přímky
závislosti
ceny
ojetého
auta
na
stáří
auta
má
tedy
tvar
yˆ = 220,156 − 14, 615 x . Regresní koeficient byx= −14,615 můžeme interpretovat tak, že každý rok cena ojetého auta průměrně klesá o 14615 Kč. Absolutní člen odpovídá průměrné ceně nového auta (tzn, ve stáří nula). V tabulce I-11 je uveden výstup tohoto příkladu z počítače: Tabulka I-11 Výstup z počítače (SAS): Parameter Estimates Variable
DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
220.15625
12.80329
17.20
<.0001
Stari
1
-14.61458
1.85966
-7.86
<.0001
Ve výstupu z PC v řádku Intercept vidíme hodnotu absolutního členu 220,156, v řádku Stari hodnotu regresního koeficientu (-14,615). Pro výpočet hodnot testového kriteria t testujícího významnost jednotlivých parametrů použijeme vypočtené hodnoty směrodatných odchylek odhadů regresních parametrů (sloupec Standard Error).
24
Metody zkoumání závislostí
Metody statistické analýzy
Dílčí t-testy vypočteme podle vzorce (I.33):
220,156 = 17, 20 12,803 −14, 615 t= = −7.86 1,8597 t=
Hodnotu testového kriteria t porovnáme s kritickými hodnotami t0,975 (8) = 2,306 ,. t0,025 (8) = −2, 306 . V obou případech je hodnota testového kriteria menší než kritická hodnota při uvažované hladině významnosti α = 0,05. V obou případech tedy zamítáme hypotézu o nulové hodnotě parametru. Stejný závěr můžeme udělat přímo z vypočtené hodnoty testového kriteria t uvedené v Tabulce I-11 ve sloupci t Value a z p – hodnoty (Pr > │t │), která má v obou případech hodnotu menší než 0,05. Odhad ceny auta starého 10 let vypočítáme dosazením hodnoty x = 10 do vypočítané regresní rovnice:
yˆ = 220,156 − 14, 615.10 = 74, 010 .
Příklad I.6 Agentura zabývající se potravinářským trhem provedla průzkum ve vybraných obchodech v Praze. Pro náš příklad bylo náhodně vybráno 30 obchodů a sledované znaky: počet prodaných kusů litrových ananasových džusů balených v obalech Tetra-Pak, cena za jeden litr a velikostní kategorie obchodu (1 - hypermarket, ...,6 - večerka). Úkolem průzkumu bylo posoudit na 5% hladině významnosti, zda počet prodaných kusů závisí na ceně a na velikosti obchodu. Data získaná v průzkumu jsou uvedena v Tabulce I-12. V této části úlohy se zaměříme pouze na popsání závislosti mezi počtem prodaných kusů a cenou (příklad bude pokračovat v kapitole I.4, Příklad I.9). Závisle proměnnou (vysvětlovanou proměnnou) Y je počet kusů, vysvětlující (nezávisle proměnnou) X je cena. Na Obrázku I-6 je zobrazen bodový graf závislosti počtu prodaných kusů na ceně.
Metody zkoumání závislostí 25
Bankovní institut vysoká škola
Tabulka I-12 Data z průzkumu ve 30 prodejnách Obchod 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Prodej Kusů 33 21 12 38 19 28 26 7 2 6 15 18 2 5 37 26 29 19 4 27 31 19 32 18 9 5 8 1 4 30
Velikost obchodu 3 2 3 2 3 3 2 6 5 2 3 1 4 6 1 1 1 2 4 2 3 2 1 3 3 2 3 4 2 1
Cena 38 40 42,5 36,5 40 38 38 43,5 50 45 40 40 55 45 36,5 38 38 38 42 38 38 39,5 36,5 39,5 42,5 45 42 55 45 38
Obrázek I-6 Bodový diagram závislosti počtu prodaných kusů na ceně
Bodovy diagram
Prodej_kusu
40 30 20 10 0
36,5
38
39,5
40
42
42,5
43,5
45
50
55
Cena Z Obrázku I-6 je zřejmé, že závislost je nepřímá, jako vhodná regresní funkce by mohla přicházet v úvahu i závislost přímková. Potřebné výpočty pro výpočet regresní přímky uvádí Tabulka I-13 26
Metody zkoumání závislostí
Metody statistické analýzy
Tabulka I-13 Výpočetní tabulka i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Celkem
yi 33 21 12 38 19 28 26 7 2 6 15 18 2 5 37 26 29 19 4 27 31 19 32 18 9 5 8 1 4 30 531
xi 38 40 42,5 36,5 40 38 38 43,5 50 45 40 40 55 45 36,5 38 38 38 42 38 38 39,5 36,5 39,5 42,5 45 42 55 45 38 1243
xi yi 1254 840 510 1387 760 1064 988 304,5 100 270 600 720 110 225 1350,5 988 1102 722 168 1026 1178 750,5 1168 711 382,5 225 336 55 180 1140 20615
xi2 1444 1600 1806,25 1332,25 1600 1444 1444 1892,25 2500 2025 1600 1600 3025 2025 1332,25 1444 1444 1444 1764 1444 1444 1560,25 1332,25 1560,25 1806,25 2025 1764 3025 2025 1444 52196
Parametry regresní přímky vypočítáme podle vzorců (I.24) a (I.27):
byx =
n
n
i =1
i =1
n yi xi − xi
n
y
i
i =1
n xi2 − xi i =1 i =1 n
b0 = y − b yx x =
n
2
=
30.20615 − 1243. 531 = −1, 9962 . 30.52196 − 12432
1243 531 − (−1,996) = 100,41. 30 30
.Rovnice regresní přímky popisující závislost mezi počtem prodaných kusů a cenou tedy má tvar
yˆ = 100,41 -1,996 x.
Metody zkoumání závislostí 27
Bankovní institut vysoká škola
Regresní koeficient byx = −1,996 můžeme interpretovat tak, že s růstem ceny o 1 Kč, dochází v průměru k poklesu prodaných kusů o 2. Pro porovnání uvádíme v tabulce I-14 výstupní tabulku regresní analýzy z počítačového statistického programu STATGRAPHICS.
Tabulka I-14 Výstupní tabulka regresní analýzy z PC Regression Analysis - Linear model: Y = a + b*X ----------------------------------------------------------------------------Dependent variable: Pocet_kusu Independent variable: Cena ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept 100,41 10,3167 9,73272 0,0000 Slope -1,99621 0,247333 -8,07092 0,0000 -----------------------------------------------------------------------------
Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 2766,94 1 2766,94 65,14 0,0000 Residual 1189,36 28 42,477 ----------------------------------------------------------------------------Total (Corr.) 3956,3 29 Correlation Coefficient = -0,836287 R-squared = 69,9377 percent Standard Error of Est. = 6,51744
V Tabulce I-14 jsou ve sloupci Estimate vypočtené regresní koeficienty, Standard Error jsou směrodatné odchylky regresních parametrů, ve sloupci T-Statistic je proveden výpočet testu významnosti obou regresních parametrů podle vzorce (I.26). Při „ručním“ výpočtu bychom hodnotu testového kriteria porovnávali s kritickou hodnotou t1-α /2 (n − 2) = t0,975 (28) = 2,048. U obou parametrů je hodnota testového kriteria v kritickém oboru, zamítáme hypotézu o nulové hodnotě regresních parametrů. Počítačový výstup u obou parametrů uvádí hodnoty P-Value menší než hladina významnosti α = 0,05, zamítáme tedy hypotézu o nulové hodnotě regresních parametrů. Tento závěr je samozřejmě stejný jako při porovnání testového kriteria t s kritickou hodnotou. Důležitý je i závěr o zamítnutí nulové hodnoty zejména u regresního koeficientu, neboť nám dovoluje interpretovat regresní koeficient jako průměrnou změnu závisle proměnné při jednotkové změně nezávisle proměnné. Poznámka: význam a interpretaci pojmů a údajů v dolní části výstupu a údajů pod tabulkou si vysvětlíme u Příkladu I-9.
I.3.1.4
Nelineární regresní funkce
Pokud použijeme nelineární funkci (z hlediska průběhu), která je funkcí lineární v parametrech, pak k odhadu parametrů používáme také metodu nejmenších čtverců..
28
Metody zkoumání závislostí
Metody statistické analýzy
Často používanou nelineární regresní funkcí je parabola. Potom mluvíme o parabolické regresi. Teoretická regresní parabola a její odhad – výběrová regresní parabola – mají tvar: (I.34)
Y = β0 + β1 x + β2 x 2
(I.35)
yˆ = b0 + b1 x +b2 x2.
Parametry regresní paraboly odvodíme opět MNČ: n
(I.36)
S = ( yi − b0 − b1 xi − b2 xi2 ) 2 = min. i =1
Protože funkce má tři parametry, musíme pro odvození parametrů regresní paraboly spočítat parciální derivace podle všech tří parametrů a položit je rovny nule: (I.37)
dS = 0; db0
dS = 0; db1
dS = 0; db2
Po úpravách získáme soustavu normálních rovnic ve tvaru: yi = nb0 + b1 xi + b2 xi2 (I.38)
yi xi = b0 xi + b1 xi2 + b2 xi3 yi xi2 = b0 xi2 + b1 xi3 + b2 xi4
jejímž řešením jsou odhady parametrů b0 , b1 ,b2 .
Regresní modely nelineární vzhledem k parametrům mohou být v některých případech převedeny na lineární modely pomocí vhodné transformace a odhady jejich parametrů lze získat MNČ, anebo musí být řešeny některou numerickou metodou (viz např. [8]). Postup odhadu parametrů funkcí nelineárních v parametrech: 1. Najdeme vhodný tzv. počáteční odhad, 2. Počáteční odhad postupně zlepšujeme iteračními postupy tak dlouho, až dostaneme odhad s požadovanou přesností. ad 1. Metod počátečních odhadů existuje celá řada, uvedeme alespoň některé z nich: ♥ metoda linearizující transformace, ♥ metoda apriorní informace, ♥ metoda vybraných bodů.
Metody zkoumání závislostí 29
Bankovní institut vysoká škola
Metoda linearizující transformace Model s nelineární regresní funkcí (funkcí nelineární v parametrech) převedeme vhodnou transformací na model lineární a odhady jeho parametrů získáme MNČ. Například nelineární exponenciální funkci Y = β0 β1 x
(I.39)
převedeme na funkci lineární v parametrech zlogaritmováním: log Y = log β0 + x log β1.
(I.40) Pro linearizaci funkce
1 b 0 + b 1x
Y =
(I.41)
můžeme použít převrácené hodnoty
1
(I.42)
Y
= b 0 + b 1x .
Metoda apriorní informace Jako počáteční odhady použijeme hodnoty parametrů doporučované ekonomickou teorií nebo hodnoty známé z předchozího šetření (výpočtu). Metoda vybraných bodů Vybereme tolik bodů (dvojic hodnot (xi ,yi,)) kolik parametrů má zvolená regresní funkce. Souřadnice těchto bodů (hodnoty dvojic (xi,yi)) dosadíme do rovnice regresní funkce. Získáme tím soustavu nelineárních rovnic, jejichž řešením jsou hledané počáteční odhady parametrů zvolené regresní funkce. Ad 2 Metody postupného zlepšování počátečních odhadů používají iterační postupy např. Gauss-Newtonův, Marquardtův apod. Princip postupného zlepšování spočívá v tom, že v každém kroku se počítá součet čtverců reziduí n
n
i =1
i =1
S = ( yi − yˆi ) 2 = ei2 ,
(I.43)
postup končí, když rozdíl součtu čtverců reziduí v následujícím kroku se od předchozího liší jen nevýznamně málo (např. na 5. desetinném místě) Si − Si-1 < ε.
(I.44)
I.3.1.5
Posouzení kvality regresní funkce
Regresní funkce je tím vhodnější, čím jsou napozorované hodnoty více soustředěny kolem regresní křivky popisující průběh závislosti. 30
Metody zkoumání závislostí
Metody statistické analýzy
Označíme-li yi empirické (zjištěné) hodnoty závisle proměnné Y,
yˆ i vyrovnané hodnoty (hodnoty ležící na regresní křivce), pak pomocí empirických a vyrovnaných hodnot lze konstruovat tři různé součty čtverců odchylek s různou vypovídací schopností: celkový součet čtverců (který charakterizuje celkovou variabilitu)
Q=
(I.45)
n
(y
i
− y)2
i =1
teoretický součet čtverců charakterizuje část variability závisle proměnné Y zachycenou regresní funkcí n
QT =
(I.46)
( yˆ − y )
2
,
i =1
reziduální součet čtverců charakterizuje část variability závisle proměnné Y, kterou nelze vysvětlit regresní funkcí
QR =
(I.47)
n
(y
i
− yˆ i ) 2 .
i =1
Přitom platí
I.3.1.6
(I.48)
Q = QT + QR .
I.3.1.7
Jako míry vhodnosti regresní funkce lze použít celou řadu kritérií založených na uvedených rozptylech a kvalitu modelu pak posoudit souborně podle všech kriterií.
♦ Reziduální rozptyl n
(I.49)
s R2 =
QR = n− p
(y
i
− yˆ i ) 2
i =1
n− p
.
Vhodná je regresní funkce, která má nejmenší reziduální rozptyl. ♦ Determinační index (index determinace), který je konstruován jako poměr teoretického součtu čtverců a celkového součtu čtverců:
Metody zkoumání závislostí 31
Bankovní institut vysoká škola
n
I2 =
(I.50)
QT = Q
( yˆ
i
i =1 n
(y
− y) 2 .
i
− y)
2
i =1
Protože se jedná o podíl jedné části rozptylu na celku, může index determinace nabývat pouze hodnot v intervalu < 0;1 >. Index determinace vyjádřený v % udává, jakou část rozptylu závisle proměnné Y lze vysvětlit zvolenou regresní funkcí. Pokud se blíží hodnota I2 jedné, lze usuzovat, že byla použita vhodná regresní funkce a že mezi Y a X existuje silná závislost. Pokud se blíží hodnota I2 nule, pak usuzujeme buď, že byla použita nevhodná regresní funkce nebo že mezi Y a X existuje jen slabá závislost. Index determinace se někdy používá i k charakterizování síly závislosti mezi proměnnými Y a X: ♣ pokud je jeho hodnota vysoká (blízká jedné), lze usuzovat na silnou závislost, ♣ z nízké hodnoty indexu determinace ale nelze usuzovat, že mezi Y a X neexistuje závislost, neboť může existovat, ale jiného typu než byla použitá regresní funkce. Za vhodnější bereme takovou funkci, která má vyšší index determinace. Při výběru vhodné regresní funkce z několika funkcí s různým počtem parametrů je nutno si uvědomit, že velikost indexu determinace závisí na počtu parametrů regresní funkce (roste s počtem parametrů). V takovém případě se pro posouzení, která funkce je vhodnější, používá upravený (modifikovaný) index determinace (v počítačích označený adjusted R - squared), který penalizuje složitost funkce vyjádřenou počtem parametrů: 2 I upr = 1 − (1 − I 2
(I.51)
n −1 . n− p
♦ "Významnost" regresních koeficientů ověřená dílčími t - testy o nulových hodnotách regresních koeficientů (H0 : β j = 0 ):
t=
(I.52)
bj sbj
,
t (n-p) .
Za vhodnou bereme regresní funkci, která má významné regresní parametry (tj., zamítneme hypotézu o nulové hodnotě regresních parametrů). ♦ Celkový F – test testuje nulovou hypotézu: H0 : β0 = c,
β1 = β2 = .... = βk = 0. H1 : alespoň jeden z parametrů β1, β2,.... ,βk není nulový.
32
Metody zkoumání závislostí
Metody statistické analýzy
Testové kriterium celkového F - testu má tvar:
(I.53)
QT p −1 . F= QR n− p
F [(p-1); (n-p)]
Kritický obor tvoří hodnoty testového kriteria F ≥ F1-α [(p-1);(n-p)]. Vede-li celkový F - test k nezamítnutí hypotézy H0 (říkáme, že test je nevýznamný), je zvolená regresní funkce nevhodná. V tomto případě už nemá smysl provádět dílčí t - testy. Je-li celkový F- test významný, nelze ještě usuzovat, že byla zvolena vhodná regresní funkce. Tento závěr je oprávněný, jestliže i dílčí t - testy jsou významné.
Příklad I.7 Pro údaje Příkladu I.6 posuďte, jestli existuje vhodnější regresní funkce než přímka, kterou jsme použili v Příkladu I.6. Vhodnou funkci vybereme podle výše procenta rozptylu závisle proměnné Y, který můžeme vysvětlit vlivem nezávisle proměnné X při použití dané regresní funkce, tj. pomocí velikosti indexů determinace (v počítačích označené R - squared). Výpočty indexu determinace pro některé regresní funkce uvádí Tabulka I-15. Tabulka I-15 Porovnání regresních modelů pomocí indexu determinace Model
R-squared
S-curve
93,52
Multiplicative
92,46
Exponential
90,56
Linear
69,94
Z tabulky I-15 je zřejmé, že vhodnější regresní funkcí by mohla být např. S - křivka, pomocí této regresní závislosti by bylo možno vysvětlit 93,52 % rozptylu počtu prodaných kusů, zatímco pomocí přímkového modelu pouze 69,94 % . Na Obrázku I-7 je uveden graf závislosti s regresním modelem s S - křivkou, tabulka I-16 obsahuje výstupní tabulku modelu s použitím regresní S - křivky.
Metody zkoumání závislostí 33
Bankovní institut vysoká škola
Obrázek I-7 Regresní S-křivka závislosti počtu prodaných kusů na ceně
40
Pocet_kusu
30 20 10 0 36
40
44
48
52
56
Cena
Tabulka I-16
Výstupní tabulka – regresní model S-křivka
Regression Analysis - S-curve model: Y = exp(a + b/X) ----------------------------------------------------------------------------Dependent variable: Pocet_kusu Independent variable: Cena ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------Intercept -6,7948 0,465906 -14,5841 0,0000 Slope 381,723 18,9824 20,1093 0,0000 -----------------------------------------------------------------------------
Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 26,6595 1 26,6595 404,39 0,0000 Residual 1,84593 28 0,065926 ----------------------------------------------------------------------------Total (Corr.) 28,5054 29 Correlation Coefficient = 0,96708 R-squared = 93,5243 percent Standard Error of Est. = 0,256761
Regresní model (S-křivku) nyní zapíšeme ve tvaru
I.4
yˆ = exp(−6,7948 +
381,723 ). x
Korelační analýza
Korelační analýza je základní statistickou metodou měření síly (těsnosti) lineárních závislostí numerických proměnných. Silou (těsností) závislosti rozumíme stupeň, s nímž se závislost blíží funkční závislosti. Jinými slovy, závislost je tím silnější, čím více jsou jednotlivé napozorované hodnoty blíže regresní čáře popisující průběh závislosti.
34
Metody zkoumání závislostí
Metody statistické analýzy
Při korelační analýze předpokládáme, že všechna napozorovaná data jsou hodnotami vícerozměrné náhodné veličiny, tedy při uvažování dvojic hodnot předpokládáme, že jsou hodnotami dvourozměrné proměnné apod. Na rozdíl od regresní analýzy může v korelační analýze kterákoliv z uvažovaných proměnných vystupovat jako závisle proměnná a ostatní jako nezávisle proměnné, neboť mezi proměnnými existuje tzv. vzájemná závislost.
I.4.1
Jednoduchá (párová) korelace
V nejjednodušším (a nejčastějším) případě závislosti dvou číselných proměnných Y a X má smysl sledovat regresní vztahy:
(I.54)
Y = β 0 + β1 x
yˆ = b0 + b yx x
X = β 0 + β1 y
xˆ = a 0 + bxy y
Přímky (I.54) se nazývají sdružené regresní přímky a jejich směrnice byx , bxy jsou sdružené regresní koeficienty. Vzájemná poloha sdružených regresních přímek charakterizuje těsnost závislosti mezi oběma proměnnými. Použitím MNČ odvodíme regresní koeficienty sdružených regresních přímek ve tvaru: n
n b yx =
y i xi −
i =1
i =1
y
(I.55)
bxy =
n
y i xi −
i =1
n
n
i =1
i
i =1
n xi2 − xi i =1
n
n
n
xi
i =1
n
n
n
2
=
2
x −x
2
=
s xy s x2
.
n
y xi
i =1
yi2 −
xy − x. y
n
i =1
i =1
yi
2
i
=
xy − x . y y2 − y2
=
s xy s 2y
.
Absolutní členy sdružených regresních přímek vypočítáme pomocí vztahů: (I.56)
b0 = y - byx x a 0 = x - bxyy
Sílu závislosti dvou proměnných lze posoudit pomocí tzv. kovariance sxy = syx= cov(x,y):
Metody zkoumání závislostí 35
Bankovní institut vysoká škola
n
( x − x ).( y − y ) i
s xy =
(I.57)
i
i =1
n
= xy − x. y .
Kovariance může nabývat kladných i záporných hodnot a její znaménko určuje směr závislosti. Základní mírou síly (těsnost) lineární závislosti dvou proměnných je párový korelační koeficient ryx, který je definován jako poměr kovariance syx a součinu směrodatných odchylek obou proměnných sx a sy :
ryx =
(I.58)
sxy = s xs y
xy - x .y (x 2 - x 2 )(y2 - y 2 )
.
Korelační koeficient může nabývat hodnot v intervalu < -1; 1 >. Znaménko korelačního koeficientu vyjadřuje směr závislosti: ryx > 0 kladná závislost
ryx = 1
ryx < 0 záporná závislost
ryx = -1 pevná (funkční) nepřímá lineární závislost.
pevná (funkční) přímá lineární závislost
Zvláštní případ představuje hodnota korelačního koeficientu ryx = 0, kdy se jedná o lineární nezávislost.
Čtverec korelačního koeficientu se nazývá koeficient determinace. Tato míra těsnosti závislosti je rovna součinu obou sdružených regresních koeficientů:
ryx2 =
(I.59)
s xys xy s x2sy2
= byxbxy .
Ze vztahu (I.59) lze odvodit další vzorec pro výpočet korelačního koeficientu, pokud známe rovnice obou sdružených regresních přímek:
ryx = rxy = ± b yx bxy .
(I.60)
V tomto případě výpočtu musíme znaménko korelačnímu koeficientu přiřadit dodatečně podle následujícího schématu: Tabulka I-17 Vztah mezi sdruženými regresními koeficienty a korelačním koeficientem Sdružené regresní koeficienty
byx + -
bxy + -
Korelační koeficient
rxy + -
Poznámka: různá znaménka sdružených regresních koeficientů nejsou možná. 36
Metody zkoumání závislostí
Metody statistické analýzy
Při interpretaci výše korelačního koeficientu si vždy musíme uvědomit, že je mírou těsnosti lineární závislosti: - je-li korelační koeficient ryx vypočítaný z výběrových dat blízký ±1, jedná se o silnou lineární závislost mezi proměnnými Y a X, - blíží-li se korelační koeficient ryx nule, znamená to, že sledované proměnné jsou lineárně slabě korelované. To ale ještě neznamená, že jsou nezávislé, protože mezi nimi může existovat závislost jiná než lineární. Při výpočtech bez použití počítače se používá výpočetní tvar korelačního koeficientu, pro nějž potřebujeme předem vypočítat pouze výrazy xi,, yi , xi 2,Σyi2, xi yi. Výpočetní tvar korelačního koeficientu se často uvádí ve tvaru: n
n
i =1
ryx =
(I.61)
n
y i xi −
n n xi2 − i =1
n
i =1
n
y xi
i =1
i
i =1
n n xi yi2 − i =1 2
n
i =1
2
.
yi
Příklad I.8 Pokračování Příkladu I.5. Na 5% hladině významnosti posuďte těsnost závislosti mezi cenou a stářím auta a posuďte kvalitu lineárního modelu. Korelační koeficient můžeme vypočítat podle vzorce (I.61) na základě dat z Tabulky I-10.
ryx =
10.7603 - 66.1237 10.474 - 662 . 10.162281 - 12372
= 0, 9409
Hodnotu korelačního koeficientu můžeme rovněž vypočítat z dat výstupu z PC (Tabulka I-18), kde je uveden index determinace R-square = 0,8853, korelační koeficient je odmocnina z indexu determinace.
ryx = R 2 = 0,8853 = 0,9409
.
Index determinace R-square = 0,8853 můžeme rovněž použít k posouzení těsnosti závislosti. Index determinace nám říká, že 88,5 % variability ceny můžeme vysvětlit stářím automobilu (nevysvětlená část variability ceny je způsobena počtem ujetých km, zachovalostí, výbavou auta apod.)
Metody zkoumání závislostí 37
Bankovní institut vysoká škola
Tabulka I-18 Výstup ze SASu 11.52387
R-Square
0.8853
123.70000
Adj R-Sq
0.8710
Root MSE Dependent Mean
9.31598
Coeff Var
Tabulka I-19 uvádí výstup analýzy rozptylu ze systému SAS s údaji pro výpočet celkového F- testu, hodnotu F – testu a hodnotu p – value.. Tabulka I-19 Výstup ze SASu Analysis of Variance Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
1
8201.70417
8201.70417
61.76
<.0001
Error
8
1062.39583
132.79948
Corrected Total
9
9264.10000
Celkový F- test posoudí vhodnost modelu a významnost korelačního koeficientu. V Tabulce I-19 jsou všechny potřebné údaje pro výpočet F-testu podle vzorce (I.53).
QT
8201, 70
p- 1 1 F = = = 61, 76 QR 1062, 39 n- p
F1−α [( p − 1); (n − p )] = F0,95 [1;8] = 5,31 .
8
Celkový F- test potvrzuje, že regresní model je vyhovující. Stejný závěr bychom udělali na základě hodnoty Pr > F, která je menší než 0,05.
Příklad I-9. Posuďte sílu závislosti počtu prodaných kusů a ceny džusů z Příkladu I-6. V Tabulce I-20 jsou uvedeny potřebné výpočty. Závislost byla v Příkladu I-6 popsána regresní přímkou
yˆ = 100,41 -1,996 x. Těsnost (sílu) této závislosti charakterizuje korelační koeficient vypočítaný podle vzorce (I.61).
ryx =
38
30.20615 - 531.1243 2
2
(30.13355 - 531 )(30.52196 - 1243 )
Metody zkoumání závislostí
= - 0, 8363 ;
ryx2 = 0, 6994 .
Metody statistické analýzy
Korelační koeficient je záporný, což vyjadřuje nepřímou závislost mezi počtem prodaných kusů a cenou. Čtverec korelačního koeficientu můžeme interpretovat tak, že z 69,95 % lze variabilitu hodnot závisle proměnné Y vysvětlit variabilitou hodnot nezávisle proměnné X. Výpočet korelačního koeficientu z počítače je uveden v Tabulce I-14 pod tabulkou analýzy rozptylu.
Tabulka I-20 Potřebné propočty pro výpočet korelačního koeficientu i
xi
yi
xi2
y i2
xiyi
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Celkem
33 21 12 38 19 28 26 7 2 6 15 18 2 5 37 26 29 19 4 27 31 19 32 18 9 5 8 1 4 30 531
38 40 42,5 36,5 40 38 38 43,5 50 45 40 40 55 45 36,5 38 38 38 42 38 38 39,5 36,5 39,5 42,5 45 42 55 45 38 1243
1089 441 144 1444 361 784 676 49 4 36 225 324 4 25 1369 676 841 361 16 729 961 361 1024 324 81 25 64 1 16 900 13355
1444 1600 1806,25 1332,25 1600 1444 1444 1892,25 2500 2025 1600 1600 3025 2025 1332,25 1444 1444 1444 1764 1444 1444 1560,25 1332,25 1560,25 1806,25 2025 1764 3025 2025 1444 52196
1254 840 510 1387 760 1064 988 304,5 100 270 600 720 110 225 1350,5 988 1102 722 168 1026 1178 750,5 1168 711 382,5 225 336 55 180 1140 20615
Při výpočtu korelačního koeficientu z experimentálních dat si vždy musíme uvědomit, že vypočítaný výběrový korelační koeficient ryx je bodovým odhadem teoretického korelačního koeficientu ρyx těsnosti závislosti v základním souboru.
Výběrový korelační koeficient ryx je konzistentní odhad, ale není
odhad nevychýlený (je zkreslený). Zkreslení odhadu je tím menší, čím je větší výběrový soubor a čím je mezi y a x silnější závislost. Metody zkoumání závislostí 39
Bankovní institut vysoká škola
Nezkresleným odhadem párového korelačního koeficientu ρyx je upravený (adjusted) korelační koeficient r∗yx. Čtverec upraveného korelačního koeficientu se nazývá upravený koeficient determinace (v počítačových programech bývá označen adjusted R - squared).
ryx*2 = 1 - (1 - ryx2 )
(I.62)
n- 1 . n- 2
Vysoká hodnota výběrového korelačního koeficientu nemusí ještě znamenat silnou závislost v základním souboru, neboť může být zkreslena v důsledku náhodnosti výběru, zejména v případě malých výběrů. Významnost výběrového korelačního koeficientu ověřujeme testem nezávislosti. Nulová hypotéza testu nezávislosti: H0 : ρyx = 0. Testové kriterium významnosti korelačního koeficientu má Studentovo rozdělení t [n - 2].
t=
(I.63)
ryx n - 2 1 - ryx2
.
Kritický obor tohoto testu závisí na alternativní hypotéze: Tabulka I-21 Vymezení kritických oborů Alternativní hypotéza
Kritický obor
H1 : ρyx ≠ 0
t ≥ t1 -α /2 (n –2)
H1 : ρyx < 0
t ≤ t α (n-2)
H1 : ρyx > 0
t ≥ t 1 - α (n-2)
t ≤ t α / 2 (n-2)
Při velkých výběrech můžeme brát místo kvantilů Studentova rozdělení kvantily normovaného normálního rozdělení u.
Příklad I.10 Otestujte na 5% hladině významnosti statistickou významnost korelačního koeficientu závislosti počtu prodaných kusů na ceně z Příkladu I.9 pomocí testového kriteria t. Korelační koeficient závislosti vypočtený z údajů 30 obchodů byl v Příkladu I.9 vypočten:
ryx = - 0, 8363 . Pro ověření významnosti vypočteného korelačního koeficientu použijeme test podle vzorce (I.63):
t=
40
ryx n - 2 1 - ryx2
=
- 0, 8363 28 1 - 0, 83632
Metody zkoumání závislostí
= - 8, 071 .
Metody statistické analýzy
Kritické hodnoty testu jsou kvantily: - při jednostranné alternativní hypotéze t0,05 [28] = −1,701, - při dvoustranné alternativní hypotéze t0,025 [28] = −2,048. Vypočítaný korelační koeficient ryx = − 0,8363 značí statisticky významnou závislost při uvažování jak oboustranné, tak i jednostranné alternativy, neboť hodnota testového kriteria t = − 8,071 v obou případech leží v kritickém oboru.
Příklad I.11 Předpokládejme, že vypočtený výběrový korelační koeficient měl hodnotu ryx = 0,3. Ověřte na 5% hladině významnosti jeho statistickou významnost, víte-li, že byl vypočten z výběru a) 11 jednotek, b) 51 jednotek. a) n = 11
t=
ryx n - 2 2 yx
1- r
=
0, 3 9 2
1 - 0, 3
= 0, 943 .
Kritické hodnoty testu jsou kvantily: t0,95 [9] = 1,83 t0,975 [9] = 2,26 Z výsledku testu vidíme, že pro výběrový korelační koeficient ryx = 0,3, pokud byl vypočtený z výběru rozsahu n = 11 nemůžeme na 5% hladině významnosti zamítnout nulovou hypotézu o nezávislosti (tzn., že korelační koeficient nevyjadřuje na 5% hladině významnosti statisticky významnou závislost). b) n = 51
t=
ryx n - 2 2 yx
1- r
=
0, 3 49 1 - 0, 32
= 2, 2 .
Kritické hodnoty testu jsou nyní kvantily: t0,95 [49] = 1,677 t0,975 [49] = 2,01 V případě výběru rozsahu n = 51 zamítáme na 5% hladině významnosti hypotézu o nezávislosti, tedy výběrový korelační koeficient ryx = 0,3 značí na 5% hladině významnosti statisticky významnou závislost. Statistické počítačové programy častěji používají k ověření významnosti korelačního koeficientu analýzu rozptylu s testovým kriteriem konstruovaným jako podíl variability vysvětlené modelem a reziduální variability: Metody zkoumání závislostí 41
Bankovní institut vysoká škola
n
F=
(I.64)
2 sM s R2
QM p −1 = = QR n− p
( y − y) i
2
i =1
p −1 n
( y − yˆ ) i
i =1
i
,
F [p-1;n−p].
2
n− p
kde p je počet parametrů regresní funkce. Testové kriterium má Fischerovo rozdělení F [p −1 ; n − p]. V případě přímkové závislosti je p = 2 a testové kriterium lze upravit do tvaru n
( y − y) i
2
i =1
F=
(I.65)
n
1
( y − yˆ ) i
i =1
i
.
F [1;n−2].
2
n−2
Alternativní hypotézu uvažujeme oboustrannou H1 : ρyx ≠ 0, tedy kritický obor tvoří hodnoty testového kriteria F ≤ Fα /2 [1; n - 2] a F ≥ F1- α /2 [1; n - 2]. Testové kriterium dané vzorcem (I.65) lze upravit do tvaru:
F=
(I.66)
ryx2 (n − 2) 1 − ryx2
.
Příklad I.12 Otestujte na 5% hladině významnosti statistickou významnost korelačního koeficientu závislosti počtu prodaných kusů na ceně z Příkladu I.9 pomocí testového kriteria F. Korelační koeficient ryx = -0,8363. Testové kriterium podle vzorce (I.66)
F=
ryx2 (n - 2) 1 - ryx2
=
0, 83632 . 28 1 - 0, 83632
= 65, 14
Kritická hodnota F0,95 [1; 28] = 4,196.
42
Metody zkoumání závislostí
Metody statistické analýzy
Hodnota testového kriteria leží v kritickém oboru, zamítáme tedy na 5% hladině významnosti hypotézu o nezávislosti. Závěr pomocí analýzy rozptylu je samozřejmě stejný jako v případě testování hypotézy o nezávislosti t- testem v Příkladě I.10. Poznámka: Podklady pro výpočet testu pomocí testového kriteria ve tvaru (I.65) je možno najít ve výstupní tabulce analýzy rozptylu uvedené v Tabulce I-14:
F=
2766, 94 = 65,14 1189, 36 28
K posouzení významnosti slouží hodnota p-value. Jelikož je p-value menší než hladina významnosti, na níž provádíme testování (tj. α = 0,05), zamítáme hypotézu o nezávislosti počtu prodaných kusů na ceně.
I.4.2
Test nezávislosti pořadovou korelací
Chceme-li získat rychlou informaci o závislosti dvou znaků, je možno jednotlivé hodnoty obou proměnných nahradit jejich pořadovými čísly a vypočítat Spearmanův koeficient pořadové korelace. Tento postup lze samozřejmě použít i tehdy, když máme rovnou k dispozici pořadové znaky nebo v případě, kdy jeden znak je pořadový a druhý číselný, v takovém případě číselný znak převedeme na znak pořadový.. V takových případech testujeme nulovou hypotézu: H0: mezi znaky X a Y neexistuje pořadová závislost (tzn., že znaky jsou nezávislé, tedy ρyx=0), H1: existuje pořadová závislost mezi znaky X a Y nebo jednostranné alternativy: H1 : existuje kladná pořadová závislost (existuje shoda pořadí), H1 : existuje záporná pořadová závislost (existuje neshoda pořadí). Pro testování této nulové hypotézy vypočítáme Spearmanův koeficient pořadové korelace n
6. (I.67)
rS = 1 −
(i i =1
x
− iy )2
n(n 2 − 1)
,
kde ix a iy jsou pořadí srovnávaných hodnot sledovaných proměnných X a Y. Existují-li shodné hodnoty, přiřadíme každé z nich průměr z pořadí, které by tyto hodnoty získaly v případě, kdyby nebyly shodné. Koeficient pořadové korelace může nabývat hodnot v intervalu < −1;1 >, přičemž hodnoty rS blízké 1 značí shodu pořadí, tedy kladnou závislost; hodnoty Spearmanova koeficientu pořadové korelace blízké −1 vyjadřují neshodu pořadí, tudíž zápornou závislost; hodnoty blízké nule vyjadřují nezávislost
Metody zkoumání závislostí 43
Bankovní institut vysoká škola
pořadí. Ke statistickému ověření významnosti koeficientu rS jsou tabelovány kritické hodnoty nebo můžeme významnost závislosti ověřit pomocí t-testu analogicky jako u korelačního koeficientu. Testové kriterium významnosti Spearmanova koeficientu má Studentovo rozdělení t [n−2].
t=
(I.68)
ryx n - 2 1 - ryx2
.
Kritický obor závisí na alternativní hypotéze: H1 : ρyx ≠ 0
t ≤ tα /2 (n - 2) t ≥ t1- α /2 (n - 2)
H1 : ρyx < 0
t ≤ tα (n - 2)
H1 : ρyx > 0
t ≥ t1- α (n - 2).
Příklad I.13 Ověřte na 5% - ní hladině významnosti shodu hodnocení 12 pracovníků vedoucím a srovnáním výkonů jednotlivých pracovníků (činnost ohodnocena počtem získaných bodů). Údaje a potřebné výpočty uvádí Tabulka I-22. (Hodnocení pomocí bodů musíme nejdříve převést na pořadí). H0 : mezi pořadím vedoucího a pořadím výkonů neexistuje pořadová závislost, H1 : existuje shoda pořadí hodnocení (uvažujeme jen jednostrannou alternativu).
Tabulka I-22 Data a výpočty Spearmanova koeficientu Pracovník A B C D E F G H I J K L
Pořadí vedoucího 4 5 12 2 3 10 7 11 9 1 6 8 x
Body za výkon 93 119 110 87 99 176 150 144 125 101 92 170 X
Pořadí bodů 3 7 6 1 4 12 10 9 8 5 2 11 x
Výpočty ix – iy 1 -2 6 1 -1 -2 -3 2 1 -4 4 -3 X
Spearmanův koeficient pořadové korelace vypočítáme podle vzorce (I.67) n
6 rS = 1 −
44
(i
x
− iy )2
i =1
2
n(n − 1)
= 1−
6.102 = 0,643 , 12.143
Metody zkoumání závislostí
Výpočty (ix - iy )2 1 4 36 1 1 4 9 4 1 16 16 9 102
Metody statistické analýzy
testové kriterium podle vzorce (I.68)
rS
t=
n- 2 =
1 - rS2
0, 643. 10 1 - 0, 6432
= 2, 65 ,
kritická hodnota t1-α [n−2] = t0,95 [10] = 1,81. Hodnota testového kriteria t = 2,65 je vyšší než kritická hodnota t0,95 [10] = 1,81, zamítáme tedy hypotézu o nezávislosti obou pořadí a můžeme konstatovat, že shoda pořadí hodnocení vedoucího a pořadí výkonů je na 5% - ní hladině významnosti statisticky významná.
I.5
Vícenásobná lineární regresní a korelační analýza
I.5.1
Vícenásobná regrese
Nyní si regresní úlohu z kapitoly I.2 rozšíříme a budeme uvažovat jednu závisle proměnnou (vysvětlovanou proměnnou) Y a několik nezávisle proměnných (vysvětlujících proměnných) X1, X2 , ..., Xk. Regresní funkce bude ve tvaru y = f (x1, x2, ..... xk). Výklad provedeme na nejjednodušším případě vícenásobné závislosti - trojnásobné regresi, což je případ se dvěma vysvětlujícími proměnnými X1 a X2. Teoretická regresní funkce (v případě trojnásobné závislosti se jedná o rovnici teoretické regresní roviny) má nyní tvar
Yi = β 0 + β1 x1i + β 2 x 2i + ε i ,
(I.69) kde β0
je absolutní člen rovnice,
β1 a β2 jsou teoretické dílčí regresní koeficienty, εi
je náhodná složka.
Rovnice výběrové regresní funkce (výběrové regresní roviny) pak bude
yˆ i = b0 + b1 x1i + b2 x2i ,
(I.70) kterou přepíšeme do tvaru:
yˆ i = b y. x
(I.71) kde
x 1 2
by . x x
je absolutní člen regresní rovnice,
1 2
byx . x , byx 1
2
+ b yx1. x2 x1i + b yx2 . x1 x2i ,
2
. x1
jsou výběrové dílčí regresní koeficienty (odhady teoretických dílčích
Metody zkoumání závislostí 45
Bankovní institut vysoká škola
regresních koeficientů), Odhady parametrů β0, β1 a β2 získáme metodou nejmenších čtverců: n
S=
(I.72)
( y i − b y. x x
1 2
i =1
− b yx1. x21 x1i − b yx2 .x1 x 2i ) 2 = min .
Interpretace dílčích regresních koeficientů:
byxi . xj
představuje průměrnou změnu závisle proměnné Y odpovídající jednotkové změně nezávisle
proměnné Xi umístěné před tečkou za předpokladu, že proměnná Xj za tečkou je konstantní.
Teoretický obecný vícenásobný lineární regresní model má analogicky tvar
Yi = β 0 + β1 x1i + β 2 x2i + ... + β k xki + ε i
(I.73)
A jeho odhad – výběrový vícenásobný regresní model (I.74)
yˆ i = b y . x1x2 ... xk + b yx1 . x2 x3 .... xk x1i + b yx2 . x1x3 ... xk x2i + ... + b yxk . x1x2 ... xk −1 xki
Odhady parametrů regresní rovnice odvodíme opět pomocí MNČ. Statistickou významnost jednotlivých dílčích regresních parametrů ověříme t-testem jako v případě jednoduché regrese. Testujeme nulovou hypotézu: Ho : β j = 0,
j = 0,1,…,k
Nejčastěji je používána oboustranná alternativní hypotéza H1 : β j ≠ 0. Testové kriterium má tvar (stejně jako v případě jednoduché závislosti)
(I.75)
t=
bj sbj
.
Testové kriterium (I.75) má Studentovo rozdělení, nyní s (n − p) stupni volnosti. Kritický obor tvoří hodnoty testového kriteria t ≤ tα /2 (n − p) a t ≥ t1-α /2 (n − p), kde p značí počet parametrů funkce. V případě, když t-testem zjistíme, že některý z dílčích regresních koeficientů není statisticky významný, většinou (ale ne vždy) to znamená, že příslušná vysvětlující proměnná je v regresním modelu nadbytečná a lze ji z modelu vypustit.
46
Metody zkoumání závislostí
Metody statistické analýzy
I.5.2
Vícenásobná korelace
Ve vícenásobné korelační analýze se setkáváme se třemi druhy korelačních koeficientů: • výběrové párové korelační koeficienty, které měří těsnost lineární závislosti dvou proměnných a to jak závislosti mezi závisle proměnnou y a jednotlivými vysvětlujícími proměnnými, tak i těsnost lineární závislosti všech dvojic vysvětlujících proměnných:
ryx1 , ryx2 , ryx3 ,..., ryxk,, rx1x2 , rx1x3, rx2x3, rx1xk, ..... Výběrové párové korelační koeficienty jsou odhady teoretických párových korelačních koeficientů
ρyx1 , ρy x2 , ρyx3 , ..., ρy xk , ρx1 x2 , ρx1 x3 , ρx2 x3 , ρx1 xk …. • výběrové dílčí (parciální) korelační koeficienty měří těsnost lineární závislosti dvou proměnných uvedených před tečkou za předpokladu, že vliv ostatních proměnných uvedených za tečkou je konstantní. Např. výběrový dílčí korelační koeficient ryx1 . x2 x3 .... xk měří těsnost lineární závislosti mezi Y a X1 za předpokladu, že všechny ostatní proměnné umístěné za tečkou jsou konstantní. Tento výběrový dílčí korelační koeficient je bodovým odhadem teoretického dílčího korelačního koeficientu ρ yx1. x2 x3 ... xk . Výběrové dílčí korelační koeficienty můžeme vypočítat s využitím jednoduchých korelačních koeficientů. Pro případ nejjednodušší vícenásobné závislosti – trojnásobné regrese, platí následující vzorce:
(I.76)
ry. x1x2 =
(I.77)
ry. x2 x1 =
ryx1 − ryx2 .rx1x2
(1 − r )(1 − r ) , 2 yx2
2 x1x2
ryx2 − ryx1 .rx1x2
(1 − r )(1 − r ) . 2 yx1
2 x1x2
• vícenásobný korelační koeficient měří těsnost lineární závislosti mezi proměnnou před tečkou a všemi proměnnými umístěnými za tečkou (tj. sílu společného působení všech vysvětlujících proměnných). Výběrový vícenásobný korelační koeficient ry. x1x2 x3 ... xk koeficientu korelace
ρ y. x1 x2 x3 ... xk .
je bodovým odhadem vícenásobného
Je to odhad vychýlený (zkreslený). Nezkresleným odhadem je
upravený (modifikovaný) vícenásobný korelační koeficient. K posouzení těsnosti vícenásobné závislosti se častěji používá čtverec vícenásobného korelačního koeficientu, tzv. vícenásobný koeficient determinace 2
vícenásobný koeficient determinace r y . x x
1 2 ... xk
ρ 2 y. x1x2 ... xk a
jeho odhad výběrový
.
Metody zkoumání závislostí 47
Bankovní institut vysoká škola
2
Vícenásobný koeficient determinace r y . x x
1 2 ... xk
můžeme interpretovat jako podíl variability závisle
proměnné y, který lze vysvětlit společným působením všech vysvětlujících proměnných. V počítačových programech je vícenásobný koeficient determinace označován R-squared. K ověření významnosti vícenásobného korelačního koeficientu se obvykle provádí celkový F-test významnosti vztahu mezi závisle proměnnou a celým souborem k nezávisle proměnných. Testované hypotézy mají tvar:
H 0 : β k = konst.
β1 = β 2 = ... = β k = 0
,
H 1 : ne všechna β i = 0 ,
i = 1,2,...,k.
Test provádíme pomocí analýzy rozptylu. Používáme testové kriterium n
(I.78)
F=
2 sM s R2
QM p −1 = = QR n− p
( y − y) i
i =1
2
p −1
n
( y − yˆ ) i
i
. 2
i =1
n− p Celkový test je vždy pravostranný. Při platnosti H0 má testová statistika F-rozdělení s počty stupňů volnosti (p-1) a (n-p). Kritický obor tvoří hodnota testového kriteria F ≥ F1-α [p-1; n-p].
Příklad I.14 Použijte data průzkumu v potravinářských obchodech z Příkladu I.6 a vypočítejte model lineární regresní závislosti počtu prodaných kusů na ceně i velikosti obchodu a posuďte sílu této závislosti. Data průzkumu jsou uvedena v Tabulce I-12. Závisle proměnnou (vysvětlovanou proměnnou) Y je počet kusů, vysvětlující (nezávisle proměnné) jsou nyní dvě : X je cena, Z je velikost obchodu. Protože ruční výpočty v této situaci jsou již náročnější, uvádíme v Tabulce I-23 pouze řešení – počítačový výstup ze STATGRAPHICS.
48
Metody zkoumání závislostí
Metody statistické analýzy
Tabulka I-23 Výstupní tabulka vícenásobní regresní analýzy. Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: Pocet_kusu ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT 93,7211 10,9382 8,56828 0,0000 Cena -1,72892 0,295915 -5,84261 0,0000 Velikost_obchodu -1,64489 1,05463 -1,55968 0,1305 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 2865,24 2 1432,62 35,45 0,0000 Residual 1091,06 27 40,4095 ----------------------------------------------------------------------------Total (Corr.) 3956,3 29 R-squared = 72,4223 percent R-squared (adjusted for d.f.) = 70,3795 percent
Regresní model vícenásobné závislosti má tvar:
yˆ = 93,7211 − 1,72892 x − 1,64489 z Ve sloupci T-statistic v Tabulce I-23 jsou vypočteny hodnoty testového kriteria podle vzorce (I.75). Kritickou hodnotou je kvantil t1-α /2 (n - p) = t0,975(27) = 2,052. Hodnota testového kriteria t-testu u dílčího regresního koeficientu u proměnné X (cena) je větší než kritická hodnota, zamítáme hypotézu o nezávislosti a lze konstatovat, že počet prodaných kusů se sníží v průměru o 1,7289 při zvýšení ceny o 1 Kč za předpokladu, že by zůstala nezměněná velikost obchodů. Hodnota t - testu u dílčího regresního koeficientu u proměnné Z leží v oboru přijetí, nulovou hypotézu o nezávislosti tedy nezamítáme. Stejný závěr bychom udělali podle hodnoty P-value v Tabulce I-23. Na základě těchto výsledků můžeme předpokládat, že vysvětlující proměnná „velikost obchodu“ je v regresním modelu nadbytečná a bylo by možno ji z modelu vypustit. Těsnost vícenásobné závislosti charakterizuje vícenásobný korelační koeficient, který vypočítáme jako odmocninu z R-squared adjusted (ve spodní části Tabulky I - 23), tedy
ry.xz =
0, 703795 = 0, 8389 .
Hodnota R-squared adjusted je upravený index determinace, který značí, že společným působením obou vysvětlujících proměnných (ceny a velikosti obchodu) je možno vysvětlit 70,3795 % variability závisle proměnné (počtu prodaných kusů). Porovnáme-li velikost upraveného indexu determinace vícenásobné regresní závislosti (70,3795 %) s velikostí indexu determinace párové závislosti z Příkladu I-6 (69,9377 %), je vidět, že zařazením další vysvětlující proměnné do regresního modelu se dosáhlo jen nepatrného zvýšení vysvětleného Metody zkoumání závislostí 49
Bankovní institut vysoká škola
procenta variability závisle proměnné (počtu prodaných kusů). V takových případech dáme přednost jednoduššímu modelu závislosti, v našem případě by to bylo některému z modelů uvedených v Příkladě I-7.
I.5.3
Multikolinearita
V případě vícenásobné regresní závislosti není vhodné, aby proměnné zařazené do vícenásobného vztahu byly silně závislé. Lineární závislost mezi vysvětlujícími proměnnými se nazývá multikolinearita. Multikolinearita způsobuje, že odhady regresních koeficientů mohou být nepřesné, zvětšují se odhady směrodatných chyb regresních parametrů i regresních odhadů. Zvětšení velikosti odhadů směrodatných chyb se odráží i ve výsledcích testů hypotéz o nulových hodnotách regresních koeficientů Testy jsou pak v podstatně menší míře schopny odkrývat nesprávnost těchto hypotéz. O multikolinearitě, která znehodnocuje odhady a testy hypotéz, se říká, že je to „škodlivá multikolinearita“. Poněkud zjednodušeně řečeno, multikolinearitu považujeme za „škodlivou“, pokud některé párové korelační koeficienty mezi vysvětlujícími proměnnými jsou větší než 0,8. (někdy se uvádí 0,75). Pro odkrytí existence multikolinearity existují testy, např. Farrarův – Glauberův test, popsaný např. v [8]. Zjistíme-li existenci multikolinearity, většinou to znamená, že není vhodné zařadit takto silně korelované vysvětlující proměnné společně do vícenásobného regresního vztahu. Pro ověření, kterou z dvojice silně korelovaných regresorů z regresní rovnice vyřadit, existují speciální kriteria.
S problémem multikolinearity souvisí otázka metody volby vhodné podmnožiny vysvětlujících proměnných. Uvedeme základní metody: • metoda postupného přidávání vysvětlujících proměnných, • metoda postupného vyřazování proměnných, • metoda stupňovité regrese (STEPWISE). Stručně k metodě postupného přidávání vysvětlujících proměnných. Postupujeme následovně: 1. jako první zařadíme do vícenásobného vztahu tu vysvětlující proměnnou Xi , která má nejvyšší párový korelační koeficient se závisle proměnnou Y, 2. jako další zařadíme proměnnou Xj, která má vysoký párový korelační koeficient se závisle proměnnou Y, ale současně není silně závislá s již zařazenou proměnnou Xi. 3. Při zařazování dalších proměnných do vícenásobného vztahu ověřujeme, zda nejsou silně závislé se všemi již zařazenými proměnnými. (V případě práce na PC ověřujeme významnost přidání dalších proměnných, tj. zvýšení % vysvětleného rozptylu proměnné Y, tzv. dílčími F-testy.) Metodu si ukážeme na zjednodušeném příkladě. 50
Metody zkoumání závislostí
Metody statistické analýzy
Příklad I.15 Máme k dispozici tabulku korelačních koeficientů mezi závisle proměnnou Y a pěti vysvětlujícími proměnnými a chceme vybrat vhodnou množinu vysvětlujících proměnných do vícenásobného vztahu. Tabulka I-24 Příklad matice párových korelačních koeficientů x1
x2
x3
x4
x5
y
0,56
0,82
0,14
0,73
0,47
x1
1,00
0,15
0,60
0,20
0,30
1,00
0,20
0,85
0,21
1,00
0,05
0,82
1,00
0,46
x2 x3 x4
1,00
x5
Jako první vybereme do vícenásobného vztahu proměnnou X2, neboť má nejvyšší párový korelační koeficient se závisle proměnnou Y. Další by přicházela v úvahu proměnná X4, ale z tabulky korelačních koeficientů vidíme, že je silně závislá se zařazenou proměnnou X2. Vezmeme proto další vysvětlující proměnnou X1 Tuto proměnnou zařadíme, neboť není silně závislá s již zařazenou proměnnou X2. Při zařazování další proměnné X5, již musíme ověřovat závislost s oběma zařazenými proměnnými X2 a X1. Při zařazování poslední proměnné X3 sledujeme závislost s již třemi zařazenými proměnnými. Výsledný vícenásobný regresní model tedy bude mít tvar :
yˆ = b y. x1x2 x5 + b yx1. x2 x5 x1 + b yx
2 . x1 x5
x 2 + b yx5 . x1x2 x5 .
Jinou možností by bylo vybrat vysvětlující proměnné X4, X1,X5 a použít vícenásobný regresní model
yˆ = b y. x1x4 x5 + b yx1. x4 x5 x1 + b yx
4 . x1 x5
x 4 + b yx5 . x1x4 x5 .
Metoda STEPWISE Postup je analogický jako v případě metody postupného přidávání vysvětlujících proměnných, ale při hodnocení významnosti zařazení další vysvětlující proměnné se testuje F-testem, co by se stalo, kdyby byly vysvětlující proměnné zařazeny v jiném pořadí. Je možno vyřadit již zařazenou proměnnou, pokud je nová kombinace proměnných lepší. 1. Jako první se zařadí vysvětlující proměnná s nejvyšším párovým korelačním koeficientem, 2. v každém kroku se vypočítají dílčí korelační koeficienty a F-testy pro zařazení další proměnné a Ftesty pro vyřazení již zařazené proměnné, 3. postup se opakuje tak dlouho, dokud přínos některé další proměnné je významný (tzn. dokud přidání další proměnné významně zvýší % vysvětleného rozptylu proměnné Y).
Metody zkoumání závislostí 51
Bankovní institut vysoká škola
I.6
Regrese s kategoriální proměnnou
Dosud uvedené regresní modely uvažovaly pouze kvantitativní proměnné. Často se ale vyskytne situace, kdy potřebujeme zařadit rovněž jednu nebo více kategoriálních proměnných. V takovém případě používáme pro popis kategoriálních proměnných umělé proměnné. Počet umělých proměnných v regresním modelu je roven počtu kategorií minus jedna. Ve zvláštním případě, když nabývá kategoriální proměnná pouze dvou hodnot, je jedna z hodnot kódována jako nula a druhá jako jedna.
Příklad I.16 Chceme určit možný vliv věku (X1 ) a pohlaví (D) na plat. Výběrová data jsou:
Věk Pohlaví Plat (tis.Kč)
23 M 12
27 Ž 13.2
29 M 14.7
36 M 18
37 Ž 17.1
40 Ž 18.3
46 M 22.5
50 Ž 21.9
54 Ž 23.4
59 M 27
Nejprve provedeme přiřazení umělých proměnných. Označíme D = 0 (osoba je muž) a D = 1 (osoba je žena). Potom má regresní model tvar:
Y = 3,222 + 0,405 x − 1,274 D a tedy Y = 3,222 + 0,405x (muži), Y = 1,948 + 0,405x (ženy).
Přirozeně bychom v tomto případě mohli zavést obrácené přiřazení a to D = 1 (muži) a D = 0 (ženy). Regresní model v tomto případě má tvar
Y = 1,948 + 0,405 x + 1,274 D a tedy Y = 3,222 + 0,405x (muži), Y = 1,948 + 0,405x (ženy). Získaný výsledek můžeme interpretovat tak, že průměrný plat mužů je o 1274 Kč vyšší než průměrný plat žen.
52
Metody zkoumání závislostí
Metody statistické analýzy
I.7
KONTROLNÍ OTÁZKY
Co vyjadřují okrajové četnosti v kontingenční tabulce? Co vyjadřují sdružené četnosti v kontingenční tabulce? Na čem je založeno testové kriterium chí-kvadrát testu nezávislosti? Jaké znáte míry těsnosti závislosti kategoriálních znaků? Patří asociační tabulka mezi kontingenční tabulky? Jaké úlohy řešíme pomocí analýzy rozptylu? Jaký je princip a hlavní myšlenka analýzy rozptylu? V jakých situacích nemůžeme analýzu rozptylu použít? Co znamená pojem statistická závislost? Jaké jsou kroky regresní analýzy? Kdy lze použít k odhadům parametrů regresní funkce metodu nejmenších čtverců? Co vyjadřuje regresní koeficient? Co je residuum? Jaké znáte metody počátečních odhadů regresních parametrů a v jakých situacích je použijeme? Co posuzujeme dílčími t-testy? Co posuzuje celkový F-test? Co vyjadřuje index determinace? Jakých hodnot může nabývat kovariance? Co měří korelační koeficient? Proč je korelační koeficient vhodnější mírou těsnosti závislosti než kovariance? Co vidíme ze vzájemné polohy sdružených regresních přímek? Jaký je vztah mezi sdruženými regresními koeficienty? Jak souvisí znaménko regresního a korelačního koeficientu? Jaký je vztah mezi korelačním koeficientem a koeficientem determinace? Podle jakých kritérií posuzujeme vhodnost použité regresní funkce? Kdy a k čemu se používá upravený index determinace? Co měří Spearmanův koeficient? V jakých situacích používáme Spearmanův koeficient? Co vyjadřuje dílčí regresní koeficient? Co vyjadřuje dílčí korelační koeficient? Co charakterizuje vícenásobný koeficient determinace?
Metody zkoumání závislostí 53
Bankovní institut vysoká škola
Co chápeme pod pojmem multikolinearita? Jaké znáte metody volby vhodné podmnožiny vysvětlujících proměnných ve vícenásobném regresním modelu? Jak je posuzována statistická významnost provedeného testu v počítačových výstupech?
I.8
PŘÍLADY NA PROCVIČENÍ
P.I.1 Bylo zjišťováno, zda četba sledovaných časopisů souvisí se vzděláním čtenářů. Z průzkumu provedeného u 400 osob byly zjištěny údaje uvedené v tabulce. Ověřte na 5% hladině významnosti, zda existuje závislost mezi sledovanými znaky a posuďte těsnost této závislosti. Vzdělání
Časopis A
B
C
ZŠ
75
75
50
SŠ
40
70
40
VŠ
35
5
10
P.I.2 92 náhodně vybraných osob bylo dotázáno, zda vidělo určitou reklamu a zda kupuje zboží, jehož se reklama týkala. Existuje závislost mezi uvedenými znaky? Uvažujte 5% hladině významnosti. Reklama
Kupuje zboží
Nekupuje
Ano
19
22
Ne
13
38
P.I.3 Ve skupině 30 lidí bylo 12 očkováno proti chřipce. Z těchto 12 očkovaných onemocněl 1 člověk, z 18 neočkovaných onemocnělo 9 lidí. Ověřte na 5% hladině významnosti, jestli existuje závislost mezi očkováním a onemocněním a posuďte těsnost závislosti. Logicky zdůvodněte směr této závislosti. P.I.4 K ověření vhodnosti postřiku k ošetření stromů by proveden pokus s 300 stromy, z nichž 100 bylo ponecháno bez ošetření. U neošetřených stromů byla zjištěna prvotřídní kvalita v 58 případech, u ostatních ve 134 případech. Ověřte na 1% hladině významnosti, jestli postřik má vliv na kvalitu. P.I.5 Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Rozhodněte na 5% hladině významnosti, zda způsob umístění zboží ovlivňuje počet prodaných kusů. Umístění
Počet prodaných kusů
A
42
48
36
50
B
53
92
104
77
C
122
115
91
88
P.I.6 Doplňte ve výstupní tabulce ANOVA chybějící data, víte-li, že soubor 20 pozorování byl roztříděn do 5 skupin. Na 5% hladině významnosti ověřte hypotézu o nezávislosti sledovaného znaku na třídícím znaku a vypočítejte poměr determinace. 54
Metody zkoumání závislostí
Metody statistické analýzy
Source
DF
Sum of Squares
Mean Square
F Value
Model
?
88.80
22.20
?
Error
?
15.00
?
Corrected Total
?
103.80
P.I.7 Pomocí experimentu byla testována spotřeba při použití 3 druhů benzínu, s každým druhem bylo provedeno 5 pokusů. Doplňte tabulku a rozhodněte na 5% hladině významnosti, zda druh benzínu ovlivňuje spotřebu. Source
DF
Sum of Squares
Mean Square
F Value ?
Model
?
?
?
Error
?
0,08
?
Corrected Total
?
0,25
P.I.8 Vypočtěte parametry regresní přímky vystihující závislost měsíčních výdajů v Kč za určité zboží (Y) na počtu členů domácnosti. Počet členů
1
2
3
4
5
6
Výdaje
550
750
1200
1450
2200
2250
P.I.9 Máme k dispozici údaje o loňské a letošní poptávce po určitém výrobku získané ze šesti prodejen. K popisu závislosti použijte přímkovou regresi, vypočítejte vyrovnané hodnoty a posuďte těsnost závislosti korelačním koeficientem. Interpretujte regresní koeficient a index determinace. Loni (X)
20
60
70
100
150
260
Letos (Y)
50
60
60
120
230
320
P.I.10 U 10 jednotek byly sledovány dva znaky X a Y (viz tabulka). Vypočítejte parametry regresní přímky popisující závislost znaku Y na znaku X, vypočítejte těsnost závislosti a na 5% hladině významnosti ověřte významnost těsnosti této závislosti. X
2
3
4
3
5
4
6
7
7
9
Y
4
5
5
6
6
7
7
8
9
10
P.I.11 V následující tabulce je výstup regresní analýzy z počítače. Doplňte chybějící údaje, napište rovnici regresní přímky, vypočítejte koeficient determinace a interpretujte výsledky t-testů a F-testu.
Metody zkoumání závislostí 55
Bankovní institut vysoká škola
Parameter Estimates Variable
DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
1.61340
1.88180
?
0.4057
A
1
1.23711
0.26286
?
0.0003
Analysis of Variance Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
1
?
259.79381
?
0.0003
Error
14
164.20619
11.72901
Corrected Total
15
424.00000
P.I.12 Doplňte chybějící údaje v tabulce, víte-li, že se jedná o přímkovou regresi vypočítanou ze souboru 18 pozorování, napište rovnici regresní přímky, vypočítejte koeficient determinace a korelační koeficient a posuďte, o jaký typ závislosti se jedná. Parameter Estimates Variable
DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
57.45148
4.57131
12.57
<.0001
C
1
-0.72412
0.11237
-6.44
<.0001
Analysis of Variance
P.I.13
Source
DF
Sum of Squares
Mean Square
Model
?
?
7250.180
Error
?
2793.598
?
Corrected Total
?
10043.778
F Value
Pr > F
41.52
<.0001
Závislost y na x byla charakterizována regresní přímkou
yˆ = 25,7 − 1,66 x. Vypočítejte
korelační koeficient, víte-li, že rozptyl proměnné Y je čtyřikrát větší než rozptyl proměnné X. (Využijte vzorců (I.55) a (I.58). P.I.14 Na výstavě bylo představeno 12 nových výrobků přihlášených do soutěže Výrobek roku. Jednotlivé výrobky byly označeny A, B,..,L. Porota sestavená z odborníků stanovila pořadí výrobků
56
Metody zkoumání závislostí
Metody statistické analýzy
takto: G, A, J, E, K, B, C, L, D, I, H, F. Návštěvníky výstavy bylo stanoveno pořadí : J, G, K, A, L, I, E, B, F, C, D, H. Posuďte na 5% hladině významnosti shodu názorů odborné poroty a návštěvníků. I.15 U 10 výrobků zákazníci hodnotili vzhled a funkčnost pomocí pořadí. Pořadí vzhledu
3
7
5
10
9
8
4
1
6
2
Pořadí funkčnosti
4
9
2
10
8
7
6
3
5
1
Vypočtěte charakteristiku intenzity závislosti mezi pořadími a ověřte na 5%-ní hladině významnosti její významnost.
VÝSLEDKY PŘÍKLADŮ P.I.1
Použitá metoda: kontingenční analýza. Testové kriterium G = 32,889. Kritická hodnota
χ 02,95 ( 4) = 9,488 . Na 5% hladině významnosti zamítneme hypotézu o nezávislosti a přijmeme tvrzení, že typ časopisu závisí na vzdělání. CP = 0,276, jedná se o slabší závislost. P.I.2 Testové kriterium G = 4,36, kritická hodnota χ 02,95 (1) = 3,84 , na 5% hladině zamítáme hypotézu o nezávislosti prodeje na shlédnutí reklamy. P.I.3 Údaje uspořádáme do asociační tabulky Očkování
Onemocnělo Ano
Ne
Očkováno
1
11
Neočkováno
9
9
Testové kriterium G = 5,625. Kritická hodnota
χ 02,95 (1) = 3,84 . Zamítáme hypotézu o nezávislosti.
Pearsonův koeficient kontingence CP = 0,397. Koeficient asociace rAB = − 0,433. Jedná se o nepřímou závislost – očkování snižuje možnost onemocnění. P.I.4 Data přepíšeme do asociační tabulky.
Ošetření
Kvalita I.jakost
Ostatní
Ano
134
66
Ne
58
42
Testové kriterium G = 2,344; Kritická hodnota χ 02,99 (1) = 6,63 . Nezamítáme hypotézu o nezávislosti, ošetření nemá vliv na kvalitu. P.I.5 Analýza rozptylu. (Výpočetně náročnější příklad). Testové kriterium F =13,56, kritická hodnota F0,95 [2;9]= 4,257. Na 5% hladině zamítáme hypotézu o nezávislosti prodeje na umístění zboží. Stejný závěr bychom udělali podle p-hodnoty 0,0019<0,05. Poměr determinace je 0,7508.
Metody zkoumání závislostí 57
Bankovní institut vysoká škola
Podrobnější výsledky z počítače: Level
N
Prodej Mean
St Dev
1
4
44.00
6.324
2
4
81.50
21.977
3
4
104.00
17.029
Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
2
7350.00
3675.00
13.56
0.0019
Error
9
2439.00
271.00
Corrected Total
11
9789.00
R-Square Coeff Var Root MSE A Mean 0.750843
21.51906
16.46208
76.50000
P.I.6 Úplná tabulka ANOVA: Source
DF
Sum of Squares
Mean Square
F Value
Model
4
88.80
22.20
22.20
Error
15
15.00
1.00
Corrected Total
19
103.80
Testujeme hypotézu o nezávislosti. Hodnota testového kriteria F = 22,2. V tabulkách najdeme kritickou hodnotu F0,95 (4,15) = 3,056. Hodnota testového kriteria leží v kritickém oboru, zamítáme na 5% hladině významnosti hypotézu o nezávislosti sledovaného znaku na třídícím znaku. Poměr determinace P2 = 88,8/103,8 = 0.8555, t.zn., že 85,55 % variability sledovaného znaku můžeme vysvětlit vlivem třídícího znaku.
P.I.7 Úplná tabulka ANOVA: Source
58
DF
Sum of Squares
Mean Square
F Value 12,74
Model
2
0,17
0,08500
Error
12
0,08
0,00667
Corrected Total
14
0,25
Metody zkoumání závislostí
Metody statistické analýzy
Hodnota testového kriteria F = 12,74. Kritická hodnota F0,95 (2,12) = 3,885. Hodnota testového kriteria leží v kritickém oboru, zamítáme na 5% hladině významnosti hypotézu o nezávislosti spotřeby na druhu benzinu. P.I.8 Regresní přímka má tvar yˆ = 0,90 + 374,29 x. Z velikosti regresního koeficientu můžeme usuzovat, že u domácnosti o 1 člena větší, lze očekávat měsíční výdaje větší o 374,29 Kč. P.I.9
Regresní přímka má tvar
yˆ = 0,687 + 1,266 x. Z velikosti regresního koeficientu můžeme
usuzovat, že průměrný přírůstek loňské poptávky o 1 kus, vede k průměrnému přírůstku v dalším roce o 1,266 kusu. Vyrovnané hodnoty yˆ i dostaneme dosazením jednotlivých xi do vypočtené rovnice regresní přímky. Získáme vyrovnané hodnoty: 26, 77, 89, 127, 191, 330. Korelační koeficient ryx = 0,972. Index determinace r2 = 0,944. Lze tedy 94,4% variability letošní poptávky vysvětlit použitým regresním modelem. P.I.10 Rovnice regresní přímky yˆ = - 2,305 + 1,090 x; Korelační koeficient ryx = 0,931. Testové kriterium t = 7,23; kritická hodnota t0,95 (8) = 1,86. P.I.11 Uvádíme výstup s dopočítanými hodnotami. Musí platit Q = QM + QR. t = bj /sbj . Parameter Estimates Variable
DF
Parameter Estimate
Standard Error
t Value
Pr > |t|
Intercept
1
1.61340
1.88180
0.86
0.4057
A
1
1.23711
0.26286
4.71
0.0003
Regresní rovnice má tvar
yˆ = 1,613 + 1,237 x. Na základě t-testu nemůžeme zamítnout hypotézu,
že regresní přímka prochází počátkem. Hypotézu o nulové hodnotě regresního koeficientu zamítáme, lze tedy regresní koeficient interpretovat tak, že při růstu hodnot x o 1, dochází průměrně k růstu hodnot y o 1,237. Analysis of Variance Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
1
259.79381
259.79381
22.15
0.0003
Error
14
164.20619
11.72901
Corrected Total
15
424.00000
Koeficient determinace vypočítáme jako podíl součtu čtverců variability modelové a reziduální, tj., 259,794/424 = 0,6127. Tedy 61,27 % variability závisle proměnné můžeme vysvětlit vlivem vysvětlující
Metody zkoumání závislostí 59
Bankovní institut vysoká škola
proměnné x. P-value ( Pr > F) u testového kriteria F-testu znamená zamítnutí nezávislosti a potvrzuje vhodnost regresního modelu. P.I.12 Rovnice regresní přímky je yˆ = 57,451 - 0,724 x. Podle hodnoty Pr > |t| je regresní koeficient statisticky významný, tudíž jej můžeme interpretovat tak, že průměrná změna hodnot y při jednotkové změně hodnot x je − 0,724 (tj., pokles o 0,724). Doplněná tabulka analýzy rozptylu Analysis of Variance Source
DF
Sum of Squares
Mean Square
F Value
Pr > F
Model
1
7250.180
7250.180
41.52
<.0001
Error
16
2793.598
174.599
Corrected Total
17
10043.778
Koeficient determinace je 0,7218, korelační koeficient − 0,8496. Závislost je záporná. P.I.13 Korelační koeficient je ryx = − 0,415. S využitím vzorců (I.55), (I.58). P.I.14 Těsnost závislosti posoudíme pomocí Spearmanova koeficientu pořadové korelace. rS = 0,74. Testové kriterium t = 3,11. Kritická hodnota t0,95 (8) = 1,86. Zamítáme hypotézu o nezávislosti, prokázali jsme na 5% hladině významnosti dobrou shodu názorů odborné poroty a návštěvníků výstavy. P.I.15 Těsnost závislosti posoudíme pomocí Spearmanova koeficientu pořadové korelace. rS = 0,842. Testové kriterium t = 4,41. Kritická hodnota t0,95 (8) = 1,86. Zamítáme hypotézu o nezávislosti, na 5% hladině významnosti jsme prokázali závislost pořadí mezi vzhledem a funkčností výrobků.
60
Metody zkoumání závislostí
Metody statistické analýzy
I.9
ZÁKLADNÍ VÝRAZY
analysis of variance
analýza rozptylu
association
asociace
causal dependence
příčinná závislost
cell of a table
políčko tabulky
classical linear regression model
klasický lineární regresní model
coefficient of association
koeficient asociace
coefficient of contingency
koeficient kontingence
coefficient of determination
koeficient determinace
coefficient of linear correlation
koeficient lineární korelace
coefficient of multiple correlation
koeficient vícenásobné korelace
coefficient of multiple determination
koeficient vícenásobné determinace
contingency table
kontingenční tabulka
correlation
korelace
correlation table
korelační tabulka
correlation dependence
korelační závislost
covariance
kovariance
degree of relationship
stupeň intenzity vztahu
dependent variable
závisle proměnná
deterministic relationship
deterministický vztah
dummy variable
umělá proměnná
error sum of squares
reziduální součet čtverců
experimental design
plán pokusu, návrh pokusu
explanatory variable
vysvětlující proměnná
factor
faktor
F-distribution
rozdělení F (Fisherovo-Snedecorovo)
global test, overall test
globální test, celkový test
independent variable
nezávisleproměnná
intercept
konstantní člen v regresní rovnici
least squares method
metoda nejmenších čtverců
models linear in parameters
modely lineární v parametrech
multicollinearity
multikolinearita
multiple regression
vícenásobná regrese
multiple determination coefficient
koeficient vícenásobné determinace
non-linear correlation
nelineární korelace
normal equations
normální rovnice
one-way analysis of variance
jednofaktorová analýza rozptylu
partial correlation coefficient
parciální korelační koeficient
partial derivative
parciální derivace
prediction interval
interval spolehlivosti pro predikci individuální hodnoty Metody zkoumání závislostí 61
Bankovní institut vysoká škola
random error term
náhodná chyba, náhodná složka
rank correlation
pořadová korelace
regression analysis
regresní analýza
regression curve
regresní křivka
regression sum of squares
regresní součet čtverců,
residual
reziduum
simple linear regression model
jednoduchý lineární regresní model
slope
směrnice
Spearman rank correlation coefficient
Spearmanův koeficient pořadové korelace
statistical relationship
statistický vztah
sum of squares of deviations
součet čtverců odchylek
total sum of squares
celkový součet čtverců
treatment, factor level
úroveň faktoru, hladina faktoru
uncorrelated variables
nekorelované veličiny
62
Metody zkoumání závislostí
Metody statistické analýzy
II
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
II.1
Druhy a charakteristiky časových řad
Časovou řadou rozumíme řadu hodnot určitého ukazatele uspořádanou z hlediska přirozené časové posloupnosti, tj. od minulosti směrem k přítomnosti. Přitom je nutné, aby věcná náplň ukazatele a jeho prostorové vymezení byly shodné v celém sledovaném období. V kapitole II.1 skript Pravděpodobnost a statistika byly popsány možnosti porovnání změny (vývoje) sledovaného ukazatele ve dvou různých časových obdobích pomocí bazických a řetězových indexů. Chceme-li provést rozbor za delší časové období, musíme použít i další metody práce s časovými řadami. Hned v úvodu si uvedeme důležité rozdělení časových řad na řady úsekové (intervalové) a řady okamžikové. Toto třídění je důležité, protože pro každý typ časových řad se používají jiné metody jejich rozboru. Úseková (intervalová) časová řada obsahuje údaje za určité časové období (den, týden, měsíc, rok), např. ukazatele výroby, odpracovaná doba, vyplacené mzdy, počet postavených bytů, vývoz určité komodity apod. Velikost úsekového ukazatele závisí na délce období (úseku). Je zřejmé, že např. počet bankovních příkazů v určité bance za měsíc je vyšší než za týden. Intervalové ukazatele lze shrnovat pomocí součtu. Průměrnou úroveň intervalového ukazatele za určité období lze charakterizovat aritmetickým průměrem n
y
i
y=
(II.1)
i =1
n
kde n je počet období. Srovnávat údaje úsekové časové řady je možné jen tehdy, jsou-li všechny úseky stejně dlouhé. Pracujeme-li s časovými řadami měsíčních nebo týdenních údajů, je někdy účelné přepočítat údaje na stejnou délku úseku, tj. provést "očišťování kalendářních variací": • očišťování na kalendářní dny, • očišťování na pracovní dny, • očišťování na obchodní dny. Např. očišťování na kalendářní dny provádíme přepočtem na „průměrný měsíc“:
(II.2)
yto = yt
kt kt
,
kde kt je počet kalendářních dnů v daném měsíci,
kt je průměrná délka měsíce ( kt
= 365/12 = 30,417).
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 63
Bankovní institut vysoká škola
Příklad II.1 Očistěte danou časovou řadu na kalendářní dny. Tabulka II-1 Původní a očištěné hodnoty časové řady Měsíc I II III IV V VI VII VIII IX X XI XII
Počet dní 31 28 31 30 31 30 31 31 30 31 30 31
yt 1200 1150 1850 1750 1800 1775 1300 1350 1850 1900 2050 2000
yt0 1177,43 1249,27 1815,21 1774,33 1766,15 1799,67 1275,55 1324,61 1875,72 1864,27 2078,50 1962,39
y1o = 1200 (30,417 / 31) = 1177,43 Úsekové časové řady se graficky zobrazují nejčastěji pomocí sloupkových grafů (např. Obrázek II-1, kde je zobrazena časová řada z Příkladu II.1), méně časté je použití spojnicového grafu, v němž se hodnoty úsekového ukazatele kreslí vždy ke středu úseku, k němuž se vztahují. Obrázek II-1 Graf úsekové časové řady 2500,00 2000,00 1500,00 1000,00 500,00 0,00 1
2
3
4
5
6 7
8
9 10 11 12
Okamžikové časové řady jsou řady ukazatelů, které se vztahují k určitému okamžiku (datu), např. počet pracovníků k určitému datu, úroková sazba k určitému datu, stav zásob na konci roku apod. Hodnota okamžikového ukazatele nezávisí na délce intervalu, za který je ukazatel sledován, okamžikové ukazatele není možno sčítat. Průměrnou hodnotu sledovaného ukazatele charakterizuje chronologický průměr. Při výpočtu chronologického průměru postupujeme tak, že průměrujeme aritmetické průměry za sebou jdoucích okamžikových ukazatelů. a) V případě, když je vzdálenost mezi jednotlivými okamžiky stejná, vypočítáme průměrnou hodnotu jako:
64
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
y1 + y2 2
y=
(II.3)
+
y2 + y3
+ ... +
2
yn - 1 + yn 2
n- 1
.
Vzorec (II.3) je možno upravit do tvaru
y1 y= 2
(II.4)
+ y2 + y3 + ... + yn - 1 +
n- 1
yn 2 .
Příklad II.2 Vypočítejte průměrný počet obyvatel obce v letech 2003 – 2009. Data uvádí Tabulka II-2. (Uvažujeme stejnou délku roku, zanedbáme rozdílnou délku přestupných let). Tabulka II-2 Počet obyvatel obce Okamžik zjišťování
počet obyvatel
31.12.03
350
31.12.04
342
31.12.05
324
31.12.05
324
31.12.07
346
31.12.08
386
31.12.09
364
350 364 + 342 + 324 + 324 + 346 + 386 + 2 = 346, 5 y = 2 6 Průměrný počet obyvatel v dané obci ve sledovaném období byl 346,5.
b) Pokud intervaly mezi okamžiky, k nimž se vztahují údaje časové řady, nejsou stejné, musíme použít vážený chronologický průměr, kde jednotlivé dílčí průměry vážíme délkou vzdálenosti okamžiků:
y1 + y2
(II.5)
y=
2
(t2 - t1 ) +
y2 + y3 2
(t3 - t2 ) + ... +
yn - 1 + yn 2
tn - t1
(tn - tn - 1 )
.
Příklad II.3 Vypočítejte průměrný roční počet pracovníků firmy. Údaje uvádí Tabulka II-3.
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 65
Bankovní institut vysoká škola
Tabulka II-3 Počet pracovníků firmy Datum 1.1.
Počet Zaměstnanců 4
Vzdálenost okamžiků 151
1.6.
10
183
1.12.
50
31
31.12.
50
4 + 10 10 + 50 50 + 50 151 + 183 + 31 2 2 2 y= = 22,18 . 151 + 183 + 31 Průměrný počet zaměstnanců firmy v daném roce byl 22,18 osob.
Okamžikovou časovou řadou je např. řada míry inflace vyjádřené přírůstkem průměrného ročního indexu spotřebitelských cen v letech 1994 až 2009, která je uvedená v Tabulce II-4, graficky znázorněná na Obrázku II-2.
Tabulka II-4 Časová řada ročních údajů – Míra inflace v letech 1994 až 2009 rok
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
t
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
yt
10,1
9,1
8,8
8,5
10,7
2,1
3,9
4,7
1,8
0,1
2,8
1,9
2,5
2,8
6,3
1,0
Ke grafickému znázornění okamžikových časových řad se používají spojnicové grafy. Hodnoty časové řady se vynášejí k příslušným časovým okamžikům, lomená čára spojující jednotlivé body tvoří spojnicový graf. Obrázek II-2 Míra inflace v ČR v letech 1994 až 2009
66
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Zvláštním typem časových řad jsou časové řady součtové (kumulativní), které zobrazují postupné narůstání hodnot ukazatele během časového období a tím umožňují porovnat narůstání hodnot srovnávaných ukazatelů v různých souborech, různých obdobích, ale i např. porovnání plánu a skutečnosti.
Příklad II.4 Příprava studenta na zkoušku, na níž má nastudovat 490 stránek a k nastudování má týden (7 dní). Tabulka II-5 Sledování plánu a skutečnosti
80
Kumulativní plán 70
Kumulativní skutečnost 80
70
90
140
170
+ 30
3
70
80
210
250
+ 40
4
70
30
280
280
0
5
70
40
350
320
- 30
6
70
60
420
280
- 40
7
70
80
490
460
- 30
Den
Plán
Skutečnost
1
70
2
Rozdíl + 10
V posledním sloupci Tabulky II-5 můžeme sledovat rozdíly mezi plánem studia a jeho skutečností. (Komentář výsledku ponechávám studentům).
Charakteristiky časových řad Obdobně jako statistické znaky ve statistickém souboru, je možno i hodnoty sledovaného znaku v časové řadě popsat jednoduchými souhrnnými charakteristikami, z nichž jsou nejužívanější: absolutní přírůstek (první diference) je definovaný jako rozdíl dvou za sebou následujících hodnot časové řady
Δy t = y t − y t −1 ,
(II.6)
t = 2,3,…,n
průměrný absolutní přírůstek za určité období vypočítáme jako aritmetický průměr absolutních přírůstků n
Δy
i
(II.7)
Δ=
(II.8)
Δ=
i =1
n −1
=
( y2 − y1 ) + ( y3 − y2 ) + ... + ( yn − yn −1 ) , n −1
yn − y1 , n −1
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 67
Bankovní institut vysoká škola
druhé diference jsou definovány jako rozdíl dvou za sebou jdoucích prvních diferencí (absolutních přírůstků) 2 Δ yt
(II.9)
= Δ y t − Δ y t −1 ,
t = 3,4,…,n
koeficient růstu je podíl hodnoty časové řady v čase t a hodnoty v čase předcházejícím
kt =
(II.10)
yt yt- 1
,
t = 2,3,…,n
průměrný koeficient růstu za n období vypočítáme jako geometrický průměr všech koeficientů růstu sledovaného období
(II.11)
k=
n- 1
k2 k3 ...kn =
(II.12)
k=
n- 1
yn . y1
y2 y3 y ... n , y1 y2 yn - 1
n- 1
Příklad II.5 Vypočítejte absolutní přírůstky, koeficienty růstu, průměrný absolutní přírůstek a průměrný koeficient růstu sledovaného ukazatele za období 2006-2010. (Údaje i výpočty uvádí Tabulka II-6). Tabulka II-6 Absolutní přírůstky a koeficienty růstu Rok
yt
Δ yt
kt
2006
150
-
-
2007
163
13
1,087
2008
127
- 36
0,779
2009
120
-7
0,945
2010
130
10
1,083
-
- 20
x
n
Δy
i
Δ=
i =1
n −1
=
−20 = −5 4
nebo
Δ=
yn − y1 130 − 150 = = −5 n −1 4
Průměrný přírůstek daného ukazatele za období 2006 – 2010 je (-5), to znamená průměrný roční pokles byl 5.
k=
68
n- 1
k2 k3 ...kn =
4
1, 087.0, 779.0, 945.1, 083 = 0, 965
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
nebo
k=
n- 1
yn = y1
4
130 = 0, 965 . 150
Průměrný koeficient růstu je 0,965, to znamená průměrný roční pokles o 3,5 %.
Z příkladu je zřejmé, že pokud je průměrný přírůstek kladný, průměrný koeficient růstu je větší než jedna, dochází tedy k růstu v časové řadě, pokud je průměrný záporný, koeficient růstu je menší než jedna, dochází tedy k poklesu hodnot sledovaného ukazatele.
II.2
Dekompozice časových řad
Pod pojmem dekompozice časové řady rozumíme rozklad časové řady na složky charakterizující různé druhy pohybů v časové řadě, které umíme popsat a kvantifikovat. Při rozboru vývoje ukazatelů časových řad nás většinou nejvíce zajímá hlavní směr (tendence) vývoje ukazatele, kterému říkáme trend. Mluvíme pak o rostoucím trendu, o klesajícím trendu nebo o časové řadě bez trendu, pokud její hodnoty kolísají kolem nějaké stálé hodnoty. Vývoj reálných ukazatelů většinou není plynulý, ale vyskytují se výkyvy (poklesy nebo růst), které mohly být způsobeny různými vlivy, které nesouvisí s vývojem sledovaného ukazatele. U některých časových řad můžeme pozorovat i určitou pravidelnost výkyvů uvnitř jednotlivých let. Např. maloobchodní obrat je pravidelně nejvyšší v posledním čtvrtletí roku (vliv vánočních nákupů), ale např. výroba v letních měsících každoročně klesá (období dovolených) apod. Výkyvům, které se v průběhu roku pravidelně opakují, říkáme sezónní výkyvy neboli sezónnost. Výkyvy s periodicitou delší než jeden rok nazýváme cykličnost. Kromě trendu, cyklických a sezónních výkyvů jsou v časové řadě ještě výkyvy způsobené náhodami a různými drobným, často nezjistitelnými vlivy, kterým dohromady říkáme nahodilé kolísání. K analýze časových řad lze využít různé přístupy, uvedeme alespoň klasický přístup spočívající v analytickém vyrovnání časové řady a adaptivní přístup, kam zařazujeme např. vyrovnání klouzavými průměry a exponenciální vyrovnávání. Existují i další metody, s nimiž se v tomto kurzu nesetkáme, např. Boxova-Jenkinsova metodologie, faktorová analýza, intervenční analýza, harmonická analýza, spektrální analýza atd. Nebudeme se rovněž zabývat zkoumáním cykličnosti. Časovou řadu můžeme vyjádřit jako funkci yt = f (Yt , ε t), kde yt je řada empirických hodnot, Yt je deterministická složka časové řady obsahující trend Tt a sezónnost St, (případně i cykličnost Ct),
ε t je náhodná složka časové řady. Podle toho, jaké uvažujeme vztahy mezi složkami v časové řadě, rozeznáváme základní modely časových řad, které vyjádříme ve tvaru:
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 69
Bankovní institut vysoká škola
Aditivní model yt = Tt + St + εt..
(II.13) Multiplikativní model
yt = Tt . St . εt .
(II.14) Smíšený model
yt = Tt . St + εt..
(II.15)
Poznámka: St ,εt mají v různých modelech různý význam.
Nyní si postupně probereme, jak kvantifikovat jednotlivé složky časové řady, výsledný model potom dostaneme složením jednotlivých složek podle výše uvedených typů modelů.
II.3
Vyrovnávání časových řad
Pod pojmem vyrovnání časové řady rozumíme nahrazení empirických hodnot časové řady řadou teoretických hodnot, které charakterizují vývoj časové řady za předpokladu, že je očištěn od sezónní a náhodné složky.
II.3.1
Analytické vyrovnání časových řad
Analytické vyrovnání časových řad znamená nahrazení původních hodnot časové řady hodnotami vhodné analytické funkce (přímky, paraboly, exponenciály, hyperboly atd.). Analytické vyrovnání časové řady spočívá v popisu trendu časové řady analytickou funkcí T = f (t). Vhodnou analytickou funkci volíme na základě grafického zobrazení časové řady (většina statistických počítačových programů i tabulkových kalkulátorů nabízí spojnicové (čárové) grafy, logického rozboru vývoje časové řady a matematicko-statistických kriterií. Výhodou analytického vyrovnání je možnost předvídat další vývoj do budoucna. Tomuto postupu říkáme extrapolace. Počítat extrapolace (tj. předpovědi hodnot do budoucnosti) můžeme pouze tehdy, jestli lze předpokládat, že ve vývoji sledovaného ukazatele nedojde k podstatným změnám a vývojový trend se nezmění (tzv. princip ceteris paribus). Trendové funkce mohou být buď lineární v parametrech nebo nelineární v parametrech. K odhadům parametrů trendových funkcí lineárních v parametrech používáme (obdobně jako v regresní analýze) metodu nejmenších čtverců (MNČ). MNČ ukážeme na příkladě vyrovnání časové řady přímkou (tj. použijeme k vyrovnání lineární trend): (II.16)
70
T = a + bt .
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Analogicky jako u regresní analýzy spočívá MNČ v minimalizaci součtu čtverců odchylek napozorovaných a teoretických hodnot časové řady: n
S = ( yt − Tt ) 2 = min. (II.17)
t =1 n
S = ( yt − a − b.tt ) 2 = min. t =1
Po zderivování výrazu S podle obou parametrů a položení derivací rovno nule získáme normální rovnice. n
n
yt = n.a + b. tt (II.18)
t =1
t =1
n
n
n
t =1
t =1
t =1
yt tt = a. tt + b. tt2 a jejich řešením odvodíme odhady parametrů. Parametr a je absolutní člen přímky (bod, v němž trendová přímka protíná osu y). n
(II.19)
a=
yt
n
n
n
t =1 n
t =1 n
t =1
tt2 − tt . tt yt
t =1
n t − ( tt ) 2 t
t =1
.
2
t =1
Při výpočtu hodnoty absolutního členu můžeme využít faktu, že trendová přímka (v případě, když parametry byly odvozeny metodou nejmenších čtverců) prochází bodem se souřadnicemi ( t , y ) a parametr a je možno také vypočítat podle vzorce (II.20)
a = y − b.t .
Parametr b je směrnice přímky (vyjadřuje průměrný přírůstek (resp. úbytek) hodnot y při změně času o jednotku). n
(II.21)
b=
n
n
t =1 n
t =1
n. tt yt − yt tt t =1
n
n t − ( tt ) t =1
2 t
.
2
t =1
Příklad II.6 Vyrovnejte 9-ti měsíční časovou řadu hodnot y danou v Tabulce II-7.
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 71
Bankovní institut vysoká škola
Tabulka II-7 Vyrovnání časové řady trendovou přímkou Měsíc
t
yt
t2
ytt
Leden Únor Březen Duben Květen Červen Červenec Srpen Září
1 2 3 4 5 6 7 8 9 45
82 77 78 76 79 87 86 84 89 738
1 4 9 16 25 36 49 64 91 285
82 154 234 304 395 522 602 672 801 3766
Výpočet parametrů trendové přímky podle vzorce (II.21)
b=
9.3766 − 738.45 = 1, 2667 30.285 − 452
a = y - bt =
738 45 - 1, 2667 = 75, 667 9 9
Trendová přímka má tvar
T = 75,667 + 1,2667 t.
Příklad II.7 Vypočítejte předpověď hodnoty ukazatele y pro data Příkladu II.6 pro měsíc říjen. Předpověd na říjen získáme tak, že dosadíme do rovnice trendu hodnotu t = 10, což je hodnota t, která by příslušela říjnu: T10 = 88,333.
Příklad II.8 Vyrovnejte přímkou časovou řadu vkladů let 1990 – 2002 z Tabulky II-8. Tabulka II-8 Vklady v letech 1990 – 2002 Rok Vklady v mil. Kč
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2002
183986 220718 260172 314205 376224 454729 527314 627617 694416 700145 744558 826821 838856
V Tabulce II-9 uvádíme výstupní tabulku z počítače pomocí programu STATGRAPHICS. Tabulka II-8 Vyrovnání časové řady vkladů přímkou
Trend Model Summary Parameter Estimate Stnd. Error t P-value ---------------------------------------------------------------------------Constant -1,18629E8 4,33952E6 -27,3369 0,000000 Slope 59694,3 2174,11 27,457 0,000000 ----------------------------------------------------------------------------
72
2001
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Rovnice trendové přímky:
T = - 1,1863E 8 + 59694, 3 t .
Parametr b můžeme interpretovat jako průměrný roční přírůstek vkladů (59694,3mil. Kč). Hodnota p-value (stejně jako v regresní analýze) vyjadřuje, že parametr b je statisticky významně odlišný od nuly (nulová směrnice přímky znamená, že přímka je rovnoběžná s osou t, tzn, že sledovaný ukazatel se v čase nemění). Na Obrázku II-3 je zobrazeno vyrovnání časové řady vkladů domácností přímkou. Obrázek II-3 Vyrovnání časové řady vkladů domácností přímkou
Linear trend = -1,18629E8 + 59694,3 t
Vklady_domacnosti
(X 1,E6) 1 0,8 0,6 0,4 0,2 0 1990
1992
1994
1996
1998
2000
2002
II.3.1.1 Výběr vhodného modelu trendu Srovnání různých modelů lze provést na základě výpočtu různých měr, které jsou založeny na reziduích (odchylkách zjištěných hodnot od hodnot vyrovnaných, tj. ležících na trendové čáře). Nejčastěji se používá střední kvadratická chyba (Mean Squared Error):
(II.22)
MSE =
1 n ( yt − Tt )2 , n t =1
která představuje průměrnou hodnotu kvadratických odchylek měřených hodnot od trendu Tt . Počítačové programy častěji pod názvem MSE počítají (II.23)
MSE =
1 n ( yt − Tt )2 , n − p t =1
kde p je počet parametrů trendové funkce Jinou mírou adekvátnosti trendu je střední absolutní chyba:
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 73
Bankovní institut vysoká škola
MAE =
(II.24)
1 n
n
y −T t
t
t =1
vypočtená jako aritmetický průměr absolutních diferencí mezi pozorovanou a trendovou hodnotou. Je zřejmé, že čím menší je hodnota MSE nebo MAE, tím lépe vystihuje zvolený model pozorované hodnoty.
Příklad II.9 Posuďte, zda pro analytické vyrovnání časové řady vkladů z Tabulky II-8 je vhodnější trendovou funkcí parabola ve srovnání s trendovou přímkou vypočtenou v Příkladě II-8. Výpočty ze systému STATGRAPHICS uvádí Tabulka II-10. Tabulka II-9 Porovnání trendových funkcí pro vyrovnání časové řady vkladů domácností Models -----(A) Linear trend = -1,18629E8 + 59694,3 t (B) Quadratic trend = -2,49894E9 + 2,44479E6 t + -597,468 t^2 (C) Exponential trend = exp(-248,669 + 0,131121 t)
Estimation Period Model MSE MAE MAPE ME MPE -----------------------------------------------------------------------(A) 8,60266E8 21126,5 4,75839 5,73122E-9 -0,270354 (B) 8,74828E8 21759,0 5,44293 0,0946937 (C) 5,92097E9 52493,7 9,46565 -1970,54 -0,606374
Střední čtvercová chyba (MSE) i ostatní míry vhodnosti jsou nižší pro přímku, lze tedy konstatovat, že přímka je v daném případě vhodnější trendovou funkcí než parabola.
II.3.2
Adaptivní přístupy k trendové složce
V této kapitole uvedeme dva nejběžnější adaptivní postupy: -
vyrovnání klouzavými průměry
-
exponenciální vyrovnání.
Vyrovnání klouzavými průměry Vyrovnání klouzavými průměry (na rozdíl od analytického vyrovnání) spočívá v tom, že časovou řadu vyrovnáváme pomocí polynomických funkcí postupně po krátkých úsecích zvaných klouzavá část. Časovou řadu tedy nevyrovnáme jednou analytickou funkcí, která by měla stejný model v průběhu celé sledované řady, ale lomenou čarou, která se přizpůsobuje (adaptuje) na změny hodnot v časové řadě.
74
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Vyrovnání klouzavými průměry pak spočívá v nahrazení řady původních hodnot řadou průměrů vypočítaných z určitého počtu hodnot časové řady, zvané klouzavá část. Délku klouzavé části volíme následovně:
Časová řada ročních údajů Časová řada čtvrtletních údajů Časová řada měsíčních údajů Časová řada denních údajů
m = 3,5,7,... m=4 m = 12 m = 7.
Pokud použijeme k postupnému vyrovnávání přímku, mluvíme o prostých klouzavých průměrech. Vypočítané průměry se nazývají klouzavé průměry, protože při jejich výpočtu se vychází ze součtů, které postupně získáváme tak, že po časové řadě "sklouzneme" vždy o jedno období dále. Například, počítáme-li klouzavé průměry ze 3 hodnot časové řady, je první klouzavý průměr vypočten z 1.,2. a 3. hodnoty, druhý klouzavý průměr z 2.,3. a 4. hodnoty, další ze 3.,4. a 5., atd. Vypočítané klouzavé průměry vždy přiřazujeme prostřednímu období, z něhož byl průměr vypočítán. Součty pro výpočet klouzavých průměrů jsou klouzavé úhrny. Prostý klouzavý průměr délky m vypočítáme podle vzorce p
y
i ,t
ˆ m yk =
(II.25)
i =− p
m
=
yt − p + yt − p +1 + ... + yt + ... + yt + p m
.
Prostý klouzavý průměr je vypočítán jako průměr z p hodnot, které předcházejí vyrovnávané hodnotě yt,, vyrovnávané hodnoty yt a p hodnot, které za ní následují. Klouzavá část má tedy délku m = 2p + 1.
Příklad II-11 Vyrovnání ČŘ ročních údajů klouzavými průměry délky m = 3 a m = 5. Tabulka II -10 Vyrovnání časové řady klouzavými průměry
Rok 1 2 3 4 5 6 7 8 9 10
3 4 8 6 7 10 8 10 14 12
3-leté klouzavé 3-leté klouzavé 5-leté klouzavé 5-leté klouzavé úhrny průměry úhrny průměry • • • • 15 5 • • 18 6 28 5,6 21 7 35 7,0 23 7,67 39 7,8 25 8,33 41 8,2 28 9,33 49 9,8 32 10,67 54 10,8 36 12 • • • • • •
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 75
Bankovní institut vysoká škola
Následující Obrázek II-4 zobrazuje vyrovnání časové řady 3-člennými a 5-ti člennými klouzavými průměry. Povšimněte si, že vyrovnání klouzavými průměry “zhlazuje” danou časovou řadu.
Obrázek II-4 Vyrovnání časové řady klouzavými průměry
Časovou řadu čtvrtletních údajů je vhodné vyrovnat klouzavými průměry vypočtenými ze čtyř hodnot časové řady. V tomto případě se průměry vztahují k období mezi 2. a 3. hodnotou, z nichž byl průměr vypočten. Potom ale musí následovat tzv. centrování, které znamená výpočet aritmetického průměru ze dvou sousedních klouzavých průměrů. Centrovaný klouzavý průměr je již přiřazen konkrétnímu období. Příklad II-11 Vyrovnejte časovou řadu z předchozího Příkladu II-10 čtyřčlennými klouzavými průměry m = 4. Rozdíl proti předchozímu příkladu je v tom, že nyní budeme předpokládat, že data mají charakter čtvrtletních dat. (Čtyřčlenné klouzavé úhrny a čtyřčlenné klouzavé průměry umísťujeme doprostřed mezi druhé a třetí období, z nichž jsou počítány - v Tabulce II-12 není toto přiřazení přesné, z technických důvodů jsou řádky posunuté o polovinu řádku níže). Na Obrázku II-5 je grafické znázornění vyrovnání této časové řady pomocí 4-členných klouzavých průměrů Tabulka II-11 Vyrovnání časové řady centrovanými klouzavými průměry
76
Rok
yt
1 2 3 4 5 6 7 8 9 10
3 4 8 6 7 10 8 10 14 12
4-členný klouzavý úhrn
4-členný klouzavý průměr
21 25 31 31 35 42 44
5,25 6,25 7,75 7,75 8,75 10,50 11
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Centrovaný klouzavý Průměr • • 5,75 7,00 7,75 8,25 9,23 10,75 • •
Metody statistické analýzy
Obrázek II-5 Vyrovnání čtvrtletní časové řady centrovanými klouzavými průměry
Klouzavými průměry získáme vyrovnané hodnoty, které vyjadřují tendenci vývoje časové řady, nemůžeme ale provádět extrapolace, protože p posledních (ale také prvních) hodnot časové řady zůstane nevyrovnaných. Poznámka 1: Některé počítačové programy dopočítají chybějící vyrovnané hodnoty pomocí tzv. asymetrických klouzavých průměrů (v nich je nejvyšší váha přiřazena období, pro nějž se hodnoty klouzavého průměru dopočítávají). Poznámka 2: Kromě uvedených prostých klouzavých průměrů existují také vážené klouzavé průměry, u nichž k vyrovnání klouzavé části používáme jinou analytickou funkci než přímku, nejčastěji parabolu. V takovém případě jednotlivá pozorování časové řady mají přiřazené váhy Wi, které jsou souměrné podle prostřední hodnoty, největší váhu má vyrovnávaná hodnota a na obě strany od vyrovnávané hodnoty se váhy snižují. (II.26)
yˆ k ,t =
p
Wi yt +i ;
i =− p
p
W
i
= 1.
i =− p
II.3.2.1 Exponenciální vyrovnávání Druhá vyrovnávací technika, exponenciální vyrovnávání, je vhodná zejména pro provádění krátkodobých predikcí. Metoda vychází z myšlenky, že novější pozorování mají větší význam pro předpovídání dalšího vývoje, než pozorování starší. Zavedeme tedy nový pojem – stáří pozorování k (k = 0,1,...,n-1 ). (k = 0 má poslední hodnota časové řady, k = n −1 pak první hodnota časové řady). Časovou řadu hodnot y1, y2, ... , yn-1, yn (kde yn = přítomnost), přepíšeme do tvaru:
yn-k, yn-k-1,...., yn-1, yn. Parametry exponenciálního vyrovnání jsou potom odvozeny modifikovanou MNČ, v níž čtverce odchylek napozorovaných a vyrovnaných hodnot jsou násobeny vahami wk,, které jsou závislé na stáří pozorování k (k = 0,1,...,n-1 ). METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 77
Bankovní institut vysoká škola
Modifikovaná metoda nejmenších čtverců má tvar n −1
S = ( yn − k − Tn − k ) 2 wk = min . ,
(II.27)
k =0
kde k = 0,1,...,n-1 je stáří pozorování. Váhy lze vyjádřit ve tvaru
wk = α k ,
(II.28)
0< α <1 ;
k = 0,1,...,n-1.
kde α je tzv. vyrovnávací konstanta. Vyrovnávací konstanta může nabývat hodnot 0 < α < 1. Předpokládá se tedy, že váhy klesají exponenciálně směrem do minulosti. Vyrovnaná hodnota časové řady v období t (tj.
Yt ) je vypočtena jako:
t −1
Yt = (1 − α ) α j yt − j
(II.29)
0 < α < 1,
j =0
Pro první hodnotu časové řady
Y1 = y1 Pro výpočet dalších hodnot je výhodné použít rekurentní vzorec: (II.30)
Yt = (1 − α ) yt + α Yt −1
t = 2,3,...,n,
kde Yt −1 je vyrovnaná hodnota v předchozím období. Exponenciálním vyrovnáváním vypočítáme vyrovnané hodnoty časové řady jako lineární kombinaci současné hodnoty a všech minulých hodnot časové řady. Důležitým problémem v exponenciálním vyrovnávání je volba vyrovnávací konstanty α. Vyrovnávací procedura reaguje “rychle” na změny pozorovaných hodnot, je-li α blízké nule. Naproti tomu, je-li α blízké jedné, reakce na změny pozorovaných hodnot je “pomalá”. Prakticky se volí taková hodnota α , která minimalizuje hodnotu MSE. Pokud jde o predikci, poslední vyrovnaná hodnota
Yt
je současně
předpovědí Yˆt +1 pro příští časové období.
II.4
Zkoumání sezónnosti v časových řadách
U časových řad čtvrtletních nebo měsíčních údajů je důležitou informací i znalost sezónního kolísání časových řad, tj. výkyvů s periodicitou v rámci jednoho roku, nejčastěji uvažujeme čtvrtletní nebo měsíční periodicitu. Hodnoty časové řady nyní označíme yij, kde i = 1, 2, ..., m označuje roky, j = 1,2, ..., s jsou sezóny. (Počet pozorování časové řady potom tedy je n = m.s). 78
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
K měření sezónního kolísání používáme:
• sezónní (periodické) odchylky Δpij jsou definovány jako rozdíl mezi hodnotou časové řady yij a hodnotou očištěnou od sezónních vlivů.
Δ pij = y ij − Yij ,
(II.31)
kde vyrovnaná hodnota Yij může být buď průměrná hodnota časové řady, vyrovnaná hodnota analytickou funkcí
Tij
nebo klouzavý průměr
yˆ k ,ij .
Pokud časová řada nemá trend, vypočítáme sezónní odchylku jako rozdíl skutečného údaje a průměru hodnot časové řady. V případě časové řady s trendem je sezónní odchylka počítána jako rozdíl hodnoty časové řady a hodnoty vyrovnané (analytickou funkcí nebo klouzavým průměrem). Když je sezónní odchylka kladná, mluvíme o sezónním nárůstu, v případě, když je záporná, pak se jedná o sezónní pokles. Sezónní odchylky používáme jako míru sezónnosti v případě aditivního modelu časové řady.
Průměrná sezónní odchylka j-té sezóny se vypočítá podle vztahu m
Δp Δ pj =
(II.32)
j =1
m m
Δ pj =
(II.33) kde
Tij
m
(y
ij
=
m −1
(y =
− Tij ) ,
m m
Δ p ij
j =1
ij
j =1
ij
− yˆ k ,ij )
j =1
m −1
.
jsou hodnoty vyrovnané analytickou funkcí pro i - tý rok a j - tou sezónu,
yˆ k ,ij jsou hodnoty vyrovnané klouzavými průměry pro i - tý rok a j - tou sezónu. Součet průměrných sezónních odchylek přes všechny sezóny by měl být roven nule. Pokud se tento součet nule nerovná, vypočítáme rozdíl součtu průměrných sezónních odchylek od nuly a ten rovnoměrně rozdělíme k jednotlivým sezónám a tím získáme tzv. sezónní faktory, jejichž součet je roven nule.
• Sezónní (periodické) indexy pij jsou definovány jako podíl hodnoty časové řady yij a hodnoty očištěné od sezónních vlivů.
(II.34)
pij =
yij Yij
.
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 79
Bankovní institut vysoká škola
U časové řady bez trendu vypočítáme sezónní index jako poměr skutečného údaje a průměru hodnot časové řady. V případě časové řady s trendem je sezónní index počítán jako poměr hodnoty časové řady ku hodnotě vyrovnané analytickou funkcí nebo klouzavým průměrem. Sezónní indexy se vyjadřují v % a jejich hodnota minus 100 udává počet procent, o které se skutečný údaj odlišuje od průměrné hodnoty časové řady nebo od hodnoty vyjadřující trend. Když je sezónní index větší než 1 (nebo 100 %), mluvíme o sezónním nárůstu, když je menší, pak se jedná o sezónní pokles. Sezónní indexy používáme jako míru sezónnosti v případě multiplikativního modelu časové řady. Průměrný sezónní index j-té sezóny
(II.35)
pj =
m
y ij
j =1
ij
T m m
(II.36) kde
pj =
y ij
yˆ j =1
,
k ,ij
m −1
,
Tij jsou hodnoty vyrovnané analytickou funkcí pro i - tý rok a j - tou sezónu, yˆ k ,ij jsou hodnoty vyrovnané klouzavými průměry pro i - tý rok a j - tou sezónu.
Součet průměrných sezónních indexů počítaných u časové řady by měl být roven počtu sezón s (např. u čtvrtletních časových řad 4). Pokud není tato podmínka splněna, přepočítáme skutečné průměrné sezónní indexy poměrem [s / součet průměrných sezónních indexů]. Získáme tak sezónní faktory.
Příklad II-12 V následující Tabulce II-13 máme čtvrtletní data sledovaného ukazatele za tři roky. Časovou řadu: - Vyrovnejte klouzavými průměry vhodné délky. - Vypočítejte sezónní odchylky pro jednotlivá období časové řady. - Vypočítejte průměrné sezónní odchylky a sezónní faktory pro jednotlivá čtvrtletí. - Graficky znázorněte vyrovnání časové řady klouzavými průměry. Tabulka II-13 Sezónní časová řada Čtvrtl./rok
2008
2009
2010
I
510
530
550
II
530
570
580
III
560
610
610
IV
550
570
600
Protože se jedná o časovou řadu čtvrtletních dat, použijeme klouzavou část m = 4. Vypočtené centrované klouzavé průměry a sezónní odchylky uvádí následující Tabulka II-14:
80
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Tabulka II-14 Výpočetní tabulka
Období
Data yt
Centrované klouzavé průměry
Sezónní odchylky
1/I 1/II 1/III 1/IV 2/I 2/II 2/III 2/IV 3/I 3/II 3/III 3/IV
510 530 560 550 530 570 610 570 550 580 610 600
540 547.5 558.75 567.5 572.5 576.25 577.5 581.25
20 2.5 -28.75 2.5 37.5 -6.25 -27.5 -1.25
V Tabulce II-15 jsou vypočítané průměrné sezónní odchylky podle vzorce (II.33) a sezónní faktory se součtem rovným nule. Tabulka II-15 Sezónní indexy a sezónní faktory Čtvrtletí I II III IV ∑
Sezónní Sezónní odchylky faktory -28.125 -27.9688 0.625 0.78125 28.75 28.90625 -1.875 -1.71875 -0.625 0
Grafické znázornění vyrovnání časové řady centrovanými klouzavými průměry je v Obrázku II-6. Obrázek II-6 Vyrovnání časové řady centrovanými klouzavými průměry
Centrované klouzavé průměry 620 600 580 560 540 520 500 480 460 1/I
1/II
1/III
1/IV
2/I
2/II
2/III
2/IV
3/I
3/II
3/III
3/IV
čtvtrl
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 81
Bankovní institut vysoká škola
II.4.1
Sezónní očišťování
Existuje-li v časové řadě sezónní složka, může do značné míry zakrývat dynamiku sledovaných jevů a tím znemožňuje provádět objektivní srovnávání hodnot uvnitř daného roku, proto se provádí sezónní očišťování. Sezónní očišťování je jiný přístup k nalezení vývojové tendence časové řady. Při sezónním očištění vyloučíme z časové řady sezónní složku a získáme tak řadu obsahující pouze trendovou a náhodnou složku. V počítačových programech jsou očištěné hodnoty označované „adjusted data“. yot = yt − St = Tt + εt..
(II.37)
V případě aditivního modelu vypočítáme sezónně očištěná data jako rozdíl skutečné hodnoty a příslušného sezónního faktoru
y o ,ij = y ij − Δ p j ,
(II.38)
u multiplikativního modelu vypočítáme sezónně očištěná data jako podíl skutečné hodnoty a příslušného sezónního faktoru
yo,ij =
(II.39)
yij pj
.
Příklad II-13 Vyrovnejte časovou řadu čtvrtletních údajů obratů dané firmy za období I./2004 – IV./2010 klouzavými průměry, posuďte sezónnost sezónními indexy a očistěte tuto časovou řadu od sezónnosti. Data jsou uvedena v Tabulce II-16 v prvém sloupci. Výpočet klouzavých průměrů a sezónně očištěných dat pomocí programu STATGRAPHICS jsou v dalších sloupcích Tabulky II-16., v Tabulce II-17 jsou uvedeny vypočtené sezónní faktory. Na Obrázku II-7 je grafické znázornění časové řady obratu za sledované období. Obrázek II-7 Grafické znázornění časové řady obratu dané firmy 400 380 360 340 320 300 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Z nakresleného grafu časové řady obratu na obrázku II-7 je zřejmé, že časová řada nemá významný trend, proto k popisu sezónnosti můžeme použít sezónní odchylky i sezónní indexy. V příkladě ukážeme aplikaci sezónních indexů. Klouzavé průměry mají délku m = 4.
82
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Tabulka II-16 Vyrovnání časové řady obratu klouzavými průměry a sezónně očištěná data Období 2004/I 2004/II 2004/III 2004/IV 2005/I 2005/II 2005/III 2005/IV 2006/I 2006/II 2006/III 2006/IV 2007/I 2007/II 2007/III 2007/IV 2008/I 2008/II 2008/III 2008/IV 2009/I 2009/II 2009/III 2009/IV 2010/I 2010/II 2010/III 2010/IV
Data
Klouzavé průměry
302,2 321,8 345,2 334,4 319,9 343,0 367,9 350,3 339,1 360,7 386,2 361,7 340,4 357,6 378,0 356,8 336,8 351,0 368,6 344,9 324,2 348,1 370,0 348,3 338,2 355,5 378,2 361,9
328,11 332,98 338,46 343,29 347,68 352,29 356,79 360,50 362,09 361,86 360,45 358,81 357,75 356,48 354,48 351,81 348,75 346,81 346,63 347,23 349,40 352,08 354,03 356,75
Očištěná data 319,27 322,25 326,29 335,44 337,96 343,48 347,75 351,39 358,25 361,21 365,04 362,83 359,62 358,10 357,29 357,91 355,82 351,49 348,41 345,97 342,51 348,59 349,73 349,38 357,30 356,00 357,48 363,03
Tabulka II-17 Sezónní faktory v % Čtvrtletí I II III IV
Sezónní faktory 94,65 99,86 105,80 99,69
Vypočtené sezónní faktory lze interpretovat následovně: ve sledovaném období dochází v prvém čtvrtletí k sezónnímu poklesu obratu v průměru o 5,35 %, ve druhém a čtvrtém čtvrtletí k malému průměrnému sezónnímu poklesu (o 0,14 %, resp. 0,31 %), ve třetím čtvrtletí byla v průměru úroveň obratu vyšší než průměr o 5,8 % (sezónní nárůst 5,8 %). Další komplexní příklad vyrovnání sezónní časové řady včetně grafického znázornění je uveden v Příkladech na procvičení.
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 83
Bankovní institut vysoká škola
II.5
Náhodná složka časových řad
Náhodnou složku chápeme jako výsledek působení souboru náhodných vlivů a lze ji vyjádřit ve tvaru
ε t = yt − Yt .
(II.40)
V klasickém modelu časové řady o náhodné složce předpokládáme, že splňuje tři základní předpoklady: 1. střední hodnota náhodné složky je nulová, tj. že platí
E (ε t ) = 0,
(II.41)
t = 1, 2,..., n .
2. Rozptyl náhodné složky je konstantní (předpoklad homoskedasticity náhodných poruch)
D(ε t ) = σ 2 ,
(II.42)
t = 1, 2,..., n .
3. Náhodné poruchy jsou vzájemně nezávislé, tj.
cov(ε t , ε t + k ) = 0,
(II.43.)
k ≠ 0.
Pokud neplatí třetí předpoklad o nezávislosti náhodných poruch, říkáme, že náhodné poruchy jsou autokorelované (to znamená, že náhodná porucha v čase t je závislá na poruše v čase t-1). Odhadem náhodné složky je reziduum, které vypočítáme jako rozdíl empirické hodnoty a odhadu teoretické hodnoty časové řady, tj.
et = yt − Yˆt .
(II.44)
kde odhadem teoretické hodnoty časové řady je buď trendová složka, součet trendové a sezónní složky nebo klouzavý průměr. K ověřování předpokladů o náhodné složce se používají různé testy založené na reziduích. Pokud zjistíme, že není splněn některý z předpokladů o náhodné složce, potom můžeme konstatovat, že použitý model časové řady není dobrý. Uvedeme si pouze test ověřující nezávislost reziduí – Durbinův - Watsonův test, který testuje nulovou hypotézu o nulové hodnotě koeficientu autokorelace ρ :
Ho : ρ = 0 H1 : ρ ≠ 0 Testové kriterium Durbinova - Watsonova testu má tvar n
(e
t
(II.45)
d=
t =2
− et −1 ) 2
n
e
,
2 t
t =1
84
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
0< d < 4.
Metody statistické analýzy
Testové kriterium Durbinova – Watsonova testu nabývá hodnot v intervalu 0
II.6
Extrapolace časových řad
Jak již bylo řečeno v kapitole II.3.1, rozumíme extrapolací prodloužení trendu časové řady do budoucnosti. Vychází z deterministického přístupu, že analyzovaná časová řada nebude do budoucna měnit své chování. Prognóza v čase t na i období dopředu znamená odhad hodnoty časové řady v okamžiku t+i, tj. odhad hodnoty
yˆ t +i . Dobu, na kterou počítáme předpověď, nazýváme horizont předpovědi.
Metody, které použijeme k provedení prognózy, závisí na typu prognózované časové řady: -
časové řady bez trendu a bez sezónnosti extrapolujeme průměrem hodnot časové řady
(II.45) -
Pt (i) =
y,
časové řady se zřejmým trendem, který lze vyjádřit analytickou funkcí extrapolujeme tak, že dosadíme do trendové funkce horizont předpovědi i
(II.47) -
y
Pt(i) =
yˆ t +i = a + b(t + i),
u časových řad se sezónností (aditivní nebo multiplikativní model) nejdříve vypočítáme vhodné sezónní charakteristiky ( Δ
pij nebo p j ), vyloučíme sezónnost (provedeme sezónní
očištění) a pro sezónně očištěná data vypočítáme s vhodnou trendovou funkcí extrapolace na j období dopředu. K těmto extrapolacím přičteme (resp. je vynásobíme) příslušné sezónní faktory ( Δ
pij nebo p j ). Např. pro lineární trend
(II.48)
Pt (i ) = yˆ t +1 = a + b (t + i ) + Δ p j
aditivní model
(II.49)
Pt (i ) = yˆ t +1 = [a + b (t + i )] p j
multiplikativní model
-
Pro předpovědi časové řady s výkyvy, nepravidelnostmi apod. použijeme adaptivní přístupy (např. exponenciální vyrovnávání) nebo jiné metody, např. Boxovu-Jenkinsovu metodologii, kterými se v tomto kurzu nezabýváme, lze je nalézt např. v [2] nebo v [3].
Příklad II-14 Pro data z Příkladu II-13 vypočítejte extrapolace na všechna čtvrtletí roku 2011 s použitím multiplikativního modelu. METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 85
Bankovní institut vysoká škola
Sezónně očištěná časová řada z Příkladu II-13 (poslední sloupec Tabulky II-16) byla vyrovnána trendovou přímkou
T=
184,548 + 0,83167 t.
Extrapolace této sezónně očištěné řady na 4 období dopředu jsou uvedeny ve třetím sloupci Tabulky II-18. Prognózy na rok 2011 podle vzorce (II.49) získáme vynásobením extrapolací vypočtených ze sezónně očištěné řady příslušnými sezónními faktory jednotlivých čtvrtletí. Tabulka II-18 Předpovědí obratu na rok 2011
I/11
Sezónní faktory v % 94,6549
II/11
99,8594
362,526
362,016288
III/11
105,7960
363,358
384,418230
IV/11
99,6898
364,19
363,060283
Čtvrtletí
Extrapolace
Prognózy
361,695
342,362041
Podmínky použití klasických statistických metod k extrapolacím: -
časová řada musí být přiměřeně dlouhá,
-
časová řada musí mít jednoznačný trend, který lze aproximovat co nejjednodušší analytickou funkcí,
-
je třeba rozlišovat mezi krátkodobou a dlouhodobou prognózou (podle účelu),
-
statistickou analýzu je třeba provádět současně s věcnou analýzou,
-
kvalitu předpovědi posuzovat statistickými kriterii.
II.7
Korelace v časových řadách
Závislost ukazatelů v časových řadách nelze posuzovat stejnými metodami (tzn. výpočtem korelačního koeficientu) jako v případě korelace prostorové, neboť by to mohlo mnohdy vést ke zcela nesprávným závěrům o existenci závislosti. U ukazatelů sledovaných v časových řadách se může mnohdy jednat o zdánlivou korelaci, která je způsobena buď paralelismem časových řad (tj. podobným průběhem) nebo je to projev autokorelace časových řad. Autokorelací časových řad rozumíme korelační závislost mezi jednotlivými pozorováními časové řady. Existenci autokorelace ověřujeme výpočtem koeficientu autokorelace 1. řádu (korelace za sebou následujících členů časové řady), resp. koeficientů autokorelace vyšších řádů nebo aplikací Durbinova - Watsonova testu (počítá jej většina statistických počítačových programů).
86
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Při zjištění autokorelace v časových řadách postupujeme následujícím způsobem: -
vyloučíme systematickou složku (trend, resp. i sezónnost), tzn. osamostatníme náhodnou složku časové řady, získáme tzv. rezidua:
(II.50)
e yi = y i − Yi ,
(II.51)
e xi = xi − X i ,
-
ověříme neautokorelovanost reziduí Durbinovým - Watsonovým testem
(hodnoty testového kriteria Durbinova - Watsonova testu nabývají hodnot pouze v intervalu < 0 ; 4 >, nezávislost vyjadřují hodnoty testového kriteria d blízké 2), -
pokud rezidua nejsou autokorelovaná, vypočítáme korelační koeficient reziduí
-
z výše korelačního koeficientu reziduí
reyex ,
rexey usuzujeme na těsnost závislosti mezi y a x.
Příklad II-15 V restauraci byla 10 následujících dní sledována polední a večerní tržba. Chceme posoudit, jestli existuje závislost mezi polední a večerní tržbou. Data uvádí Tabulka II-19. Tabulka II-19 Časové řady polední a večerní tržby T 1 2 3 4 5 6 7 8 9 10
Večer yt 175 176 177 180 183 183 186 182 186 188 1816
Poledne xt 37 39 38 38 42 45 41 44 45 42 411
Na Obrázku II-8 je znázorněn průběh obou časových řad. Z grafu vidíme, že se polední i večerní tržby vyvíjejí podobně a hodnoty obou časových řad mají mírně rostoucí trend. Potřebné výpočty reziduí jsou v Tabulce II-20.
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 87
Bankovní institut vysoká škola
Obrázek II-8 Řada údajů polední a večerní tržby 200 150 100 50 0 1
2
3
4
5
6
7
8
9
10
Pokud bychom chtěli hodnotit závislost večerní a polední tržby nám známým korelačním koeficientem, pak bychom vypočítali, že korelační koeficient původních dat rytxt = 0,7278. Tento koeficient by představoval silnou, statisticky významnou závislost večerní a polední tržby, ale výpočtem DurbinovaWatsonova testu bychom zjistili, že se jedná o zdánlivou korelaci (v našem případě vidíme zjevný paralelismus obou časových řad).
• Vypočítáme proto trendové funkce pro obě časové řady
T y = 173,933 + 1,394 t Tx = 36,800 + 0,782 t.
• Zbavíme obě časové řady trendových složek a vypočítáme rezidua ey a ex, (výpočet reziduí je v Tabulce II-20) Tabulka II-20 Rezidua večerní a polední tržby t 1 2 3 4 5 6 7 8 9 10
Večer yt 175 176 177 180 183 183 186 182 186 188 1816
Poledne xt 37 39 38 38 42 45 41 44 45 42 411
ey
ex
-0,32727 -0,72121 -1,11515 0,49091 2,09697 0,70303 2,30909 -3,08485 -0,47879 0,12727 0
-0,58182 0,63636 -1,14545 -1,92727 1,29091 3,50909 -1,27273 0,94546 1,16364 -2,61818 0
• Ověříme kvalitu reziduí Durbin-Watsonovým testem (vzorec II.45)
d e y = 2,09283
dex =
2,05702.
Hodnoty Durbin-Watsonova testem testu mají hodnoty blízké 2, tedy ukazují, že rezidua nejsou autokorelovaná.
88
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
• Vypočítáme korelační koeficient reziduí
re y ex = − 0,058 . Z výše korelačního koeficientu reziduí plyne, že ukazatele y a x jsou nezávislé, nelze tedy na základě polední tržby dělat předpoklady o večerní tržbě.
Opožděná (asynchronní) korelace V časových řadách se někdy vliv určitého ukazatele neprojevuje ve stejném období, ale s určitým časovým posunem (lagem). Závislost mezi ukazateli takových řad zkoumáme stejnými metodami jako korelaci mezi ukazateli stejných časových období, ale musíme uvažuvat vliv jedné proměnné posunutý o lag.
II.8
KONTROLNÍ OTÁZKY
Co chápeme pojmem očištění sezónních variací? Jaký je rozdíl mezi úsekovou a okamžikovou časovou řadou? Co vystupuje jako váha při výpočtu chronologického průměru? Je třeba k výpočtu průměrného koeficientu růstu znát všechny hodnoty časové řady? Co chápete pod pojmem dekompozice časové řady? Jaké druhy grafů použijeme k zobrazení časové řady? Jakou metodu použijeme k odvození parametrů trendové přímky? Lze použít MNČ pro odvození parametrů trendové exponenciály? Jaký efekt má vyrovnání časové řady klouzavými průměry? Bude “hladší” čára klouzavých průměrů pro délku klouzavé části m = 3 nebo m = 5 ? Kdy mluvíme o prostých klouzavých průměrech? Z kolika hodnot časové řady je vždy vypočítán centrovaný klouzavý průměr pro délku klouzavé části m=4? Patří centrované klouzavé průměry do prostých klouzavých průměrů a proč? V čem spočívá princip exponenciálního vyrovnávání? V jaké situaci použijeme k posouzení sezónnosti sezónní indexy a kdy sezónní odchylky? Co jsou sezónní faktory? Jaké složky obsahuje sezónně očištěná časová řada? Jaké znáte metody sezónního očištění časové řady? Podle čeho byste vybrali vhodný model časové řady? Jaké vlastnosti musí splňovat náhodná složka časové řady? METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 89
Bankovní institut vysoká škola
Co plyne ze zjištění, že některý z předpokladů o náhodné složce není splněn? Za jakých podmínek lze použít klasické metody časových řad k prognózám? Jak postupujeme v případě korelace ukazatelů, které jsou v časových řadách? Co chápeme „lagem“ v časových řadách?
II.9
PŘÍKLADY NA PROCVIČENÍ
P.II.1 T-1.
Vypočítejte průměrný počet dopravních nehod v ČR v letech 2004-2008 uvedených v tabulce Tabulka T-1 ROK
2004
2005
2006
2007
2008
Počet nehod
1316
1261
1087
1248
1167
P.II.2 V Tabulce T-2 máme k dispozici údaje o průměrné míře registrované nezaměstnanosti k 31.12. v letech 2004 – 2009. Vypočítejte průměrnou míru nezaměstnanosti v daném období. Tabulka T-2 ROK
2004
2005
2006
2007
2008
Míra nezaměstnanosti
9,47
8,88
7,67
5,98
5,96
P.II.3 Vypočítejte průměrný počet pracovníků v podniku na základě dat v Tabulce T-3. Tabulka T-3 Datum
1.1.
1.2.
1.4.
1.7.
1.9.
1.10.
1.11.
31.12.
Počet
87
89
96
100
114
116
120
130
P.II.4 Charakterizujte časovou řadu údajů za roky 2002 - 2009 uvedenou v Tabulce T-4 průměrným přírůstkem a průměrných koeficientem růstu. Posuďte, zda v letech 2003 - 2008 byl růst rychlejší než v celém období. Tabulka T-4 Rok yt
2002
2003
2004
2005
2006
2007
2008
2009
2
5
8
12
6
3
9
12
P.II.5 Časovou řadu údajů za léta 2002 – 2009 z Tabulky T-5: a) vyrovnejte přímkou, b) vypočítejte vyrovnané hodnoty, c) odhadněte hodnotu ukazatele v roce 2010 a v r. 2011 za předpokladu neměnného vývoje,
90
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
d) vypočítejte rezidua, e) vypočítejte střední čtvercovou chybu (MSE). Tabulka T-5 Rok
2002
2003
2004
2005
2006
2007
2008
2009
2
5
9
12
15
14
14
12
yt
P.II.6 Data Příkladu II.5 byla vyrovnána také trendovou parabolou a exponenciální funkcí. Posuďte, která trendová funkce je nejvhodnější na základě uvedených chyb (viz Tabulka T-6) Tabulka T-6 Models: (A)
Linear trend = 0,107143 + 2,47619 t
(B)
Quadratic trend = -0,0714286 + 2,58333 t + -0,0119048 t^2
(C)
Exponential trend = exp(0,939205 + 0,286078 t)
Model
MSE
MAE
--------------------------------(A)
0,6627
0,5268
(B)
0,7904
0,5416
(C)
7,4704
1,8151
P.II.7 Časovou řadu údajů v Tabulce T-7 za období 2003 – 2010 vyrovnejte přímkou a. vypočítejte extrapolace na roky 2011 – 2013. Tabulka T-7 Rok
2003
2004
2005
2006
2007
2008
2009
2010
yt
178
186
211
235
260
250
272
270
P.II.8 Vyrovnejte časovou řadu 10 období uvedenou v Tabulce T-8 klouzavými průměry délky m = 3 a m = 5 a graficky je znázorněte původní řadu i řadu vyrovnaných hodnot. Tabulka T-8 Rok
1
2
3
4
5
6
7
8
9
10
yt
3
8
1
6
8
10
6
8
13
6
P.II.9 Proveďte sezónní očištění časové řady uvedené v Příkladě II-12 v textu kapitoly II. ►► P.II.10 (výpočetně náročnější příklad, nepovinné). Vypočítejte extrapolace na následující rok (tj. na 4 čtvrtletí) u časové řady z Příkladu P. II.9.
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 91
Bankovní institut vysoká škola
VÝSLEDKY PŘÍKLADŮ P.II.1 Úseková časová řada. Průměrný počet dopravních nehod ve sledovaném období byl 1215,8. P.II.2 Prostý chronologický průměr. Průměrná míra registrované nezaměstnanosti byla ve sledovaném období 7,56. P.II.3 Chronologický průměr (vážený). Průměrný počet pracovníků ve sledovaném roce je 105. P.II.4 Absolutní přírůstky a koeficienty růstu uvádí následující Tabulka T-9. Tabulka T-9 yt 2
Δ yt X
kt x
5
3
2,5
8
3
1,6
12
4
1,5
6
-6
0,5
3
-3
0,5
9
6
3
12
3
1,33
V letech 2002 - 2009 byl průměrný přírůstek 1,4286 a průměrný koeficient růstu 1,348, tj. průměrný roční růst o 34,8 %. V letech 2003 - 2008 byl růst 1,125, tj., průměrný růst o 12,5%, tedy byl pomalejší než v celém sledovaném období. P.II.5 Potřebné výpočty pro odhad parametrů trendové přímky jsou v Tabulce T-10. Tabulka T-10 i
yt
t
t2
yt tt
1
2
1
1
2
2
5
2
4
10
3
9
3
9
27
4
10
4
16
40
5
12
5
25
60
6
14
6
36
84
7
18
7
49
126
8
20
8
64
160
Σ
90
36
204
509
Výpočty parametrů trendové přímky n
b=
t =1
n
n
t =1 n
t =1
n tt2 − ( tt ) 2 t =1
92
n
n. tt yt − yt tt =
8.509 − 90.36 = 2,476 8.204 − 36 2
t =1
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
a = y − bt =
90 36 − 2,476 = 0,107 8 8
Model: Lineární trend T= 0,107 + 2,476 t b) Vyrovnané hodnoty dostaneme dosazením do trendové funkce za t hodnoty 1,2,…,8. Výpočty uvádí Tabulka T-11. Tabulka T-11 t
Data
Vyrovnané Hodnoty
Rezidua
yt - Tt
e2
1 2 3 4 5 6 7 8
2 5 9 10 12 14 18 20
2,583 5,059 7,536 10,012 12,488 14,964 17,441 19,917
-0,583 -0,059 1,464 -0,012 -0,488 -0,964 0,559 0,083
0,3399 0,0035 2,1433 0,0001 0,2381 0,9292 0,3125 0,0069
c) do vypočítané trendové funkce dosadíme za hodnotu časové proměnné t hodnotu 9 a 10. T2010 = 0,107 + 2,476. 10 = 22,393 T2011 = 0,107 + 2,476. 11 = 24,869 d) Rezidua vypočítáme jako rozdíl zjištěných a vyrovnaných hodnot
e)
MSE =
yt - Tt .
1 n 3,97362 ( yt − Tt ) 2 = = 0,6627. 8−2 n − p t =1
P.II.6 Podle MSE i MAE je nejvhodnější trendovou funkcí přímka. P.II.7 Potřebné výpočty pro nalezení trendové přímky jsou v následujících tabulkách Tabulce T-12 a Tabulce T-13. Výpočty parametrů trendové přímky
b=
8.8987 − 1862.36 = 14,47 8.204 − 36 2
a=
1862 36 − 14,476 = 167,607 8 8
Lineární trend T = 167,607 + 14,47 t .
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 93
Bankovní institut vysoká škola
Tabulka T-12 Rok
yt
t
t2
yt tt
2003
178
1
1
178
2004
186
2
4
372
2005
211
3
9
633
2006
235
4
16
940
2007
260
5
25
1300
2008
250
6
36
1500
2009
272
7
49
1904
2010
270
8
64
2160
Σ
1862
36
204
8987
Tabulka T-13 Extrapolace časové řady Rok
t
yt
2003
1
178
Vyrovnané hodnoty 182,083
2004
2
186
196,559
2005
3
211
211,035
2006
4
235
225,511
2007
5
260
239,987
2008
6
250
254,463
2009
7
272
268,939
2010
8
270
283,415
2011
9
.
297,891
2012
10
.
312,367
2013
11
.
326,843
P.II.8 Vypočítané 3-členné a 5-členné klouzavé průměry uvádí Tabulka T-14, grafické zobrazení vyrovnání časové řady klouzavými průměry Obrázek O1. Tabulka T-14 yt
3-kp
5-kp
3 8
4
1
5
5,2
6
5
6,6
8
8
6,2
10
8
7,6
6
8
9
8
9
8,6
13
9
6
94
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
Obrázek O1 Extrapolace časové řady
P.II.9 Sezónně očištěné hodnoty vypočítané podle vzorce (II.38) jsou uvedené v Tabulce T-15. V Obrázku O2 je znázorněná původní a sezónně očištěná časová řada dat Příkladu II.9. Tabulka T-15 Sezónně očištěná data
1/I
Původní data yt 510
Sezónně očištěná data yot 537.9688
1/II
530
529.2188
1/III
560
531.0938
1/IV
550
551.7188
2/I
530
557.9688
2/II
570
569.2188
2/III
610
581.0938
2/IV
570
571.7188
3/I
550
577.9688
3/II
580
579.2188
3/III
610
581.0938
3/IV
600
601.7188
Období
Obrázek O 2 Sezónně očištěná řada 620 600 580
yt
560
yot
540 520 500 1
2
3
4
5
6
7
8
9 10 11 12
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 95
Bankovní institut vysoká škola
P.II.10 Data i potřebné výpočty jsou uvedeny v Tabulce T-16. Ze sezónně očištěných dat uvedených v Tabulce T-16 (sloupec 2) vypočítáme trendovou přímku:
T = 525, 7718 + 5.907 t. Dosazením do této trendové funkce za hodnoty času t = 13,14,15,16 vypočítáme extrapolace (viz. sloupec 3). K těmto extrapolacím připočteme sezónní faktory (sloupec 4). Výsledné extrapolace na další rok jsou uvedeny ve sloupci 5 Tabulky T-16. Tabulka T-16 Extrapolace sezónní časové řady
96
Extrapolace. z yot
Sezónní faktory
Extrapolace se sezónností
.
602,5077
-27,9688
574,5389
14
.
608,4146
0,78125
609,1959
15
.
614,3215
28,90625
643,2278
16
.
620,2284
-1,71875
618,5097
t
yot
1
537,9688
2
529,2188
3
531,0938
4
551,7188
5
557,9688
6
569,2188
7
581,0938
8
571,7188
9
577,9688
10
579,2188
11
581,0938
12
601,7188
13
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
II.10
ZÁKLADNÍ VÝRAZY
abscissa
osa úseček
absolute increase
absolutní přírůstek
additive model
aditivní model
adjusted data
sezónně očištěna data
ascending function
rostoucí funkce
autocorrelation
autokorelace
centered moving average
centrovaný klouzavý průměr
coordinate
souřadnice
chronologic mean
chronologický průměr
curve
křivka
cyclical component
cyklická složka
deseasonalized time series
časová řada s eliminovanou sezónní složkou
descending function
klesající funkce
exponential smoothing
exponenciální vyrovnávání
exponential trend
exponenciální trend
extreme value
extrémní hodnota
fitting
vyrovnání, prokládání
fitting with mowing averages
vyrovnání klouzavými průměry
fixed base index
bazický index
forecasting
předpovídání
fluctuations
výkyvy, kolísání
growth coefficient
koeficient růstu
increment
přírůstek
interval length
délka intervalu
interval series
intervalová řada
lag
časový posun
linear trend
lineární trend
logistic curve
logistická křivka
long-term movement
dlouhodobý pohyb
mean absolute error
střední absolutní chyba
mean error of prediction
střední chyba předpovědi
mean growth rate
průměrné tempo růstu
mean square error
střední kvadratická chyba
mixed model
smíšený model
moment series
okamžiková řada
monthly periodicity
měsíční periodicita
moving averages
klouzavé průměry
moving part
klouzavá část METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD 97
Bankovní institut vysoká škola
moving total
klouzavý úhrn
multiplicative model
multiplikativní model
ordinate
osa pořadnic
period
období
periodic term
periodická složka
periodicity
periodicita
period of survey
období zjišťování
pie chart
koláčový (výsečový) graf
prediction
předpověď, predikce
predicted value
hodnota předpovědi
proportional seasonality
proporcionální sezónnost
quadratic trend
kvadratický trend
quaeter
čtvrtletí
quaeterly periodicity
čtvrtletní periodicita
random component, irregular component
náhodná složka, nepravidelná složka
ratio-to-moving-average
poměr měřené hodnoty ke klouzavému průměru
seasonal component
sezónní složka
seasonal index
sezónní index
seasonal variation
sezónní kolísání
seasonally adjusted time series
sezónně očištěná časová řada
secular trend
dlouhodobý trend
series
řada
short-term
krátkodobý
simple moving average
prostý klouzavý průměr
slope
sklon, směrnice
smoothing
vyrovnání, vyhlazení
smoothing constant
vyrovnávací konstanta
straight line
přímka
systematic component
systematická složka
time independent
nezávislý na čase
time interval
časový interval
time point
časový okamžik
time scale
časová stupnice
time series
časová řada
time series correlation
korelace časových řad
trend analysis
analýza trendu
trend curve
křivka trendu
trend-free series
řada bez trendu
weighted moving average
vážený klouzavý průměr
yearly period
roční období
98
METODY ANALÝZY A EXTRAPOLACE ČASOVÝCH ŘAD
Metody statistické analýzy
III
MARKETINGOVÉ PRŮZKUMY
Marketingové průzkumy jsou součástí procesu marketingového řízení firmy. Marketingovými průzkumy se obvykle rozumí shromažďování, zpracování a vyhodnocování údajů, které jsou nezbytné pro úspěšné marketingové řízení firmy. Těmito průzkumy se zjišťuje podnikatelské prostředí, trhy, názory zákazníků, potřeby, vnější i vnitřní možnosti firmy, konkurenční prostředí, údaje o kupním chování podniků, domácností i individuálních spotřebitelů, údaje o odezvě spotřebitelů na nové výrobky, údaje o konkurenci, údaje charakterizující účinnost reklamy a řada jiných potřebných údajů. Průzkumy v oblasti trhu, názorů a veřejného mínění se zabývají specializovaná pracoviště. V těchto skriptech jsou uvedeny pouze základní přístupy a statistické postupy, využitelné ve firemní praxi. Podrobnější informace je nutno hledat ve specializované literatuře, např. v [13], [14], [, [16], [17], [7].
III.1
Způsoby zjišťování údajů a výběrové postupy
V marketingových průzkumech se pracuje se dvěma zdroji dat: sekundárními a primárními. Rozdíl mezi nimi je v účelu, pro který byla data získána. Sekundární data byla získána k jinému účelu a nejsou určena jen pro průzkumy, většinou nepokrývají potřeby konkrétního průzkumu, mnohdy je lze využít z části. Patří sem např. různé statistické přehledy, registry, katalogy, databáze apod. Například údaje z Českého statistického úřadu o stavu a pohybu obyvatelstva v podrobném územním členění, data statistiky rodinných účtů o příjmech, výdajích a spotřebě domácností v členění podle typů domácností a příjmových skupin, data mikrocensů apod. Rovněž sem lze zařadit výsledky některých dřívějších průzkumů specializovaných agentur prováděných v příslušné oblasti. Pokud je možno při marketingovém výzkumu využít sekundární data, bývá to výhodné, protože tím se celý výzkum zlevní. Je ale důležité znát informace o metodice získání a vyhodnocování takových dat a rovněž mít informace o věrohodnosti sekundárních údajů. Pro potřeby marketingových výzkumů je možno sekundární data získat buď zdarma nebo za úplatu. Primární data jsou originální údaje shromažďované přímo pro daný průzkum. Zdrojem primárních dat je zkoumaná jednotka, např. firma, domácnost, jednotlivec, prodejna apod.
III.1.1 Způsoby zjišťování údajů Při průzkumech trhu a výzkumech veřejného mínění se používá celá řada postupů zjišťování primárních dat komunikací s dotázaným. Mezi nejužívanější nástroje výzkumu využitelné i ve firemní praxi patří: - vyplňování písemných dotazníků nebo anketních lístků. Dotazník může mít různou formu, např. uveřejněnou v časopise, rozdávanou zákazníkům, rozesílanou poštou se žádostí o vyplnění apod. Nevýhodou je nemožnost kontrolovat výběrovou proceduru, většinou je nízká návratnost dotazníků, výsledky nemohou být přesné, mohou sloužit pouze pro informaci. - dotazování je nejrozšířenější způsob získávání údajů při průzkumech a může mít různé formy. Tazatel buď přímo vyhledá dotázaného, např. doma nebo ho zastaví na ulici apod. nebo se může jednat o telefonický dotaz, který se většinou používá k získání rychlé odezvy, např. na televizní pořad, marketingové průzkumy 99
Bankovní institut vysoká škola
určitou událost apod. U nás je dosud méně častý dialog dotázaného s počítačem (pomocí e-mailu), ale tato forma dialogu se rychle rozvíjí. - volnější scénář rozhovoru. Předpokladem je dobře proškolený tazatel – tuto formu používají specializované firmy. Ve všech metodách je základní jednotkou výzkumného nástroje otázka, na níž může existovat určitá škála odpovědí. Specializované firmy nebo organizace zabývající se prováděním průzkumů obvykle disponují tzv. tazatelskou sítí, což jsou pracovníci najatí a vyškolení k provádění průzkumů, kteří získávají odpovědi na zjišťované otázky. Podrobnější informace o technikách pořizování primárních dat lze najít ve specializované literatuře, z uvedených zdrojů např. v [13], [14], [15], [16], [17].
III.1.2 Výběrové postupy V oblasti průzkumu trhu, marketingových průzkumech, sociologických výzkumech a v průzkumech veřejného mínění se pracuje pouze na základě výběrových šetření. Vedle klasických náhodných výběrů popsaných ve skriptech Pravděpodobnost a statistika (kapitola IV.1) se používají i další výběrové techniky, jimiž lze pořídit výběrový soubor: anketa, metoda základního masivu a záměrný výběr. Musíme si však uvědomit, že z informací získaných z výběru, který nesplňuje podmínky náhodnosti, nemůžeme v mnoha případech provádět objektivní pravděpodobnostní závěry. Anketa zpravidla oslovuje pouze určitou vybranou část statistických jednotek (jednotlivců, podniků, apod.). Informace se získávají většinou z dotazníků, které byly rozeslány určitému okruhu respondentů nebo na které určitá skupina respondentů odpověděla (např. anketa v časopise, ve firmě). Informace získané anketním šetřením nelze považovat za obecně platné, jejich zobecnění na celou populaci je riskantní. Metodu základního masivu je možné použít v případech, kdy se základní soubor skládá z několika velkých jednotek (např. podniků) a velkého počtu malých jednotek (např. drobných výrobců). Šetření se provede pouze ve velkých jednotkách a malé se vynechají. Metoda má výhodu ve snížení nákladů na šetření, získané výsledky ale nelze bez problémů zobecnit, protože nevystihnou specifika malých jednotek. Při záměrných výběrech skupina odborníků (nebo znalec) vybere jednotky, které považuje za typické. Záměrný výběr je často vytvářen jako kvótní výběr. Jeho základní myšlenkou je získat výběrový soubor, který by byl zmenšeninou základního souboru a zajišťoval stejnou strukturu některých znaků výběrového a základního souboru, např. shodné procento domácností zaměstnaneckých, dělnických, důchodců, nezaměstnaných atd. ve výběru jako je v celém základním souboru, stejné věkové složení, stejná vzdělanostní struktura apod. Tazatelé provádějí kontaktování vybraných osob a získávají od nich informace podle instrukcí, které obsahují zadání úkolu a kvóty ve formě rozdělení četností. V průzkumech veřejného mínění se zkoumají názory, postoje a určité aktivity obyvatelstva. Výběr může být prováděn jako pravděpodobnostní (náhodný) na základě opory výběru, kterou může být např. registr obyvatelstva, volební seznamy, seznam zákazníků určitého výrobce, seznam sídel firem určitého typu apod. Výběr jednotek lze provádět na základě opory výběru přímo nebo může být 100 marketingové průzkumy
Metody statistické analýzy
vybráno místo, zahrnující skupinu výběrových jednotek, z níž je v dalším kroku vybrána jednotka nebo jsou prošetřeny všechny jednotky skupiny. Často se používají složitější techniky výběru, a to vícestupňový výběr, při němž se například nejdříve náhodně vyberou města, v nich byty a v nich konkrétní osoby nebo oblastní výběr, při němž se základní soubor rozdělí do stejnorodějších částí (oblastí) a z nich se provádí výběr, nejčastěji jako kvótní. Při praktickém provádění výběrů založených na opoře výběru vznikají při výzkumech veřejného mínění a terénních průzkumech teoretické problémy, proto se často používají modifikované postupy, např. náhodná procházka, což je obdoba systematického výběru. Podle opory výběru je náhodně vybrána tzv. startovací adresa a od ní se stanoveným směrem vybírá každý k-tý dům nebo byt nebo firma, v nichž se provede průzkum.
III.1.3 Stanovení velikosti výběrového souboru Přesné stanovení velikosti výběru, který by zabezpečil získané odhady v požadované přesnosti, je možné pouze v případě náhodných výběrů a to vždy pouze při provádění odhadů ve spojitosti s konkrétními úsudky o parametrech základního souboru (odhad průměru, podílu apod.), jak jsme uvedli v kapitole IV. skript Pravděpodobnost a statistika.
(III.1)
n≥
u12−α / 2σ 2 u12−α / 2 V 2 = Δ2 δ2
Ve vzorci (III.1) je σ2 rozptyl a V je variační koeficient základního souboru. Musíme si uvědomit, že čím žádáme vyšší spolehlivost odhadu, tím je nutno volit větší rozsah výběru (např. při 95% spolehlivosti odhadu je třeba mít 1,4 krát větší rozsah výběru než při spolehlivosti 90%). Je třeba si uvědomit, že při spolehlivosti odhadu 95 % vede zmenšování přípustné chyby na polovinu ke čtyřnásobnému zvýšení rozsahu výběru. Při velké variabilitě je nutno volit větší rozsah výběru. U číselných proměnných, které se sledují ve výzkumech veřejného mínění a v průzkumech trhu, se nejčastěji vyskytují hodnoty variačního koeficientu od 0,3 do 1,0; jim odpovídá při 95% spolehlivosti rozsah výběru od 217 do 1537. Při použití metody kvótního výběru se v průzkumech trhu a ve výzkumech veřejného mínění považují za dostatečně spolehlivé výsledky získané z výběru 500 jednotek (osob), nejčastější jsou výběrové soubory kolem 1000 osob.
III.2
Vybrané metody používané ke zpracování údajů získaných ve výběru
K metodám, používaným ke zpracování údajů marketingových výzkumů, patří především běžné statistické postupy, jakými je uspořádání údajů do tabulek, jejich grafické znázornění a výpočty charakteristik úrovně a variability, s nimiž jsme se seznámili v popisné statistice v kapitole I. ve skriptech Statistika a pravděpodobnost.
marketingové průzkumy 101
Bankovní institut vysoká škola
Ke zpracování číselných údajů získaných z výběru formou náhodného výběru, můžeme použít metody a postupy popsané v kapitole IV.3 skript Statistika a pravděpodobnost, zejména testy o parametrech základních souborů: testy o střední hodnotě, testy o relativní četnosti, testy o rozptylu, testy rovnosti průměrů dvou závislých výběrů (párové testy, např. parametrický t–test), testy o rovnosti dvou nezávislých výběrů, testy rovnosti středních hodnot, test rovnosti rozptylů apod. Existuje ale široká oblast analýzy, kde použití parametrických testů, které jsme se učili v kurzu Pravděpodobnost a statistika, nelze nebo alespoň není vhodné používat. Ve většině takových situací lze použít neparametrických metod. Z nich si uvedeme některé neparametrické testy, které ve srovnání s odpovídajícími parametrickými testy (s nimiž jsme se seznámili ve skriptech Pravděpodobnost a statistika), mají výhodu v tom, že jsou méně citlivé na porušení předpokladů použitelnosti. Zejména je lze použít v případech, když víme, že rozdělení, z něhož byl pořízen výběr, není normální (případně, kdy rozdělení neznáme a vzhledem k rozsahu výběru nelze toto rozdělení ověřit) a zejména v případech, kdy pracujeme s malými výběry. Nevýhodou neparametrických testů je nižší síla testu než odpovídajícího parametrického testu. V průzkumech se často vyskytují odpovědi, které nejsou číselné, ale slovní (kategoriální), např. vyjádření spokojenosti s obsluhou v bance (velmi spokojen, spokojen, nespokojen) apod. K řešení úloh tohoto typu využijeme metody testování nezávislosti kategoriálních znaků popsané v kapitole I.5 těchto skript. Odpovědi (výsledky) na otázky mají často formu pořadí, nebo je lze do této podoby převést (např. uspořádáním podle velikosti). K posouzení závislosti dvou proměnných X a Y, které mají charakter pořadových čísel, je možno použít Spearmanův koeficient pořadové korelace popsaný v kapitole I.4. V této kapitole uvedeme alespoň některé další jednoduché a často používané metody, které je možno ke zpracování údajů z průzkumů použít, další je možno nalézt ve specializované literatuře, např. [13], [16], [17].
III.2.1 Porovnání struktury výběrového a základního souboru V praxi průzkumů trhu je třeba často ověřit, zda struktura výběru (např. osob podle jejich věkové struktury, zdrojů příjmu, velikosti příjmu, názorů apod.) odpovídá struktuře základního souboru, pro který chceme výsledky průzkumu zobecnit (základní souborem zde může být oblast, země, firma apod.) Splnění podmínky stejné struktury výběru a základního souboru je předpokladem, že závěry získané z výběru, lze zobecnit. Jiným typem úlohy je ověření, zda odpovědi získané z výběru, mají strukturu, která byla očekávána (předpokládána) v záměru firmy. Úlohám tohoto druhu říkáme testy shody. Jednoduchou metodou určenou k řešení takových úloh je chí-kvadrát test dobré shody popsaný v kapitole I.4 těchto skript. Je-li hodnota testového kriteria χ 2 větší než je kritická hodnota, je prokázána neshoda struktury základního a výběrového souboru a dělat zobecňující závěry na základě výběru není možné. V opačném případě lze výběrový soubor považovat za reprezentativní vzorek základního souboru. Test dobré shody je možno použít i v případě ověření shody rozdělení (struktury) výběru s předem předpokládanou strukturou, např. strukturou poskytovaných úvěrů apod. Připomeňme, že požadavkem pro použití χ 2 - testu dobré shody je, aby alespoň 80 % očekávaných (teoretických) četností bylo větších než 5 a žádná nebyla menší než 1. Splnění této podmínky se někdy zabezpečuje slučováním sousedních tříd (skupin) nebo příbuzných variant znaku. (Při 102 marketingové průzkumy
Metody statistické analýzy
slučování skupin musíme přísně dbát na to, aby slučované skupiny tvořily takový celek, který bude mít interpretovatelný smysl.)
Příklad III-1 Při marketingovém průzkumu byl získán výběrový soubor 254 respondentů starších 18 let ve struktuře dané v Tabulce III-1. Ověřte, zda struktura respondentů odpovídá struktuře obyvatelstva celé oblasti, v níž žije 29 % zaměstnanců, 20 % podnikatelů, 6 % pracujících v zemědělství, 18 % důchodců, 16 % studujících a 11 % nezaměstnaných. Tabulka III-1 Struktura 254 respondentů Výpočty
(ne,i - no,i )2
πo,i
Teoretické Četnosti no,i = n πo,i
Očekávaná struktura
Kategorie respondentů
Počet respondentů ne,i
Zaměstnanci
127
0,29
73,66
38,626
Podnikatelé
54
0,20
50,8
0,282
Zemědělci
11
0,06
15,24
1,189
Důchodci
27
0,18
45,72
7,665
Studující
20
0,16
40,64
10,483
Nezaměstnaní
15
0,11
27,94
5,993
Celkem
254
1,00
254
64,147
Teoretické četnosti jsou vypočteny podle vzorce
no,i
no,i = n πo,i.
Testové kritérium k
χ = 2
i =1
(ne,i − no,i ) 2 no,i
= 66,147 .
Kritická hodnota χ12−α (k − 1) = χ 02,95 (5) = 11,07 Hodnota testového kritéria χ 2 = 66,147 spadá do kritického oboru, zamítáme tedy na 5% hladině významnosti hypotézu H0 o souladu struktury respondentů a struktury obyvatel v oblasti. Tento závěr má ale velmi důležitý praktický důsledek: závěry, které by byly udělány na základě průzkumu u vybraného souboru respondentů, nemusí odrážet názory obyvatel dané oblasti a mohou vést k nesprávným závěrům v provedeném průzkumu.
III.2.2 Ověřování změny názorů V marketingových průzkumech často pracujeme se závislými výběry. O závislých výběrech mluvíme nejčastěji tehdy, sledujeme-li u n náhodně vybraných jednotek stejný znak ve dvou po sobě následujících obdobích nebo určitý znak u týchž jednotek při jiných podmínkách. Jednotlivá marketingové průzkumy 103
Bankovní institut vysoká škola
pozorování lze tedy chápat jako párově závislá. Příkladem může být zájem podnikatelů o určitý bankovní produkt před a po reklamě, ověření změny prodejnosti výrobku vlivem působení nějakého opatření (např. změny daňového systému, celních předpisů apod.), ověření vhodnosti různých technologických způsobů zpracování apod. "Pár" mohou tvořit také pozorování zjišťovaná na tomtéž subjektu (jednotce) ve dvou různých situacích nebo se může jednat o logický pár, např. manželský, kdy zjišťujeme od obou členů páru číselné údaje o tomtéž znaku resp. odpovědi na stejnou otázku. Posouzení změny názorů respondentů po nějaké kampani nebo vlivem nějakého opatření lze řešit např. použitím Mc Nemarova testu významnosti změn, který se obecně používá k ověření shody podílů sledované varianty alternativního znaku ve dvou souborech, z nichž byly pořízeny závislé výběry. Předpokládá se, že oba výběry mohou nabývat pouze dvou hodnot (nula a jedna, ano a ne). Sestavíme tabulku obsahující četnosti kombinací výsledků v obou výběrech (viz tabulka.III-2)
Tabulka III-2 Tabulka k testu ověřování změny názorů Názor
Po opatření
Před opatřením
0
1
0
A
B
1
C
D
Podmínkou použití testu je, aby bylo B+C > 10. Testovým kriteriem Mc Nemarova testu je výraz
G =
(III.2)
které
má
při
platnosti
( B - C - 1)2
testované
B+C hypotézy
,
rozdělení
χ12−α (1) .
Kritickou
hodnotou
je
kvantil χ 02,95 (1) = 3,84 . Změnu názorů považujeme za prokázanou, pokud hodnota testového kriteria G0 překročí kritickou hodnotu 3,84.
Příklad III-2 K ověření účinnosti televizní reklamy na změnu názorů zákazníků na určitý bankovní produkt bylo provedeno zjištění názorů náhodně vybraných 320 zákazníků jedné banky. Výsledky odpovědí uvádí Tabulka III-3. Tabulka III-3 Názory zákazníků Názor
104 marketingové průzkumy
Po kampani
Před kampaní
Příznivý
Nepříznivý
Příznivý
149
24
Nepříznivý
50
97
Metody statistické analýzy
Testové kriterium podle vzorce (III.2)
G =
( 24 - 50 - 1)2 24 + 50
= 8, 45
Kritická hodnota χ 02,95 (1) = 3,84 . Protože Go = 8,45 > 3,84, lze změnu názorů vlivem TV kampaně považovat na 5% hladině významnosti za prokázanou.
III.2.3 Test o shodě podílů v k souborech Chceme-li ověřit shodu podílů určité varianty znaku ve více než dvou souborech, má testové kriterium tvar
1 G = p (1 − p ) ∗
(III.3)
k
i =1
(mi − ni p ) 2 ni
s rozdělením χ 2 (k − 1) , kde mi je počet jednotek se sledovanou vlastností v i-tém výběru, ni je rozsah i-tého výběru,
p=
m ; n
m=
k
n=
mi ;
i =1
k
ni ; i =1
Vypočtenou hodnotu testového kriteria G* porovnáme s kritickou hodnotou χ12−α (k − 1) . Je-li hodnota testového kriteria G* větší než kritická hodnota, zamítáme předpoklad o shodě podílů sledovaného znaku v k souborech. Příklad III-3 Průzkumem provedeným u 332 osob byla zjišťována nespokojenost klientů ve čtyřech bankách. Výsledky průzkumu jsou uvedeny v tabulce III-4. Posuďte na 5% hladině významnosti rozdílnost podílu nespokojených klientů ve 4 srovnávaných bankách. Tabulka III-4 Údaje průzkumu ve srovnávaných bankách Banka
Počet klientů
Počet nespokojených
A
123
19
B
69
4
C
38
9
D
102
12
Celkem
332
44
marketingové průzkumy 105
Bankovní institut vysoká škola
p=
44 = 0,1325 . 322
Potřebné výpočty jsou uvedeny v Tabulce III-5. Tabulka III-5 Výpočty testu významnosti rozdílu nespokojených zákazníků Banka
(mi - ni p)2
1
(mi - ni p )2
ni
mi
pi
ni p
A
123
19
0,154
16,298
7,30
0,0593
B
59
4
0,058
7,812
14,53
0,2463
C
48
9
0,237
6,360
6,97
0,1452
D
102
12
0,117
13,515
2,29
0,0225
Celkem
322
44
x
43,985
31,09
0,4733
ni
Hodnota testového kriteria podle (III.2) je
G∗ =
1 .0,4733 = 4,12 0,1325. 0,8675
Vypočtenou hodnotu testového kriteria G* = 4,12 porovnáme s kritickou hodnotou rozdělení
χ12−α (k − 1) = χ 02.95 (3) = 7,81 .
Protože hodnota testového kriteria je menší než kritická hodnota,
nebyla prokázána různost podílu nespokojených klientů ve srovnávaných bankách.
III.2.4 Neparametrické testy shody průměrů dvou nezávislých výběrů Při marketingových průzkumech je další častou úlohou ověřování, zda dva soubory mají stejnou úroveň hodnot, charakterizovanou průměry. Stejná úroveň sledovaného znaku mnohdy znamená, že učiněné opatření, sledovaný faktor, změna podmínek apod. neměly vliv na celkovou změnu úrovně hodnot. Při výběru vhodného testu musíme brát v úvahu, jestli se jedná o velké výběry nebo jestli máme k dispozici pouze malý počet jednotek, z nichž byly vypočítány srovnávané průměry. Nezávislé výběry získáme v případech výběru jednotek ze dvou souborů. Rozdělení základních souborů, z nichž byly provedeny výběry, nemusí být shodné, ani rozsah srovnávaných výběrů nemusí být stejný. V případě, když základní soubory mají normální rozdělení nebo v případech, kdy rozsahy výběrů z obou základních souborů jsou velké, použijeme k ověření shody průměrů parametrický t-test uvedený ve skriptech Statistika a pravděpodobnost, kapitola IV.3.2.4, v případech, kdy rozdělení základních souborů neznáme a rozsah výběrů je malý, dáme přednost mediánovému nebo dvouvýběrovému Wilcoxonovu testu.
106 marketingové průzkumy
Metody statistické analýzy
Mediánový test Z prvého souboru je vybráno n1 jednotek, z druhého souboru n2 jednotek. Oba výběry spojíme, tím vytvoříme tzv, sdružený výběr o rozsahu
n = n1 + n 2 .
Pro sudý rozsah sdruženého výběru n je
hodnota testového kriteria mediánového testu rovna počtu pozorování prvního výběru, které leží nad
S M . Kritické hodnoty testového kriteria S M jsou
mediánem sdruženého výběru, které označíme
tabelovány (viz např. [1] nebo [4]). Pro větší výběry lze použít testové kriterium:
uM =
(III.4)
SM -
n1 2
±
n1n2 4n
1 2.
(Korekční koeficient ±1/2 je tzv. oprava na spojitost, kladnou hodnotu má v případě, když hodnota v čitateli je záporná, zápornou v případě kladné hodnoty čitatele). Vypočtenou hodnotu testového kriteria
uM porovnáme s kritickými hodnotami normovaného normálního rozdělení ua resp. u1- a
resp.⏐ u1- a / 2 ⏐ podle typu alternativní hypotézy.
Dvouvýběrový Wilcoxonův test Výběry obvykle volíme tak, aby rozsah 1.výběru byl menší nebo roven rozsahu 2. výběru. Postup testu spočívá ve vytvoření sdruženého výběru s rozsahem n a jeho uspořádání vzestupně podle velikosti. Jednotlivým hodnotám se přiřadí pořadová čísla Ri (i = 1,2,...,n). Součet pořadí hodnot prvního výběru, tj. hodnot výběru
(III.5)
Xn + 1, Xn + 2,..., Xn 1
1
X1, X 2,..., Xn
1
označíme
T1
a analogicky součet pořadí hodnot druhého
označíme T2 . Musí platit, že
T1 + T2 =
n(n + 1) 2
.
Testovým kriteriem dvouvýběrového Wilcoxonova testu je SW = T1, tj. součet všech pořadových čísel odpovídajících 1. výběru. Kritické hodnoty testového kriteria jsou tabelovány (viz např. [1] nebo [4]). Pro velké výběry je možno použít aproximace rozdělení Wilcoxonova testového kriteria normálním rozdělením a použít testové kriterium ve tvaru uvažujícího opravu na nespojitost
(III.6)
uW =
SW -
n1 (n + 1)
±
2 n1n2 (n + 1)
1 2,
12 které má při platnosti nulové hypotézy o rovnosti středních hodnot obou souborů přibližně normální rozdělení. Hypotézu zamítáme, když
uW > u1- a / 2
při dvoustranném testu nebo uW < uα resp.
uW > u1−α při jednostranných testech.
marketingové průzkumy 107
Bankovní institut vysoká škola
Příklad III-4 Banky zavádějí nový produkt. Na základě údajů z náhodného výběru 5 filiálek banky A a 8 filiálek banky B chceme posoudit na 5% hladině významnosti, zda ve sledovaném zaváděcím období lze považovat obě banky za stejně úspěšné. U filiálek banky A byly zjištěny tyto počty uzavřených smluv: 135, 124, 164, 119 a 138. U banky B: 103, 174, 98, 110, 118, 134, 102 a 122. U neparametrických testů se nejčastěji bere za charakteristiku střední hodnoty výběrový medián. Testujeme tedy nulovou hypotézu
H0 : ~ x1 = ~ x2 . Alternativní hypotézu uvažujeme oboustrannou
H1 : ~ x1 ≠ ~ x2 (bylo by možno i uvažovat, že banka A je úspěšnější, tedy alternativní hypotézu jednostrannou). Hypotézu ověříme pomocí mediánového i pomocí Wilcoxonova dvouvýběrového testu. Potřebné výpočty jsou v tabulce III-6. (Ve sloupci „počet smluv“ je sdružený výběr, v dalším sloupci je uspořádání sdruženého výběru podle velikosti, poslední sloupec uvádí pořadí jednotlivých filiálek sdruženého výběru podle počtu uzavřených smluv.) Tabulka III-6 Data a výpočty mediánového a Wilcoxonova test i
Počet smluv
1 2 3 3 4 5 6 7 8 10 11 12 13
135 124 164 119 138 103 174 98 110 118 134 102 122
Uspořádaný výběr 98 102 103 110 118 119 122 124 134 135 138 164 174
Pořadí počtu smluv 10 8 12 6 11 3 13 1 4 5 9 2 7
Pro výpočet mediánového testu musíme nejdříve najít medián sdruženého výběru. Je jím sedmá hodnota uspořádaného výběru, tj,
~ x = 122 . Nad mediánem sdruženého výběru leží 4 jednotky prvého výběru, tedy SM = 4. . Testové kriterium mediánového testu podle vzorce (III-4)
108 marketingové průzkumy
Metody statistické analýzy
. uM
=
4−
5 1 − 2 2 = 1,14 5.8 4.13
Kritické hodnoty : u0,975 = 1,96; u0,025 = -1,96; u0,95 = 1,645. Hodnota testového kriteria leží v oboru přijetí jak pro případ oboustranné, tak i jednostranné alternativní hypotézy. Testovanou hypotézu na 5% hladině významnosti nezamítáme. Pro výpočet testového kriteria Wilcoxonova testu sečteme pořadí všech jednotek prvého výběru (banky A): SW = 47.. Testové kriterium Wilcoxonova testu podle vzorce (III-6)
uw =
47 −
5.14 1 − 2 2 = 1,68. 5.8.14 12
Kritické hodnoty :
u0,975 = 1,96; u0,025 = -1,96; u0,95 = 1,645.
Hodnota testového kriteria Wilcoxonova testu pro případ oboustranné alternativní hypotézy leží v oboru přijetí, pro případ jednostranné alternativní hypotézy leží v kritickém oboru. Tedy testovanou hypotézu o stejné úrovni uzavřených smluv v obou bankách na 5% hladině významnosti nezamítáme, pokud je otázkou jen zjištění, jestli se počty statisticky významně odlišují. Pokud bychom ale rovnou předpokládali, že úroveň je vyšší v bance A (tj., pokud bychom použili jednostrannou alternativu), pak na 5% hladině významnosti můžeme tvrdit, že banka A je úspěšnější.
III.2.5 Kruskalův-Wallisův test (neparametrická analýza rozptylu) Kruskalův-Wallisův test slouží k ověření shody úrovně spojitého sledovaného znaku v k nezávislých výběrech. Rozsahy výběrů nemusí být stejné, ale požaduje se, aby všechny byly větší než 5. Testovaná hypotéza předpokládá, že všech k výběrů pochází ze stejného základního souboru nebo ze souborů, které mají stejnou úroveň zkoumaného spojitého znaku, testuje tedy hypotézu
H 0 : μ1 = μ 2 = ... = μ k . Alternativní hypotéza toto tvrzení popírá. Nejčastěji používaný tvar testové statistiky Kruskalova-Wallisova testu je dán vzorcem:
(III.7)
Q KW =
12 n(n + 1)
k
T j2
n j =1
− 3(n + 1) ,
j
marketingové průzkumy 109
Bankovní institut vysoká škola
kde k je počet výběrů, nj je počet jednotek v j-tém výběru, n je celkový rozsah výběru n = nj, Tj je součet pořadí jednotek náležejících j-tému výběru. Když existují shodná pozorování, přiřazuje se jim průměrné pořadí vypočtené jako aritmetický průměr pořadí ve shodných jednotkách. Vlastní postup Kruskalova-Wallisova testu spočívá ve spojení hodnot všech k výběrů do jediného souboru s rozsahem n = nj, uspořádání hodnot sdruženého výběru a přiřazení pořadových čísel od 1 do n. Pro každý výběr pak vypočítáme součet pořadí jednotek příslušejících do k-tého výběru, který označíme Tj. Pokud je v každé skupině nj > 5 pozorování, pak při platnosti nulové hypotézy má veličina
QKW přibližně
rozdělení χ 2 ( k − 1) . Jestliže je hodnota testového kriteria
QKW větší
než
kvantil χ12−α (k − 1) , zamítáme hypotézu o shodě úrovně testovaného znaku ve všech skupinách. Pokud Kruskalovým-Wallisovým testem zamítneme testovanou hypotézu o shodné úrovni sledovaného znaku ve všech skupinách, je užitečné posoudit, které skupiny se vzájemně významně odlišují. V případě, kdy všech k výběrů má stejný rozsah, tj., když platí
n1 = n2 = ... = nk = m
(říkáme, že jde o vyvážené třídění), je možno použít k posouzení, které dvojice se liší, tzv. Neményiho metodu vícenásobného porovnání. Tato metoda spočívá ve výpočtu rozdílů a jejich porovnání s kritickou hodnotou. Je-li
Ti - Tj
Ti - Tj
větší nebo rovno tabelované kritické hodnotě,
zamítáme nulovou hypotézu o shodnosti středních hodnot srovnávané dvojice. Postup opakujeme pro všech k(k-1)/2 dvojic
Ti - Tj
. Pro m < 16 a k < 10 pro α = 0,05 a α = 0,01 existují tabulky kritických
hodnot pro vícenásobné porovnávání na základě pořadí. (Tabulky viz např. [1] nebo [4].).
Příklad III-5 U přijímacích zkoušek sledujeme počty bodů z matematiky a chceme pro rychlou předběžnou informaci posoudit, jestli výsledky jsou závislé na typu absolvované střední školy: gymnázium, průmyslovka, obchodní akademie, ostatní střední školy. Náhodně vybereme 8 písemek studentů každého z uvažovaných typů školy. Údaje uvádí Tabulka III-7. Pro test použijeme 5% hladinu významnosti. Pro provedení testu spojíme hodnoty všech čtyř výběrů do jednoho souboru s rozsahem n = 32, ve druhém sloupci uspořádáme hodnoty spojeného výběru a přiřadíme jim pořadová čísla od 1 do 32. Pro každý výběr pak vypočítáme součet pořadí jednotek příslušejících do k-tého výběru, který označíme Tj Potřebné výpočty obsahuje tabulka III-8.
110 marketingové průzkumy
Metody statistické analýzy
Tabulka III-7 Výsledky testů vybraných studentů Student/škola
Gymnázium
Průmyslovka
1 2 3 4 5 6 7 8
78 95 47 78 85 96 75 83
93 74 58 85 60 72 67 59
Obchodní akademie 32 72 65 41 67 52 53 70
Ostatní střední školy 84 42 54 76 69 61 71 66
Tabulka III-8 Výpočetní tabulka Kruskalova-Wallisova testu i
Počet bodů xi
1 2 3 4 5 6 7 8
78 95 47 78 85 96 75 83
Uspořádaný výběr 32 41 42 47 52 53 54 58
93 74 58 85 60 72 67 59
59 60 61 68 66 67 67 68
32 72 65 41 67 52 53 70
70 71 72 72 74 75 76 78
84 42 54 76 69 61 71 66
78 83 84 85 85 93 95 96
9 10 11 12 13 14 15 16
17 18 19 20 21 22 23 24
25 26 27 28 29 30 31 32
Pořadí 24,5 31 4 24,5 28,5 32 22 26 192,5 30 21 8 28,5 10 19,5 14,5 8 140,5 1 19,5 12 2 14,5 5 6 17 77 27 3 7 23 16 11 18 13 118
Kruskalův-Wallisův test používá testové kriterium dané vzorcem (III-7)
marketingové průzkumy 111
Bankovní institut vysoká škola
Q KW =
12 192,5 2 140,5 2 77 2 118 2 + + + 32.33 8 8 8 8
− 3 . 33 = 9,878 .
Vypočtenou hodnotu testového kriteria porovnáme s kritickou hodnotou rozdělení χ 02,95 (3) = 7,81 . Hodnota testového kriteria je v tomto případě větší než kritická hodnota, proto pomocí Kruskalova – Wallisova testu zamítneme hypotézu o shodě výsledků testů studentů z různých typů škol. Pro posouzení, které dvojice se vzájemně liší, použijeme Neményiho metodu vícenásobného porovnání. Výpočet rozdílů │Ti - Tj│ je uveden v tabulce III-9. Tabulka III-9 Neményiho metoda vícenásobného porovnání Škola
Průmyslovka
Gymnázium Průmyslovka Obchodní akademie
52
Obchodní akademie 115,5 63,5
Ostatní 74,5 22,5 41
Z tabulky kritických hodnot v [1] nebo v [4] bychom našli pro k = 4 a m = 8 kritickou hodnotu pro vícenásobné porovnání nezávislých výběrů rovnou 96,4. Protože pouze rozdíl 115,5 je větší než kritická hodnota 96,4, považujeme za významně odlišné počty bodů z matematiky u studentů gymnázií a obchodních akademií. Ostatní rozdíly nejsou na 5% hladině významnosti významné.
III.2.6 Použití vícerozměrných statistických metod v marketingových průzkumech Možnosti využívání výkonné výpočetní techniky a existence celé řady specializovaných statistických paketů umožňují také aplikace náročnějších statistických metod, zejména vícerozměrných. Je ale třeba upozornit, že automatické používání těchto metod bez hlubších statistických znalostí ještě samo o sobě neznamená, že budou získány relevantní a hlavně použitelné výsledky. Pochopení a znalost těchto metod jsou užitečné pro lepší komunikaci mezi zadavatelem úkolu (klientem) a pracovištěm, které aplikaci takových metod při řešení určitých problémů může nabídnout. Stanovení smyslu a cíle užití vícerozměrné metody je podmíněno především věcnou znalostí dané problematiky. Pro volbu vhodné statistické metody je rozhodující vlastní zadání úlohy, ale také charakter proměnných a vztahy mezi nimi, tj., zda lze nebo nelze určit směr závislosti a určit tak proměnné vysvětlované a vysvětlující. Mezi nejužívanější vícerozměrné metody v oblasti marketingových výzkumů patří: vícenásobná regresní a korelační analýza, vícenásobná analýza rozptylu, analýza kovariance, faktorová analýza, analýza hlavních komponent,
112 marketingové průzkumy
Metody statistické analýzy
shluková analýza, diskriminační analýza, metoda AID (automatic interaction detector) analýza preferencí (conjointní analýza).
Úlohy vícerozměrné analýzy vymezíme následovně: uvažujeme případy, kdy u n osob, objektů nebo jiných jednotek pozorování sledujeme p statistických znaků. Experimentální jednotky nemusí představovat nestrukturovaný výběr, ale mohou být předem klasifikovány podle určitého předem daného kriteria s využitím doplňkových informací. Podstatným znakem tohoto pojetí vícerozměrné analýzy je okolnost, že p-rozměrná pozorování (vztažená k různým objektům) lze označit za statisticky nezávislá, i když sledované vlastnosti mají většinou řadu vnitřních vztahů a souvislostí. Vícerozměrné metody lze zhruba rozdělit do dvou skupin a to na metody, které umožňují odlišit, která proměnná je vysvětlovaná a které vysvětlující a na metody, které to nevyžadují. Do první skupiny metod patří např. vícenásobná regresní a korelační analýza, vícenásobná analýza rozptylu, analýza kovariance, diskriminační analýza, metoda AID (automatic interaction detector) a analýza preferencí (conjointní analýza), do druhé skupiny faktorová analýza, analýza hlavních komponent, shluková analýza. Stručně, bez matematického aparátu popíšeme princip, podmínky použití metody a možné oblasti aplikace některých vícerozměrných metod. Podrobnější popis metod je možno najít např. v literatuře [7] nebo v [13]. S vícenásobnou regresní a korelační analýzou jsme se seznámili v kapitole I.4,
Vícerozměrná analýza rozptylu Vícenásobná analýza rozptylu je rozšířením jednoduché analýzy rozptylu popsané v kapitole I.1. Posuzujeme pak rozdíl v úrovni p kvantitativních proměnných v několika skupinách, do kterých se soubor rozpadá podle variant některého kvalitativního znaku (třídícího znaku). Popíšeme si poměrně jednoduchý případ zkoumání závislosti kvantitativních proměnných na dvou faktorech u a v. Situaci popisuje model
yijl = μ + τ i + ω j + ψ ij + ε ijl ,
(III.8) kde i = 1,2,…,k, j = 1,2,…,q, l = 1,2,…nij.
Každé vícerozměrné pozorování je vyjádřeno jako součet obecné konstanty μ, efektu faktoru u na i-té úrovni, τj , efektu faktoru v na j-té úrovni, ωj, efektu interakce obou faktorů na i-té úrovni, popř. j-té úrovni ψij a reziduální složky εijl.
marketingové průzkumy 113
Bankovní institut vysoká škola
Základní myšlenka vícerozměrné analýzy rozptylu spočívá v rozložení celkové variability faktoru sledovaného znaku y na variabilitu příslušející vlivu faktoru u, variabilitu příslušející vlivu faktoru v, variabilitu vlivem interakce obou faktorů a variabilitu reziduální.
Diskriminační analýza Tato metoda spočívá v tom, že pro soubor jednotek rozdělených do dvou (nebo více) skupin, hledáme kriterium pro zařazení jednotky do některé skupiny na základě zjištění hodnot několika znaků u této jednotky. Toto kriterium pak může být použito při klasifikaci jednotek, u nichž nevíme, do které skupiny patří. Předpokladem použití diskriminační analýzy je odlišnost skupin z hlediska sledovaných znaků. Tento předpoklad je třeba nejdříve prověřit testem o rovnosti středních hodnot. Pokud se rozdíl mezi skupinami neprokáže, nemůže být diskriminační analýza úspěšně použita. Je-li prováděna diskriminace do více skupin, je spočteno pro každou skupinu lineární diskriminační skóre a jednotka je zařazena do skupiny s jeho nejvyšší hodnotou. Výpočty jsou poměrně náročné a bez užití výpočetní techniky prakticky nemožné. Jako příklady použití diskriminační analýzy lze uvést následující úlohy: predikce úpadku firmy na základě finančních charakteristik, posouzení kvality úvěru (schopnosti splácet), predikce chování zákazníka v budoucnu (např. úmyslu změnit banku, pojišťovnu, zakoupení určitého výrobku apod.).
Metoda AID (automatic interaction detector) Cílem metody AID je rozdělit soubor na určitý počet podskupin tak, aby byly vzhledem k závisle proměnné homogennější než je výchozí soubor. Třídění je prováděno podle různých nominálních vysvětlujících proměnných při opakovaném použití jednoduché analýzy rozptylu. V prvním kroku je pro každou kombinaci kategorií vysvětlujících proměnných vypočten součet čtverců a soubor se rozdělí na skupiny podle té proměnné, pro kterou je meziskupinová variabilita největší. V dalších krocích se postup opakuje pro každou z vytvořených skupin, ty se opět rozdělí, atd. Výstupem procedury je AID strom, který znázorňuje postup při větvení souboru, velikosti vytvořených skupin, použitá kritéria pro dělení (kategorie vysvětlujících proměnných) a hodnoty závisle proměnné v jednotlivých skupinách.
Analýza preferencí (conjointní analýza) Conjointní analýza se využívá při analyzování spotřebitelských preferencí a hodnocení podobnosti či rozdílnosti různých produktů. Měří se, jak jsou jednotlivé vlastnosti produktu důležité pro zákazníka. Při formulování úlohy musí být vybrány nejdůležitější vlastnosti produktu a identifikovány jejich možné úrovně či kategorie. Nejjednodušší model conjointní analýzy je lineární model, který lze zapsat ve tvaru
114 marketingové průzkumy
Metody statistické analýzy
m
U=
(III.9)
ki
uij xij , i =1 j =1
kde U je celkové skóre užitečnosti produktu, m je počet sledovaných znaků, ki je počet kategorií i-tého znaku (i = 1,2,…, m), uij je užitečnost j-té kategorie (j = 1,2,…,ki) i-tého znaku, xij je zjištěná j-tá kategorie i-tého znaku (v případě použití umělé proměnné nabývá jen hodnot 0 a 1). Odhad parametrů funkce dílčích užitečností uij lze získat jako při vícerozměrné analýze rozptylu metodou nejmenších čtverců, závisle proměnnou jsou preference udávané respondentem. Analýza preferencí klade poměrně velké nároky na respondenty zejména v případech, kdy se mají rozhodovat mezi většími počty vlastností. Často se vyskytují úlohy, kdy výchozí počet znaků, sledovaných a zkoumaných jevů a procesů je značný a pro interpretaci nepřehledný. Pro zjednodušení analýzy a usnadnění interpretace je možno použít metod, kdy sledované znaky nahradíme menším počtem jiných, podstatnějších znaků (latentních proměnných), shrnujících informaci o výchozích proměnných, aniž by došlo k větší ztrátě informace. Od latentních proměnných se požaduje, aby maximálně vysvětlovaly původní proměnné (tj., aby vysvětlovaly maximum celkového rozptylu původních proměnných). Do této skupiny metod patří analýza hlavních komponent a faktorová analýza. Obě metody vycházejí z matice korelačních koeficientů. Proměnné nejsou apriorně členěny podle směru závislosti na vysvětlující a vysvětlované. Pokud je hlavním cílem snížit počet proměnných, použije se metoda hlavních komponent, pokud se požaduje aby nové latentní proměnné vysvětlily vzájemné závislosti mezi pozorovanými proměnnými, použijeme faktorovou analýzu.
Faktorová analýza Faktorová analýza nerozlišuje vysvětlující a vysvětlované proměnné. Metoda vychází z předpokladu, že vzájemné závislosti proměnných jsou důsledkem působení v pozadí stojících neměřitelných veličin – faktorů. Velký počet proměnných může být nahrazen menším počtem faktorů a tak snížena dimenze úlohy, pozorované závislosti vysvětleny jednodušším způsobem. Cílem faktorové analýzy je vyjádřit každou j-tou proměnnou jako lineární kombinaci několika společných faktorů (III.10)
kde xj
x j = z j 1 f1 + z j 2 f2 + ... + z jm fm + e j
je j-tá proměnná (j = 1,2,…, p),
f1,…,fm jsou společné faktory,
marketingové průzkumy 115
Bankovní institut vysoká škola
zjk
jsou parametry, tzv. faktorové zátěže j-té proměnné u k-tého faktoru (k=1,2,…,m),
ej
je reziduum (tzv. specifické nebo chybové faktory).
K odhadu faktorových zátěží slouží náhodný výběr obsahující n pozorování každé z p proměnných. Metoda vychází z matice všech párových korelačních koeficientů. Při interpretaci výsledků faktorové analýzy často bývá problémem rozumná interpretace společných faktorů.
Shluková analýza (clusterová analýza) Úlohou shlukové analýzy je na základě hodnot pozorovaných proměnných rozdělit soubor jednotek do relativně homogenních skupin (shluků). Objekty ve skupině jsou z hlediska těchto proměnných podobné a od jiných skupin se liší. Shluková analýza se uplatňuje při klasifikaci objektů, ale lze ji použít také k redukci počtu proměnných a ke zjednodušení úlohy. Uplatnění shlukové analýzy je úspěšné zejména v případech, kde se sledovaný soubor reálně rozpadá do přirozených shluků. K dispozici máme n objektů a p proměnných. Uvažují se různé druhy rozložení množiny a prvků do k shluků tak, aby objekty uvnitř vytvořeného shluku si byly co nejvíce podobné a naopak, aby se co nejvíce odlišovaly od objektů z jiných shluků . K hodnocení podobnosti objektů a pro hodnocení podobnosti shluků se používají různé míry vzdálenosti (např. euklidovská, Hemmingova, Čebyševova, Mahalanobisova). Ke shlukování se používá, řada metod spojování shluků, z nichž nejznámější jsou, metoda nejbližšího souseda, metoda nejvzdálenějšího souseda, metoda průměrné vazby, centroidní metoda, Wardova metoda. Shlukovou analýzu lze využít při segmentaci trhu, při sdružování zákazníků podle rozdílného kupního chování, hodnocení rizikovosti žadatelů o úvěr, analýza zákazníků a jejich typologie na základě dosažitelných znaků apod. Graficky jsou vytvořené shluky přehledně znázorněny pomocí tzv. dendrogramu. Na Obrázku III-1 je jako ukázka dendrogram roztřídění členských zemí Evropské unie do 4 shluků vytvořených z hlediska 12 uvažovaných ukazatelů členských zemí EU v roce 2009. V tomto případě bylo n = 27, p = 12. Vytvořené shluky zemí byly následující: 1. Belgie (1), Dánsko (4), Německo (5), Irsko (7), Lucembursko (15), Nizozemí (18), Rakousko (19), Finsko (25), Švédsko (26) a Spojené království (27) 2. Bulharsko (2), Estonsko (6), Litva (14), Rumunsko (22) 3. Česká republika (3), Lotyšsko (13), Maďarsko (16), Malta (17), Polsko (20), Portugalsko (21), Slovinsko (23), Slovensko (24) 4. Řecko (8), Španělko (9), Francie (10), Itálie (11), Kypr (12). Z obrázku III-1 můžeme například vidět, že Česká republika byla z hlediska všech uvažovaných ukazatelů nejvíce podobná se Slovinskem. Dalším poznatkem je, že země 15 (Lucembursko) se od všech ostatních zemí EU významně odlišuje, nevytvořila shluk se žádnou z evropských zemí, nejblíže ale má ke skupině ostatních zemí skupiny 1.
116 marketingové průzkumy
Metody statistické analýzy
Obrázek III-1 Dendrogram členských zemí EU z hlediska 12 ukazatelů
Dendrogram 50
Ward's Method,Euclidean
Distance
40 30 20 10
1 5 27 7 4 18 19 25 26 15 2 22 6 13 3 23 14 12 16 17 20 24 8 10 21 9 11
0
III.3
KONTROLNÍ OTÁZKY
Jaké jsou nejužívanější způsoby zjišťování údajů v marketingových průzkumech? Jaké znáte základní výběrové postupy užívané v marketingových průzkumech? Na základě jakých údajů stanovíme velikost výběru? Které z parametrických a neparametrických testů probíraných v kurzu Pravděpodobnost a statistika přicházejí v úvahu využít v marketingových průzkumech? Jaké jsou výhody neparametrických testů ve srovnání s parametrickými? V jakých situacích při provádění marketingových průzkumů aplikujeme testy shody? Co posuzujeme pomocí Mc Nemarova testu? Jak se liší tabulka pro Mc Nemarův test a čtyřpolní tabulka pro výpočet kontingence? Který parametrický test odpovídá mediánovému a který dvouvýběrovému Wilcoxonovu testu? V kterých situacích použijete parametrické testy o rovnosti dvou středních hodnot a ve kterých dvouvýběrové neparametrické testy? Jaká je hlavní myšlenka jednorozměrné analýzy rozptylu? V jakých situacích použijeme Kruskalův – Wallisův test místo analýzy rozptylu? Jaký je princip neparametrické analýzy rozptylu? Které znáte vícerozměrné statistické metody využívané v marketingových průzkumech? Jaké další statistické metody, se kterými jste se seznámili v obou kurzech statistiky, by bylo možné využít v marketingových průzkumech?
marketingové průzkumy 117
Bankovní institut vysoká škola
III.4
PŘÍKLADY NA PROCVIČENÍ
P.III.1 V parlamentních volbách získaly 4 nejsilnější strany 30 %, 20 %, 15 % a 10 % hlasů, zbytek byl rozdělen mezi ostatní strany. Při volbách do obecního zastupitelstva v jedné obci zíslaly tyto strany 1400, 900, 1900 a 600 z celkového počtu 5000 hlasů. Ověřte na 5% hladině významnosti, jestli rozdělení hlasů v komunálních volbách v dané obci odpovídá výsledkům při parlamentních volbách. P.III.2 V tabulce TIII-1 jsou uvedeny četnosti odpovědí průzkumu provedeného u 800 osob. Otázky se týkaly hodnocení ekonomické situace jejich rodiny, posouzení, zda se ekonomická situace rodiny zlepšila nebo nikoliv a zda očekávají, že se ekonomická situace jejich rodiny v příštím roce zlepší nebo ne. Na 5% hladině významnosti ověřte, jestli ekonomická situace v příštím roce závisí na ekonomické situaci v minulém roce. TIII-1 Ekonomická situace rodiny se v minulém roce
Ekonomická situace rodiny se v příštím roce Nezlepší
Zlepší
Nezlepšila
552
74
Zlepšila
43
131
P.III.3 Bylo zkoumáno, zda podání určitého léku má jako vedlejší účinek změnu rychlosti srážení krve. Náhodně bylo vybráno 100 pacientů a u každého z nich se zjistilo, zda má rychlou nebo pomalou srážlivost krve. Pak byl pacientům podán sledovaný lék a po přiměřené době byla znovu vyšetřena srážlivost krve. Výsledky jsou uvedeny v tabulce TIII-2. Na 5% hladině významnosti máme ověřit, jestli podání léku má nebo nemá vliv na rychlost srážení krve. TIII-2 Srážlivost krve po podáním léku
Srážlivost krve před podáním léku
Pomalá
Rychlá
Pomalá
24
28
Rychlá
12
36
P.III.4 Na školu bylo přijato 142 studentů, kteří byli náhodně rozděleni do 4 skupin A, B, C, a D. Každá skupina měla jiného vyučujícího a předmět jim byl přednášen jiným způsobem. Na konci semestru všichni studenti psali stejný test. Byl zaznamenán počet studentů v každé skupině, kteří vyřešili všechny zadané úlohy. Úkolem je na 5% hladině významnosti posoudit, jestli rozdíly mezi počty úspěšných studentů v jednotlivých skupinách jsou náhodné nebo jestli lze prokázat systematické rozdíly ve výsledcích jednotlivých skupin. Výsledky testu uvádí tabulka TIII-3. TIII-3 Skupina
A
B
C
D
Celkem
Počet úspěšných studentů
5
8
17
15
45
Počet všech studentů
35
36
37
34
142
118 marketingové průzkumy
Metody statistické analýzy
P.III.5 Pro rozhodnutí, který způsob balení sušeného mléka použít, je třeba ověřit, jestli mléko lépe odolává vlhkosti v papírových krabicích se specielní úpravou nebo v plechovkách s víčkem. K ověření byly naměřeny údaje o vlhkosti po určité době skladování v 6 krabicích a v 12 plechovkách, obsahujících stejnorodé vzorky skladované v týchž podmínkách. Údaje měření: Krabice
: 13,1 12,1 10,5 14,0 10,1 12,8
Plechovky : 18,6 11,2 14,0 13,6 14,2 18,1 15,0 14,2 13,1 15,4 10,9 13,8 Test proveďte na 5% hladině významnosti. P.III.6 Bylo vybráno 13 stejných výrobků od dvou výrobců, z nichž každý používá jinou technologii výroby. Deklarovaný obsah tuku ve výrobku je 5 %. Ověřte na 5% hladině významnosti, jestli obě použité technologie zaručují stejný obsah tuku ve výrobku. Výrobce I : 5,7; 5,5; 4,3; 5,9; 5,2; 5,6; 5,8; 5,1; Výrobce II: 5,0; 4,5; 4,2; 5,4; 4,4;
VÝSLEDKY PŘÍKLADŮ P.III.1 Test shody. Hodnota testového kriteria k
2
χ =
(nei − noi ) 2
i =1
Kritická hodnota
noi
= 68,67.
χ 02,95 = 9,488.
Zamítáme na 5% hladině významnosti nulovou hypotézu, rozložení
hlasů v komunálních volbách neodpovídá rozložení hlasů v parlamentních volbách. P.III.2 V tabulce TIII-4 jsou doplněné marginální četnosti. TIII-4 Ekonomická situace rodiny se v minulém roce
Ekonomická situace rodiny se v příštím roce Nezlepší
Zlepší
Součet
Nezlepšila
552
74
626
Zlepšila
43
131
174
Součet
595
205
800
Ověřujeme nulovou hypotézu, že není závislost mezi ekonomickou situací v minulém a příštím roce. Hodnota testového kriteria podle vzorce (I.6)
G=
800.(552.131 - 74.43)2 626.174.595.205
= 287, 759 .
Kritická hodnota χ20,95(1) = 3,84. Zamítáme hypotézu o nezávislosti. Pearsonův koeficient kontingence CP = 0,514, koeficient asociace rA = 0,599. marketingové průzkumy 119
Bankovní institut vysoká škola
Mohli bychom použít i Mc Nemarův test
G=
( 74 − 43 − 1) 2 74 + 43
= 7,69
Kritická hodnota χ20,95(1) = 3,84. Zamítáme hypotézu o nezávislosti. P.III.3 Použijeme Mc Nemarův test TIII-5 Srážlivost krve před podáním léku
G =
( 28 - 12 - 1)2 28 + 12
Srážlivost krve po podání léku Pomalá
Rychlá
Součet
Pomalá
24
28
52
Rychlá
12
36
48
Součet
36
64
100
= 5, 62
Kritická hodnota χ20,95(1) = 3,84. Zamítáme hypotézu o nezávislosti. P.III.4 Jedná se o posouzení rovnosti podílu ve 4 skupinách Použijeme vzorec (III.3).
p=
45 = 0, 3169 142
G∗ =
1 p (1 − p )
k
i =1
(mi − ni p ) 2 = 12,288. ni
Kritická hodnota χ20,95(3) = 7,81. Zamítáme hypotézu, že rozdíly mezi skupinami jsou náhodné a přijmeme hypotézu, že se na 5% hladině významnosti liší. P.III.5 Testujeme nulovou hypotézu o rovnosti středních hodnot. Použijeme dvouvýběrový Wilcoxonův test. Výpočty jsou zřejmé z tabulky TIII-6 Sw = 33 Asymptotické testové kriterium (podle vzorce (III.6) má hodnotu uW = - 0,219. Kritická hodnota u0,975 = 1,96. Nezamítáme hypotézu o rovnosti středních hodnot.
120 marketingové průzkumy
Metody statistické analýzy
TIII-6 i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Vlhkost 13,1 12,1 10,5 14,0 10,1 12,8 18,6 11,2 14,0 13,5 14,2 18,1 15,0 14,2 13,1 15,4 10,9 13,8
Uspořádaný výběr
Pořadí
10,1 10,5 10,9 11,2 12,1 12,8 13,1 13,1 13,5 13,8 14,0 14,0 14,2 14,2 15,0 15,4 18,1 18,6
7,5 5 2 11,5 1 6 18 4 11,5 9 13,5 17 15 13,5 7,5 16 3 10
P.III.5 Testujeme nulovou hypotézu o rovnosti středních hodnot. Použíjeme dvouvýběrový Wilcoxonův test. Sw = 70. Asymptotické testové kriterium (podle vzorce (III.6) má hodnotu uW = 1,98. Kritická hodnota u0,975 = 1,96. Zamítáme hypotézu o rovnosti použitých technologií.
marketingové průzkumy 121
Bankovní institut vysoká škola
III.5
ZÁKLADNÍ VÝRAZY
arranging by size
uspořádání podle velikosti
assumption
předpoklad
cell of a table
políčko tabulky
categorical variable
slovní (kategoriální) proměnná
category
kategorie
cluster analysis
shluková analýza
coefficient of contingency
koeficient kontingence
conjoint analysis
analýza preferencí
contingency table
kontingenční tabulka
data collection
sběr dat
data processing
zpracování dat
deviation
odchylka
discriminant analysis
diskriminační analýza
effect
efekt, účinek
eigenvalue
charakteristické číslo
enquete
anketa
expected frequency
teoretická četnost, očekávaná četnost
exploratory survey
předběžné zjišťování
factor analysis
faktorová analýza
false hypothesis
nepravdivá hypotéza
finite population
konečný soubor
goodness-of-fit test
test dobré shod
grouping
třídění
homogeneity
homogenita, stejnorodost
homoskedasticity
homoskedasticita
incomplete survey
neúplné zjišťování
inquiry
šetření
interaction
interakce
linear combination
lineární kombinace
lottery sampling
losování
marketing research
marketingový výzkum
multiple classification
vícestupňové třídění
multiple rank test
vícenásobný pořadový test
multivariate analysis
vícerozměrná analýza
n-dimensional space
n-rozměrný prostor
nested classification
hierarchické třídění
nonparametric test
neparametrický test
non-random sampling
nenáhodný výběr
nonparametric test
neparametrický test
122 marketingové průzkumy
Metody statistické analýzy
nonrejection region
obor přijetí (hypotézy)
null hypothesis
nulová hypotéza
number of classes
počet tříd
observed frequency
pozorovaná četnost
observed values
pozorované hodnoty
one-way classification
jednoduché třídění
one-way analysis of variance
jednofaktorová analýza rozptylu
opinion survey
průzkum názorů
order
pořadí
ordered sample
uspořádaný výběr
ordered series
uspořádaná řada
paired observations
párová pozorování
paired samples, matched samples
párové výběry
parametric test
parametrický test
pool
průzkum, anketa
population size
rozsah základního souboru
principal component
hlavní komponenta
questionnaire
dotazník
random sample
náhodný výběr
rank correlation ceofficient
koeficient pořadové korelace
rank test
pořadový test
ratio scale
poměrová stupnice
rejection region
obor zamítnutí (hypotézy)
right-tailed test
pravostranný test
sample size
rozsah výběru
sampling
pořízení výběru
scale
stupnice, škála
significance level
hladina významnosti
simple random sample
prostý náhodný výběr
small sample
malý výběr
statistical decision
statistické rozhodnutí
statistical hypothesis
statistická hypotéza
statistical survey
statistické zjišťování
test of independence
test nezávislosti
test statistic
testové kritérium
true hypothesis
pravdivá hypotéza
two-tailed test
oboustranný test
two-way classification
dvojné třídění
value
hodnota
variance-ratio test
test o shodě rozptylů
marketingové průzkumy 123
Bankovní institut vysoká škola
IV
SEZNAM LITERATURY
1 ANDĚL, J. Statistické metody. 2. Vydání. Praha. Matfyzpress, MFF UK 1998. 274 s. ISBN 8085863-27-8. 2 ARLT,J., ARLTOVÁ, M. : Ekonomické časové řady: vlastnosti, metody modelování, příklady a aplikace. Praha Grada 2007, ISBN 978-80-247-1319-9 3. ARLT, J. , ARLTOVÁ, M., RUBLÍKOVÁ, E.: Analýza ekonomických časových řad s příklady, Praha, VŠE 2002, ISBN 80-245-0307-7 4. BLATNÁ,D.: Neparametrické metody. Testy založené na pořádkových a pořadových statistikách. Praha: VŠE 1996. ISBN 80-7079-607-3. 5. BLATNÁ,D.: Statistické aspekty terénních průzkumů II. Praha: VŠE 1994. ISBN 80-7079-377-5 6. BLATNÁ, D.: Metody statistické analýzy. BIVŠ 2004. ISBN 890-7265-062-9. 7. HEBÁK,P., HUSTOPECKÝ,J., PECÁKOVÁ,I., PRŮŠA,M., ŘEZANKOVÁ,H, SVOBODOVÁ, A., VLACH,P: Vícerozměrné statistické metody (3). Praha: Informatorium 2005. ISBN 80-7333-039-3. 8. HINDLS, R., HRONOVÁ, S., SEGER, J.: Statistika pro ekonomy. Praha: Professional Publishing 2007., ISBN 978-80-86946-43-6. 9 HINDLS, R., HRONOVÁ, S., NOVÁK,I.: Analýza dat v manažerském rozhodování. Praha: Grada Publishing 1999. ISBN 80-7169-255-7. 10. JAROŠOVÁ,E., PECÁKOVÁ,I.: Příklady k předmětu Statistika B. Praha: VŠE 2000. 11. MAREK,L. a kol. Statistika pro ekonomy – aplikace. Praha: Professional Publishing 2007., 978-8086946-40-5 12. MASON, R.D., LIND, D.A., MARCHAL, W.G.: Statistical Techniques in Business and Economics. Boston: Irwin McGraw-Hill 1999. 13. PECÁKOVÁ,I.: Statistika v terénních průzkumech. Praha: Professional Publishing 2007, ISBN 978-80-86946-74-0 14. PECÁKOVÁ,I., NOVÁK,I.,HERZMANN,J.: Pořizování a vyhodnocování dat ve výzkumech veřejného mínění. Praha: VŠE 1998. 15. PECÁKOVÁ, I. Statistické aspekty terénních průzkumů. [D.] 1. Praha: VŠE 1995. ISBN 80-7079737-1 16. PŘIBOVÁ,M. a kol.: Marketingový výzkum v praxi. Praha, Grada 1996. 17. ŘEZANKOVÁ, H. Analýza dat z dotazníkových šetření. Praha: Professional Publishing 2007. ISBN 978-80-86946-49-8 18. TREŠL, J.: Statistika. Praha: SVŠES 2003. ISBN 80-86744-01-9. 19. WONNACOTT, T.H., WONNACOTT, R.J: Statistika pro obchod a hospodářství. Překlad z angličtiny. Praha: Victoria Publishing 1993.
124 Seznam literatury
Metody statistické analýzy
V
PŘÍLOHY – STATISTICKÉ TABULKY
Tabulka I
Kvantily normovaného normálního rozdělení (uP)
Tabulka II
Kvantily rozdělení χ2
Tabulka III
Kvantily rozdělení t
Tabulka IV
Kvantily rozdělení F
Přílohy – statistické tabulky 125
Tabulka I Kvantily normovaného normálního rozdělení (uP) P
P
P
P
0,50 0,51 0,52 0,53 0,54
uP 0,000 0,025 0,050 0,075 0,100
0,75 0,76 0,77 0,78 0,79
uP 0,674 0,706 0,739 0,772 0,806
0,950 0,951 0,952 0,953 0,954
uP 1,645 1,655 1,665 1,675 1,685
0,975 0,976 0,977 0,978 0,979
uP 1,960 1,970 1,995 2,014 2,034
0,55 0,56 0,57 0,58 0,59
0,126 0,151 0,176 0,202 0,228
0,80 0,81 0,82 0,83 0,84
0,842 0,878 0,915 0,954 0,994
0,955 0,956 0,957 0,958 0,959
1,695 1,706 1,717 1,728 1,739
0,980 0,981 0,982 0,983 0,984
2,054 2,075 2,097 2,120 2,144
0,60 0,61 0,62 0,63 0,64
0,253 0,279 0,305 0,332 0,358
0,85 0,86 0,87 0,88 0,89
1,036 1,080 1,126 1,175 1,227
0,960 0,961 0,962 0,963 0,964
1,751 1,762 1,774 1,787 1,799
0,985 0,986 0,987 0,988 0,989
2,170 2,197 2,226 2,257 2,290
0,65 0,66 0,67 0,68 0,69
0,385 0,412 0,440 0,468 0,496
0,90 0,905 0,910 0,915 0,920
1,282 1,311 1,341 1,372 1,405
0,965 0,966 0,967 0,968 0,969
1,812 1,825 1,838 1,852 1,866
0,990 0,991 0,992 0,993 0,994
2,326 2,366 2,409 2,457 2,512
0,70 0,71 0,72 0,73 0,74
0,524 0,553 0,583 0,613 0,643
0,925 0,930 0,935 0,940 0,945
1,440 1,476 1,514 1,555 1,598
0,970 0,971 0,972 0,973 0,974
1,881 1,896 1,911 1,927 1,943
0,995 0,996 0,997 0,998 0,999
2,576 2,652 2,748 2,878 3,090
Pro P < 0,5 jsou hodnoty kvantilů dány vztahem uP = -u1-P.
Tabulka II Kvantily rozdělení 2 P 1 2 3 4 5
0,0005 0,06393 0,02100 0,0153 0,0639 0,158
0,001 0,05157 0,02200 0,0243 0,0908 0,210
0,005 0,04393 0,0100 0,0717 0,207 0,412
0,01 0,03157 0,0201 0,115 0,297 0,554
0,025 0,03982 0,0506 0,216 0,484 0,831
0,05 0,02393 0,103 0,352 0,711 1,15
0,10 0,0158 0,211 0,584 1,06 1,61
6 7 8 9 10
0,299 0,485 0,710 0,972 1,26
0,381 0,598 0,857 1,15 1,48
0,676 0,989 1,34 1,73 2,16
0,872 1,24 1,65 2,09 2,56
1,24 1,69 2,18 2,70 3,25
1,64 2,17 2,73 3,33 3,94
2,20 2,83 3,49 4,17 4,87
11 12 13 14 15
1,59 1,93 2,31 2,70 3,11
1,83 2,21 2,62 3,04 3,48
2,60 3,07 3,57 4,07 4,60
3,05 3,57 4,11 4,66 5,23
3,82 4,40 5,01 5,63 6,26
4,57 5,23 5,89 6,57 7,26
5,58 6,30 7,04 7,79 8,55
16 17 18 19 20
3,54 3,98 4,44 4,91 5,40
3,94 4,42 4,90 5,41 5,92
5,14 5,70 6,26 6,84 7,43
5,81 6,41 7,01 7,63 8,26
6,91 7,56 8,23 8,91 9,39
7,96 8,67 9,39 10,1 10,9
9,31 10,1 10,9 11,7 12,4
21 22 23 24 25
5,90 6,40 6,92 7,45 7,99
6,45 6,98 7,53 8,08 8,65
8,03 8,64 9,26 9,89 10,5
8,90 9,54 10,2 10,9 11,5
10,3 11,0 11,7 12,4 13,1
11,6 12,3 13,1 13,8 14,6
13,2 14,0 14,8 15,7 16,5
26 27 28 29 30
8,54 9,09 9,66 10,2 10,8
9,22 9,80 10,4 11,0 11,6
11,2 11,8 12,5 13,1 13,8
12,2 12,9 13,6 14,3 15,0
13,8 14,6 15,3 16,0 16,8
15,4 16,2 16,9 17,7 18,5
17,3 18,1 18,9 19,8 20,6
Tabulka II pokračování P
Kvantily rozdělení 2
1 2 3 4 5
0,90 2,71 4,61 6,25 7,78 9,24
0,95 3,84 5,99 7,81 9,49 11,1
0,975 5,02 7,38 9,35 11,1 12,8
0,99 6,63 9,21 11,3 13,3 15,1
0,995 7,88 10,6 12,8 14,9 16,7
0,999 10,8 13,8 16,3 18,5 20,5
0,9995 12,1 15,2 17,7 20,0 22,1
6 7 8 9 10
10,6 12,0 13,4 14,7 16,0
12,6 14,1 15,5 16,9 18,3
14,4 16,0 17,5 19,0 20,5
16,8 18,5 20,1 21,7 23,2
18,5 20,3 22,0 23,6 25,2
22,5 24,3 26,1 27,9 29,6
24,1 26,0 27,9 29,7 31,4
11 12 13 14 15
17,3 18,5 19,8 21,0 22,3
19,7 21,0 22,4 23,7 25,0
21,9 23,3 24,7 26,1 27,5
24,7 26,2 27,7 29,1 30,6
26,8 28,3 29,8 31,3 32,8
31,3 32,9 34,5 36,1 37,7
33,1 34,8 36,5 38,1 39,7
16 17 18 19 20
23,5 24,8 26,0 27,2 28,4
26,3 27,6 28,9 30,1 31,4
28,8 30,2 31,5 32,9 34,2
32,0 33,4 34,8 36,2 37,6
34,3 35,7 37,2 38,6 40,0
39,3 40,8 42,3 43,8 452
41,3 42,9 44,4 46,0 47,5
21 22 23 24 25
29,6 30,9 32,0 33,2 34,4
32,7 33,9 35,2 36,4 37,7
35,5 36,8 38,1 39,4 40,6
38,9 40,3 41,6 43,0 44,3
41,4 42,8 44,2 45,6 46,9
46,8 48,3 49,7 51,2 52,6
49,0 50,5 52,0 53,5 54,9
26 27 28 29 30
35,6 36,7 37,9 39,1 40,3
38,9 40,1 41,3 42,6 43,8
41,9 43,2 44,5 45,7 47,0
45,6 47,0 48,3 49,6 50,9
48,3 49,6 51,0 52,3 53,7
54,1 55,5 56,9 58,3 59,7
56,4 57,9 59,3 60,7 62,2
Tabulka III Kvantily rozdělení t P 1 2 3 4 5 6 7 8 9 10
0,90 3,078 1,886 1,638 1,553 1,476 1,440 1,415 1,397 1,383 1,372
0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812
0,975 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228
0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764
0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169
11 12 13 14 15 16 17 18 19 20
1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325
1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725
2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086
2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528
3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845
21 22 23 24 25 26 27 28 29 30
1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310
1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697
2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042
2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457
2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750
2
1
4,351 4,325 4,301 4,279 4,260 4,242 4,225 4,210 4,196 4,183
4,171 4,085 4,001 3,920 3,842
20 21 22 23 24 25 26 27 28 29
30 40 60 120
161,45 18,513 10,128 7,709 6,608 5,987 5,591 5,318 5,117
4,965 4,844 4,747 4,667 4,600 4,543 4,494 4,451 4,414 4,381
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV a
2
3,316 3,232 3,150 3,072 2,996
3,493 3,467 3,443 3,422 3,403 3,385 3,369 3,354 3,340 3,328
4,103 3,982 3,885 3,806 3,739 3,682 3,634 3,592 3,555 3,522
199,50 19,000 9,552 6,944 5,786 5,143 4,737 4,459 4,257
3
2,922 2,839 2,758 2,680 2,605
3,098 3,073 3,049 3,028 3,009 2,991 2,975 2,960 2,947 2,934
3,708 3,587 3,490 3,411 3,344 3,287 3,239 3,197 3,160 3,127
215,71 19,164 9,277 6,591 5,410 4,757 4,347 4,066 3,863
4
2,690 2,606 2,525 2,447 2,372
2,866 2,840 2,817 2,796 2,776 2,759 2,743 2,728 2,714 2,701
3,478 3,357 3,259 3,179 3,112 3,056 3,007 2,965 2,928 2,895
224,58 19,247 9,117 6,388 5,192 4,534 4,120 3,838 3,633
2,534 2,450 2,368 2,290 2,214
2,711 2,685 2,661 2,640 2,621 2,603 2,587 2,572 2,558 2,545
3,326 3,204 3,106 3,025 2,958 2,901 2,852 2,810 2,773 2,740
230,16 19,296 9,014 6,256 5,050 4,387 3,972 3,688 3,482
5
6
2,421 2,336 2,254 2,175 2,099
2,599 2,573 2,549 2,528 2,508 2,490 2,474 2,459 2,445 2,432
3,217 3,095 2,996 2,915 2,848 2,791 2,741 2,699 2,661 2,628
233,99 19,330 8,941 6,163 4,950 4,284 3,866 3,581 2,274
Kvantily F0,95 rozdělení F 7
2,334 2,249 2,167 2,087 2,010
2,514 2,488 2,464 2,442 2,423 2,405 2,388 2,373 2,359 2,346
3,136 3,012 2,913 2,832 2,764 2,707 2,657 2,614 2,577 2,544
236,77 19,353 8,887 6,094 4,876 4,207 3,787 3,501 3,293
8
2,266 2,180 2,097 2,016 1,938
2,447 2,421 2,397 2,375 2,355 2,337 2,321 2,305 2,291 2,278
3,072 2,948 2,849 2,767 2,699 2,641 2,591 2,548 2,510 2,477
238,88 19,371 8,845 6,041 4,818 4,147 3,726 3,438 3,230
9
2,211 2,124 2,040 1,959 1,880
2,393 2,366 2,342 2,320 2,300 2,282 2,266 2,250 2,236 2,223
3,020 2,896 2,796 2,714 2,646 2,588 2,538 2,494 2,456 2,423
240,54 19,385 8,812 5,999 4,773 4,099 3,677 3,388 3,179
2
10
2,348 2,321 2,297 2,275 2,255 2,237 2,220 2,204 2,190 2,177
2,165 2,077 1,993 1,911 1,831
20 21 22 23 24 25 26 27 28 29
30 40 60 120
241´,88 19,396 8,786 5,964 4,735 4,060 3,637 3,347 3,137
2,978 2,854 2,753 2,671 2,602 2,544 2,494 2,450 2,412 2,378
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV a /pokračování
12
2,092 2,004 1,917 1,834 1,752
2,278 2,250 2,226 2,204 2,183 2,165 2,148 2,132 2,118 2,105
2,913 2,788 2,687 2,604 2,534 2,475 2,425 2,381 2,342 2,308
243,91 19,413 8,745 5,912 4,678 4,000 3,575 3,284 3,073
15
2,015 1,925 1,836 1,751 1,666
2,203 2,176 2,151 2,128 2,108 2,089 2,072 2,056 2,041 2,028
2,845 2,719 2,617 2,533 2,463 2,404 2,352 2,308 2,269 2,234
245,95 19,429 8,703 5,858 4,619 3,938 3,511 3,218 3,006
1,932 1,839 1,748 1,659 1,571
2,124 2,096 2,071 2,048 2,027 2,008 1,990 1,974 1,959 1,945
2,774 2,646 2,544 2,459 2,388 2,328 2,276 2,230 2,191 2,156
248,01 19,446 8,660 5,803 4,558 3,874 3,445 3,150 2,937
20
1,887 1,793 1,700 1,608 1,517
2,083 2,054 2,028 2,005 1,984 1,964 1,946 1,930 1,915 1,901
2,737 2,609 2,506 2,420 2,349 2,288 2,235 2,190 2,150 2,114
249,05 19,454 8,639 5,774 4,527 3,842 3,411 3,115 2,901
24
30
1,841 1,744 1,649 1,554 1,459
2,039 2,010 1,984 1,961 1,939 1,919 1,901 1,884 1,869 1,854
2,700 2,571 2,466 2,380 2,308 2,247 2,194 2,148 2,107 2,071
250,09 19,462 8,617 5,746 4,496 3,808 3,376 3,079 2,864
Kvantily F0,95 rozdělení F 40
1,792 1,693 1,594 1,495 1,394
1,994 1,965 1,938 1,914 1,892 1,872 1,853 1,836 1,820 1,806
2,661 2,531 2,426 2,339 2,266 2,204 2,151 2,104 2,063 2,026
251,14 19,471 8,594 5,717 4,464 3,774 3,340 3,043 2,826
60
1,740 1,637 1,534 1,429 1,318
1,946 1,917 1,890 1,865 1,842 1,822 1,803 1,785 1,769 1,754
2,621 2,490 2,384 2,297 2,223 2,160 2,106 2,058 2,017 1,980
252,20 19,479 8,572 5,688 4,431 3,740 3,304 3,005 2,787
120
1,684 1,577 1,467 1,352 1,221
1,896 1,866 1,838 1,813 1,790 1,768 1,749 1,731 1,714 1,698
2,580 2,448 2,341 2,252 2,178 2,114 2,059 2,011 1,968 1,930
253,25 19,487 8,549 5,658 4,398 3,705 3,267 2,967 2,748
1,622 1,509 1,389 1,254 1,000
1,843 1,812 1,783 1,757 1,733 1,711 1,691 1,672 1,654 1,638
2,538 2,405 2,296 2,206 2,131 2,066 2,010 1,960 1,917 1,878
254,32 19,496 8,527 5,628 4,365 3,669 3,230 2,928 2,707
2
1
5,872 5,827 5,786 5,750 5,717 5,686 5,659 5,633 5,610 5,588
5,568 5,424 5,286 5,152 5,024
20 21 22 23 24 25 26 27 28 29
30 40 60 120
647,79 38,506 17,443 12,218 10,007 8,813 8,073 7,571 7,209
6,937 6,724 6,554 6,414 6,298 6,200 6,115 6,042 5,978 5,922
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV b
2
4,182 4,051 3,925 3,805 3,689
4,461 4,420 4,383 4,349 4,319 4,291 4,266 4,242 4,221 4,201
5,456 5,256 5,096 4,965 4,857 4,765 4,687 4,619 4,560 4,508
799,50 39,000 16,044 10,649 8,434 7,260 6,542 6,060 5,715
3
3,589 3,463 3,343 3,227 3,116
3,859 3,819 3,783 3,751 3,721 3,694 3,670 3,647 3,626 3,607
4,826 4,630 4,474 4,347 4,242 4,153 4,077 4,011 3,954 3,903
864,16 39,165 15,439 9,979 7,764 6,599 5,890 5,416 5,078
3,250 3,126 3,008 2,894 2,786
3,515 3,475 3,440 3,408 3,379 3,353 3,329 3,307 3,286 3,267
4,468 4,275 4,121 3,996 3,892 3,804 3,729 3,665 3,608 3,559
899,58 39,248 15,101 9,605 7,388 6,227 5,523 5,053 4,718
4
3,027 2,904 2,786 2,674 2,567
3,289 3,250 3,215 3,184 3,155 3,129 3,105 3,083 3,063 3,044
4,236 4,044 3,891 3,767 3,663 3,576 3,502 3,438 3,382 3,333
921,85 39,298 14,885 9,365 7,146 5,988 5,285 4,817 4,484
5
Kvantily F0,975 rozdělení F 6
2,867 2,744 2,627 2,515 2,408
3,128 3,090 3,055 3,023 2,995 2,969 2,945 2,923 2,903 2,884
4,072 3,881 3,728 3,604 3,501 3,415 3,341 3,277 3,221 3,172
937,11 39,331 14,735 9,197 6,978 5,820 5,119 4,652 4,320
7
2,746 2,624 2,507 2,395 2,288
3,007 2,969 2,934 2,902 2,874 2,848 2,824 2,802 2,782 2,763
3,950 3,759 3,607 3,483 3,380 3,293 3,219 3,156 3,100 3,051
948,22 39,355 14,624 9,074 6,853 5,696 4,995 4,529 4,197
8
2,651 2,529 2,412 2,299 2,192
2,913 2,874 2,839 2,808 2,779 2,753 2,729 2,707 2,687 2,669
3,855 3,664 3,512 3,388 3,285 3,199 3,125 3,061 3,005 2,956
956,66 39,373 14,540 8,980 6,757 5,600 4,899 4,433 4,102
9
2,557 2,452 2,334 2,222 2,114
2,837 2,798 2,763 2,731 2,703 2,677 2,653 2,631 2,611 2,592
3,779 3,588 3,436 3,312 3,209 3,123 3,049 2,985 2,929 2,880
963,28 39,387 14,473 8,905 6,681 5,523 4,823 4,357 4,026
2
10
2,774 2,735 2,700 2,668 2,640 2,614 2,590 2,568 2,547 2,529
2,511 2,388 2,270 2,157 2,048
20 21 22 23 24 25 26 27 28 29
30 40 60 120
968,93 39,398 14,419 8,844 6,619 5,461 4,761 4,295 3,964
3,717 3,526 3,374 3,250 3,147 3,060 2,986 2,922 2,866 2,817
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV b /pokračování
12
2,412 2,288 2,169 2,055 1,945
2,676 2,637 2,602 2,570 2,541 2,515 2,491 2,469 2,448 2,430
3,621 3,430 3,277 3,153 3,050 2,963 2,889 2,825 2,769 2,720
976,71 39,415 14,337 8,751 6,525 5,366 4,666 4,200 3,868
15
2,307 2,182 2,061 1,945 1,833
2,573 2,534 2,498 2,467 2,437 2,411 2,387 2,364 2,344 2,325
3,522 3,330 3,177 3,053 2,949 2,862 2,788 2,723 2,667 2,617
984,87 39,431 14,253 8,657 6,428 5,269 4,568 4,101 3,769
2,195 2,068 1,945 1,825 1,709
2,465 2,425 2,389 2,357 2,327 2,301 2,276 2,253 2,232 2,213
3,419 3,226 3,073 2,948 2,844 2,756 2,681 2,616 2,559 2,509
993,10 39,448 14,167 8,560 6,329 5,168 4,467 4,000 3,667
20
2,136 2,007 1,882 1,760 1,640
2408 2,368 2,332 2,299 2,269 2,242 2,217 2,195 2,174 2,154
3,365 3,173 3,019 2,893 2,789 2,701 2,625 2,560 2,503 2,452
997,25 39,456 14,124 8,511 6,278 5,117 4,415 3,947 3,614
24
30
2,074 1,943 1,815 1,690 1,556
2,349 2,308 2,272 2,239 2,209 2,182 2,157 2,133 2,112 2,092
3,311 3,118 2,963 2,837 2,732 2,644 2,568 2,502 2,445 2,394
1001,4 39,465 14,081 8,461 6,227 5,065 4,362 3,894 3,560
Kvantily F0,975 rozdělení F 40
2,009 1,875 1,744 1,614 1,484
2,287 2,247 2,210 2,176 2,146 2,118 2,093 2,069 2,048 2,028
3,255 3,061 2,906 2,7880 2,674 2,585 2,509 2,442 2,384 2,333
1005,6 39,473 14,037 8,411 6,175 5,013 4,309 3,840 3,506
60
1,940 1,803 1,667 1,530 1,388
2,223 2,182 2,145 2,111 2,080 2,052 2,026 2,002 1,980 1,959
3,198 3,004 2,848 2,720 2,614 2,524 2,447 2,380 2,321 2,270
1009,8 39,481 13,992 8,360 6,125 4,959 4,256 3,784 3,449
120
1,866 1,724 1,581 1,433 1,268
2,156 2,114 2,076 2,042 2,010 1,981 1,955 1,930 1,907 1,886
3,140 2,944 2,787 2,659 2,552 2,461 2,383 2,315 2,256 2,203
1014,0 39,490 13,947 8,309 6,069 4,905 4,199 3,728 3,392
1,787 1,637 1,482 1,310 1,000
2,085 2,042 2,003 1,968 1,935 1,906 1,878 1,853 1,829 1,807
3,080 2,883 2,725 2,596 2,487 2,395 2,316 2,247 2,187 2,133
1018,3 39,498 13,902 8,257 6,0115 4,849 4,142 3,670 3,333
2
1
8,096 8,017 7,945 7,881 7,823 7,770 7,721 7,677 7,636 7,598
7,563 7,314 7,077 6,851 6,635
20 21 22 23 24 25 26 27 28 29
30 40 60 120
4052,2 98,503 34,116 21,198 16,258 13,745 12,246 11,259 10,561
10,044 9,646 9,330 9,074 8,862 8,683 8,531 8,400 8,285 8,185
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV c
2
5,390 5,179 4,977 4,787 4,605
5,849 5,780 5,719 5,664 5,614 5,568 5,526 5,488 5,453 5,421
7,559 7,206 6,927 6,701 6,515 6,359 6,226 6,112 6,013 5,926
4999,5 99,000 30,817 18,000 13,274 10,925 9,547 8,649 8,022
3
4,510 4,313 4,126 3,949 3,782
4,938 4,874 7,817 4,765 4,718 4,676 4,637 4,601 4,568 4,538
6,552 6,217 5,953 5,739 5,564 5,417 5,292 5,185 5,092 5,010
5403,5 99,166 29,457 16,694 12,060 9,780 8,451 7,591 6,992
4,018 3,828 3,649 3,480 3,319
4,431 4,369 4,313 4,264 4,218 4,177 4,140 4,106 4,074 4,045
5,994 5,668 5,412 5,205 5,035 4,893 4,773 4,669 4,579 4,500
5624,6 99,249 28,710 15,977 11,392 9,148 7,847 7,006 6,422
4
3,699 3,514 3,339 3,174 3,017
4,103 4,042 3,988 3,939 3,895 3,855 3,818 3,785 3,754 3,725
5,636 5,316 5,064 4,862 4,695 4,556 4,437 4,336 4,428 4,171
5763,7 99,299 28,237 15,522 10,967 8,746 7,460 6,632 6,057
5
Kvantily F0,99 rozdělení F 6
3,474 3,291 3,119 2,956 2,802
3,871 3,812 3,758 3,710 3,667 3,627 3,591 3,558 3,528 3,500
5,386 5,069 4,821 4,620 4,456 4,318 4,202 4,102 4,015 3,939
5859,0 99,332 27,911 15,207 10,672 8,466 7,191 6,371 5,802
7
3,305 3,124 2,953 2,792 2,639
3,699 3,640 3,587 3,539 3,496 3,457 3,421 3,388 3,358 3,330
5,200 4,886 4,640 4,441 4,278 4,142 4,026 3,927 3,841 3,765
5928,3 99,356 27,672 14,976 10,456 8,260 6,993 6,178 5,613
8
3,173 2,993 2,823 2,663 2,511
3,564 3,506 3,453 3,406 3,363 3,324 3,288 3,256 3,226 3,198
5,057 4,745 4,499 4,302 4,140 4,005 3,890 3,791 3,705 3,631
5981,6 99,374 27,489 14,799 10,289 8,102 6,840 6,029 5,467
9
3,067 2,888 2,719 2,559 2,407
3,457 3,398 3,346 3,299 3,256 3,217 3,182 3,149 3,120 3,092
4,942 4,632 4,388 4,191 4,030 3,895 3,780 3,682 3,597 3,523
6022,5 99,388 27,345 14,639 10,158 7,976 6,719 5,911 5,351
2
10
3,368 3,310 3,258 3,211 3,168 3,129 3,094 3,062 3,032 3,005
2,979 2,801 2,632 2,472 2,321
20 21 22 23 24 25 26 27 28 29
30 40 60 120
6055,8 99,399 27,229 14,546 10,051 7,874 6,620 5,814 5,257
4,849 4,539 4,296 4,100 3,939 3,805 3,691 3,593 3,508 3,434
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV c /pokračování/
12
2,843 2,665 2,496 2,336 2,185
3,231 3,173 3,121 3,074 3,032 2,993 2,958 2,926 2,896 2,869
4,706 4,397 4,155 3,960 3,800 3,666 3,553 3,455 3,371 3,297
6106,3 99,416 27,052 14,374 9,888 7,718 6,469 5,667 5,111
15
2,700 2,522 2,352 2,192 2,039
3,088 3,030 2,978 2,931 2,889 2,850 2,815 2,783 2,753 2,726
4,558 4,251 4,010 3,815 3,656 3,522 3,409 3,312 3,227 3,153
6157,3 99,432 26,872 14,198 9,722 7,559 6,314 5,515 4,962
2,549 2,369 2,198 2,035 1,878
2,938 2,880 2,827 2,781 2,738 2,699 2,664 2,632 2,602 2,574
4,405 4,099 3,858 3,665 3,505 3,372 3,259 3,162 3,077 3,003
6208,7 99,449 26,690 14,020 9,553 7,396 6,155 5,359 4,808
20
2,469 2,288 2,115 1,950 1,791
2,859 2,801 2,749 2,702 2,659 2,620 2,585 2,552 2,522 2,495
7,327 4,021 3,781 3,587 3,427 3,294 3,181 3,084 2,999 2,925
6234,6 99,458 26,598 13,929 9,467 7,313 6,074 5,279 4,729
24
30
2,386 2,203 2,029 1,860 1,696
2,779 2,720 2,668 2,620 2,577 2,538 2,503 2,470 2,440 2,412
4,247 3,941 3,701 3,507 3,348 3,214 3,101 3,003 2,919 2,844
6260,7 99,466 26,505 13,838 9,379 7,229 5,992 5,198 4,649
Kvantily F0,99 rozdělení F 40
2,299 2,114 1,936 1,763 1,592
2,695 2,636 2,583 2,536 2,492 2,453 2,417 2,384 2,354 2,325
4,165 3,860 3,619 3,425 3,266 3,132 3,018 2,921 2,835 2,761
6286,8 99,474 26,411 13,745 9,291 7,143 5,908 5,116 4,567
60
2,208 2,019 1,836 1,656 1,473
2,608 2,548 2,495 2,447 2,404 2,364 2,327 2,294 2,263 2,234
4,082 3,776 3,536 3,341 3,181 3,047 2,933 2,835 2,749 2,674
6313,0 99,483 26,316 13,652 9,202 7,057 5,824 5,032 4,483
120
2,111 1,917 1,726 1,533 1,325
2,517 2,457 2,403 2,354 2,310 2,270 2,233 2,198 2,167 2,138
3,997 3,690 3,449 3,255 3,094 2,960 2,845 2,746 2,660 2,584
6339,4 99,491 26,221 13,558 9,112 6,969 5,737 4,946 4,398
2,006 1,805 1,601 1,381 1,000
2,421 2,360 2,306 2,256 2,211 2,169 2,132 2,097 2,064 2,034
3,909 3,603 3,361 3,165 3,004 2,868 2,753 2,653 2,566 2,489
6366,0 99,501 26,125 13,463 9,020 6,880 5,650 4,859 4,311
2
1
9,944 9,830 9,727 9,635 9,551 9,475 9,406 9,342 9,284 9,230
9,180 8,828 8,495 8,179 7,879
20 21 22 23 24 25 26 27 28 29
30 40 60 120
16211 198,50 55,552 31,333 22,785 18,635 16,236 14,688 13,614
12,826 12,226 11,754 11,374 11,060 10,798 10,575 10,384 10,218 10,073
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV d
2
6,355 6,066 5,795 5,539 5,298
6,987 6,891 6,806 6,730 6,661 6,598 6,541 6,489 6,440 6,396
9,427 8,912 8,510 8,187 7,922 7,701 7,514 7,354 7,215 7,094
20000 199,00 49,799 26,284 18,314 14,544 12,404 11,042 10,107
3
5,239 4,976 4,729 4,497 4,279
5,818 5,730 5,652 5,582 5,519 5,462 5,409 5,361 5,317 5,276
8,081 7,600 7,226 6,926 6,680 6,476 6,303 6,156 6,028 5,916
21615 199,17 47,467 24,259 16,530 12,917 10,882 9,597 8,717
4,623 4,374 4,140 3,921 3,715
5,174 5,091 5,017 4,950 4,890 4,835 4,785 4,740 4,698 4,659
7,343 6,881 6,521 6,234 5,998 5,803 5,638 5,497 5,375 5,268
22500 199,25 46,196 23,155 15,556 12,028 10,050 8,805 7,956
4
4,228 3,986 3,760 3,548 3,350
4,762 4,681 4,609 4,544 4,486 4,433 4,384 4,340 4,300 4,262
6,872 6,422 6,071 5,791 5,562 5,372 5,212 5,075 4,956 4,853
23056 199,30 45,392 22,456 14,940 11,464 9,522 8,3302 7,471
5
Kvantily F0,995 rozdělení F 6
3,949 3,713 3,492 3,285 3,091
4,472 4,393 4,323 4,259 4,202 4,150 4,103 4,059 4,020 3,983
6,545 6,102 5,757 5,482 5,257 5,071 4,913 4,779 4,663 4,561
23437 199,33 44,838 21,975 14,513 11,073 9,155 7,952 7,134
7
3,742 3,509 3,291 3,087 2,897
4,257 4,179 4,109 4,047 3,991 3,939 3,893 3,850 3,811 3,775
6,303 5,865 5,525 5,253 5,031 4,847 4,692 4,559 4,445 4,345
23715 199,36 44,434 21,622 14,200 10,786 8,885 7,694 6,885
8
3,580 3,350 3,134 2,933 2,744
4,090 4,013 3,944 3,882 3,826 3,776 3,730 3,688 3,649 3,613
6,116 5,682 5,345 5,076 4,857 4,674 4,521 4,389 4,276 4,177
23925 199,37 44,126 21,352 13,961 10,566 8,678 7,496 6,693
9
3,451 3,222 3,008 2,808 2,621
3,956 3,880 3,812 3,750 3,695 3,645 3,599 3,557 3,519 3,483
5,968 5,537 5,202 4,935 4,717 4,536 4,384 4,254 4,141 4,043
24091 199,39 43,882 21,139 13,772 10,391 8,514 7,339 6,541
2
10
3,847 3,771 3,703 3,642 3,587 3,537 3,492 3,450 3,412 3,377
3,344 3,117 2,904 2,705 2,519
20 21 22 23 24 25 26 27 28 29
30 40 60 120
24,224 199,40 43,686 20,967 13,618 10,250 8,380 7,211 6,417
5,847 5,418 5,086 4,820 4,603 4,424 4,272 4,142 4,031 3,933
1
10 11 12 13 14 15 16 17 18 19
1 2 3 4 5 6 7 8 9
Tabulka IV d /pokračování/
12
3,179 2,953 2,742 2,544 2,358
3,678 3,602 3,535 3,475 3,420 3,370 3,325 3,284 3,246 3,211
5,661 5,236 4,906 4,643 4,428 4,250 4,099 3,971 3,860 3,763
24426 199,42 43,387 20,705 13,384 10,034 8,176 7,015 6,227
15
3,006 2,781 2,571 2,373 2,187
3,502 3,427 3,360 3,300 3,246 3,196 3,152 3,110 3,073 3,038
5,471 5,049 4,721 4,460 4,247 4,070 3,921 3,793 3,683 3,587
24630 199,43 43,085 20,438 13,146 9,814 7,968 6,814 6,033
2,823 2,598 2,387 2,188 2,000
3,318 3,243 3,176 3,117 3,062 3,013 2,969 2,928 2,890 2,855
5,274 4,855 4,530 4,270 4,059 3,883 3,734 3,607 3,498 3,402
24836 199,45 42,778 20,167 12,903 9,589 7,754 6,608 5,832
20
2,727 2,502 2,290 2,089 1,898
3,222 3,147 3,081 3,021 2,967 2,918 2,873 2,832 2,794 2,759
5,173 4,756 4,432 4,173 3,961 3,786 3,638 3,511 3,402 3,306
24940 199,46 42,622 20,030 12,780 9,474 7,645 6,503 5,729
24
30
2,628 2,402 2,187 1,984 1,789
3,123 3,049 2,982 2,922 2,868 2,819 2,774 2,733 2,695 2,660
5,071 4,654 4,331 4,073 3,862 3,687 3,538 3,412 3,303 3,208
25044 199,47 42,466 19,892 12,656 9,358 7,735 6,396 5,625
Kvantily F0,995 rozdělení F 40
2,524 2,296 2,079 1,871 1,669
3,022 2,947 2,880 2,820 2,765 2,716 2,671 2,630 2,592 2,557
4,966 4,551 4,228 3,970 3,760 3,585 3,437 3,311 3,201 3,106
25148 199,47 42,308 19,752 12,530 9,241 7,423 6,288 5,519
60
2,415 2,184 1,962 1,747 1,533
2,916 2,841 2,774 2,713 2,659 2,609 2,563 2,522 2,483 2,448
4,859 4,445 4,123 3,866 3,655 3,480 3,332 3,206 3,096 3,000
25253 199,48 42,149 19,611 12,402 9,122 7,309 6,177 5,410
120
2,300 3,064 1,834 1,606 1,364
2,806 2,730 2,663 2,602 2,546 2,496 2,450 2,408 2,369 2,333
4,750 4,337 4,015 3,758 3,547 3,372 3,224 3,097 2,987 2,891
25359 199,49 41,989 19,468 12,274 9,002 7,193 6,065 5,300
2,176 1,932 1,688 1,431 1,000
2,690 2,614 2,546 2,484 2,428 2,377 2,330 2,287 2,247 2,210
4,639 4,226 3,904 3,647 3,436 3,260 3,112 2,984 2,873 2,776
25465 199,51 41,829 19,325 12,144 8,879 7,076 5,951 5,188