VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA MANAGEMENTU A EKONOMIKY VE ZLÍNĚ
APLIKOVANÁ STATISTIKA FRANTIŠEK PAVELKA PETR KLÍMEK
ZLÍN 2000
Recenzoval: Hana Lošťáková
© František Pavelka, Petr Klímek, 2000
ISBN 80 – 214 – 1545 – 2
OBSAH
ÚVOD
5
1. EXKURS DO POPISNÉ STATISTIKY
6
1.1 Statistický soubor a statistické znaky
6
1.2 Typy proměnných
6
1.3 Základní statistické charakteristiky
8 8
1.3.1 Míry polohy (úrovně) 1.3.2 Míry variability
10
2. ANALÝZA ZÁVISLOSTÍ
14
2.1 Různé druhy závislostí
14
2.2 Základní způsoby popisu závislostí
15
2.2.1 Dvourozměrná tabulka
15
2.2.2 Bodový diagram
18
2.2.3 Podmíněné průměry a rozptyly
18
2.3 Analýza rozptylu (plánování experimentu)
21
2.3.1 Experimenty s jedním faktorem
23
2.3.2 Experimenty se dvěma faktory
29
2.3.3 Analýza rozptylu kvalitativních znaků
35
2.4 Neparametrické metody
40
2.4.1 Znaménkový test
41
2.4.2 Jednovýběrový Wilcoxonův test
42
2.4.3 Dvouvýběrový Wilcoxonův test
42
2.4.4 Kruskal-Wallisův test
44
2.4.5 Friedmanův test
45 49
2.5 Regresní analýza
-3-
2.6 Korelační analýza
70 strana číslo
2.6.1 Parametrické míry těsnosti závislosti
70
2.6.2 Neparametrické míry těsnosti závislosti
79
2.6.3 Poznámka o multikolinearitě
86
3. KAPITOLY Z ANALÝZY ČASOVÝCH ŘAD
89
3.1 Elementární charakteristiky časových řad
90
3.2 Dekompozice časových řad
91
3.2.1 Popis trendu - analytické vyrovnávání
93
3.2.2 Mechanické vyrovnávání časových řad
98
4. KAPITOLY Z HOSPODÁŘSKÉ STATISTIKY
102
4.1 Ukazatel jako statistická veličina
102
4.1.1 Typy a vlastnosti ukazatelů
103
4.1.2 Zdroje ekonomických dat v ČR
108
4.2 Indexy a absolutní rozdíly jako nástroj srovnávání
109
4.2.1 Jednoduché (individuální) indexy
110
4.2.2 Složené (individuální) indexy
112
4.2.3 Souhrnné indexy
115
4.3 Cenové indexy v České republice
127
LITERATURA
131
-4-
ÚVOD Skripta „Aplikovaná statistika“ jsou určena pro kurs Aplikovaná statistika 2. ročníku presenčního a kombinovaného studia Fakulty managementu a ekonomiky ve Zlíně. Navazují na skripta „Metody statistické analýzy“ stejnojmenného kursu, který studenti absolvovali již v 1. ročníku. V souladu s hlavními přednáškovými bloky jsou rozdělena do čtyř stěžejních kapitol: 1. Exkurs do popisné statistiky, 2. Analýza závislostí, 3. Kapitoly z analýzy časových řad a 4. Kapitoly z hospodářské statistiky. Skripta jsou koncipována tak, aby vedla studenty k volbě vhodných statistických metod při řešení konkrétních problémů, k přiměřenému zvládnutí techniky výpočtů a zejména ke správné interpretaci získaných výsledků. Probíraná problematika je téměř vždy vysvětlena na řešených příkladech. Získané dovednosti si studenti dále prohloubí v předmětech „Ekonomická statistika“ a „Ekonometrie“, se kterými se setkají ve vyšších ročnících. Statistické tabulky základních statistických rozdělení (normovaného normálního rozdělení, t-rozdělení, F-rozdělení a χ2-rozdělení) jsou uvedeny ve skriptech „Metody statistické analýzy“, popř. v běžné statistické literatuře. Speciální tabulky používané v kapitole 2.4 student nalezne v literatuře [1] a [3]. Pro hlubší zvládnutí přednášené látky je potřeba nejen návštěva přednášek a aktivní účast na cvičeních, ale i studium další literatury, která je uvedena na závěr skript. Přejeme studentům mnoho úspěchů při studiu. František Pavelka Petr Klímek
-5-
1. EXKURS DO POPISNÉ STATISTIKY V této kapitole zopakujeme stručně základní pojmy z popisné statistiky. Popisná statistika je součástí předmětu „Metody statistické analýzy“, který se vyučuje v I. ročníku. K výkladu základních pojmů již nebudeme uvádět příklady. 1.1 Statistický soubor a statistické znaky Definice 1.1 Statistické jednotky, statistické znaky Statistické jednotky jsou elementární prvky, na kterých zkoumáme vlastnosti, které se vyskytují u velkého počtu jedinců. Každá statistická jednotka má řadu vlastností, které ji charakterizují. Tyto vlastnosti se nazývají statistické znaky. Definice 1.2 Statistický soubor, rozsah souboru Statistický soubor je souhrn všech statistických jednotek, které jsou předmětem zkoumání. Počet jednotek statistického souboru se nazývá rozsah souboru. Poznámka: Statistický znak je tedy odraz určité vlastnosti každé jednotky jistého statistického souboru. Nabývá tolika hodnot (slovních nebo číselných), kolik jednotek patří do daného souboru. Počet hodnot je roven rozsahu souboru. Definice 1.3 Hodnota znaku Označení stupně dané vlastnosti (vyjádřené statistickým znakem) pozorovaného u každé jednotky souboru je hodnota znaku; někdy se nazývá pozorování. Definice 1.4 Konstanta, proměnná Statistický znak, který nabývá v daném souboru pouze jedné obměny, se nazývá konstanta (někdy též identifikační statistický znak). Statistické znaky, které nabývají v daném souboru více než jedné obměny, jsou proměnlivé (variabilní) - neboli proměnné. Definice 1.5 Základní a výběrový soubor Základní soubor (populace) je soubor, v němž poznání jeho některých proměnlivých vlastností je vlastním cílem statistického zkoumání. Výběrový soubor tvoří jistý počet jednotek, které byly určitým způsobem vybrány ze základního souboru. Výběrový soubor by měl být co nejlepším představitelem (representantem) populace, poněvadž na základě poznání vlastností výběrového souboru se usuzuje na vlastnosti populace (základního souboru). 1.2 Typy proměnných Podle toho, jsou-li obměny určité proměnné vyjádřeny slovy nebo určitými čísly, dělíme proměnné na: a) slovní (alfabetické, kategoriální), -6-
b) číselné (numerické). Kategoriální se nazývají proto, že vytříděním jednotek souboru podle takové proměnné vznikají skupiny neboli kategorie. Někdy se kategoriálním proměnným říká kvalitativní a numerickým proměnným pak kvantitativní. Podle toho, zda proměnné nabývají v daném statistickém souboru dvou nebo více než dvou obměn, dělíme proměnné na: a) alternativní (nabývají pouze dvou variant), b) množné (nabývají více než dvou variant). Podle toho, zda varianty numerické proměnné mohou nabýt v intervalu, v němž se reálně pohybují, všech reálných čísel nebo jen izolovaných číselných hodnot, se číselné proměnné dělí na: a) spojité (kontinuální), b) nespojité (diskrétní). Podle hlediska typu vztahů mezi variantami a tím i hodnotami proměnných členíme tyto na nominální, ordinální a metrické. Definice 1.6 Nominální proměnná Nominální (jmenné, názvové) proměnné jsou ty kategoriální proměnné, u jejichž variant nelze objektivně jednoznačně stanovit jedno určité pořadí tak, že by varianta s vyšším pořadím vyjadřovala vyšší stupeň vlastnosti než jiná varianta s nižším pořadím. O dvou hodnotách nominální proměnné lze pouze konstatovat, že jsou buď stejné, nebo že jsou různé. Definice 1.7 Ordinální proměnná Ordinální (pořadové) proměnné jsou ty, o jejichž variantách lze konstatovat nejen, že jsou různé, ale lze je jednoznačně seřadit od nejmenší po největší. Rozdíl dvou obměn nebo hodnot ordinální proměnné značí rozdíl v pořadí těchto variant nebo hodnot. Toto srovnání obměn a hodnot ordinální proměnné má smysl a je plně dostačující. Naproti tomu nemá smysl nebo je klamné srovnání obměn a hodnot ordinální proměnné podílem. Srovnání podílem v případě, že ordinální proměnná obsahuje záporné i nezáporné obměny, je nemožné. V případě, že ordinální proměnná obsahuje pouze kladné varianty či hodnoty, je srovnání podílem rozumně těžko vysvětlitelné. Příkladem ordinální proměnné je třeba známka z matematiky u vysokoškolských studentů. Tato proměnná nabývá ve slovní formě variant „výborně“, „velmi dobře“, „dobře“, „nevyhověl“ a v číselné formě 1,2,3,4. Lze např. říci, že student se známkou 4 má o 3 stupně (= 4-1) horší známku než student se známkou 1. Nelze však rozumně tvrdit, že by první student byl právě čtyřikrát (= 4:1) horší než onen jedničkář. Definice 1.8 Metrická proměnná Metrické (měřitelné) proměnné jsou ty, o jejichž dvou obměnách lze říci nejen, že jsou různé (jako u nominálních proměnných) a že jedna z nich je větší než druhá (jako u ordinálních proměnných), ale lze i přesně změřit, o kolik je jedna obměna větší než druhá. -7-
Metrické proměnné jsou vždy číselné. Vyjadřují přitom nejen seřazení, ale i velikost měřených vlastností statistických jednotek daného statistického souboru. Pro metrické proměnné se často používá název kardinální. Toto ztotožnění metrických a kardinálních proměnných však není účelné a užitečné. Metrické proměnné lze totiž podle oboru variant (a tím i hodnot), kterých může v daném souboru daná měřitelná proměnná nabýt, rozdělit v zásadě na dvě skupiny. Do první skupiny patří taková metrická proměnná, která v daném souboru nabývá pouze kladných číselných hodnot. A právě pro tuto metrickou proměnnou je vhodné vyhradit název kardinální. Definice 1.9 Kardinální proměnná Kardinální proměnná je taková metrická proměnná, která nabývá v určitém statistickém souboru pouze kladných číselných variant, u jejichž dvojic lze přesně změřit nejenom, o kolik je jedna obměna větší než druhá, ale lze též přesně stanovit, kolikrát je jedna varianta větší než druhá. Příkladem kardinální proměnných jsou v souboru vysokoškolských studentů např. „tělesná výška v cm“ a „hmotnost v kg“, neboť nabývají pouze kladných číselných hodnot. Například u poslední proměnné má smysl říci, že např. 100 kg vážící student proti studentům vážícím 50 kg je nejen o 50 kg (100-50) těžší, ale je i dvakrát (100:50) těžší apod. Do druhé skupiny metrických proměnných patří takové, které nabývají v daném souboru kladných i nekladných číselných hodnot. U obměn takové metrické proměnné lze tedy pouze přesně změřit, o kolik je jedna varianta větší než druhá, ale nelze stanovit, kolikrát je jedna kladná obměna větší než nějaká nekladná obměna. Tyto proměnné jsou nekardinální. 1.3 Základní statistické charakteristiky 1.3.1 Míry polohy (úrovně) Definice 1.10 Střední hodnota Střední hodnota numerické proměnné x, která nabývá hodnot xi, i = 1,2,...,n , z nichž některá je minimální (xmin) a některá maximální (xmax), je každá hodnota xstr, pro niž platí: xmin ≤ xstr ≤ xmax. (1.1) Mezi hodnoty xstr , které vyhovují (1.1) lze uvést: xmin, xmax (extrémní hodnoty), x! (modus), ~ x (medián), dolní kvartil ~ x 25 , horní kvartil ~ x 75 apod. Za velmi dobré míry polohy se z nich považují právem modus x! (relativně nejčetnější hodnota), medián ~ x (prostřední hodnota). Všechny výše uvedené druhy středních hodnot jsou konkrétní hodnoty, které nejsou přímo ovlivněny velikostí všech hodnot proměnné. To má výhodu zejména tehdy, kdy se vyskytují náhodně jedna nebo několik málo mimořádně extrémních hodnot (vzhledem k ostatním hodnotám příliš velkých resp. příliš malých). V těchto případech nejsou modus ani medián ovlivněny těmito odlehlými hodnotami a poskytují tak dobrou představu o objektivní poloze prostřední a nejčastější hodnoty a tím i o úrovni (poloze) hodnot sledované proměnné.
-8-
Někdy se však necitlivost těchto měr považuje za jistou nevýhodu. Tuto nevýhodu překonává velká skupina středních hodnot, která se nazývá průměry, což jsou střední hodnoty definované tak, že jsou funkcí všech hodnot dané proměnné. Existuje mnoho druhů průměrů. My se zde zaměříme na aritmetický, geometrický, harmonický a kvadratický průměr. Definice 1.11 Aritmetický průměr (jednoduchý, prostý) Aritmetický průměr řady n hodnot x1, x2,..., xn se označuje zpravidla jako x a je definován jako: 1 n x = ∑ xi . (1.2) n i =1 Udává, jaká stejná část ze součtu hodnot numerické proměnné připadá na jednu jednotku. Má smysl všude, kde má nějaký informační smysl součet hodnot proměnné. Definice 1.12 Aritmetický průměr vážený Aritmetický průměr vážený se spočítá z rozdělení četnosti podle vzorce: k
x=
∑x n i =1 k
i
∑n i =1
i
,
(1.3)
i
kde xi je třídní znak i-tého intervalu (střed intervalu) rozdělení četnosti, ni - absolutní četnost v i-tém intervalu , k - počet intervalů. Nahradí-li se v (1.3) absolutní četnost ni, i = 1,2,...,k relativními četnostmi pi, i =1,2,...,k, pak platí: k
x = ∑ xi pi .
(1.4)
i =1
Definice 1.13 Geometrický průměr Geometrický průměr n kladných hodnot x1, x2,..., xn se spočítá podle vztahu: n
x G = n x 1 . x 2 ..... x n =
n
∏x i =1
i
.
(1.5)
Geometrický průměr má smysl všude, kde má nějaký informační smysl součin hodnot proměnné. Definice 1.14 Harmonický průměr Harmonický průměr n kladných hodnot je definován jako: n xH = n . 1 ∑ i =1 x i
-9-
(1.6)
Má smysl všude, kde má nějaký informační smysl součet převrácených hodnot proměnných. Ze vzorce (1.6) je zřejmé, že převrácená hodnota harmonického průměru: n 1 ∑ 1 i =1 x i (1.7) = xH n je aritmetickým průměrem převrácených hodnot proměnných. Definice 1.15 Kvadratický průměr Kvadratický průměr n hodnot x1, x2, ..., xn je definován jako: n
xK =
∑x i =1
2 i
. (1.8) n Má smysl všude, kde má nějaký informační smysl součet čtverců hodnot proměnné. Ze vztahu (1.8) plyne, že čtverec kvadratického průměru: n
x K2 =
∑x i =1
2 i
(1.9) n je aritmetickým průměrem čtverců hodnot proměnné. Poznámka: Pro kladné hodnoty x1, x2, ..., xn platí mezi výše uvedenými průměry těchto hodnot nerovnosti: x H ≤ xG ≤ x ≤ x K . (1.10) 1.3.2 Míry variability Definice 1.16 Variační rozpětí Variační rozpětí n kladných hodnot proměnné, seřazených v tzv. variační řadu x1 ≤ x2 ≤ ... ≤ xn-1 ≤ xn se spočítá podle vztahu: R = x n- x 1 .
(1.11)
Hodnotu x1 někdy označujeme jako xmin a hodnotu xn jako xmax. Pak je R = xmax - xmin . Variační rozpětí je velmi přibližnou charakteristikou variability hodnot numerické proměnné, neboť je příliš ovlivněno velikostí extrémních hodnot. Definice 1.17 Rozptyl Rozptyl řady n hodnot x1, x2, ..., xn je definován jako: - 10 -
n
s2 =
∑ (x i =1
− x)
i
2
.
n
(1.12)
Z rozdělení četností se rozptyl určí jako: k
s2 =
∑ (x i =1
− x) n i 2
i
n
.
(1.13)
Nahradí-li se ve (1.13) absolutní četnosti ni, i = 1, 2, ...,k četnostmi relativními pi, i = 1, 2, ..., k, potom máme: k
s = ∑ (x i − x ) p i . 2
2
(1.14)
i =1
Častěji jako (1.12) a (1.13) je rozptyl s2 z řady n hodnot x1, x2, ..., xn definován: n
s2 =
∑ (x i =1
− x)
i
2
(1.15)
n −1
a z rozdělení četností: k
s2 =
∑ (x i =1
− x) n i 2
i
n −1
.
(1.16)
Definice 1.18 Směrodatná odchylka Směrodatná odchylka je definována jako kladná druhá odmocnina z rozptylu, tj.: s = + s2 .
(1.17)
Jedním z důvodů zavedení směrodatné odchylky jako míry variability je skutečnost, že rozptyl je uváděn ve čtvercích měrných jednotek hodnot numerických proměnných. Odmocněním se tyto čtverce měrných jednotek převedou zpět do lineárního tvaru. Směrodatná odchylka je vlastně kvadratickým jednotlivých hodnot od jejich aritmetického průměru, tedy: n
s=
∑ (x i =1
i
− x)
n
průměrem
z odchylek
2
.
(1.18)
Směrodatná odchylka tedy udává, jak se v průměru v daném souboru odchylují hodnoty od aritmetického průměru.
- 11 -
Definice 1.19 Variační koeficient Variační koeficient je definován jako podíl směrodatné odchylky a aritmetického průměru, tedy: s (1.19) Vx = . x Je mírou tzv. relativní variability. Po vynásobení stem udává, z kolika procent se podílí směrodatná odchylka na aritmetickém průměru. Doporučuje se k aplikaci při srovnávání variability hodnot dvou různorodých proměnných, které jsou vyjádřeny zpravidla v různých měrných jednotkách. Poznámka k variačnímu koeficientu: a) Přičte-li se ke všem hodnotám (odečte-li se od všech hodnot) proměnné libovolná kladná konstanta, potom se variační koeficient zmenší (zvětší). b) Násobí-li se (dělí-li se) všechny hodnoty proměnné nenulovou konstantou, pak se variační koeficient nezmění. Definice 1.20 Průměrná odchylka Průměrná odchylka z řady n hodnot x1, x2, ..., xn je definována jako: n
d=
∑x i =1
i
−x
n
.
(1.20)
Definice 1.21 Míra variability hodnot kardinální proměnné Tato míra je definována jako: n
va =
n
∑ ∑ (x i =1 j =1
i
− x j ) ln
n( n − 1)
xi xj
2 n = ∑ ( x − x) ln x i , xi > 0. n − 1 i =1 i
(1.21)
Míra va byla zavedena proto, že někdy je třeba při měření variability hodnot numerické proměnné přihlédnout k různé povaze ordinálních a kardinálních proměnných. Zatímco je pro měření variability hodnot ordinální proměnné vhodné použít kterékoli míry absolutní variability, založené jen na průměrech odchylek hodnot od průměru, je třeba při měření variability kardinální proměnné přihlédnout i k podílům hodnot od průměru, což splňuje právě míra va. Zatímco směrodatná odchylka, průměrná odchylka apod. měří absolutní variabilitu a variační koeficient relativní variabilitu, je míra va mírou komplexní variability kardinální proměnné. Definice 1.21 Variabilita hodnot kategoriální proměnné Variabilita hodnot kategoriální proměnné (mutabilita) je definována jako:
- 12 -
k
n M= . n −1
∑ n (n − n ) i
i =1
i
n2
,
(1.22)
kde k je počet obměn, ni je absolutní četnost jednotek v i-té obměně, n je rozsah souboru. Obor míry mutability: M∈<0,1>. Jestliže tedy jsou všechny hodnoty nějaké slovní proměnné stejné, tj. nabývá-li tato proměnná pouze jedné obměny, jde o nulovou mutabilitu. Nabývá-li tato proměnná aspoň dvou obměn, potom jde o určitý stupeň mutability. Tato proměnlivost je tím vyššího stupně, čím více nabývá daná kategoriální proměnná obměn. Je-li rozsah souboru (n) roven počtu obměn (k), je mutabilita rovna jedné. Výraz za podílem n / (n - 1) v (1.22) se nazývá nominální variance: k
nom var =
∑ n (n − n ) i =1
i
i
n2
.
(1.23)
Míru mutability lze také psát ve tvaru: k
M=
n 2 − ∑ n i2 i =1
n( n − 1)
.
(1.24)
- 13 -
2. ANALÝZA ZÁVISLOSTÍ Při výkladu této kapitoly předpokládáme znalosti z předmětu „Metody statistické analýzy“. Kvůli kontinuitě výkladu zopakujeme (tak jako v 1. kapitole) některé základní pojmy z regresní a korelační analýzy. 2.1 Různé druhy závislostí Vysvětlíme (zopakujeme) nejprve pojmy: příčinná, pevná a volná závislost. Definice 2.1
Příčinná závislost
O příčinné závislosti mluvíme tehdy, jestliže vznik, existence či změny jedněch jevů (příčin) podmiňuje vznik, existence či změny jiných jevů (účinků), nebo když se jevy vzájemně podmiňují. Zkoumání souvislostí (zkoumání tzv. korelace mezi jevy) je jedním z nejdůležitějších úkolů statistiky. S nejjednoduššími formami příčinných souvislostí se setkáváme u některých přírodních jevů. Se složitými formami se setkáváme u jevů společenských (ekonomických). Příčinná souvislost se zpravidla projevuje v různých formách. Jednou z nich je funkční závislost, se kterou se setkáváme v matematice, fyzice apod. Definice 2.2
Funkční (pevná) závislost
Funkční (pevná) závislost je taková závislost, kdy každé hodnotě jedné proměnné, která se nazývá argument a označuje se zpravidla jako x (nezávisle proměnná), se přiřazuje jednoznačně jediná hodnota druhé proměnné veličiny, která se nazývá funkcí a označuje se písmenem y (závisle proměnná). O funkční závislosti mluvíme někdy jako o pevné závislosti, poněvadž vznik existence jednoho jevu je při funkční závislost nerozlučně spjata se vznikem nebo existencí jevu druhého. Definice 2.3
Volná závislost
Volná závislost je taková závislost, kdy stejné hodnotě jedné proměnné může odpovídat více hodnot druhé proměnné. Budeme se setkávat s veličinami, mezi nimiž funkční závislosti neexistují, a přesto půjde o veličiny závislé. Můžeme říci, že při zkoumání závislostí numerických (číselných) znaků charakterizujících ekonomické veličiny, budeme mít výhradně co činit s volnými závislostmi. Definice 2.4
Podmíněné rozdělení četností
Podmíněné rozdělení četností je rozdělení četností jedné veličiny (jednoho kvantitativního znaku) odpovídající určité hodnotě druhé veličiny (druhého kvantitativního znaku).
- 14 -
Definice 2.5
Statistická závislost, nezávislost
Dochází-li při změnách jednoho znaku ke změnám podmíněného rozdělení znaku druhého, považují se oba znaky za statisticky závislé. Odpovídá-li naopak různým změnám jednoho znaku stejné podmíněné rozdělení četností znaku druhého, považují se oba znaky za statisticky nezávislé. Definice 2.6
Stochastická závislost
Statistická závislost je empirickou formou stochastické závislosti, tj. závislosti náhodných veličin. Ty jsou závislé, jestliže změny hodnot jedné náhodné veličiny jsou doprovázeny změnami podmíněného pravděpodobnostního rozdělení veličiny druhé. Stochastická a tedy i statistická závislost jsou volné závislosti. 2.2 Základní způsoby popisu závislostí Tato podkapitola je také vlastně stručným zopakováním poznatků z kurzu „Metody statistické analýzy“. Tady se již neobejdeme bez jednoduchého příkladu. 2.2.1 Dvourozměrná tabulka První informace o průběhu závislosti dvou proměnných (znaků) získáme již tak, že zjištěné údaje uspořádáme do dvourozměrné tabulky. Je to tabulka, v jejíž legendě jsou uvedeny varianty jednoho znaku, v hlavičce varianty druhého znaku a v jednotlivých políčkách tabulky četnosti kombinací obou proměnných (znaků). Tyto četnosti nazveme sdružené četnosti a značí se zpravidla nij. V posledním sloupci tabulky se uvádějí řádkové součty a v posledním řádku tabulky sloupcové součty sdružených četností. Tyto řádkové či sloupcové součty se nazývají okrajové (marginální) četnosti a označují se obvykle jako ni. a n.j . Definice 2.7
Kontingenční a korelační tabulka
Dvourozměrná tabulka kvalitativních znaků se nazývá kontingenční tabulka. Dvourozměrná tabulka kvantitativních znaků se nazývá korelační tabulka. V korelační tabulce jako varianty obou znaků figurují buď hodnoty znaků, jde-li o nespojité znaky, které mohou nabývat jen malého počtu hodnot, nebo intervaly hodnot znaků (v jiných případech). V posledním případě jsou při zpracování údajů korelační tabulky jednotlivé intervaly representovány jejich středy (tzv. třídními znaky). Příklad 2.1 Při sociologickém průzkumu prováděném u n = 400 respondentů byly jednotlivým respondentům položeny mimo jiné tyto otázky: - 15 -
1. Jak hodnotíte pocity při nošení letní obuvi zakoupené u fy Baťa? Odpovědi mohou být: dobré, ani dobré ani špatné, špatné. 2. Hodláte tedy při příštím nákupu obuvi změnit firmu? Odpovědi mohou být: ano, nejsem rozhodnut, ne. Průzkum měl mimo jiné dát odpověď na otázku, zda existuje souvislost mezi tím, jak respondenti posuzují své pocity při nošení obuvi a mezi jejich postojem ke změně firmy. Jednotlivé odpovědi získané od respondentů byly seřazeny do dvourozměrné tabulky (tab. 2.1). Tabulka 2.1 Pocity při nošení obuvi
postoj ke změně firmy
součty (řádkové) ni.
hodlám změnit
nejsem rozhodnut
nehodlám změnit
dobré
16
40
144
200
ani dobré ani špatné špatné
0
12
68
80
88
8
24
120
součty (sloupcové) n.j
104
60
236
400
Povšimněme si, že z tabulky je patrná souvislost obou znaků. Se změnou názorů na pocity při nošení se mění podmíněná rozdělení četností postoje ke změně firmy. Z tabulky je vidět, že z respondentů považujících pocity při nošení za dobré jich většina nehodlá změnit firmu, zatímco z respondentů považujících pocity při nošení za špatné, jich většina hodlá změnit firmu. Dobrou představu o změnách podmíněných rozdělení četností znaku „změna firmy“ obdržíme tak, že tato rozdělení popíšeme podmíněnými relativními četnostmi (tab. 2.2), které získáme tak, že četnosti v každém řádku podělíme jejich součtem. Označíme-li počet řádků tabulky (kromě součtového) symbolem k a počet sloupců (opět kromě součtového) symbolem m, můžeme psát n ij p j\ i = ( i = 1, 2, ..., k; j =1, 2, ..., m). (2.1) n i. Tabulka 2.2 Pocity při nošení obuvi
postoj ke změně firmy
součty
hodlám změnit
nejsem rozhodnut
nehodlám změnit
dobré
0,08
0,20
0,72
1,00
ani dobré ani špatné špatné
0,00
0,15
0,85
1,00
0,73
0,07
0,20
1,00
součty
0,26
0,15
0,59
1,00
V posledním řádku tabulky jsou uvedeny okrajové relativní četnosti p.j, popisující rozdělení četnosti znaku „postoj ke změně firmy“ u všech n = 400 respondentů bez ohledu na pocity při nošení. Tyto relativní četnosti jsou poměrem okrajových četností n.j k počtu všech pracovníků n, tj. - 16 -
p.j =
n.j
, j = 1, 2, ..., m. (2.2) n Vypočítali jsme je tak, že jsme všechny hodnoty v součtovém řádku tab. 2.1 dělili 400. Z tab. 2.2 lze vyčíst zejména to, že z respondentů, považujících pocity při nošení obuvi za dobré, jich pouze 8 % hodlá a plných 72 % nehodlá změnit firmu, zatím co z respondentů, považujících pocity při nošení obuvi za špatné, jich 73 % hodlá a pouze 20 % nehodlá změnit firmu. Z tab. 2.2 lze také vyčíst, že z celkového počtu respondentů (n = 400) hodlá změnit firmu 26 % respondentů, nerozhodnuto je 15 % a nehodlá změnit firmu 59 %. Kdyby byl postoj ke změně firmy nezávislý na pocitech při nošení, byly by podmíněné relativní četnosti pj\i v každém řádku tabulky stejné a byly by stejné jako tři okrajové relativní četnosti p.j. V uvedeném příkladu byly různé postoje respondentů ke změně firmy vysvětlovány jejich různými pocity při nošení obuvi. První z těchto znaků byl tedy znakem vysvětlovaným a druhý prvkem vysvětlujícím. V takových případech se relativními četnostmi popisují vždy rozdělení znaku vysvětlovaného, zatímco znak vysvětlující figuruje jako znak třídící. Je-li závislost obou znaků vzájemná, tj. může-li každý z nich vystupovat v roli vysvětlovaného znaku, popisují se podmíněnými relativními četnostmi podmíněná rozdělení každého z obou znaků. První s podmíněnými relativními četnostmi (vztah 2.1) a okrajovými relativními četnostmi (vztah 2.2) a druhá tabulka s podmíněnými relativními četnostmi n ij p i\ j = , i = 1, 2, ..., k; j = 1, 2, ..., m (2.3) n.j a s okrajovými relativními četnostmi n i. p i. = , i = 1, 2, ..., k. (2.4) n V těchto případech se sestavuje i tabulka sdružených relativních četností. n ij , i = 1, 2, ..., k; j = 1, 2, ..., m, (2.5) p ij = n které jsou poměrem sdružených četností k počtu pozorování n. Ke sdruženým relativním četnostem se pak v posledním sloupci připojují okrajové relativní četnosti pi. a v posledním řádku okrajové relativní četnosti p.j. Poznámka: Z tabulky 2.1 bychom přešli na tabulku sdružených relativních četností tak, že bychom všechny hodnoty v tabulce 2.1 dělili 400. Sdružená relativní četnost 16/400 = 0,04 by nás informovala o tom, že z celkového počtu 400 respondentů jich 4 % považovalo pocity při nošení obuvi za dobré, a přesto hodlali změnit firmu, sdružená relativní četnost 88/400 = 0,22 nás informuje o tom, že 22 % respondentů považovalo pocity při nošení obuvi za špatné a hodlalo změnit firmu apod.
- 17 -
2.2.2 Bodový diagram Sledujeme-li u n statistických jednotek dva kvantitativní znaky x, y, obdržíme celkem n dvojic hodnot xi, yi, i = 1, 2, ...,n. První představu o závislosti obou znaků lze získat tak, že zjištěná data znázorníme bodovým diagramem. Definice 2.8
Bodový diagram
Bodový diagram je diagram, v němž každá dvojice xi, yi je znázorněna jako bod v pravoúhlé souřadné soustavě, kde na vodorovné ose je umístěna stupnice hodnot znaku x a svislé stupnice hodnot znaku y. Vynesené body tvoří jakýsi „roj“ , z něhož můžeme vystopovat charakteristické rysy závislosti obou znaků. Bodový diagram nám tedy poskytuje informace o průběhu závislosti a také o její těsnosti. 2.2.3 Podmíněné průměry a rozptyly Nejdůležitějšími charakteristikami rozdělení četností jsou aritmetický průměr a rozptyl. Pokud se tyto charakteristiky týkají podmíněného rozdělení četnosti, mluvíme o podmíněném průměru a o podmíněném rozptylu. Mění-li se podmíněné rozdělení četností, odráží se to zpravidla na změně alespoň jedné z těchto charakteristik. Popíšeme jednoduchý způsob, který lze použít při zkoumání závislosti kvantitativního znaku y na znaku x, který může být kvantitativní i kvalitativní. Jednotky, na nichž byly zjištěny údaje o znacích y a x (počet těchto jednotek budeme značit n) se podle znaku x roztřídí do k skupin. Dále se v každé skupině vypočte průměr a rozptyl příslušných hodnot znaku y. Tím se získá k podmíněných průměrů y 1 , y 2 ,..., y k a k podmíněných rozptylů s2y.1 , s 2y.2 ,..., s 2y.k znaku y. Posuzuje se pak, jak se při změnách úrovně znaku x mění podmíněné průměry a podmíněné rozptyly znaku y. Je-li x nespojitý kvantitativní znak nabývající jen malého počtu hodnot, mohou být skupiny vymezeny přímo těmito hodnotami, jak je tomu např. v tab. 2.3. Zde je znakem x počet dětí a jsou vymezeny skupiny hodnotami 0, 1, 2, 3, 4 tohoto znaku. Nabývá-li znak x mnoha hodnot, je k skupin vymezeno disjunktními intervaly hodnot znaku x. Např. je-li měsíční mzda v Kč, mohou být intervaly 7000 - 7499, 7500 - 7999, 8000 - 8499 apod. Konečně je-li x kvalitativním znakem, jsou skupiny vymezeny variantami tohoto znaku. Např. je-li x dokončené školní vzdělání, mohou být voleny varianty: základní, středoškolské, vysokoškolské. Úrovně znaku x označíme jako x1, x2, ..., xk. Půjde-li o kvalitativní znak, budou jimi jednotlivé varianty. Bude-li x kvantitativní znak, budou x1 < x2 < ...< xk buď jednotlivými hodnotami znaku nebo (při intervalovém třídění) středy intervalů (třídní znaky).
- 18 -
Příklad 2.2 U 50 úplných rodin (manželka, manžel, děti) byly sledovány roční výdaje na průmyslové zboží v tis. Kč (y) a počet dětí v rodině (x). Údaje, roztříděné podle počtu dětí jsou uvedeny v tab. 2.3, kde jsou uvedeny i podmíněné průměry a podmíněné rozptyly výdajů rodin na průmyslové zboží. Tabulka 2.3 počet dětí 0 1 2 3 4
roč.výdaje na prům. zboží v tis. Kč yij 36,1 35,0 37,9 34,8 36,2 37,7 40,6 36,8 38,6
36,6 37,2 37,4 40,9 44,2 40,7 41,4 44,3 43,7
počet rodin ni
pr. roč. výdaje
rozptyl roč. výdajů
yi
s 2y .i
12
36,3
6,5600
10
37,7
5,2960
14
39,2
6,6714
9
40,4
7,1889
5
42,0
6,6920
50 = n
38,7 = y
9,7324 = s y
34, 7 37,9 34,0 38,4 33,9 38,9 31,5 41,4 38,8 37,1 35,1 40,0 33,9 40,7 39,5 38,8 40,0 38,2 41,0 37,2 43,2 35,6 43,3 35,2 39,2 42,2 38,8 43,9 36,4 39,1 44,2 44,4
celý pozorovaný soubor
2
Z tabulky je zřejmé, že s růstem počtu dětí se zvyšují průměrné výdaje rodiny na průmyslové zboží, zatímco rozptyly těchto výdajů kolísají kolem určité konstanty. Jsou-li y i x kvantitativní prvky, znázorňují se dvojice xi, y i , i = 1, 2, ..., k (resp. i dvojice xi, s 2y.i , i =1, 2, ..., k) jako body v pravoúhlé souřadné soustavě. Spojí-li se tyto body úsečkami, získá se v prvém případě čára podmíněných průměrů a ve druhém případě čára podmíněných rozptylů. Z tab. 2.3 je patrné, že s rostoucím počtem dětí rostou výdaje rodin na průmyslové zboží přibližně lineárně. V tab. 2.3 jsou kromě uvedených podmíněných průměrů a rozptylů znaku y uvedeny i průměr a rozptyl tohoto znaku za celý pozorovaný soubor, tj. celkový průměr ni
k
y=
∑∑y i =1 j =1
ij
(2.6)
n
a celkový rozptyl
∑ ∑ (y k
s2y =
ni
i =1 j =1
ij
−y
)
2
. n Připomeňme, že celkový průměr je průměrem podmíněných průměrů, tj.
(2.7)
k
y=
∑y n i =1
i
i
. n Celkový rozptyl je pak součtem rozptylu podmíněných průměrů
- 19 -
(2.8)
k
s2y .m =
∑ (y i =1
i
ni
k
− y) n i 2
=
n
∑ ∑ (y i =1 j=1
i
− y)
2
(2.9)
n
a průměru podmíněných rozptylů k
∑s
s y2.v =
i =1
∑∑ (y ni
k
2 y .i
.ni
n
=
i =1 j =1
− yi )
2
ij
,
n
(2.10)
takže s 2y = s 2y .m + s 2y.v .
(2.11)
Rozptyl podmíněných průměrů jsme označili symbolem s
2 y .m
, abychom
naznačili, že odráží meziskupinovou variabilitu znaku y, průměr podmíněných rozptylů symbolem s2y.v , abychom naznačili, odráží vnitroskupinovou variabilitu znaku y. Vztah (2.11) je důsledkem vztahu S y = S y . m + S y .v , ni
k
kde je
(
)
(2.12)
S y = ∑ ∑ y ij − y , i =1 j =1 k
2
ni
k
}
S y.m = ∑ ∑ (y i − y) = ∑ (y i − y) n i , 2
i =1 j=1 k
ni
i =1
(
S y.v = ∑ ∑ y ij − y i i =1 j =1
2
)
2
(2.13)
.
Příklad 2.3 V tab. 2.3 si všimněme pouze skupiny domácností se 4 dětmi a ukážeme, že tu platí vztah
∑ (y ni
j =1
ij
−y
) = ∑ (y 2
ni
j =1
i
ni
(
− y) + ∑ y ij − y i 2
j =1
)
2
.
(2.14)
Výpočty jsou uvedeny v tab. 2.4 . Tabulka 2.4
yij
y ij − y y i − y
38,6 -0,1 43,7 5,0 39,1 0,4 44,2 5,5 44,4 5,7 Součet čtverců odchylek
3,3 3,3 3,3 3,3 3,3
y ij − y i (yij − y)2 -3,4 1,7 -2,9 2,2 2,4
0,01 25,00 0,16 30,25 32,49 87,91
- 20 -
( y i − y ) 2 ( y ij − y i ) 2 10,89 10,89 10,89 10,89 10,89 54,45
11,56 2,89 8,41 4,84 5,76 33,46
První součet čtverců je součtem dalších dvou. Tak by tomu bylo i ve všech ostatních skupinách domácností a v součtech za všechny skupiny. V součtech za všechny skupiny tedy platí vztah (2.12). Zkoumá-li se závislost znaku y na znaku x, lze za jistých podmínek považovat kolísání (variabilitu) podmíněných průměrů y i za důsledek závislosti znaku y na znaku x, zatímco kolísání hodnot y uvnitř jednotlivých skupin za důsledek závislosti znaku y na dalších činitelích. Závislost znaku y na znaku x se pak považuje za tím silnější, čím je větší meziskupinová variabilita a čím menší je vnitroskupinová variabilita znaku y. Za míru (intenzity) závislosti znaku y na znaku x se pak volí poměr s 2y .m S y.m 2 P = 2 = , (2.15) Sy sy který se nazývá poměr determinace, a jeho odmocnina P se nazývá korelační poměr. Poměr determinace nabývá hodnot z intervalu <0,1>. Závislost znaku y na znaku x se pak považuje za tím těsnější (silnější), čím více se poměr determinace blíží k jedné, a za tím slabší (volnější), čím více se blíží k nule. Příklad 2.4 Vraťme se opět k příkladu 2.2. V něm jsme uvedli celkový rozptyl výdajů rodin na průmyslové zboží sy2 = 9,7324. Protože rozptyl podmíněných průměrů s
2 y .m
=
(36,3 − 38,7)2 * 12 + (37,7 − 38,7)2 * 10+...+(42,0 − 38,7)2 * 5 50
= 1,6308
a průměr podmíněných rozptylů 6,5600 * 12 + 5,2960 * 10+...+6,6920 * 5 s2y.v = = 8,1016 , 50 je poměr determinace roven 1,6308 P2 = = 0,168 . Jeho hodnota signalizuje slabší závislost y na x, tj. slabší 9,7324 závislost výdajů rodin na průmyslové zboží na počtu dětí v rodině. 2.3 Analýza rozptylu (plánování experimentu) V základním kurzu „Metody statistické analýzy“ jsme při výkladu o testu hypotézy shody dvou průměrů (t-test, Welchův test) uvedli, že tento test patří mezi nejdůležitější a nejčastěji používané. Často však potřebujeme ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů (počet testovaných průměrů je alespoň 3). Toto ověřování významnosti se provádí pomocí analýzy rozptylu. Analýza rozptylu (zkratka ANOVA - analysis of variance) v průmyslových aplikacích umožňuje posoudit vliv různých faktorů na výrobní proces, hodnotit vliv použití různých druhů surovin na jakost produkce apod. Analýzy rozptylu v ekonomických aplikacích umožňují posoudit vliv různých faktorů na hospodářský proces, hodnotit účinky různých přijatých opatření apod.
- 21 -
ANOVA byla původně odvozena R. A. Fisherem (1935) jako velmi výhodný postup statistické analýzy v biologickém (především zemědělském) výzkumu. Podstata analýzy rozptylu spočívá v tom, že celkový rozptyl rozložíme na dílčí rozptyly náležející příslušným jednotlivým vlivům, podle nichž jsou empirické údaje roztříděny. Kromě těchto dílčích rozptylů je jednou složkou celkového rozptylu tzv. reziduální rozptyl, který je způsoben dalšími vlivy, jež ve svém rozboru nepostihujeme. Porovnáním složek rozptylu zkoumaného kvantitativního znaku určíme pak vlivy, které významně ovlivňují úroveň tohoto znaku. Úspěšnost využití analýzy rozptylu předpokládá správnou přípravu experimentu. Snažíme se, abychom při nejnižším možném počtu pokusů získali relevantní informace o zkoumané závislosti. Objekt zkoumání (OZ), který může představovat novou technologii, nové vlastnosti výrobku apod. je pro nás tzv. černou skříňkou s definovaným počtem vstupů a výstupů (obr. 1). z1 z2 ..... zp x1
y1
x2
y2 OBJEKT ZKOUMÁNÍ
: xk
w1
w2
...
y2 : ym
wq.
Obr.1 Vstupy znázorněné šipkami směřující k objektu zkoumání charakterizují všechny způsoby možného vlivu na objekt zkoumání (vstupní parametry). Výstupy, jež jsou znázorněny šipkami směřujícími od objektu zkoumání, charakterizují vlastnosti objektu zkoumání (výstupní parametry). Budeme rozlišovat: a) vstupní kontrolované proměnné, které může výzkumník měnit podle svého uvážení podle předem připraveného plánu: vektor x = [x1, x2, . . . , xk], b) vstupní proměnné kontrolované, ale neřízené: vektor z = [ z1, z2, ..., zp], c) neřízené a nekontrolované proměnné: vektor w = [w1, w2, ..., wq], d) výstupní proměnné, charakteristika zkoumaných vlastností, závisle proměnné: vektor y = [y1, y2, ..., ym]. Proměnné x a z se nazývají faktory (nezávisle proměnné). Faktory se mohou jednak měnit v čase (proměnné x) a jednak náhodně (proměnné z).
- 22 -
Definice 2.9 Faktorový prostor Faktorový prostor je prostor kontrolovaných promìnných. Definice 2.10 Úroveň faktorů Hodnoty, kterých mohou faktory nabývat, se nazývají úrovnì (hladiny) faktorù. Proměnné představované vektorem w jsou některé „rušivé“ proměnné, přičemž charakter jejich vlivu na y může být dvojí. Představíme-li si, že proměnné x a z (faktory) jsou v čase konstantní, pak pod vlivem proměnných w se mohou závisle proměnné y měnit buď dostatečně systematicky, nebo prakticky nepředvídaně, náhodně. Tehdy mluvíme o existenci šumového pole. Definice 2.11
Odezva, funkce odezvy, povrch odezvy
Výstupní proměnnou y nazýváme odezvou. Závislost odezvy na uvažovaných faktorech nazýváme funkcí odezvy a geometrické znázornění funkce odezvy povrchem odezvy (výsledkovou plochou). Definice 2.12
Matematický model objektu zkoumání
Matematický model objektu zkoumání je přesná věta v matematickém „jazyce“ jednoznačně odrážející ty nebo ony vlastnosti zkoumaného objektu. Definice 2 .13 Experiment Experiment je systém operací pozorování směřujících k získání informací o objektu zkoumání při výzkumných zkoumáních. Definice 2.14 Pokus Pokus je reprodukování zkoumaného jevu v daných podmínkách experimentu s možností registrace jeho výsledků. Je to jednotlivá, elementární část experimentu. Definice 2.15 Plán experimentu Plán experimentu je množina (soubor) údajů, určující počet, podmínky a pořadí realizace pokusů. Definice 2.16 Plánování experimentu Plánování experimentu je výběr plánu experimentu, jenž odpovídá zadaným podmínkám. Je to vlastně soustava činností směřující k rozpracování strategie experimentování od počáteční ke konečné etapě zkoumání objektu. - 23 -
2.3.1 Experimenty s jedním faktorem Uvažujme experiment, v němž je vyšetřován vliv jednoho faktoru A (kvůli zjednodušení zápisu úrovní faktoru jsme použili symbolu A, i když jsme v předchozí kapitole označili faktory jako vektor x). Faktor A může být buď kvantitativní nebo kvalitativní a je v experimentu uvažován na I ≥ 2 úrovních A1, A2, ..., AI. Pro úroveň (hladinu) A1 provedeme r1 pokusů, pro úroveň A2 r2 pokusů, až pro úroveň AI provedeme rI pokusů. Označme I
n=
∑r i =1
(2.16)
i
jako celkový počet pokusů v celém experimentu. Nechť ri ≥ 1 , i = 1, 2, ..., I a n > I (tj. aspoň jedno ri je větší než 1). Obecně nechť yiν značí výsledek ν -tého pokusu na úrovni Ai. Model s pevnými efekty: Předpokládáme, že (2.17) yiν = ηi + eiν , i = 1, 2, ..., I ;ν =1, 2, ..., ri, kde ηi je teoretický výsledek na úrovni Ai, eiν - náhodné chyby . Parametry ηi můžeme nahradit součty µ + αi , kde µ, α1, α2,..., αI jsou neznámé parametry (konstanty), přičemž 1 I (2.18) µ = ∑ ηi I i =1 značí průměrný teoretický výsledek na uvažovaných I úrovních faktoru A. Jelikož αi = ηi- µ , i = 1, 2, ..., I, je I
I
∑ α = ∑ (η i =1
i
i =1
i
I
− µ ) = ∑ ηi − I µ = 0 (Iµ dle (2.18) je i =1
I
∑η i =1
i
).
Lze tedy místo (2.17) psát yiν = µ + αi + eiν, i = 1, 2, ... ,I; ν =1, 2, ..., ri, přičemž
(2.19)
I
∑α i =1
i
= 0.
(2.20)
Definice 2.17 Model experimentu s jedním faktorem, efekty Vztahy (2.19) a (2.20) nazveme modelem experimentu s jedním faktorem. Náhodné veličiny yiν jsou tedy funkcí i + 1 parametrů β1 = µ, β2 = α1, β3 = α2, ..., βi+1 = αI, přitom parametry α1, α2, ..., αI splňují vztah (2.20). Parametr µ je obecnou konstantou, parametr αi efektem (účinkem) úrovně Ai (αi zvyšuje resp. snižuje µ o účinek úrovně Ai). Jelikož parametry µ, α1, α2, ..., αI jsou konstantní, jsou vztahy (2.19) a (2.20) modelem s pevnými efekty. - 24 -
Rozklad součtu čtverců: Zaveďme nejprve označení (podle Cochrana) Veličina yi. nechť značí průměr veličin yiν; ν =1, 2, ...,ri. Symbolem Yi. budeme označovat součet těchto veličin, takže 1 ri 1 y i. = ∑ y iν = Yi. , i = 1,2, ..., I. (2.21) ri ν =1 ri Podobně y. . a Y. . značí průměr a součet n veličin yiν, tj. 1 I ri 1 1 I y .. = ∑ ∑ y iν = Y.. = ∑ ri y i. . (2.22) n i =1 ν =1 n n i =1 Označme ri
I
ri
I
S = ∑ ∑ (y iν − y .. ) = ∑ ∑ y i2ν − ny ..2 . 2
i =1 ν =1
(2.23)
i =1 ν =1
Tento výraz nazveme celkový součet čtverců, neboť charakterizuje celkovou měnlivost výsledků pokusů kolem celkového průměru. Celkový součet čtverců lze rozložit na dvě složky SA a Se, kde I
S A = ∑ ri (y i. − y .. )
2
a
(2.24)
− y i. ) .
(2.25)
i =1
ri
I
Se =
∑ ∑ (y i =1 ν =1
2
iν
Je tedy S=SA + Se . Součet čtverců SA charakterizuje měnlivost mezi průměry yi. pro jednotlivé úrovně A1, A2, ..., AI faktoru A, součet čtverců Se nazýváme reziduální a charakterizuje variabilitu ve výsledcích opakovaných pokusů na jednotlivých úrovních. SA je ovlivněn tím, zda efekty αi jednotlivých úrovní jsou stejné či nikoliv, kdežto Se na této skutečnosti nezávisí. Pro snazší výpočty lze S, SA a Se přepsat do tvarů: ri I Y..2 2 S = ∑ ∑ y iν − , n i =1 ν =1 I Yi2. Y..2 SA = ∑ , − n i =1 ri Yi2. Se = ∑ ∑ y − ∑ i =1 ν =1 i =1 ri I
ri
I
2 iν
Y..2 říkáme korekční faktor. Veličině n Test významnosti faktoru:
- 25 -
.
(2.26)
Testujeme hypotézu HA, že efekty všech úrovní faktoru A jsou stejné. Poněvadž efekty úrovní splňují podmínku (2.20), jsou efekty stejné, právě když α1 = α2 =...= αI = 0. Hypotéza rovnosti všech efektů tedy tvrdí: HA: αi = 0 , i = 1, 2, ..., I. (2.27) Alternativní hypotéza I
H A : ∑ α i2 〉0 . i =1
Jako testového kriteria pro test hypotézy HA se použije veličina S A / ( I − 1) F= . (2.28) S e / ( n − I) Podíl Se/(n-I) je nestranným odhadem σ2 bez ohledu na velikost efektů α1, α2, ..., αI , tedy Se 2 1 I ri 2 s = y iν − y i . ) . (2.29) = ( ∑ ∑ n − I n − I i =1 ν =1 Dosadíme-li s2 do (2.28) máme SA F= . (2.30) (I − 1)s2 Za platnosti hypotézy HA má veličina F rozdělení F s I - 1 a n - I stupni volnosti. Při testu HA vypočteme z experimentálních dat hodnotu F podle (2.30) a porovnáme je s kritickou hodnotou F1 - α (I - 1, n - I), která se pro danou hladinu významnosti α a stupeň volnosti k1 = I - 1, k2 = n - I nalezne v tabulkách F-rozdělení. Vyjde-li F > F1 - α (I - 1, n - I), hypotéza HA se zamítá. Značí to, že vliv faktoru A je statisticky významný. Rozklad celkového součtu čtverců S na dvě složky SA a Se a testové kriterium se zapisují do tabulky analýzy rozptylu (ANOVA table), viz tab. 2.5. Tabulka 2.5: ANOVA Zdroj měnlivosti
Součet čtverců
Stupně volnosti
faktor A
SA
I-1
opakování pokusů (reziduální)
Se=S - SA
n-I
celkem
S
n-1
Střední čtverec
SA (I − 1) Se s2 = n−I -
F-kriterium
F=
SA (I − 1)s2 -
Příklad 2.5 Je třeba porovnat hodinový výkon tří určitých strojů. Protože tyto stroje obsluhují lidé, a také vlivem dalších neodstranitelných příčin hodový výkon těchto strojů značně kolísá. Bylo vybráno náhodně 5 různých hodin a zjištěný výkon
- 26 -
zaznamenán do tab. 2.6. Otázka zní: „Jsou stroje opravdu rozdílné? a nebo kolísání výkonu je jen náhodné (statisticky nevýznamné)?“ Tabulka 2.6
součty průměry
stroj 1 47 53 49 50 46 Y1.=245 y1.=49
stroj 2 55 54 58 61 52 Y2.=280 y2.=56
stroj 3 54 50 51 51 49 Y3.=255 y3.=51
Řešení: Stroje 1, 2 a 3 si můžeme představit jako I = 3 úrovně kvalitativního faktoru A„stroje“. Přitom r1 = r2 = r3 = 5, takže n = 15. Z výsledků měření yiν se spočítají jejich čtverce yiν2 a sečtou, tj. 3
5
∑∑y i =1 ν =1
2 iν
= 40784 , Y.. = 780.
Korekční faktor: Y..2 / n = 7802 / 15 = 40560 . Celkový součet čtverců je tedy: S= 40784 - 40560 = 224,0 . Pro výpočet SA nejprve stanovíme: 3 Yi2. 2452 + 280 2 + 2552 203450 = = = 40690 . ∑ 5 5 i =1 5 Pak SA = 40690 - 40560 = 130 , Se = S - SA = 224,0 - 130 = 94 . Výsledky uspořádáme do tabulky ANOVA (tab.2.7). Tabulka 2.7 Zdroj měnlivosti
Součet čtverců
Stupně volnosti
Střední čtverec
faktor A(stroje)
SA = 130
2
65
reziduální celkem
Se = 94 S = 224
12 14
s2 = 7,83 -
F-kriterium
F=
65 = 8,298 7,83 -
V tabulkách F-rozdělení nalezneme hodnotu F0,95(2, 12), pro hladinu významnosti α=0,05, pro stupně volnosti k1 = 2, k2 = 12 tedy máme F0,95(2, 12) = 3,885 . - 27 -
Poněvadž vyšlo, že F = 8,298 > F0,95(2, 12) = 3,885 , je vliv faktoru A statisticky významný. Značí to, že na výkon strojů působí nějaký systematický vliv (kolísání výkonu strojů není náhodné). V příkladu 2.5 jsme uvedli tzv. vyvážený experiment, tj. počet měření pro každou úroveň faktoru byl stejný. V dalším příkladu uvedeme výsledky nevyváženého experimentu. Bude z oblasti zemědělství: zde poprvé R. A. FISHER aplikoval principy ANOVA.
Příklad 2.6 Z deseti pokusných pozemků, které jsou k dispozici, bylo na třech pozemcích použito hnojiva P a dosaženo výnosů 18, 19, 23; na čtyřech pozemcích bylo použito hnojiva N a dosaženo výnosů 20, 22, 24, 26 a konečně tři pozemky byly nechány bez hnojení a bylo dosaženo výnosů 14, 16, 18. Je třeba ověřit, zda způsoby hnojení (ošetření půdy) ovlivňují výnosy. Výsledky pokusů jsou uvedeny v tab.2.8. Tabulka 2.8
výnosy
součty průměry
P 18 19 23 Y1. = 60 y1. = 20
způsob hnojení N 20 22 24 26 Y2. = 92 y2. = 23
bez hnojení 14 16 18 Y3. = 48 y3. = 16
Řešení: Způsob hnojení je pro nás faktor A, má I = 3 úrovně A1... hnojivo P; A2... hnojivo N; A3... bez ošetření. Počet měření r1 = 3, r2 = 4, r3 = 3, n = 10. Hypotéza HA má slovní vyjádření: „Způsob ošetření půdy nemá vliv na výnosy.“ Celkový součet všech měření Y..= 60 + 92 + 48 = 200. 3
Celkový součet čtverců všech měření
ri
∑∑y i =1 ν =1
2 iν
= 4126 .
Korekční faktor Y..2 / 10 = 40000 / 10 = 4000. Je tedy S = 4126 - 4000 = 126 , SA = (602 / 3 + 922 / 4 + 482 / 3) - 4000 = 84 , Se = 126 - 84 = 42. Z vypočtených hodnot sestavíme tabulku ANOVA (tab. 2.9)
- 28 -
Tabulka 2.9 Zdroj měnlivosti
Součet čtverců
Stupně volnosti
Střední čtverec
faktor A (způsob ošetření) reziduální celkem
SA = 84
2
42
Se = 126 - 84 = 42 S = 126
7 9
s2 = 6 -
F-kriterium
F=
42 =7 6 -
V tabulkách F-rozdělení nalezneme pro α = 0,05 a stupně volnosti k1 = 2, k2 = 7 kritickou hodnotu F0,95(2, 7) = 4,74. Poněvadž vyšlo, že F = 7 > F0,95(2, 7) = 4,74 , zamítáme hypotézu HA a tvrdíme, že „způsob ošetření půdy“ významně ovlivňuje výnosy. Mnohonásobné porovnávání: Zatímco přijetím hypotézy o rovnosti efektů hladin faktoru A test končí, při jejím zamítnutí (příklady 2.5, 2.6) si obvykle klademe další otázku, totiž mezi kterými efekty (středními hodnotami) lze prokázat rozdíly, a jaká je tedy struktura nehomogenity středních hodnot. Chceme ověřit rovnost středních hodnot µi=µj pro všechny dvojice i, j = 1,2,...,I ; i≠j. Tento problém řeší metody mnohonásobných pozorování.. Velmi často používaná je Schefféova metoda. Tato metoda zamítá hypotézu µi = µj u těch dvojic (i,j), pro které 1 1 x i − x j ≥ (I − 1) s 2 F1−α (I − 1, n − I)( + ) . ni n j
(2.31)
Příklad 2.7 V příkladu 2.5 byla prokázána rozdílnost hodinových výkonů tří strojů. Máme zjistit, které rozdíly mezi hodinovými výkony strojů se statisticky významně liší. Z tab. 2.6 zjistíme, že výběrové průměry hodinových výkonů strojů jsou x1 = 49 x 2 = 56 x 3 = 51 . Stanovíme absolutní hodnoty rozdílů průměrů x i − x j a příslušné kritické hodnoty (I − 1) s 2 F1−α (I − 1, n − I)( 2 * 7,83 * 3,885(
1 1 1 1 + ) = 2 * 7,83 * F0,95 (2,12)( + ) = ni n j ni n j
1 1 1 1 + ) = 60,865( + ) . ni n j ni n j
Hodnotu s2 jsme získali z tabulky ANOVA (tab. 2.7). V tab. 2.10 jsou uvedeny rozdíly středních hodnot a kritické hodnoty.
- 29 -
Tabulka 2.10 Porovnávané dvojice
Rozdíly mezi průměry
Kritická hodnota
xi − x j 1,2 1,3 2,3
7 2 5
4,934 4,934 4,934
* *
Poněvadž počet měření pro každou úroveň faktoru A je roven 5, výpočet kritické 1 1 hodnoty se zjednoduší: 60,865( + ) = 60,865 * 0,4 = 24,346 =4,934. 5 5 Z testu vyplynulo, že kritická hodnota je překročena u dvojic (1,2) a (2,3), na druhé straně u dvojice (1,3) je pozorovaný rozdíl pod kritickou hodnotou a nevybočuje z mezí náhodnosti. Učiníme tedy závěr, že z hlediska hodinového výkonu se významně liší stroj 2 od strojů 1 a 3. V případě volby preferujeme stroj 2. 2.3.2 Experimenty se dvěma faktory Uvažujeme experiment, v němž je zkoumán vliv dvou faktorů A B, přičemž faktor A je vyšetřován na I úrovních, faktor B na J úrovních (takovému experimentu říkáme faktoriální experiment typu I x J). Uvažujme pro každou kombinaci úrovní Ai Bj r ≥ 2 pokusů. Označme yijν výsledek ν-tého pokusu na úrovni faktorů Ai a Bj, i = 1, 2, ..., I; j =1, 2, ..., J; ν =1, 2, ..., r. Uvažujme tedy případ, kdy počet měření pro každou kombinaci úrovní faktorů je stejný (jde o vyvážený experiment). Tyto výsledky představují hodnoty, jichž nabyly náhodné veličiny, které lze vyjádřit ve tvaru yijν = ηij + eijν = µ + αi + βi + (αβ)ij + eijν , (2.32) kde ηij jsou teoretické výsledky pro kombinace Ai Bj , eijν - náhodné chyby. Platí vztahy: J
I
∑α = ∑β i =1
i
j=1
J
j
= 0,
∑ (αβ) j =1
ij
= 0 , pro i = 1, 2, ..., I.
Předpokládáme, že eijν jsou nezávislé náhodné veličiny, každá s rozdělení N(0, σ2). Celkový počet pokusů n = Ijr. Kromě hypotézy HA: αi = 0 , i = 1, 2, ..., I , HB : βj = 0 ,j = 1, 2, ..., J , chceme provést test existence interakce faktorů A a B: HAB: (αβ)ij = 0 , i =1, 2, ..., I, j =1, 2, ..., J. Interakci dvou faktorů A, B nazveme dvojnou interakcí a značíme ji AB. Interakce, řečeno zjednodušeně, značí současné působení obou faktorů A a B na sledovaný znak.
- 30 -
Uvažujeme-li vyvážený experiment, je celkový součet čtverců roven S =
∑ ∑ ∑ (y I
J
i=1
r
j= 1 ν = 1
− y ...
ijν
)
2
.
(2.33)
Ten se dá rozložit na čtyři složky, tak, jak to ukazuje tabulka ANOVA (tab. 2.11). Pro test hypotézy HA, HB, HAB se použije opět kritérií F, která jsou v posledním sloupci tab. 2.11. Pro test hlavního efektu A použijeme jako testovacího kriteria veličiny FA = SA / [(I - 1)s2], která má v případě platnosti HA rozdělení F1 - α(I - 1, IJ(r - 1)). Pro test hlavního efektu faktoru B použijeme veličiny FB =SB / [(J-1)s2] ,které má v případě platnosti HB rozdělení F1 - α(J - 1, IJ(r - 1)). S AB Pro test existence interakce AB využijeme veličiny F = , která má (I − 1)(J − 1)s2 v případě platnosti HAB rozdělení F1 - α= ((I - 1).(J - 1), IJ(r - 1)). Tabulka 2.11 Zdroj měnlivosti
Součet čtverců
Stupně volnosti
faktor A
SA
I-1
faktor B
SB
J-1
interakce AB
SAB
(I - 1)(J - 1)
Se
IJ(r - 1)
S
IJr - 1
reziduální celkem
Střední čtverec
F-kriterium
SA (I − 1) SB (J − 1) S AB (I − 1)(J − 1) Se s2 = IJ ( r − 1)
SA ( I − 1)s2 SB FB = (J − 1)s 2 S AB FAB = (I − 1)(J − 1)s 2
-
-
FA =
-
V tabulce 2.11 máme I
S =
J
r
∑ ∑ ∑ i=1
y
j= 1 ν = 1
2 ijν
Y ...2 , − IJ r
1 I 2 Y...2 S A = ∑ Yi.. − , Jr i =1 IJr
}
1 J 2 Y...2 S B = ∑ Y. j. − , Ir i =1 IJr Se =
I
J
r
∑ ∑ ∑ i=1
j= 1 ν = 1
y 2i j ν −
SAB = S - ( SA + SB + Se). Veličina
2 ...
Y je tzv. korekční faktor. IJr
- 31 -
1 r
I
J
∑ ∑ i=1
j= 1
Y i2j . ,
(2.34)
Se je nestranným odhadem rozptylu σ2 bez ohledu na to, IJ (r − 1) zda hlavní efekty A, B a interakce AB existují, či nikoliv. Vyjdou-li hodnoty F-kriterií větší, než příslušné tabulkové hodnoty F- rozdělení, příslušné hypotézy (HA, HB, HAB) se zamítají. Náhodná veličina s 2 =
Příklad 2.8 Byl prošetřován vliv osvětlení (faktor A) a hlučnosti (faktor B) na rychlost záznamu vstupních dat na diskety ve výpočetním středisku. Faktor A měl tři úrovně: A1 ... přímé denní světlo, A2 ... osvětlení stolní lampou, A3 ... stropní osvětlení. Faktor B měl tři úrovně: B1 ... absolutní ticho, B2 ... hluk z ulice, B3 ... hlasitá reprodukce hudby (řev chuligánů). Bylo náhodně vybráno 18 pracovnic výpočetního střediska a každá z nich nezávisle na ostatních prováděla záznam 500 hodnot na disketu (seznam vstupních dat byl stejný pro všechny vybrané pracovnice výpočetního centra). Pracovnice byly náhodně rozděleny mezi kombinace úrovní sledovaných faktorů tak, že každá kombinace byla přidělena vždy dvěma z nich. Čas v minutách yijν, i = 1, 2, 3; j =1, 2, 3; ν = 1,2 spotřebovaný k záznamu 500 hodnot na disketu je uveden v následující tabulce (tab. 2.12). Tabulka 2.12 A B A1 A2 A3 Součty
B1
B2
B3
3 Y11.=7 3 Y21.=4
4 5 Y12.=8 1 3 Y22.=8
3 4 Y13.=10 5 5 Y23.=10
6
Součty Y1..=25
5
Y2..=22
2 Y31.=6 Y.1.=17
4 6 Y32.=11 Y.2.=27
5 5 Y33.=9 Y.3.=29
4
Y3..=26
Řešení: 3
3
2
∑∑∑y i =1 j =1 ν =1
2 ijν
= 327 , n = 18.
Y...2 = 732 / 18 = 296,0555. Korekční faktor 18 S = 327 - 296,0555 = 30,9445 , SA = 1/6 ( 252 + 222 + 262 ) - 296,0555 = 1,445 , SB = 1/6 ( 172 + 272 + 292 ) - 296,0555 = 13,7778 , Se = 327 - 1/2 ( 72 + 82 + 102 + ... + 112 + 92 ) = 327 - 301,5 = 11,5 , - 32 -
Y...=73
SAB = 30,9445 - 1,4445 - 13,7778 - 11,5 = 4,2222 . Z vypočtených údajů sestavíme tabulky analýzy rozptylu (tab. 2.13). Tabulka 2.13 - ANOVA tableZdroj měnlivosti
Součet čtverců
Stupně volnosti
Střední čtverec
F-kriterium
faktor A
SA = 1,4445
2
0,7222
FA = 0,5652
faktor B
SB = 13,7778
2
6,8889
FB= 5,3912 *
interakce AB reziduální
SAB = 4,2222 Se = 11,5
4 9
1,0556 s2=1,2778
FAB = 0,8261 -
celkem
S = 30,9445
17
-
-
Tabulkové hodnoty F- rozdělení: Pro FA... F0,95(2, 9) = 4,26 , FB ... F0,95(2, 9) = 4,26 , FAB ... F0,95(4, 9) = 3,63. Celkem: Rychlost záznamu dat na diskety závisí významně na hlučnosti (faktor B), zatímco rozdíly mezi úrovněmi osvětlení (faktor A), jakož i interakce jsou statisticky nevýznamné. Případ s jedním opakováním pozorování: Uvažujeme případ, kdy ri = 1. V této situaci nelze hodnotit interakci AB, případná interakce se započítává do reziduální složky Se. Výpočty jednotlivých složek SA, SB, Se a S se zjednoduší, máme I J Y..2 2 S = ∑ ∑ y ij − , IJ i =1 j =1 1 I 2 Y..2 ∑Y − , J i =1 i. IJ 1 J 2 Y..2 S B = ∑ Y. j − , I j =1 IJ Se= S - SA - SB. SA =
}
(2.35)
Y..2 Veličina je tzv. korekční faktor. Bez ohledu na efekty faktorů A a B, je IJ reziduální rozptyl Se/[(I - 1)(J - 1)] = s2 nestranným odhadem teoretického rozptylu σ2. Testování hypotéz o vlivu faktoru A (resp. B) je obdobné jako pro předešlý případ (pro r ≥ 2). Pouze neprovádíme test významnosti interakce. Testovací kriteria pro jednotlivé faktory mají tvar: - 33 -
FA =
SA SB , FB = . 2 (I − 1)s ( J − 1) s 2
Kritické hodnoty - pro faktor A ... F1 - α(I - 1, (I - 1)(J - 1)), - pro faktor B ... F1 - α(J - 1,(I- 1)(J - 1)). Vyjdou-li testová kriteria vyšší než příslušné kritické hodnoty, považujeme vlivy faktorů za statisticky významné (na příslušné hladině významnosti α). Tabulka analýzy rozptylu pro tento případ má tvar (tab. 2.14): Tabulka 2.14 Zdroj měnlivosti
Součet čtverců
Stupně volnosti
faktor A
SA
I-1
faktor B
SB
J-1
reziduální
Se
(I - 1)( J- 1)
celkem
S
IJ - 1
Střední čtverec
F-kriterium
SA (I − 1) SB J −1 Se s2 = (I − 1)(J − 1)
SA ( I − 1)s2 SB FB = (J − 1)s 2
-
-
FA =
-
Příklad 2.9 Při odvozu materiálu na skládku lze jet třemi různými trasami A1, A2, A3 (faktor A) a použít dva typy vozidel B1, B2 (faktor B). Chceme učinit závěr o vlivu trasy a typu vozidel na spotřebu pohonných hmot. Bylo vybráno po třech vozidlech obou typů a těm přiděleny náhodně trasy. Změřená spotřeba pohonných hmot a některé výpočty jsou uvedeny v následující tabulce. (tab. 2.15). Tabulka 2.15 Trasa (faktor A) A1 A2 A3 Součty 3
Typ vozidla (faktor B) B1 B2 13 14 11 13 18 21 Y.1 = 42 Y.2 = 48
Součty Y1. = 27 Y2. = 24 Y3. = 39 Y.. = 90
2
n = 6 , ∑ ∑ y 2ij = 1420 . Korekční faktor Y..2 / 6 = 902 / 6 = 1350. i =1 j =1
S = 1420 - 1350 = 70 , SA = 1/2 ( 272 + 242 + 39 2 ) - 1350 = 63 , SB = 1/3 (422 + 482 ) - 350 = 6 , Se = 70 - 63 - 6 = 1. Testovací kriteria: , FB = 6,0 / 0,5 = 12,0. FA= 31,5 / 0,5 = 63,0 Z těchto údajů sestrojíme tabulku analýzy rozptylu (tab. 2.16).
- 34 -
Tabulka 2.16 Zdroj měnlivosti
Součet čtverců 63
Stupně volnosti 2
Střední čtverec 31,5
F-kriterium 63,0 *
6
1
6,0
12,0
1
2
s2 = 0,5
-
70
5
-
-
faktor A faktor B reziduální celkem
Kritické hodnoty: a) faktor A ... F0,95(2, 2) = 19,0 b) faktor B... F0,95(1, 2) = 18,5 Výsledek: FA = 63 > F0,95(2, 2) =19,0 , FB = 12 < F0,95(1, 2) = 18,5. Spotřeba pohonných hmot významně závisí na volbě trasy (faktor A). Vliv typu vozidla na spotřebu pohonných hmot (faktor B) nebyl prokázán.
2.3.3 Analýza rozptylu kvalitativních znaků V sociologických průzkumech často převažují kvalitativní znaky, ať již nominální či ordinální. I pro takové případy byla vypracována metodika analýzy rozptylu, jejíž principy jsou v podstatě shodné s tím, co bylo řečeno o analýze znaků kvantitativních (měřitelných). Uvedeme tedy jen základní vztahy, z nichž tento typ analýzy vychází, a osvětlíme jejich použití na příkladech. ANOVA pro jeden faktor: Rozptyl kvalitativního znaku je dán výrazem (2.36) σ2 = n.p.q, kde n je počet pozorování, p je podíl jednotek, jež mají sledovaný znak A, q =1- p je podíl jednotek z celkového počtu pozorování, které tento znak nemají. Relativní četnost p = m / n , kde m je počet jednotek, jež mají znak A a n je celkový počet pozorování. Zřejmě platí pro ty jednotky, které znak A nemají (n - m), a pak tedy q = (n - m) / n =1 - p. Lze tedy psát m m m2 2 . (2.37) σ = n (1 − ) = m − n n n Podobně jako u znaků kvantitativních je možno i zde celkový rozptyl σ2 rozdělit do dvou složek, totiž σA2, tj. rozptyl vznikající působením různých úrovní sledovaného faktoru, a σe2-rozptyl reziduální vyvolaný ostatními, nesledovanými vlivy: (2.38) σ2 = σA2 + σe2.
- 35 -
Celkový součet čtverců odchylek S rozdělujeme analogicky do dvou kvadratických složek SA, přiřaditelnou jednotlivým úrovním faktoru A , a Se , reziduální. Z nich se pak spočítají příslušné rozptyly. Sledujeme působení různých úrovní jediného faktoru A rozděleného do k stupňů (hladin, úrovní), kde počty pozorování budou ni (i = 1, 2, ...,k) a počty pozorování obsahujících znak A na příslušné úrovni - mi. Celkový součet čtverců odchylek je k
k
S = ∑ mi −
(∑ mi ) 2 i =1 k
∑n
i =1
i =1
.
(2.39)
i
Kvadratická složka přiřaditelná působení faktoru je k
k
SA = ∑ i =1
2 i
m − ni
(∑ m i ) 2 i =1 k
∑n i =1
,
(2.40)
i
kvadratická složka reziduální bude m 2i . (2.41) i =1 i =1 n i Výsledky pozorování a potřebné výpočty obvykle sestavujeme do tabulky (tab. 2.17a). k
k
Se = ∑ mi − ∑
Tabulka 2.17a Faktor A úrovně ( i ) 1 2 počet pozorování n1 n2 celkový počet prvků se m1 m2 znakem A mi2 m12 m22 2 2 mi / ni m1 / n1 m22 / n2 p = mi / ni p1 = m1 / n1 p2 = m2 / n2
3
∑
... k ... nk ... mk
n3 m3 m32 m32 / n3 p3 = m3 / n3
N = ∑ ni M = ∑ mi
... mk2 ... mk2 / nk ... pk = mk / nk
∑ mi2 / ni -
Tabulka analýzy rozptylu: Tabulka 2.17b Zdroj měnlivosti Faktor A reziduální celkem
Součet čtverců SA Se S
Vliv [%] (π) πA = SA / S πe = Se / S π = 1,000
Stupně volnosti Střední čtverec k-1 N-k N-1
σA2 = SA / (k - 1) σe2 = Se / (N - k) -
Posouzení významnosti vlivu faktoru A se provede F-testem. Testovací charakteristika F = σA2 / σe2 .
- 36 -
Kritická hodnota F-rozdělení: F1 - α(k - 1, N - k), α = 0,05 (např.). Vyjde-li F ≥ F1 - α (k 1, N - k) soudíme, že faktor A významně působí na sledovanou veličinu. Příklad 2.10 Filosofická fakulta UK v Praze prováděla průzkum o informovanosti mužů dobře poučených o možnosti nákazy AIDS v závislosti na dosaženém vzdělání. Testujeme hypotézu o nezávislosti vzdělání a procentu mužů, jejichž stupeň poučení lze označit za dobrý. Výsledky šetření jsou v tab. 2.18. Tabulka 2.18 Vzdělání (faktor A)
základní
počet dotázaných ni dobře poučení mi mi 2 mi2 /ni pi
114 54 2916 25,579 0,4737
vysokoškolské odborné nižší vyšší 25 104 50 14 61 31 196 3721 961 7,84 35,788 19,22 0,56 0,5865 0,62
Součty 293 160 88,4178 -
M2 / N = 1602 / 293 = 87,372. S = 160 - 87,372 = 72,628 , SA = 88,4178 - 87,372 = 1,0458 , Se = 160 - 88,4178 = 71,5822 . Tabulka analýzy rozptylu má tvar: Tabulka 2.19 Zdroj měnlivosti
Součet čtverců
Faktor A
SA=1,0458
1,4399
Stupně volnosti 3
reziduální celkem
Se =71,5822 S =72,628
98,560 100
289 292
Vliv [%] (π)
Střední čtverec
F-kriterium
0,3486
F=0,3486/0,2477 = 1,4073
0,2477 -
-
Tabulková hodnota F-rozdělení je: F0,95(3, 289) = 2,605. Poněvadž vyšlo, že F < F0,95(3, 289) nulovou hypotézu nezamítáme. Z výsledků pozorování nelze tedy soudit, že různý stupeň vzdělání má významný vliv na podíl dobře poučených mužů o nebezpečí AIDS. Podíl úrovně vzdělání na celkové variabilitě procenta dobře poučených osob je pouze 1,4 %. ANOVA pro dva faktory: Princip výpočtů údajů pro ANOVA objasníme na příkladu.
- 37 -
Příklad 2.11 Znak A (pohlaví) má dvě hladiny (úrovně): A1-muži, A2-ženy. Znak B (vzdělání) má tři hladiny: B1-všeobecné (základní), B2-střední i odborné, B3vysokoškolské . Byla sledována spokojenost s určitým televizním pořadem. Výsledky šetření jsou sestaveny do tab. 2.20, kde n = počet posluchačů, m = počet těch, kteří vyslovili s pořadem spokojenost. Tabulka 2.20 A B n m m2
B1 20 2 4
B2 30 16 256
A1 B3 30 15 225
B1 20 10 100
B2 30 22 484
A2 B3 30 21 441
m2/n p
0,2 0,1
8,53 0,53
7,5 0,5
5,0 0,5
16,13 0,73
14,7 0,7
rA = 2 rB = 3 ∑n = 160 ∑m = 86 Q = (∑m)2/∑n = =862/160 =46,225 ∑(m2/n)=R=52,07 -
Vliv jednotlivých faktorů je popsán v tabulce, která následuje (tab. 2.21). Tabulka 2.21 Faktor A1 A2 ∑ B1 B2 B3 ∑
∑n 80 80 160 40 60 60 160
(∑m)2 1089 2809 144 1444 1296 -
∑m 33 53 86 12 38 36 86
p R=(∑m)2/∑n 13,6125 0,4125(=33/80) 35,1125 0,6625(=53/80) 48,725 = RA 3,600 0,3 24,07 0,63 21,6 0,6 49,27 = RB -
Vypočteme celkový součet čtverců odchylek a jednotlivé kvadratické složky. S = ∑m - Q = 86 - 46,225 = 39,775, Se = ∑m - R = 86 - 52,07 = 33,933 , S1 = R- Q = 52,07 - 46,225 = 5,8417. Pro jednotlivé faktory platí vztahy: SA= RA - Q = 48,725 - 46,225 = 2,5 , SB = RB - Q = 49,27 - 46,225 = 3,0417 , SAB = S1 - SA - SB = 5,8417 - 2,5 - 3,0417 = 0,3 . Výsledky jsou shrnuty v tab. 2.22 ANOVA
- 38 -
Tabulka 2.22 Zdroj měnlivosti faktor A faktor B interakce AB vliv faktorů reziduum celkem
Součet čtverců 2,5 3,0417 0,3 5,8417 33,933 39,775
vliv % 6,28 7,65 0,75 14,69 85,31 100
st. volnosti 1 2 2 5 154 159
prům. čtverec 2,5 1,521 0,15 1,1683 0,2203=s2 -
F-kriterium FA = 11,348 FB = 6,904 FAB = 0,681 Fcelk. = 5,303 -
Test pro faktor A: FA = 11,348 > F0,95(1, 154) = 3,84 ⇒ významné. Pro faktor B: FB = 6,904 > F0,95(2, 154) = 3,00 ⇒ významné. Pro interakci AB: FAB = 0,681 < F0,95(2, 154) = 3,00 ⇒ nevýznamné. Pro faktory celkem : Fcelk. = 5,303 > F0,95(5, 154) = 2,21 ⇒ významné. Komentář: Celkový účinek sledovaných faktorů na zkoumaný jev - spokojenost s televizním programem - je statisticky významný (α = 0,05). Faktor A (pohlaví) se projevuje významně ve stupni spokojenosti: ženy byly spokojenější s programem než muži (podíl spokojenosti žen byl 66% spokojenost mužů jen 41%).V úhrnu se na celkové variabilitě podílely sledované faktory 14,69%, reziduální podíl variability byl 85,31%. 2.4 Neparametrické metody V kurzu „Metody statistické analýzy“ byly probírány testy statistických hypotéz. Tyto testy byly založeny na různých předpokladech: jedním z nich bylo zpravidla to, že výběr pochází z daného rozdělení pravděpodobnosti, které je určeno úplně a nebo je známo až na nějaké parametry. Např. u tzv. Studentova t-testu se předpokládalo, že jsou k dispozici dva nezávislé výběry ze dvou normálních rozdělení, jejichž parametry nemusí být známy (jen musí být stejné rozptyly obou rozdělení). Mnohé testy na porušení předpokladů tohoto typu nebývají příliš citlivé, zejména při velkých rozsazích výběru. Pak se totiž můžeme opřít z centrální limitní věty o zákony velkých čísel, které za dosti obecných podmínek korigují případné odchylky od původních předpokladů. Často se setkáváme s výběry poměrně malých rozsahů, které pocházejí z výrazně nenormálních základních souborů. Pro práci s nimi byly vypracovány tzv. neparametrické metody, které nepotřebují předpoklad o konkrétním typu rozdělení. Místo toho stačí splnění jen velmi obecných podmínek, např. že distribuční funkce je spojitá. Protože navíc praktické provádění mnoha takových neparametrických testů - 39 -
zejména při malých rozsazích výběru je po výpočetní stránce velmi jednoduché a nenáročné, získaly si neparametrické testy velkou oblibu u uživatelů statistických metod. Jak už jsme uvedli, praktické provedení těchto testů bývá jednoduché, avšak teorie, která se zabývá jejich limitními vlastnostmi, podmínkami optimality je poměrně rozsáhlá a náročná - není předmětem našich přednášek. Zaveďme jeden pojem, který se v neparametrických metodách často vyskytuje - je to pořadí. Definice 2.18 Pořadí Ri Mějme dána různá reálná čísla x1, x2, ..., xN. Pořadím Ri čísla xi je počet takových čísel x1, x2, ..., xN , která jsou menší nebo rovna číslu xi. Mějme např. čísla 6, 0, 5, 7, 2. Číslo 6 má pořadí 4, protože právě 4 čísla (6, 0 ,5, 2) jsou menší nebo rovna 6. Obvykle se používá schématu (tab.2.23) Tabulka 2.23 Čísla xi Pořadí Ri
6 4
0 1
5 3
7 5
2 2
Někdy se stane, že čísla x1, x2, ..., xN nejsou různá, ale některá z nich jsou si rovna a vytvářejí tzv. shody. Číslům, která tvoří určitou shodu, se pak přiřazuje průměrné pořadí, odpovídající takové skupince. Např. osmi číslům 6, 6, 7, 7, 7, 8, 9, 9 se určí pořadí R1, R2, ..., R8, jak je uvedeno v tab. 2.24. Tabulka 2.24 Očíslování xi Vzestupně hodnoty xi Pořadí Ri
hodnot 1
2
3
4
5
6
7
8
uspoř. 6
6
7
7
7
8
9
9
1,5
4
4
4
6
7,5
7,5
1,5
Tak třeba pořadí obou šestek je stejné a je rovno průměru čísel 1 a 2, tj. 1,5. Podobně pořadí všech tří sedmiček je stejné a je rovno číslu (3 + 4 + 5) / 3 = 4. 2.4.1 Znaménkový test Nechť X1, X2, ..., Xn je náhodný výběr z rozdělení se spojitou distribuční funkcí F. Budiž ~ x medián tohoto rozdělení, tak že P(X < ~ x ) = P(X > ~ x ) = 1 / 2. (2.42) ~ Chceme testovat hypotézu H0: x = x0, kde x0 je dané číslo. Utvořme nejdříve rozdíly X1-x0, X2 - x0, ..., Xn - x0 a označíme symbolem Y počet těch rozdílů, které mají kladné znaménko. Platí-li H0, má Y binomické rozdělení s parametry n a 1/2. Kritický obor tvoří (při oboustranném testu) jednak příliš malé a jednak příliš velké hodnoty Y (tj. hodnoty, které jsou blízké 0 nebo n). Pro malá n jsou tabelována čísla k1, k2 tak, že - 40 -
P(Y ≤ k1) ≤ α / 2 P(Y ≥ k2) ≤ α / 2 (2.43) pro α = 0,05 a pro α = 0,01. Jestliže tedy zjistíme, že Y ≤ k1 nebo Y ≥ k2 , zamítneme hypotézu H0 . Je-li n velké (v praxi stačí n ≥ 20) vypočteme 2Y − n U= . (2.44) n Veličina U má za platnosti H0 asymptoticky rozdělení N(0, 1). Proto v případě U ≥ uα/2 zamítáme H0. Znaménkový test se někdy v praxi používá i v případě, že F není spojitá. Pak se může stát, že některé hodnoty X1 - x0, X2 - x0, ..., Xn - x0 jsou rovny nule. Tehdy se prostě nulové hodnoty vynechají a za n pak bereme jen počet nenulových hodnot. Příklad 2.12 U osmi osob byl měřen krevní tlak před pokusem a po pokusu. Vstupní údaje jsou uvedeny v tab. 2.25. Ptáme se, zda pravděpodobnost zvýšení krevního tlaku za pokusu je stejná jako pravděpodobnost jeho poklesu. Tabulka 2.25 Osoba Tlak před pokusem Tlak po pokusu Rozdíly
1 130 139 9
2 185 190 5
3 162 175 13
4 136 135 -1
5 147 155 8
6 181 175 -6
7 138 158 20
8 139 149 10
V našem případě máme n = 8, Y = 6. V tabulkách pro n = 8 při α = 0,05 máme hodnoty k1 = 0, k2 = 8. Protože Y leží mezi nimi, nelze pomocí znaménkového testu na základě uvedených dat zamítnout hypotézu, že zvýšení krevního tlaku je stejně pravděpodobné jako jeho pokles. 2.4.2 Jednovýběrový Wilcoxonův test Nechť X1, X2,..., Xn je náhodný výběr ze spojitého rozdělení s distribuční funkcí F(x). Chceme testovat hypotézu, že F je symetrická kolem nuly v tom smyslu, že F(x) = 1 - F(-x) , - ∞ < x < ∞ . (2.45) Seřaďme X1, X2,..., Xn do rostoucí posloupnosti podle absolutní hodnoty, tj. (2.46) X(1) < X(2) < …< X(n). Nechť Ri+ je pořadí Xi při uspořádání (2.46). Zaveďme veličiny S + = ∑ R i+ , S − = ∑ R i+ . (2.47) +
-
Xi 〈 0
Xi ≥0
Přitom platí S + S = n(n + 1)/2, což lze užít pro kontrolu správnosti výpočtů. Je-li číslo min(S+,S-) menší nebo rovno tabelované kritické hodnotě, hypotéza se zamítá. Kritické hodnoty jsou v tabulkách. Pro větší hodnoty n lze využít toho, že za platnosti hypotézy má veličina
- 41 -
S+ −
U=
1 n( n + 1) 4
(2.48) 1 n( n + 1)(2 n + 1) 24 asymptoticky rozdělení N(0, 1). V případě U ≥ uα/2 zamítáme hypotézu na hladině, která je asymptoticky rovna α. Provedení Wilcoxonova testu je o něco náročnější, než znaménkový test, zato je však citlivější. Zpracujme touto metodou data uvedená v tab. 2.25 příkladu 2.12. Analýza se týká rozdílů původních spárovaných hodnot, tyto rozdíly jsou zapsány v posledním řádku tab. 2.25. Tučná čísla v prvním řádku odpovídají kladným rozdílům z tabulky 2.25. Tabulka 2.26 Uspořádané hodnotyXi Ri
1
5
6
8
9
10
13
20
1
2
3
4
5
6
7
8
Podle (2.47) máme S+ = 2 + 4 + 5 + 6 + 7 + 8 = 32 S- = 1 + 3 = 4. Pro n = 8 a α = 0,05 je kritická hodnota 3. Jelikož min(32,4) = 4 > 3, nemůžeme zamítnout hypotézu, že rozdíly krevního tlaku před pokusem a po něm mají symetrické rozdělení kolem nuly. Neprokázalo se tedy, že pokus má systematický vliv na změnu krevního tlaku. 2.4.3 Dvouvýběrový Wilcoxonův test Nechť X1, X2,..., Xm a Y1, Y2, ..., Yn jsou dva nezávislé výběry ze dvou spojitých rozdělení. Chceme testovat hypotézu, že distribuční funkce obou rozdělení jsou totožné. Všech n + m výběrových hodnot X1, X2, ..., Xm a Y1, Y2, ..., Yn uspořádáme vzestupně podle velikosti. Zjistíme součet pořadí hodnot X1, X2, ..., Xm a označíme ho T1. Obdobně T2 je součet pořadí hodnot Y1, Y2, ..., Yn. Vypočítáme m( m + 1) n( n + 1) U1 = mn + U 2 = mn + − T2 . − T1 , 2 2 Přitom platí U1 + U2 = mn. Pokud min(U1, U2) je menší nebo rovno kritické hodnotě uvedené v tabulkách, zamítáme hypotézu. Jsou-li hodnoty m a n velké, vypočteme veličinu: 1 U1 − mn 2 U0 = , (2.49) mn ( m + n + 1) 12 která má za platnosti hypotézy asymptoticky rozdělení N(0, 1). V případě U0 ≥ uα/2 zamítneme hypotézu na hladině asymptoticky rovné α.
- 42 -
Tento Wilcoxonův test se používá nejčastěji místo dvouvýběrového t-testu. Příklad 2.13 Bylo vybráno 10 polí stejné kvality. Na 4 z nich se zkoušel nový způsob hnojení, zbývajících 6 bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Výsledky jsou uvedeny v tab. 2.27 (v metrických centech na hektar). Je třeba zjistit, zda nový způsob hnojení má jiný vliv na průměrné hektarové výnosy než starý způsob. Tabulka 2.27 Hektarové výnosy při 51 novém způsobu hnojení Xi Hektarové výnosy při 45 starém způsobu hnojení Yi
52
49
55
-
-
54
48
44
53
50
Všechny hodnoty Xi a Yi v tab. 2.27 uspořádáme podle velikosti. Tím dostaneme první řádek tab. 2.28, podtržená čísla patří do prvního výběru. Na druhém řádku jsou pořadí X-ových hodnot a na dalším jsou pořadí Y-ových hodnot. Tabulka 2.28 Sdružený 44 výběr Pořadí X-vých hodnot Pořadí Y-vých 1 hodnot
45
48
49
50
4 2
3
5
51
52
6
7
53
54
55 10
8
9
Odtud T1 = 4 + 6 + 7 + 10 = 27 , T2 = 1 + 2 + 3 + 5 + 8 + 9 = 28 U2 = 4 * 6 + (6 * 7) / 2 - 28 = 17. U1 = 4 * 6 + (4 * 5) / 2 - 27 = 7, Kritická hodnota při α = 0,05 pro m = 4, n = 6 je podle tabulek rovna 2. Protože min(7, 17) = 7 > 2, nemůžeme zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy stejný vliv jako starý způsob. 2.4.4 Kruskal-Wallisův test Kruskal-Wallisův test je neparametrickou obdobou jednoduchého třídění analýzy rozptylu (analýzy rozptylu pro jeden faktor). Je přímým zobecněním Wilcoxonova dvouvýběrového testu na případ k výběrů (k ≥ 3). Mějme k nezávislých výběrů. Nechť první výběr má rozsah n1, druhý n2 až k-tý nk. Označme n = n1 + n2 + ...+ nk. Předpokládejme, že každý tento výběr pochází z nějakého rozdělení se spojitou distribuční funkcí. Testujeme hypotézu, že všechny výběry pochází z téhož rozdělení.
- 43 -
Všech n prvků z k výběrů se seřadí do rostoucí posloupnosti a určí se pořadí každého prvku. Označme Ti součet pořadí těch prvků, které patří do i-tého výběru (i = 1, 2, ...,k). Protože musí platit T1 + T2 + ...+ Tk = n(n + 1) / 2, můžeme tohoto vztahu použít ke kontrole, zda jsou Ti správně vypočtena. Za platnosti hypotézy má pak veličina k Ti2 12 Q= (2.50) ∑ − 3( n + 1) n( n + 1) i =1 n i ni → ∞ asymptoticky χ2-rozdělení o k - 1 stupních volnosti. V případě Q ≥ χα2(k - 1) zamítáme hypotézu na hladině, která je asymptoticky rovna α. Zamítneme-li hypotézu, znamená to, že tvrdíme, že všechny výběry nepocházejí z téhož rozdělení. Experimentátor pak vznáší dotaz, které výběry se od sebe významně liší (tj. které výběry pocházejí z různých rozdělení). U analýzy rozptylu se k odpovědi na tento dotaz používá Tukeyova nebo Scheffého metoda. Má-li všech k výběrů stejný rozsah, tj. platí-li n1 = n2 = ...= nk, můžeme Kruskal-Wallisův test doplnit Neményiho metodou mnohonásobného srovnávání. Pro n ≤ 25 a k ≤ 10 jsou v tabulkách uvedeny kritické hodnoty, s nimiž tato metoda pracuje. Je-li číslo Ti - Tjvětší nebo rovno kritické hodnotě, zamítá se hypotéza, že i-tý a j-tý výběr pocházejí z téhož rozdělení. Tento postup se aplikuje u všech k(k-1)/2 čísel Ti - Tj. Příklad 2.14 Ze statistiky rodinných účtů byly náhodně vybrány údaje o výši vkladů u 17 spořících zaměstnaných domácností a byly roztříděny podle počtu ekonomicky aktivních členů. Máme prokázat formou testu, zda počet ekonomicky aktivních členů domácnosti je významným (α = 0,05) faktorem výše úspor u sledovaného typu domácností. Vstupní hodnoty jsou v tab. 2.29. Tabulka 2.29 počet ekonomicky aktivních členů 1 2 3 a více
7 6500 11 11150 15 21600
1 1200 13 16850 3 3300
Pomocné výpočty jsou v tab. 2.30.
- 44 -
výše vkladů
[Kč]
4 4100 2 1770 12 14500
8 8000 10 11000 9 9100
6 6150 14 21500 16 29450
5 4500 17 30160
Tabulka 2.30 počet ekonomicky aktivních členů 1 2 3 a více Součty
Pořadí jednotlivých hodnot 7 1 11 13 15 3
4 2 12
8 10 9
6 14 16
5 17
Ti
ni
Ti2/ni
26 55 72 153
5 6 6 17
135,2 504,17 864,0 1503,37
Spočítáme testové kriterium Q = 12/(17 * 18) * 1503,37 - 3 * 18 = 0,0392156 * 1503,37 - 54 = 4,9555, χ20,05(2) = 5,99. Poněvadž vyšlo, Q = 4,9555 < χ20,05(2) = 5,99, hypotézu o tom, že výběry pocházejí ze stejného rozdělení nezamítáme. Znamená to, že v našem příkladu počet ekonomicky aktivních členů domácnosti neovlivňuje významně výši vkladů. 2.4.5 Friedmanův test Friedmanův test je obdobou analýzy rozptylu dvojného třídění s jedním pozorováním v každé podtřídě. Nechť Xij (i = 1,2, ..., n, j = 1, 2, ...,k) jsou nezávislé náhodné veličiny se spojitými distribučními funkcemi. Chceme otestovat hypotézu, že distribuční funkce veličin Xi1, Xi2, ...,Xik jsou totožné (tj. distribuční funkce Fi náhodné veličiny Xij může záviset na i, ale nezávisí na j). V praxi jde o tzv. model náhodných bloků. Zkoumá se vliv k ošetření, která jsou aplikována na n blocích. To znamená, že na každém bloku bylo vedle sebe uplatněno zmíněných k ošetření. Na základě zjištěných výsledků se má rozhodnout, zda všechna ošetření přinášejí tentýž efekt nebo ne. Nemají-li stejný efekt, má se dále určit, která ošetření se vlastně od sebe liší. Friedmanův test spočívá v tom, že se pozorování na každém bloku uspořádají zvlášť a určí se pořadí Rij veličiny Xij v rámci i-tého bloku. Vypočte se pak veličina k n 12 Q= ( (2.51) ∑ ∑ R ) 2 − 3n( k + 1) . nk ( k + 1) j=1 i =1 ij Za platnosti hypotézy má veličina Q při n → ∞ asymptoticky rozdělení χ2 (k - 1). Je-li Q ≥ χ2α(k - 1), hypotéza se zamítá. Pro malá n a k se používají specielní tabulky. Jednotlivá ošetření lze porovnávat Neményiho metodou: Označme
∑R i
ij
= R .j .
Vytvoří se tabulka hodnotR.j -R. mpro všechna j < m. Je-li některá z hodnot R.j-R. m větší nebo rovna kritické hodnotě uvedené v tabulkách, zamítá se na odpovídající hladině hypotéza, že j-té a m-té ošetření mají stejný efekt.
- 45 -
Místo výrazu „k-ošetření“ lze obecněji použít výrazu „k různých podmínek“, „k období “apod. Příklad 2.15 U skupiny náhodně vybraných dělníků byl měřen směnový výkon v normohodinách na ranní, odpolední a noční směně. Výsledky měření jsou uvedeny v tab. 2.31. V tab. 2.32 je uvedeno pořadí hodnot v jednotlivých řádcích. Máme otestovat hypotézu, že se úroveň výkonů v jednotlivých směnách neliší, test se má provést na hladině α = 0,05. Tabulka 2.31 : Výkony 15 náhodně vybraných dělníků v normohodinách
Dělník 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Směna odpolední 9,50 7,50 8,00 11,50 8,75 8,25 7,50 9,50 9,25 8,50 7,75 8,50 8,50 9,75 9,00
ranní 8,25 7,75 9,00 11,00 9,50 8,25 9,50 9,75 10,50 10,00 7,75 8,50 8,75 10,50 9,00
- 46 -
noční 8,00 7,50 8,50 10,50 8,00 8,00 8,00 7,25 9,75 8,50 8,50 8,00 8,25 8,25 8,50
Tabulka 2.32 : Pořadí výkonu dělníka v jednotlivých směnách
Dělník 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Součet pořadí
Směna odpolední 3 1,5 1 3 2 2,5 1 2 1 1,5 1,5 2,5 2 2 2,5 29
ranní 2 3 3 2 3 2,5 3 3 3 3 1,5 2,5 3 3 2,5 40
noční 1 1,5 2 1 1 1 2 1 2 1,5 3 1 1 1 1 21
Podle (2.51) spočteme hodnotu testového kriteria Q = 12 / (15 * 3 * 4) * (402 + 292 + 212) - 3* 5*4 = 0,0667 * (1600 + 841 + 441) - 180 = 192,133 - 180 = 12,13. Protože Q = 12,13 ≥ χ2α(2) = 5,99 , zamítáme testovanou hypotézu o stejné úrovni výkonů v jednotlivých směnách. Prokázali jsme tedy na hladině významnosti α = 0,05 závislost úrovně výkonu na druhu směny. Abychom zjistili, která ze tří směn se od sebe liší, jsou v tab. 2.33 uvedeny hodnoty R.j - R. m. Tabulka 2.33: Hodnoty R.j - R. m m j 2 1 11 2 -
3 19 * 8
Z tabulek zjišťujeme, že kritická hodnota pro absolutní hodnoty rozdílůR.j - R. m při α = 0,05 činí 12,8. V tab. 2.33 je hvězdičkou vyznačen významný rozdíl ve výkonech na ranní a noční směně. Rozdíly mezi ranní a odpolední směnou a také mezi odpolední a noční směnou jsou nevýznamné. Příklad 2.16 Máme k dispozici data z průzkumu cen u tří prodejen (obchodní dům (I), stánkový prodej (II) a soukromá prodejna (III), u nichž byly sledovány ceny za 7 druhů - 47 -
potravinářských výrobků. Chceme posoudit, zda ve sledované době, kdy šetření probíhalo, byla významně odlišná úroveň cen v těchto prodejnách. Vstupní data jsou v tab. 2.34. Pomocné výpočty pak v tab. 2.35 Tabulka 2.34 Potravinářské zboží A B C D E F G
I 4,50 12,40 5,70 1,40 27,80 72,40 8,40
Prodejna II 5,00 11,70 5,50 1,50 32,60 89,40 6,70
III 8,20 14,10 5,60 1,80 28,10 72,50 7,50
I 1 2 3 1 1 1 3 12
Prodejna II 2 1 1 2 3 3 1 13
III 3 3 2 3 2 2 2 17
Tabulka 2.35 Potravinářské zboží A B C D E F G Součet pořadí
Podle (2.51) spočteme hodnotu testového kriteria Q = 12 /(7 * 3 * 4) * (122 + 132 + 172) - 3 * 7 * 4 = 12/84 * (144 + 169 + 289) - 84 = 2,0. V tabulkách nalezneme kritickou hodnotu Q0,05 = 7,143, pro α = 0,05, k = 3, n = 7. Poněvadž vyšlo, že Q = 2,0 < Q0,05 = 7,143 nejme oprávněni zamítnout předpoklad o shodě úrovní cen prodávaného zboží ve sledovaných prodejnách. 2.5 Regresní analýza V kurzu „Metody statistické analýzy“ byly již vysvětleny základní principy jednoduché lineární a nelineární regrese. Přesto je stručně zopakujeme. Hlavním úkolem regresní (resp. korelační) analýzy je přispět k poznání příčinných vztahů mezi statistickými znaky. Východiskem k popisu statistických závislostí jsou statistické údaje. Statistický soubor n pozorování sledovaných statistických znaků lze získat několika způsoby: - 48 -
a) pozorováním n statistických jednotek, přičemž základní soubor byl prostorově, časově i věcně vymezen, b) pozorováním určité statistické jednotky v n časových okamžicích či intervalech, c) násobným opakováním určitého pokusu, prováděného za stejných, resp. přibližně stejných podmínek. Úkolem regresní (resp. korelační) analýzy dále je matematický popis systematických okolností, které provází statistické závislosti. Pokusíme se nyní matematicky formulovat regresní problém. Uvažujme základní statistický soubor, v němž zkoumáme statistické znaky y, x1, x2, ..., xk. Mění-li se nějakým způsobem podmíněné rozdělení znaku y při změnách znaku x1, x2, ..., xk, mluvíme o statistické závislosti (viz také def. 2.5) znaku y na znacích x1, x2, ...,xk. Speciálním případem statistické závislosti je korelační závislost, kdy se mění podmíněné střední hodnoty ηi znaku y. Znak y nazýváme vysvětlovanou nebo závisle proměnnou, znaky x1, x2, ..., xk vysvětlujícími nebo nezávisle proměnnými. Regresní model yi = ηi + εi (2.52) vyjadřuje i-tou hodnotu yi závisle proměnné jako součet podmíněné střední hodnoty ηi závisle proměnné y při kombinaci hodnot nezávisle proměnných x1i, x2i, ..., xki a náhodné složky εi. Podmíněnou střední hodnotu η jako funkci nezávisle proměnných nazýváme regresní funkcí. Podle tvaru regresní funkce rozlišujeme různé typy regresních modelů: a) modely lineární z hlediska parametrů mají regresní funkci ve tvaru (2.53) η= β0 + β1f1 + β2f2 + ...+ βrfr , regresory f1, f2,..., fr jsou libovolné známé funkce nezávisle proměnných x1, x2,..., xk. Speciálním případem jsou modely s regresní funkcí (2.54) η= β0 + β1x1 + β2x2 + ...+ βkxk, kde regresory jsou přímo nezávisle proměnné, tj. modely lineární z hlediska parametrů i z hlediska nezávisle proměnných. Příklady: - regresní přímka η= β0 + β1x , - regresní rovina η= β0 + β1x1 + β2x2 , - regresní hyperbola η= β0 + β11/x , zde se pomocí transformace X =1/x hyperbola „přemění“ na přímku η= β0 + β1X , - regresní logaritmická funkce η= β0 + β1logx , (x > 0) , pomocí transformace X = log x obdržíme η= β0 + β1X , - regresní parabola 2. stupně η= β0 + β1x + β2x2 , 2 pomocí transformace X = x obdržíme η= β0 + β1x + β2X ; b) modely nelineární jak v parametrech, tak vzhledem k nezávisle proměnným, které se však transformací dají upravit na lineární tvar z hlediska parametrů. Příklady: - mocninná funkce η= β0 xβ1, - exponenciální funkce η= β0 β1x, - 49 -
η= β0 eβ1 * x, c) nelineární modely, které se nedají jednoduše transformovat na lineární tvar Příklady: η= κ + β0β1x (β1 > 0) , (κ > 0, β1 > 0), η= κ / (1+ β0β1x) x η = κ β β0 1 (β0 > 0). Odhady regresních parametrů: Mějme regresní funkci (2.54) η= β0 + β1x1 + β2x2 + ...+ βkxk, funkci (2.55) Y= b0 + b1x1 + b2x2 + ...+ bkxk nazveme výběrovou regresní funkcí. Hodnoty Yi= b0 + b1x1i + b2x2i + ...+ bkxki , (2.56) kde x1i, x2i, ...,xki značí hodnotu i-tého pozorování x1, x2, ..., xk jsou bodovými odhady hodnot regresní funkce η. Již z přednášek „Metody statistické analýzy“ víme, že odhady b0, b1, b2, ..., bk regresních parametrů určíme metodou nejmenších čtverců. Při této metodě se vychází z podmínky n
S = ∑ ( y i − Yi ) 2 → min
(2.57)
i =1
a odhady b0, b1, b2,..., bk se určí z normálních rovnic ∂S ∂S ∂S (2.58) = 0, = 0,..., = 0. ∂b 0 ∂b 1 ∂b k Výklad lze zjednodušit a zpřehlednit využitím maticové symboliky. Lineární model lze v maticové formě vyjádřit následovně: (2.59) y = Xβ β + ε. Matice 1 x 11 x 21 " x k1 1 x x 22 " x k 2 12 , kde xij značí hodnotu j-tého pozorování nezávisle X= # # # # # 1 x 1n x 2 n " x kn proměnné xi (i = 1, 2, ..., k, j = 1, 2, ...,n), je rozšířená matice hodnot k nezávisle proměnných, vektor
[
y = y1
[
y2
" yn
]
]
T
je vektor pozorování závisle proměnné y,
[
T
vektor β = β 0 β 1 " β k resp. b = b 0 parametrů resp. vektor jejich odhadů,
[
]
T
b1 " b k
]
T
je vektor regresních
vektor je vektor náhodných složek (pozor: všechny výše ε = ε1 ε 2 " ε n uvedené vektory jsou sloupcové vektory!). Při výpočtu vektoru odhadů b metodou nejmenších čtverců obdržíme soustavu lineárních rovnic (tzv. normálních rovnic), které lze maticově zapsat ve tvaru (XTX)b = XTy , (2.60) T -1 a z nichž za předpokladu, že existuje matice (X X) , plyne - 50 -
b = (XTX)-1 XTy . Matice (XTX) se nazývá Fisherova informační matice. Poznámka: 1) Matice XT značí transpozici matice X. 2) V regresních modelech matice (XTX) -1 existuje vždy.
(2.61)
Míry variability v regresi Celkovou variabilitu závisle proměnné y charakterizuje celkový součet čtverců odchylek naměřených hodnot yi od průměru S y = ∑ ( y i − y) 2 . (2.62) Část celkové variability vysvětlenou regresním modelem charakterizuje teoretický součet čtverců rozdílů predikovaných hodnot Yi od průměru S T = ∑ (Yi − y) 2 . (2.63) Nevysvětlenou část celkové variability představuje reziduální součet čtverců S R = ∑ ( y i − Yi ) 2 . (2.64) (2.65) Platí: S y = ST + SR . V maticovém zápisu: Sy = yTy - n y 2, (2.66) ST = bTXTy - n y 2. (2.67) Můžeme stanovit index determinace. Je dán vztahem ST I2 = (2.68) Sy a nabývá hodnot z intervalu <0,1>. Určuje, jakou část celkové variability pozorovaných (naměřených) hodnot lze vysvětlit daným modelem. V případě lineární regresní funkce se používá název koeficient determinace R2. Pro malé rozsahy výběrů nadhodnocuje I2 těsnost závislosti, navíc závisí na počtu parametrů regresní funkce. Upravená hodnota n −1 I 2adj = 1 − (1 − I 2 ) (2.69) n−p s ohledem na počet parametrů p regresního modelu a rozsah výběru n udává nezkreslený odhad indexu, resp. koeficientu determinace. Klasický lineární model: V odborné literatuře klasickým lineárním modelem (regresním modelem) se rozumí model, který splňuje tyto podmínky: a) Hodnoty nezávisle proměnných jsou nenáhodné veličiny, jsou voleny (resp. plánovány) experimentátorem. b) Regresní funkce je lineární funkcí „v parametrech“. c) Matice X má hodnost p = k + 1 (k je počet regresorů), žádné sloupce matice X nejsou lineárně závislé. d) Rozdělení náhodných složek εi je normální se střední hodnotou 0 a se stejným rozptylem σ2, tj. (2.70) εi ~ N(0, σ2) pro i-tou kombinaci hodnot nezávisle proměnných, i = 1,2, ...,n. - 51 -
e) Náhodné složky jsou nekorelované, tj. cov(εi, εi´) = 0 pro každé dvě i a i´; i, i´= 1,2, ...,n.
(2.71)
Konfidenční intervaly (intervaly spolehlivosti): Jsou-li splněny podmínky a) až e) shora uvedené, platí pro rozdělení odhadů regresních parametrů bj ~ N(βj, σ2(bj)), j = 0, 1,2, ..., k , (2.72) 2 2 kde σ (bj) = σ hjj , hjj je j-tý diagonální prvek matice H = (XTX)-1. Neznámý rozptyl σ2 se odhadne jako sr2 = SR / (n - p), (2.73) kde SR je reziduální součet čtverců, p = k + 1 je počet regresních koeficientů. Meze 100 (1 - α) % -ních konfidenčních intervalů pro regresní parametry βj jsou dány vztahy bj ± t1-α/2(n - p) s (bj), (2.74) kde SR s(bj) = h , (2.75) n − p jj t1-α/2(n - p) je kvantil rozdělení t s (n - p) stupni volnosti, hjj je j-tý diagonální prvek matice H = (XTX)-1. Pro jednoduchost neuvádíme konfidenční intervaly pro střední hodnotu η0 a pro individuální předpověď y0. Testy hypotéz o regresních koeficientech: a) Individuální t-test o nulové hodnotě regresního koeficientu: Nulová hypotéza H0: βj = 0, j = 0, 1, 2, ...,k se odvykle testuje proti oboustranné alternativě H1: βj ≠ 0. Testové kriterium (2.76) t = bj / s(bj) má za platnosti H0 rozdělení t s (n - p) stupni volnosti, tzn. že při hladině významnosti α je kritický obor vymezen nerovností t> t1 - α/2(n - p), kde t1 - α/2(n - p) je kvantil rozdělení t s (n - p) stupni volnosti. b) Celkový F-test Testuje se hypotéza H0: β1 = β2 = ... = βk = 0 proti alternativě, že alespoň jeden regresní koeficient βk není roven nule. Testové kriterium je dáno výrazem ST p −1 F= . (2.77) SR n−p Veličina F má za platnosti Ho rozdělení F se (p - 1) a (n-p) stupni volnosti. Kritický obor hladině významnosti α je vymezen nerovností F > F1 - α (p - 1; n - p) , - 52 -
kde F1 - α (p - 1; n - p) je kvantil rozdělení F s (p -1) a (n - p) stupni volnosti. Volba typu regresní funkce: Pro volbě typu regresní funkce by se mělo zohlednit věcné i logické hledisko. „Uživatel“ modelu by měl vědět, zda se může očekávat rostoucí či klesající trend, má-li se uvažovat s horní či dolní asymptotou, zda má mít regresní funkce inflexní bod ( tzv. esovité křivky) a regresní funkce může vykazovat lokální extrém (v experimentálním prostoru). Velmi instruktivní je grafické znázornění vstupních údajů do tzv. korelačního diagramu. Tady je třeba upozornit na to, že může dojít k jistému zkreslení průběhu závislostí vlivem různých měřítek na ose x a y. Typ regresní funkce má být co nejjednodušší a její parametry snadno interpretovatelné. Po odhadu parametrů zvoleného typu regresní funkce je třeba znovu posoudit vhodnost daného regresního modelu pomocí t-testu , F-testu, resp. analýzy reziduí. Srovnáváme-li více regresních funkcí, můžeme při výběru nejvhodnější využít těchto kriterií: 1) Reziduální rozptyl sR2, definovaný vztahem (2.73). Za vhodnější se považuje ta regresní funkce, u níž mají tyto charakteristiky menší hodnotu. 2) Koeficient determinace, resp. index determinace. Za vhodnější se považuje ta regresní funkce, u níž uvedené míry dosahují vyšších hodnot. Je třeba připomenout, že u regresních funkcí s vyšším počtem parametrů vycházejí tyto míry vyšší. 3) Analýza reziduí. Vhodnost zvolené regresní funkce lze posoudit také podle průběhu reziduí ei = yi - Yi. Rezidua zobrazená v závislosti na hodnotách jednotlivých regresorů umožňují zhruba ověřit vhodnost tvaru regresní funkce a splnění předpokladu konstantnosti rozptylu.
Příklad 2.17 V tab.2.36 máme údaje od 10 vybraných závodech určitého odvětví, které se týkají pracovní neschopnosti a průměrného věku pracovníků. Spočtěte parametry lineárního regresního modelu.
- 53 -
Tabulka 2.36 Závod i 1 2 3 4 5 6 7 8 9 10 Σ
Prac. neschopnost (%) yi 3,1 4,0 3,5 3,0 1,9 2,0 2,5 3,0 3,5 2,5 29,0
Prům. věk prac.(roky) xi 35 33 42 34 40 36 40 38 32 40 370
a) Odhad parametrů regresní přímky b0, b1: Metoda nejmenších čtverců vede na řešení dvou rovnic pro dvě neznámé (b0,b1): nb0 + b1Σxi = Σyi b0Σxi + b1Σxi2 = Σxiyi Pro náš příklad máme : n =10 ,Σxi = 370 , Σyi = 29,0 , Σxi2 = 13798 , Σxiyi = 1063,5 , Σyi2 = 88,22 10 b0 + 370 b1 = 29 370 b0 + 13798b1 = 1063,5 Determinant soustavy 10 370 29 370 10 29 ∆ = 370 13798 = 1080; ∆b0 = 1063,5 13798 = 6647; ∆b1 = 370 1063,5 = -95 b0 = 6647/1080 = 6,1546 ; b1 = -95/1080 = - 0,087963. Regresní model má tedy tvar: Y = 6,1546 - 0,087963x . Přepišme řešení problému do maticového zápisu. 1 35 1 33 1 42 1 34 1 40 1 1 1 1 1 1 1 1 1 1 X = 1 36 , XT= 35 33 42 34 40 36 40 38 32 40 1 40 1 38 1 32 1 40 - 54 -
y = [ 3,1 4,0 3,5 3,0 1,9 2,0 2,5 3,0 3,5 2,5 ]T , XTy= [29 1063,5]T (sloupcové vektory), 370 10 (XTX) = , 370 13798 13798 1 10 * 13798 − 370 2 − 370 Odtud pro vektor b máme 1 13798 − 370 29 b= = 10 1063,5 1080 − 370
(XTX)-1=
− 370 1 13798 − 370 . = 10 1080 − 370 10 6,1546 − 0,08796 .
Tedy b0= 6,1546; b1= - 0,08796. b) Koeficient determinace: K výpočtu součtu čtverců (2.62) až (2.64) je výhodné použít vzorců (∑ y i ) 2 2 2 , (2.78) S y = ∑ ( y i − y) = ∑ y i − n (∑ y i ) 2 2 S T = ∑ (Yi − y) = b 0 ∑ y i + b 1 ∑ x i y i − , (2.79) n S R = ∑ ( y i − Yi ) 2 = Sy - ST . (2.80) Pro náš příklad máme Sy = 88,22 - (29,0)2/10 = 4,12 , ST = 6,1546 * 29 - 0,08796 * 1063,5 - 292/10 = 178,4834 - 93,54546 - 84,1 = 0,8384, SR = 4,12 - 0,8384 = 3,2816. Koeficient determinace je roven R2 = ST / SY = 0,8384 / 4,12 = 0,2035. Znamená to, že pouze 20,35% variability pozorovaných hodnot pracovní neschopnosti lze vysvětlit zvoleným modelem. c) Intervaly spolehlivosti pro regresní koeficienty: Intervaly spolehlivosti se spočítají podle (2.74), tj. bj ± t1 - α/2(n - 2) * s(bj), j = 0, 1 , přičemž SR h s(bj) = , j = 0, 1. n − p jj Pro regresní přímku platí: s(b0) = s R s(b1) = sR
∑x n∑ x − ( ∑ x ) 2 i
2 i
2
,
i
n
n∑ x 2i − ( ∑ x i ) 2
,
- 55 -
SR . n−2 Po dosazení do vzorců máme: 3,2816 sR = = 0,64047 , 10 − 2 13798 13798 s(b0) = 0,64047 = 0,64047*3,5743 = 2,2892 , 2 = 0,64047 1080 10 * 13798 − (370) sR =
10 = 0,64047*0,096225 = 0,06165 . 10 * 13798 − (370) 2 Pro 95 % interval spolehlivosti je 1 - α = 0,95 a tedy 1-α / 2 = 0,975, příslušný kvantil trozdělení je t0,975(8) = 2,306. s(b1) = 0,64047
Interval spolehlivosti pro regresní parametr β0 je (6,1546 - 2,306 * 2,2892 ; 6,1546 + 2,306 * 2,2892) (0,8757; 11,4335) . Interval spolehlivosti pro regresní parametr β1 je (-0,08796 - 2,306 * 0,06165 ; - 0,08796 + 2,06 * 0,06165) (-0,2301; +0,0542). d) Individuální t-testy: Již jsme vypočetli odhady b0 = 6,1546 a b1 = -0,08796 regresních parametrů a odhady směrodatných chyb s(b0) = 2,2892 a s(b1) = 0,06165. Hodnota testového kriteria pro parametr β0 t = b0 / s(b0) = 6,1546/2,2892 = 2,6885 patří do kritického oboru; t = 2,6885 > t1 - α/2(8) = 2,306. Zamítáme tedy H0: β0 = 0 ; b0 je tedy statisticky významný. Hodnota testového kriteria pro parametr β1 t = b1 / s(b1) = - 0,08796/0,06165 = - 1,4268 nepatří do kritického oboru; t< t1 - α/2(8) = 2,306. Hypotéza H0: β1 = 0 se nezamítá. Znamená to, že y nezávisí na x, tedy pracovní neschopnost pracovníků nezávisí na jejich průměrném věku. e) Celkový F-test: Potřebné součty čtverců vypočtené dříve jsou: ST = 0,8384 s 1 stupněm volnosti a SR = 3,2816 s osmi stupni volnosti. Dosazením do (2.77) máme ST 0,8384 p −1 2 −1 F= = = 2,0439 . SR 3,2816 8 n−p Tabulková hodnota F0,95(1, 8) = 5,32. Poněvadž vyšlo F = 2,0439 < F0,95(1, 8) = 5,32 , hypotézu H0: β1 = 0 na hladině významnosti α = 0,05 nezamítáme.
- 56 -
Pro ν1 = 1 a libovolné ν2 a α platí mezi kvantily F rozdělení s ν1 a ν2 stupni volnosti a rozdělení t s ν2 stupni volnosti tento vztah: F1 - α(1, ν1) = t21 - α/2(ν2) Proto u přímky, kde p - 1 = 1 nezáleží na tom, zda hypotézu H0: β1 = 0 testujeme pomocí individuálního t-testu nebo pomocí celkového F-testu. Oba testy jsou ekvivalentní. Příklad 2.18
Při zkoumání závislosti úrody stromů určité odrůdy na věku stromů od jejich přesazení zjistil ovocnářský ústav o náhodně vybraných stromech údaje uvedené v tab. 2.37 . Odhadněme parametry regresní funkce popisující vztah mezi úrodou y a věkem stromů od jejich přesazení x za předpokladu, že regresní funkce je parabola 2. stupně, tj. Y = b0 + b1x + b2x2. Tabulka 2.37 i věk[roky] úroda [kg] xi yi 1 2 2 2 2 3 3 3 2 4 5 10 5 4 5 6 3 3 7 2 1 8 3 4 9 4 7 10 4 6 11 3 3 12 5 12 40 58 ∑
x i2
x i3
x i4
xiyi
xi2yi
4 4 9 25 16 9 4 9 16 16 9 25 146
8 8 27 125 64 27 8 27 64 64 27 125 574
16 16 81 625 256 81 16 81 256 256 81 625 2390
4 6 6 50 20 9 2 12 28 24 9 60 230
8 12 18 250 80 27 4 36 112 96 27 300 970
a) odhad parametrů regresní paraboly: Použití metody nejmenších čtverců (MNČ) vede na soustavu rovnic: nb0 + b1∑xi + b2∑xi2 = ∑yi b0∑xi + b1∑xi2 + b2∑xi3 = ∑yixi b0∑xi2 + b1∑xi3 + b2 ∑xi4 = ∑xi2yi . Dosadíme-li do těchto rovnic hodnoty z tabulky 2.37, máme 12b0+ 40b1 + 146b2 = 58 40b0 +146b1 + 574b2 = 230 146b0 + 574b1 + 2390b2 = 970 . Determinant soustavy 12 40 146 58 40 146 = 1752 ; ∆b0= 230 146 574 = 10512 ∆ = 40 146 574 146 574 2390 970 574 2390
- 57 -
∆b1 =
12 58 146 40 230 574 146 970 2390
= -7008 ; ∆b2 =
12 40 59 40 146 230 146 574 970
= 1752
b0 = ∆b0 / ∆ = 10512/1752 = 6,0 , b1 = ∆b1 / ∆ = -7008/1752 = - 4,0 , b2 = ∆b2 / ∆ = 1752/1752 = 1. Rovnice výběrové regresní paraboly má tvar Y = 6,0 - 4x + x2 . Použijeme-li maticové symboliky, lze řešení normálních rovnic vyjádřit ve tvaru (2.61) b = (XTX)-1 XTy, kde b 0 b = b 1 je vektor regresních parametrů, b 2 1 x 1 x 12 1 x 2 x 22 je matice regresorů , X= # # # 2 1 x n x n 1 XT = x 1 x 12
1 x2 x 22
" 1 " x n je matice transponovaná k matici X, " x 2n
y1 y 2 y = je vektor hodnot závisle (vysvětlované) proměnné. # y n Pak 2 n ∑ yi xi ∑ xi ∑ 3 2 T T x i , (X y) = ∑ x i y i (X X) = ∑ x i ∑ x i ∑ 2 3 4 ∑ x 2 y ∑ x i ∑ x i i i ∑ x i T Víme již, že (X X) se nazývá Fisherova informační matice. Po dosazení máme 12 40 146 58 T T (X X) = 40 146 574 , (X y) = 230 , 146 574 2390 970 1110918 , 0,93833188 − 6,73261 -1 T (X X) = − 6,73261 4,203035 − 0,5981501 , 0,9383197 − 0,5981505 8,675466 * 10 − 2
- 58 -
6,0 (XTX)-1(XTy) = − 4,0 = b . 1 Tedy b0 = 6,0 ; b1 = -4,0 ; b2 = 1,0. b) Index determinace: Teoretický součet čtverců je dán vztahem: S T = ∑ (Yi − y) 2 = b0∑yi + b1∑xiyi + b2∑xi2yi - (∑yi)2/n. (2.81) 2 2 Pro výpočet Sy potřebujeme spočítat hodnotu ∑yi . Tato se rovná ∑yi = 406. Po dosazení do (2.78), (2.81), a (2.80) máme Sy = 406 - 582/12 = 125,67, ST = 6*58 - 4*230 + 1*970 - 582/12 = 348 - 920 + 970 - 280,33 = 117,67, SR = 125,67 - 117,67 = 8,0 . Index determinace je roven I2 = ST/Sy = 117,67/125,67 = 0,9363, tj. 93,6% variability hodnot úrody je vysvětleno zvoleným regresním modelem. Nezkreslený odhad indexu determinace je: Iadj2 = 1 - (1 - I2) * (n - 1) / (n - p) = 1 - (1 - 0,9363) * (12 - 1) / (12 -3) = 1- (0,0637) * 11 / 9 = 0,9221. c) F-test: Hodnota testového kriteria pro test hypotézy H0: β1 = β2 = 0 je rovna ST 117,67 p −1 2 F= = = 66,187 . SR 8,0 9 n−p Tabulková hodnota F0,95(2, 9) = 4,26. Poněvadž vyšlo F = 66,187 > F0,95(2, 9) = 4,26, zamítáme na hladině významnosti α = 0,05 hypotézu H0. d) Individuální t-testy Testové kriterium pro test hypotézy H0: β1 = 0 má tvar (2.76): SR h . t = b1 / s(b1) , s(b1) = n − p 22 Pro náš případ máme SR = 8,0 ; h22 = 4,203035 ; tedy 8.0 s(b1) = 4,203035 = 1,9329. 9 Tedy t = -4,0 / 1,9329 = - 2,0694. Tabulková hodnota t-rozdělení t0,975(9) = 2,262. Poněvadž vyšlo, že t= 2,0694 ≤ t0,975(9) = 2,262, hypotézu H0 nezamítáme na hladině významnosti α = 0,05. Pro test hypotézy H0:β2 = 0 máme - 59 -
t = b2 / s(b2) , s(b2) =
SR h = n − p 33
8,0 * 8,675466 * 10 − 2 = 0,27769 , 9,0
t = 1 / 0,27769 = 3,6001. Poněvadž vyšlo, že t = 3,6001 ≥ t0,975(9) = 2,262, hypotézu H0 zamítáme na hladině významnosti α = 0,05. V případech, kdy je několik regresorů v regresním modelu funkcí stejné vysvětlující proměnné (příkladem je právě parabola), se v modelu vyskytuje tzv. multikolinearita, která může způsobit, že t-testy vycházejí nevýznamné (v našem případě t-test pro b1), ačkoliv F-test je významný. Pak můžeme pro ověření modelu provést analýzu reziduí. O problematice multikolinearity se stručně zmíníme v kapitole „Korelační analýza“. Příklad 2.19 V tabulce 2.38 jsou údaje o ceně (y) 23 vybraných domů a počtu jejich pokojů (x) v jednom americkém městě. Tabulka 2.38 xi 5 6 7 8 9
yij (tis. USD) 155, 168, 180 166, 172, 179, 190, 200 210, 215, 218, 225, 230, 245 213, 225, 240, 247, 249 267, 275, 290, 298
Úkoly: a) Popište závislost ceny domu na počtu pokojů regresní přímkou. b) Charakterizujte těsnost závislosti pomocí poměru determinace a koeficientu determinace. c) Ověřte vhodnost modelu pomocí analýzy rozptylu. Řešení: a) Odhad parametrů regresní přímky: V tabulce 2.38 jsou údaje o ceně domů roztříděny do k skupin podle varianty x, tj. podle počtu pokojů (na rozdíl od předchozích příkladů, kde byla data neutříděna). V případě utříděných dat se využije vztahů: k
k
ni
nb 0 + b 1 ∑ n i x i = ∑ ∑ y ij i =1
k
i =1 j=1
k
k
ni
i =1
j=1
b 0 ∑ n i x i + b 1 ∑ n i x i = ∑ x i ∑ y ij 2
i =1
i =1
V tab. 2.39 jsou uvedeny výpočty.
- 60 -
.
(2.82)
Tabulka 2.39 ni
xi
∑
5 6 7 8 9 35
ni
nixi
nixi
3 5 6 5 4 23
15 30 42 40 36 163
75 180 294 320 324 1193
ni
∑y
2
j =1
xi
ij
∑y j =1
503 907 1343 1174 1130 5057
ni
ni
ij
2515 5442 9401 9392 10170 36920
1/ni(
∑y j =1
ij
)
2
84366,3 164529,8 300608,2 275655,2 319225,0 1144354,5
∑y j= 1
2 ij
84649 165281 301399 276604 319818 1147751
Řešení soustavy rovnic (2.82) provedeme pomocí determinantů: 23 163 5057 163 = 163 1193 =870 , = 36920 1193 = 15041 , ∆ ∆b0 b0=15041 / 870 = 17,2885. 23 5057 ∆b1 = 163 36920 = 24869 , b1= 28,5851. Rovnice výběrové regresní přímky má tvar Y = 17,2885 + 28,5851x b) Poměr determinace: Poměr determinace je dán vzorcem P2 = Sy..m / Sy, kde
(2.83)
1 k ni ( ∑ ∑ y ij ) 2 . n i =1 j =1 i =1 j =1 i =1 j =1 Tento celkový součet čtverců se rozloží na součet mezi skupinami k k 1 ni 1 k ni Sy.m= ∑ n i ( y i − y) 2 = ∑ ( ∑ y ij ) 2 − (∑ ∑ y ij ) 2 n i =1 j =1 i =1 i =1 n i j =1 a součet čtverců uvnitř skupin ni
k
k
ni
Sy= ∑ ∑ ( y ij −y) 2 = ∑ ∑ y ij 2 −
k
Sy.v=
ni
∑ ∑ (y i =1 j =1
ij
− y i ) 2 =Sy - Sy . m .
(2 .84)
(2.85)
(2.86)
Poměr determinace (2.83) P2 je mírou těsnosti závislosti y na x vyjádřenou podmíněnými průměry. Po dosazení (hodnoty z tab. 2.39) máme Sy = 1147751 - 1 / 23 * 50572 = 35870,6087, Sy.m = 1144335 - 1 / 23 * 50572 = 32474,6087, P2 = 32474,6087 / 35870,6087 = 0,9053. Převážnou část celkové variability v pozorovaném souboru (90,5%) lze vysvětlit variabilitou mezi podmíněnými průměry; variabilita uvnitř skupin je poměrně slabá.
- 61 -
Koeficient determinace: R2 = ST / Sy, kde k
ni
k
k
ni
ST= b 0 ∑ ∑ y ij + b 1 ∑ x i ∑ y ij −
ni
( ∑ ∑ y ij ) 2 i =1 j =1
. (2.87) n Koeficient determinace je mírou je mírou těsnosti závislosti y na x vyjádřené regresní přímkou. Po dosazení máme ST = 17,2885 * 5057 + 28,5851 * 36920 - 1/23 * 50572 = 30907,9178, R2 = 30907,9178 / 35870,6087 = 0,8617. Z hodnoty koeficientu determinace plyne, že 86,17% celkové variability cen domů lze vysvětlit zvoleným regresním modelem. i =1 j =1
i =1
j =1
c) Posouzení vhodnosti modelu u tříděných dat: Je-li typ regresní funkce zvolen dobře, měly být rozdíly vyrovnanými hodnotami Yi a podmíněnými průměry y i dostatečně malé, způsobené pouze náhodností výběru a součet jejich čtverců by měl představovat pouze malou část celkové variability proměnné y. Pro snadnější interpretaci výpočtů se konstruuje tabulka analýzy rozptylu (tab. 2.40)- tabulka ANOVA. Tabulka ANOVA se konstruuje i u netříděných údajů. O ní se zmíníme později. Tabulka 2.40 ANOVA zdroj měnlivosti součet čtverců model ST reziduum SR = S y - S T lack of fit SS pure error Sy.v celkem Sy
stupně volnosti p-1 n-p k-p n-k n-1
střední čtverec F-kriterium ST / (p-1) = S1 F = S1 / S2 SR / (n-p) = S2 SS / (k-p) = S3 F = S3 / S4 Sy.v / (n-k) = S4
Pro náš příklad máme k
SR =
ni
∑ ∑ (Y − y i
i =1 j =1
ij
)2 .
(2.88)
SR je reziduální součet čtverců představující variabilitu nevysvětlenou zvoleným regresním modelem. SR se n - p stupni volnosti se skládá ze dvou částí (p je počet parametrů regresní funkce): -vlastní reziduální součet čtverců (2.86) k
Sy.v =
ni
∑ ∑ (y i =1 j =1
ij
− y i ) 2 s n - k stupni volnosti (pure error),
- chyba specifikace (adekvátnost modelu) - lack of fit k
SS =
∑ n (y i =1
i
i
− Yi ) 2
s k-p stupni volnosti. Testové kriterium adekvátnosti modelu má tvar
- 62 -
(2.89)
S R − S y .v F=
k−p S y .v
(2.90)
n−k a má za předpokladu platnosti nulové hypotézy, tj. za předpokladu, že zvolená regresní funkce je vhodným typem funkce (model je adekvátní), rozdělení F(k-p, n-k). Pro náš příklad máme Sy.v = Sy - Sy..m = 35870,6087 - 32474,6087 = 3396, SR = Sy - ST = 35870,6087 - 30907,9178 = 4962,6909 , SS = SR - Sy.v = 1566,6909 . Pro adekvátnost 4962,6909 − 3396 5− 2 = 2,768 . F= 3396 23 − 5 Tabulku 2.40 ANOVA doplníme konkrétními údaji (tab. 2.41). Tabulka 2.41 ANOVA zdroj měnlivosti součet čtverců model 30907,9178 reziduum 4962,6909 lack of fit 1566,6909 pure error 3396,0 celkem 35870,6087
stupně volnosti 1 21 3 18 22
střední čtverec 30907,9178 236,3186 522,2303 188,67
F-kriterium 130,79 2,768
Pro test adekvátnosti modelu máme: F = 2,768; tabulková hodnota F-rozdělení pro hladinu významnosti α = 0,05 a stupně volnosti 3;18 se rovná F0,95(3, 18) = 3,161. Poněvadž vyšlo, že F = 2,768 ≤ F0,95 (3, 18) = 3,161 , nelze zamítnout nulovou hypotézu a předpokládáme proto, že typ regresní funkce byl zvolen správně. Zavedením maticového počtu do regresních modelů nám umožní poměrně snadno přejít od jednoduché regrese (pro jednu nezávisle proměnnou) k vícenásobné regresi (pro dvě a více nezávisle proměnných). Vztahy (2.60) a (2.61) ostatně tento přechod implicitně zahrnují. Pro jednoduchost výkladu a také pro možnost výpočtu parametrů regresních modelů „ručně“ se omezíme na regresní modely Y = b0 + b1x1 + b2x2 , (2.91) tj. modely s dvěma nezávisle proměnnými x1 a x2 . Metoda nejmenších čtverců, kterou využijeme pro odhady parametrů b0, b1, b2 vede na sestavení soustavy lineárních rovnic nb0 + b1∑x1i + b2∑x2i = ∑yi b0∑x1i + b1∑x1i2 + b2∑x1ix2i = ∑yix1i (2.92) 2 b0∑x2i + b1∑x1ix2i + b2 ∑x2i = ∑x2iyi . - 63 -
Vektor řešení (2.92) má tvar (viz také (2.61)): b = (XTX)-1 XTy , b 0 b = b 1 je vektor odhadů regresních parametrů, b 2 1 x 11 1 x 12 X= # # 1 x 1n
x 21 x 22 je matice hodnot regresorů , # x2n 1 " 1 x 12 " x 1n je matice transponovaná k matici X, x 22 " x 2 n
1 X = x 11 x 21 y1 y 2 y = je vektor hodnot závisle ( vysvětlované) proměnné. # y n Pak Fisherova informační matice má tvar n ∑ yi ∑ x1i ∑ x 2i (XTX) = ∑ x 1i ∑ x1i 2 ∑ x1i x 22i , (XTy) = ∑ x1i y i . ∑ x y ∑ x1i x 2 i ∑ x 2i 2i i ∑ x 2 i T
Příklad 2.20 Při zjišťování účinnosti dvou různých způsobů reklamy u určitého druhu zboží byly získány údaje, které jsou uvedeny v tabulce 2.42 Tabulka 2.42 i 1 2 3 4 5 6 7 8 9 10 11
Radio a televize[tis. Noviny [tis. Kč] x2i Kč] x1i 0 40 25 25 30 30 35 35 40 25 45 45 50 0 55 25 60 30 65 35 70 40 - 64 -
Obrat [tis. Kč] yi 1119 625 971 1177 982 1577 914 1330 1436 1741 1717
Úkol: a) Odhadněte parametry regresní přímky popisující průběh závislosti obratu (y) na velikosti prostředků vydaných za reklamu v rádiu a televizi (x1) a charakterizujte těsnost této závislosti. b) Odhadněte parametry lineární regresní funkce η= β0 + β1x1+β2x2 popisující závislost obratu (y) na velikosti prostředků vydaných za reklamu v rádiu a televizi (x1) a na velikosti prostředků vydaných za reklamu v novinách (x2) a charakterizujte těsnost této závislosti . c) Rozhodněte, zda zavedení další nezávisle proměnné ( v našem případě zavedení x2) přispělo významně k výstižnosti modelu. d) Určete 95% intervaly spolehlivosti pro regresní koeficienty β1 a β2. Pomocné výpočty jsou uvedeny v tabulce 2.43 Řešení: a) Odhad parametrů regresní přímky: Normální rovnice pro regresní přímku jsou (podle MNČ) nb0 + b1∑x1i = ∑yi b0∑x1i + b1∑x1i2 = ∑yix1i . Tabulka 2.43 i x1i 1 0 2 25 3 30 4 35 5 40 6 45 7 50 8 55 9 60 10 65 11 70 475 ∑
x2i 40 25 30 35 25 45 0 25 30 35 40 330
yi 1119 625 971 1171 982 1577 914 1330 1436 1741 1717 13589
x1i2 0 625 900 1225 1600 2025 2500 3025 3600 4225 4900 24625
x2i2 1600 625 900 1225 625 2025 0 625 900 1225 1600 11350
Použijeme-li maticové symboliky, máme: b = (XTX)-1 XTy, kde n ∑ yi ∑ x1i 2 T (XTX) = ∑ x 1i ∑ x 1i , (X y) = ∑ x 1i y i , 425 11 13589 , (XTy) = (XTX) = , 475 24625 634560 (XTX)-1 =
1 24625 − 475 , 11 45250 − 475 - 65 -
x1i x2i 0 625 900 1225 1000 2025 0 1375 1800 2275 2800 14025
x1i yi x2i yi 0 44760 15625 15625 29130 29130 41195 41195 39280 24550 70965 70965 45700 0 73150 33250 86160 43080 113165 60935 120190 68680 634560 432170
yi2 1252161 390625 942841 1385329 964324 2486929 835396 1768900 2062090 3031081 2948089 18067771
1 24625 − 475 13589 733,991713 . = 11 634560 11,610718 45250 − 475 Výběrová regresní přímka, která charakterizuje průběh závislosti obratu y na výdajích na reklamu v rozhlase a televizi má tvar
b=
Y = 733,992 + 11,61x1 to znamená, že při zvýšení výdajů na reklamu o 1000 vyroste obrat průměrně o 11 611 Kč. Koeficient determinace: Teoretický součet čtverců vypočítáme podle (2.79) (∑ y i ) 2 2 ST = ∑ (Yi − y) = b 0 ∑ y i + b 1 ∑ x i y i − . n Po dosazení hodnot z tabulky 2.43 máme: ST = 733,9917 * 13589 + 11,610718 * 634560 - 135892/11 = 554 554. Ostatní součty čtverců dle (2.78), (2.80): Sy = 18067771 - 135892/11 = 1280415 , SR = 1280415 - 554554 = 725861. Koeficient determinace je pak roven: R2 = ST / Sy = 554554 = 1280415 = 0,4331. To znamená, že regresní přímkou je vysvětleno pouze 43,31% variability hodnot obratu. Nezkreslený odhad koeficientu determinace: Radj2 = 1 - (1 - R2) (n - 1) / (n - p) = 1 - (1 - 0,4331)10 / 9 = 0,3701. Ze získaných výsledků můžeme sestavit tabulku ANOVA (tab. 2.44) Tabulka 2.44 ANOVA: zdroj měnlivosti součet čtverců model ST= 554554 reziduum SR= 725861 celkem Sy = 1280415
stupně volnosti 1 9 10
střední čtverec 554554 80651,2 -
F-kriterium 6,8759 -
Tabulková hodnota F-rozdělení pro 1 a 9 stupňů volnosti pro hladinu významnosti α = 0,05 je F0,95(1 9) = 5,117. Poněvadž vyšlo, že F = 6,8759 ≥ F0,95(1, 9) = 5,117, zamítáme H0: β1 = 0 na hladině významnosti α = 0,05. b) odhad parametrů regresní funkce β0, β1, β2 Dosadíme konkrétní hodnoty do Fisherovy informační matice (z tab. 2.43): 11 475 330 T XTy = (X X) = 475 24625 14025 , det(XTX) = 65055625 , 330 14025 11350 Dále máme - 66 -
13589 634560 432170
1,2726513 -1 T , * 10 − 2 (X X) = − 11728425 − 2,250958 * 10 − 2
, * 10 −2 − 11728425 2,451748 * 10 − 4 3,804436 * 10 −5
− 2,250958 * 10 −2 3,804436 * 10 −5 , 6,9555861 * 10 − 4
123,70263 b = (X X) X y = 12,64219 . 18,855827 Rovnice výběrové regresní funkce má tvar T
-1
T
Y = 123,703 + 12,642x1 + 18,858x2. Koeficient determinace: Teoretický součet čtverců určíme ze vztahu:
(∑ y i ) 2 ST = ∑ (Yi − y) = b 0 ∑ y i + b 1 ∑ x 1i y i + b 2 ∑ x 2 i y i − . n Po dosazení z tabulky 2.43 máme ST = 123,70263 * 13589 + 12,64219 * 634560 + 18,85827 * 432170 - (13589)2 / 11 = 1065847,501 , Sy = 18067771 - (13589)2 / 11 = 1280414,546 , SR = 1280414,546 - 1065847,501 = 214567,045 , R2 = 1065847,501 / 1280414,546 =0,83242. Hodnota R2 nám říká, že nyní se podařilo zvoleným regresním modelem vysvětlit 83,24% variability hodnot obratu. Nezkreslený odhad koeficientu determinace: Radj2 = 1 - (1 - R2) (n - 1) / (n - p) = 1 - (1 - 0,83242) * 10 / 8 = 0,79053. Ze získaných výsledků můžeme sestavit tabulku ANOVA (tab. 2.45) 2
Tabulka 2.45 ANOVA: zdroj měnlivosti součet čtverců model ST= 1065848 reziduum SR= 214567 celkem Sy = 1280415
stupně volnosti 2 8 10
střední čtverec 532924 26820,9 -
F-kriterium 19,8697 -
Pro test hypotézy H0: β1, β2 = 0 bylo spočteno testové kriterium: F = 532924/26820,9 = 19,8697. Kritická hodnota F-rozdělení pro 2 a 8 stupňů volnosti a pro α = 0,05 je rovna F0,95(2, 8) = 4,459. Poněvadž vyšlo, že F = 19,8697 ≥ F0,95(2, 8) = 4,459 zamítáme na hladině α = 0,05 hypotézu H0, značící, že regresní koeficienty β1, β2 jsou statisticky nevýznamné. c) sekvenční F-test: Celkový součet čtverců S y = ∑ ( y i − y) 2 = 1280415 s (n - 1) stupni volnosti charakterizuje celkovou variabilitu proměnné y; teoretický součet čtverců - 67 -
ST (1) = ∑ (Yi (1) − y) 2 = 554554 s 1 stupněm volnosti charakterizuje variabilitu vysvětlenou regresní přímkou Y(1) = 733,992 + 11,611x1 , teoretický součet čtverců ST ( 2) = ∑ (Yi ( 2) − y) 2 = 1065847,5 se 2 stupni volnosti charakterizuje variabilitu vysvětlenou lineární regresní funkcí se dvěma regresory Y(2) = 123,703 + 12,642x1 + 18,858x2 . Přírůstek ∆ST = ST(2) - ST(1) = 1065847,5 - 554554 = 511293,5 s 1 stupněm volnosti představuje přínos proměnné x2 k vysvětlení celkové variability. Reziduální součet čtverců S R = ∑ ( y i − Yi( 2) ) 2 = 214567 s (n -3) stupni volnosti představuje nevysvětlenou část celkové variability. Hodnota testového kriteria pro test hypotézy, že proměnná x2 nepřispívá významně k vysvětlení celkové variability je F = ∆ST / (SR / (n - 3)) = 511293,5 / (214567/8) = 19,0633 . Kritická tabulková hodnota F-rozdělení pro 1 a 8 stupně volnosti a pro α = 0,05 je rovna F0,95 (1, 8) = 5,318. Poněvadž vyšlo, že F = 19,0633 ≥ F0,95 (1, 8) = 5,318 zamítáme na hladině α = 0,05 hypotézu H0. Nezávisle proměnná představující výdaje za reklamu v novinách (x2) významně přispívá k vysvětlení celkové variability hodnot obratu. Stejnou informaci poskytne t-test hypotézy H0: β2 = 0. Individuální t-testy: Testové kriterium pro test hypotézy H0: β1 = 0 má tvar (2.76) SR , s(b1) = h . t = b1 / s(b1) n − p 22 Pro náš případ máme 214567 s(b1) = 2,451748 * 10 − 4 =2,56433. 8 Tedy t = 12,64219/ 2,56433 = 4,9300. Pro test hypotézy H0:β2 = 0 máme SR 214567 t = b2/s(b2) , s(b2) = h 33 = * 6,9555861 * 10 − 4 = 4,31920 , n−p 8 tedy t = 18,85827/4,3192 = 4,3661. Kritická hodnota t-rozdělení pro α = 0,05 a pro 8 stupňů volnosti je t0,975(8) = 2,306. Obě hodnoty testového kriteria spadají do kritického oboru vymezeného nerovností t> t0,975(8) . Platí tedy t = 4,3661 > t0,975(8) = 2,306 a t = 4,93 > t0,975(8) = 2,306. Znamená to, že obě nezávisle proměnné mají v regresním modelu své opodstatnění. - 68 -
d) Intervaly spolehlivosti pro regresní koeficienty: Meze 95% intervalů spolehlivosti pro parametry β1, β2 se spočítají podle (2.74), tj. bj ± t1 - α/2(n - 3)s(bj), j = 1, 2, přičemž s(b1) = s R h 11 , s(b2) = sR
h 22 ,
SR a h11 a h22 jsou diagonální prvky matice H = (XTX)-1. n−3 Pro náš příklad jsme spočetli: , t0,975(8) = 2,306. s(b1) = 2,56433 , s(b2) = 4,3192 Je tedy 95% interval spolehlivosti pro β1 ... (6,72885; 18,55553), β2 ... (8,89819; 28,81835). Za spolehlivosti 0,95 odhadujeme, že při zvýšení výdajů za reklamu v rádiu a v televizi o 1000 Kč se zvýší obrat v průměru o 6,7 až 18,6 tis. Kč, při zvýšení výdajů za reklamu v novinách o 1000 Kč se zvýší obrat v průměru o 8,9 až 28,8 tis. Kč. sR =
2.6 Korelační analýza 2.6.1 Parametrické míry těsnosti závislosti U korelačních modelů se předpokládá, že všechny proměnné, jejichž závislost zkoumáme, jsou náhodné veličiny a že jejich sdružené rozdělení je vícenásobné normální rozdělení. Nerozlišujeme tedy, jako u regresní analýzy, mezi nezávisle a závisle proměnnými. V případě dvou proměnných považujeme pozorované dvojice dat za výběr z dvourozměrného normálního rozdělení, v případě několika proměnných x1,..., xk považujeme pozorované k-tice za výběr z k-rozměrného normálního rozdělení. Zabývejme se nejjednodušším případem - závislostí dvou proměnných. V této souvislosti uveďme pojem z regrese - sdružené regresní přímky. Závislost x2 na x1 vyjadřuje regresní přímka: η2 = α21 + β21x1, závislost x1 na x2 pak regresní přímka: η1 = α12 + β12x2, regresní koeficienty β21 a β12 se nazývají sdružené regresní koeficienty. Odhady regresních koeficientů se stanoví známou metodou nejmenších čtverců (MNČ). V literatuře se někdy uvádí tyto vzorce: b 21 =
n ∑ x 1i x 2 i − ∑ x 1i ∑ x 2 i n∑ x 12i − ( ∑ x 1i ) 2
- 69 -
a 21 = b 12 = a 12 =
∑x
2i
n
− b 21
∑x
1i
n n∑ x 1i x 2 i − ∑ x 1i ∑ x 2 i n∑ x 2 i − ( ∑ x 2 i ) 2 2
∑x n
1i
− b 12
∑x
.
2i
n
Korelační koeficient ρx1x2 = ρ12 měří těsnost lineární závislosti proměnných x1 a x2 . Obor hodnot je z intervalu <-1; 1>; znaménko určuje směr závislosti. Rostou-li s hodnotami jedné proměnné podmíněné střední hodnoty druhé proměnné, jedná se o přímou závislost a korelační koeficient má kladné znaménko; klesají-li s růstem hodnot jedné proměnné podmíněné střední hodnoty druhé proměnné, jedná se o nepřímou závislost a korelační koeficient má záporné znaménko. Bodovým odhadem korelačního koeficientu ρ12 je výběrový korelační koeficient r12, který se určí ze vztahu: 1 ∑ x1i x 2 i − n ∑ x1i ∑ x 2 i r12 = r21 = (2.94) . 1 1 2 2 2 2 ( ∑ x 1i − ( ∑ x 1i ) )(∑ x 2 i − ( ∑ x 2 i ) ) n n Regresní koeficienty b21 a b12 a korelační koeficient r12 jsou vázány vztahem (2.95) r122 = b21 * b12 . Druhá mocnina koeficientu korelace se nazývá koeficient determinace, který vyjadřuje podíl variability závisle proměnné vysvětlené příslušnou regresní přímkou. Při určování intervalu spolehlivosti pro korelační koeficient ρ užijeme 1 1+ r transformované veličiny z = ln , která má asymptoticky normální rozdělení. 2 1− r Interval spolehlivosti pro hodnotu 1 1+ ρ je dán vztahem: Z = ln n 1− ρ 1 1 P( z − u 1−α / 2 ) = 1− α , (2.96) 〈 Z〈 z + u 1−α / 2 n−3 n−3 kde u1 - α/2 je kvantil normovaného normálního rozdělení, n je rozsah výběru, 1- α je spolehlivost. Interval spolehlivosti pro ρ získáme zpětnou transformací pomocí speciálních tabulek. Test významnosti koeficientu korelace: Testujeme nulovou hypotézu H0: ρ = 0 proti alternativě H1: ρ ≠ 0. Testové kriterium má tvar r t= ( n − 2) . (2.97) 1− r2 Veličina t má za platnosti nulové hypotézy rozdělení t s n-2 stupni volnosti a při hladině významnosti α je kritický obor vymezen nerovností t > t1 - α/2(n - 2). Lze použít také testové kriterium - 70 -
r2 ( n − 2) , (2.98) 1− r2 které má za platnosti nulové hypotézy rozdělení F s 1 a (n - 2) stupni volnosti a při hladině významnosti α je kritický obor vymezen nerovností F > F1 - α(1; n-2). F=
Závislost mezi několika proměnnými: Zkoumá-li se závislost mezi více než dvěma proměnnými, používají se a) párové koeficienty korelace, b) vícenásobné koeficienty korelace, c) parciální koeficient korelace. a) Párový korelační koeficient: Pro párový korelační koeficient mezi kterýmikoli dvěma proměnnými platí vše, co již bylo řečeno. Párové korelační koeficienty mezi proměnnými x1, x2, ..., xk se obvykle sestavují do tzv. korelační matice. 1 r12 " r1k r 1 " r2 k 21 (i) R= # # # # r k 1 rk 2 " 1 matice R je symetrická podle hlavní diagonály. b) Vícenásobný koeficient korelace: Vícenásobný koeficient korelace ρy . x1x2...xk charakterizuje těsnost závislosti proměnné y na všech proměnných x1 až xk . Nabývá hodnot z intervalu <0;1>. Čím má vyšší hodnotu, tím je závislost těsnější. Bodovým odhadem vícenásobného koeficientu korelace ρy . x1x2...xk je výběrový vícenásobný koeficient korelace r y . x1x2...xk . Jeho hodnota se určí ze vztahu pro koeficient determinace: 2 S T ∑ (Yi − y) 2 . (2.99) r y . x1x2...xk = = S y ∑ ( y i − y) 2 Při testu významnosti výběrového vícenásobného koeficientu korelace testujeme nulovou hypotézu H0: ρy . x1x2...xk = 0 proti alternativě H1: ρy . x1x2...xk ≠ 0. Testové kriterium má tvar ∑ (Yi − y) 2 ry2.x1x 2 ...xk n − k −1 k * F= , (2.100) = 2 2 k ∑ ( y i − Yi ) 1 − ry.x1x 2...xk
n − k −1 které má za platnosti nulové hypotézy rozdělení F s k a (n - k - 1) stupni volnosti a při hladině významnosti α je kritický obor vymezen nerovností F> F1 - α(k; n - k - 1), kde F1 - α(k; n - k - 1) je kvantil F-rozdělení s k a (n - k - 1) stupni volnosti. Poznámka: Speciálně dvojnásobný koeficient korelace ry.x1x2 lze spočítat ze vzorce:
- 71 -
ry.x1x2 =
2 ryx1 − 2 ryx1 ryx 2 rx1x 2 + ryx2 2 2 1 − rx1x 2
.
(ii)
Obecně lze spočítat vícenásobný koeficient korelace (k-násobný) z korelační matice R a vektoru korelačních koeficientů r podle vztahu: r 2y . x1x2...xk = rTR-1r , (iii) T kde r = (ryx1 ryx2 ... ryxk). Pro k ≥ 3 je třeba pro výpočet vícenásobné korelace využít počítače; ruční výpočet je pracný (možnost numerických chyb). c) Parciální (dílčí) koeficient korelace: Parciální (dílčí) koeficient korelace charakterizuje těsnost závislosti mezi dvěma proměnnými při vyloučení vlivu jedné nebo více dalších proměnných. Např.: dílčí koeficient korelace ρyx1 . x2 (dílčí koeficient korelace 1. stupně) určuje těsnost závislosti proměnných y na x1 při konstantní proměnné x2. Druhá mocnina tohoto koeficientu korelace vyjadřuje podíl variability proměnné y nevysvětlené proměnnou x2, který je vysvětlen proměnnou x1. Podobně dílčí koeficient korelace ρyx1 . x2x3 (dílčí koeficient korelace 2. stupně) určuje těsnost závislosti proměnných y na x1 „očištěné“ od vlivu x2 a x3. Dílčí koeficient korelace může nabývat hodnot z intervalu <-1;1>. Bodovým odhadem dílčího koeficientu korelace 1. stupně ρhj . k je výběrový dílčí koeficient korelace r hj . k, který se určí ze vztahu: rhj − rhk r jk r hj . k = (2.101) (1 − rhk2 )(1 − r jk2 ) nebo r hj . k =
rh2. jk − rhk2 1 − rhk2
.
(2.102)
Bodovým odhadem dílčího koeficientu korelace obecně (p - 2)-tého stupně ρhj . 12...(h - 1)(h + 1) ... (j - 1)(j + 1)...p (p je počet všech proměnných) je výběrový koeficient korelace, který se určí ze vztahu − d hj r hj . 12...(h - 1)(h + 1)...(j - 1)(j + 1)...p = , (2.103) d hh d jj kde dhj, dhh, djj jsou prvky matice R-1, což je matice inverzní ke korelační matici R typu px p. Test významnosti dílčího koeficientu korelace: Test významnosti dílčího koeficientu korelace je obdobný jako u párového koeficientu korelace. Nulová hypotéza je H0: ρhj . 12...(h - 1)(h + 1)...(j - 1)( j+ 1)...p = 0 . Alternativní hypotéza je H1: ρhj . 12...(h - 1)(h + 1)...(j - 1)(j + 1)...p ≠ 0. Testové kriterium má tvar rhj.* t= ( n − p) , (2.104) 1 − rhj.* 2 kde rhj . * je odhad ρhj . * . Za předpokladu platnosti H0 má veličina t rozdělení t s (n - p) stupni volnosti a při hladině významnosti α je kritický obor vymezen nerovností - 72 -
t > t1 - α/2(n - p). Lze použít také testové kriterium rhj.* 2 ( n − p) , F= (2.105) 1 − rhj.* 2 které má za platnosti nulové hypotézy rozdělení F s 1 a (n - p) stupni volnosti a při hladině významnosti α je kritický obor vymezen nerovností F > F1 - α(1; n - p). Příklad 2.21 V tabulce 2.46 jsou výsledky testů ze dvou předmětů zjištěné u 8 náhodně vybraných studentů určitého oboru Tabulka 2.46 Počet bodů 1.testu (x1) Počet bodů 2.testu (x2)
z 80
50
36
58
72
60
56
68
z 65
60
35
39
48
44
48
61
Úkoly: a) Odhadněte parametry sdružených regresních přímek a určete nejlepší odhad - počtu bodů z 2. testu u studenta, který dosáhl 90 bodů z 1. testu, - počtu bodů z 1. testu u studenta, který dosáhl 10 bodů z 2. testu. b) Charakterizujte těsnost lineární závislosti výsledků dvou testů a ověřte, že pro korelační koeficient rx1x2 platí vztah (2.95). c) Určete interval spolehlivosti (95%) pro korelační koeficient ρ udávající těsnost závislostí výsledků z obou testů v souboru všech studentů daného oboru. d) Testujte na hladině významnosti α = 0,05 hypotézu, že neexistuje vztah mezi výsledky obou testů. Řešení: a) Odhad parametrů sdružených regresních přímek: Tabulku 2.46 přepíšeme do přehlednější formy a připojíme pomocné výpočty (tab. 2.47) Tabulka 2.47 i 1 2 3 4 5 6 7 8 ∑
x1 80 50 36 58 72 60 56 68 480
x 12 6400 2500 1296 3364 5184 3600 3136 4624 30104
x2 65 60 35 39 48 44 48 61 400
Soustava rovnic pro regresní přímku - 73 -
x 22 4225 3600 1225 1521 2304 1936 2304 3721 20836
x 1x 2 5200 3000 1260 2262 3456 2640 2688 4148 24654
X2 = a21 + b21x1 má tvar na21 + b21∑x1 = ∑x2 a21∑x1 + b21∑x12 = ∑x1x2 . Řešení soustavy provedeme např. pomocí determinantů: 8 480 400 480 = 480 30104 = 10432 , = 24654 30104 ∆ ∆a21 ∆b21=
8 400 = 5232 ; 480 24654
= 207680 ,
a21 = 207680 / 10432 = 19,9079 , b21 = 5232 / 10432 = 0,50153.
První výběrová regresní přímka má rovnici: X2 = 19,908 + 0,502 x1.
(2.106)
Soustava rovnic pro sdruženou regresní přímku X1 = a12 + b12x2 má tvar na12 + b12∑x2 = ∑x1 a12∑x2 + b12∑x22 = ∑x1x2 . Řešení soustavy provedeme např. pomocí determinantů: 8 400 480 400 ∆ = 400 20836 = 6688 , ∆a12 = 24654 20836 ∆b12=
8 480 = 5232 ; 400 24654
= 139680
a12 = 139680 / 6688 = 20,885, b12 = 5232 / 6688 = 0,7823.
Výběrová sdružená regresní přímka má rovnici: X1 = 20,885 + 0,7823 x2.
(2.107)
Po dosazení za x1 = 90 do (2.106) dostaneme 19,908 + 0,502 * 90 = 65,09. Po dosazení za x2 = 10 do (2.107) dostaneme 20,885 + 0,7823 * 10 = 28,708. U studentů, kteří v prvním testu dosáhli 90 bodů, můžeme v druhém testu očekávat průměrně 65 bodů, u studentů, kteří dosáhli 10 bodů v druhém testu, lze očekávat, že v prvním testu získali průměrně 29 bodů. b) Koeficient korelace, koeficient determinace Použijeme vztahu (2.94)
- 74 -
1 24654 − 480 * 400 654 654 8 rx1x2 = rx2x1 = = = 0,6264 . 1044 0996 , 1 1 1304 836 * (30104 − 480 2 )(20836 − 400 2 ) 8 8 Koeficient determinace je roven rx1x22 = 0,3923. Pro výpočet koeficientu determinace můžeme rovněž použít vztah (2.95); tedy rx1x22 = b21 b12 = 0,50153 * 0,7823 = 0,39237. c) Interval spolehlivosti (95%) pro korelační koeficient: Podle vztahu (2.96) nalezneme nejprve interval spolehlivosti pro veličinu 1 1+ ρ Z = ln (2.108) n 1− ρ máme - dolní hranice 1 , (2.109) z - u 1− α/ 2 n−3 - horní hranice 1 z + u 1− α/ 2 (2.110) , n−3 přičemž 1 1+ r z = ln (2.111) 2 1− r Pro náš příklad je z = 1/2[ln ((1+0,6264) / (1-0,6264))] = 0,73547, dále u1-α/2 = 1,96 (kvantil normovaného normálního rozdělení pro α = 0,05). Hodnota dolní hranice intervalu pro Z je pak rovna 1 0,73547 -1,96* = - 0,14107 , 8−3 horní hranice intervalu spolehlivosti 1 = 1,61201. 0,73547 +1,96* 8−3 Celkem tedy (-0,14107 ; 1,61201). Interval spolehlivosti pro r obdržíme zpětnou transformací, k níž můžeme použít speciálních tabulek, které jsou uvedeny v učebnicích statistiky, a nebo provést jednoduchý výpočet na kalkulačce. Zpětný výpočet rx1x2, když známe z má tvar: rx1x2= (q-1)/(q+1), (2.112) (2.113) kde q = e2z Pro náš příklad máme z = - 0,14107 ; q = e-2*0,14107 = 0,7542 ; rx1x2 = - 0,1404 z = 1,61201 ; q = e2*1,61201 = 25,12893 ; rx1x2 = 0,9235
- 75 -
Tedy s pravděpodobností 95% leží koeficient korelace ρx1x2 základního souboru v intervalu ( - 0,1404; 0,9235). Vidíme, že interval spolehlivosti je tak široký, že o těsnosti závislosti nemůžeme dělat žádné závěry; je to způsobeno malým rozsahem výběru. Jelikož tento interval obsahuje 0, nelze vyloučit, že v celém základním souboru studentů neexistuje závislost mezi výsledky obou testů. d) Test významnosti koeficientu korelace: Testové kriterium má tvar (2.97) r 0,6264 0,6264 * 2,44949 t= ( n 2 ) 6 − = = = 1,9684 . (1 − 0,3924 0,6076 1− r2 Tato hodnota nepatří do kritického oboru, vymezeného nerovností t> t0,975(6). Kritická hodnota t-rozdělení pro 6 stupňů volnosti a pro α = 0,05 se rovná t0,975(6) = 2,4469. Poněvadž t = 1,9684 < t0,975(6) =2,4469 nezamítáme nulovou hypotézu H0: ρ = 0. To značí, že na základě pozorování daného výběru studentů se nepodařilo dokázat, že existuje závislost mezi výsledky obou testů. Příklad na dílčí a vícenásobnou korelaci: Příklad 2.22 V tab. 2.48 jsou uvedeny hodnoty produkce (y), výše investic (x1) a procento plnění norem (x2) u 12 vybraných podniků. Spočítejme dílčí koeficienty korelace I. stupně a dvojnásobný koeficient korelace. Připomeňme si potřebné vztahy pro plánované výpočty Dílčí koeficienty I. řádu: ryx1 − ryx 2 rx1x 2 r yx1 . x2 = , 2 (1 − ryx2 2 )(1 − rx1x ) 2 r yx2 .
x1
=
ryx 2 − ryx1 rx1x 2 2 2 (1 − ryx1 )(1 − rx1x 2)
.
Dvojnásobný koeficient korelace ry.x1x2 lze spočítat ze vzorce: ry.x1x2 =
2 ryx1 − 2 ryx1 ryx 2 rx1x 2 + ryx2 2 2 1 − rx1x 2
.
- 76 -
Tabulka 2.48 Podnik č. x1i 1 16,3 2 16,8 3 18,5 4 16,3 5 17,9 6 17,4 7 16,1 8 16,2 9 17,0 10 16,7 11 17,5 12 19,1 205,8 ∑
x2i 99,5 98,9 99,2 99,3 99,8 99,6 99,8 99,7 99,8 99,9 100,0 100,2 1195,7
yi 52,8 48,4 54,2 50,0 54,9 53,9 53,1 52,4 53,0 52,9 53,1 60,1 638,8
Z údajů tab. 2.48 vypočítáme: ∑x12 = 3539,64 ; ∑x22 = 119143,01 ; ∑x1x2 = 20507,29 ; ∑x1y = 10977,41; ∑x2y = 63659,25 ; ∑y2 = 34091,66. Spočítáme nyní jednoduché koeficienty korelace podle (2.94) 1 10977,41 − 205,8 * 638,8 21,99 21,99 12 ryx1 = = = = 1 1 10,17 * 86,207 29,6095 2 2 (3539,64 − 205,8 )(34091,66 − 638,8 12 12 = 0,74266 , 1 63659,25 − 1195,7 * 638,8 8154 , 8154 , 12 ryx2 = = = = 0,72188 1 1 148 , * 86,207 11,2954 2 2 (119143,01 − 1195,7 )(3409166 , − 638,8 ) 12 12 , 1 205,8 *1195,7 1,035 1,035 12 rx1x2 = = = = 0,26677 . 1 1 10,17 *1,48 3,8796 2 2 (3539,64 − 205,8 )(119143,01 − 1195,7 ) 12 12 Dílčí (parciální) koeficienty I. řádu jsou: 0,74266 − 0,72188 * 0,26677 0,55008 0,55008 ryx1 . x2 = = = = 0,8248 , 0,6669 (1 − 0,5211)(1 − 0,07117) 0,4789 * 0,9288 0,72188 − 0,74266 * 0,26677 0,52376 0,52376 ryx2 . x1 = = = = 0,8115 . (1 − 0,5515)(1 − 0,07117) 0,4485 * 0,92883 0,64543 20507,29 −
Dvojnásobný koeficient korelace je roven: 0,55154 − 2 * 0,74266 * 0,72188 * 0,26677 + 0,52111 0,78661 ry . x1x2 = = = 0,9203 . 1 − 0,07117 0,92883 - 77 -
K výpočtu mnohonásobného koeficientu korelace můžeme také použít korelační matice R; vztah (iii). Máme: 0,26677 1 0,74266 1,076619 − 0,287209 , , R-1 = R = r= . 1 − 0,287209 1,076619 0,26677 0,72188 Pak máme: 1,076619 − 0,287209 0,74266 r2y . x1x2 = 0,74266 0,72188 = 0,846887 , − 0,28720 1,076619 0,72188 ry . x1x2 = 0,9203.
[
]
Výsledek je samozřejmě shodný s dřívějším výpočtem. Z výsledku lze usuzovat na vysokou těsnost závislosti hodnoty produkce na výši investic a na procentu plnění norem. Pro výpočet parciálních koeficientů korelace I. řádu můžeme využít inverzní matici R-1 a vyjít ze vztahu (2.103). Pro náš příklad máme: 1 0,74266 0,72188 0,74266 1 0,26677 , det R = 0,142216, R= 0,72188 0,26677 1 6,531147 − 3,867947 − 3,682852 1,893889 , R-1 = − 3,867947 3,367336 − 3,68285 1,893889 3,153345 0,74266 − 0,72188 * 0,26677 0,55008 0,55008 ryx1 . x2 = = = = 0,8248 , 0,6669 (1 − 0,5211)(1 − 0,07117) 0,4789 * 0,9288 0,72188 − 0,74266 * 0,26677 0,52376 0,52376 ryx2 . x1 = = = = 0,8115 . (1 − 0,5515)(1 − 0,07117) 0,4485 * 0,92883 0,64543 Vidíme, že výsledky jsou shodné s dřívějšími. Test významnosti vícenásobné korelace: Spočítali jsme, že ry . x1x2 = 0,8469 a tedy ry . x1x2 = 0,9203. Nulová hypotéza má tvar H0: ρy . x1x2 = 0, alternativní hypotéza H1: ρy . x1x2 ≠ 0. Testovací kritérium je (2.100): ry2.x1x 2 n − k −1 0,8469 12 − 2 − 1 0,8469 9 F= * * * = 24,8925. = = 2 k 1 − 0,8469 2 0,1531 2 1 − ry.x1x 2 . Kritická hodnota F-rozdělení pro α = 0,05 a pro 2 a 9 stupňů volnosti je F0,05(2; 9)=4,257. Hodnota F tedy spadá do kritického oboru, tzn. F = 24,8925 > F0,05(2; 9) = 4,257. Zamítáme H0, tj. koeficient vícenásobné korelace je statisticky významný. Byla prokázána velmi těsná závislost mezi výší investic, procentem plnění norem a hodnotou produkce; 84% celkové variability hodnoty produkce je vysvětleno oběma proměnnými x1 a x2 .
- 78 -
Test významnosti dílčích koeficientů korelace: Spočítali jsme, že r2yx1 . x2 = 0,8248 ; ryx2 . x1 = 0,8115. Nulová hypotéza má tvar H01: ρy x1 . x2 = 0 a H02: ρy x2 . x1 = 0 , alternativní hypotéza H11: ρy x1 . x2 ≠ 0 a H12: ρy x2 . x1 ≠ 0. Testovací kritérium je (2.104): rhj.* t= ( n − p) . 1 − rhj.* 2 Pro náš příklad máme ryx1.x 2 0,8248 t= ( n − p) = 2 1 − 0,8248 2 1 − ryx1.x 2 Dále t =
ryx 2.x1 1 − ryx 2.x1
2
( n − p) =
12 − 3 =
0,8115 1 − 0,8115
2
0,8248 * 3 = 4,3764 . 0,5654
12 − 3 =
0,8115 * 3 = 4,1665 . 0,5843
Kritický obor při hladině významnosti α = 0,05 je vymezen nerovností t>t0,975(9); tj. t>2,262. Hodnoty testových kritérií tedy spadají do kritického oboru. V obou případech zamítáme nulové hypotézy H01 a H02 na hladině významnosti α = 0,05. 2.6.2 Neparametrické míry těsnosti závislosti Jestliže náhodný výběr nepochází z dvojrozměrného normálního rozdělení nebo jestliže výběr obsahuje některá odlehlá pozorování, je vhodné použít neparametrické míry těsnosti závislosti. Probereme dvě nejčastěji používané míry: a) Spearmanův koeficient pořadové korelace b) Kendallův koeficient konkordance a) Pořadová korelace Spearmanův koeficient pořadové korelace(obdoba jednoduchého koeficientu korelace) je dán vztahem 6∑ (i x − i y ) 2 , (2.114) rs = 1 − n( n 2 − 1) kde ix a iy jsou pořadová čísla hodnot proměnných x a y , n - rozsah výběru. Ch. E. Spearman - anglický psycholog (1863-1945). Spearmanův koeficient pořadové korelace nabývá hodnot z intervalu <-1;1>, přičemž hodnoty kolem 0 ukazují na nezávislost, hodnoty blízké 1 či -1 na existenci přímé či nepřímé závislosti. Test hypotézy významnosti rs: Testujeme nulovou hypotézu H0: ρs = 0 proti alternativě H1: ρs ≠ 0. Pro výběry o rozsahu n < 10 je třeba kritickou hodnotu hledat ve speciálních tabulkách, pro n ≥ 10 lze použít známého testového kriteria: rs t= ( n − 2) . 1 − rs 2
- 79 -
Za platnosti hypotézy H0 má veličina t Studentovo t-rozdělení s (n-2) stupni volnosti. Všimněme si ještě výpočtu rs v případě, že se některé z hodnot xi (resp. yi) opakují a jsou jim přiřazeny průměry z pořadových čísel, která na ně připadají. V tomto případě rs spočítáme podle vzorce 6∑ (i x − i y ) 2 , (2.115) rs = 1 − n( n 2 − 1) − C kde pro opravný člen C platí C = 1/2 ∑ ( h 3x ,k − h x ,k ) + ∑ ( h 3 y , k ′ − h y , k ′ ) . (2.116) k′ k V tomto vzorci značí hx,k četnost k-té skupiny stejných hodnot proměnné x a hx,k´ četnost k´-té skupiny stejných hodnot proměnné y. Spearmanův koeficient rs se často používá jako charakteristika shody pořadí n jednotek podle dvou hledisek. Čím více se pořadí jednotek podle těchto hledisek shodují, tím je rs bližší 1. Příklad 2.23 Bylo sledováno 10 posluchačů 2. ročníku VŠE. Na základě psychologického vyšetření byli tito posluchači seřazeni podle nervové lability (čím byl posluchač labilnější, tím dostal vyšší pořadí ix). Kromě toho sledovaní posluchači dostali pořadí iy na základě svých výsledků ve statistice (nejlepší posluchač dostal pořadí 1). Výsledky jsou uvedeny v tab. 2.49. Tabulka 2.49: Pořadí posluchačů podle nervové lability a statistiky ix 1 2 3 4 5 6 7 8 iy 9 3 8 5 4 2 10 1 i x - iy -8 -1 -5 -1 1 4 -3 7 Z tab. 2.49 spočítáme ∑(ix - iy)2 = 186. Dosazením do (2.114) máme 6 * 186 rs = 1 − , = 1 − 11272 = −0,1273 . 10 * 99
9 7 2
10 6 4
Kritická hodnota na hladině α = 0,05 je 0,6364 (tab. 2.50). Poněvadž ji rs nedosahuje, nezamítáme hypotézu, že nervová labilita a výsledky ve statistice jsou nezávislé. Tabulka 2.50 : Kritické hodnoty rs Spearmanova korelačního koeficientu pro α = 0,05 a α = 0,01
- 80 -
n
α = 0,05
α = 0,01
5
0,90000
-
6
0,8286
0,9429
7 8 9 10 11 12 13 14 15
0,7450 0,6905 0,6833 0,6364 0,6091 0,5804 0,5549 0,5341 0,5179
0,8929 0,8571 0,8167 0,7818 0,7545 0,7273 0,6978 0,6747 0,6536
Příklad 2.24 Na výstavě potravinářského zboží bylo vystaveno 12 nových druhů výrobků. Výrobky označme písmeny A, B, C, D, ..., L. Porota odborníků stanovila pořadí výrobků co do chuti takto: G, A, J, E, K, B, C, L, D, I, H, F. Na základě názorů návštěvníků výstavy, kteří se zúčastnili ochutnávky, bylo sestaveno toto pořadí: J, G, K, A, L, I, E, B, F, C, D, H. Máme posoudit shodu (či neshodu) mezi názory odborníků a laiků . Řešení: Přiřadíme písmenům abecedy vzestupně čísla 1 až 12. Odpovídající čísla (pořadí) přiřadíme výsledkům degustace poroty (ix) a návštěvníků (laiků) - iy. Vstupní a pomocné výpočty jsou v tab. 2.51. Tabulka 2.51 Abeceda Poř. číslo A B C D E F G H I J K L ∑
1 2 3 4 5 6 7 8 9 10 11 12
Výsled ky poroty návštěvníků G J A G J K E A K l B I C E L B D F I C H D F H
- 81 -
Pořadí ix 2 6 7 9 4 12 1 11 10 3 5 8
iy 4 8 10 11 7 9 2 12 6 1 3 5
d
d2
-2 -2 -3 -2 -3 3 -1 -1 4 2 2 3 0
4 4 9 4 9 9 1 1 16 4 4 9 74
Podle (2.114) máme rs = 1 - (6 * 74) / (123 - 12) = 1 - 444 / 1716 = 0,7412. Pro test významnosti rs využijeme kritických hodnot z tab. 2.50. Pro α = 0,05 a pro n = 12 je kritická hodnota rovna 0,5804. Poněvadž rs= 0,7412 > rkrit. = 0,5804, považujeme hodnotu rs za statisticky významnou na hladině významnosti α = 0,05. Znamená to, že existuje dobrá shoda v hodnocení výrobků porotou odborníků a laiků. V dalším příkladu spočítáme Spearmanův koeficient pořadové korelace v případě, kdy se některá pořadí shodují. Příklad 2.25 V tabulce 2.52 jsou uvedeny výsledky hodnocení 12 druhů dámské vycházkové obuvi dvěma experty. Hodnotila se povrchová úprava (nejlepší úprava má pořadí „1“, nejhorší „12“). Spočítáme Spearmanův koeficient pořadové korelace hodnocení oběma experty. Budeme zjišťovat, zda mezi experty není významný rozdíl v hodnocení vzhledu obuvi. Vidíme, že některá pořadí se opakují, nahradíme je pořadím průměrným. (tab. 2.53). Zde jsou také uvedeny pomocné výpočty. Tabulka 2.52 Výrobek č. 1 2 3 4 5 6
Expert I 8 9 9 9 1 2
Výrobek č. II 8 9 10 11 1 6
7 8 9 10 11 12
Expert I 2 9 5 4 7 6
II 6 12 2 3 4 5
Tabulka 2.53 Výrobek č. 1 2 3 4 5 6 7 8 9 10 11 12 ∑
Pořadí I. expert ix 8 10,5 10,5 10,5 1 2,5 2,5 10,5 5 4 7 6 -
II. expert iy 8 9 10 11 1 6,5 6,5 12 2 3 4 5 -
- 82 -
di
di2
0 1,5 0,5 -0,5 0 -4,0 -4,0 -1,5 3 1 3 1 0
0 2,25 0,25 0,25 0 16 16 2,25 9,0 1,0 9,0 1,0 57
Poněvadž mezi pořadími ix a iy se vyskytují opakování, spočteme nejprve opravný člen C (podle (2.116)): C = 1/2 [(43 - 4) + (23 - 2) + (23 - 2)] = 1/2[ 60 + 6 + 6 ] = 36. Pak podle (2.114) je: 6 * 57 342 rs = 1 − = 1− = 0,7964 . 2 1680 12(12 − 1) − 36 Pro test významnosti rs využijeme kritických hodnot z tab. 2.50. Pro α = 0,05 a pro n=12 je kritická hodnota rovna 0,5804. Poněvadž rs= 0,7964 > rkrit. = 0,5804 tvrdíme tedy, že vypočtený rs je statisticky významný, takže existuje dobrá shoda ve výsledcích expertů hodnotících povrchovou úpravu vycházkové dámské obuvi. b) Kendallův koeficient konkordance: Zatímco Spearmanův koeficient korelace je mírou korelace pořadí n jednotek podle dvou hledisek, je Kendallův koeficient konkordance mírou souhlasu mezi m > 2 pořadími n jednotek. Uvažujeme tedy n jednotek a m hledisek, podle nichž mají být stanovena pořadí jednotek. Uspořádáme jednotky nejdříve podle prvního hlediska a přiřadíme jim pořadová čísla 1,2, ...,n. Průměr těchto pořadových čísel je rovný číslu (n + 1) / 2 a jejich rozptyl rovný číslu (n2 - 1) / 12. Pak vzestupně uspořádáme jednotky podle druhého hlediska a přiřadíme jim opět čísla 1,2, ..., n. Tak postupujeme dále, až vyčerpáme poslední hledisko. Každé jednotce tedy bude přiřazeno celkem m pořadových čísel a všem n jednotkám tedy celkem m * n pořadových čísel. Jejich průměr je: m1´= (n + 1)/2 (2.117) a rozptyl m2´= (n2 - 1)/12 . (2.118) Označme nyní Aj, j = 1,2, ...,n součet pořadových čísel, která byla přiřazena j.té jednotce a Aj Aj = , j = 1,2, ...,n (2.119) m jejich průměr. Protože počet pořadových čísel přiřazených každé jednotce je stejný, bude zřejmě n
m1´=
∑A j =1
n
j
.
(2.120)
Uvažujeme dále statistiku s2A =
1 n ∑ (A − m1′ ) 2 , n j=1 j
(2.121)
tj. rozptyl průměrných pořadových čísel A j . Budou-li průměrná pořadová čísla A j u každé jednotky stejná (tj. nebude-li existovat souvislost mezi pořadími těchto jednotek podle daných m hledisek), bude zřejmě s2A = 0 . Budou-li se naopak pořadí jednotek podle všech hledisek shodovat (tj. každé jednotce bude přiřazeno m stejných pořadových čísel), pak průměrnými pořadovými čísly A j budou při jejich seřazení od
- 83 -
nejnižšího k nejvyššímu hodnoty 1,2, ...,n a jejich rozptyl s 2A = (n2 - 1) / 12 bude roven rozptylu m2. Z uvedeného plyne, že souhlas mezi m > 2 pořadími n jednotek lze měřit poměrem s 2A rk = , (2.122) m2 který se nazývá Kendallův koeficient konkordance. Tento koeficient nabývá hodnot z intervalu <0;1> a jeho hodnoty blízké 1 signalizují souhlas m pořadí a jeho hodnoty blízké 0 signalizují naopak nezávislost těchto pořadí. Pro numerický výpočet je výhodný tento vztah: n 12 n +1 rk = 2 3 A 2j − 3 . (2.123) ∑ n −1 m ( n − n) j=1 Jestliže se v některých z m pořadí vyskytují skupiny jednotek, jímž se přiřazují průměry z pořadových čísel na ně připadajících, počítá se Kendallův koeficient konkordance podle vztahu: s 2A rk = , (2.124) m2 − C kde 1 m pi 3 C= (2.125) ∑ ∑ ( h − h i,k ) 12 mn i =1 k =1 i ,k je opravný člen. V (2.125) značí pi počet skupin jednotek s průměrnými pořadovými čísly v i-tém pořadí a hi,k četnost k-té skupiny těchto jednotek i-tém pořadí. Pro „ruční“ výpočet se v literatuře uvádí vzorec n 2 m 2 n( n + 1) 2 12 ∑ A j − 4 j=1 rk = . (2.126) m pi 2 3 mmn( n − 1) − ∑ ∑ ( h i ,k − h i ,k ) i =1 k =1 Testovaná hypotéza H0 o nezávislosti m pořadí se zamítá, liší-li se koeficient konkordance, vypočítaný z pořadových čísel přiřazených n pozorovaným jednotkám, významně od nuly (je-li tedy významný). Při větším rozsahu výběru (v praxi stačí již n > 7) lze rozdělení statistiky (2.127) χ2 = m(n - 1)rk 2 za platnosti hypotézy H0 aproximovat rozdělením χ (n-1). Kritický obor pro test o nezávislosti má tvar: (2.128) χ2 ≥ χ1-α2(n - 1). Příklad 2.26 Tři pracovníci (experti) výrobního podniku byli vedením požádáni, aby provedli pohovor s 10 uchazeči o jistou funkci a uspořádali je v pořadí podle jejich vhodnosti pro tuto funkci. Výsledky hodnocení jsou uvedeny v tab. 2.54. Má se zjistit míra shody v hodnocení těmito experty. Pro náš případ je m = 3, n = 10.
- 84 -
Tabulka 2.54 Uchazeč 1. expert 2. expert 3. expert
1 1 2 2
2 4 1 1
3 2 2 3
4 4 4 3
5 3 4 3
6 5 8 3
7 6 9 4
8 9 6 4
9 5 10 4
10 10 6 10
V tab. 2.55 jsou stanoveny průměrná pořadí a uvedeny pomocné výpočty. Tabulka 2.55 Uchazeč 1 2 3 4 5 6 7 8 9 10 Součty
1 1 4,5 2 4,5 3 7,5 6 9 7,5 10 55
expert 2 2,5 1 2,5 4,5 4,5 8 9 6,5 10 6,5 55
3 2 1 4,5 4,5 4,5 4,5 8 8 8 10 55
Součty Aj
Aj2
5,5 6,5 9,0 13,5 12,0 20,0 23,0 23,5 25,8 26,5 165
30,25 42,25 81,0 182,25 144,0 400,0 529,0 552,25 650,25 702,25 3313,5
Vypočteme nejprve součet podle (2.125) m
pi
∑ ∑ (h i =1 k =1
3 i,k
− h i ,k ) = 2 * (2 3 − 2) + 3 * (2 3 − 2) + 1 * (4 3 − 4) + 1 * (33 − 3) = 114 .
Pak rk podle (2.126) je: 32 * 10 * 11 12 3313,5 − 4 7140 rk = = = 0,8333 . 2 3[3 * 10 * (10 − 1) − 114] 8568 Pro test významnosti rk spočítáme testovací kritérium (2.127): χ2 = 3 * 9 * 0,833 = 22,5. Tabulková hodnota χ0,952(9) = 16,9. Poněvadž vyšlo, že χ2 = 22,5 > χ0,952 (9) = 16,9 zamítáme hypotézu na hladině významnosti α = 0,05 hypotézu H0 o nezávislosti m = 3 pořadí. Značí to, že vypočtený Kendallův koeficient rk je statisticky významný. Svědčí to o jistém souhlasu tří pořadí uchazečů o danou funkci v podniku. 2.6.3 Poznámka o multikolinearitě Multikolinearitou nazýváme závislost mezi nezávisle (vysvětlujícími) proměnnými. Vztahy mezi nezávisle proměnnými jsou zřejmé z výběrové korelační matice nezávisle proměnných Rx (i). Pokud jsou nezávisle proměnné párově lineárně nezávislé, všechny jejich párové korelační koeficienty v matici (i) se rovnají nule a
- 85 -
korelační matice nezávisle proměnných je jednotkovou maticí, její determinant se rovná jedné. S úplnou lineární nezávislostí mezi nezávisle (vysvětlujícími) proměnnými se setkáváme velmi zřídka. Zpravidla bývají párové korelační koeficienty různé od nuly, takže matice Rx není jednotková. Nezávisle proměnné nejsou tedy úplně nezávislé, ale existuje mezi nimi multikolinearita většího nebo menšího rozsahu. V případě multikolinearity nezávisle proměnných je determinant korelační matice menší než 1 a s narůstající multikolinearitou se blíží k nule. Pokud se determinant korelační matice rovná nule, jde o úplnou multikolinearitu. V tomto případě je korelační matice singulární a řešení regresní úlohy pomocí metody nejmenších čtverců není možné. Úplná kolinearita, stejně jako úplná lineární nezávislost proměnných se v praxi vyskytuje zřídka; determinant korelační matice nabývá zpravidla hodnoty z intervalu (0;1). V souvislosti s multikolinearitou v regresních modelech je v první řadě třeba rozhodnout, zda je či není nežádoucně vysoká. Multikolinearita se považuje za nežádoucně vysokou pokud: a) některý párový korelační koeficient nezávisle proměnných je vyšší než 0,8, b) některý z párových korelačních koeficientů nezávisle proměnných nebo mnohonásobný koeficient korelace některé z nich s ostatními nezávisle proměnnými je vyšší než mnohonásobný koeficient korelace charakterizující těsnost závislosti závisle proměnné na všech k nezávisle proměnných. Přesnější rozhodnutí, zda se multikolinearita považuje za nežádoucně vysokou, je možné na základě testu. Nejznámější je Farraův-Glauberův test. U tohoto testu se multikolinearita chápe jako odklon od lineární nezávislosti (ortogonality) a testuje se hypotéza o nezávislosti mezi nezávisle proměnnými. Pokud se hypotézu o nezávislosti podaří zamítnout, musíme považovat multikolinearitu za významnou. Farra a Glauber navrhli pro testování hypotézy o nezávislosti použít Bartlettův test a vytvořit testové kritérium: (2.129) B = - [n -1 -1/6 (2k + 5)] lnRx, kde n je rozsah výběru, k- počet nezávisle proměnných, Rx - determinant korelační matice nezávisle proměnných. Testové kritérium má za platnosti hypotézy o nezávislosti rozdělení χ2 o k(k-1)/2 stupni volnosti. Kritický obor ohraničuje vztah B ≥ χ1-α2[ k(k - 1) / 2], (2.130) kde B je testová charakteristika , χ1-α2[ k(k - 1)/2] - kritická hodnota rozdělení χ2 pro k(k - 1) / 2 stupně volnosti pro hladinu významnosti α. Platí-li (2.130) hypotéza o nezávislosti mezi nezávisle proměnnými zamítneme a jejich multikolinearitu za statisticky významnou.
- 86 -
Příklad 2.27 Hotelová společnost vlastnící v rámci svého řetězce 12 hotelů analyzuje vztah mezi celkovými měsíčními tržbami těchto hotelů (proměnná y, mil. Kč) a tržbami vyprodukovanými stravovacími úseky v nich (proměnná x1, mil.Kč), dále další nezávisle proměnnou (x2), kterou bude počet „lůžkonocí“ (měsíční kapacita hotelů se udává často tímto ukazatelem a je dána součinem celkového počtu lůžek krát počet dní v měsíci), které obsadila tzv.“kongresová turistika“tj. situace, kdy část kapacity hotelu je využívána pro skupinové ubytování účastníků konferencí, seminářů apod. Výchozí údaje jsou v tab. 2.56. Tabulka 2.56 i x1 1 2 2 1,2 3 14,8 4 8,3 5 8,4 6 3
x2 150 94 811 254 399 95
y 12 8 76,4 17 21,3 10
i 7 8 9 10 11 12
x1 4,8 15,6 16,1 11,5 14,2 14
x2 149 312 952 247 400 312
y 12,5 97,3 88 25 38,6 47,3
Jednoduché (párové) koeficienty korelace jsou: ryx1 = 0,8531 ; ryx2 = 0,7545 ; rx1x2 = 0,7336. Korelační matice Rx má tvar 0.7336 1 . Determinant matice Rx je Rx= 0,46183, Rx = 1 0.7336 ln Rx= - 0,77255.
Farraův-Glauberův test: B = - [(12 - 1) - 9/6] (-0,77255) = 7,3392 kritická hodnota rozdělení χ2 pro α = 0,05 a pro 1 stupeň volnosti je χ0,952 (1) = 3,84. Poněvadž vyšlo, že B = 7,33255 > χ0,952 (1) = 3,84, zamítáme hypotézu o nezávislosti mezi nezávisle proměnnými x1 a x2 na hladině α = 0,05; považujeme tedy multikolinearitu za statisticky významnou. Zařazení proměnné x2 do modelu nebylo vhodné. Po přijetí hypotézy o multikolinearitě vyvstává otázka, zda v dalším postupu vypustíme z regresního modelu tu proměnnou, která je hlavní příčinou multikolinearity, čímž se podaří multikolinearitu snížit na únosnou míru, nebo zda se rozhodneme použít místo jednoduché metody nejmenších čtverců jinou metodu odhadu parametrů regresního modelu. Nabízí se např.tzv. podmínková metoda nejmenších čtverců, metoda postupné regrese (Stepwise regression) apod. Použití těchto metod vyžaduje mít k dispozici počítač s odpovídajícím software (např. STATGRAPHICS).
- 87 -
3. KAPITOLY Z ANALÝZY ČASOVÝCH ŘAD Definice 3.1 Časová řada Časovou řadou budeme rozumět posloupnost věcně a prostorově srovnatelných pozorování (dat), která jsou uspořádána z hlediska času ve směru minulost-budoucnost. Definice 3.2 Analýza časových řad Analýzou (resp. i prognózou) časových řad se rozumí soubor metod, které slouží k popisu těchto dynamických systémů (resp. k předvídání jejich budoucího chování). Časové řady ekonomických ukazatelů se obvykle určitým způsobem člení. V tomto členění jde především o vyjádření rozdílností ve věcném vymezení sledovaných ukazatelů, které je mnohdy provázano i specifickými statistickými vlastnostmi. Je tedy nutné i diferencovaně volit prostředky analýzy sloužící k porozumění mechanismu, kterým je vývoj toho či onoho jevu utvářen. Základní druhy časových řad se rozlišují: a) podle rozhodného časového hlediska na časové řady intervalové (časové řady intervalových ukazatelů) a na časové řady okamžikové (časové řady okamžikových ukazatelů), b) podle periodicity, s jakou jsou údaje v řadách sledovány, na časové řady roční a na časové řady krátkodobé, kde jsou údaje zaznamenávány ve čtvrtletních, měsíčních, týdenních aj. periodách; ekonomické časové řady měsíční patří mezi nejsledovanější vůbec, c) podle druhu sledovaných ukazatelů na časové řady absolutních ukazatelů a na časové řady odvozených ukazatelů, d) podle způsobu vyjádření údajů na časové řady naturálních ukazatelů (hodnoty ukazatelů jsou vyjádřeny v naturálních jednotkách) a časové řady peněžních ukazatelů. Definice 3.3 Intervalová časová řada Intervalovou časovou řadou se rozumí řada intervalového ukazatele. tj. ukazatele, jehož velikost závisí na délce intervalu, za který je sledován. Pro ukazatele tohoto typu lze tvořit součty (lze je shrnovat součty). Tyto ukazatele se mají vztahovat ke stejně dlouhým intervalům. Definice 3.4 Okamžiková časová řada Časové řady okamžikových ukazatelů jsou sestavovány z ukazatelů, které se vztahují k určitému okamžiku. Poněvadž součet za několik za sebou jdoucích hodnot okamžikových ukazatelů nedává smysl, shrnují se řady tohoto typu pomocí průměrů. Průměr počítaný z časové řady okamžikových ukazatelů se nazývá chronologický průměr.
- 88 -
Definice 3.5 Chronologický průměr Předpokládejme, že známe hodnoty okamžikových ukazatelů y1, y2, ...,yn pro n časových okamžiků, které označíme t1, t2, ..., tn , kde t1 je první a tn poslední časový okamžik. Chronologický průměr je definován vztahem: 1 1 y 1 + y 2 +"+ y n −1 + y n 2 2 y= . (3.1) n −1 Vztah (3.1) vyjadřuje prostý chronologický průměr. Nebude-li délka mezi jednotlivými časovými okamžiky stejná, počítá se tzv. vážený chronologický průměr: y1 + y 2 y2 + y3 yn 1 + yn d1 + d 2 +"+ − d n −1 2 2 2 y= , (3.2) d 1 + d 2 +"+ d n −1 kde di jsou jednotlivé délky intervalů, tedy např. d1 = t2 - t1, d2 = t3 - t2 atd. Jmenovatel v (3.2) lze zapsat také jako tn - t1. Příklad 3.1 Vypočítáme průměrný stav zaměstnanců jistého podniku za období od 1.1. do 1.5. daného roku. Výchozí údaje jsou uvedeny v tab. 3.1 Tabulka 3.1 yi Datum Počet Délky y i di zaměstnanců intervalů di 1.1. 280 y1 = (280 + 270)/2 = 275 31 8525 1.2. 270 y 2 = (270 + 280)/2 = 275 28 7700 1.3. 280 31 8215 y 3 = (280 + 250)/2 = 265 1.4. 250 y 4 = (250 + 240)/2 = 245 30 7350 1.5. 240 120 31790 ∑ y = 31790 / 120 = 265. 3.1 Elementární charakteristiky časových řad Pro orientační popis časových řad používáme obvykle některé elementární charakteristiky časových řad. Jsou jimi diference různého řádu, tempa a průměrná tempa růstu. Tyto údaje spolu s vizuální analýzou grafu studovaného procesu umožňují rychle získat dobrou výchozí představu o charakteru procesu, který tato řada představuje. Uveďme výpočetní vztahy pro shora uvedené charakteristiky. 1. diference (diference 1. řádu, absolutní diference, přírůstek) (3.3) 1∆t = yt - yt - 1 , t = 2, 3, ..., n, 2. diference (diference 2. řádu) (3.4) 2∆t = 1∆t - 1∆t - 1 , t = 3, 4, ..., n, Tempo růstu kt = yt / yt - 1 , t = 2, 3, ... , n, (3.5) - 89 -
Průměrné tempo růstu k=
n −1
yn , y1
(3.6)
Průměrný absolutní přírůstek y n − y1 1 n , ∆= ∑ 1∆t = n − 1 t =2 n −1 Relativní přírůstky y t − y t −1 yt 1∆t δt = = = −1 . y t −1 y t −1 y t −1
(3.7)
(3.8)
Příklad 3.2 Tab. 3.2 obsahuje údaje o nákladech provozovny, vyrábějící a dodávající komponenty osobních automobilů. Budeme sledovat vývoj nákladů za období od května do prosince, tj. v osmi měsících roku 1998 (v Kč). Máme určit elementární charakteristiky této časové řady. Tabulka 3.2 Měsíc V. VI. VII. VIII. IX. X. XI. XII.
t 1 2 3 4 5 6 7 8
náklady yt 83 963 82 514 82 011 82 555 84 983 85 870 86 501 86 711
1. diference 1∆t -1 449 - 503 544 2 428 887 631 210
2. diference 2∆t 946 1 047 1 884 - 1541 -256 -421
Tempo růstu kt 0,9827 0,9939 1,0066 1,0294 1,0104 1,0073 1,0024
Z tabulky 3.2 můžeme např. stanovit: - v září 1998 vzrostly celkové náklady proti srpnu o 2,94% - průměrné tempo růstu k = 7 86711 / 83963 = 1,0046 , tj. růst o 0,46% 86711 − 83963 - průměrný absolutní přírůstek ∆ = = 392,5 7 n
- průměrné náklady na jeden měsíc y =
∑y t =1
n
t
=
675108 = 84388,5Kč 8
3.2 Dekompozice časových řad Nejjednodušší koncepcí modelování časové řady reálných hodnot yt je model jednorozměrný ve tvaru některé elementární funkce času, kdy (3.9) Yt = f(t), t = 1, 2, ..., n , kde Yt je modelová (teoretická) hodnota ukazatele v čase t, a to taková, aby rozdíly yt Yt označované zpravidla jako εt a nazývané náhodnými poruchami, byly v úhrnu co - 90 -
nejmenší a zahrnovaly současně také působení ostatních faktorů (vedle faktoru času) na vývoj sledovaného ukazatele. K modelu (3.9) se přistupuje pomocí klasického (formálního) modelu, kde jde pouze o popis forem pohybu ( a nikoliv o poznání věcných příčin dynamiky časové řady). Tento model vychází z dekompozice řady na 4 složky časového pohybu, a sice na složku trendovou Tt, sezónní St, cyklickou Ct a nepravidelnou (náhodnou) εt. Vlastní tvar rozkladu může mít tvar: yt = Tt + St + Ct + εt = Yt + εt , (3.10) kde Yt se označuje jako modelová (teoretická, deterministická) složka rovná souhrnu složek Tt, St a Ct , tedy Yt = Tt + St + Ct . (3.11) Modelu (3.10) se říká aditivní model. Můžeme ještě uvažovat o modelu ve tvaru yt = Tt * St * Ct * εt . (3.12) Model (3.12) se nazývá multiplikativní model. Uveďme nyní, co se skrývá pod jednotlivými formami pohybu. Definice 3.6 Trend Trendem rozumíme dlouhodobou tendenci ve vývoji hodnot analyzovaného ukazatele. Trend může být rostoucí, klesající nebo někdy mohou hodnoty ukazatele dané časové řady kolísat kolem určité úrovně - potom se jedná o časovou řadu s konstantním trendem (někdy se nesprávně říká, že jde o časovou řadu bez trendu: časová řada obecně bez trendu nemůže existovat). Definice 3.7 Sezónní složka Sezónní složka je pravidelně se opakující odchylka od trendové složky, přičemž tato odchylka se projevuje s periodicitou kratší než 1 rok nebo právě rovnou jednomu roku. Příčin sezónního kolísání může být mnoho. Dochází k němu buď v důsledku působení sluneční soustavy na Zemi během jednotlivých ročních období (jaro, léto, podzim, zima), nebo též vlivem různých společenských zvyklostí (výplata mezd a nákupy v maloobchodě vždy v určitou dobu, svátky, dovolené apod.) Definice 3.8 Cyklická složka Cyklickou složkou rozumíme kolísání okolo trendu v důsledku dlouhodobého vývoje s délkou vlny delší než 1 rok. V této souvislosti se mluví o např. cyklech hospodářských, demografických, inovačních apod. S problematikou cyklů se můžeme často setkat při analýze hospodářské konjunktury. Tato bývá obvykle předmětem zájmů ekonomů jak na národohospodářské úrovni, tak na úrovni managementu velkých podniků a bank, protože je citlivým indikátorem stability očekávaného makroekonomického vývoje.
- 91 -
3.2.1 Popis trendu - analytické vyrovnávání Obvykle se předpokládá, že analyzovaná časová řada má tvar yt = Yt + εt = Tt + εt , (3.13) nebo že byla na tento tvar převedena vhodnými metodami (např. očištěním od sezónní složky). Nejdůležitější modely trendové složky, metody odhadu jejích parametrů 1. Lineární trend (3.14) Tt = b0 + b1t , t = 1, 2, ..., n. Odhady parametrů b0 a b1 získáme metodou nejmenších čtverců (MNČ). 2. Kvadratický trend
Tt = b0 + b1t + b2t2 , t = 1, 2, ..., n. Odhady parametrů získáme opět metodou nejmenších čtverců (MNČ).
(3.15)
3. Exponenciální trend Tt = b0b1t , t = 1, 2, ..., n (b1 > 0) (3.16) Odhady parametrů b0 a b1 nelze stanovit přímo pomocí MNČ. Model (3.16) se musí nejdříve „linearizovat“. Linearizace se provede např. zlogaritmováním modelu (3.16): ln Tt = ln b0 + t ln b1 . (3.17) Při vhodném označení máme: Y = B0 + B1 t (3.18) na tento model již můžeme použít MNČ. Je třeba upozornit, že B0 a B1 jsou v logaritmickém tvaru. Při zpětném přechodu na model (3.16) je třeba B0 a B1 odlogaritmovat, tedy b0 = eB0 ; b1 = eB1. Lepší výsledky než MNČ dává v tomto případě tzv. vážená metoda nejmenších čtverců. Při této metodě se minimalizuje výraz (3.19) ∑wt (ln yt-ln b0-tln b1)2 → min Váhy wt se např. volí (3.20) wt = yt2, t = 1, 2, ..., n. Pro váženou metodu nejmenších čtverců mají normální rovnice tvar ln b0∑ yt2 + ln b1∑ tyt2 = ∑ yt2ln yt (3.21) 2 2 2 2 ln b0∑ tyt + ln b1∑ t yt = ∑ tyt ln yt . Volba vhodného modelu trendu: Při hledání nejvhodnějšího typu trendu vycházíme především z předpokládaných vlastností trendové funkce, plynoucích z teoretického rozboru. Výběr usnadní grafické znázornění časové řady. Kromě toho lze využít testů založených na jednoduchých charakteristikách časové řady (tab. 3.3). Tabulka 3.3 Trend lineární kvadratický exponenciální
Test první diference přibližně konstantní druhé diference přibližně konstantní koeficient růstu přibližně konstantní - 92 -
Při rozhodování mezi několika typy trendových funkcí je vhodné pozorovat střední kvadratické chyby odhadu (neboli průměr čtverců reziduí): n
∑ (y t =1
t
− Yt ) 2
. (3.22) n Tato charakteristika se používá nejčastěji. Volí se ta trendová funkce, u které je M.S.E. nejnižší. M.S.E.=
Příklad 3.3 Vyjdeme z údajů o celkových nákladech yt provozovny z příkladu 3.1 (tab. 3.2). Sestavme rovnici trendové přímky vystihující vývoj nákladů v měsících květen až prosinec 1998 a stanovme předpověď vývoje tohoto ukazatele na leden a únor 1999. Potřebné výpočty jsou uvedeny v tab. 3.4. Tabulka 3.4 Měsíc V. VI. VII. VIII. IX. X. XI. XII. ∑
t 1 2 3 4 5 6 7 8 36
yt 83 963 82 514 82 011 82 555 84 983 85 870 86 501 86 711 675 108
t2 1 4 9 16 25 36 49 64 204
tyt 83 963 165 028 246 033 330 220 429 915 515 220 605 507 643 688 3 064 574
Yt 82 172,8 82 805,9 83 438,9 84 072,0 84 705,0 85 338,1 85 971,1 86 604,2 675 108,0
Výběrová regresní funkce má tvar Yt = b0 + b1t (resp. Tt = b0 + b1t ), odhady parametrů b0 a b1 získáme metodou nejmenších čtverců (MNČ). Soustava normálních rovnic pro neznámé b0 a b1 má tvar: 8b0 + 36b1 = 675 108 36b0 + 204b1 = 3 064 574 . Determinant soustavy je 8 36 , determinanty pro jednotlivé neznámé b0 a b1 jsou: ∆ = 36 204 = 336 675108 ∆b0 = 3064574 8 ∆b1 = 36
36 204
675108 3064574
= 27397370 , tedy b0 = 27397370 / 336 = 81539,79 ,
= 212704 , tedy b1 = 212704 / 336 = 633,048.
Rovnice odhadované trendové přímky má tedy tvar - 93 -
Tt = 81539,79 + 633,05t. (3.23) Odhady vyrovnaných (teoretických, modelových) hodnot trendu v jednotlivých měsících můžeme nalézt v posledním sloupci tab. 3.4. Získali jsme je tak, že jsme do výsledné rovnice (3.23) dosadili postupně za t = 1, 2, ..., 8. Chceme-li ještě provést předpověď (extrapolaci) očekávaných hodnot celkových nákladů provozovny (Kč) pro první dva měsíce roku 1999 (tedy pro t = 9 a t = 10), dosadíme do právě určené rovnice trendové přímky tyto hodnoty t. Takže: T9 = 81539,79 + 633,05 * 9 = 87 237,24 Kč (pro leden 1999), T10 = 81539,79 + 633,05 * 10 = 87 870,29 Kč (pro únor 1999). Veličina M.S.E. pro náš případ je rovna: M.S.E. = 8272023,8 / 8 = 1 034 002,9. Kdybychom uvažovali jako model trendu regresní parabolu Tt = b0 + b1t + b2t2 , pak pomocí MNČ obdržíme regresní koeficienty: b0 = 83539,8 , b1 = - 566,952 , b2 = 133,333. Rovnice odhadované trendové paraboly má tedy tvar Tt = 83 539,8 - 566,952t + 133,333t2. (3.24) Veličina M.S.E. = 661 978. Tato hodnota je ve srovnání s veličinou M.S.E. pro lineární trend asi 1,5 krát nižší. Zdálo by se, že parabola je pro popis uvažované časové řady výhodnější. Vypočteme ještě predikované hodnoty pro t = 9 a t = 10. Pro t = 9 máme T9 = 83 539,8 - 566,952 * 9 + 133,333 * 81 = 89237,2. Pro t = 10 máme T10 = 83539,8 - 566,952 * 10 + 133,333 * 100 = 91203,58. Využijeme-li informace z tab. 3.3, vidíme, že parabola by nebyla vhodnou trendovou funkcí, poněvadž druhé diference nejsou ani přibližně konstantní. První diference nevykazují žádný viditelný trend, jsou tedy přibližně konstantní. Podle toho by byl vhodnější lineární trendový model. Zde by tedy byl rozhodující „hlas praxe“, který by posoudil, zda hodnota extrapolace pro t = 10 u paraboly je reálná, a nebo bude lepší hodnota extrapolace u lineárního trendu. Příklad 3.4
Pro časovou řadu zisku 112; 149; 238; 354; 580; 867, která udává čistý zisk společnosti (tis. dol.) v prvních 6 letech, určete průměrný koeficient růstu. a) pomocí krajních hodnot časové řady, b) pomocí vyrovnání exponenciální funkcí. Odhadněte zisk společnosti v následujících letech. Vstupní údaje a některé výpočty jsou v tab. 3.5. Tabulka 3.5 t yt 1 112 2 149 3 238 4 354 5 580 6 867
1. diference 37 89 116 226 287
2. diference 52 27 110 61 - 94 -
koeficient růstu kt 1,330 1,597 1,487 1,638 1,495
Řešení: a) Průměrný koeficient růstu je k = 5 867 / 112 = 1,506 to znamená, že každý rok se zisk společnosti zvýšil v průměru o 50,6%. Předpověď výše zisku v následujících dvou letech se dá zhruba odhadnout jako součin hodnoty zisku v posledním roce a průměrného koeficientu růstu, resp. jeho druhé mocniny. Tedy: Y7 = 867 * 1,506 = 1305,702, Y8 = 867 * 1,5062 = 1966,387. b) Vyrovnání časové řady exponenciální trendovou funkcí: Z tabulky 3.5 je patrno, že 1. diference mají rostoucí trend. Lineární trendová funkce nebude tedy vhodná. Druhé diference viditelný trend nevykazují, jejich hodnoty značně kolísají. Koeficienty růstu kt nevykazují ani rostoucí, ani klesající tendenci, jejich hodnoty lze považovat přibližně za konstantní. K vyrovnání řady se tedy bude hodit exponenciální trendová funkce: Yt = b0b1t . (3.25) Jde o jednoduchý nelineární regresní model nelineární v parametrech. Nelze tedy použít přímo MNČ. Provedeme tzv. linearizaci: ln Yt = ln b0 + tln b1. (3.26) Označíme-li jako Zt = ln Yt, ln b0 = B0, ln b1 = B1 můžeme psát (3.27) Zt = B0 + B1t, což je rovnice regresní přímky. Pro výpočty B0 a B1 musíme zlogaritmovat vstupní hodnoty yt a provést některé pomocné výpočty, které jsou uvedeny v tab. 3.6. Tabulka 3.6 t 1 2 3 4 5 6 ∑ 21
yt 112 149 238 354 580 867 2300
ln yt = zt 4,71850 5,00395 5,47227 5,86929 6,36303 6,76504 34,19208
ln yt*t 4,71850 10,0079 16,41681 23,47716 31,81515 40,59024 127,02576
t2 1 4 9 16 25 36 91
Yt 104,395 158,916 241,911 368,252 560,575 853,342
Soustava normálních rovnic pro linearizovaný exponenciální trend je: nB0 + B1∑t = ∑zt B0∑t + B1∑t2 = ∑tzt . Pro náš příklad máme: 6B0 + 21B1 = 34,19208 21B0 + 91B1 = 127,02576. Řešení této soustavy pomocí determinantů: 6 21 21 91 = 105 ∆= determinant soustavy. Determinanty pro jednotlivé neznámé B0 a B1 jsou: - 95 -
2Yt 101,143 155,557 239,247 367,963 565,926 870,394
(3.27)
∆B0 =
34,19208 21 127,02576 91
6 34,19208 = 443,9383, ∆B1 = 21 127,02576 = 44,12088.
B0 = ∆B0 / ∆ ; B1 = ∆B1 / ∆ . Tedy B0 = 4,22798 , b0 = eB0 = 68,5788 a B1 = 0,4201998, b1 = eB1 = 1,52226. Rovnice odhadnuté linearizované funkce je: Zt = 4,22798 + 0,4201998t a rovnice regresní exponenciální funkce je: Yt = 68,5788 * 1,52226 t . (3.28) Zisk společnosti v 7. a 8. období odhadneme dosazením do některé z předchozích rovnic: Y7 = 1299,008, Y8 = 1977,428. V předposledním sloupci tab. 3.6 jsou uvedené hodnoty Yt (vyrovnané hodnoty), které byly získány dosazením do (3.28) postupně pro všechna t. Výsledky se dají zpřesnit, využije-li se vážená metoda nejmenších čtverců (VMNČ). Normální rovnice mají tvar (3.21). Pomocné výpočty uvedeme až v konečných hodnotách (wt = yt2): n = 6 , ∑t = 21, ∑yt = 2300, ∑yt2 = 1304794, ∑tyt2 = 6920276, ∑t2 yt2 = 38087004, ∑yt2 ln yt = 8441498, ∑tyt2 ln yt = 45367201. Soustava normálních rovnic pro náš příklad má tvar: 1304794B0 + 6920276B1 = 8441498 6920276B0 + 38087004B1 = 45367201. Determinant soustavy je : 1304794 690276 ∆ = 6920276 38087004 8441498 ∆B0 = 45367201
6920276 38087004
1304794 8441498 ∆B1 = 6920276 45367201
= 1,805475 * 1012
= 7,55781*1012 , B0 = ∆B0 / ∆ = 4,18605; = 7,77355*1011 , B1 = ∆B1 / ∆ = 0,43055,
b0 = eB0 = 65,7625, b1 = eB1 = 1,538. Rovnice linearizované funkce odhadnuté váženou metodou nejmenších čtverců je: ln Yt = 4,18605 + 0,43055t . Rovnice exponenciální funkce pak (zaokrouhleno): Yt = 65,7625*1,538 t . Vyrovnané hodnoty 2Yt jsou uvedeny v posledním sloupci tab. 3.6. Zisk společnosti pro 7. a 8. rok bude: Y7 = 1278,914, Y8 = 2058,871. Spočtěme ještě pro obě regresní exponenciály hodnotu veličiny M.S.E. Pro první rovnici M.S.E. = 156,408, pro druhou rovnici M.S.E.= 94,497. Vidíme, že u vážené metody - 96 -
nejmenších čtverců vyšla hodnota M.S.E. podstatně nižší. Můžeme také srovnat prognózy pro t = 7 a 8 pro různé způsoby předpovědi (tab. 3.7). Tabulka 3.7 Metoda Průměrný koeficient růstu Klasická MNČ Vážená MNČ
Y7 1305,702 1299,008 1278,914
Y8 1966,387 1977,428 2058,871
3.2.2 Mechanické vyrovnávání časových řad Dosud jsme věnovali pozornost popisu trendu časové řady tzv. analytickými metodami vyrovnávání. Tyto metody vycházejí z toho, že celou časovou řadu, kterou máme shromážděnou v časových okamžicích t = 1, 2, ...,n, vyrovnáme najednou, tj. „proložíme“ jednou trendovou funkcí všechna empirická pozorování, která máme k dispozici. Někdy je hledání vhodné trendové funkce dosti obtížné a také vhodná trendová funkce může být dosti složitá. Při vyrovnávání časové řady je však možno zvolit i jiný způsob, při kterém rozsah období, v jehož rámci bude časová řada vyrovnána, byl zvolen výrazně kratší, než je celé minulé období. Tento jiný způsob vyrovnávání se nazývá metoda klouzavých průměrů (někteří autoři nazývají tento způsob mechanické vyrovnávání časových řad). Metoda klouzavých průměrů spočívá v tom, že posloupnost empirických pozorování nahradíme řadou průměrů vypočítaných z těchto pozorování. Každý z těchto průměrů reprezentuje určitou skupinu pozorování. Název „klouzavý“ průměr vznikl z toho, že při postupném výpočtu průměrů postupujeme (kloužeme) vždy o jedno pozorování kupředu, přičemž zároveň poslední pozorování ze skupiny, z níž byl průměr vypočítán, vypouštíme. Důležitou otázkou, kterou je nutno vyřešit, je stanovení počtu pozorování, ze kterých jsou jednotlivé klouzavé průměry počítány. Tento počet budeme nazývat klouzavá část období interpolace a značit symbolem m = (2p + 1) pro m < n, kde n je celkový počet pozorování v analyzované časové řadě. Nutno konstatovat, že volba rozsahu klouzavé části období interpolace je obtížná a nelze ji stanovit exaktními statistickými postupy. V praxi jsou většinou zvoleny klouzavé části menší délky, např. se volí p = 2, 3, 4, tj. m = 5, 7 nebo 9. Můžeme se setkat i s klouzavými částmi většího rozsahu. Předpokládáme, že m je liché číslo, takže p = (m - 1) / 2 je číslo sudé číslo. Středním bodem prvé klouzavé části je proto v pořadí (p + 1)-vý bod , protože před ním a za ním leží po p časových bodech. Analogicky lze postupovat až po poslední klouzavou část, která má střední bod s pořadovým číslem n - p. Prosté klouzavé průměry: Úseky časové řady o délce (2p + 1) vyrovnáme lineárním trendem, každý úsek nahradíme prostým aritmetickým průměrem p y t − p + y t − p +1 +"+ y t + p −1 + y t + p 1 yt = y t +i = , t = p + 1, p + 2,..., n - p (3.29) ∑ 2 p + 1 i =− p 2p + 1 Vidíme, že p hodnot na začátku a p hodnot na konci časové řady zůstane nevyrovnáno. - 97 -
Příklad 3.5 V tab. 3.8 je uvedena časová řada, která udává roční objemy vývozu piva (v mil l) za posledních 12 let. Vyrovnejte řadu pomocí 3-členných a 5-členných klouzavých průměrů. Tabulka 3.8 t yt 1 2 3 4 5 6 7 8 9 10 11
215 219 222 235 202 207 187 204 174 172 201
3-členné klouzavé průměry 218,67 225,33 219,67 214,67 198,67 199,33 188,33 183,33 182,33 215
12
272
-
5-členné klouzavé průměry 218,6 217 210,6 207 194,8 188,8 187,6 204,6 -
V tab. 3.8 je 3-členný klouzavý průměr pro t = 2 je (215 + 219 + 222) / 3 = 218,67 3-členný klouzavý průměr pro t = 3 je (219 + 222 + 235) / 3 = 225,33 atd. První a poslední hodnota časové řady zůstane nevyrovnána. 5-členný klouzavý průměr pro t = 3 je (215 + 219 +222 + 235 + 202) / 5 = 218,6, pro t = 4 je (219 + 222 + 235 + 202 +207) / 5 = 217,0 atd. První dvě a poslední dvě hodnoty časové řady zůstanou nevyrovnány. Na obr. 3.1 je znázorněn průběh empirických hodnot časové řady 3-členné klouzavé průměry. 280 260
yt
240 yt
220
klouzavé průměry
200 180 160 1
2
3
4
5
6
7
8
9
10 11 12
t
Obr. 3.1 - 98 -
Vážené klouzavé průměry: Při výpočtu klouzavých průměrů řádu r a délky m vyrovnáváme úseky časové řady o délce m = 2p + 1 polynomem r-tého stupně; každý úsek nahradíme váženým aritmetickým průměrem: p
yt =
∑w y
i =− p
i
t +i
, t = p + 1, p + 2, ..., n - p.
(3.30)
Hodnoty vah wi závisí na řádu r klouzavých průměrů a platí: p
∑w
i =− p
i
= 1 , wi = w-i , i = 0, 1, 2, ..., p;
(3.31)
tedy váhy jsou symetrické. Např. pro r = 2 máme 3 wi = [(3m2 − 7) − 20i 2 ] , i = -p, ..., 0, 1, ..., p (3.32) 4 m( m 3 − 4) V tab. 3.9 uvádíme přehledně váhy wi pro různá p a m. Tabulka 3.9: p 1 2 3 4
m 3 5 7 9
wi 1/3(0, 3, 0) 1/35(-3, 12 , 17, 12, -3) 1/21(-2, 3, 6, 7, 6, 3, -2) 1/231(-21, 14, 39, 54, 59, 54, 39, 14, -21)
Příklad 3.6 V tab. 3.10 jsou uvedeny měsíční hodnoty zásob jistého produktu. Vyrovnejme tuto řadu 5-člennými klouzavými průměry 2. řádu (r = 2). Řešení: Řádu r = 2 a délce m = 5 klouzavých průměrů odpovídají váhy -3/35, 12/35, 17/35, 12/35, -3/35 (tab. 3.9). Třetí hodnotu časové řady vyrovnáme klouzavým průměrem: − 3 * 179 + 12 * 162 + 17 * 168 + 12 * 182 − 3 * 161 = 170,4 35 Čtvrtou hodnotu pak vyrovnáme: − 3 * 162 + 12 * 168 + 17 * 182 + 12 * 161 − 3 * 163 = 173,343 35
- 99 -
atd.
Tabulka 3.10 t
yt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
179 162 168 182 161 163 180 210 190 200 200 211 210 193 195 233 229 248 225 227
5-členné vážené klouzavé průměry 170,4 173,343 166,657 162,480 185,229 197,743 200,286 194,771 203,771 209,371 206,657 195,4 199,714 215,886 236,714 237,543 -
- 100 -
4. KAPITOLY Z HOSPODÁŘSKÉ STATISTIKY Definice 4.1
Hospodářská statistika
Hospodářská statistika se zabývá popisem a analýzou ekonomických jevů a procesů pomocí ukazatelů, které definuje. Jejím cílem je tedy nalézt způsoby měření ekonomické skutečnosti a jejího vyhodnocení. Ukazatele jsou veličiny, se kterými se denně setkáváme: v denním tisku, v rozhlase, v televizi. Seznamujeme se s takovými pojmy jako hrubý domácí produkt (HDP), dovoz, vývoz, produktivita práce, průměrná mzda apod., které jsou vždy doprovázeny čísly, charakterizujícími velikost odpovídajícího ekonomického jevu, resp. vývoj daného jevu. Dovídáme se, že např. HDP vzrostl o 4,5%, saldo zahraničního obchodu dosáhlo (-160) mld. Kč, průměrná nominální mzda vzrostla o 10%, roční míra inflace byla 8,8% a zároveň se zpravidla seznamujeme s tím, zda tyto hodnoty máme hodnotit kladně či záporně, v jakých souvislostech a za jakých podmínek. Všechna tato čísla jsou výsledkem práce statistiků, konkrétně statistiků v oblasti hospodářství. 4.1 Ukazatel jako statistická veličina Definice 4.2
Ukazatel
Ukazatel je specifickou statistickou veličinou popisující určitou sociálněekonomickou skutečnost. Každý ukazatel má tedy svůj věcný obsah a zároveň svoji formálně logickou konstrukci, která ho řadí mezi statistické veličiny. Chceme-li ukazatel definovat, musíme se zaměřit nejen na jeho předmětnou, ale i logickou definici. Podíváme-li se na ukazatel z předmětného (obsahového) hlediska je zřejmé, že se jedná o pojmy, které používá i ekonomická teorie. Ekonomická teorie definuje své pojmy a jejich vztahy verbálně, často bez ohledu na to, zda jsou tyto pojmy a vztahy kvantifikovatelné či nikoliv. Hospodářská (ekonomická) statistika ale naopak potřebuje reálně existující ekonomické jevy a procesy měřit, vyjádřit jejich velikost, intenzitu pomocí číselných charakteristik - ukazatelů. Pojmům ekonomické teorie je tedy nutno přiřadit jejich číselné charakteristiky tak, aby daný ukazatel co nejlépe odrážel skutečnost, popisovanou daným pojmem. Při konstrukci ukazatelů je tedy třeba mít na zřeteli přiměřenost vypovídací schopnosti ukazatelů obsahové náplni pojmů ekonomické teorie. Logický postup "pojem ----> ukazatel" není v praxi vždy uplatňován. Často se můžeme setkat s opačným postupem, tedy uměle vytvořenému ukazateli se přiřadí název a vypovídací schopnost, která ne vždy odpovídá podstatě měřeného pojmu. Využití takového ukazatele v praxi je velmi problematické, neboť dezorientuje uživatele, který zpravidla nezkoumá konstrukci ukazatele, ale podle názvu usuzuje na jeho vypovídací schopnost. Kvalita vztahu pojmu ekonomické teorie a statistického ukazatele zároveň předpokládá, že ekonomická teorie se bude zamýšlet nad možnostmi kvantifikace pojmů, které definuje. - 101 -
Formálně logická definice ukazatele nás vede k problému vztahu základních statistických pojmů jako je statistická jednotka, statistický znak, statistický soubor a pojmu ukazatele. Je zřejmé, že tyto pojmy spolu souvisejí, ale jejich vzájemný vztah není zřetelný. Definice 4.3
Statistický ukazatel
Statistický ukazatel je statistickou charakteristikou, je tedy funkcí hodnot znaku definovaných na statistických jednotkách, resp. je funkcí těchto charakteristik. Statistický ukazatel je tedy specifickým typem statistických charakteristik, neboť využívá jen omezeného počtu funkčních předpisů, statistických jednotek, statistických znaků a to těch, které mají sociálně-ekonomický charakter. Toto ostatně plyne ze specifického postavení pojmu "ukazatel" v české terminologii. Ukazatelem se v tomto smyslu vždy rozumí veličina vypovídající o nějaké ekonomické hromadné skutečnosti. V ostatních disciplinách se pojmu ukazatel nepoužívá. V terminologii "západní" statistiky lze najít překladově odpovídající termín "indicator", nebo "indicateur", jejichž význam však není totožný s obsahem našeho pojmu "ukazatel". Výše uvedených cizojazyčných termínů se používá spíše ve významu rozhodující veličiny pro charakterizování určitého stavu nebo jevu. Pro veličiny odpovídající významově našemu ukazateli, nepoužívá "západní" statistika speciálních termínů, ale obecných termínů typu veličina, statistika, proměnná apod. Z toho, co bylo řečeno o podstatě ukazatele jako statistické charakteristiky a pojetí termínu ukazatel v "západní" statistice plyne, že ukazatel je proměnnou veličinou. Zároveň víme, že každá proměnná nabývá vždy určitých hodnot v závislosti na své definici a že o ukazatelích se vždy hovoří v souvislosti s číselnými hodnotami. Vzniká tedy otázka, jak z ukazatele jako proměnné veličiny získáme číslo, tj. konkrétní hodnotu ukazatele, neboli údaj. Statistický ukazatel je tedy statistickou charakteristikou a je zřejmé, že toto konstatování implicitně předpokládá, že statistický soubor je obecně prostorově a časově vymezen. Vezmeme-li např. ukazatel"odpracovaná doba", pak tento ukazatel je v metodických předpisech vymezen jako úhrn pracovní doby odpracované dělníky (resp. pracovníky) podniku (resp. závodu) v měsíci (resp. čtvrtletí, roce). Jde tedy o popis ukazatele, kde je obecně definován čas - měsíc a prostor - podnik. Jestliže přesně definujeme tento čas a prostor (např. únor 1997, podnik ALFA), dostaneme konkrétní hodnotu ukazatele, tj. údaj. Ukazatel je tedy proměnná veličina a hodnota ukazatele je hodnotou této proměnné veličiny, která vzniká konkrétním vymezením času a prostoru. 4.1.1 Typy a vlastnosti ukazatelů Ukazatele členíme na dvě základní skupiny: a) primární - prvotní b) sekundární - odvozené
- 102 -
Definice 4.4
Primární ukazatele
Primární ukazatele jsou ukazatele přímo zjišťované, neodvozené. Jedná se o ukazatele, u kterých lze jednoznačně určit typ charakteristiky, statistické jednotky i statistického znaku. Např. odpracovaná doba, počet pracovníků k určitému datu, stav zásob apod. Definice 4.5
Sekundární ukazatele
Sekundární ukazatele jsou ukazatele, které mohou vzniknout trojím způsobem: - jako funkce (zpravidla jako rozdíl nebo podíl) různých primárních ukazatelů: např. zisk, přidaná hodnota, doba obratu zásob apod. - jako funkce různých hodnot téhož primárního ukazatele. Zde je možné jmenovat všechny časové průměry, ukazatele struktury, hrubého obratu apod. - jako funkce dvou primárních ukazatelů, kde alespoň u jednoho pracujeme s více hodnotami, resp. jako funkce více než dvou primárních ukazatelů: např. relativní ukazatele, kde alespoň jeden je časovým průměrem (produktivita práce na pracovníka, vybavenost práce apod.), resp. více primárních ukazatelů (ziskovost produkce, podíl přidané hodnoty na celkové produkci apod.). V souvislosti s členěním ukazatelů na primární a sekundární vzniká často otázka, kam zařadit indexy, absolutní rozdíly a jiné podobné míry rozdílnosti. Jsou tyto veličiny také ukazateli nebo nikoliv? Indexy, absolutní rozdíly a další míry rozdílnosti jsou nástroji srovnávání a nástroji výsledků srovnávání. Ukazatele samy o sobě vypovídají o nějaké skutečnosti, ale nehodnotí je, zatímco indexy a absolutní rozdíly (přírůstky) měří rozdílnost dvou hodnot téhož ukazatele, analytické míry rozdílnosti tuto skutečnost vyhodnocují. Vedle třídění ukazatelů na primární a sekundární je důležité i členění ukazatelů na absolutní a relativní. Definice 4.6
Absolutní ukazatele
Absolutní ukazatele vyjadřují velikost určitého jevu bez vztahu k jinému jevu. Do této skupiny patří všechny ukazatele primární, ale i některé ukazatele sekundární (časové průměry, ukazatele hrubého obratu, rozdílové ukazatele jako je zisk, přidaná hodnota apod.).
- 103 -
Definice 4.7
Relativní ukazatele
Relativní ukazatele vyjadřují velikost jednoho jevu na měrnou jednotku jiného jevu. Relativní ukazatele jsou vždy sekundární, neboť vznikají jako podíl absolutních (primárních i sekundárních) ukazatelů. Jestliže členění ukazatelů na primární a sekundární, resp. na absolutní a relativní je vyčerpávajícím, pak členění stejných veličin na extenzitní a intenzitní opomíjí skupinu tzv. strukturních ukazatelů. Extenzitní ukazatele (ukazatele množství) jsou ukazatele absolutní, intenzitní ukazatele (ukazatele úrovně) však nepokrývají celou skupinu relativních ukazatelů, ale pouze ty, které vyjadřují intenzitu určitého jevu. Vyčerpávající popis ukazatelů tedy získáme, připojíme-li k extenzitním a intenzitním ukazatelům ještě ukazatele struktury. Členění ukazatelů na extenzitní a intenzitní je důležité především v teorii indexů. Ukazatele se dále zpravidla třídí na okamžikové a intervalové. Toto členění již definuje vlastnost ukazatele a předurčuje způsob jeho shrnování v čase. Toto třídění není opět vyčerpávajícím, týká se pouze jednoznačně primárních ukazatelů a rozdílových sekundárních ukazatelů (tj. absolutních ukazatelů). U ostatních sekundárních ukazatelů (relativních ukazatelů a ukazatelů struktury) nelze definovat, zda ukazatel je okamžikový nebo intervalový, ale pouze určit jeho chování v čase, tj. zda s prodloužením časového intervalu se bude jeho hodnota měnit (růst či klesat), či nikoliv. Vlastnosti ukazatelů: Výše uvedené členění ukazatelů s hlediska jejich chování v čase bývá již spíše považováno za popis vlastností ukazatele, neboť skutečnost, zda ukazatel je okamžikový či intervalový je důležité pro operace s ukazateli. Za typickou vlastnost ukazatelů je však považován jejich - stejnorodost, - srovnatelnost, - shrnovatelnost. Definice 4.8
Stejnorodost
Stejnorodost ukazatelů je dána povahou statistických jednotek; kriterium stejnorodosti je pak statistický znak, který na daných jednotkách sledujeme. Stejnorodost ukazatelů je relativní a závisí na způsobu vymezení souboru jednotek pro daný účel zkoumání. To, co se v jedné situaci jeví jako soubor homogenních jednotek, je v jiné situaci souborem nestejnorodých jednotek. Obecně lze říci, že absolutní ukazatel je stejnorodý tehdy, jestliže má věcný smysl shrnovat jeho dílčí hodnoty součtem; relativní ukazatel je stejnorodý tehdy, když jsou stejnorodé oba absolutní ukazatele, z - 104 -
nichž se skládá, resp. lze-li dílčí hodnoty relativního ukazatele shrnovat průměrem. Pokud toto neplatí, je ukazatel nestejnorodý. Definice 4.9
Srovnatelnost/nesrovnatelnost
Za srovnatelné považujeme takové ukazatele, jejichž srovnáním, resp. srovnáním jejich hodnot získáme relevantní veličinu, tj. relevantní relativní ukazatel, resp. index (např. ukazatel produktivity práce, strukturní ukazatele, časové, prostorové a věcné indexy apod.). Za nesrovnatelné tedy považujeme takové ukazatele, jejichž srovnání, resp. srovnání jejich hodnot nemá smysl z hlediska rozdílného věcného, časového či prostorového vymezení statistických jednotek (např. nemá smysl konstruovat relativní ukazatel srovnávající počet narozených a obrat zahraničního obchodu, srovnávat cenu dvou naprosto odlišných výrobků apod.). Definice 4.10 Shrnovatelnost Shrnovatelnost vyjadřuje schopnost ukazatele určit jeho celkovou hodnotu na základě jeho dílčích hodnot. Z tohoto hlediska rozlišujeme ukazatele - přímo srovnatelné, - nepřímo srovnatelné, - neshrnovatelné. Definice 4.11
Přímo shrnovatelné ukazatele
Přímo shrnovatelné jsou takové ukazatele, jejichž souhrnnou hodnotu můžeme určit výlučně z dílčích hodnot daného ukazatele (např. odpracovanou dobu za rok určíme jednoznačně na základě znalosti měsíčních hodnot). Definice 4.12 Nepřímo srovnatelné ukazatele Nepřímo srovnatelné ukazatele jsou takové ukazatele, kde k určení souhrnné hodnoty daného ukazatele musíme znát nejen dílčí hodnoty tohoto ukazatele, ale i dílčí hodnoty jiného ukazatele (typické pro všechny relativní ukazatele). Definice 4.13
Neshrnovatelné ukazatele
Neshrnovatelné jsou takové ukazatele, kde souhrnnou hodnotu daného ukazatele nelze určit ani při znalosti dílčích hodnot daného ukazatele, ale i dalších ukazatelů. Souhrnnou hodnotu ukazatele můžeme určit výlučně na základě znalosti individuálních
- 105 -
dat (jedná se o malou skupinu ukazatelů, kde jako charakteristika vystupuje např. medián). Z podstaty časového, prostorového a věcného (druhového) vymezení ukazatele, resp. jeho hodnoty plyne, že rozlišujeme časové, prostorové a druhové shrnování hodnot ukazatelů a zároveň platí, že neexistuje obecný princip shrnování hodnot určitého ukazatele, ale že dílčí hodnoty se mohou shrnovat v čase, v prostoru nebo druhově (např. okamžikové ukazatele se v čase shrnují průměrem, v prostoru součtem). Shrnování hodnot ukazatelů v prostoru a druhově naráží na problém tzv. prostorové, resp. druhové podmíněnosti ukazatelů. Touto vlastností rozumíme závislost rozsahu sledovaného pojmu na šíři prostorového, resp. druhového vymezení. Typickým prostorově i druhově podmíněným pojmem je pojem výrobek (to co je výrobkem z hlediska závodu - nižšího prostorového celku, nemusí být výrobkem z hlediska podniku - vyššího prostorového celku. Analogicky: to co je výrobkem z hlediska určitého oboru, nemusí být výrobkem z hlediska nadřazeného oboru). Tento problém se však netýká pouze pojmu výrobek, ale je v postatě vlastností všech ukazatelů, které vyjadřují počet jednotek vzniklých nebo zaniklých v daném čase a prostoru. Snadno to pochopíme na jednoduchém příkladě, jímž je počet přistěhovalých do určitého prostoru (např. kraje) během sledovaného období. Počet přistěhovalých do určitého prostorového celku, je evidentně pojmem závislým na prostorovém vymezení, neboť sečteme-li počet přistěhovalých do jednotlivých okresů kraje, dostaneme obecně hodnotu vyšší, než je počet přistěhovalých do daného kraje a to o počet těch, kteří se stěhovali mezi okresy kraje. Tedy k
x ≤ ∑ xi ,
(4.1)
i =1
kde x je počet přistěhovalých do kraje, xi - počet přistěhovalých do okresů, pro i = 1, 2, ..., k. Chceme-li, aby platila rovnost, musíme vyloučit tzv. vnitřní obrat, tj. v daném případě počet těch, kteří se stěhovali mezi okresy daného kraje, tj. k
k
n
k
x = ∑ x i − ∑ ∑ x ij = ∑ x *i , i =1
i =1 j=1
(4.2)
i =1
kde xij jsou přistěhovalí do i-tého okresu daného kraje z j-tého okresu daného kraje, přičemž i<>j pro i = 1, 2, ..., k, j = 1, 2, ..., k, xi*- přistěhovalí do okresů daného kraje z jiných krajů, i = 1, 2, ..., k. Totéž platí pro počet vystěhovalých či pro podobné typy ukazatelů. Specifickým případem je shrnování dílčích ukazatelů produkce a nákladů, neboť se jedná o ukazatele spojené s prostorově, resp. druhově vymezeným pojmem "výrobek". Obecný vztah mezi souhrnnou hodnotou ukazatele produkce, resp. nákladů odpovídá výše uvedenému vztahu (4.2).
- 106 -
Příklad 4.1 Textilní podnik má 2 závody: přádelnu a tkalcovnu. Produkce přádelny je určena jen pro spotřebu v tkalcovně daného podniku. Vyrobená příze je tedy výstupem (výrobkem) z hlediska závodu, ale nikoliv z hlediska podniku. Chceme-li zjistit celkovou produkci (celkové náklady) podniku, musíme od součtu produkce (nákladů) obou závodů odečíst hodnotu vnitřního obratu (tj. hodnotu produkce přádelny). Konkrétní data jsou v tab.4.1. Tabulka 4.1 Závod
Mezispotřeba
Celkové náklady
Celková produkce
Přádelna
50
100
120
Tkalcovna
180
250
300
Jestliže víme, že přádelna předává veškerou svou produkci tkalcovně. pak hodnota produkce podniku bude 300 (tj. 120 + 300 - 120), celkové náklady budou 230 (tj. 100 + 250 - 120) a celková mezispotřeba pak 110 (tj. 50 + 180 - 120). Uvedený příklad dokumentuje v praxi velmi důležitý problém shrnování ukazatelů produkce a nákladů na úrovni národního hospodářství, resp. jeho částí, který vede k vymezení ukazatelů typu finálního produktu a hrubého obratu.
4.1.2 Zdroje ekonomických dat v ČR Každý, kdo pracuje s ekonomickými daty, by měl mít přehled o tom, kde je možné získat základní kvantitativní údaje týkající se národního hospodářství a jeho jednotlivých částí (odvětví, sektorů, věcně vymezených oblastí apod.). Za nejvýznamnější instituce poskytující veřejnosti data ve formě vybraných publikací považujeme Český statistický úřad (ČSÚ), jako základní subjekt státní statistické služby a Českou národní banku (ČNB). ČSÚ je institucí poskytující oficiální statistické údaje ze všech oblastí národního hospodářství. V rámci svého edičního plánu na příslušný rok nabízí uživatelům kolem 130 různých (z hlediska rozsahu, obsahu a periodicity) publikací rozdělených do 26 tematických řad. Ediční plán, stejně tak jako i ostatní publikace v něm uvedené lze získat v prodejně publikací v budově ČSÚ, Sokolovská 142, Praha 8. Druhým bohatým zdrojem ekonomických dat jsou publikace ČNB. K dispozici jsou především - indikátory měnového vývoje - měsíční periodicita, - zpráva o vývoji platební bilance - roční periodicita, - výroční zpráva - roční periodicita.
- 107 -
Uvedené publikace jsou velice kvalitní jak po stránce datové, tak i po stránce hodnocení hospodářského a měnového vývoje ve sledovaném období. Měsíční bulletiny (ve formě dvojlistů) jsou vždy kromě standardních číselných informací věnovány analýze určitého ekonomického jevu (kapitálového trhu, inflace, zahraničního obchodu, státního rozpočtu apod.); tyto komentáře jsou pak doplněny krátkými aktuálními zprávami. Čtvrtletní přehledy a výroční zprávy jsou pak rozsáhlejší publikace, dokumentující vývoj v uplynulém období. Uvedené publikace lze získat na odboru veřejných informací ČNB. 4.2 Indexy a absolutní rozdíly jako nástroj srovnávání Již dříve jsme uvedli, že veličina, která kvantitativně popisuje určitou sociálně ekonomickou skutečnost se nazývá ukazatelem. V praxi však zpravidla nepracujeme s jednotlivými izolovanými hodnotami určitého ukazatele, ale snažíme se zjistit, zda hodnotou ukazatele vyjádřená ekonomická skutečnost znamená určitou změnu oproti téže skutečnosti v minulém období či v jiné územní či organizační jednotce. To znamená, že nás nezajímá pouze jedna hodnota daného ukazatele, ale i její relativní, resp. absolutní velikost ve vztahu k hodnotě téhož ukazatele v jiné situaci. Zajímá nás tedy kolikrát, resp. o kolik je hodnota určitého ukazatele menší či větší než hodnota téhož ukazatele v jiné situaci. Chceme-li vědět, kolikrát (o kolik %) je jedna hodnota ukazatele menší/větší než jiná, budeme obě hodnoty srovnávat podílem, budeme-li chtít vědět, o kolik jednotek je jedna hodnota ukazatele větší/menší než druhá, budeme srovnávat rozdílem. Podílem dvou hodnot téhož ukazatele získáme index, rozdílem pak absolutní přírůstek. Obě tyto míry rozdílnosti jsou rovnocenné a nezastupitelné, ale vzájemně se doplňují. Definice 4.12
Index, absolutní přírůstek
Index, který je relativní mírou rozdílnosti, je bezrozměrné číslo udávající kolikrát je hodnota v čitateli větší než hodnota ve jmenovateli. Absolutní přírůstek pak udává, o kolik měrných jednotek je hodnota menšence větší než hodnota menšitele. Např. jestliže zisk podniku A v roce 1995 činil 180 mil. Kč a v roce 1996 pak 200 mil.Kč, víme, že zisk podniku A vzrostl 1,11 krát, neboli o 11%, tj. o 20 mil. Kč. Vzhledem k tomu, že víme, že hodnota ukazatele vzniká jeho konkrétním časovým, prostorovým, resp. druhovým vymezením, pak index je podíl dvou hodnot téhož ukazatele, které se liší pouze buď časovým, nebo prostorovým, nebo druhovým vymezením a z ostatních dvou hledisek jsou vymezeny stejně. Tehdy mluvíme o časovém, prostorovém nebo druhovém indexu. Budeme-li srovnávat zisk podniku A v roce 1996 a v roce 1995, konstruujeme časový index, budeme-li srovnávat zisk podniku A v roce 1996 se ziskem podniku B v témže roce, sestrojíme prostorový index, a budeme-li srovnávat zisk dosažený při výrobě výrobku X a výrobku Y v podniku A v roce 1996, získáme druhový index. Analogicky to platí i pro absolutní přírůstky. - 108 -
Výše uvedený příklad srovnání dvou hodnot téhož ukazatele podílem, resp. rozdílem je elementárním příkladem srovnání nevyvolávajícím diskusi o vhodnosti konstrukce takové míry rozdílnosti. Problémy s konstrukcí vhodného indexu nastávají v okamžiku, kdy chceme hodnotit dynamiku určitého jevu při nutnosti shrnovat jeho dílčí hodnoty, tj. v okamžiku, kdy chceme hodnotit, jak se změnila průměrná cena určitého výrobku, úroveň cen různých výrobků, vyrobené množství rozdílných výrobků apod. Odpověď na tyto otázky by měl dát další výklad. Následující obrázek znázorňuje přehledně základní klasifikace indexů (obr.4.1).
Obr. 4.1 indexy množství
souhrnné
úrovně
individuální
jednoduché
individuální
složené
jednoduché
souhrnné
složené
Členění indexů v první linii na indexy množství a indexy úrovně je členěním na indexy extenzitních a intenzitních ukazatelů a vychází tedy jednoznačně z typu ukazatele, jehož dynamiku máme charakterizovat. Ve druhém stupni dělíme indexy na individuální a souhrnné: kriteriem členění je stejnorodost nebo nestejnorodost ukazatele, jehož dynamiku chceme měřit. Individuální indexy jsou indexy stejnorodých (extenzitních i intenzitních) ukazatelů, souhrnné indexy jsou indexy nestejnorodých (extenzitních i intenzitních) ukazatelů. Indexy stejnorodých ukazatelů třídíme dále na indexy jednoduché a složené. Jednoduché indexy (které jsou vždy individuální) jsou indexy, v nichž neprovádíme shrnování (problém stejnorodosti či nestejnorodosti tu nehraje roli): složené indexy jsou indexy stejnorodého ukazatele, kde shrnujeme dílčí hodnoty sledovaného ukazatele. Indexová teorie používá pro obecné označení ukazatelů, s nimiž pracuje, standardní symboly, které jasně rozlišují extenzitní a intenzitní ukazatel. Obecně jsou definovány tři ukazatele, dva extenzitní označené symboly q a Q a jeden intenzitní p, pro který platí p = Q / q.
(4.3)
Toto označení je tradiční a vychází ze vztahů mezi cenou, hodnotou a množstvím. 4.2.1 Jednoduché (individuální) indexy Tyto indexy jsou nejjednoduššími veličinami, které bezprostředně srovnávají dvě hodnoty téhož ukazatele. Tyto hodnoty nejsou nijak podrobněji členěny ani shrnovány. Budeme-li srovnávat hodnotu intenzitního ukazatele p v situaci 1 (v
- 109 -
časovém srovnání nazývané běžným obdobím b.o. a v situaci O (v časovém srovnávání nazývané základním obdobím z.o.), obdržíme Ip =
p1 , p0
(4.4)
Analogicky můžeme konstruovat jednoduché indexy i pro extenzitní ukazatele Q a q, tzn., že IQ =
Q1 Q0
(4.5)
Iq =
q1 . q0
(4.6)
a
Ze vztahu (4.3) plyne, že IQ = Iq .Ip.
(4.7)
Odpovídající absolutní přírůstky jsou: ∆p = p1 - pO ,
(4.8)
∆Q = Q1 - QO ,
(4.9)
∆q = q1 - qO.
(4.10)
Individuální jednoduché indexy (zde výlučně časové) se často vyskytují sdružené do delších časových řad. Tehdy mohou být příslušné indexy počítány vždy ke stejnému základu (např. k nejstarší hodnotě v časové řadě původních pozorování), nebo k proměnlivému základu (k bezprostředně předcházejícímu pozorování v časové řadě původních hodnot). V prvém případě jde o bazické indexy, ve druhém případě pak o indexy řetězové. Mějme hodnoty libovolného ukazatele, např. extenzitního ukazatele q v časové řadě po období 1, 2, ..., n. Zvolíme-li si za základ srovnání hodnotu ukazatele v situaci 1, tj. q1, pak můžeme konstruovat řadu bazických indexů ve tvaru q2 q3 qn , ," , . q1 q1 q1
(4.11)
Řetězové indexy srovnávající dvě za sebou jdoucí hodnoty budou ve tvaru q2 q3 qn , ," , . q1 q 2 q n −1
(4.12)
Ze vztahů (4.11) a (4.12) plyne, že bazické a řetězové indexy lze vzájemně přepočítávat, tj. že násobením řetězových indexů získáme indexy bazické a naopak dělením bazických indexů získáme indexy řetězové. Při dělení za sebou jdoucích bazických indexů ve vztahu (4.11) získáme odpovídající indexy řetězové, např. q3 q2 q3 : apod., = q1 q1 q 2
- 110 -
a při násobení řetězových indexů ve vztahu (4.12) získáme bazické, např.
odpovídající indexy
q2 q3 q4 q4 * * apod. = q1 q 2 q 3 q1 Příklad 4.2 V tabulce 4.2 máme časovou řadu HDP v mld. Kč (běžných cen) ČR v letech 1989 - 1995 Tabulka 4.2 Rok
1989
1990
1991
1992
1993
1994
1995
HDP
524,5
567,3
716,6
791,0
910,6
1037,5
1212,0
Pramen: Ukazatele sociálního a hospodářského vývoje ČR. ČSÚ, Praha 1996 Na základě údajů v tab. 4.2 můžeme s použitím vztahů (4.11) určit řadu bazických indexů se základem v roce 1989 a podle (4.12) pak určit řadu řetězových indexů tab.4.3). Tabulka 4.3 Rok
1989
1990
1991
1992
1993
1994
1995
basické indexy
100,0
108,2
136,6
150,8
173,6
197,8
231,1
řetězové indexy
-
108,2
126,3
110,4
115,1
113,9
116,8
Např. hodnota bazického indexu pro rok 1995 říká, že HDP v běžných cenách vzrostl v roce 1995 oproti roku 1989 o 131,1%; hodnotu řetězového indexu pro rok 1995 můžeme interpretovat jako 16,8% nárůst HDP v běžných cenách v roce 1995 oproti roku 1994. Lze se snadno přesvědčit, že platí vzájemné vztahy mezi řetězovými a bazickými indexy. Např. I92/89 = I92/91 .I91/9O .I9O/89 = 1,082 * 1,263 * 1,104 = 1,508 nebo např. I93/92 = I93/89 / I92/89 = 1,736 / 1,508 = 1,151.
4.2.2 Složené (individuální) indexy Složené individuální indexy jsou indexy stejnorodého extenzitního nebo intezitního ukazatele, které používáme za situace, kdy hodnoty daného ukazatele jsou členěny na dílčí a v rámci výpočtu indexu provádíme shrnování dílčích hodnot. Vzhledem k definici stejnorodosti platí, že dílčí hodnoty extenzitních ukazatelů Q a q shrnujeme součtem a dílčí hodnoty intenzitního ukazatele shrnujeme průměrem, resp.
- 111 -
dílčí hodnoty extenzitních ukazatelů, z nichž se intenzitní ukazatel skládá, shrnujeme součtem. Pro složený individuální index extenzitních ukazatelů Q, resp. q platí n
I
∑Q
=
∑Q
1,i
∑Q
0 ,i
i =1 n
i =1
, resp. .
n
I
∑q
=
∑q
1,i
∑q
0 ,i
i =1 n
i =1
(4.13) a (4.14)
Absolutní přírůstky odpovídající výše uvedeným indexům pak následujícího vztahu n
∆ ∆
n
= ∑ Q1,i − ∑ Q 0 ,i , resp.
∑Q ∑q
určíme podle
i =1
i =1
n
n
i =1
i =1
.
= ∑ q 1,i − ∑ q 0,1
(4.15) a (4.16)
Jak jsme již uvedli, shrnujeme dílčí hodnoty intenzitního ukazatele průměrem, což znamená, že složený individuální index intenzitního ukazatele bude podílem dvou hodnot průměru, resp. bude podílem dvou hodnot váženého aritmetického průměru dílčích hodnot intenzitního ukazatele p kde jako váhy vystupuje struktura extenzitního ukazatele q, resp. podílem dvou hodnot váženého harmonického průměru dílčích hodnot intenzitního ukazatele p, kde jako váhy použijeme strukturu extenzitního ukazatele Q. Tento index nazýváme indexem proměnlivého složení.
∑Q i =1 n
Ip =
p1 = p0
∑q i =1 n
∑q i =1
∑p
1,i
i =1
1,i
∑Q
q 1,i
i =1 n
n
∑q
1,i
∑Q i =1 n
n
n
n
= 0 ,i
i =1
1,i
=
n
∑p i =1
0 ,i
0 ,i
∑q i =1
Q 1,i
∑p i =1
1,i
n
q 0 ,i
∑Q
0 ,i
∑p
n
1,i
i =1 n
i =1
. 0 ,i
Q 0 ,i 0 ,i
(4.17) Absolutní přírůstek odpovídající indexu proměnlivého složení má tvar ∆ p = p1 − p 0 .
(4.18)
- 112 -
Příklad 4.3 V tab.4.4 máme k dispozici údaje o cenách stogramového balení taveného sýra ve dvou prodejnách (zpravodajských jednotkách) v březnu a dubnu roku 1998. Tabulka 4.4 Prodejna
počet prodaných ks
Cena (Kč za ks)
Tržba (Kč)
březen
duben
březen
duben
březen
duben
A
100
80
10
12
1000
960
B
50
60
8
5
400
300
Celkem
150
140
-
-
1400
1260
Individuální jednoduché indexy, resp. absolutní přírůstky nás informují o tom. jak se změnil objem prodeje (v kusech), cena uvažovaného zboží a tržba za toto zboží v každé z prodejen v dubnu oproti březnu. V prodejně A poklesl objem prodeje sledovaného zboží v dubnu oproti březnu o 20%, tj. o 20 kusů, neboť IqA = 80 /100 = 0,8, resp. DqA = 80 - 100 = - 20 kusů a v prodejně B vzrostl objem prodeje sledovaného zboží v dubnu oproti březnu o 20%, tj. o 10 kusů, neboť IqB = 60 / 50 =1,2, resp. DqB = 60 - 5 = 10 kusů. Cena sledovaného zboží vzrostla v prodejně A v dubnu oproti březnu o 20%, tj. o 2 Kč/kus, neboť IpA = 12 /10 = 1,2 resp. DpA = 12-10 = 2 Kč / kus a v prodejně B poklesla cena sledovaného zboží v dubnu oproti březnu 37,5%, tj. o 3 Kč/ks, neboť IpB = 5 / 8 = 0,625 , resp. DpB = 5 - 8 = -3 Kč/ks Tržba plynoucí z prodeje sledovaného zboží poklesla v prodejně A v dubnu proti březnu o 4%, tj. o 40 Kč, neboť IQA = 960:1000 = 0,8.1,2 = 0,96, resp. DQA = 960 - 1000 = -40 Kč a v prodejně B poklesla tržba za sledované zboží v dubnu proti březnu o 25%, tj. o 100 Kč, neboť IQB = 300 / 400 = 1,2.0,65 = 0,75, resp. DQA = 300 - 400 = -100 Kč. Individuální složené indexy nás informují o změně objemu prodeje, průměrné ceny a tržby za sledované zboží ve dvou prodejnách celkem. Objem prodeje sledovaného zboží v obou prodejnách celkem poklesl v dubnu oproti březnu o 6,7%, tj. celkem o 10 kusů, tedy
- 113 -
n
I
∑q
=
∑q
1,i
∑q
0 ,i
i =1 n
i =1
=
140 = 0,9333, resp. ∆ = 140 - 150 = -10 ks . 150
Průměrná cena sledovaného zboží poklesla v dubnu proti březnu o 3,6%, tj. v průměru o 33 haléřů/kus, tedy n
∑Q i =1 n
p1 Ip = = p0
∑q i =1 n
1,i
∑Q i =1 n
∑q i =1
1,i
0 ,i
1260 9 140 = = = 0,964, resp. ∆ p = 9,0 − 9,333 = −0,33Kč / kus. 1400 9,333 150
0 ,i
Tržba za prodané množství sledovaného zboží poklesla v dubnu oproti březnu o 10% , tj. o 140 Kč, tedy n
I
∑Q
=
∑Q
1,i
∑Q
0 ,i
i =1 n
i =1
=
1260 = 0,9, resp. ∆ Q = 1260 − 1400 = −140Kč. ∑ 1400
Z uvedených vztahů zároveň plyne, že I
∑Q
= Ip − I
∑q
= 0,964 * 0,9333 = 0,9 ,
což znamená, že změna celkové tržby je výsledkem změny průměrné ceny a změny prodaného množství celkem.
4.2.3 Souhrnné indexy Souhrnné indexy představují velmi širokou paletu různých měr, jejichž úkolem je charakterizovat změnu (dynamiku) nestejnorodého extenzitního či intenzitního ukazatele (např. změnu objemu různorodé produkce, celkovou změnu ceny různorodé produkce, celkovou změnu produktivity práce při výrobě různých výrobků. apod.). Základní problém koncepce souhrnných indexů tedy spočívá v tom, jak vyjádřit souhrnnou změnu veličiny, jejíž dílčí hodnoty nelze shrnovat (součtem, resp. průměrem) a to z důvodu věcné rozdílnosti těchto dílčích hodnot. Např. nelze shrnovat produkci vyjádřenou v naturálních jednotkách dvou či více výrobků, jsou-li tyto výrobky svou podstatou odlišné, resp. jsou vyjádřeny v různých měrných jednotkách. Analogicky nelze určit průměrnou cenu pro skupinu různých výrobků. - 114 -
Shrneme-li, pak hledáme alternativní řešení v situaci, kdy nelze dynamiku sledovaného ukazatele charakterizovat složenými individuálními indexy, tj. v situaci, kdy nelze sestrojit indexy extenzitních ukazatelů (4.13) a (4.14), resp. index proměnlivého složení (4.17) z důvodu nemožnosti sestavit veličinu q, resp. Q. Jestliže není možné z důvodu věcné odlišnosti shrnovat dílčí hodnoty extenzitních a intenzitních ukazatelů, lze pro charakterizování dynamiky určitého jevu zvolit přístup založený na průměrování změn dílčích hodnot sledovaného ukazatele vyjádřených pomocí individuálních jednoduchých indexů. Celá koncepce souhrnných indexů je proto založena na průměrování individuálních jednoduchých indexů nestejného extenzitního či intenzitního ukazatele a to formou prostého či váženého aritmetického, harmonického či geometrického průměru. V dalším výkladu se zaměříme jen na ty souhrnné indexy, které našly ve statistické praxi širší uplatnění a jsou všeobecně uznávány za souhrnné indexy s nejlepší vypovídací schopností, ačkoliv nevyhovují některým formálně logickým testům, jimiž zpravidla popisujeme vlastnosti indexů. Koncepce těchto indexů založená na průměrování individuálních jednoduchých indexů je platná jak pro indexy úrovně (cenové indexy), tak i pro indexy množství. Vzhledem k tomu, že se z historického hlediska jako první objevily souhrnné indexy cenové (úrovní), začneme výklad právě u nich. Souhrnné indexy úrovně: Souhrnnými indexy úrovně rozumíme obecně souhrnné indexy libovolného intenzitního nestejnorodého ukazatele, i když výklad těchto charakteristik zúžíme jen na problematiku souhrnných indexů cenových. Toto "omezení" přispěje k lepší srozumitelnosti výkladu s tím, že zde uvedené závěry jsou platné pro libovolný jiný nestejnorodý intenzitní ukazatel. Jak již bylo řečeno, je základem koncepce souhrnných indexů myšlenka průměrování změn (vyjádřených jednoduchými indexy) dílčích hodnot sledovaného ukazatele. V případě cenových indexů se zřejmě jedná o průměrování indexů cen jednotlivých výrobků s tím, že jako váhy vystupuje hodnota produkce ze základního období (situace O), nebo z běžného období (situace 1). Jednou z možností je použití váženého aritmetického průměru individuálních jednoduchých indexů cen, kde jako váhy použijeme strukturu produkce ze základního období. Obdržíme pak průměrovaný tvar tzv. Laspeyresova indexu n
I =
L p
∑I i =1 n
pi
∑p i =1
p 0 ,i q 0 , i , 0 ,i
(4.19)
q 0 ,i
který po úpravě můžeme přepsat do tzv. agregátního tvaru, z něhož jednoznačně vyplývá vypovídací schopnost Laspeyresova indexu. V agregátním tvaru Laspeyresova indexu ve formě
- 115 -
n
I =
L p
∑p
1,i
∑p
0 ,i
i =1 n
i =1
q 0 ,i (4.20) q 0 ,i
srovnáváme dvě cenové hladiny daného souboru zboží. Ve jmenovateli vztahu (4.20) je objem zboží definovaný v základním období oceněn cenami ze stejného období; jedná se tedy o reálnou veličinu. V čitateli tohoto výrazu je naopak hypotetická veličina, ve které je tentýž objem zboží oceněn cenami platnými v běžném období. Index (4.20) pak srovnává dva stejné objemy zboží oceněné různými cenami, resp. srovnává dvě cenové hladiny. Jinak řečeno, Laspeyresův index srovnává částky, které bychom za stejný objem zboží pořízeného v základním období vydali v běžném období a v základním období. Tato jasná a zřejmá vypovídací schopnost pak platí i pro statistickou službou publikovaný index spotřebitelských cen, který je počítán právě podle Laspeyresovy formule, konkrétně podle (4.19). Jestliže Laspeyresův index používá k průměrování individuálních jednoduchých indexů cen váhy ze základního období, pak je přirozené, že další možností je využít vah z běžného období. Index pak nebude mít tvar váženého aritmetického, ale váženého harmonického průměru individuálních jednoduchých cenových indexů. Tento se podle svého tvůrce nazývá Paascheho index. Tento index lze v průměrovém tvaru zapsat jako n
I =
P p
∑p i =1 n
∑
1,i
q 1,i (4.21)
p1,i q 1,i
i =1
I pi
a po úpravě převést do agregátního tvaru n
I =
P p
∑p
1,i
∑p
0 ,i
i =1 n
i =1
q 1,i .
(4.22)
q 1,i
Srovnáváme zde opět dvě cenové hladiny, ale tentokrát aplikované na stejné objemy pocházející z běžného období. Zjednodušeně můžeme říct, že Paascheho index srovnává částky, které bychom vydali za stejný objem zboží pořízeného v běžném a základním období. Vypovídací schopnost Laspeyresova a Paascheho indexu je analogická a vzhledem k tomu, že neexistuje důvod k preferenci váhového systému ze základního období proti váhovému systému z běžného období (resp. naopak), jsou oba indexy rovnocenné. Jejich hodnoty jsou samozřejmě různé. Tato skutečnost je důvodem desítky let existujícího problému, zda dynamiku cen charakterizovat Laspeyresovým či Paascheho indexem. Vzhledem k tomu, že k preferenci jednoho či druhého indexu nejsou racionální důvody, je nutné při informaci o tom, jak se vyvíjely ceny v určité
- 116 -
situaci doplnit poznámkou, který z uvedených dvou indexů byl použit, resp. zda změna cenové hladiny byla posuzována na množství ze základního či běžného období. Statistická teorie přirozeně nabízí řešení tohoto problému pomocí jiných typů indexů. Jedná se především o tzv. Loweho index, který sleduje změnu cenové hladiny na konstantním (hypotetickém) množství, které nepochází ani ze základního, ani z běžného období. Loweho index má v agregátním tvaru následující podobu: n
LW
Ip =
∑p
1,i
∑p
0 ,i
i =1 n
i =1
qi .
(4.23)
qi
I když se nám může Loweho index jevit jako ideální řešení sporu mezi Laspeyresovým a Paascheho indexem, nenašel Loweho index v praxi širší uplatnění a to z důvodu obtížné volby "neutrálních" vah. Další řešení dvojího hodnocení téže skutečnosti pomocí Laspeyresova a Paascheho indexu navrhl významný statistik FISHER a to formě geometrického průměru obou indexů. Fisherův cenový index má tedy tvar Ip = [LIP * PIp]1/2
(4.24)
Problémem širšího využití Fisherova indexu je jeho menší vypovídací schopnost; nelze ho totiž interpretovat jinak, než jako průměr výše uvedených indexů, a jako každý průměr má smysl tehdy, když se průměrované hodnoty od průměru příliš neliší. Fisherův index tedy neřeší nejzávažnější problém rozporu mezi Laspeyresovým a Paascheho indexem, jímž je bezesporu velká rozdílnost jejich hodnot. Uvedené indexy si vysvětlíme na několika jednoduchých příkladech. Příklad 4.4 V tab.4.5 jsou uvedeny údaje o objemu prodeje tří druhů zboží a jejich cenách v červnu 1997 a v červnu 1998. Máme charakterizovat celkovou změnu cen prodávaného zboží. Tabulka 4.5 Druh zboží
Objem prodeje (tis.Kč)
Cena (Kč / kus)
červen95 q0
červen 96 q1
červen95 p0
červen 96 p1
A
100
125
5
4
B
75
60
10
12
C
50
40
25
30
Chceme-li v tomto případě charakterizovat celkovou změnu cen prodávaného zboží, musíme použít souhrnného cenového indexu, neboť nelze v situaci, kdy se jedná o tři rozdílné výrobky, určit průměrnou cenu v každém ze sledovaných období. K
- 117 -
vyjádření souhrnné změny cen můžeme použít Laspeyresova nebo Paascheho cenového indexu. Pomocné výpočty jsou v tab.4.6. Tabulka 4.6 Druh zboží
pO,iqO,i
p1,iq1,i
pO,iq1,i
p1,iqO,i
A
500
500
625
400
B
750
720
600
900
C
1250
1200
1000
1500
Celkem
2500
2420
2225
2800
LIp =
2800 / 2500 = 1,120 ; PIp = 2420 / 2225 = 1,088,
FIp =
[1,120 * 1,088]1/2 = 1,104.
S využitím Lapeyresova indexu (4.20) určíme, že ceny prodávaného zboží vzrostly celkem o 12%; použijeme-li Paascheho indexu (4.22) zjistíme, že celková změna cen činila 8,8%. Fisherův index (4.24) informuje o 10,4% změně cen. Vzhledem k tomu, že se v praxi nepočítají všechny tři indexy, ale vždy jen jeden, uveďme si ke každému indexu odpovídající interpretaci. Laspeyresův index: Uvažujeme-li objem prodeje na úrovni základního období, pak ceny vzrostly v červnu 1998 oproti červnu 1997 o 12%. Tato změna znamená, že zákazníci museli v běžném období za stejné množství zboží jako v základním období vydat o 300 tis. Kč. více (2800 - 2500 = 300). Paascheho index: Vezmeme-li v úvahu neměnnosti objemu prodeje běžného období, ceny prodávaného zboží vzrostly v červnu 1998 oproti červnu 1997 o 8,8%. Tato změna znamená, že kupující museli při nákupu stejného množství zboží vydat o 195 tis.Kč více (2420 - 2225 = 195). Fisherův index Průměrná změna cen vyjádřená Fisherovým indexem činila 10,4% (absolutní přírůstek odpovídající tomuto indexu nelze stanovit). Příklad 4.5 V tab.4.7 jsou uvedeny údaje o vývoji cen potravin, průmyslového zboží a služeb mezi lednem 1997 a lednem 1996. K dispozici jsou dále stálé váhy ze základního období, tj. struktura tržeb v lednu 1996. Naším úkolem je charakterizovat celkovou změnu spotřebitelských cen (situace je proti skutečnosti zjednodušena v tom, že v indexu spotřebitelských cen jsou jen tyto tři základní skupiny produktů).
- 118 -
Tabulka 4.7 Skupina produktů
Změna ceny (v%) v lednu 1997 oproti lednu 1996
Struktura tržeb v lednu 1996 (%)
Potraviny
+5
50
Průmyslové zboží
+10
30
Služby
+25
20
Celkem
-
100
K charakterizování celkové změny spotřebitelských cen využijeme možnosti určit celkovou změnu cen různorodé produkce díky znalosti indexů cen jednotlivých výrobků (resp. skupin výrobků) a struktury vah ze základního období podle (4.19). Tento tvar si můžeme přepsat jako n
I = ∑ I pi
L p
i =1
p 0 ,i q 0 , i n
∑p i =1
kde
w 0 ,i =
p 0 ,i q 0 , i n
∑p i =1
0 ,i
0 ,i
q 0 ,i
n
= ∑ I p i w 0 ,i ,
(4.25)
i =1
vyjadřuje strukturu vah ze základního období.
q 0 ,i
Určení celkové změny spotřebitelských cen pomocí vztahu (4.25) je pak možné na základě údajů v tab.4.8. Tabulka 4.8 Skupina produktů
Ipi
wO,i
Ipi .wO,i
Potraviny
1,05
0,5
0,525
Průmyslové zboží
1,10
0,3
0,330
Služby
1,25
0,2
0,25
Celkem
-
1,0
1,105
Poslední sloupec tab.4.8 je výpočtem souhrnného Laspeyresova cenového indexu podle (4.25). Z výsledků plyne, že úroveň spotřebitelských cen vzrostla v lednu 1997 oproti lednu 1996 o 10,5%. Příklad 4.6 Analogickou situaci si můžeme představit, budeme-li mít k dispozici váhy z běžného období. Zde je však třeba si uvědomit, že v Paascheho indexu jsou váhy z běžného období v převrácené hodnotě. K tomu, abychom mohli využít
- 119 -
znalosti relativních vah z běžného období je nutné si vztah (4.21) upravit. Pro Paasheho cenový index ve tvaru váženého harmonického průměru zřejmě platí: P
Ip =
1 = 1 p 1,i q 1,i ∑ n i =1 I p i ∑ p1,i q 1,i n
n
∑ i =1
1 w 1,i
,
I pi
i =1
(4.26) kde w 1,i =
p 1,i q 1,i n
∑p i =1
1,i
jsou relativní váhy z běžného období.
q 1,i
Vyjděme ze stejného zadání jako v předchozím příkladě, jen s tím rozdílem, že nyní známe strukturu vah z běžného období. Vstupní údaje jsou v tab.4.9. Tabulka 4.9 Skupina produktů
Změna ceny (%)v lednu 1997 proti lednu 1996
Struktura tržeb v lednu 1997 (%)
Potraviny
+5
63
Průmyslové zboží
+10
22
Služby
+25
15
Celkem
-
100
Výpočet celkové změny cen při znalosti struktury vah z běžného období se provede pomocí vztahu (4.26). Pomocné výpočty jsou v tab.4.10. Tabulka 4.10 Skupina produktů
Ipi
w1,i
w1,i/Ipi
Potraviny
1,05
0,63
0,60
Průmyslové zboží
1,10
0,22
0,2
Služby
1,25
0,15
0,12
Celkem
-
1,00
0,92
V posledním řádku posledního sloupce n e m á m e jako v předešlém příkladě již samotnou hodnotu souhrnného cenového indexu, ale v tomto případě je jeho převrácenou hodnotu. Celkovou změnu cen tedy určíme jako PIp =
1 / 0,92 = 1,087 ,
což znamená, že při použití vah z běžného období činil růst spotřebitelských cen v lednu 1997 oproti lednu 1996 8,7%. - 120 -
Je přirozené, že si klademe otázku, co je příčinou rozdílných hodnot Paascheho a Laspeyresova indexu. Tuto rozdílnost lze analyzovat a vysvětlit pomocí tzv. Bortkiewiczova rozkladu. Bortkiewiczův rozklad je vztahem určujícím, co je příčinou rozdílu mezi hodnotou dvou průměrů ze stejných hodnot počítaných při různých vahách. Obecně platí, že rozdílnost mezi průměrem hodnot znaku x počítaným při použití vah M a při použití vah N je důsledkem variability hodnot znaku x a podílu vah M / N a intenzity závislosti průměrovaných hodnot znaku x a podílu vah M / N. Pro podíl dvou průměrů počítaných při použití různých vah platí xM = 1 + vx .vM/N .rx, M / N , xN
(4.27)
kde x M , resp. x N je průměr hodnot znaku x počítaný při použití vah M, resp.N vx resp. vM/N - variační koeficient znaku x, resp. podílu M / N, rx, M / N - korelační koeficient vyjadřující lineární závislost znaku x a podílu vah M/N. Tento obecný model lze aplikovat i na podíl dvou souhrnných indexů v průměrovém tvaru, resp. jako podíl Paascheho a Laspeyresova cenového indexu. Vyjádříme-li si Paasheho cenový index ve tvaru váženého aritmetického průměru při použití hypotetických vah pO,iq1,i tj. ve tvaru n
P
Ip =
∑I i =1 n
pi
∑p i =1
p 0,i q 1,i (4.28) 0 ,i
q 1,i
a srovnáme-li jej s Laspeyresovým cenovým indexem ve tvaru (4.19) je zřejmé, že porovnáváme dva průměry téže veličiny (zde jednoduchých cenových indexů, tj. Ipi) počítané při různých vahách. Jestliže v případě Paascheho indexu máme k dispozici váhy M (zde pO,iq1,i) a v případě Laspeyresova indexu váhy N (zde pO,iqO,i), pak podíl vah M/N je roven Iq,i (tj. q1,i / qO,i). Bortkiewiczův rozklad srovnávající Paascheho a Laspeyresův cenový index, bude mít tvar B = PIp / LIp = 1 + vIp .vIq .rIp.Iq (4.29) Ze vztahu (4.29) tedy plyne, že hodnota Paascheho a Paspeyresova cenového indexu bude stejná jen tehdy, jestliže individuální jednoduché indexy cen budou vzájemně lineárně nezáviské (v praxi to bývá velmi zřídka), resp. když individuální jednoduché indexy cen nebo množství budou konstantní (tedy B = 1). Bude-li B > 1, tj. Paascheho cenový index je větší, než Laspeyresův cenový index, půjde o přímou lineární závislost mezi jednoduchými cenovými a objemovými indexy; rIp.Iq > O. Bude-li B < 1, tj. Paascheho cenový index bude menší, než Laspeyresův cenový index, pak bude existovat nepřímá lineární závislost mezi jednoduchými cenovými a objemovými indexy; rIp.Iq < O. - 121 -
Vzhledem k tomu, že nepřímá závislost jednoduchých cenových indexů a objemových indexů vyjadřuje vzájemné protisměrné působení vývoje cen a množství, budeme se v praxi ve většině případů setkávat právě s touto možností. Obecně platí, čím je větší intenzita (přímé či nepřímé) závislosti jednoduchých cenových a objemových indexů a čím větší je jejich relativní variabilita, tím větší je rozdíl mezi Paascheho a Laspeyresovým indexem. Celá problematika souhrnných indexů byla zde prezentována na příkladě cenových indexů, i když vše, co jsme zde uvedli platí i pro jiné intenzitní ukazatele, které mají stejný charakter jako cena různorodé produkce (extenzitní ukazatel Q je stejnorodý, extenzitní ukazatel q je nestejnorodý), např. nákladovost, pracnost apod. Použití těchto indexů je však ve srovnání s cenovými indexy méně časté. Souhrnné indexy množství: Souhrnné indexy množství (souhrnné objemové indexy) jsou indexy nestejnorodého extenzitního ukazatele q. Jestliže u souhrnných indexů úrovně jsme uvedli, že souhrnné cenové indexy tvoří jen jednu (byť nejvýznamnější) skupinu těchto indexů, pak v případě souhrnných indexů množství se jedná výlučně o indexy, jejichž úkolem je charakterizovat změny objemu vytvořené nebo prodané různorodé produkce, za předpokladu, že nelze z důvodu věcné rozdílnosti sestrojit veličinu q. Indexy používané pro charakterizování dynamiky objemu různorodé produkce vycházejí ze stejné myšlenky jako souhrnné indexy cenové, tzn. nelze-li změnu objemu produkce vyjádřit individuálním složeným indexem (4.14), můžeme k postižení celkové změny objemu různorodé produkce využít individuálních jednoduchých indexů, vyjadřujících změnu objemu pro jednotlivé věcně rozdílné výrobky. Odpovídající souhrnné indexy množství nesou opět jména slavných statistiků a jsou konstruovány analogicky jako souhrnné indexy úrovně. Použijeme-li k výpočtu průměrné změny množství váhy ze základního období, dostaneme Laspeyresův objemový index n
I =
L q
∑I i =1 n
p 0 ,i q 0 , i
qi
∑p i =1
, 0 ,i
(4.30)
q 0 ,i
který po úpravě můžeme převést do tzv. agregátního tvaru, z něhož jednoznačně vyplývá vypovídací schopnost tohoto indexu. V agregátním tvaru Laspeyresova indexu ve formě n
I =
L q
∑p
0 ,i
∑p
0 ,i
i =1 n
i =1
q 1,i (4.31) q 0 ,i
srovnáváme dva objemy produkce vyjádřené ve stejných cenách, v tomto případě v cenách základního období. Laspeyresův objemový index tedy vyjadřuje reálnou změnu produkce neuvažující vývoj cen. Často se v této souvislosti hovoří o změně fyzického - 122 -
objemu produkce, čímž se rozumí změna objemu produkce ve stálých (srovnatelných) cenách. V této souvislosti je třeba si uvědomit, že pokud je produkce různorodá, nelze charakterizovat celkovou změnu jejího objemu jinak než pomocí srovnatelných cen. Další možností je použít jako váhy strukturu hodnoty produkce z běžného období. Tím se dostáváme k Paascheho objemovému indexu ve tvaru váženého harmonického průměru n
I =
P q
∑p i =1 n
∑
1,i
q 1,i
p 1,i q 1,i
i =1
,
(4.32)
I qi
který lze po úpravě převést do tvaru agregátního, z něhož je zřetelnější vypovídací schopnost tohoto indexu. V agregátním tvaru Paascheho indexu ve formě n
I =
P q
∑p
1,i
∑p
1,i
i =1 n
i =1
q 1,i (4.33) q 0 ,i
srovnáváme dva objemy produkce oceněné stejnými cenami, období.
tentokrát z běžného
Podobně jako v případu souhrnných cenových indexů, můžeme pro charakterizování celkové změny objemu použít ceny neutrální (hypotetické), tj. ceny z jiného než základního či běžného období a konstruovat tak Loweho objemový index ve tvaru n
LW I q =
∑p q
1,i
∑p q
0 ,i
i =1 n
i =1
i
i
,
(4.34)
resp. určit průměrnou změnu objemu na základě Fisherova objemového indexu: FIq = [LIq * .PIp ]
1/2
(4.35)
Příklad 4.7 Ukážeme si použití Laspeyresova a Paascheho objemového indexu na datech v tabulkách 4.5 a 4.6 z příkladu 4.4. Naším úkolem bude charakterizovat celkovou změnu objemu prodeje uvažovaných tří výrobků. Na základě výpočtů v tab.4.6 obdržíme LIq = FIq =
225 / 2500 = 0,890 ,
PIp =
2420 / 2800 = 0,864,
[ 0,890 * 0,864 ]1/2 = 0,877.
Interpretace těchto indexů vychází jednoznačně z jejich konstrukce Laspeyresův index říká, že hodnota produkce ve srovnatelných cenách základního období poklesla o 11%, Paascheho index pak vyjadřuje pokles hodnoty produkce ve
- 123 -
srovnatelných cenách běžného období o 13,6% a Fisherův index vyjadřuje průměrnou změnu objemu produkce (pokles) o 12,3%. Je zřejmé, že součinem Laspeyresova cenového indexu (4.20) a Paascheho objemového indexu (4.33), resp. Laspeyresova objemového indexu (4.31) a Paascheho cenového indexu (4.22) dostaneme index vyjadřující změnu hodnoty produkce (stručně hodnotový index), tj. index vyjadřující jak změnu objemu, tak i změnu cen, tj. n
IQ = LIp .PIp = LIq .PIp =
∑p
1,i
∑p
0 ,i
i =1 n
i =1
q 1,i (4.36) q 0 ,i
V tomto smyslu pak můžeme Laspeyresův a Paascheho cenový index interpretovat zároveň jako index vyjadřující vliv změn cen na změnu hodnoty produkce, resp. Laspeyresův a Paascheho objemový index jako index vyjadřující vliv změn množství na změnu hodnoty produkce. Tím se již posouváme od indexů jako nástroje srovnání k indexům jako nástroji analýzy. Laspeyresův, resp. Paascheho objemový index lze počítat i při znalosti relativních vah základního, resp. běžného období. Vyjdeme při tom ze vztahů analogických vztahům platným pro příslušné cenové indexy. Tedy pro Laspeyresův objemový index bude platit n
L I q = ∑ I qi i =1
p 0 ,i q 0 , i n
∑p i =1
kde
w 0 ,i =
p 0 ,i q 0 , i i =1
0 ,i
q 0 ,i
(4.37)
i =1
(4.37) vyjadřuje strukturu vah ze základního období.
n
∑p
0 ,i
n
= ∑ I q i w 0 ,i ,
q 0 ,i
Paascheho objemový index budeme při znalosti relativních vah z běžného období počítat ze vztahu I =
P q
1 = 1 p 1,i q 1,i ∑ n i =1 I q i ∑ p1,i q 1,i n
n
∑ i =1
1 , w 1,i I qi
i =1
kde w 1,i =
p 1,i q 1,i n
∑p i =1
1,i
jsou relativní váhy z běžného období.
q 1,i
Použití těchto objemových indexů si ověříme v následujících příkladech.
- 124 -
(4.38)
Příklad 4.8 V tab. 4.11 jsou uvedeny údaje o změnách objemu prodeje potravin, průmyslového zboží a služeb mezi lednem 1997 a lednem 1996. K dispozici jsou stálé váhy ze základního období, tj. strukturu tržeb v lednu 1996. Naším úkolem je charakterizovat celkovou změnu objemu prodeje. Tabulka 4.11 Skupina produktů
Změna objemu prodeje (%)v lednu 1997 proti lednu 1996
Struktura tržeb v lednu 1996 (%)
Potraviny
+30
50
Průmyslové zboží
-15
30
Služby
-25
20
Celkem
-
100
Určení celkové změny objemu prodeje pomocí vztahu (4.37) je pak možné na základě výpočtů v tab. 4.12. Tabulka 4.12 Skupina produktů
Iqi
wO,i
IqiwO,i
Potraviny
1,30
0,5
0,65
průmyslové zboží
0,85
0,3
0,255
Služby
0,75
0,2
0,150
Celkem
-
1,0
1,055
Poslední sloupec tab. 4.12 je v podstatě výpočtem souhrnného objemového indexu podle vztahu (4.37). Z výsledků plyne, že objem prodeje vzrostl v lednu 1997 oproti lednu 1996 o 5,5%. Příklad 4.9 Vyjděme ze stejného zadání jako v předchozím příkladě jen s tím rozdílem, že nyní známe strukturu vah z běžného období. Vstupní údaje jsou v tab. 4.13.
- 125 -
Tabulka 4.13 Skupina produktů
Změna objemu prodeje (%)v lednu 1997 proti lednu 1996
Struktura tržeb v lednu 1997 (%)
Potraviny
+30
63
Průmyslové zboží
-15
22
Služby
-25
15
Celkem
-
100
Výpočet celkové změny objemu prodeje při znalosti struktury vah z běžného období pak provedeme podle (4.38). Pomocné výpočty jsou uvedeny v tab. 4.14). Tabulka 4.14 Skupina produktů
Iqi
w1,i
w1,i/Iqi
Potraviny
1,44
0,63
0,485
průmyslové zboží
0,80
0,22
0,259
Služby
0,72
0,15
0,200
Celkem
-
1,0
0,944
V posledním řádku posledního sloupce tab. 4.14 nalezneme převrácenou hodnotu Paascheho indexu. Celkovou změnu objemu prodeje tedy určíme jako PIq =
1 / 0944 = 1,059 ,
což značí, že v případě, že jsme použili relativní váhy z běžného období, objem prodeje vzrostl o 5,9%. Podobně jako u souhrnných indexů cenových, můžeme hodnotit rozdílnost hodnot Paasheho a Laspeyresova objemového indexu pomocí Bortkiewiczova rozkladu. Paasheho objemový index si analogicky vyjádříme ve formě váženého aritmetického průměru individuálních jednoduchých indexů při použití hypotetických vah p1,i, qO,i, tj. ve tvaru n
I =
P q
∑I i =1 n
qi
∑p i =1
p 1,i q 0 ,i (4.39) 1,i
q 0 ,i
a srovnáme-li ho s Laspeyresovým objemovým indexem (4.30), je zřejmé, že průměrovanou veličinou jsou individuální jednoduché objemové indexy a podílem vah vznikne cenový index Ipi (tj. podíl p1,iqO,i / pO,iqO,i). Ze symetrie vztahu (4.29) plyne, že tento vztah je platný, ať srovnáváme souhrnné objemové nebo cenové indexy. Vztah (4.29) tedy můžeme rozšířit do tvaru - 126 -
PIp
/ LIp = PIq / LIq = 1 + vIp .vIq .rIp.Iq .
(4.40)
4.3 Cenové indexy v České republice Uvedli jsme, že cenové indexy patří k nejstarším oficiální statistikou sledovaným indexům. Nutnost zachycení vývoje cen (spotřebitelských, průmyslových resp. zemědělských výrobků, stavebních prací apod.) vedla postupně k vytvoření rozsáhlé oblasti tzv. cenové statistiky, jejímž úkolem je vypracovat a realizovat systém sledování cen různých výrobků a činností. Role této oblasti statistiky je velice významná, uvědomíme-li si, že - podle indexu spotřebitelských cen hodnotíme tempo inflace, - ceny, resp. jejich vývoj jsou důležitým indikátorem změn v národním hospodářství a na světových trzích, - cenové indexy slouží jako deflátory, tzn. jako nástroje převodu agregátů vyjádřených v běžných cenách do stálých cen a tedy nepřímým nástrojem měření reálného vývoje národního hospodářství. Vývoj cen různých výrobků nebo činností na určitém území se vždy vyjadřuje pomocí vhodného cenového indexu. Výběr typu indexu je však jen prvním formálním problémem, který musí cenová statistika řešit. Dalšími závažnějšími problémy souvisejícími se samotným zjišťováním cenových změn jsou především: - vymezení cenového indexu z hlediska obsahu, rozsahu a času, - stanovení váhového systému, - způsob šetření cen. Výběr typu indexu: Přikročilo se jednoznačně k volbě souhrnného cenového indexu jako základní míry rozdílnosti nestejnorodého ukazatele úrovně. Ze škály souhrnných indexů pak byl vybrán prakticky ve všech vyspělých zemích Laspeyresův cenový index jako charakteristika, která nejlépe odpovídá požadavkům praxe sledování a hodnocení pohybu cen různých druhů výrobků nebo činností. Připomeňme, že Laspeyresův cenový index lze zapsat ve tvaru váženého aritmetického průměru individuálních jednoduchých indexů cen, kde jako váhy vystupuje hodnota produkce ze základního období (4.19), resp. (4.25). Praktickou výhodou Laspeyresova indexu proti Paascheho indexu je fakt, že váhy (struktura produkce ze základního období) jsou stálé po celou dobu platnosti těchto vah (tj. mezi dvěma revizemi váhového systému) a jsou tedy známy v době zjišťování jednotlivých cenových změn. Vymezení cenového indexu z hlediska obsahu, rozsahu a času: Sledování vývoje cen výrobků (činností) na celostátní úrovni naráží na základní problém obsahového a prostorového vymezení souboru těchto výrobků či činností. Šetření vývoje cen se týká pohybu cen velkého množství výrobků, které lze sledovat v celé řadě prostorových (organizačních) jednotek. Kombinací počtu výrobků (činností) a - 127 -
počtu prostorových jednotek pak vznikají statisíce položek, jejichž úplné a vyčerpávající prošetření není reálné. Z tohoto důvodu je třeba celý uvedený soubor položek omezit zejména z hlediska - výrobků jejichž změna ceny se bude šetřit, - jednotek, kde se změna ceny výše uvedených výrobků bude šetřit, - časových okamžiků šetření. Odtud plyne, že je nutné - sestavit omezený soubor výrobků, tzv. reprezentantů, - vybrat soubor tzv. zpravodajských jednotek, - stanovit periodicitu zjišťování. Výběr souboru reprezentantů je výběr položek, jejichž cenový vývoj bude zahrnut do cenového indexu, tzn. že cenový vývoj těchto výrobků musí reprezentovat cenový vývoj určité skupiny výrobků. Reprezentativnost výběrového souboru zajišťujeme ve statistice zpravidla náhodným výběrem jednotek Zde se však ukazuje technika náhodného výběru nejen jako obtížně realizovatelná, ale i nevhodná a to především z hlediska nestejného vlivu vývoje ceny každého reprezentanta na celkovou hodnotu cenového indexu. Výběr reprezentantů má z těchto důvodů charakter záměrného výběru. Závažným problémem výběru reprezentantů je určení jejich počtu; příliš velký soubor zvyšuje pracnost (i náklady) šetření; příliš malý soubor zkresluje pohyb cenové hladiny, neboť reprezentanti zastupují heterogenní skupiny výrobků. Obecná tendence ke snižování počtu reprezentantů , typická pro vyspělé země, se projevila i u nás; např. index spotřebitelských cen vycházel od r. 1990 ze souboru 1350 reprezentantů, do roku 1994 ze souboru 1060 reprezentantů a od r. 1995 využívá index spotřebitelských cen informací o pohybu cen 761 reprezentantů. Do budoucna lze předpokládat, že se počet reprezentantů bude i nadále snižovat (ve „vyspělých“ evropských zemích se počet reprezentantů u indexu spotřebitelských cen pohybuje v rozmezí 300 - 500 výrobků). Stanovení váhového systému: Hodnota cenového indexu závisí nejen na cenovém vývoji reprezentantů, ale také na struktuře vah. Každý oficiálně zjišťovaný cenový index má svůj specifický váhový systém. Odlišné váhové systémy lze však nalézt i v rámci stejného indexu, jestliže se tento index konstruuje v několika modifikacích. Váhový systém znamená, že každé cenové změně (reprezentanta) je přisouzen určitý význam, tzn. indexu každého reprezentanta je přisouzena váha v celém souhrnném cenovém indexu. Váhy představující podíl hodnoty produkce, spotřeby, vývozu apod. dané skupiny na celkové hodnotě příslušného ukazatele a bývají vyjádřeny relativně, zpravidla v procentech nebo v promilích. Soubor reprezentantů a váhový systém indexu spotřebitelských cen je tradičně nazýván spotřebním košem. Váhový systém se stanoví na základě údajů vztahujících se k základnímu období a je tudíž stálý po celou dobu tohoto systému (zpravidla řádově 5 let).
- 128 -
V současnosti zjišťované a publikované cenové indexy jsou výsledkem nejen dlouholeté práce ČSÚ v oblasti cenové, ale i reakcí na nové skutečnosti, které přineslo období ekonomické transformace. V celé široké škále cenových indexů lze definovat dvě cenově odlišné oblasti, tj. oblast spotřeby a oblast výroby, tzn. že lze odlišit indexy cen spotřeby a indexy cen ve výrobní sféře. U pohybu cen spotřeby se zjišťují dva základní indexy a spotřebitelských cen a index životních nákladů.
to index
Index spotřebitelských cen se nyní počítá na základě sledování cen u 761 reprezentantů; váhy jsou odvozeny ze struktury výdajů domácností zaměstnanců, zemědělců, podnikatelů, osob samostatně výdělečně činných a důchodců za rok 1993. Index spotřebitelských cen se tedy počítá na základě spotřebního koše, který vychází ze základních deseti skupin výrobků a služeb a to vždy jako Laspeyresův index (podle (4.19)) a to ve čtyřech variantách - k průměru roku 1994, - ke stejnému období minulého roku, - k předchozímu měsíci, - k posledním dvanácti měsícům. Struktura vah indexu spotřebitelských cen (spotřební koš) pro domácnosti celkem platná od počátku roku 1995 je uvedena v tab.4.15. Tabulka 4.15 i
Skupina výrobků
Počet reprezentantů v r.1993
Stálé váhy (v promilích)
1
Potraviny, nápoje, tabák
173
327,1
2
Odívání
116
90,9
3
Bydlení
67
143,7
4
Zařízení a provoz domácností
111
77,2
5
Zdravotnictví
22
44,2
6
Doprava
45
104,8
7
Volný čas
96
97,5
8
Vzdělávání
18
16,9
9
Veřejné stravování a ubytování
60
47,2
10
Ostatní zboží a služby
53
50,5
Celkem
701
1000
- 129 -
Tento spotřební koš je sestrojen pro průměrnou domácnost s přihlédnutím k sociálně ekonomické struktuře domácností (zemědělci, zaměstnanci, svobodná povolání, podnikatelé, důchodci), k jejich podílu na počtu obyvatel, věkové skladbě, příjmovému pásmu.
- 130 -
LITERATURA [1] ANDĚL, J.: Matematická statistika. Praha, SNTL 1978 [2] ANDĚL, J.: Statistické analýzy časových řad. Praha, SNTL 1976 [3] BLATNÁ, D.: Neparametrické metody. Praha, VŠE 1996 [4] CYHELSKÝ, L.: Úvod do teorie popisné statistiky. Praha, SNTL 1974 [5] CYHELSKÝ, L. - KAHOUNOVÁ, J. - HINDLS, R.: Elementární statistická analýza. Praha, Managenent Press 1996 [6] KOSHIN, F. a kol.: Statgraphics aneb Statistika pro každého. Praha, Grada [7] NOVÁK, I. - SEGER, J.- ZYCHOVÁ, L.: Statistika B. Praha VŠE 1992 [8] PAVELKA, F.: Metody statistické analýzy. Brno, VUT 1983 [9] RAMÍK, J., WEISSGARBER, A.: Statistika A. Karviná, SU 1995 [10] SEGER, J.: Statistické metody pro ekonomy průmyslu. Praha, SNTL/ALFA 1988 [11] SEGER, J., HINDLS, R.: Statistické metody v ekonomii. Praha, H&H 1993 [12] SEGER, J., HINDLS, R.: Statistické metody v tržním hospodářství. Praha, VP 1995 [13] WONNACOTT, T.H. - WONNACOTT, R.J.: Introductory Statistics for Business and Economics. New York, John Wiley 1984
- 131 -
Název
Aplikovaná statistika
Autor
Doc. RNDr. František Pavelka, CSc., Ing. Petr Klímek
Vydavatel
Vysoké učení technické v Brně Fakulta managementu a ekonomiky ve Zlíně
Vydání
První
Vyšlo
2000
Náklad
200 výtisků
Publikace neprošla redakční ani jazykovou úpravou. ISBN 80 – 214 – 1545 – 2