Statistika 32: (11), str. 483 - 493, ČSÚ, 1995. ISSN 0322-788x.
Ing. Markéta ARLTOVÁ Ing. Josef ARLT, CSc. VŠE - katedra statistiky a pravděpodobnosti
Grafické metody analýzy ekonomických časových řad Úvod Grafické metody ve statistické analýze dat jsou velmi rozšířené a často používané, protože jsou přehledné a snadno interpretovatelné. Nejinak je tomu u časových řad. Grafické zobrazení je důležité pro předběžnou analýzu dat, může pomoci k výběru lepšího modelu, k přesnějšímu výpočtu i k většímu porozumění vztahů mezi daty. Grafy časových řad jsou jednoduché grafy, ve kterých jsou jednotlivé hodnoty uspořádány postupně v čase. I když se konstrukce grafů časových řad může zdát velmi jednoduchou, měly by být brány v úvahu obecné principy týkající se označení os a proměnných, volby měřítka atd. (viz Schmid (1983), Cleveland (1985), Roubíček (1966)), aby nedošlo ke zkreslení hodnot a tím i ke klamavým informacím. Vedle jednoduchých grafů časových řad existují i grafy složitější, jenž jsou přímo prostředkem konkrétní analýzy časových řad, jedná se především o grafy doplňující různé testy, jenž se používají při identifikaci vhodných modelů, ale také grafy zobrazující popisné sumární charakteristiky časových řad. Smyslem našeho článku je podat přehled grafických metod analýzy časových řad. Budeme se zabývat jednak grafy jedné a více časových řad a grafy popisných charakteristik časových řad nebo jejich částí. Dále uvedeme přehled grafických metod identifikace modelu časových řad, ale i metod určených k ověřování vhodnosti modelu, či kvality provedené dekompozice analyzované časové řady. Je třeba poznamenat, že vzhledem ke složitosti některých grafických metod není cílem článku jejich detailní vysvětlení, nýbrž uvedení jejich přehledu, stručné charakteristiky, ilustrací příp. odkazů na literaturu, ve které jsou podrobně popsány. Grafy jedné a více časových řad Do této skupiny patří nejběžněji používané grafy jedné a více časových řad, především spojnicové grafy různého typu, bodové diagramy dvou a více časových řad, ale také grafy pro analýzu krátkodobých časových řad, jako je graf „seasonal subseries“. Spojnicový graf Prvotní informace pro analýzu časových řad získáme ze spojnicových grafů. Jejich princip spočívá v zakreslení jednotlivých hodnot časové řady do souřadných os, na kterých jsou vyznačeny příslušné stupnice. Na osu horizontální se vynáší časová proměnná a na osu vertikální hodnoty časové řady nebo jejich funkce (obr. č. 1a). Do grafu můžeme zakreslit i
více časových řad (obr. č. 1b). V případě, že zobrazujeme dvě časové řady lišící se měřítkem, můžeme použít kromě levé i pravou vertikální osu. Obr. č. 1: Spojnicové grafy a)
b)
Sloupkový graf Pro vyjádření vývoje ekonomických ukazatelů se v praxi velice často používá sloupkový graf. Tento typ grafu může mít několik modifikací, dvě z nich jsou uvedeny na obr. č. 2a) a obr. č. 2b). Na prvním je zobrazen vývoj jedné časové řady, na druhém pro srovnání vývoj dvou časových řad (např. vývoz a dovoz). V této souvislosti se často přechází ke trojrozměrnému grafu. Obr. č. 2: Sloupkové grafy a)
b)
Plošný graf Plošný graf je modifikací spojnicového grafu (obr. č. 3a) a obr. č. 3b)). Lze jej použít rovněž pro vyjádření vývoje jedné a více časových řad.
2
Obr. č. 3: Plošné grafy a)
b)
Graf „seasonal subseries“ Tento graf se používá při analýze sezónních časových řad. Zobrazuje hodnoty časové řady uspořádané podle jednotlivých sezón. Jeho ukázka je na obr. č. 4. Vodorovná úsečka, ze které vybíhají nahoru a dolů svislé úsečky různé délky, charakterizuje průměr daného měsíce za všechny roky časové řady. Takže první vodorovná úsečka je lednový průměr, druhá únorový průměr, třetí březnový průměr atd. Svislé úsečky znázorňují pozorování daného měsíce v jednotlivých letech, takže charakterizují, jak se v daném roce hodnota jistého měsíce liší od průměrné hodnoty tohoto měsíce za všechny roky analyzované časové řady. V našem příkladu tedy vidíme, že se variabilita jednotlivých měsíců od sebe značně liší. Např. lednové hodnoty jsou podstatně variabilnější než hodnoty prosincové. Obr. č. 4: Seasonal subseries graf
Bodový diagram Dvourozměrný bodový diagram je pravděpodobně nejjednodušší, nejvíce používanou a obecně nejsrozumitelnější grafickou metodou zobrazování vztahu dvou proměnných. Samozřejmě, že může být použit pro zkoumání vztahu také dvou časových řad. Na obr. č. 5 je znázorněna jeho méně známá, avšak velice užitečná modifikace, jenž se v anglicky psané literatuře označuje jako „dot-dash-plot“. Oproti všeobecně známému bodovému diagramu zde 3
byly učiněny dvě modifikace. Osy obsahují stupnici od minimální do maximální hodnoty časové řady a čárky na osách mezi nimi vyjadřují marginální rozdělení obou proměnných. Tento typ grafu tedy jednoduchým způsobem současně ukazuje dvourozměrné a marginální rozdělení a tak přináší podstatně více informací než klasický bodový diagram. Obr. č. 5: Dot-dash-plot
Matice bodových diagramů Při analýze ekonomických časových řad je často třeba porovnávat charakter a rozdílnost vztahů více dvojic časových řad. Pro jejich zobrazení je možné použít matici párových bodových diagramů. Její příklad je uveden na obr. č. 6. Na diagonále této matice jsou názvy jednotlivých časových řad a v průsečíku sloupců a řádků bodové diagramy odpovídajících časových řad. Obr. č. 6: Matice bodových diagramů
Grafy průzkumové analýzy časových řad V některých případech je užitečné provést poněkud detailnější pohled na časové řady. K tomu slouží průzkumová analýza časových řad, jejímž obsahem jsou mimo jiné grafy obsahující sumární charakteristiky zkoumaných časových řad. Tyto grafy umožní odhalit některé důležité vlastnosti řad, jenž z grafů výše uvedeného typu nejsou zřetelné. Do této skupiny patří především krabičkový graf („boxplot“) a číslicový histogram („stem-and-leaf“). 4
Krabičkový graf („boxplot“) Krabičkový graf, jenž je zachycen na obr. č. 7a) přehledně znázorňuje charakter analyzované časové řady. Jeho základním prvkem je krabička, jejíž dolní a horní hrana je tvořena dolním a horním kvartilem, tzn., že tvoří mezikvartilové rozpětí ~ x 75 - ~ x25 , takže v krabičce leží 50 % hodnot časové řady. Uvnitř je vodorovnou čárou vyznačen medián ~ x50 a křížkem aritmetický průměr. Z krabičky vychází dvě svislé čáry. Ukončení svislé čáry vedoucí od dolního kvartilu směrem dolů je dáno větší ze dvou hodnot - minimální hodnoty časové řady a hodnoty vnitřní hradby. U čáry vedoucí od horního kvartilu směrem nahoru je toto ukončení dáno menší hodnotou z maximální hodnoty časové řady a hodnoty vnitřní hradby. Vnitřní hradby vypočítáme jako hD = ~ x25 - 1,5( ~ x 75 - ~ x25 ) a hH = ~ x 75 + 1,5( ~ x 75 - ~ x25 ). Jestliže je v časové řadě pozorování, jehož hodnota je větší než hodnota vnitřní hradby, potom může ležet uvnitř vnějších hradeb (v grafu bývá označen pomocí určitého symbolu např. kroužkem). Vnější hradbu vypočítáme jako HD = ~ x25 - 2(1,5( ~ x 75 - ~ x25 )) ~ ~ ~ a HH = x 75 + 2(1,5( x 75 - x25 )). Hodnoty mezi vnitřními hradbami, tj. v intervalu (hD, hH), jsou hodnoty přilehlé, hodnoty mezi vnitřními a vnějšími hradbami, tj. v intervalech (HD, hD) a (hH, HH), jsou vnější. Hodnoty menší nebo rovné HD nebo větší nebo rovné HH jsou hodnoty vzdálené (v grafech jsou vyznačovány jiným symbolem např. hvězdičkou). Pomocí těchto hradeb můžeme určit údaje, které mohou znehodnotit analýzu dat (chybné nebo extrémně odlišné hodnoty, jež jsou projevem přirozené variability). Jinou modifikací tohoto grafu je „notched boxplot“, který rozšiřuje původní krabičkový graf o informace o 95% intervalech spolehlivosti pro medián. Tyto grafy jsou zachyceny na obr. č. 7b). Tyto typy grafů je možné použít zejména pro analýzu měsíčních časových řad. Na obr. č. 7a) jsou jednotlivé krabičky použity pro charakterizování rozdělení hodnot jednotlivých měsíců za všechny roky. Z tohoto obrázku je zřetelně vidět jejich odlišnost především v jejich variabilitě. Lze ale postupovat i tak, že se za jistým účelem použijí krabičky pro hodnoty měsíců v jednotlivých letech, jak je zachyceno na obr. č. 7b), a tím se charakterizuje míra jejich odlišnosti. Obr. č. 7: Krabičkové grafy a)
b)
5
Číslicový histogram Další možností přehledného znázornění dat je číslicový histogram („stem-and-leaf“). V prvním sloupci se uvádějí od prvního a posledního řádku hodnoty kumulovaných četností příslušející jednotlivým desítkám resp. stovkám (ve druhém sloupci) až do skupiny obsahující medián (skupina je vyznačena závorkou). Třetí sloupec tvoří jednotky resp. desítky. Graf má podobný význam jako histogram, je z něho velmi snadné získat přehled o rozložení hodnot časové řady a určit příslušné kvantily. Obr. č. 8: Číslicový histogram
jednotka = 1 1|2 znázorňuje 12 2 6 2 3 13 7 0 1 3 3 4 5 (34) 8 0 0 1 1 1 1 11 9 1 1 2 2 2 2 1 10 8
6 1 4
7 3 7
7 3 8
8 5 8
9 5
5
6
6
8
8
8
8
9
9
9
Grafy pro identifikaci, testování a modelování složek časových řad Často je užitečné posoudit vlastnosti časových řad z hlediska jejich pravděpodobnostního rozdělení. Tento přístup umožňuje na jedné straně porovnávat charakter časových řad, hledat jejich obdobné a rozdílné rysy a činit předběžné závěry o jejich závislosti, na druhé straně vytváří podmínky pro jejich modelování. V této souvislosti je třeba zdůraznit, že při modelování ekonomických časových řad se často vychází z dekompozičního principu tj. jejich rozkladu na jednotlivé složky - trendovou, cyklickou, sezónní a reziduální. Kritériem kvalitně provedeného rozkladu, tedy oddělení systematické části od části nesystematické, je posouzení vlastností odhadu reziduální složky, tato složka by měla mít nesystematický charakter (viz např. Kozák, Hindls, Arlt (1994)). Histogram Histogram slouží k vyjádření intervalového rozdělení četností řady. Používá se k předběžnému posouzení vlastností rozdělení četností (poloha, variabilita, šikmost, špičatost) a jeho porovnání s jiným rozdělením četností. V současnosti se prakticky používá především při rozboru relativních přírůstků cen jednotlivých akcií. Může se použít rovněž při předběžném posouzení vlastností reziduí vzniklých např. při sezónním očišťování krátkodobých časových řad. Ukázka histogramu reziduí je na obr. č. 9. Často používanou modifikací tohoto grafu je proložení dat normální křivkou.
6
Obr. č. 9: Histogram
Graf Q-Q („quantile-quantile“) Tento graf se používá k porovnání rozdělení analyzované řady s nějakým standardním pravděpodobnostním rozdělením resp. k posouzení, zda lze analyzovanou řadu chápat jako výběr z jistého pravděpodobnostního rozdělení. Tento graf vyjadřuje vztah kvantilů analyzované řady s kvantily uvažovaného pravděpodobnostního rozdělení. Předpokládejme časovou řadu y1, y2, ... , yT, potom y(1), y(2), ... , y(T) je tato řada uspořádaná od nejmenší do největší hodnoty. Potom t-tá uspořádaná hodnota y(t) je považována za pt.100% kvantil, kde pt = (t - 0,5) / T pro t = 1, 2, ... , T. Tento kvantil lze označit jako Q0(pt). Jestliže F(x) je distribuční funkce uvažovaného pravděpodobnostního rozdělení, potom označíme-li p.100% kvantil jako Qh(p), platí, že F(Qh(p)) = p a Qh(p) = F-1(p). Graf Q-Q je graf Q0(pt) proti Qh(p). Nejčastěji se pro porovnání používá normální rozdělení. Příklad tohoto grafu je uveden na obr. č. 10. Interpretace grafu je následující, čím jsou body blíže zakreslené přímce, tím jsou si obě rozdělení podobnější. Pokud leží body grafu blízko vyznačené přímky, potom lze považovat řadu za výběr z normálního rozdělení. Obr. č. 10: Q-Q graf
7
Histobars a rootogram Podobným způsobem lze interpretovat i grafy na obr. č. 11 (histobars) a obr. č. 12 (rootogram). V prvním případě je uvažované rozdělení, resp. jeho hustota přímo zakreslena. Kdyby byla řada výběrem z normálního rozdělení, potom by jednotlivé sloupky významně nepřesahovaly vyznačenou nulovou osu. V druhém případě pokud by byla řada výběrem z normálního rozdělení, potom by jednotlivé sloupky byly téměř nulové. Oba tyto grafy se používají především při posuzování vlastností odhadů reziduí při modelování časových řad. V našich ukázkách je zřetelně vidět, že řady nelze považovat za výběry z normálního rozdělení. Obr. č. 11: Histobars
Obr. č. 12: Rootogram
Korelogram (autokorelační a parciální autokorelační funkce) Korelogramy autokorelační (ACF) a parciální autokorelační funkce (PACF) se používají většinou pro posouzení, zda řada reziduí má charakter tzv. bílého šumu. Je účelné použít jejich grafy při modelování časových řad, při dekompozici časových řad, za účelem sezónního očišťování atd. (viz např. Kozák, Hindls, Arlt (1994)). Graf autokorelační funkce je uveden na obr. č. 13a) a parciální autokorelační funkce na obr. č. 13b). Jednotlivé sloupce autokorelační funkce vyjadřují sílu lineární závislosti mezi hodnotami časové řady. První sloupec vyjadřuje sílu lineární závislosti mezi řadou xt a řadou xt-1, t = 2, 3, ..., T, druhý sloupec vyjadřuje sílu lineární závislosti mezi řadou xt a řadou xt-2, t = 3, 4 , ..., T atd. Hodnota autokorelační funkce je statisticky významná tehdy, překoná-li mez intervalu spolehlivosti, který je na obrázku vyznačen tečkovaně. V našem příkladu je významná pouze lineární závislost mezi sousedními hodnotami. První sloupec parciální autokorelační funkce je totožný s prvním sloupcem autokorelační funkce, vyjadřuje rovněž sílu lineární závislosti mezi řadou xt a řadou xt-1, t = 2, 3, ..., T, druhý sloupec vyjadřuje sílu lineární závislosti mezi řadou xt a řadou xt-2, t = 3, 4 , ..., T, zohledňuje přitom přítomnost řady xt-1, třetí sloupec vyjadřuje sílu lineární závislosti mezi řadou xt a řadou xt-3, t = 4, 5 , ..., T, zohledňuje přitom přítomnost řady xt-1 a xt-2 atd.
8
Obr. č. 13: Korelogramy a) ACF
b) PACF
Periodogram Periodogram je užitečným prostředkem analýzy sezónních časových řad. Používá se pro vyhledávání významných periodických složek v časových řadách (viz Kozák, Hindls, Arlt (1994)). Příklad periodogramu je uveden na obr. č. 14. Na ose x jsou uvedeny frekvence ωj/2π = j/n, kde j = 1, 2, ... , n/2, n je počet hodnot časové řady. Na ose y jsou uvedeny n hodnoty periodogramu I(ωj) = 1/2 (aj2 + bj2), kde a j = 2 n ∑t =1 y t .sin ω j t a b j = 2 n ∑t =1 y t .cos ω j t . Perioda v měsících je τj = n/j. Nejvyšší hodnota periodogramu na obr. č. 14 je ve frekvenci ωj = j/n = 0,08333, takže τj = n/j = 12. Ve zkoumané časové řadě je tedy perioda 12 měsíců. n
Obr. č. 14: Periodogram
Kumulovaný periodogram Kumulovaný periodogram je dalším prostředkem analýzy sezónních časových řad. Často se používá v souvislosti se sezónním očišťováním, jeho prostřednictvím se posuzuje, zda odhad reziduální složky obsahuje nějakou periodickou složku, či má charakter bílého šumu a tím se zkoumá kvalita provedeného sezónního očištění. (viz Kozák, Hindls, Arlt (1994)). Na obr. č. 15 je uveden příklad kumulovaného periodogramu. Na ose x jsou stejně jako v případě periodogramu uvedeny frekvence ωj/2π = j/n, kde j = 1, 2, ... , n/2, n je počet 9
hodnot časové řady. Na ose y jsou hodnoty kumulovaného periodogramu K n/ 2 I Kkum = ∑ j =1 I (ω j ) ∑ j =1 I (ω j ) , kde K = 1, ... , n/2 a I(ωj) jsou hodnoty periodogramu. Na obrázku jsou dále 95% intervaly spolehlivosti pro hodnoty kumulovaného periodogramu. Interpretace je následující. Kdyby byla řada realizací procesu bílého šumu, kumulovaný periodogram by byl velmi blízko diagonále obdélníku, v němž je zobrazen. Pokud by v řadě byly významné komponenty periodického charakteru, potom by se hodnoty kumulovaného periodogramu pohybovaly mimo diagonálu. Jestliže by někde výrazně překonaly intervaly spolehlivosti, potom bychom s 95% pravděpodobností mohli tvrdit, že řada nemá charakter bílého šumu. Na obr. č. 15 je vidět, že analyzovaná řada nemá charakter bílého šumu, neboť hodnoty kumul. periodogramu jsou ve střední části výrazně mimo interval spolehlivosti. Obr. č. 15: Kumulovaný periodogram
Závěr Na závěr je třeba konstatovat, že rozmach grafických metod analýzy časových řad nastal zejména v posledním období v důsledku pokroku při počítačovém zpracování dat. V souvislosti s rychlým vývojem softwarových produktů dochází k prudkému rozvoji počítačové grafiky, s tím souvisí i vývoj nových grafických metod zpracování časových řad. Už z tohoto důvodu musí být zřejmé, že náš výčet typů grafů nemůže být kompletní, stručně jsme popsali pouze nejběžnější grafické metody. Je nicméně zřejmé, že lze očekávat v brzké budoucnosti větší orientaci při analýze časových řad na grafické metody, neboť práce s nimi je jednoduchá a časově nenáročná a výsledky vykazují vysokou praktickou užitečnost. Literatura: [1.] Cleveland, W. P. (1985): The Elements of Graphing Data, Monterey, California:Wadsworth. [2.] Kozák, J. - Hindls, R. - Arlt, J. (1994): Úvod do analýzy ekonomických časových řad, skripta VŠE. [3.] Mills, T. C. (1990): Time Series Techniques for Economists, Cambridge University Press. [4.] Roubíček, V. (1966): Organizace a technika statistické práce, SPN, Praha. [5.] Schmid, C. F. (1983): Statistical Graphics: Design Principles and Practices, New York: Wiley.
10