Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky
Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické metody v ekonomii
Autor bakalářské práce:
Evelyn Mayerlová
Vedoucí bakalářské práce:
Ing. Karel Helman, Ph.D.
ANALÝZA ČASOVÝCH ŘAD POČTU PŘEPRAVOVANÝCH OSOB NA VYBRANÝCH EVROPSKÝCH LETIŠTÍCH
školní rok 2013/2014
1
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracovala samostatně a že jsem uvedla všechny použité prameny a literaturu, ze kterých jsem čerpala.
V Praze dne
………………………………. podpis
2
Poděkování Tímto bych chtěla poděkovat svému vedoucímu práce Ing. Karlu Helmanovi, Ph.D. za jeho cenné rady a informace, které mi podal během zpracování bakalářské práce, a za jeho podporu a čas, který mi věnoval.
3
Abstrakt Bakalářská práce se zabývá analýzou měsíčních časových řad počtu přepravovaných osob na třech vybraných evropských letištích (Letiště Václava Havla Praha Ruzyně, Letiště Franze Josefa Strauße Mnichov a Letiště Vídeň Swechat). Práce zkoumá měsíční počty přepravovaných osob v letech 2001-2013. Data byla čerpána z webových stránek Eurostatu, z databází a prostřednictvím přímé komunikace autorky s jednotlivými letišti. Hlavním cílem práce je prozkoumat vývoj těchto časových řad. Pro analýzu použijeme základní popisné charakteristiky časových řad a vybrané základní metody pro modelaci sezónní a trendové složky. Ambicí práce je zjistit, zda se mění počty přepravovaných cestujících v závislosti na měsíci v roce, zda a jakým způsobem se zvyšuje popularita letecké dopravy a porovnat časové řady jednotlivých letišť.
Abstract This bachelor thesis is focused on analysis of monthly time series of passengers volume in three selected European airports (Airport Vaclav Havel – Prague-Ruzyně, Airport Franz Josef Strauß – Munich and Airport Schwechat – Vienna). This thesis examines monthly volume data of passengers in 2001-2013 period. The data were collected from the Eurostat web pages, airport databases and by direct communication between the author and the individual airports. The major goal of this thesis is to explore the development of the time series. In the analysis we use basic characteristics of time series and selected basic methods for modelling the trend and seasonal components. The ambition of this thesis is to figure out, if the numbers of transported persons differ in different months of the year,if and how has a popularity of air transport increased and to compare time series of different aiports.
4
Obsah 1.
Úvod ...................................................................................................................................... 7 1.1
2.
Letecká doprava ............................................................................................................ 7
Přehled základních pojmů a vybraných metod analýzy časových řad .................................. 8 2.1
Časová řada ................................................................................................................... 8
2.1.1
Klasifikace časových řad ........................................................................................ 8
2.1.2
Elementární charakteristiky .................................................................................. 9
2.2
Dekompozice časové řady ........................................................................................... 11
2.3
Analýza trendové složky .............................................................................................. 12
2.3.1
Regresní přístup k modelování trendu ................................................................ 13
2.3.2
Trendové funkce ................................................................................................. 14
2.3.3
Kritéria pro výběr vhodné trendové funkce ........................................................ 15
2.3.3.1
Grafická analýza .............................................................................................. 15
2.3.3.2
Interpolační kritéria......................................................................................... 16
2.3.3.3
Extrapolační kritéria ........................................................................................ 20
2.3.4 2.4
3.
Klouzavé průměry ............................................................................................... 20
Analýza sezónní složky ................................................................................................ 21
2.4.1
F-test sezónnosti ................................................................................................. 22
2.4.2
Sezónní faktory a sezóní očišťování .................................................................... 22
2.4.2.1
Metoda sezónní dekompozice ........................................................................ 23
2.4.2.2
Regresní metoda modelování sezónnosti ....................................................... 24
Analýza časových řad počtu přepravovaných osob ............................................................ 25 3.1
Popisná statistika ........................................................................................................ 26
3.2
Analýza sezónní složky ................................................................................................ 28
3.2.1
F-test sezónnosti ................................................................................................. 28
3.2.2
Sezónní indexy..................................................................................................... 28
3.2.3
Sezónní očišťování ............................................................................................... 30
3.3
Analýza trendové složky .............................................................................................. 31
3.3.1
Mnichov............................................................................................................... 31
3.3.2
Praha ................................................................................................................... 32
3.3.3
Vídeň ................................................................................................................... 33
3.4
Regresní metoda modelování sezónnosti ................................................................... 34
3.5
Předpověď ................................................................................................................... 37
3.6
Závěr I. ......................................................................................................................... 39 5
4.
Analýza časových řad počtu přepravovaných cestujících od roku 2009 ............................. 42 4.1
Popisná statistika – od roku 2009 ............................................................................... 42
4.2
Analýza sezónní složky – od roku 2009 ....................................................................... 42
4.2.1
F-test sezónnosti – od roku 2009 ........................................................................ 42
4.2.2
Sezónní indexy – od roku 2009 ........................................................................... 43
4.2.3
Sezónní očišťování – od roku 2009 ..................................................................... 44
4.3
Analýza trendové složky – od roku 2009 .................................................................... 45
4.3.1
Mnichov............................................................................................................... 45
4.3.2
Praha ................................................................................................................... 46
4.3.3
Vídeň ................................................................................................................... 47
4.4
Regresní metoda modelování sezónnosti – od roku 2009.......................................... 48
4.5
Předpověď – od roku 2009.......................................................................................... 52
5.
Závěr II. ................................................................................................................................ 55
6.
Literatura ............................................................................................................................. 57
7.
Přílohy ................................................................................................................................. 58 7.1
F-test sezónnosti ......................................................................................................... 58
7.2
Výstupy Eviews ............................................................................................................ 59
6
1.
Úvod
Tato bakalářská práce se zabývá analýzou počtu přepravovaných osob na třech vybraných evropských letištích. Analyzovány budou následující letiště: Letiště Václava Havla v Praze, Letiště Franze Josefa Strauße Mnichov a Letiště Vídeň Schwechat. Tato konkrétní letiště patří mezi významná evropská letiště a byla vybrána na základě jejich geografické srovnatelnosti. Práce se bude věnovat analýze měsíčních časových řad. V práci použijeme veškerá existující data. Měsíční časové řady máme kompletní pro letiště v Praze a v Mnichově od začátku roku 2001 do konce roku 2013. Pro vídeňské letiště máme kompletní řadu od začátku roku 2002. Data byla získána z webových stránek Eurostatu, z veřejných databází a také prostřednictvím přímé komunikace s jednotlivými letišti. Obecné informace o vzrůstu letecké dopravy a o letecké dopravě obecně jsme čerpali z ročenek jednotlivých letišť z minulých let, případně z dalších prací a článků nalezených na internetu. Hlavním cílem této práce je zjistit, jaká je podoba obecně známého trendu nárůstu popularity letecké dopravy a zda se počty přepravovaných osob mění v závislosti na měsíci v roce. Chceme také zjistit, jestli byly nějaké měsíce či roky extrémní a proč. Dále se zaměříme na počty odbavených cestujících z jednotlivých letišť a vzájemné hodnoty porovnáme. Na závěr zkusíme určit předpověď počtu přepravených cestujících na první pololetí roku 2014. Pro analýzu vybraných časových řad použijeme základní popisné charakteristiky časových řad a vybrané základní metody pro modelování sezónní a trendové složky. Pro zpracování této analýzy využijeme software Eviews 7.0 a tabulkový procesor MS Excel 2007. Práce je rozdělena do dvou částí. První část je teoretická, obsahuje definice použitých základních popisných charakteristik časových řad a definice základních statistických metod pro modelování sezónní a trendové složky, které jsou v práci použité. V druhé části se budeme věnovat vlastní analýze dat a interpretaci získaných výsledků. V této části jsou taktéž dílčí výsledky ve formě grafů a tabulek. 1.1
Letecká doprava
Jedná se o způsob přepravy, který je dostupný ve všech ekonomicky vyspělých zemích a slouží nejen k přepravě osob, ale i k přepravě zboží. Patří mezi nejbezpečnější a nejrychlejší způsoby přepravy. Největší rozmach zaznamenala letecká doprava v 90. letech 20. století. a stala se nenahraditelnou součástí rozvíjejícího se cestovního ruchu. [8] V naší práci se zaměříme pouze na přepravu osob na třech vybraných evropských letištích za období, pro které máme data k dispozici, tedy za období 2001-2013. 7
2.
Přehled základních pojmů a vybraných metod analýzy časových řad
2.1
Časová řada
Význam analýzy časových řad můžeme vyjádřit například následující větou.„Vývoj sledovaného ukazatele v čase je nedílnou součástí řady analýz. Na základě poznání minulosti je možné pochopit zákonitosti v „chování“ sledovaného ukazatele a na jejich základě usuzovat o vývoji ukazatele do budoucnosti“ [5]. Časová řada je definována jako posloupnost hodnot nějakého ukazatele, které jsou uspořádány v čase směrem z minulosti do budoucnosti. Klasické značení hodnot časovch řad je 𝑦𝑡 , kde 𝑡 uvádí časový index nabývající hodnot 𝑡 = 1, … , 𝑇, 𝑇 je tedy počet hodnot (délka) časové řady.[5] Analýzou časových řad nazýváme soubor metod, které slouží k popisu časových řad. Časové řady se mohou zabývat nejrůznějšími ukazateli (např. ekonomickými, fyzikálními či meteorologickými).*3] 2.1.1
Klasifikace časových řad
Časové řady můžeme rozdělit podle různých hledisek. Základní druhy časových řad klasifikujeme dle následujících tří, uvedených v [5]: a) rozhodné časové hledisko -
intervalové časové řady – hodnoty ukazatele se vztahují k určitému časovému úseku, například k jednomu roku – např. roční náklady,roční zisk
-
okamžikové časové řady – hodnoty ukazatele se vztahují k určitému časovému okamžiku, například k poslednímu dni v roce – např. stav zásob, počet zaměstnanců
b) periodicita pozorování -
krátkodobé časové řady – zachycují sledovaný ukazatel pozorovaný v kratších periodách než je jeden rok – např. měsíční, čtvrtletní, týdenní údaje
-
dlouhodobé časové řady – zachycují hodnoty ukazatele v ročních a delších periodicitách
c)
druh ukazatelů -
časové řady primárních ukazatelů
-
časové řady sekundárních(odvozených) ukazatelů – například porovnávajících dvě časová období
8
V této práci budeme analyzovat intervalové časové řady krátkodobého charakteru, jelikož budeme pracovat s měsíčními časovými řadami. V analýze časových řad využijeme hodnot primárních ukazatelů. 2.1.2
Elementární charakteristiky
Elementární charakteristiky slouží k prvotní rychlé a orientační představě o charakteru procesu, který konkrétní řada ukazuje. Mezi základní metody patří analýza průběhu časové řady zachyceného v grafu. Z grafu můžeme rozpoznat např. periodicky se opakující jevy, dlouhodobé nebo krátkodobé tendence časové řady apod. Vizuální analýza je ale značně subjektivní, poslouží nám pouze k vytvoření předběžné představy o charakteru časové řady. Na základě této analýzy nemůžeme poznat hlubší souvislosti a mechanismy studovaného procesu, a nemůžeme tudíž přehledně popsat jeho vlastnosti [5]. Další elementární charakteristiky, popsané níže, nám taktéž neposlouží k hlubšímu poznání mechanismu studovaného procesu, ale mají snadnou interpretaci a můžeme je taktéž použít k předběžné orientaci v charakteru časové řady. Elementární charakteristiky dělíme na míry polohy, míry variability a míry dynamiky. a) Míry polohy Mezi míry polohy řadíme prostý aritmetický průměr, který počítáme dle vzorce 𝑦=
𝑇 𝑦 𝑡=1 𝑡
𝑇
5,
(1)
Kde 𝑇 je počet pozorování v analyzovaném období. Prostý aritmetický průměr využijeme k základnímu popisu úrovně ukazatele za sledované období v případě intervalové časové řady. b) Míry variability Mezi míry variability řadíme rozptyl, směrodatnou odchylku a variační koeficient. Tyto míry variability vyjadřují absolutně či relativně kolísání hodnot dané proměnné okolo celkového průměru analyzované časové řady. Jestliže je variabilita nízká, značí to velkou podobnost hodnot v celém souboru. V takovém případě má prostý aritmetický průměr velkou vypovídací schopnost a naopak.
9
Rozptyl je definován jako průměrný čtverec vzdálenosti jednotlivých hodnot od jejich aritmetického průměru a můžeme ho zapsat ve tvaru 𝑠𝑡2 =
𝑇 (𝑦 −𝑦 )2 𝑡=1 𝑡
𝑇
5
(2)
Jelikož je rozptyl vyjádřen ve čtvercích měrných jednotek, jak vyplývá ze vzorce a z definice, nelze jej věcně interpretovat. Z tohoto důvodu uvedeme také směrodatnou odchylku, která je druhou kladnou odmocninou z rozptylu
𝑠𝑡 =
𝑇 (𝑦 −𝑦 )2 𝑡=1 𝑡
𝑠𝑡2 =
𝑇
5.
(3)
Směrodatná odchylka je ve stejných jednotkách jako jednotlivé hodnoty a aritmetický průměr, proto je interpretovatelná lépe než rozptyl. Variační koeficient je mírou relativní variability. Slouží k lepšímu porovnání hodnot při rozdílné úrovni hodnot ve více souborech. Můžeme ho zapsat ve tvaru 𝑉𝑡 =
𝑠𝑡 𝑦
5.
(4)
Jde v podstatě o poměr směrodatné odchylky a aritmetického průměru a obvykle se prezentuje v procentech. Udává pak, z kolika procent se v průměru odchylují jednotlivé hodnoty od aritmetického průměru. c) Míry dynamiky[2] Mezi jednoduché míry dynamiky patří první diference(absolutní přírůstky). Vyjadřují absolutní změnu hodnoty v čase 𝑡 oproti hodnotě v čase 𝑡 − 1. Počítají se dle vzorce ∆𝑦𝑡 = 𝑦𝑡 − 𝑦𝑡−1 , 𝑡 = 2, 3, … , 𝑇
(5)
Obecně můžeme diference(první, druhé, třetí atd.) použít k předběžnému odhadu trendové funkce při modelování trendu časových řad. Pro příklad uvedeme také vzorec pro výpočet druhých diferencí ∆2 𝑦𝑡 = ∆𝑦𝑡 − ∆𝑦𝑡−1 , 𝑡 = 3, 4, … , 𝑇.
(6)
Mezi další jednoduché míry variability patří průměrný absolutní přírůstek a průměrný koeficient růstu. Tyto míry umožňují charakterizovat základní rysy chování časových řad. Průměrný absolutní přírůstek zapíšeme ve tvaru
10
∆=
𝑦2 − 𝑦1 𝑦3 − 𝑦2 +⋯+ 𝑦 𝑇 −𝑦 𝑇 −1 𝑇−1
𝑇 𝑡=2 ∆𝑦𝑡
=
=
𝑇−1
𝑦 𝑇 −𝑦1 . 𝑇−1
(7)
Průměrný koeficient růstu počítáme jako geometrický průměr jednotlivých koeficientů růstu 𝑘=
𝑇−1
𝑘2 ∙ 𝑘3 ∙ … ∙ 𝑘 𝑇 =
𝑇−1
𝑦2 𝑦1
𝑦
𝑦𝑇
∙ 𝑦3 ∙ … ∙ 𝑦 2
𝑇 −1
=
𝑇−1
𝑦𝑇 . 𝑦1
(8)
Jednotlivé koeficienty růstu jsou velmi důležité. Po vynásobení stem nám udávají, na kolik procent hodnoty v čase 𝑡 − 1 vzrostla (případně klesla) hodnota v čase 𝑡. Zapíšeme je ve tvaru 𝑦𝑡
𝑘𝑡 = 𝑦
𝑡−1
, 𝑡 = 2, 3, … , 𝑇.
(9)
Koeficienty růstu se používají jednak pro charakterizování dynamiky časové řady, jednak je můžeme použít jako kritérium k nalezení vhodné trendové funkce. [2] 2.2
Dekompozice časové řady
Klasická analýza ekonomických časových řad vychází z předpokladu, že časovou řadu 𝑦𝑡 pro 𝑡 = 1, 2, … , 𝑇 je možné rozložit až na čtyři složky: trendovou (Tt), cyklickou (Ct), sezónní (St) a nesystematickou (at). [2] První tři složky se nazývají složkami systematickými, poslední složka nesystematickou. Jednotlivé složky definujeme jak je uvedeno ve [2] a [5] takto: a) trendová složka – vyjadřuje dlouhodobou tendenci vývoje zkoumaného jevu. Je výsledkem faktorů, které dlouhodobě působí stejným směrem např. technologie výroby, demografické podmínky, podmínky na trhu apod. b) Cyklická složka – vyjadřuje kolísání okolo trendu, ve kterém se střídají fáze růstu a poklesu. Jednotlivé cykly se vytvářejí za období delší než jeden rok a mají nepravidelný charakter, tj. různou délku a amplitudu. c) Sezónní složka – vyjadřuje pravidelné kolísání okolo trendu např. v rámci kalendářního roku. Sezónní faktory se opakují každoročně ve stejných obdobích (délka periody je jeden rok či méně) a vznikají v důsledku střídání ročních období nebo vlivem různých institucionalizovaných zvyků, jako jsou např. svátky a dovolené. d) Nesystematická složka – vyjadřuje nahodilé a jiné nesystematické výkyvy, ale také chyby měření apod. Nezávislé náhodné vlivy se navzájem zesilují a zeslabují, předpokládáme proto, že jejich celkový vliv je nulový. Nesystematická složka má vlastnosti tzv. procesu bílého šumu, jestliže splňuje předpoklady, že náhodné veličiny at mají: -
nulovou střední hodnotu E(at) = 0,
-
konstantní rozptyl D(at) = sa2, 11
-
jsou vzájemně lineárně nezávislé cov(at at-k) = 0 ( neautokorelované)
-
mají normální rozdělení at ~ N(0, sa2).
Trendová a cyklická složka mohou být přítomné v časových řadách všech typů (roční, čtvrtletní, měsíční, týdenní apod.), oproti tomu sezónní složka se vyskytuje pouze v krátkodobých časových řadách, obvykle v měsíčních a čtvrtletních. Nesystematická složka je přítomná v každé časové řadě. Dekompozice časových řad se v praxi často používá z těchto důvodů [2]: -
Analýzou jednotlivých složek časové řady lze odhalit určité zákonitosti vývoje zkoumaného jevu
-
Můžeme časovou řadu očistit od sezónnosti nebo od trendu
-
Často umožňuje přesněji určit předpovědi nejen jednotlivých složek, ale také samotné časové řady
Podle způsobu vyjádření hodnot časové řady pomocí jednotlivých složek rozlišujeme dvě základní dekompozice[5]: a) Aditivní (součtová) dekompozice 𝑦𝑡 = 𝑇𝑡 + 𝐶𝑡 + 𝑆𝑡 + 𝑎𝑡 , kde 𝑡 = 1, 2, … , 𝑇
(10)
Používá se v případě, že variabilita hodnot časové řady je přibližně konstantní v čase. Při aditivní dekompozici jsou jednotlivé složky časové řady ve stejných měrných jednotkách jako původní časová řada. b) Multiplikativní (součinová) dekompozice 𝑦𝑡 = 𝑇𝑡 ∙ 𝐶𝑡 ∙ 𝑆𝑡 ∙ 𝑎𝑡 , kde 𝑡 = 1, 2, … , 𝑇
(11)
Používá se v případě, že se variabilita časové řady v čase mění. 2.3
Analýza trendové složky
Trendem rozumíme hlavní tendenci dlouhodobého vývoje hodnot analyzovaného ukazatele v čase. Trend může být rostoucí, klesající nebo konstantní, kdy hodnoty ukazatele dané časové řady v průběhu sledovaného období mohou kolísat okolo určité, v podstatě neměnné úrovně.[1] Existují různé přístupy k modelování trendu. Uvedeme dva z nich, jak je popsáno v *2] a [5]:
12
-
regresní přístup – pomocí toho přístupu můžeme modelovat trend, pokud vývoj časové řady odpovídá určité matematické funkci času – např. lineární, kvadratický, hyperbolický.
-
Klouzavé průměry – tuto metodu používáme za předpokladu, je-li vývoj časové řady v důsledku silného vlivu nesystematické složky nerovnoměrný, nebo má extrémní hodnoty.
2.3.1
Regresní přístup k modelování trendu
Předpokládáme, že časová řada 𝑦𝑡 pro t=1, 2,...,T je řadou uspořádaných hodnot v čase 𝑡, které získáme měřením určitého ukazatele ve stejně dlouhých časových intervalech 𝑡 a můžeme ji zapsat ve tvaru 𝑦𝑡 = 𝑇𝑡 + 𝑎𝑡 [2],
(12)
kde 𝑇𝑡 je systematická složka a představuje deterministický trend, který lze vyjádřit matematickou funkcí časové proměnné 𝑡 a 𝑎𝑡 představuje nesystematickou složku s vlastnostmi procesu bílého šumu. [2] Myšlenka regresního přístupu v rámci modelování trendu spočívá v nalezení vhodné matematické funkce s vysvětlující časovou proměnnou 𝑡. Trend můžeme vyjádřit přímkou (lineární), parabolou (kvadratický), hyperbolou, případně dalšími jinými křivkami. Odhad parametrů trendových funkcí Nejčastější metodou pro odhad parametrů trendových funkcí je metoda nejmenších čtverců. Tato metoda je výhodná, jelikož minimalizuje rozptyl reziduální složky, je numericky snadná a navazuje na některá kritéria výběru vhodného modelu trendu, která jsou založena na součtu čtverců reziduí. [3] Touto metodou můžeme přímo získat odhady parametrů pro funkce, které jsou lineární z hlediska parametrů, tj. např. pro lineární a parabolickou trendovou funkci. Co se týče např. jednoduché exponenciální funkce, ta je z hlediska parametrů nelineární, proto můžeme použít metodu nejmenších čtverců až po provedení linearizující transformace, tzn. původní model trendu, který je s hlediska parametrů nelineární, převedeme vhodnou transformací na funkci lineární z hlediska parametrů. Nevýhodou této velmi rozšířené metody je, že nemá dobré statistické vlastnosti. Nedává ani nezkreslené ani konzistentní odhady parametrů, proto je dobré tyto odhady považovat jen za počáteční a postupným zlepšováním řešení získat se zadanou přesností konečný odhad. [3] 13
2.3.2
Trendové funkce
Nyní uvedeme tři typy trendových funkcí, které v práci využijeme. Jednotlivé trendové funkce popíšeme tak, jak je uvedeno v [3]: a) Lineární trend Lineární trend je nejčastěji používanou trendovou funkcí. Můžeme jej použít vždy, když chceme alespoň orientačně určit základní směr vývoje časové řady a v určitém omezeném časovém intervalu může sloužit i jako vhodná aproximace jiných trendových funkcí. Lineární trend vyjádříme ve tvaru 𝑇𝑡 = 𝛽0 + 𝛽1 𝑡 ,
(13)
kde 𝛽0 a 𝛽1 jsou neznámé parametry a 𝑡 = 1, 2, … , 𝑇 Metodou nejmenších čtverců odhadneme neznámé parametry 𝛽0 a 𝛽1 . Tato metoda je pro lineární funkci z hlediska parametrů nejlepší, dává totiž nejlepší lineární nevychýlené odhady. Odhady parametrů získané metodou nejmenších čtverců zapíšeme vzorci 𝑏0 = 𝑦 − 𝑏1 𝑡
𝑏1 =
𝑦𝑡 −𝑦 𝑡 𝑡 2 −𝑡 2
(14) (15)
Odhad trendové přímky a zde zároveň i odhad hodnoty časové řady v čase 𝑡 pak zapíšeme ve tvaru 𝑇𝑡 = 𝑦𝑡 = 𝑏0 + 𝑏1 𝑡
(16)
b) Parabolický trend Parabolický trend můžeme zapsat v podobě 𝑇𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 ,
(17)
kde 𝛽0 , 𝛽1 a 𝛽2 jsou neznámé parametry a 𝑡 = 1, 2, … , 𝑇 Tato trendová funkce je z hlediska parametrů lineární. Vzorce pro odhady parametrů pomocí metody nejmenších čtverců zde již uvádět nebudeme. Odhad parabolického trendu bude mít podobu
14
𝑇𝑡 = 𝑦𝑡 = 𝑏0 + 𝑏1 𝑡 + 𝑏2 𝑡 2
(18)
c) Polynomy vyšších stupňů V práci také využijeme polynomy vyšších stupňů. Konkrétně polynom třetího stupně (kubický) a čtvrtého stupně (kvartický). Uvedeme rovnice modelů pro jednotlivé polynomy. Kubický polynom 𝑇𝑡 = 𝑦𝑡 = 𝑏0 + 𝑏1 𝑡 + 𝑏2 𝑡 2 + 𝑏3 𝑡 3
(19)
𝑇𝑡 = 𝑦𝑡 = 𝑏0 + 𝑏1 𝑡 + 𝑏2 𝑡 2 + 𝑏3 𝑡 3 + 𝑏4 𝑡 4
(20)
Kvartický polynom
Oba tyto polynomy jsou z hlediska parametrů lineární, tudíž lze parametry 𝛽𝑖 (kde 𝑖 = 1, 2, … , 𝑑) odhadnout metodou nejmenších čtverců. 2.3.3 Po
Kritéria pro výběr vhodné trendové funkce odhadnutí
modelů
trendových
funkcí
je
potřeba
vyhodnotit,
která
z
uvažovaných trendových funkcí je pro danou časovou řadu lepší, lépe jí vystihující. Kritéria, podle kterých budeme trendové funkce vyhodnocovat jsou -
Grafická analýza a výpočet diferencí
-
Interpolační kritéria
-
Extrapolační kritéria
2.3.3.1
Grafická analýza
Grafické analýza nám pomůže s prvotní představou o typu vhodného modelu, pomocí kterého budeme trend dále analyzovat. Tato metoda je ale velice subjektivní, proto se nedoporučuje zvolit vhodný trend jen na základě grafické analýzy. Vhodným doplňkem vizuální analýzy průběhu časové řady je analýza prvních diferencí. První diference vyhodnotíme podle následujících kritérií [2]: -
jestliže řada prvních diferencí kolísá okolo nuly, volíme konstantní trend.
-
Jestliže řada prvních diferencí kolísá okolo nenulové konstanty, volíme lineární trend.
-
Jestliže řada prvních diferencí má přibližně lineární trend a řada druhých diferencí má přibližně konstantní trend, volíme parabolický trend. 15
2.3.3.2
Interpolační kritéria
Pomocí interpolačních kritérií hledáme nejvhodnější model trendové funkce na základě analýzy časové řady v minulosti. Zjišťujeme, jak přesně jednotlivé vypočtené modely trendových funkcí vystihují skutečný průběh časové řady tj. zkoumáme charakter rozdílů skutečných hodnot časové řady 𝑦𝑡 určitého ukazatele a vyrovnaných hodnot 𝑦𝑡 , resp. odhadnutých hodnot trendu 𝑇𝑡 . Rozdílům 𝑦𝑡 − 𝑦𝑡 = 𝑦𝑡 − 𝑇𝑡 = 𝑎𝑡
(21)
říkáme rezidua a jsou odhadem nesystematické složky 𝑎𝑡 v čase 𝑡 = 1, 2, … , 𝑇. Přesnost vyrovnávání časové řady 𝑦𝑡 , pro 𝑡 = 1, 2, … , 𝑇
měříme průměrnými reziduálními
charakteristikami, které lze zobecnit pro libovolný model časové řady. [2] Uvedeme dále některé z nejpoužívanějších interpolačních kritérií pro vyhodnocení nejvhodnějšího modelu trendu. a) Index determinace R2, modifikovaný(upravený) index determinace R2adj Index determinace vyjádříme vzorcem
𝑅2 = 1 −
𝑇 (𝑦 −𝑦 )2 𝑡 𝑡=1 𝑡 𝑇 (𝑦 −𝑦 )2 𝑡=1 𝑡
∈ < 0,1 >
(22)
Intepretujeme ho jednoduchým způsobem. Čím je hodnota indexu blíže 1 (nebo 100 %), tím více variability hodnot časové řady je modelem vysvětleno , resp. tím lépe model vystihuje trend časové řady. Naopak čím blíže je 0 (nebo 0 %), tím méně vystihuje model trend časové řady.[2] Problémem indexu determinace je, že závisí na počtu parametrů modelu trendové funkce obecně tak, že čím je v modelu vyšší počet parametrů, tím vyšší je index determinace. Vzhledem k tomuto faktu musíme za účelem porovnání modelů s různým počtem parametrů použít modifikovaný index determinace, který
vliv počtu parametrů modelu eliminuje
(zohledňuje). Zapíšeme ho ve tvaru 2 𝑅𝑎𝑑𝑗 = 𝑅2 −
Kde 𝑘 je počet parametrů modelu trendové funkce.
16
1−𝑅 2 𝑘−1 𝑇−𝑘
,
(23)
b) Celkový F-test [2] Pomocí celkového F-testu zjišťujeme, zda je užitečné daný model použít. Testujeme hypotézu o nulových parametrech 𝛽1 , 𝛽2 ,… , 𝛽𝑖 (kromě konstanty 𝛽0 ). Hypotézy zapíšeme ve tvaru 𝐻0 : 𝛽0 = 𝑐, 𝛽1 = 0, … , 𝛽𝑖 = 0 𝐻1 : 𝑛𝑜𝑛 𝐻0 Kde 𝑖 = 0, 1, … , 𝑑. Testové kritérium F-testu má pak podobu 𝐹=
𝑆𝑇 𝑘−1 𝑆𝑒 𝑇−𝑘
, 𝐹~𝐹(𝑘 − 1, 𝑇 − 𝑘)
(24)
Kde 𝑘 je počet parametrů a 𝑇 počet pozorování. 𝑆𝑇 je tzv. součet teoretických čtverců a 𝑆𝑒 je tzv. součet reziduálních čtverců. Jednotlivé součty čtverců vypočítáme podle vzorců 𝑆𝑇 =
𝑇 𝑡=1(𝑦𝑡
− 𝑦)2
𝑆𝑒 =
𝑇 𝑡=1(𝑦𝑡
− 𝑦𝑡 )2 =
(25) 𝑇 2 𝑡=1 𝑎𝑡
(26)
Vyhodnocení tohoto testu je takové, že zamítneme-li na zvolené hladině významnosti 𝐻0 ve prospěch 𝐻1 , můžeme konkrétní model považovat jako celek za vhodný. c) MSE – střední čtvercová chyba Dle [2] je střední čtvercová chyba nejpoužívanějším kritériem. Patří mezi průměrné charakteristiky reziduí a můžeme ji zapsat ve tvaru: 1
𝑀𝑆𝐸 = 𝑇
𝑇 𝑡=1(𝑦𝑡
1
− 𝑦𝑡 )2 = 𝑇
2 𝑇 𝑡=1 𝑎𝑡 .
(27)
V naší práci využijeme charakteristiku RMSE, která je druhou odmocninou z MSE. Jako nejlepší vyhodnocujeme model s nejmenší MSE, resp. RMSE. d) Dílčí t-testy[2] Dílčí t-testy jsou prováděny za účelem zjištění, zda jednotlivé parametry 𝛽𝑖 (resp. příslušné vysvětlujícíc proměnné) do modelu patří. Chceme zjistit, zda jsou jednotlivé parametry různé od nuly, resp. zda vlivy jednotlivých proměnných v modelu jsou statisticky významné a v modelu je můžeme ponechat.
17
𝐻0 : 𝛽𝑖 = 0 𝐻1 : 𝛽𝑖 ≠ 0 kde 𝑖 = 0, 1, … , 𝑑. Testové kritérium dílčích t-testů má tvar 𝛽
𝑡 = 𝑆 𝑖 ~𝑡 𝑇 − 𝑘 ,
(28)
𝛽𝑖
kde 𝛽𝑖 je odhad parametru modelu trendové funkce, 𝑆𝛽𝑖 je odhad směrodatné chyby odhadu testovaného parametru. Testové kritérium 𝑡 je náhodná veličina, která má Studentovo 𝑡 rozdělení s (𝑇 − 𝑘) stupni volnosti. Kritický obor pro hypotézy dílčích t-testů má podobu 𝑡 ≥ 𝑡1−1 𝑇 − 𝑘 .
(29)
𝛼
Jestliže zamítneme nulovou hypotézu ve prospěch alternativní hypotézy, příslušnou vysvětlující proměnnou v modelu ponecháme. Abychom mohli dílčí t-testy a celkový F-test použít jako vyhodnocovací kritérium, musí být splněny požadavky kladené na nesystematickou složku 𝑎𝑡 uvedené v kapitole 2.2. Zda tomu tak je, se prozkoumá s pomocí reziduí 𝑎𝑡 , která jsou chápána jako odhad nesystematické složky. Jednou z předpokládaných vlastností nesystematické složky je, aby byla mezi veličinami v čase 𝑡 a 𝑡 − 𝑘, kde 𝑘 je zpoždění, vzájemná nezávislost požadavek, aby nesystematická složka byla tzv. neautokorelovaná. Tento předpoklad můžeme testovat několika způsoby(např. Durbinův-Watsonův test a reziduální autokorelační funkce). e) Durbinův-Watsonův test (DW) Jak je uvedeno ve [2], Durbinův-Watsonův test prověřuje nepřítomnost autokorelace nesystematické složky prvního řádu. Silnou stránkou tohoto testu je, že přímo zohledňuje, že máme k dispozici pouze hodnoty reziduí a nikoli samotnou nesystematickou složku. 𝐻0 : 𝜌1 = 0 autokorelace prvního řadu není, tj. 𝑐𝑜𝑣 𝑎𝑡 , 𝑎𝑡−1 = 0 𝐻1 : 𝜌1 ≠ 0 autokorelace kde 𝜌1 je testovaný autokorelační koeficient prvního řádu.
18
Testové kritérium Durbinova-Watsonova testu má podobu
𝐷𝑊 =
𝑇 2 𝑡=2 𝑎 𝑡 −𝑎 𝑡−1 𝑇 𝑎 2 𝑡=1 𝑡
∈ 0,4
(30)
Rozhodnutí o zamítnutí nebo nezamítnutí testované hypotézy na 5% hladině významnosti záleží na určení kritických hodnot 𝑑𝑙 a 𝑑𝑢 , které nalezneme například v literatuře věnující se analýze časových řad. Pokud máme k dispozici kritické hodnoty 𝑑𝑙 a 𝑑𝑢 , můžeme provést přesné vyhodnocení na základě tabulky 1. DW
Výsledek
4-dl < DW < 4
H0 se zamítá – autokorelace
4-du < DW < 4-dl
Neumíme rozhodnout, je třeba zvýšit T
2 < DW < 4-du
Přijímá se H0 – autokorelace není
du < DW < 2
Přijímá se H0 – autokorelace není
dl < DW < du
Neumíme rozhodnout, je třeba zvýšit T
0 < DW < dl
H0 se zamítá – autokorelace Tabulka 1 – výsledky DW testu[2]
Pokud k dispozici kritické hodnoty nemáme, můžeme orientačně určit výsledek testu následovně -
Je-li hodnota DW blízko hodnoty 2, nezamítáme H0 (neprokázali jsme autokorelaci reziduí prvního řádu)
-
Je-li hodnota DW blízko hodnoty 0 nebo 4, zamítáme H0 (prokázali jsme autokorelaci reziduí prvního řádu)
f)
Reziduální autokorelační funkce[2]
Autokorelace v řadě 𝑦𝑡 ve zpoždění 𝑘 se odhaduje pomocí výpočtu reziduální autokorelační funkce ve tvaru
𝑟𝑘 = 𝜌𝑘 =
𝑇 𝑡=𝑘+1(𝑦 𝑡 −𝑦 )(𝑦 𝑡−𝑘 −𝑦 ) 𝑇 (𝑦 −𝑦 )2 𝑡=1 𝑡
(31)
kde 𝑦 je aritmetický průměr. Jestliže je v modelu trendu konstanta, pak je průměr reziduí při odhadu parametrů metodou nejmenších čtverců nulový, tudíž v případě reziduální autokorelační funkce by se vzorec (31) odstraněním průměru zjednodušil. 19
Přístup vyhodnocení autokorelace reziduí s využitím tzv. korelogramu, tj. graf reziduální autokorelační funkce a zobrazuje koeficienty autokorelace reziduí, je plně korektní pouze pro dlouhé časové řady. Pro krátké časové řady se jedná pouze o orientační kritérium (je obtížné zamítnout testovanou hypotézu). V naší práci máme časové řady dostatečně dlouhé na to, abychom autokorelaci reziduí vyhodnotili na základě korelogramu. Na základě reziduální autokorelační funkce můžeme rozhodnout o neautokorelovanosti nesystematické složky, jestliže ani jeden autokorelační koeficient 𝑟𝑘 nepřekračuje meze 95% intervalu spolehlivosti 2.3.3.3
−2 2 , 𝑇 𝑇
.
Extrapolační kritéria
Ověření vhodnosti modelu na základě extrapolačních kritérií spočívá v tom, že časovou řadu 𝑦𝑡 , pro 𝑡 = 1, 2, … , 𝑇 rozdělíme na dvě části 𝑇 = 𝑇1 + 𝑇2 . První část řady 𝑇1 slouží k výběru modelu trendu, odhadu jeho parametrů a ověření vhodnosti modelu pomocí interpolačních kritérií. Druhá část, která má délku (𝑇 − 𝑇1 ) pozorování, pro 𝑡 = 𝑇1 + 1, 𝑇1 + 2, … , 𝑇1 + 𝑇2 = 𝑇 slouží k určení předpovědi známé skutečnosti a k ověření její přesnosti. Tato kritéria tedy použijeme, pokud chceme ověřit, zda je vybraný model trendové funkce vhodný pro tvorbu předpovědi. Jako představitele extrapolačních kritérií vybereme Chowův předpovědní test, který pracuje na principu popsaném výše. Část 𝑇1 tedy slouží k odhadu modelu trendu a část 𝑇2 ke zjištění, zda je vektor parametrů konstantní: 𝐻0 : 𝑣𝑒𝑘𝑡𝑜𝑟 𝛽 𝑗𝑒 𝑘𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑛í 𝐻1 : 𝑛𝑜𝑛 𝐻0 Nulovou hypotézu taktéž můžeme chápat jako neexistenci strukturální změny před a po začátku předpovědního období. Interpretovat můžeme tento test tak, že když zamítneme nulovou hypotézu na hladině významnosti 5%, znamená to, že model není vhodný pro tvorbu předpovědi. 2.3.4
Klouzavé průměry
Metody klouzavých průměrů se liší od regresního přístupu tím, že nepředpokládají konstantní parametry trendové funkce v čase. Z tohoto důvodu se klouzavé průměry řadí mezi tzv. adaptivní metody. Tato metoda se zakládá na myšlence, že časovou řadu 𝑦𝑡 rozdělíme na kratší časové úseky o počtu hodnot 2𝑛 + 1, kde 𝑛 je počet zvolených hodnot z časové řady, na kterých odhadujeme lokální polynomické trendy určitého stupně(např. konstantní – nultý stupeň, lineární – první stupeň). Postup je následující – první část řady má 2𝑛 + 1 hodnot, 20
které označujeme 𝑦1 , 𝑦2 , … , 𝑦2𝑛+1 , z nich odhadneme parametry lokálního trendu vhodným polynomem a vypočítáme jeho odhad 𝑇𝑛+1 , stejný polynom odhadneme na druhé skupině hodnot řady 𝑦2 , 𝑦3 , … , 𝑦2𝑛+2 a vypočítáme odhad lokálního trendu 𝑇𝑛+2 , tímto klouzavým způsobem postupujeme až do konce časové řady.[2] Pokud chceme použít metodu klouzavých průměrů k vyrovnání časové řady, musíme si nejprve zvolit počet hodnot, z nichž budeme klouzavé průměry počítat – tzn. délku klouzavé části 𝑚 hodnot. Platí, že čím větší 𝑚 zvolíme, tím budeme mít časovou řadu více vyrovnanou. V naší práci se věnujeme zkoumání časových řad se sezónností. V takovém případě se volí délka klouzavé části podle počtu sezón. Při takto zvolené délce klouzavé části dojde také kromě vyhlazení k odfiltrování sezónní složky, po kterém je lépe viditelný odhadovaný trend. Klouzavé průměry dělíme na dva typy: a) Prosté klouzavé průměry Prosté klouzavé průměry požíváme, pokud volíme délku klouzavé části 𝑚 = 2𝑛 + 1, tedy liché číslo. Prosté klouzavé průměry můžeme obecně zapsat ve tvaru:
𝑦𝑡 =
𝑦 𝑡−𝑛 +⋯+𝑦 𝑡 +⋯+𝑦 𝑡+𝑛 𝑚
(32)
Jde v podstatě o výpočet úhrnu příslušné klouzavé části vydělený délkou klouzavé části.[2] b) Centrované klouzavé průměry Centrované klouzavé průměry používáme, pokud volíme délku klouzavé části 𝑚 = 2𝑛, tudíž sudé číslo. Centrované klouzavé průměry můžeme obecně zapsat ve tvaru:
𝑦𝑡 = 2.4
𝑦 𝑡−𝑛 +2𝑦 𝑡−𝑛 +1 +⋯+2𝑦 𝑡 +⋯+2𝑦 𝑡+𝑛 −1 +𝑦 𝑡+𝑛 2𝑚
(33)
Analýza sezónní složky
„Pří analýze časových řad s periodicitou kratší než jeden rok se setkáváme téměř vždy s existencí sezónních vlivů, reprezentovaných v modelu časové řady sezónní složkou.“ [3] Souborem přímých a nepřímých příčin, které se rok co rok pravidelně opakují v důsledku pravidelného koloběhu Země okolo Slunce jsou sezónní vlivy. Výsledkem působení těchto sezónních vlivů na analyzovanou časovou řadu jsou tzv. sezónní faktory, což jsou pravidelné výkyvy zkoumané řady vůči určitému nesezónnímu vývoji řady v průběhu let.[3] 21
Pro analýzu sezónní složky jsou vhodná měsíční neco čtvrtletní data, v naší práci budeme pracovat s daty měsíčními. Přítomnost sezónní složky v časové řadě je většinou viditelná z průběhu časových řad. Pokud si nejsme přítomností sezónní složky jistí, či jako podporu pro náš názor o přítomnosti sezónní složky, můžeme použít pro kontrolu F-test sezónnosti. 2.4.1
F-test sezónnosti
Testujeme hypotézu o nepřítomnosti sezónní složky v časové řadě 𝐻0 : č𝑎𝑠𝑜𝑣á ř𝑎𝑑𝑎 𝑠𝑒𝑧ó𝑛𝑛í 𝑠𝑙𝑜ž𝑘𝑢 𝑛𝑒𝑜𝑏𝑠𝑎ℎ𝑢𝑗𝑒 𝐻1 : č𝑎𝑠𝑜𝑣ář𝑎𝑑𝑎 𝑠𝑒𝑧ó𝑛𝑛í 𝑠𝑙𝑜ž𝑘𝑢 𝑜𝑏𝑠𝑎ℎ𝑢𝑗𝑒 Tento test je založen na principu jednofaktorové analýzy rozptylu, kdy třídícím faktorem je sezóna (resp. období, v našem případě kalendářní měsíc). Vyhodnocení F-testu sezónnosti je takové, že pokud zamítneme nulovou hypotézu ve prospěch hypotézy alternativní, znamená to, že v časové řadě je sezónní složka přítomná. 2.4.2
Sezónní faktory a sezóní očišťování
Dalším krokem bude v analýze sezónní složky kvantifikace sezónních faktorů a následné očištění analyzované časové řady od sezónní složky. Při modelování sezónní složky při výpočtu sezónních faktorů musíme brát na vědomí, že sezónní faktory se uvádějí v různých jednotkách při předpokladu aditivní nebo multiplikativní dekompozice. a) Aditivní dekompozice Předpokládáme, že aditivní řada obsahuje trendovou a sezónní složku 𝑦𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝑎𝑡 a sezónní faktory(v případě aditivní dekompozice se často označují jako sezónní odchylky) se pravidelně opakují a v jednotlivých letech se jejich velikost nemění předpokládáme, že se tyto odchylky v rámci roku vykompenzují; pak platí 𝑗 𝑠=1 𝑆𝑗
= 0,
(34)
kde 𝑆𝑗 je odhad sezónní odchylky v j-té sezónně. b) Multiplikativní dekompozice Při multiplikativní dekompozici předpokládáme, že časová řada má tvar 𝑦𝑡 = 𝑇𝑡 . 𝑆𝑡 . 𝑎𝑡 . Tento předpoklad je vhodný v případě, kdy se sezónní faktory(které se v případě multiplikativní 22
dekompozice často označují jako sezónní indexy) mění přímo úměrně dosažené úrovně trendové složky; pak platí 𝑗 𝑠=1 𝑆𝑗
= 𝑠.
(35)
V naší práci budeme pracovat s měsíčními časovými řadami za předpokladu multiplikativní dekompozice. 2.4.2.1
Metoda sezónní dekompozice
Nejstarší metoda pro výpočet odhadu sezónních faktorů se nazývá metoda sezónní dekompozice. Tato metoda pracuje na principu odhadu složek postupně, v jednotlivých krocích(pro každou složku zvlášť).[2] 1. Předpokládá se multiplikativní model časové řady
𝑦𝑡 = 𝑇𝑡 . 𝑆𝑡 . 𝑎𝑡
(36)
2. Odhadneme trend pomocí centrovaných klouzavých průměrů délky 𝑚
𝑇𝑡 = 𝐶𝐾𝑃𝑡
(37)
3. Dále odhadneme sezónní a nesystematickou složku
𝑆𝐼𝑡 =
𝑦𝑡
(38)
𝑇𝑡
4. Poté vypočteme průměrné sezónní indexy (=průměry ze všech odpovídajících si sezón) (Tento vzorec předpokládá „roční“ úplnost měsíčních časových řad)
𝑠𝑗 =
𝑟−1 𝑖=1 𝑆𝐼 𝑖𝑗
𝑟−1
(39)
Kde j = 1, ... , s je počet sezón, i = 1, ... , r je počet let 5. Vlastní sezónní indexy vypočítáme po úpravě průměrných sezónních indexů
𝑠𝑗 = 𝑠𝑗 / 𝑠 𝑠1 𝑠2 … 𝑠𝑠
(40)
Tzv. sezónně očištěnou časovou řadu tj. časovou řadu s odfiltrovanou sezónní složku získáme vydělením hodnot původní časové řady příslušnými sezónními indexy.
23
2.4.2.2 Regresní metoda modelování sezónnosti V práci také využijeme výpočet sezónních faktorů pomocí regresní metody modelování sezónnosti. Rozdíl oproti klasické metodě sezónní dekompozice je, že regresní metoda modelování sezónnosti odhaduje všechny parametry modelu současně(=trendovou i sezónní složku v jednom kroku) a předpokládá aditivní dekompozici časové řady 𝑦𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝑎𝑡 .[2] Touto metodou počítáme regresní model s umělými nula-jedničkovými proměnnými 𝑑𝑗𝑡 , kde 𝑗 = 1, 2, … , 𝑠, (které přiřazují hodnotě časové řady jedničku, pokud se nachází v uvažované sezóně a nulu jinak), které v modelu představují sezónní složku . Trendovou složku modelujeme klasicky trendovými funkcemi. Např. pro lineární trend ve čtvrtletní časové řadě zvolíme regresní model 𝑦𝑡 = 𝑇𝑡 + 𝑆𝑡 + 𝑎𝑡 = 𝛽0 + 𝛽1 + 𝛿1 𝑑1𝑡 + 𝛿2 𝑑2𝑡 + 𝛿3 𝑑3𝑡 + 𝑎𝑡
(41)
Je-li v modelu konstanta, pak je umělých proměnných vždy 𝑠 − 1(pokud bychom měli umělých proměnných 𝑠, byla by konstanta dokonalou lineární kombinací pomocných proměnných a pro odhad parametrů bychom pak nemohli použít metodu nejmenších čtverců). Nevýhodou této metody je, že nezískáme přímo hodnoty sezónních odchylek. Finální model s odhadnutými velikostmi sezónní složky pro všechny sezóny je třeba dopočítat v následujících krocích: 1. Spočítáme prostý aritmetický průměr(kde 𝑑𝑠 = 0) odhadnutých regresních parametrů pro pomocné proměnné
𝑑=
𝑑 1 +𝑑 2 +⋯+𝑑 𝑠−1 𝑠
(42)
2. Velikost sezónních odchylek spočítáme odečtením průměru od jednotlivých hodnot umělých proměnných:
𝑠1 = 𝑑1 − 𝑑 𝑠2 = 𝑑2 − 𝑑 ...
(43)
𝑠𝑠−1 = 𝑑𝑠−1 − 𝑑 𝑠𝑠 = −𝑑 3. Přepočteme konstantu. Například u lineárního trendu by to vypadalo takto 𝑇𝑡 = 𝑏0 + 𝑑 + 𝑏1 𝑡
(44)
4. Vypočteme vyrovnané hodnoty a předpovědi. Například čtvrtletní časová řada s lineárním trendem 𝑦𝑡 = 𝑇𝑡 + 𝑆𝑡 = 𝑏0 + 𝑑 + 𝑏1 𝑡 + 𝑠1 𝑑1𝑡 + 𝑠2 𝑑2𝑡 + 𝑠3 𝑑3𝑡 + 𝑠4 𝑑4𝑡
24
(45)
3.
Analýza časových řad počtu přepravovaných osob
Druhá část této bakalářské práce se bude zabývat vlastní analýzou časových řad počtu přepravovaných osob na třech vybraných evropských letištích za období, pro která jsou data k dispozici. Jak již bylo zmíněno v úvodu, jednotlivá letiště byla vybrána na základě jejich vzájemné srovnatelnosti z hlediska významu v dané zemi a z pohledu geografické blízkosti. Byla vybrána Letiště Václava Havla v Praze, Letiště Franze Josefa Strauße Mnichov a Letiště Vídeň Schwechat. Letiště Franze Josefa Strauße v Mnichově patří mezi rozlohou největší a nejvytíženější letiště v celé Evropě. Je důležitým spojovacím uzlem mezi dalšími letišti a dalšími destinacemi. Letiště Václava Havla Praha se nachází v hlavním městě České republiky a je také největším letištěm, které se na území České republiky nachází. Pro cestovní ruch v celé České republice a především v Praze je toto letiště nepostradatelnou součástí. Vídeňské letiště Schwechat je podobně jako letiště Václava Havla v Praze nepostradatelnou součástí hlavně pro cestovní ruch ve Vídni. Předpokládáme, že z vybraných letišť bude nejvytíženější letiště v Mnichově. Jelikož je mnichovské letiště největší z našich analyzovaných letišť, očekáváme největší počty přepravených cestujících, největší vyrovnanost v jednotlivých měsících během roku a předpokládáme také vzrůst počtu přepravených cestujících v roce 2014. Jako nejméně vytížené co do počtu přepravených cestujících očekáváme letiště v Praze. Abychom nemuseli vypisovat v každé tabulce a grafu celý název letiště, budeme uvádět zkrácené názvy. Pro Letiště Václava Havla v Praze použijeme „Praha“, pro Letiště Franze Josefa Strauße Mnichov „Mnichov“ a pro Letiště Vídeň Schwechat „Vídeň“. V tabulkách budou letiště uspořádaná abecedně.
25
3.1
Popisná statistika V této kapitole se budeme zabývat základními popisnými charakteristikami časových řad. Průměr
Rozptyl
Směrodatná
Variační koeficient
odchylka Mnichov
2 616 213
314 162 321 080
560 502
21,4%
Praha
857 307
71 988 463 667
268 307
31,3%
Vídeň
1 489 338
132 087 865 324
363 439
24,4%
Tabulka 1 - míry polohy a míry variability měsíčních časových řad
V tabulce 1 vidíme, že za sledované období odbavilo v průměru měsíčně nejvíce cestujících letiště v Mnichově. Toto zjištění odpovídá skutečnosti, že letiště v Mnichově je co do rozlohy největší z analyzovaných letišť. Naopak Praha ve sledovaném období odbavila v průměru měsíčně nejméně cestujících, což jsme také předpokládali, mj. vzhledem k velikosti letiště a důležitosti jakožto spojovacího uzlu mezi dalšími letišti a destinacemi. Z tabulky 1 vidíme, že nejmenší hodnotu směrodatné odchylky má Praha. Směrodatná odchylka je charakteristikou absolutní variability, tudíž není vhodná pro porovnání časových řad s rozdílnou úrovní. Proto použijeme pro porovnání vybraných časových řad variační koeficient, který porovnává relativní variabilitu. Z tabulky 1 vidíme, že nejnižší relativní variabilitu, tj. kolísání měsíčních počtů přepravených osob, má letiště Mnichov, naopak největší relativní variabilitu má letiště Praha. Také časová řada pro Vídeň má z pohledu variačního koeficientu za analyzované období celkem nízkou variabilitu. 2001
2002
2003
Mnichov -18 060 19 735 987
2004
2005
2006
2007
2010
2011
22 642 -10 701 18 874
34 423
20 126 6 399
12 529
17 713
17 151 1 852
16 499
4 823
8 043
20 634
14 830
28 626 2 660
18 378
21 347
27 322 17 208 20 953
12 339 19 756 22 687
Praha
3 121
8 284
Vídeň
-
14 379 17 582 16 642 17 202
16 214 19 699 7 837
2008
2009
2012
5 516
2013
Tabulka 2 – Průměrné absolutní přírůstky měsíčních časových 2001-2013
V tabulce 2 jsou uvedeny průměrné absolutní měsíční přírůstky za všechna tři letiště. V tabulce 2 vidíme, že v roce 2001 byl v Mnichově za celý rok průměrný absolutní přírůstek roven hodnotě -18 060, což znamená, že v průměru se měsíčně v roce 2001 absolutně snížil počet odbavených cestujících o tuto hodnotu. I přesto, že jsme tento ukazatel definovali jako „přírůstek“, může nabývat záporných hodnot, pak je vhodnější hovořit o úbytku. Dále kupříkladu v roce 2010 ve Vídni byla hodnota průměrného měsíčního přírustku 21 347, což ukazuje průměrný měsíční vzrůst počtu cestujících. Takto můžeme interpretovat všechny hodnoty uvedené v tabulce. 26
Nízké hodnoty průměrných absolutních přírůstků v roce 2008 speciálně na pražském a vídeňském letišti jsou trochu zarážející. Jednou z možných interpretací je, že v průběhu roku byly hodnoty počtu přepravovaných cestujících velice podobné. Nenastávaly tak veliké nárůsty a následně poklesy mezi jednotlivými měsíci. Na mnichovském letišti šlo dokonce o průměrný mesíční pokles o 10 701 cestujících. 2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
Mnichov
0,988
1,012
1,001
1,007
1,010
1,011
1,010
0,995
1,008
1,015
1,008
1,002
1,005
Praha
1,009
1,022
1,035
1,034
1,012
1,024
1,022
1,002
1,023
1,007
1,012
1,008
1,028
Vídeň
-
1,018
1,019
1,017
1,016
1,013
1,022
1,002
1,015
1,016
1,019
1,012
1,014
Tabulka 3 – Průměrné koeficienty růstu měsíčních časových řad
Interpretace průměrných koeficientů růstu, vypočtených podle (8) je podobná interpretaci průměrných absolutních přírůstků, s tím rozdílem, že vzhledem k relativnímu vyjádření umožňují lepší porovnání různě velkých letišť. Dle dosažených výsledků můžeme například říci, že v Mnichově v roce 2001 byl průměrný meziměsíční koeficient růstu 0,988, což představuje meziměsíční pokles přepravených cestujících v roce 2001 v průměru o 1,2 %. Naopak v roce 2004 v Praze byl průměrný koeficient růstu 1,034 což nám říká, že v průměru meziměsíčně stoupl počet přepravených cestujících o 3,4 %. Pro lepší znázornění kolísání indexů zobrazíme graf průměrných koeficientů růstu. 1,04 1,03 1,02 Mnichov
1,01
Praha 1
Vídeň
0,99 0,98
Graf 1 – průměrné meziměsíční koeficienty růstu v jednotlivých letech
27
3.2
Analýza sezónní složky
Přestože přítomnost sezónní složky v měsíčních časových řadách je zřejmá již ze samotného průběhu časové řady, je možné přítomnost sezónních složky také formálně otestovat. K tomuto účelu poslouží výpočet F-testu sezónnosti v softwaru EViews 7.0 za pomoci funkce Census X12. V případě prokázání přítomnosti sezónní složky ji můžeme vyčíslit např. prostřednictvím výpočtu sezónních indexů, které je možné následně využít pro výpočet sezónně očištěné časové řady. 3.2.1
F-test sezónnosti
Pro výpočet F-testu s předpokladem multiplikativní dekompozice použijeme časové řady původních zjištěných hodnot. Multiplikativní dekompozici volíme na základě mírně vzrůstající variability hodnot v čase(viz graf 3,4,5). Pro ilustraci si zobrazíme výstup F-testu pro letiště v Praze. Test for the presence of seasonality assuming stability. Sum of Squares 76926.9333 1243.3039 78170.2372
Between months Residual Total
Dgrs.of Freedom 11 144 155
Mean Square 6993.35757 8.63405
F-Value 809.974**
**Seasonality present at the 0.1 per cent level.
Tabulka 4 – F-test sezónnosti letiště Praha
Na základě výstupu můžeme na hladině významnosti 0,1 zamítnout nulovou hypotézu ve prospěch alternativní hypotézy, což znamená, že časová řada sezónní složku dle výsledků tohoto testu obsahuje. 3.2.2
Sezónní indexy
Prostřednictvím sezónnních indexů můžeme zjistit zda-li jsou v jednotlivých měsících hodnoty nad nebo pod ročním průměrem hodnot časové řady. V tabulce uvedeme sezónní indexy pro všechna tři letiště. Leden
Únor
Březen
Duben
Květen
Červen
Červenec
Srpen
Září
Říjen
Listopad Prosinec
Mnichov
0,8208
0,8345
0,9906
0,9919
1,0690
1,0878
1,1230
1,1192
1,1622
1,1025
0,9408
0,8433
Praha
0,7113
0,6963
0,8988
0,9745
1,0779
1,2182
1,3461
1,3685
1,2729
1,0779
0,8478
0,8194
Vídeň
0,7817
0,7669
0,9302
0,9889
1,0854
1,1297
1,2239
1,1937
1,1761
1,0822
0,9080
0,8759
Tabulka 5 - sezónní indexy měsíčních časových řad za období 2001-2013
Interpretovat můžeme jednotlivé indexy následujícím způsobem. Vezmeme-li například index měsíce března v Praze, který má hodnotu 0,8988, můžeme říci, že každý rok je průměrně 28
v měsíci březnu počet přepravených osob z pražského letiště pod ročním průměrem hodnot časové řady o 10,12 %. Naopak v měsíci červenci jsou hodnoty přepravovaných osob ve Vídni průměrně o 22,39 % nad ročním průměrem hodnot časové řady. Takto můžeme interpretovat všechny hodnoty, které byly zjištěny. Z tabulky můžeme vyčíst, že mezi měsíce, kdy jsou počty přepravovaných osob nižší než roční průměr, patří leden, únor, březen, duben, listopad a prosinec. Tuto skutečnost můžeme přičíst k počasí, resp. k dlouhodobým klimatickým podmínkám. Předpokládáme, že hlavním důvodem menšího počtu cestujících je, že do střední Evropy, kde naše tři vybraná letiště leží, lidé cestují především za kulturou. V důsledku chladnějšího počasí tedy klesá hlavně turismus, což způsobuje menší počet přepravených cestujících v těchto měsících. Lidé žijící v Evropě sice cestují do teplejších destinací právě v evropských chladných měsících, ale není to takové množství lidí jako cestujících, hlavně turistů, mířících do evropských kulturních měst v letních měsících. Sezónní ndexy těchto měsíců se pohybují pod hodnotou 1, což značí hodnoty pod ročním průměrem časové řady. Naopak mezi měsíce, kdy hodnoty přepravovaných osob překračují roční průměr časové řady, patří měsíce květen až září. Tato skutečnost platí pro všechna tři letiště. Pro nás zajímavé může být to, že z pražského letiště se nejvíce cestujících odbaví v měsíci srpnu, kdy jsou hodnoty přepravovaných osob o 36,8 % nad průměrem ročního průměru časové řady. Mnichov ani Vídeň takové nárůsty v měsících, kdy letiště odbavilo nejvíce cestujících, nevykazují. Počty cestujících se neliší v závislosti na měsíci v roce tolik jako je tomu v Praze. Pro přehledné znázornění výše popsaných skutečností je výhodné také grafické znázornění dosažených výsledků. 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6
Mnichov Praha Vídeň
Graf 2 – sezónní indexy měsíčních časových řad za období 2001-2013
29
3.2.3
Sezónní očišťování
Vypočtené sezónní indexy použijeme pro výpočet sezónně očištěných časových řad. Tyto očištěné časové řady dále použijeme pro analýzu trendové složky, které se budeme věnovat v další kapitole. Pro znázornění zobrazíme grafy hodnot původních časových řad a sezónně očištěných časových řad pro všechna letiště. Na ose x jsou uvedeny roky, za které jsou hodnoty naměřeny, osa y udává počet cestujících. 4,000,000 3,600,000 3,200,000 2,800,000 2,400,000 2,000,000 1,600,000 1,200,000 01
02
03
04
05
06
07
MNICHOV
08
09
10
11
12
13
MNICHOVSA
Graf 3 – původní a sezónně očištěná časová řada-Mnichov 1,600,000 1,400,000 1,200,000 1,000,000 800,000 600,000 400,000 200,000 01
02
03
04
05
06 PRAHA
07
08
09
10
11
12
PRAHASA
Graf 4 – původní a sezónně očištěná časová řada-Praha
30
13
2,400,000 2,200,000 2,000,000 1,800,000 1,600,000 1,400,000 1,200,000 1,000,000 800,000 600,000 01
02
03
04
05
06
07
VIDEN
08
09
10
11
12
13
VIDENSA
Graf 5 – původní a sezónně očištěná časová řada-Vídeň
3.3
Analýza trendové složky
Tato část bakalářské práce se bude věnovat analýze trendové složky jednotlivých časových řad. Kapitolu rozdělíme do třech částí, každé letiště budeme zkoumat zvlášť. Na základě grafické analýzy odhadneme předběžnou trendovou funkci, která se nám bude zdát jako nejvhodnější. Následně pomocí softwaru Eviews 7.0 vypočítáme hodnoty interpolačních kritérií, podle kterých vyhodnotíme nejvhodnější modely trendu časových řad. Trendy budeme odhadovat s využitím sezónně očištěných časových řad. Nejvhodnější modely trendu časových řad vyhodnotíme pomocí interpolačních kritérií popsaných v teoretické části práce v kapitole 2.3.3.2. 3.3.1
Mnichov
Z grafu 3 bychom mohli vyvodit, že řada obsahuje nejspíše lineární trend. Na základě ověřování vhodnosti modelu za pomocí výpočtu prvních diferencí nám také vychází jako nejvhodnější trend lineární. Pro lepší znároznění uvedeme graf prvních diferencí.
110000 90000 70000 50000 30000 10000 -10000 -30000 -50000 -70000
Graf 6 – první diference měsíční časové řady – Mnichov
31
Tento předpoklad dále ověříme pomocí interpolačních kritérií, jejichž přehled uvádíme v následující tabulce a uvedeme tabulku s výsledky pro výběr lepšího modelu trendu pro letiště Mnichov. Trend
R2 adj
p-hodnota
t-testy
RMSE
DW
ACF
0,911146 0,000000
0,0000
135740,7
0,492742
autokorelace
Parabolický 0,916400 0,000000
0,0000
131237,8
0,527387
autokorelace
F-testu Lineární
0,0013 Tabulka 6 – Interpolační kritéria – Mnichov
Z tabulky 6 můžeme vyhodnotit vhodnější model trendové funkce pro konkrétní časovou řadu. Upravený index determinace má vyšší hodnotu u parabolického trendu,podle p-hodnoty celkového F-testu bychom mohli zvolit oba modely, jelikož u obou na zvolené hladině významnosti 5% zamítáme testovanou hypotézu. Nulové hypotézy dílčích t-testů taktéž zamítáme na hladině významnosti 5%. Na základě kritéria minimálního RMSE bychom opět vybrali parabolický trend. Ke zjištění případné autokorelace reziudí se podíváme na korelogram, který ukazuje, zda autokorelační koeficienty překračují meze intervalu či nikoliv, jak jsme popsali v kapitole 2.3.3.2. Jak můžeme vidět v tabulce 6, prokázali jsme autokorelaci reziduí u obou trendů. Nemůžeme tudíž použít testy o parametrech ani celkový F-test jako vyhodnocovací kritérium tak, jak je naznačeno v předchozím odstavci. V této časové řadě by nepomohlo odstranit autokorelaci ani kdybychom použili pro výpočet trendové funkce vyšší polynom. Nicméně vyšší upravený index determinace a také minimální RMSE ukazují, že jako relativně nejvhodnější model trendové funkce zvolíme trend parabolický. Odhadnutý model pak můžeme zapsat ve tvaru 𝑇𝑡 = 1 757 209 + 12688,20𝑡 − 19,11695𝑡 2 , kde 𝑡 = 1,2, … , 𝑇. 3.3.2
Praha
Opět zobrazíme graf prvních diferencí a odhadneme nejvhodnější model pro časovou řadu letiště Praha. Podle grafu prvních diferencí bychom mohli říci, že v očištěné časové řadě se vyskytuje trend parabolický. Opět si náš předpoklad ověříme pomocí interpolačních kritérií.
32
40000 30000 20000 10000 0 -10000 -20000 -30000 -40000 -50000
Graf 7 –první diference měsíční časové řady – Praha
Níže uvedeme přehled interpolačních kritérií a vybereme nejvhodnější model trendové funkce pro očištěnou časovou řadu hodnot letiště Praha. R2 adj
Trend
p-hodnota
t-testy
RMSE
DW
ACF
F-testu Lineární
0,516855
0,000000
0,0000
124890,8
0,088820
autokorelace
Parabolický
0,884761
0,000000
0,0000
60796,38
0,378222
autokorelace
0,0000 Tabulka 7 – Interpolační kritéria Praha
U této časové řady intepolační kritéria jasně potvrdily původní předpoklad, že vhodnější model trendové funkce pro tuto očištěnou časovou řadu je trend parabolický. Upravený index determinace má vyšší hodnotu, p-hodnoty celkového F-testu i nulové hypotézy dílčích t-testů jsou v pořádku zamítnuté na hladině významnosti 5%. Odmocnina ze střední čtvercové chyby je u parabolického trendu nižší. Ovšem reziduální autokorelační funkce opět prokázala autokorelaci reziduí. Opět by v tomto případě nemopohl odstranění autokorelace reziduí ani výpočet vyššího polynomu. Na základě vyššího upraveného indexu determinace a minimální hodnoty RMSE vybereme jako relativně vhodnější model trendové funkce trend parabolický. Odhadnutý model můžeme zapsat ve tvaru 𝑇𝑡 = 360 040,7 + 12 329,93𝑡 − 60,14962𝑡 2 , kde 𝑡 = 1,2, … , 𝑇. 3.3.3
Vídeň
Analogickou analýzu trendu provedeme taktéž pro letiště Vídeň. Nejdříve si zobrazíme graf prvních diferencí a následně určíme finální model nejvhodnějšího modelu trendu.
33
50000 40000 30000 20000 10000 0 -10000 -20000 -30000 -40000 -50000
Graf 8 – první diference měsíční časové řady – Vídeň
Na základě grafu 8 předběžně určíme jako vhodnější model trend lineární. Pro konečné rozhodnutí uvedeme hodnoty intepolačních kritérií. Trend
R2 adj
p-hodnota
t-testy
RMSE
DW
ACF
0,908205 0,000000
0,0000
82724,37 0,281969 autokorelace
Parabolický 0,930524 0,000000
0,0000
71714,60 0,374126 autokorelace
F-testu Lineární
0,0000 Tabulka 8 – Interpolační kritéria Vídeň
Na základě upraveného indexu determinace je lepší parabolický trend, p-hodnoty F-testu i nulové hypotézy dílčích t-testů zamítneme na hladině významnosti 5% u obou modelů, RMSE je minimální u parabolického trendu. Na základě korelogramu jsme opět prokázali autokorelaci reziduí. V této časové řadě prokážeme autokorelaci reziduí i pokud použijeme k výpočtu vyššího polynom než jsou dva uvedené. Nicméně se opakuje situace z Mnichova, kde jsme také předpokládali z grafické analýzy lineární trend, tento fakt však interpolační kritéria vyvrátily, a na jejich základě volíme trend parabolický. Odhadnutý model zapíšeme ve tvaru 𝑇𝑡 = 795 140,4 + 10 793,32𝑡 − 26,68278𝑡 2 , kde 𝑡 = 1,2, … , 𝑇. 3.4
Regresní metoda modelování sezónnosti
Jako alternativu k výše prezentovanému postupu odhadneme také model se sezónními nula jedničkovýmí umělými proměnnými, kde odhadujeme trend a sezónnost současně. Při tomto postupu předpokládáme aditivní dekompozici, čímž se dopouštíme určitého zjednodušení (dle 34
grafů 3, 4 a 5 je oprávněnost tohoto předpokladu diskutabilní). Závěry z této analýzy pak porovnáme s výsledky odhadu modelu trendu pomocí sezónně očištěných časových řad. Mnichov Zobrazíme tabulku s interpolačními kritérii, na jejichž základě rozhodneme o vhodnějším modelu trendu. Tabulku s hodnotami parametrů a umělých proměnných nalezneme v příloze v tabulce P1. Trend
R2 adj
p-hodnota
t-testy
RMSE
DW
ACF
0,904809 0,000000
0,0000
135387,0 0,493487 autokorelace
Parabolický 0,910423 0,000000
0,0000
130874,0 0,528352 autokorelace
F-testu Lineární
0,0059 Tabulka 9 – interpolační kritéria Mnichov – regresní metoda
Z výše uvedené tabulky můžeme vyčíst skutečnost, že vhodnější model trendové funkce na základě regresní metody modelování sezónnosti pro tuto časovou řadu je trend parabolický. I při tomto přístupu k sezónní složce prokázala reziduální autokorelační funkce autokorelaci reziduí. Proto nemůžeme použít ani testy o parametrech ani celkový F-test jako vyhodnocovací kritérium. Jestliže to porovnáme s volbou nejlepšího modelu trendu na základě sezónně očištěných časových řad, zjistíme, že parabolický trend je ten nejvhodnější trend dle obou přístupů modelování sezónnosti. S využitím vzorců (42) a (43) dopočítáme sezónní odchylky z pohledu regresního přístupu k sezónní složce a zapíšeme finální model parabolického trendu. 𝑠1 = −468 061
𝑠2 = −441 262
𝑠3 = −36 130,5
𝑠4 = −28 366,2
𝑠5 = 168 748,5
𝑠6 = 218 590,7
𝑠7 = 307 309,8
𝑠8 = 277 359,7
𝑠9 = 387 474,9
𝑠10 = 242 680
𝑠11 = −189 647 𝑠12 = −438 697
Tabulka 10 – sezónní faktory – regresní metoda – Mnichov 2001-2013
Interpretovat můžeme hodnoty následujícím způsobem. Vybereme např. hodnotu 𝑠3 , která říká, že v průměru každoročně v březnu byl průměrný počet přepravených cestujících nižší oproti trendu o 36 131 osob. Naopak hodnota 𝑠9 říká, že každoročně v září byl průměrný počet přepravených cestujících vyšší oproti trendu o 387 475 osob. 35
Po přepočtení odhadu konstanty 𝑏0 uvedeme finální podobu odhadu modelu pro Mnichov 𝑦𝑡 = 1 773 850 + 12 630,3𝑡 − 18,21𝑡 2 + sezónní odchylka pro daný kalendářní měsíc Praha Provedeme analogickou analýzu jako u Mnichova také pro Prahu. Tabulku s hodnotami parametrů a umělých proměnných nalezneme v příloze v tabulce P2. Trend
R2 adj
p-hodnota
t-testy
RMSE
DW
ACF
0,741530 0,000000
0,0000
130599,8 0,100556 autokorelace
Parabolický 0,922646 0,000000
0,0000
71195,93 0,342087 autokorelace
F-testu Lineární
0,0000 Tabulka 11 – interpolační kritéria Praha – regresní metoda
V tabulce 11 vidíme porovnání dvou uvažovaných trendů dle interpolačních kritérií. Na základě upraveného indexu determinace a minimálního RMSE vybereme jako vhodnější model trend parabolický. Opět stejný výsledek jako při volbě vhodného modelu trendu za pomoci očíštěných časových řad. Stejné zůstává i vyhodnocení reziduální autokorelační funkce, kde jsme za pomocí korelogramu opět prokázali autokorelaci reziduí. Dopočítáme a uvedeme sezónní odchylky pro časovou řadu z pohledu regresního přístupu. 𝑠1 = −257 433,3
𝑠2 = −272 304,5
𝑠3 = −104 132,7
𝑠4 = −40 183,1
𝑠5 = 42 617,1
𝑠6 = 159 108,9
𝑠7 = 263 790
𝑠8 = 282 826,4
𝑠9 = 204 291
𝑠10 = 41 808,2
𝑠11 = −155 230,4 𝑠12 = −165 157,7
Tabulka 12 – sezónní faktory – regresní metoda – Praha 2001-2013
Interpretace je stejná jako jsme uváděli u Mnichova. Hodnota 𝑠4 říká, že v průměru každoročně byl v dubnu průměrný počet přepravených cestujících nižší oproti trendu o 40 183 osob. Hodnota 𝑠8 říká, že v průměru každoročně v srpnu byl vyššíl průměrný počet přepravených cestujících oproti trendu o 282 826 osob. Po přepočtení konstanty 𝑏0 uvedeme finální podobu odhadu modelu pro Prahu 𝑦𝑡 = 376 253,1 + 12 426,4𝑡 − 60,4𝑡 2 + sezónní odchylka pro daný kalendařní měsíc.
36
Vídeň Také pro Vídeň provedeme identickou analýzu. Hodnoty parametrů a umělých proměnných uvedeme v příloze v tabulce P3. Trend
R2 adj
p-hodnota
t-testy
RMSE
DW
ACF
0,933636 0,000000
0,0000
89300,22 0,328390 autokorelace
Parabolický 0,945125 0,000000
0,0000
80892,54 0,399975 autokorelace
F-testu Lineární
0,0000 Tabulka 13 – interpolační kritéria Vídeň – regresní metoda
Výsledek volby nejvhodnějšího modelu trendu vychází na základě tabulky 13 opět stejně. Opět vyšel jako vhodnější model trend parabolický. Tedy i pro Vídeň je parabolický trend nejvhodnější jak z pohledu regresního přístupu, tak při volbě za pomocí očištěných časových řad. Upravený index determinace je vyšší u parabolického trendu než u lineárního, RMSE je také u parabolického nižší. Za pomoci korelogramu jsme opět zjistili autokorelaci reziduí. I pro Vídeň dopočítáme a uvedeme sezónní odchylky a finální model odhadu trendu 𝑠1 = −336 800,4
𝑠2 = −355 655,1
𝑠3 = −113 385,3
𝑠4 = −29 797,2
𝑠5 = 111 656,6
𝑠6 = 176 912,5
𝑠7 = 305 849,9
𝑠8 = 264 145,9
𝑠9 = 238 932,3
𝑠10 = 104 012,6
𝑠11 = −158173,8 𝑠12 = −207 698,4
Tabulka 14 – sezónní faktory – regresní metoda – Vídeň 2001-2013
Interpretace opět stejná. Hodnota 𝑠11 říká, že v průměru každoročně v listopadu byl průměrný počet přepravených cestujících nižší oproti trendu o 158 174 osob. Hodnota 𝑠6 říká, že v průměru každoročně v červnu byl průměrný počet přepravených cestujících oproti trendu vyšší o 176 913 osob. Po přepočtení konstanty 𝑏0 uvedeme finální podobu odhadu modelu pro Vídeň 𝑦𝑡 = 819 647,6 + 10 494,3𝑡 − 24,5𝑡 2 + sezónní odchylka pro daný kalendařní měsíc 3.5
Předpověď
V této kapitole chceme ověřit, zda je vybraný model parabolického trendu vhodný také pro tvorbu předpovědi. Tento předpoklad ověříme pomocí extrapolačních kritérií, konkrétně pomocí Chowova předpovědního testu. 37
Uvedeme výsledky Chowova předpovědního testu ze softwaru Eviews pro vybraný nejvhodnější model trendové funkce všech tří letišť a porovnáme, zda se vybraný model trendové funkce pro předpověď hodí. Chowův předpovědní test vypočteme z vybraného modelu trendové funkce pomocí jak očištěných časových řad, tak pomocí regresního přístupu modelování sezónnosti. Pro každé letiště tedy budeme mít dva výsledky Chowova předpovědního testu. Jako bod pro předpověď určíme měsíc leden roku 2009. Tento bod volíme na základě nástupu ekonomické krize v Evropě. [7]
Mnichov Praha Vídeň
F-statistic – očištěná časová řada
F-statistic – regresní metoda
Value
df
Probability
Value
df
Probability
2.538714
(60, 93)
0.0000
2.770749
(60, 82)
0.0000
1.564424
(60, 93)
0.0259
1.356014
(60, 82)
0.0997
2.673916
(60, 81)
0.0000
3.741987
(60, 70)
0.0000
Tabulka 15 – Chowův předpovědní test – očištěna časová řada a regresní metoda
Z výsledků Chowova předpovědního testu pro očištěné časové řady lze vyvodit nevhodnost odhadnutého modelu pro předpověd budoucího vývoje sezónně očištěných časových řad. Všechny řady mají p-hodnotu menší než hladinu významnosti α, kterou volíme na bežné úrovni 0,05, tudíž na hladině významnosti 5% zamítáme nulovou hypotézu a přijímáme alternativní hypotézu. Je to způsobeno nejspíše hlubokým poklesem přepravených cestujících ve všech řadách v roce 2008. Můžeme to přičíst nástupu ekonomické krize v Evropě.[7] Z pohledu přístupu regresní metody modelování sezónnosti u Mnichova a Vídně vycházejí phodnoty Chowova předpovědního testu menší než hladina významnosti α=5%, tudíž se odhadnuté modely jeví jako nevhodné pro tvorbu předpovědi. Naopak p-hodnota u Prahy je větší než zvolená hladina významnosti a v tomto smyslu tedy můžeme konstatovat, že model pro časovou řadu pro Prahu za přístupu regresní metody modelování sezónnosti můžeme použít pro tvorbu předpovědi. Může to být způsobeno tím, že v Praze v roce 2009 nenastal tak velký pokles počtu přepravených cestujících. I z pohledu očištěných časových řad nebyla phodnota nulová tak jak je to u Mnichova a Vídně. PRAHASA 1,200,000 1,100,000 1,000,000 900,000 800,000 700,000 600,000 500,000 400,000 01
02
03
04
05
06
07
08
09
10
11
12
13
14
Graf 9 – očištěná časová řada – Praha 2001-2013
38
Uvedeme výsledky předpovědi pro Prahu na první pololetí 2014. 2014M01 581770,4 2014M02 560310,0 2014M03 721771,7 2014M04 778890,5 2014M05 854739,2 2014M06 964158,8 Tabulka 16 – výstup Eviews - předpověď první pololetí 2014 – Praha
Pokud bychom vzali k názorné interpretaci první hodnotu v tabulce 16, můžeme říci, že na základě předpovědi přepraví pražské letiště v lednu roku 2014 581 770 cestujících. Jedná se o „bodové předpovědi“ (odhad budoucí hodnoty časové řady jedním číslem), u nichž očekáváme, že skutečná hodnota jim bude „relativně blízko“. Od začátku psaní bakalářské práce až do tohoto okamžiku se na internetu objevily nejnovější data za první měsíce roku 2014. Toho můžeme využít k porovnání našich odhadnutých výsledků se skutečnými hodnotami převzatými z internetu. Když porovnáme odhadnutou hodnotu přepravených cestujících v měsíci lednu se skutečným počtem přepravených cestujících uvedeným na webových stránkách pražského letiště zjistíme, že se od naší odhadnuté hodnoty moc neliší. Podle oficiálních statistik pražského letiště bylo v lednu přepraveno 601 504 cestujících. Tudíž jsme se mýlili přibližně o 20 000 cestujících, tedy cca o 3,3%. 3.6
Závěr I.
V této práci jsme se věnovali zkoumání tří dvanáctiletých měsíčních řad počtu přepravených cestujících na třech vybraných evropských letištích. Některé výsledky jsme počítali a interpretovali souhrnně, jiné zvlášť za každé letiště. U všech vybraných časových řad jsme vypočetli elementární charakteristiky, dále jsme zkoumali trend a sezónnost v časových řadách a pokusili se o předpověď. Zajímávé výsledky jsme zobrazili v tabulkách a grafech. Cílem práce bylo zjistit, jak a proč se mění počty cestujících v závislosti na měsíci v roce, a zda v čase stoupá popularita letecká dopravy. Dále jsme chtěli porovnat dosažené výsledky mezi jednotlivými letišti. Hlavní dosažené výsledky nyní zrekapitulujeme v pár odstavcích.
39
Jako nejvytíženější se na základě celkového průměru ukázalo letiště v Mnichově, pomocí variačního koeficientu jsme zjistili, že tato řada byla také nejméně kolísavá. Hodnoty průměrných absolutních přírůstků nám naznačily, že roky 2008 a 2009 nám způsobí nějaké komplikace, v těchto letech byly hodnoty prvních diferencí velmi malé oproti letem předchozím, což odpovídá prudkému propadu časové řady. Průměrné koeficienty růstu mají až na zmíněný rok 2008 v Mnichově hodnotu větší než 1, můžeme tedy říci, že počty cestujících se v rámci každého roku zvyšovaly. Co se týče analýzy sezónní složky, zjistili jsme, že všechny řady obsahují sezónní složku. Na základě tohoto výsledku jsme vypočítali sezónní indexy, pomocí kterých jsme následně zdrojové časové řady očistili od sezónnosti. Dále jsme se věnovali zkoumání trendové složky. Pomocí grafické analýzy a následně interpolačních kritérií jsme vyhodnotili nejvhodnější model trendu pro každou časovou řadu zvlášť. Jako relativně nejlepší model pro všechy časové řady jsme vybrali model parabolického trendu. Nicméně ve všech časových řadách jsme na základě reziduální autokorelační funkce prokázali autokorelaci reziduí, také hodnoty Durbinova-Watsonova testu byly nízké, tudíž jsme nemohli použít testy o parametrech ani celkový F-test jako vyhodnocovací kritérium. Posledním cílem bylo vypočítat předpověď na první pololetí roku 2014. V softwaru Eviews jsme použili funkci pro výpočet Chowova předpovědního testu a pro očištěné časové řady jsme zkoumali, jestli jsou jednotlivé zvolené modely časových řad vhodné pro tvorbu předpovědi. Z pohledu na průběh časových řad a na výsledky zkoumání trendové složky v řadách jsme očekávali, že tomu tak nebude mj. díky hlubokým propadům v letech 2008-2009 z důvodu ekonomické krize. Tento předpoklad se potvrdil a ani jednu časovou řadu jsme nemohli použít ke tvorbě předpovědi. Zkusili jsme také vytvořit modely nejvhodnějšího trendu za pomocí regresní metody modelování sezónnosti, kde jsme zkoumali trendovou a sezónní složku současně. Co se týče trendové složky, nejlépe vyšel opět model parabolického trendu, co se týče sezónní složky, dopočítali jsme sezónní faktory a zapsali finální model odhadu trendu. Dále jsme vypočítali Chowův předpovědní test pro odhadnuté modely časových řad modelované přístupem regresní metody modelování sezónnosti. Mnichovskou ani vídeňskou časovou řadu nebylo možné použít pro tvorbu předpovědi na základě p-hodnot ani za pomocí regresní metody modelování sezónnosti. Naopak pražskou časovou řadu už jsme na základě p-hodnoty použít mohli a uvedli jsme výsledky předpovědi na první pololetí 2014 do tabulky 16.
40
Pokud se podíváme na výsledky analýzy trendové složky, vidíme, že prostřednictvím této metody tyto časové řady modelovat nelze. Důvodem je nesplnění základního předpokladu trendových funkcí o stabilitě jejích parametrů. Vzhledem k problému uvedenému výše provedeme celou analýzu znovu pro časové řady začínající v roce 2009, tedy po ekonomické krizi.
41
4.
Analýza časových řad počtu přepravovaných cestujících od roku 2009
V této části analýzy časových řad budeme brát pouze hodnoty od ledna 2009 do prosince 2013. Vypočítáme základní charakteristiky těchto časových řad, dále se budeme věnovat analýze sezónní a trendové složky a na konec zkusíme vytvořit předpověď, stejně jako u celých časových řad, na první pololetí roku 2014. Rok 2009 volíme jako počáteční rok z důvodu nástupu ekonomické krize v Evropě. Ta nastala jako následek finanční krize a kromě Polska zasáhla všechny země Evropy. Na ekonomickou krizi navázala krize veřejných financí. Tato krize měla následek úpadek světového hospodářství, zpomalení hospodářského růstu a zvýšení nezaměstnanosti. Tyto důvody vedly i k poklesu cestujících leteckou dopravou, proto máme v řadách v letech 2008-2009 takové propady.*7] V této části práce budeme provádět prakticky identickou analýzu jako v kapitole 3., proto nebudeme tolik rozvádět komentáře k dosaženým výsledkům apod. 4.1
Popisná statistika – od roku 2009
Mnichov Praha Vídeň
Průměr
Rozptyl
3 038 247 945 694 1 721 461
188 091 206 575 49 776 329 602 93 909 415 808
Směrodatná odchylka 433 695 223 106 306 446
Variační koeficient 14,3% 23,6% 17,8%
Tabulka 17 – míry polohy a míry variability měsíčních časových řad od roku 2009
Z tabulky 20 vidíme, že také za toho období přepravilo průměrně měsíčně nejvíce cestujících letiště v Mnichově, nejméně Praha. Také stejně jako u analýzy celých časových řad je mnichovská časová řada nejméně kolísavá, naopak nejvíce kolísavá zůstává pražská časová řada. Co se týče průměrných absolutních přírůstků a průměrných koeficientů růstu, hodnoty obou těchto charakteristik zůstávají stejné(viz kapitola 3.1.), proto je zde nebudeme znova uvádět. 4.2
Analýza sezónní složky – od roku 2009
V analýze sezónní složky nejdříve ověříme, zda se v jednotlivých časových řadách sezónnost vyskytuje. Tento výpočet opět provedeme v softwaru Eviews pomocí F-testu sezónnosti 4.2.1
F-test sezónnosti – od roku 2009
Pro lepší znázornění zobrazíme výstup F-testu sezónnosti pro časovou řadu ve Vídni.
42
Test for the presence of seasonality assuming stability. Sum of Squares 14373.3011 220.1732 14593.4744
Between months Residual Total
Dgrs.of Freedom 11 48 59
Mean Square 1306.66374 4.58694
F-Value 284.866**
**Seasonality present at the 0.1 per cent level.
Tabulka 18 – F-test sezónnosti letiště Vídeň – od roku 2009
Na základě výstupu v tabulce 18 můžeme říci, že na hladině významnosti 0,1 můžeme zamítnout nulovou hypotézu ve prospěch alternativní hypotézy, což znamená, že se sezónní složka v časové řadě vyskytuje. Tuto skutečnost jsme ověřili pro všechny časové řady tohoto období a u všech jsme prokázali sezónnost(viz v příloze tabulky F3,F4). 4.2.2
Sezónní indexy – od roku 2009
Vypočítáme také sezónní indexy jednotlivých měsíců v roce. Leden
Únor
Březen
Duben
Květen
Červen
Červenec
Srpen
Září
Říjen
Listopad
Prosinec
Mnichov
0,8171
0,8156
0,9951
0,9513
1,0851
1,1017
1,1474
1,1056
1,1503
1,1180
0,9450
0,8600
Praha
0,7119
0,6843
0,8890
0,97
1,0768
1,2125
1,3743
1,3882
1,2825
1,0935
0,8350
0,8159
Vídeň
0,7685
0,7532
0,9364
0,9793
1,0998
1,1291
1,2303
1,1914
1,1781
1,0927
0,9175
0,8760
Tabulka 19 – Sezónní indexy – od roku 2009
Sezónní indexy intepretujeme stejným způsobem jako při analýze celých časových řad. Vezmeme např. hodnotu června časové řady pro Mnichov 1,1017 a intepretujeme následujícím způsobem: každý rok je průměrně v měsíci červnu počet přepravených osob z mnichovského letiště o 10,17% nad ročním průměrem hodnot časové řady. Tímto způsobem intepretujeme všechny hodnoty. Pro lepší zobrazení uvedeme graf sezónních indexů pro časové období 2009-2013 1,4 1,3 1,2 1,1 1 0,9 0,8 0,7 0,6
Mnichov Praha
Vídeň
Graf 10 – sezónní indexy – od roku 2009
43
4.2.3
Sezónní očišťování – od roku 2009
Vypočtené sezónní indexy použijeme pro výpočet sezónně očištěných časových řad. Tyto časové řad použijeme dále i pro analýzu trendové složky. Zobrazíme grafy hodnot původních časových řad a hodnot sezónně očištěných časových řad. Na osách x jsou uvedeny roky analyzovaného období, na ose y počty cestujících. 3,800,000 3,600,000 3,400,000 3,200,000 3,000,000 2,800,000 2,600,000 2,400,000 2,200,000 2,000,000 2009
2010
2011 MNICHOV
2012
2013
MNICHOVSA
Graf 11 – původní a očištěná časová řada – Mnichov – od roku 2009 1,400,000 1,300,000 1,200,000 1,100,000 1,000,000 900,000 800,000 700,000 600,000 2009
2010
2011 PRAHA
2012
2013
PRAHASA
Graf 12 – původní a očištěná časová řada – Praha – od roku 2009 2,400,000 2,200,000 2,000,000 1,800,000 1,600,000 1,400,000 1,200,000 1,000,000 2009
2010
2011 VIDEN
2012
2013
VIDENSA
Graf 13 – původní a očištěná časová řada – Vídeň – od roku 2009
44
4.3
Analýza trendové složky – od roku 2009
V této kapitole se budeme věnovat analýze trendové složy jednotlivých časových řad, které začínají v lednu roku 2009. Analýzu trendové složky budeme provádět pro každou časovou řadu zvlášť, tedy pro každé letiště budeme mít samostatnou podkapitolu. Použijeme software Eviews k výpočtu interpolačních kritérií, podle kterých rozhodneme o konečném nejvhodnějším modelu trendu. 4.3.1
Mnichov
Zobrazíme graf prvních diferencí 55000 40000 25000 10000 -5000 -20000 -35000 -50000 -65000 2009
2010
2011
2012
2013
Graf 14 – první diference – Mnichov – od roku 2009
Výpočet interpolačních kritérií provedeme ze sezónně očištěných časových řad. Na základě interpolačních kritérií vybereme nejvhodnější model trendové funkce pro sezónně očištěnou řadu letiště Mnichov. Trend
R2adj
t-testy
Lineární
p-hodnota F-testu 0,713029 0,000000
Parabolický
0,808312 0,000000
RMSE
DW
ACF
0,0000 116616,4
1,052267
autokorelace
0,0000 94484,66
1,599633
OK
1,913239
OK
0,0000 Kvartický polynom
0,837440 0,000000
0,0000 86243,63 0,0001 0,0056
Tabulka 20 – interpolační kritéria Mnichov – od roku 2009
V tabulce 23 vidíme, že podle upraveného indexu determinace bychom zvolili jako nejvhodnější model trendové funkce kvartický polynom, na základě p-hodnot celkového Ftestu i nulových hypotéz dílčích t-testů bychom mohli zvolit všechny trendové funkce, 45
minimální RMSE má opět kvartický polynom a autokorelaci jsme prokázali pouze u lineárního trendu. Tudíž se rozhodujeme mezi parabolickým trendem a kvartickým polynomem. Z těchto dvou funkcí vybereme na základě upraveného indexu determinace a minimálního RMSE kvartický polynom jako nejvhodnější trendovou funkci. Hodnoty parametrů zobrazíme v tabulce 21. Variable
Coefficient
Std. Error
t-Statistic
Prob.
C (@TREND+1)^2 (@TREND+1)^3 (@TREND+1)^4
2624256. 1390.756 -36.35910 0.262386
29471.13 224.4206 8.892718 0.090986
89.04497 6.197097 -4.088637 2.883801
0.0000 0.0000 0.0001 0.0056
Tabulka 21 – výstup Eviews hodnoty parametrů – Mnichov – od roku 2009
Uvedeme odhad modelu kvartického polynomu ve tvaru 𝑇𝑡 = 2 624 256 + 1390,756𝑡 2 − 36,35910𝑡 3 + 0,262386𝑡 4 4.3.2 Praha Také pro časovou řadu letiště Praha nejdříve zobrazíme graf prvních diferencí, pak uvedeme interpolační kritéria a zvolíme nejvhodnější model trendové funkce. -15000 -17000 -19000 -21000 -23000 -25000 -27000 -29000 -31000 -33000 -35000 2009
2010
2011
2012
2013
Graf 15 – první diference – Praha – od roku 2009
Trend
R2adj
Lineární Parabolický
t-testy
RMSE
0,171723
phodnota F-testu 0,000586
DW
ACF
0,0006
44335,19 1,122198 autokorelace
0,175648
0,001522
0,8438
44040,54 1,151112 autokorelace
0,2633 Kvartický polynom
0,372113
0,000002
0,0011
37929,88 1,463504 OK
0,0002 0,0001 Tabulka 22 – interpolační kritéria Praha – od roku 2009
46
Na základě tabulky 22 rozhodneme o nejvhodnějším modelu trendu. Upravený index determinace je nejvyšší u kvartického polynomu, také RMSE je u tohoto polynomu nejmenší. Dle dílčích t-testů bychom mohli zvolit buď lineární trend nebo kvartický polynom, z pohledu reziduální autokorelační funkce jen kvartický polynom. Uvedeme hodnoty parametrů ve výstupu z Eviews pro kvartický polynom. Variable
Coefficient
Std. Error
t-Statistic
Prob.
C (@TREND+1)^2 (@TREND+1)^3 (@TREND+1)^4
921258.3 339.9147 -15.57016 0.166743
12961.38 98.70003 3.911010 0.040016
71.07717 3.443917 -3.981109 4.166950
0.0000 0.0011 0.0002 0.0001
Tabulka 23 – výstup Eviews hodnoty parametrů – Praha – od roku 2009
Odhad modelu kvartického polynomu pro tuto časovou řadu zapíšeme ve tvaru 𝑇𝑡 = 921 258,3 + 339,9147𝑡 2 − 15,57016𝑡 3 + 0,166743𝑡 4 4.3.3
Vídeň
Pro vídeňskou časovou řadu provedeme identickou analýzu. Zobrazíme graf prvních diferencí a následně uvedeme tabulku s interpolačními kritérii, na jejichž základě zvolíme nejvhodnější model trendové funkce.
0 -5000 -10000 -15000 -20000 -25000 -30000 -35000 -40000 -45000 2009
2010
2011
2012
Graf 16 – první diference – Vídeň – od roku 2009
47
2013
Trend
R2adj
Lineární Parabolický
t-testy
RMSE
DW
ACF
0,805625
p-hodnota F-testu 0,00000
0,0000
58473,99
0,842734
autokorelace
0,880980
0,000000
0,0000
45360,37
1,402794
autokorelace
36705,53
2,146004
OK
0,0000 Kvartický polynom 0,920562
0,000000
0,0175 0,0001 0,0002 0,0009
Tabulka 24 – interpolační kritéria Vídeň – od roku 2009
Na základě interpolačních kritérií volíme jako nejvhodnější model trendové funkce kvartický polynom. Na základě všech charakteristik uvedených v tabulce 24 vychází jako jediný použitelný. Uvedeme hodnoty parametrů kvartického polynomu. C @TREND+1 (@TREND+1)^2 (@TREND+1)^3 (@TREND+1)^4
1522529. -14874.88 1684.091 -39.45085 0.281493
27215.40 6073.129 400.1618 9.818021 0.079867
55.94365 -2.449294 4.208525 -4.018208 3.524512
0.0000 0.0175 0.0001 0.0002 0.0009
Tabulka 25 – výstup Eviews hodnoty parametrů – Vídeň – od roku 2009
Odhad modelu kvartického polynomu pro tuto časovou řadu zapíšeme ve tvaru 𝑇𝑡 = 1 522 529 − 14 874,88𝑡 + 1 684,091𝑡 2 − 39,45085𝑡 3 + 0,281493𝑡 4 V analýze trendové složky jsme pro všechny tři časové řady, všechna tři letiště, vybrali jako nejlepší model trendové funkce kvartický polynom. Narozdíl od analýzy trendové složky celých časových řad kvartický polynom v těchto „zkrácených“ časových řadách pomohl k naleznutí vhodné trendové funkce bez autokorelace reziduí. 4.4
Regresní metoda modelování sezónnosti – od roku 2009
Také u těchto „zkrácených“ časových řad provedeme identickou analýzu, jak bylo popsáno v teoretické části 2.4.3. a v praktické části spočítáno v kapitole 3.4. Jak jsme již zmínili v teoretické a praktické části, tato metoda předpokládá aditivní dekompozici. V analýze celých časových řad jsme se dopouštěli určitého zjednodušení, jelikož z grafu jsme vyčetli spíše multiplikativní dekompozici. V těchto časových řadách je předpoklad aditivní dekompozice oprávněný, jak můžeme vidět v grafech 11,12 a 13. 48
Mnichov R2 adj
Trend
p-hodnota
t-testy
RMSE
DW
ACF
F-testu Lineární
0,918599 0,000000
0,0000
109514,4 1,010984 autokorelace
Parabolický
0,946242 0,000000
0,0000
88046,14 1,562478 OK
0,0000 Kvartický polynom
0,958263 0,000000
0,0458
75874,06 2,072602 OK
0,0011 0,0009 0,0019 Tabulka 26 – interpolační kritéria Mnichov – regresní metoda – od roku 2009
Také při regresní metodě zvolíme na základě interpolačních kritérií model kvartického polynomu. Jestliže tento výsledek porovnáme s volbou nejvhodnějšího modelu na základě očištěných časových řad zjistíme, že kvartický polynom je nejvhodnějším modelem z obou pohledů modelování sezónnosti. Také u této časové řady dopočítáme a uvedeme sezónní faktory z hodnot uvedených v příloze v tabulce P4. 𝑠1 = −571 516,9
𝑠2 = −563 165,8
𝑠3 = −51 801,6
𝑠4 = −120 758
𝑠5 = 225 783,4
𝑠6 = 269 938,4
𝑠7 = 420 122,9
𝑠8 = 303 896,5
𝑠9 = 429 974,2
𝑠10 = 324 589,3
𝑠11 = −204 150,4 𝑠12 = −462 911,5
Tabulka 27 – sezónní faktory – regresní metoda – Mnichov od roku 2009
Hodnota 𝑠11 říká, že průměrně každoročně v listopadu byl průměrný počet přepravených cestujících nižší oproti trendu o 204 150 osob. Hodnota 𝑠6 říká, že průměrně každoročně byl v červnu průměrný počet přepravených cestujících vyšší oproti trendu o 269 938 osob. Po přepočtení konstanty 𝑏0 uvedeme finální model 𝑦𝑡 = 2 766 377,5 − 29 768,2𝑡 + 3324𝑡 2 − 82,4𝑡 3 + 0,63𝑡 4 + sezónní odchylka pro daný kalendářní měsíc
49
Praha Hodnoty parametrů a umělých proměnných pro Prahu všechny tři uvažované trendy nalezneme v příloze v tabulce P5, dále na základě interpolačních kritérií rozhodneme o nejvhodnějším modelu trendu. Trend
R2 adj
p-hodnota
t-testy
RMSE
DW
ACF
F-testu Lineární
0,953463
0,000000
0,0003
42597,45
1,088065
autokorelace
Parabolický
0,954565
0,000000
0,6775
41640,10
1,142647
auokorelace
36876,32
1,347525
autokorelace
0,1503 Kvartický
0,963574
0,000000
polynom
0,0047 0,0014 0,0011
Tabulka 28 – interpolační kritéria Praha – regresní metoda – od roku 2009
V této časové řadě za přístupu regresní metody modelování sezónnosti nepomohlo ani použití kvartického polynomu, jelikož na základě korelogramu byla prokázána autokorelace. Tím pádem nemůžeme použít ani testy o parametrech, ani celkový F-test jako vyhodnocovací kritérium. Nejvhodnější model trendové funkce volíme na základě nejvyššího upraveného indexu determinace a minimálního RMSE. Tedy jako nejvhodnější model trendové funkce volíme kvartický polynom. Uvedeme dopočítané sezónní faktory 𝑠1 = −291 427
𝑠2 = −318 989
𝑠3 = −131 232
𝑠4 = −44 467,7
𝑠5 = 42 569
𝑠6 = 169 285,5
𝑠7 = 314165,4
𝑠8 = 327 345,3
𝑠9 = 235 214,6
𝑠10 = 52459,9
𝑠11 = −183 922 𝑠12 = −171 001
Tabulka 29 – sezónní faktory – regresní metoda – Praha od roku 2009
Hodnota 𝑠12 říká, že v průměru každoročně v prosinci byl průměrný počet přepravených cestujících nižší oproti trendu o 171 001 osob. Hodnota 𝑠5 říká, že v průměru každoročně v květnu byl zprůměrný počet přepravených cestujících vyšší oproti trendu o 42 569 osob. Finální model odhadu trendu kvartického polynomu zapíšeme ve tvaru 𝑦𝑡 = 948 240,5 + 328,7𝑡 2 − 14,9𝑡 3 + 0,15𝑡 4 + sezónní odchylka pro daný kalendářní měsíc 50
Vídeň Pro „zkrácenou“ časovou řadu vídeňského letiště vypočítáme hodnoty regresních parametrů a umělých proměnných a uvedeme v příloze v tabulce P6, následně uvedeme interpolační kritéria, na jejichž základě rozhodneme a nejvhodnějším odhadu modelu trendové funkce pro tuto časovou řadu. R2 adj
Trend
p-hodnota
t-testy
RMSE
DW
ACF
F-testu Lineární
0,947415 0,000000
0,0000
62195,33 0,780189 autokorelace
Parabolický
0,963701 0,000000
0,0000
51121,71 1,158354 autokorelace
0,0000 Kvartický polynom
0,975294 0,000000
0,0117
41248,29 1,699244 OK
0,0002 0,0004 0,0013 Tabulka 30 – interpolační kritéria Vídeň – regresní metoda – od roku 2009
Z tabulky 30 vyhodnotíme na základě všech charakteristik jako nejvhodnější model trendové funkce pro tuto časovou řadu kvartický polynom. Všechny charakteristiky jsou u kvartického polynomu nejlepší, také autokorelace reziduí je na základě korelogramu v pořádku. Dopočteme sezónní faktory podle tabulky P6 a uvedeme je v tabulce 31. 𝑠1 = −413 407
𝑠2 = −436 200
𝑠3 = −134 064
𝑠4 = −37 711,6
𝑠5 = 143 304,7
𝑠6 = 194 583,8
𝑠7 = 358 849,5
𝑠8 = 309 412,9
𝑠9 = 285 202,7
𝑠10 = 139 786
𝑠11 = −171 659 𝑠12 = −238 099
Tabulka 31 – sezónní faktory – regresní metoda – Vídeň od roku 2009
Hodnota 𝑠1 říká, že v průměru každoročně v lednu byl průměrný počet přepravených cestujících nižší oproti trendu o 413 407 osob. Hodnota 𝑠7 říká, že v průměru každoročně v červenci byl průměrný počet přepravených cestujících vyšší oproti trendu o 358 850 osob. Přepočteme konstantu 𝑏0 a uvedeme finální model kvartického polynomu 𝑇𝑡 = 1 565 500 − 20 701,9𝑡 + 2 065,2𝑡 2 − 48,5𝑡 3 + 0,35𝑡 4 + sezónní odchylka pro daný kalendářní měsíc
51
4.5
Předpověď – od roku 2009
V poslední kapitole této bakalářské práce se budeme věnovat předpovědi na první pololetí roku 2014. Při předpovědi vlastně testujeme kvalitu modelu za pomocí extrapolačních kritérií, konkrétně Chowova předpovědního testu. Testujeme, zda jsou vybrané modely trendových funkcí vhodné pro tvorbu předpovědi. Při analýze celých časových řad Chowův předpovědní test vyhodnotil všechny časové řady jako nevhodné pro tvorbu předpovědi. Bylo to dáno hlubokými propady v časových řadách v letech 2008-2009. V této kapitole otestujeme „zkrácené“ časové řady začínající v roce 2009. Uvedeme tabulku s výsledky Chowova předpovědního testu pro vybraný nejvhodnější model trendové funkce(kvartický polynom) u všech tří letišť a porovnáme, zda se vybraný modely trendové funkce pro tvorbu předpovědi hodí. Chowův předpovědní test vypočteme s kvartického polynumu vypočteného jak za pomocí očištěných časových řad, tak za pomocí regresní metody modelování sezónnosti. Jako bod pro předpověď zvolíme prosinec roku 2012, což řadu rozděluje v poměru 80% ku 20%.
Mnichov Praha Vídeň
F-statistic – očištěná časová řada
F-statistic – regresní metoda
Value
df
Probability
Value
df
Probability
0.569541
(13, 43)
0.8643
0,440779
(13,31)
0,9407
1.690366
(13, 43)
0.0981
1.313219
(13, 32)
0.2562
0.502425
(13, 42)
0.9104
0.590236
(13, 31)
0.8431
Tabulka 32 – Chowův předpovědní test – očištěna časová řada a regresní metoda – od roku 2009
Z tabulky 32 můžeme vyčíst, že všechny časové řady jsou vhodné pro tvorbu předpovědi. Všechny p-hodnoty jsou větší než zvolená hladina významnosti 5%, tudíž zamítáme nulovou hypotézu a přijímáme hypotézu alternativní. Uvedeme tabulky s výsledky předpovědí na první pololetí roku 2014 všech tří letišť. Uvedeme hodnoty předpovědí vypočtených na základě kvartického polynomu ,vybraným nejvhodnějším modelem trendu, za pomocí sezónně očištěných časových řad a regresní metody modelování sezónnosti. Pro každě letiště tedy uvedeme dvě předpovědi.
52
Mnichov
2014M01 2014M02 2014M03 2014M04 2014M05 2014M06
Očištěná časová řada
Regresní metoda
2597882,8 2595376,3 3170669,2 3036293,6 3471149,0 3533988,2
2705919,01 2740429,64 3282804,47 3250153,57 3638754,41 3731196,63
Tabulka 33 – předpověď Eviews – očištěná časová řada a regresní metoda – Mnichov od roku 2009
V tabulce 33 vidíme, že předpověď založená na očištěných časových řadách a na regresní metodě modelování sezónnosti je velmi podobná. Interpretace je jednoduchá, vezmeme např. hodnotu měsíče března pro očištěnou časovou řadu můžeme říci, že na základě předpovědi za pomoci očištěné časové řady přepraví mnichovské letiště v březnu roku 2014 3 170 669 cestujících. Během psaní této práce se na internetových stránkách mnichovského letiště také objevily nejnovejší data za první měsíce roku 2014, můžeme tedy odhadnuté hodnoty porovnat se skutečnými hodnotami přepravených cestujících. Dle oficiálních statistik mnichovského letiště bylo v lednu 2014 přepraveno 2 611 186 cestujících, dle předpovědi, spočítané v softwaru Eviews, za pomoci regresní metody mnichovské letiště přepravilo 2 705 919 cestujících. Dle předpovědi za pomoci očištěných časových řad to bylo 2 597 883. V tomto případě můžeme tedy říci, že předpověď na základě očištěných časových řad je přesnější. Praha
2014M01 2014M02 2014M03 2014M04 2014M05 2014M06
Očištěná časová řada
Regresní metoda
683934,5 671309,2 892467,6 998533,2 1139166,0 1321023,8
675736,80 665941,83 873840,77 983269,49 1095642,89 1250522,83
Tabulka 34 – předpověď Eviews – očištěná časová řada a regresní metoda – Praha od roku 2009
Pro časovou řadu v Praze provedeme stejné porovnání odhadnutých hodnot se skutečnými hodnotami, převzatými z webových stránek pražského letiště. Nuto podotknout, že pro Prahu vyšla v analýze celých časových řad použitelnost časové řady pro tvorbu předpovědi za
53
předpokladu regresní metody modelování sezónnosti. Tudíž naměřené odhadnuté hodnoty v analýze celých časových řad budou blíže skutečnosti než naměřené odhadnuté hodnoty z těchto „zkrácených“ časových řad. Dle oficiálních statistik bylo v březnu 2014 z pražského letiště přepraveno 767 059 osob. Pokud se podívámé do tabulky 34 vidíme, že obě čísla pro měsíc březen jsou celkem daleko od skutečnosti. Pokud se podíváme do tabulky 19, vidíme, že odhadnutá hodnota je 721 772, tudíž je mnohem přesnější. Pro Prahu tedy raději využijeme předpověď vypočítanou za předpokladu regresní metody modelování sezónnosti z celých časových řad. Vídeň
2014M01 2014M02 2014M03 2014M04 2014M05 2014M06
Očištěná časová řada
Regresní metoda
1402300,7 1379291,6 1722526,7 1811283,1 2047310,6 2118313,0
1451386,10 1439732,95 1755356,17 1867778,70 2067695,25 2140958,37
Tabulka 35 – předpověď Eviews – očištěná časová řada a regresní metoda – Vídeň od roku 2009
Pro letiště Vídeň máme taktéž k dispozici skutečné hodnoty přepravených cestujících za první měsíce roku 2014. Podle oficiálních statistik bylo z vídeňského letiště přepraveno v únoru 2014 1 354 938 cestujících, tudíž z tabulky 40 vidíme, že blíže je předpověď vypočítaná na základě očištěných časových řad, kde je odhadnutá hodnota 1 379 292 osob.
54
5. Závěr II. Analýza časových řad začínajících v roce 2009 dopadla podstatně lépe než analýza celých časových řad ve všech zkoumaných bodech. V této analýze jsme se věnovali zkoumání třech pětiletých měsíčních časových řad počtu přepravených cestujících na třech vybraných evropských letištích. Provedli jsme výpočet elementárních charakteristik, dále jsme analyzovali sezónní a trendovou složku a nakonec jsme provedli předpověď na první pololetí roku 2014. Cílem této kapitoly bylo opět zjistit, jak se mění počty přepravovaných cestujících v závislosti na měsíci v roce a zda v čase stoupá popularita letecké dopravy(v analýze celých časových řad jsme nemohli vypočítat hodnoty na první pololetí roku 2014 z důvodu nevhodnosti časových řad pro tvorbu předpovědi). Časové řady jsme tedy zkrátili a zanalyzovali znova, abychom mohli předpověď na první pololetí 2014 vypočítat. Hlavní dosažené výsledky opět zrekapitulujeme v pár odstavcích. Co se týče elementárních charakteristik, jejich výsledek dopadl vcelku stejně jako při analýze celých časových řad. Jako nejvytíženější a nejméně kolísavé z pohledu počtu přepravených osob v jednotlivých měsících se ukázalo letiště v Mnichově, jako nejméně vytížené a nejvíce kolísavé letiště v Praze. Při analýze sezónní složky jsme prokázali přítomnost sezónnosti ve všech časových řadách. Vypočítali jsme sezónní indexy, které jsme následně použili pro očištění původních časových řad od sezónnosti. Dále jsme zkoumali trendovou složku. Na základě grafu prvních diferencí a následně interpolačních kritérií jsme rozhodli o nejvhodnějším modelu trendu pro každou časovou řadu zvlášť. Mimo dva uvažované trendy v analýze celých časových řad, lineárního a parabolického, jsme také do volby nejvhodnějšího modelu trendu zařadili kvartický polynom, který nám nakonec ve dvou ze tří řad tohoto období pomohl s odstraněním autokorelace reziduí. Tento kvartický polynom jsme zvolili jako nejvhodnější model trendové funkce pro všechny tři časové řady. Dále jsme zkusili vypočítat nejvhodnější model trendové funkce za pomocí regresní metody modelování sezónnosti, kde odhadujeme trendovou a sezónní složku současně. Co se týče trendové složky, na základě interpolačních kritérií jsme zvolili jako nejvhodnější model trendové funkce u všech časových řad kvartický polynom. Při výpočtu sezónní složky jsme uvedli sezónní faktory a zapsali finální model odhadu trendu pro každou časovou řadu zvlášť. 55
Jako poslední jsme chtěli vypočítat předpověď na první pololetí roku 2014. U všech časových řad u kvartického polynomu, vypočítaného jako nejvhodnějšího modelu trendu za pomocí jak sezónně očištěných časových řad, tak za pomocí regresní metody modelování sezónnosti, jsme provedli v softwaru Eviews Chowův předpovědní test. Tento test vyhodnotil všechny časové řady jako vhodné pro tvorbu předpovědi. Výsledky předpovědí jsme uvedli v tabulkách 33,34 a 35. Rozdělením časových řad jsme dosáhli všeho, čeho jsme chtěli tímto krokem docílit. Tyto „zkrácené“ časové řady jsme schopni modelovat trendovými funkcemi, jelikož předpoklad stability parametrů je v tomto případě splněn. S těmito řadami jsme také byli schopni vypočítat požadovanou předpověď. V předložené bakalářské práci jsme s využitím základních analytických metod popsali základní rysy chování zvolených časových řad. Dokázali jsme zjistit, jak se mění počty přepravovaných cestujících v jednotlivých měsících v roce a výsledky jednotlivých časových řad jsme mezi sebou porovnali, dokázali jsme také vypočítat předpověď na první pololetí roku 2014 a porovnat ho se skutečnými hodnotami přepravených osob z jednotlivých letišť, což byly mj. hlavní dva cíle této bakalářské práce. Určitě by bylo zajímavé porovnat i další velká evropská i neevropská letiště mezi sebou a třeba přijít na nějaké další zajímavé informace o popularitě letecké dopravy ve světě.
56
6.
Literatura [1] ARLT, J., ARLTOVÁ, M. Ekonomické časové řady. 1. vyd. Praha: PROFESSIONAL PUBLISHING, 2009. 275 s. ISBN 978-80-86946-85-6.
[2] ARLT, J. , ARLTOVÁ, M. , RUBLÍKOVÁ, E. Analýza ekonomických časových řad s příklady. 1. vyd. Praha: VŠE, 2002. 148 s. ISBN 80-245-0307-7.
[3] HINDLS, R., HRONOVÁ, S., SEGER, J., FISCHER, J. Statistika pro ekonomy. 8. vyd. Praha: PROFESSIONAL PUBLISHING, 2007. 417 s. ISBN 978-80-86946-43-6.
[4] HINDLS, R., HRONOVÁ, S., NOVÁK, I. Metody statistické analýzy pro ekonomy. 2. vyd. Praha: Management Press, 2000. 259 s. ISBN 80-7261-013-9.
[5] ŘEZANKOVÁ, H. , LÖSTER, T. Úvod do statistiky. Praha: Oeconomica, 2010. ISBN 978-80245-1514-4. Internetové zdroje [6]EUROSTAT,[online], data dostupná z: http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/search_database
[7]Generation Europe,o.s., Evropa2045
dostupné z:
http://www.evropa2045.cz/hra/napoveda.php?kategorie=8&tema=172
[8]Ponechal, L., 2006, Transformace destinací letecké dopravy. Bakalářská práce. Studijní program Geografie a kartografie PřF MUNI, Brno, 55 s.dostupné z: http://is.muni.cz/th/78172/prif_b/Text.pdf
Data dostupná z: Letiště Vídeň Schwechat http://viennaairport.com/jart/prj3/va/main.jart?rel=en&contentid=1249344074280&reserve-mode=active Letiště Franze Josefa Strauße Mnichov http://www.munich-airport.de/en/company/facts/verkehr/berichte/index.jsp Letiště Václava Havla Praha-Ruzyně http://www.prg.aero/cs/business-sekce/letecky-obchod/statistics-and-reports/ 57
7.
Přílohy
7.1
F-test sezónnosti
Test for the presence of seasonality assuming stability.
Between months Residual Total
Sum of Squares 32792.3091 610.5848 33402.8938
Dgrs.of Freedom 11 132 143
Mean Square 2981.11901 4.62564
F-Value 644.477**
**Seasonality present at the 0.1 per cent level.
Tabulka F1 – F-test sezónnosti – Vídeň 2002-2013 Test for the presence of seasonality assuming stability.
Between months Residual Total
Sum of Squares 20991.7359 851.8826 21843.6185
Dgrs.of Freedom 11 144 155
Mean Square 1908.33963 5.91585
F-Value 322.581**
**Seasonality present at the 0.1 per cent level.
Tabulka F2 – F-test sezónnosti – Mnichov 2001-2013 Test for the presence of seasonality assuming stability.
Between months Residual Total
Sum of Squares 8700.6485 310.7675 9011.4160
Dgrs.of Freedom 11 48 59
Mean Square 790.96804 6.47432
F-Value 122.170**
**Seasonality present at the 0.1 per cent level.
Tabulka F3 – F-test sezónnosti – Mnichov – od roku 2009 Test for the presence of seasonality assuming stability.
Between months Residual Total
Sum of Squares 31389.2944 575.7076 31965.0020
Dgrs.of Freedom 11 48 59
Mean Square 2853.57222 11.99391
**Seasonality present at the 0.1 per cent level.
Tabzlka F4 – F-test sezónnosti – Praha – od roku 2009
58
F-Value 237.918**
7.2
Výstupy Eviews
Lineární
Parabolický
C
1410091.
1335153.
@TREND+1
9771.9
12630.3
(@TREND+1)^2
-
-18.21
D1
-29364.2
-29364.2
D2
-2383.2
-2565.2
D3
402893.9
402566.2
D4
410767.4
410330.5
D5
607955.0
607445.2
D6
657833.6
657287.4
D7
746552.7
746006.5
D8
716566.2
716056.4
D9
826608.5
826171.6
D10
681704.4
681376.7
D11
249231.9
249049.9
Tabulka P1– výsledky Eviews regresní metoda – Mnichov 2001-2013
Lineární
Parabolický
C
211095,4
459567,6
@TREND+1
12426,4
2948,7
(@TREND+1)^2
-60,4
D1
-92275,7
-92275,7
D2
-107146,8
-106543,1
D3
61025,0
62111,6
D4
124974,6
126423,4
D5
207774,8
209465,1
D6
324266,6
326077,6
D7
428947,7
430758,7
D8
447984,1
449674,4
D9
369448,7
370897,5
D10
206965,9
208052,5
D11
9927,3
10531,0
Tabulka P2 – výsledky Eviews regresní metoda – Praha 2001-2013
59
C @TREND+1 (@TREND+1)^2
Parabolický
611949,2
743985,6
10494,3
6357,5
-24,5
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11
Lineární
-129102,0
-129102,0
-147956,7
-147711,9
94313,0
94753,6
177901,2
178488,7
319355,0
320040,4
384610,9
385345,3
513548,3
514282,6
471844,3
472529,7
446630,7
447218,1
311711,0
312151,6
49524,6 49769,4 Tabulka P3 – výsledky Eviews regresní metoda – Vídeň 2002-2013
Lineární
Parabolický
Kvartický polynom
C
2239256
2090501
2303466
@TREND+1
10842,21
25669,12
-29768,2
-243,064
3324,202
(@TREND+1)^2 (@TREND+1)^3
-82,4011
(@TREND+1)^4
0,625533
D1
-83909,1
-83909,05
-108605
D2
-81961,3
-84391,91
-100254
D3
424030,9
419655,8
411109,9
D4
350637,1
344803,6
342153,5
D5
693594,3
686788,5
688694,9
D6
734951,7
727659,8
732849,9
D7
883073,7
875781,7
883034,4
D8
765483,3
758677,5
766808
D9
890874
885040,5
892885,7
D10
785472,8
781097,7
787500,8
D11
257395,8 254965,2 258761,1 Tabulka P4 – výsledky Eviews regresní metoda – Mnichov – od roku 2009
60
Lineární 829614,2
Parabolický 809102
-1440,178
604,3368
Kvartický polynom 777239,2
C @TREND+1 -33,51663
328,7194
(@TREND+1)^2 -14,9127 (@TREND+1)^3 0,157496 (@TREND+1)^4 -137976,6
-137976,6
-120426
-164983,2
-165318,3
-147988
23482,2
22878,9
39769,04
111119,4
110315
126533,6
199207,2
198268,7
213570,3
327171,3
326165,8
340286,8
473517,7
472512,2
485166,7
488408,7
487470,2
498346,6
398263,1
397458,7
406215,9
217801
217197,7
223461,2
-15943,58
-16278,74
-12920,7
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 Tabulka P5– výsledky Eviews regresní metoda – Praha – od roku 2009
61
Lineární 1258612
Parabolický 1177700
Kvartický polynom 1327401
7133,965
15198,77
-20701,9
-132,2099
2065,214
C @TREND+1 (@TREND+1)^2 -48,4463 (@TREND+1)^3 0,352007 (@TREND+1)^4 -152983
-152983,4
-175308
-180285
-181607,4
-198101
117988,1
115608,3
104035,4
211055,7
207882,7
200387,4
389308,2
385606,3
381403,7
438293,8
434327,5
432682,8
600695
596728,7
596948,5
549790,1
546088,2
547511,9
524482,9
521309,9
523301,7
378324,5
375944,8
377885
66485,97
65163,87
66440,44
D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 Tabulka P6 – výsledky Eviews regresní metoda – Vídeň – od roku 2009
62