Lineární a adaptivní zpracování dat 8. Modely časových řad I.
Daniel Schwarz
Investice do rozvoje vzdělávání
Cíl, motivace Popis a identifikace systémů
BLACK BOX
Bi0440
© Institute of Biostatistics and Analyses
Cíl, motivace Popis a identifikace systémů
BLACK BOX
Bi0440
© Institute of Biostatistics and Analyses
Cíl, motivace Popis a identifikace systémů
BLACK BOX
Bi0440
© Institute of Biostatistics and Analyses
Cíl, motivace Popis a identifikace systémů
z‐1
z‐1 c1
z‐1 c2
z‐1 cq‐1
cq +
Analýza, Simulace, Predikce, Monitoring, Diagnostika, Řízení
Bi0440
© Institute of Biostatistics and Analyses
Časové řady Definice časové řady: …………………………?...............................
Bi0440
© Institute of Biostatistics and Analyses
Časové řady Definice časové řady: uspořádaná posloupnost hodnot závislé proměnné měřené v ekvidistantních časových intervalech.
Bi0440
© Institute of Biostatistics and Analyses
Časové řady Definice časové řady: uspořádaná posloupnost hodnot závislé proměnné měřené v ekvidistantních časových intervalech. 355
350
koncentrace CO2
345
340
335
330
325 1974
1976
1978
1980
1982
1984
1986
1988
čas
Bi0440
© Institute of Biostatistics and Analyses
Signály vs. časové řady
??? SIGNÁLY ≈ ČASOVÉ ŘADY
Bi0440
© Institute of Biostatistics and Analyses
Signály vs. časové řady
1‐D DISKRÉTNÍ SIGNÁLY ≈ ČASOVÉ ŘADY
Bi0440
© Institute of Biostatistics and Analyses
Časové řady Definice časové řady: uspořádaná posloupnost hodnot závislé proměnné měřené v ekvidistantních časových intervalech. Využití modelů časových řad je dvojí: 1. ……………………..?........................ 2. ……………………..?........................
Bi0440
© Institute of Biostatistics and Analyses
Časové řady Definice časové řady: uspořádaná posloupnost hodnot závislé proměnné měřené v ekvidistantních časových intervalech. Využití modelů časových řad je dvojí: 1. porozumění procesu, který vyprodukoval pozorovaná data 2. předpovídání budoucích hodnot, případně i jejich ovlivňování ‐> řízení
Bi0440
© Institute of Biostatistics and Analyses
Dekompozice časových řad – aditivní model
X(t)=T(t)+S(t)+C(t)+I(t)
Trendová složka Sezónní složka Cyklická složka
Bi0440
Nesystematická složka
© Institute of Biostatistics and Analyses
Dekompozice časových řad – aditivní model
X(t)=T(t)+S(t)+C(t)+I(t)
Trendová složka Sezónní složka Cyklická složka
Nesystematická složka
Časové řady je možné očistit od sezónnosti, což umožňuje lépe porovnávat trend několika časových řad. Bi0440
© Institute of Biostatistics and Analyses
Dekompozice časových řad – aditivní model
X(t)=T(t)+S(t)+C(t)+I(t)
Trendová složka Sezónní složka Cyklická složka
Nesystematická složka
Časové řady lze očistit od trendu, což umožňuje lépe modelovat sezónnost, protože charakter sezónnosti je výraznější. Bi0440
© Institute of Biostatistics and Analyses
Dekompozice časových řad – aditivní model
X(t)=T(t)+S(t)+C(t)+I(t)
Trendová složka Sezónní složka Cyklická složka
Nesystematická složka
S(t) vs. C(t): liší se periodou. • S(t): den, týden, měsíc, kvartál, rok • C(t): perioda > 1 rok Bi0440
© Institute of Biostatistics and Analyses
Dekompozice časových řad – aditivní model
X(t)=T(t)+S(t)+C(t)+I(t)
Trendová složka Sezónní složka Cyklická složka
Nesystematická složka
T(t): trendové funkce: lineární, kvadratická, exponenciální, logistická, …
Bi0440
© Institute of Biostatistics and Analyses
Stacionarita Stacionarita je obvyklým předpokladem většiny technik analýzy časových řad. Definice stacionárního procesu: …………… ? …………..
Bi0440
© Institute of Biostatistics and Analyses
Stacionarita Stacionarita je obvyklým předpokladem většiny technik analýzy časových řad. Definice stacionárního procesu: jedná se o náhodný proces jehož rozdělení pravděpodobnosti se v čase nemění. V důsledku toho se nemění ani parametry jeho pravděpodobnostní funkce (např. střední hodnota, rozptyl). Autokorelační funkce stacionárního procesu závisí pouze na rozdílu svých argumentů.
Předpokladem stacionarity rozumějme ty časové řady či signály, které jsou bez trendu, mají s měnícím se časem stejný rozptyl a stejnou podobu autokorelační funkce.
Bi0440
© Institute of Biostatistics and Analyses
Stacionarita V případě nestacionárních časových řad lze provést: 1. diferencování dxi = xi‐xi‐1 2. odstranění trendu odečtením proložené trendové funkce (polynom atd.) 3. stabilizace rozptylu logaritmizací čtverce řady.
Bi0440
© Institute of Biostatistics and Analyses
Stacionarita V případě nestacionárních časových řad lze provést: 1. diferencování dxi = xi‐xi‐1 2. odstranění trendu odečtením proložené trendové funkce (polynom atd.) 3. stabilizace rozptylu logaritmizací čtverce řady.
Bi0440
© Institute of Biostatistics and Analyses
Stacionarita V případě nestacionárních časových řad lze provést: 1. diferencování dxi = xi‐xi‐1 2. odstranění trendu odečtením proložené trendové funkce (polynom atd.) 3. stabilizace rozptylu logaritmizací čtverce řady.
Funguje dobře jen pro lineární trend
Bi0440
© Institute of Biostatistics and Analyses
Stacionarita V případě nestacionárních časových řad lze provést: 1. diferencování dxi = xi‐xi‐1 2. odstranění trendu odečtením proložené trendové funkce (např. polynom atd.) 3. stabilizace rozptylu logaritmizací čtverce řady.
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • ....................... ? ………………………. • ....................... ? ………………………. • ....................... ? ……………………….
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu • spektra signálu
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu • spektra signálu
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu • spektra signálu
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu • spektra signálu
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu • spektra signálu
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu •spektra signálu
Bi0440
© Institute of Biostatistics and Analyses
Sezónnost Sezónní složka popisuje periodické změny v signálu či časové řadě.
• Je‐li sezónní složka v datech přítomna, musí být zahrnuta do modelu. • Detekce periodické složky pomocí: • sezónní vizualizace v případě, že periodu složky známe • autokorelační funkce signálu • spektra signálu perioda 12 měsíců
Bi0440
perioda 6 měsíců
© Institute of Biostatistics and Analyses
Sezónní diference Sezónní diference je diference mezi okamžiky vzdálenými o celistvý násobek periody.
• Diferencí se data zbavují lineárního trendu • Sezónní diferencí se data zbavují sezónních vlivů.
Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce
yˆ n = αyn + (1 − α ) yˆ n −1
Vážené (exponenciální) průměry Konstanta vyhlazování Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce
yˆ n = αyn + (1 − α ) yˆ n −1 = αyn + (1 − α )[αyn −1 + (1 − α ) yˆ n − 2 ] = = αyn + α (1 − α ) yn −1 + (1 − α ) [αyn − 2 + (1 − α ) yˆ n −3 ] = 2
n −1
i
= α ∑ (1 − α ) yn −i + (1 − α ) yˆ 0 n
i =0
„Exponenciální filtr“: • FIR nebo IIR? • MA nebo AR?
Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce
yˆ n = αyn + (1 − α ) yˆ n −1 = αyn + (1 − α )[αyn −1 + (1 − α ) yˆ n − 2 ] = = αyn + α (1 − α ) yn −1 + (1 − α ) [αyn − 2 + (1 − α ) yˆ n −3 ] = 2
n −1
i
= α ∑ (1 − α ) yn −i + (1 − α ) yˆ 0 n
i =0
Klouzavý průměr (MA) s exponenciálním zapomínáním
n −1
i
yˆ n = α ∑ (1 − α ) yn −i
Pokud uměle zkrátíme impulsní charakteristiku, která je pro „exponenciální filtr“ přirozeně nekonečná.
i =0
Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce n −1
i
yˆ n = α ∑ (1 − α ) yn −i i =0
Užívá se jako jednoduchá technika předpovídání s horizontem predikce m=1.
Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce n −1
i
yˆ n = α ∑ (1 − α ) yn −i i =0
Užívá se jako jednoduchá technika předpovídání s horizontem predikce m=1.
Exponenciální průměr v čase t je predikcí časové řady v čase t+1
Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce n −1
i
yˆ n = α ∑ (1 − α ) yn −i i =0
Užívá se jako jednoduchá technika předpovídání s horizontem predikce m=1. Předpovídání formou korekce chyby predikce
yˆ n = αyn + (1 − α ) yˆ n −1 = α ( yn − yˆ n −1 ) + yˆ n −1 = αeˆn + yˆ n −1 Predikce na čas n+1 se určí jako součet predikce na čas n a α‐násobku chyby predikce na čas n.
Bi0440
© Institute of Biostatistics and Analyses
Exponenciální vyhlazování a predikce n −1
i
yˆ n = α ∑ (1 − α ) yn −i i =0
Užívá se jako jednoduchá technika předpovídání s horizontem predikce m=1. Předpovídání formou korekce chyby predikce
yˆ n = αyn + (1 − α ) yˆ n −1 = α ( yn − yˆ n −1 ) + yˆ n −1 = αeˆn + yˆ n −1 Predikce na čas n+1 se určí jako součet predikce na čas t a α‐násobku chyby predikce na čas n.
Bi0440
© Institute of Biostatistics and Analyses
Modely časových řad Jakoukoli stacionární časovou řadu či signál s náhodnou složkou generuje stochastický proces, kterému lze přiřadit jeden z těchto modelů: • • • •
čistě rekursivní model nerekursivní model s klouzavým průměrem kombinovaný model bílý šum
Bi0440
AR – autoregressive MA – moving average ARMA ν
© Institute of Biostatistics and Analyses
Bílý šum Náhodný proces označujeme za bílý šum, pokud jeho střední hodnota a autokorelační funkce (ACF) splňují tyto podmínky: Diracova distribuce
μν = Ε{ν n } = 0 , Rνν (n1 , n2 ) = Ε{ν (n1 )ν (n2 )} =
N0 δ (n1 − n2 ). 2
1000
0.6 0.4
800
0.2
600
Rww(n1,n2)
w(n)
Empirická ACF
0 -0.2 -0.4
400 200 0
-0.6 0
20
40
60 n
Bi0440
80
100
-200 -100
-50
0 50 n1-n2 © Institute of Biostatistics and Analyses
100
Bílý šum Bílý šum má rovnoměrnou spektrální hustotu výkonu.
Zdroj: wikipedia. Bi0440
© Institute of Biostatistics and Analyses
Barevný šum Barvy šumu – viz Wikipedia (jen zajímavost)…
Zdroj: wikipedia. Bi0440
© Institute of Biostatistics and Analyses
8. cvičení 1) Vytvořte aditivní model (funkce v Matlabu) pro náhodný proces generující časovou řadu která představuje celodenní monitoring krevního tlaku člověka. Měřící zařízení snímá tlak 4x v hodině. Tlak roste při probouzení a klesá při usínání (dipping) zhruba formou cosinusového průběhu. Jako rušivou složku volte bílý šum. Jako parametry modelu volte: • Délku výsledných časových řad • Průměrný tlak krve za den v mmHg • Dipping v procentech • Amplitudový poměr signálu a šumu Pozn.: Výstupem funkce bude ideální časová řada a dále časová včetně rušení.
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení 2) Časovou řadu z předchozího příkladu (monitoring TK) zpracujte pomocí kumulačních technik zvýrazňování signálu v šumu s cílem získat z mnoha vygenerovaných repetic (period) jednu průměrnou. Jedná se o vizualizaci sezónní složky časové řady a zároveň se jedná o kumulační zvýraznění signálu z šumu.
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení 3) Na časové řadě vygenerované v příkladu 1 (monitoring TK) vyzkoušejte techniku „exponenciální vyhlazování a predikce“. Vyhodnoťte kvantitativně kvalitu predikce jednoho následujícího vzorku řady z M předchozích.
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 1 [xclean,x,t]=monitoringtk(2*24*4,100,15,1,1,1); plot(t,x,'c:'), hold on, plot(t,xclean,'k');
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 1
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 2
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 2
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 2
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 3
alfa=0.8
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 3
alfa=0.4
Bi0440
© Institute of Biostatistics and Analyses
8. cvičení – příklad č. 3
Bi0440
© Institute of Biostatistics and Analyses
;
ffgf
Otázky ?
[email protected]
55 Bi0440
© Institute of Biostatistics and Analyses