Analýza časových řad Informační a komunikační technologie ve zdravotnictví
Biomedical Data Processing G r o u p
Definice Řada je posloupnost hodnot
Časová řada chronologicky uspořádaná posloupnost hodnot určitého statistického ukazatele formálně je realizací náhodného procesu
Signál
Biomedical Data Processing G r o u p
Motivace Cílem analýzy je konstrukce vhodného modelu za účelem: porozumění mechanismu generující hodnoty časové řady pochopení podmínek a vazeb působících na vznik těchto hodnot
Simulace pomocí modelu Predikce řady
Biomedical Data Processing G r o u p
Dělení časových řad I. Dlouhodobé jejich periodicita je jeden rok a více aplikace jiných postupů než u ČŘ krátkodobých
Krátkodobé jejich periodicita je kratší než jeden rok čtvrtletní, měsíční, týdenní, atd...
Biomedical Data Processing G r o u p
Dělení časových řad II. Intervalové řady intervalových ukazatelů (Př.: počet rozvodů za rok v ČR) intervalový ukazatel = ukazatel, jehož velikost závisí na délce intervalu, za který je sledován lze vytvořit součty (resp. průměry), je nutná stejná délka intervalů pokud jsou intervaly různě dlouhé, je třeba provést přepočet na jednotkový interval (tzv. očišťování od důsledků kalendářních variací).
Okamžikové řady okamžikových (stavových) ukazatelů (Př.: počet obyvatel ČR k 31.12.) okamžikový ukazatel = ukazatel, jehož hodnoty se vztahují ke konkrétnímu časovému okamžiku součet nedává reálný smysl, průměr nelze stanovit běžným způsobem k průměrování používáme chronologický průměr 1 1 x1 x 2 x n 1 xn 2 x 2 n 1 Biomedical Data Processing G r o u p
Dělení časových řad III. s absolutními ukazateli obsahují hodnoty tak jak byly zaznamenány
s relativní ukazateli obsahují hodnoty jistým způsobem transformované
Biomedical Data Processing G r o u p
Dělení časových řad IV. Deterministické neobsahují žádný prvek náhody jsou konstruovány podle nějakého modelu lze je přesně rekonstruovat (ne predikovat)
Stochastické obsahují prvek náhody naprostá většina jevů v reálném světě
Biomedical Data Processing G r o u p
Dělení časových řad V. Ekvidistantní časové řady s konstantní časovou vzdáleností mezi jednotlivými hodnotami
Neekvidistantní časové řady s různou časovou vzdáleností mezi jednotlivými hodnotami Při zpracování vyžadují buď zvláštní přístup nebo korekce indexových i hodnotových řad
Biomedical Data Processing G r o u p
Dělení časových řad VI. Stacionární hodnoty aritmetického průměru a variability jsou v celém průběhu řady stejné
Nestacionární Hodnoty aritmetického průměrů a variability se v průběhu řady mění (nejsou stejné) nestacionarita je projevem např. trendu řady nebo změny rozptylu hodnot
Biomedical Data Processing G r o u p
U signálu Deterministický x stochastický
Ekvidistantní x neekvidistantní
Stacionární x nestacionární
Biomedical Data Processing G r o u p
Složky časových řad I. Trendová složka obecná tendence vývoje zkoumaného jevu za dlouhé období výsledkem dlouhodobých a stálých procesů trend může být rostoucí, klesající nebo může existovat řada bez trendu
Biomedical Data Processing G r o u p
Složky časových řad II. Periodické kolísání Sezónní složka pravidelně se opakující odchylka od trendové složky perioda této složky je menší než celková velikost sledovaného období
Biomedical Data Processing G r o u p
Složky časových řad III. Periodické kolísání Cyklická složka udává kolísání okolo trendu v důsledku dlouhodobého cyklického vývoje
Biomedical Data Processing G r o u p
Složky časových řad V. Náhodná složka nedá se popsat žádnou funkcí času zbývá po vyloučení trendu, sezónní a cyklické složky
Biomedical Data Processing G r o u p
Základní úpravy časových řad doplnění chybějících hodnot časový posun sezónní diference kumulativní součet vyhlazování časových řad
Biomedical Data Processing G r o u p
Základní úpravy časových řad Doplnění hodnot řady v případě že v časové řadě některé hodnoty chybí doplněné hodnoty nejsou plnohodnotné a mohou snížit kvalitu výsledků existuje několik možností, jak chybějící data doplnit náhrada chybějících hodnot nulami náhrada chybějících hodnot aritmetickým průměrem či mediánem náhrada chybějících hodnot trendem celé časové řady náhrada chybějících hodnot na základě zvolené funkce a okolních bodů
Biomedical Data Processing G r o u p
Funkce pro doplnění hodnot řady Rozlišujeme čtyři úlohy pro doplnění hodnot řad Interpolaci doplňování hodnot doprostřed časových řad
Extrapolaci nalezení hodnot na koncích řady
Aproximaci nalezení přibližné hodnoty čísla
Predikci konstrukce předpovědi budoucího průběhu
Biomedical Data Processing G r o u p
Funkce pro doplnění hodnot řady Interpolace nalezení chybějícího údaje závislé veličiny y pro některou hodnotu x uvnitř intervalu známých hodnot není úloha jednoznačná a má smysl jen v jistých mezích přesnosti lineární interpolace, kvadratická interpolace, polynomiální interpolace
Biomedical Data Processing G r o u p
Funkce pro doplnění hodnot řady Extrapolace nalezení chybějícího údaje závislé veličiny y pro některou hodnotu x mimo interval známých hodnot jednodušší případ predikce z matematického hlediska mnohem méně přesná a složitější metoda než interpolace – zpravidla nelze mat. prostředky zodpovědně odhadnout budoucí nebo minulý vývoj
Biomedical Data Processing G r o u p
Funkce pro doplnění hodnot řady Aproximace nalezení přibližné hodnoty čísla, nebo jedné z jeho možných hodnot může také znamenat nahrazení čísla vhodným číslem blízkým narozdíl od interpolace není nutné, aby tato křivka přesně procházela zadanými body
Biomedical Data Processing G r o u p
Základní úpravy časových řad Časový posun vytvoření časové řady opožděné resp. předbíhající jinou totožné časovou řadu představuje to vlastně posunutí časové řady “dopředu” případně “dozadu” oproti původní časové řadě nově vytvořené proměnné mají na začátku, resp. na konci tolik chybějících hodnot, o kolik kroků se posun prováděl.
Biomedical Data Processing G r o u p
Základní úpravy časových řad Sezónní diference diference mezi okamžiky vzdálenými o celistvý násobek délky periody vyjadřuje velikost změny, ke které došlo mezi dvěma časovými okamžiky měření je-li kladná, řada v daném čase roste, je-li záporná, řada klesá. sezónní diferencí se data zbavují sezónních vlivů
Biomedical Data Processing G r o u p
Základní úpravy časových řad Kumulativní součet součet pozorování za určitý časový úsek. opačná operace k diferenci kumulativním součtem bílého šumu = náhodná procházka nikdy nelze předvídat, zda tato funkce se obrátí vzhůru nebo dolů (tzv. procházka “opilého námořníka”) náhodná procházka je hladší nežli bílý šum, jelikož integrace potlačuje vyšší frekvenční složky a zvýrazní nižší frekvence.
Biomedical Data Processing G r o u p
Základní úpravy časových řad Vyhlazování časových řad střední hodnota chyby je nulová (je to náhodná veličina) jednotlivé chyby nejsou vzájemně závislé (tj. nekorelované) zprůměrováním několika po sobě následujících pozorování budou se chyby navzájem rušit skutečná sledovaná hodnota procesu naopak vynikne tomto pozorování jsou založeny metody vyhlazování časových řad
Biomedical Data Processing G r o u p
Zpracování časových řad Popisné charakteristiky charakteristiky polohy charakteristiky variability míry dynamiky korelace
Analýza časových řad klouzavé průměry dekompozice složek časové řady lineární dynamické modely Boxova-Jenkinsova metodologie spektrální analýza časových řad
Biomedical Data Processing G r o u p
Popisné charakteristiky Charakteristiky polohy prostý aritmetický průměr 1 x n
n
i 1
xi
vážený aritmetický průměr
n
x
i 1 n
wi xi
i 1
wi
, kde X { x1 , , x n } jsou hodnoty a W {w1 , , wn } jsou váhy
Modus hodnota znaku s největší relativní četností
Medián hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny Biomedical Data Processing G r o u p
Interval spolehlivost pro průměr - populační průměr x - výběrový průměr - populační směrodatná odchylka s - výběrová směrodatná odchylka x u 1
N
u1- - pravděpodobnostní kvantil (např. u0,95 = 1,96)
Biomedical Data Processing G r o u p
Popisné charakteristiky Charakteristiky variability rozptyl
s
2 y
1 n 1
n
t 1
( yt y )2
směrodatná odchylka
sy
s y2
1 n 1
n
t 1
( yt y )2
Biomedical Data Processing G r o u p
Popisné charakteristiky míry dynamiky absolutní přírůstek
y t y t y t 1 , t 2 , 3, , n průměrný absolutní přírůstek yt y2 y1 y3 y2 yn yn1 yn y1 n 1 n 1 n 1 relativní přírůstek
t
yt y y t 1 yt t 1 y t 1 y t 1 y t 1
průměrný koeficient růstu k
n 1
k1k 2 k n
n 1
yn y2 y3 y4 y1 y 3 y 3 y n 1
n 1
yn y1
Biomedical Data Processing G r o u p
Popisné charakteristiky Korelace vyjadřuje relativní míru závislosti ve vzájemném vývoji dvou časových řad n
s xy
x t 1
t
x y t y sx sy
1;
1
Biomedical Data Processing G r o u p
Analýza časové řady Dekompozice časové řady - jednorozměrný model nejjednodušší koncepce modelování ČŘ reálná hodnota ČŘ (yt) je funkcí času (t).
yt f (t ; t ); Yt f (t ); t 1,2, , n yt Yt t
t yt Yt t časová proměnná yt reálná hodnota ukazatele v čase t Yt modelová (teoretická) hodnota ukazatele v čase t t náhodná (nepravidelná) složka v čase t.
Biomedical Data Processing G r o u p
Analýza časové řady Dekompozice časové řady – klasický (formální) model trend (Tt) sezónní složku (St) cyklickou složku (Ct) náhodnou složku (Et)
Formy dekompozice adaptivní dekompozice
yt Tt Ct St Et multiplikativní dekompozice
yt Tt Ct St Et Biomedical Data Processing G r o u p
Analýza časové řady Dekompozice časové řady - vícerozměrný model je založen na předpokladu, že vývoj analyzovaného ukazatele není ovlivněn pouze časovým faktorem, ale rovněž skupinou jiných, souvisejících ukazatelů jedná se o tzv. příčinné (faktorové) ukazatele pomocí těchto ukazatelů se snažíme vývoj analyzovaného ukazatele vysvětlit.
Yt f (t ; x1 , x2 , , x p ); t 1, 2, , n kde x1,x2,…,xn jsou příčinné (faktorové) ukazatele
Biomedical Data Processing G r o u p
Analýza časové řady Trendová analýza vývoj v čase ~ tendence a předpověď do budoucna hovoříme o vyrovnání - vyrovnání periodických fluktuací a náhodných chyb
předpoklad: St = 0; Ct = 0 ï Yt = Tt ; yt= Tt+ t lze počítat 2 způsoby: vyrovnání mechanické - klouzavé průměry vyrovnání analytické - časová řada (sledujeme trendovou fci.)
Periodické kolísání sezónní cyklické krátkodobé
Nahodilé kolísání Biomedical Data Processing G r o u p
Analýza časové řady Klouzavé průměry adaptivní přístup k modelování trendu ČŘ posloupnost empirických pozorování nahradíme řadou průměrů z těchto pozorování vypočtených každý z těchto průměrů reprezentuje určitou skupinu pozorování při postupném výpočtu průměrů postupujeme (kloužeme) vždy o jedno pozorování kupředu, přičemž první pozorování z dané skupiny vypouštíme. v prvé řadě je třeba stanovit počet pozorování , z nichž vypočteme jednotlivé klouzavé průměry klouzavá část období interpolace (m) časový interval délky m, který se posunuje po časové ose vždy o jednotku.
Biomedical Data Processing G r o u p
Klouzavé průměry Volba délky klouzavé části období interpolace nelze stanovit exaktními statistickými postupy stanovujeme především na základě věcné analýzy (heuristicky) přednost dáváme průměrům nižšího řádu u neperiodických ČŘ se nejčastěji volí délka klouzavé části 3, 5, 7 u ČŘ s periodickou složkou je délka klouzavých průměrů rovna periodě sezónních nebo cyklických výkyvů
Identifikace jednotlivých klouzavých částí jednotlivé klouzavé části reprezentujeme jejich středními body (angl. target) je-li m liché číslo, pak střední bod klouzavé části je číslo celé t je-li m sudé číslo, pak střední bod klouzavé části není celé číslo t+0.5 Biomedical Data Processing G r o u p
Klouzavé průměry Prosté klouzavé průměry klouzavé části o rozsahu m = 2p + 1 musí mít lineární trend
yt p yt p1 yt p1 yt p 1 p yt yt ,i m i p m t p 1, p 2,, n p střední body klouzavých částí jsou celá čísla t při tomto postupu zůstane p hodnot na začátku ČŘ a p hodnot na konci ČŘ nevyrovnáno
Biomedical Data Processing G r o u p
Klouzavé průměry Vážené klouzavé průměry klouzavé části o rozsahu m = 2p + 1 musí mít parabolický trend.
yt
p
W y
i p
i
t ,i
, t p 1, p 2, , n p
kde Wi
3 2 2 ( 3 m 7 20 i ), i p, ,1,0,1, , p 2 4m(m 4) p
Pro váhy platí : Wo 1 a Wi W i i -p
Biomedical Data Processing G r o u p
Klouzavé průměry Centrovaný klouzavý průměr speciální případ váženého klouzavého průměru používáme je v případě, že rozsah klouzavé části (m) je číslo
sudé
střední body klouzavých částí již nejsou celá čísla, proto nelze přímo přiřadit hodnoty klouzavých průměrů
Postup výpočtu
první vypočtený klouzavý průměr přiřadíme střednímu bodu t, který není celočíselný další klouzavý průměr přiřadíme střednímu bodu t+1, který opět není celočíselný celočíselný, tedy interpretovatelný, je bod t+0.5, který leží mezi body t a t+1 hodnotu klouzavého průměru, odpovídající bodu t+0.5, vypočteme jako aritmetický průměr dvou sousedních klouzavých průměrů. Biomedical Data Processing G r o u p
Analytické vyrovnávání Trendové funkce lineární
Tt a0 a1t
exponenciální
Tt a0 a1t logaritmická
Tt a 0 a1 log( t ) Kvadratická
Tt a 0 a 1 t a 2 t 2 nepřímá úměrnost
a1 Tt a 0 t Biomedical Data Processing G r o u p
Analytické vyrovnávání Další trendové funkce modifikovaný exponenciální trend
Tt k a 0 a1t logistický trend
1 Tt k a 0 a 1t S-křivka
Tt e
1 ( a0 a1 ) t
Gompertzova křivka
Tt k a 0
a 1t
Biomedical Data Processing G r o u p
Analytické vyrovnávání Míry úspěšnosti zvolené trendové funkce Střední kvadratická (čtvercová) chyba odhadu
n
M .S . E .
t 1
2 ( y t Tt )
nejčastější měřítko kvality modelu přednost dáváme vždy tomu modelu, u něhož je hodnota M.S.E. nejnižší prostřednictvím M.S.E. můžeme srovnávat jen funkce se stejným počtem parametrů
ST (Tt y )2 p 1 p 1 2 , kde y F SR ( y T t t) n p n p
Statistika F
n
Tt n
za nejlepší považujeme model, pro který je hodnota statistiky F nejvyšší
Index determinace
I
2
ST Sy
(T t y ) 2 ( yt y )2
Biomedical Data Processing G r o u p
Trendová analýza Boxova-Jenkinsova metodologie ARMA modely pro stacionární časové řady modeluje nesystematickou složku, korelovanými náhodnými veličinami.
která
je
tvořena
ARIMA(p,d,q), v případě sezónních vlivů SARIMA modely AR(p) – auto-regresivní modely MA(q) – modely klouzavých průměrů reziduální složky d - řád diferencování
(S)ARIMA modely pro kovarianční stacionární časové řady
Biomedical Data Processing G r o u p
Trendová analýza Spektrální analýza časových řad časová řada se považuje za kombinaci sinusových a kosinusových křivek s různými amplitudami a frekvencemi
Biomedical Data Processing G r o u p
Analýza periodického kolísání Sezónní kolísání periodicky se opakující obousměrné odchylky hodnot ČŘ od trendu délka periody je maximálně jeden rok oscilace vznikají v důsledku přímých či nepřímých příčin, které se rok co rok pravidelně opakují nejprve je třeba zjistit, zda ČŘ reálně vykazuje sezónní výkyvy
kvantifikace sezónních výkyvů očištění ČŘ, tj. vyloučení sezónní složky.
Cíl sezónního očišťování: - odkrytí základní dynamiky vývoje zkoumaných jevů - umožnění bezprostředního srovnání vývoje v jednotlivých sezónách v rámci roku. Biomedical Data Processing G r o u p
Sezónní kolísání Model konstantní sezónnosti (aditivní model):
yij Tij Sij ij , i 1,2,, m; j 1,2,, r kde i je pořadí roku a j je dílčí období v rámci roku (sezóny)
Kvantifikace sezónních výkyvů : empirické sezónní rozdíly (odchylky) = yij – Tij průměrné sezónní rozdíly standardizované sezónní rozdíly (= sezónní faktory rozdílové) Standardizace (normování) součet sezónních rozdílů v rámci roku musí být roven 0, tzn. v rámci roku se sezónní výkyvy kompenzují.
Biomedical Data Processing G r o u p
Sezónní kolísání Model proporcionální sezónnosti (multiplikativní model)
yij Tij S ij ij , i 1, 2, , m ; j 1, 2, , r Kvantifikace sezónních výkyvů empirické sezónní indexy = yij/Tij průměrné sezónní indexy standardizované sezónní indexy (sezónní faktory indexní) Standardizace (normování): součet sezónních indexů v rámci roku musí být roven r, tzn. v rámci roku se sezónní výkyvy kompenzují.
Biomedical Data Processing G r o u p
Analýza periodického kolísání Cyklické kolísání s periodou více let Krátkodobé kolísání s periodou kratší než jeden rok
Biomedical Data Processing G r o u p
Reference Jana Hančlová, Lubor Tvrdý – Úvod do analýzy časových řad, VŠB-TU Ostrava, 2003, http://gis.vsb.cz/pan Časové řady – kapitola z výukových materiálů http://homen.vsb.cz/~oti73/cdpast1/
Biomedical Data Processing G r o u p
Děkuji za pozornost
Biomedical Data Processing G r o u p