Dynamicke´ metody pro predikci rizika 1
´ vod do analy´zy cˇasovy´ch rˇad U
Cˇasova´ rˇada – konecˇna´ posloupnost rea´lny´ch hodnot urcˇite´ho sledovane´ho ukazatele meˇrˇene´ho v urcˇity´ch cˇasovy´ch intervalech • okamzˇikove´ – naprˇ. kurs dolaru k urcˇite´mu datu, . . . • intervalove´ – naprˇ. objem vy´roby za meˇsı´c, . . .
Cı´l analy´zy cˇasove´ rˇady: porozumeˇt mechanismu, ktery´ urcˇuje hodnoty sledovane´ velicˇiny a prˇedpoveˇdeˇt jejı´ vy´voj. K pochopenı´ vy´voje sledovane´ velicˇiny slouzˇ´ı model cˇasove´ rˇady, matematicky vyja´drˇeny´ vztah mezi vysveˇtlovanou promeˇnnou a vysveˇtlujı´cı´mi promeˇnny´mi (veˇtsˇinou ma´ model podobu jedne´ nebo vı´ce stochasticky´ch rovnic). Prakticky se pouzˇ´ıvajı´ ru˚zne´ metody – volba pouzˇite´ metody za´visı´ na u´cˇelu a cı´li analy´zy, typu cˇasove´ rˇady, zkusˇenosti statistika, dostupne´m softwaru, teoreticke´m vy´chodisku apod. • expertnı´ metody – patrˇ´ı do kategorie kvalitativnı´ch metod, uplatnı´ se tam, kde nenı´ rozumne´ nebo mozˇne´ vyuzˇ´ıvat kvantitativnı´ metody, naprˇ. dotazova´nı´ za´kaznı´ku˚, prodejcu˚ Operacˇnı´ program Vzdeˇla´va´nı´ pro konkurenceschopnost Na´zev projektu: Inovace magisterske´ho studijnı´ho programu Fakulty ekonomiky a managementu Registracˇnı´ cˇı´slo projektu: CZ.1.07/2.2.00/28.0326 ˇ TEM C ˇ ESKE´ REPUBLIKY. ´ LNI´M FONDEM A STA´TNI´M ROZPOC PROJEKT JE SPOLUFINANCOVA´N EVROPSKY´M SOCIA
• graficka´ analy´za – prˇedstavuje jen jednoduchou metodu analy´zy cˇasove´ rˇady, ktera´ se opı´ra´ o graficke´ zobrazenı´ vy´voje sledovane´ velicˇiny, ma´ subjektivnı´ charakter (nejsnadneˇji lze odhadnout trend rˇady, uzˇitecˇne´ by´va´ srovna´nı´ grafu˚ ru˚zny´ch cˇasovy´ch rˇad mezi sebou) • dekompozice cˇasovy´ch rˇad – vycha´zı´ z prˇedpokladu, zˇe hodnota sledovane´ velicˇiny za´visı´ pouze na cˇase – cˇasovou rˇadu rozlozˇ´ıme na neˇkolik neza´visly´ch slozˇek: trend, sezo´nnı´, cyklickou a na´hodnou slozˇku Yt = Tt + St + Ct + t • ekonometricke´ modely – kauza´lnı´ modely, ktere´ vysveˇtlujı´ hodnotu vysveˇtlovane´ promeˇnne´ pomocı´ jedne´ nebo vı´ce vysveˇtlujı´cı´ch promeˇnne´. Cı´lem je tedy odhalit prˇ´ıcˇinne´ vazby mezi ekonomicky´mi velicˇinami; naprˇ. prˇi modelova´nı´ inflace je vysveˇtlovanou promeˇnou cenova´ hladina, vysveˇtlujı´cı´mi promeˇnny´mi mohou by´t rea´lny´ HDP, mnozˇstvı´ peneˇz v obeˇhu, vy´voz a dovoz zbozˇ´ı, prˇ´ıjmy obyvatel. • Box–Jenkinsonova metodologie – je zalozˇena na du˚kladne´m modelova´nı´ na´hodne´ slozˇky a snazˇ´ı se identifikovat vza´jemnou za´vislost jednotlivy´ch prvku˚ cˇasove´ rˇady s ru˚zny´m zpozˇdeˇnı´m, prˇ´ıpadneˇ jejich za´vislost na ru˚zne´m zpozˇdeˇnı´ • spektra´lnı´ analy´za – vycha´zı´ z prˇedpokladu, zˇe si cˇasovou rˇadu mu˚zˇeme prˇedstavit jako smeˇs sinusovy´ch a kosinusovy´ch krˇivek s ru˚zny´mi frekvencemi a amplitudami, a snazˇ´ı se vysˇetrˇit intenzitu zastoupenı´ jednotlivy´ch frekvencı´; lze tak posuzovat naprˇ. zpozˇdeˇnı´ ve vy´voji mezi dveˇma velicˇinami.
2
Linea´rnı´ dynamicke´ modely
Prˇ´ıkladem jednoduche´ho modelu je naprˇ. Ct = α + βCt−1 + γXt + δPt + t , kde vy´daje obyvatelstva Ct na na´kup spotrˇebnı´ho zbozˇ´ı v roce t jsou vysveˇtlova´ny pomocı´ minule´ hodnoty Ct−1 a navı´c pomocı´ disponibilnı´ch peneˇzˇnı´ch prˇ´ıjmu˚ Xt obyvatelstva a cenove´ho indexu Pt spotrˇebnı´ho zbozˇ´ı (α, β, γ a δ jsou parametry, t oznacˇuje bı´ly´ sˇum) Uvazˇujme jen jednorovnicove´ linea´rnı´ modely vyja´drˇene´ jedinou rovnicı´ ve tvaru Yt = β1 Xt1 + β2 Xt2 + · · · + βk Xtk + t , kde t = 1, 2, . . . , n. Yt prˇedstavuje v rovnici hodnotu vysveˇtlovane´ velicˇiny Y v cˇase t, Xt1 , . . . , Xtk jsou hodnoty vysveˇtlujı´cı´ch velicˇin X1 , . . . , Xk v cˇase t, β1 , . . . , βk prˇedstavujı´ nezna´me´ parametry modelu (viz LRM). Obvykle prvnı´ vysveˇtlujı´cı´ promeˇnna´ X1 = 1 prˇedstavuje konstantu, t prˇedstavuje chybovou (na´hodnou) slozˇku. Prˇ´ıklad. Prˇi teˇzˇbeˇ drˇeva v CˇR se prˇedpokla´da´ vliv cˇtyrˇech faktoru˚: zalesnˇova´nı´, hnojenı´ lesnı´ch porostu˚, lesnı´ pozˇa´ry a sˇkody zveˇrˇ´ı. Na za´kladeˇ rocˇnı´ cˇasove´ rˇady z obdobı´ 1995–2004 posud’te skutecˇny´ podı´l teˇchto faktoru˚ a sestrojte ekonometricky´ model, na za´kladeˇ ktere´ho by bylo mozˇne´ prove´st odhady teˇzˇby drˇeva za ru˚zny´ch podmı´nek. 1995 Teˇzˇba (tis. 47,52 Zalesnˇova´nı´ (ha) 46 Hnojenı´ porostu˚ (tis. ha) 7,86 Lesnı´ pozˇa´ry (des. ha) 22,7 Sˇkody zveˇrˇ´ı (mil. Kcˇ) 41,8 m3 )
1996 51,64 89 5,13 51,9 53,8
1997 79,65 66 3,49 19,5 61,1
1998 101,42 100 4,48 34,2 8,2
1999 105,35 101 3,79 18,9 25,8
2000 83,45 46 23,67 21,5 36,4
2001 80,54 47 17,23 6,8 34,5
2002 72,79 61 14,31 6,6 65,3
2003 60,45 84 5,25 35,1 27,4
2004 67,62 50 7,11 17,7 33,0 2
Dosta´va´me model Yt = β1 + β2 Xt2 + β3 Xt3 + β4 Xt4 + β5 Xt5 + t , kde t = 1, 2, . . . , 10, Y je teˇzˇba drˇeva, X2 zalesnˇova´nı´, X3 hnojenı´ lesnı´ch porostu˚, X4 lesnı´ pozˇa´ry a X5 jsou sˇkody zveˇrˇ´ı.
Podobneˇ jako u LRM lze cely´ model zapsat v maticove´m tvaru Y = Xβ + , kde
Y=
y1 y2 .. .
, =
yn
1 2 .. .
, X =
n
1 x12 · · · .. .. .. . . . 1 xn2 · · ·
x1k .. , β = . xnk
β1 β2 .. .
.
βk
Odhady metodou nejmensˇ´ıch cˇtvercu˚ za prˇedpokladu, zˇe matice X0 X je regula´rnı´ a tedy existuje inverznı´ matice (X0 X)−1 , jsou b = X0 X −1 X0 Y. β Pozn. U LRM se prˇedpokla´da´, zˇe (P1) Strˇednı´ hodnota Et = 0, t = 1, . . ., n, tj. na´hodne´ chyby jsou nesystematicke´. (P2) Rozptyl Dt = σ 2 , t = 1, . . ., n, tj. na´hodne´ chyby jsou homogennı´ se stejny´m nezna´my´m rozptylem σ2. (P3) Kovariance C(i , l ) = 0, i 6= l, i, l = 1, . . ., n, tj. na´hodne´ chyby jsou nekorelovane´. Navı´c se prˇedpokla´da´, zˇe hodnoty vysveˇtlujı´cı´ch promeˇnny´ch nejsou na´hodne´, ale jsou pevneˇ dane´. Lze vsˇak uka´zat, zˇe v prˇ´ıpadeˇ na´hodnosti vysveˇtlujı´cı´ch promeˇnny´ch (viz naprˇ. Hamilton1 ) je mozˇne´ vlastnosti odhadu˚ LRM zobecnit.
Ybt = 50,5821 + 0,7372X2t − 1,1242X4t 1
Hamilton, J., D. Time series analysis. Princeton, 1994
3
3
konst. zalesnovani hnojeni pozary skody.zver
Odhad 46,7804 0,8147 1,0182 −1,0373 −0,3353
Sm. chyba 29,4463 0,2876 0,8280 0,3749 0,2605
t-test 1,59 2,83 1,23 −2,77 −1,29
p-hodnota 0,1730 0,0365 0,2735 0,0395 0,2544
konst. zalesnovani pozary
Odhad 50,5821 0,7372 −1,1242
Sm. chyba 14,8608 0,2523 0,4149
t-test 3,40 2,92 −2,71
p-hodnota 0,0114 0,0223 0,0302
Oveˇrˇova´nı´ modelu
3.1
Normalita reziduı´
Pro test normality reziduı´ lze pouzˇ´ıt graficky´ch metod jako jsou • histogram, • QQ plot, nebo pouzˇ´ıt neˇktery´ z testu˚ normality: test nulove´ sˇikmosti a sˇpicˇatosti, Shapiro-Wilku˚v test, Lillieforsu˚v test, Jarque-Bera test apod. (shapiro.test, lillie.test, jarque.bera.test)
3.2
Autokorelace reziduı´
Rezidua et = yt − ybt by meˇla by´t podle prˇedpokladu˚ nekorelovana´. To lze oveˇrˇit naprˇ. • Durbin-Watsonovy´m testem, ktery´ zalozˇeny´ na statistice Pn (et − et−1 )2 DW = t=2Pn 2 . t=1 et 4
Hodnoty Durbin-Watsonovy statistiky se pohybujı´ v intervalu h0, 4i, pokud je tato statistika rovna cˇ´ıslu 2, rezidua nevykazujı´ zˇa´dnou autokorelaci, hodnoty mensˇ´ı nezˇ 2 znacˇ´ı kladnou – prˇ´ımou autokorelaci a hodnoty veˇtsˇ´ı nezˇ 2 znacˇ´ı za´pornou – neprˇ´ımou autokorelaci (dwtest). • pomocı´ autokorelacˇnı´ a parcia´lnı´ autokorelacˇnı´ funkce, portmanteau testu – viz pozdeˇji
3.3
Homoskedasticita
Homoskedasticita na´hodne´ slozˇky – na´hodna´ slozˇka modelu t ma´ v cˇase konstantnı´ rozptyl. Pokud tomu tak nenı´, mluvı´me o heteroskedasticiteˇ. Ta zpravidla take´ nema´ vliv na odhad parametru˚ modelu, avsˇak odhady smeˇrodatny´ch odchylek parametru˚ βj jsou uzˇ vychy´lene´. Heteroskedasticitu lze oveˇrˇit vizua´lneˇ z grafu reziduı´ nebo testovat naprˇ. Goldfeld-Quandtovy´m testem (gqtest), Breusch-Paganovy´m testem (bptest, ncvTest) apod.
3.4
Multikolinearita
Pro pouzˇitı´ metody nejmensˇ´ıch cˇtvercu˚ je du˚lezˇity´ prˇedpoklad linea´rnı´ neza´vislosti matice X. Jsou-li sloupce te´to matice linea´rneˇ za´visle´, potom je hodnost matice pla´nu X mensˇ´ı nezˇ pocˇet odhadovany´ch parametru˚ modelu, determinant det(X0 X) = 0 a matici X0 X neexistuje matice inverznı´. Hovorˇ´ıme potom o multikolineariteˇ (prˇesne´). Proble´mem mu˚zˇe by´t i silna´ korelace mezi jednotlivy´mi vysveˇtlujı´cı´mi promeˇnny´mi (prˇiblizˇna´ multikolinearita). Cˇ´ım je multikolinearita silneˇjsˇ´ı, tı´m vı´ce se determinant det(X0 X) se blı´zˇ´ı k nule. Multikolinearita ma´ za na´sledek • nadhodnocenı´ soucˇtu cˇtvercu˚ regresnı´ch koeficientu˚, cozˇ lze prakticky vnı´mat tak, zˇe neˇktere´ vysveˇtlujı´cı´ promeˇnne´ jsou du˚lezˇiteˇjsˇ´ı, nezˇ ve skutecˇnosti jsou, • zvy´sˇenı´ rozptylu odhadu˚ parametru˚ modelu, cozˇ znamena´ pokles spolehlivost jejich odhadu, nebot’rostou hodnoty smeˇrodatny´ch odchylek parametru˚ βj – sˇirsˇ´ı intervaly spolehlivosti resp. mensˇ´ı hodnoty testovy´ch krite´riı´ pro individua´lnı´ t-testy, • zda´nlivy´ rozpor mezi nevy´znamny´mi vy´sledky t-testu˚ a vy´znamny´m vy´sledkem celkove´ho F -testu modelu, • numericke´ proble´my, ktere´ u´zce souvisı´ s malou stabilitou odhadu˚ neˇktery´ch regresnı´ch koeficientu˚, • komplikace v rozumne´ interpretaci individua´lnı´ho vlivu jednotlivy´ch vysveˇtlujı´cı´ch promeˇnny´ch na promeˇnnou vysveˇtlovanou. Pro testova´nı´ multikolinearity existuje cela´ rˇada ru˚zny´ch krite´riı´. Jedno z jednoduchy´ch krite´riı´ vycha´zı´ z pa´rovy´ch korelacˇnı´ch koeficientu˚ rij , ktere´ vyjadrˇujı´ mı´ru za´vislosti mezi dveˇma vysveˇtlujı´cı´mi promeˇnny´mi xti a xtj , i, j = 1, 2, . . . , k a i 6= j. Hodnoty blı´zke´ ±1 naznacˇujı´ mozˇnost existence multikolinearity. Vzhledem ke vza´jemny´m vztahu˚m jednoduchy´ch korelacˇnı´ch koeficientu˚ s koeficientem mnohona´sobne´ korelace je vhodne´ pouzˇ´ıvat pro identifikaci multikolinearity jejich kombinaci. Pa´rove´ koeficienty korelace rij nemajı´ prˇekrocˇit hodnotu 0,8 a zˇa´dny´ z nich nesmı´ by´t veˇtsˇ´ı nezˇ koeficient mnohona´sobne´ korelace.
5
Prˇ´ıklady k procvicˇenı´ 1. Zjisteˇte, zda existuje korelace mezi vy´daji doma´cnostı´ a vy´daji vla´dy: Rok 1997 1998 1999 2000 2001 2002 2003 2004 2005
Vy´daje doma´cnostı´ 724 801 847 222 932 778 998 254 1 046 326 1 108 838 1 179 384 1 220 633 1 283 147
Vy´daje vla´dy 1 466 681 1 660 649 1 785 131 1 962 483 2 041 353 2 150 058 2 315 255 2 414 669 2 550 754
Zvolte vhodnou regresnı´ funkci pro dane´ cˇasove´ rˇady a odhadneˇte parametry. Oveˇrˇte vhodnost zvolene´ho regresnı´ho modelu. [Datovy´ soubor: vydaje.txt] 2. Datovy´ soubor kurzy2002.txt obsahuje smeˇnne´ kurzy norske´ koruny (NOK), eura (EUR), britske´ libry (GBP) a americke´ho dolaru v roce 2002. Pomocı´ linea´rnı´ regrese vyja´drˇete kurz norske´ koruny pomocı´ zby´vajı´cı´ch kurzu˚ meˇn. Oveˇrˇte vhodnost zvolene´ho regresnı´ho modelu. [Datovy´ soubor: kurzy2002.txt] 3. Datovy´ soubor phillips.txt o inflaci a nezameˇstnanosti v USA od roku 1948 do roku 2003. Inflace je vyja´drˇena pomocı´ procentnı´ zmeˇny indexu spotrˇebitelsky´ch cen, nezameˇstnanost je uvedena v procentech. Pomocı´ linea´rnı´ho regresnı´ho modelu popisˇte za´vislost inflace na mı´rˇe nezameˇstnanosti. Oveˇrˇte vhodnost zvolene´ho regresnı´ho modelu. [Datovy´ soubor: phillips.txt] 4. Datovy´ soubor intdef.txt obsahuje na´sledujı´cı´ promeˇnne´: i3 – trˇ´ımeˇsı´cˇnı´ u´rokova´ sazba T-bill (obligace vyda´vana´ vla´dou USA), inf – rocˇnı´ inflace (index spotrˇebitelsky´ch cen) a def – deficit sta´tnı´ho rozpocˇtu vyja´drˇeny´ jako procento hrube´ho doma´cı´ho produktu. Sestavte linea´rnı´ regresnı´ model, ve ktere´m vysveˇtlovanou promeˇnnou je u´rokova´ sazba T-bill. Urcˇete odhady parametru˚ modelu. [Datovy´ soubor: intdef.txt] 5. Obecna´ mı´ra plodnosti (gfr) je pocˇet narozeny´ch deˇtı´ na kazˇdy´ch 1000 zˇen v plodne´m veˇku. Rovnice gfrt = β1 + β2 pet + β3 ww2 + β4 pillt + ut popisuje tuto plodnost jako linea´rnı´ funkci danˇove´ho osvobozenı´ (pe) a dvou bina´rnı´ch promeˇnny´ch. Promeˇnna´ ww2 naby´va´ hodnoty 1 mezi lety 1941 azˇ 1945, tedy v dobeˇ, kdy se USA zapojily do 2. sveˇtove´ va´lky, promeˇnna´ pills ma´ hodnotu 1 od roku 1963, kdy se staly prˇ´ıstupne´ antikoncepcˇnı´ pilulky. Odhadneˇte parametry tohoto regresnı´ho modelu. Vzhledem k tomu, zˇe sledovana´ plodnost mu˚zˇe za´viset take´ na zpozˇdeˇny´ch hodnota´ch promeˇnne´ pe, odhadneˇte parametry modelu gfrt = β1 + β2 pet + β3 pet−1 + β4 pet−2 + β5 ww2 + β6 pillt + ut . [Datovy´ soubor: plodnost.txt] 6