ROBUST’2004
c JČMF 2004
GRAFICKÉ MODELY V ANALÝZE FINANČNÍCH DAT Jitka Zichová Klíčová slova: Grafický model, podmíněná nezávislost. Abstrakt: Grafické modely jsou jedním z nástrojů mnohorozměrné statistické analýzy. Umožňují popis a přehledné znázornění struktury vzájemných závislostí v dané množině proměnných. V poslední době se uplatňují i v oblasti financí, o čemž svědčí například publikace [1], [2], [3]. Článek shrnuje některé aplikace zpracované s použitím českých i zahraničních finančních dat diplomanty oboru Finanční a pojistná matematika na MFF UK v Praze pod vedením autorky příspěvku.
1
Grafický model
Uvažujme sloupcový náhodný vektor X = (X1 , X2 , . . . , Xk )T , indexovou množinu K = {1, 2, . . . , k} a graf G = (K, E), v němž množina vrcholů je K a E označuje množinu hran. Nechť chybějící hrana (i, j) indikuje podmíněnou nezávislost náhodných veličin Xi a Xj při pevných hodnotách ostatních složek vektoru X, což značíme Xi ⊥ Xj |{Xr ; r 6= i, j}. Znamená to, že pro podmíněné hustoty veličin Xi , Xj a vektoru (Xi , Xj )T platí fXi ,Xj |{Xr ;r6=i,j} = fXi |{Xr ;r6=i,j} fXj |{Xr ;r6=i,j} . Nechť K = A ∪ B ∪ C. Označme Xa podvektor vektoru X obsahující složky Xi , i ∈ A a analogicky podvektory Xb a Xc se složkami s indexy z B respektive z C. Množina vrcholů C separuje množiny A a B, když všechny cesty z některého vrcholu i ∈ A do některého vrcholu j ∈ B obsahují alespoň jeden vrchol z C. Separaci interpretujeme tak, že náhodné vektory Xa a Xb jsou podmíněně nezávislé při pevné hodnotě vektoru Xc , t.j. Xa ⊥ Xb |Xc . Úplný graf má všechny dvojice vrcholů spojené hranou. Klika je maximální úplný podgraf, jejím rozšířením o další vrcholy vznikne podgraf, který již není úplný. Řetězový graf má vrcholy uspořádané do bloků, takže K = b1 ∪ b2 ∪ · · · ∪ bm pro nějaké přirozené m < k. Nechť r(j) je index bloku obsahujícího vrchol j. Na množině vrcholů existuje částečné uspořádání definované předpisem i < j když r(i) < r(j), i ≤ j když r(i) = r(j). Hrany spojující vrcholy z téhož bloku jsou neorientované zatímco hrany, jež spojují vrcholy z různých bloků, jsou orientované od bloku s nižším indexem k bloku s indexem vyšším. Nechť K(j) = b1 ∪ b2 ∪ · · · ∪ br(j) . Chybějící hrana (i, j), i ≤ j znamená, že Xi ⊥ Xj |{Xr ; r ∈ K(j), r 6= i, j}. Grafický model s grafem G je systém pravděpodobnostních rozdělení náhodného vektoru X splňujících podmíněné nezávislosti dané grafem G. Speciálním případem je saturovaný model s úplným grafem.
436
Jitka Zichová
V praxi se používají systémy normálních rozdělení pro analýzu spojitých dat a systémy rozdělení určených mnohorozměrnou kontingenční tabulkou pro zpracování dat diskrétních. Zkoumání podmíněných nezávislostí v množině proměnných umožňují modely s neorientovanými grafy. Chceme-li vyšetřovat příčinné souvislosti, to jest vztahy mezi soubory závisle a nezávisle proměnných, používáme modely s řetězovými grafy.
2
Selekce modelu
Předpokládejme nadále, že máme k dispozici data ve formě n realizací k-rozměrného náhodného vektoru X. Naším cílem je popsat strukturu podmíněných nezávislostí složek vektoru X vhodným grafickým modelem. K tomu účelu byly vypracovány různé selekční algoritmy v rámci věrohodnostního a bayesovského přístupu. Omezíme-li se na věrohodnostní přístup, je základním nástrojem selekčních algoritmů deviance. Pro grafický model s grafem G ji definujeme předpisem dev(G) = 2(lS − lG ), kde lS je maximum logaritmické věrohodnostní funkce v saturovaném modelu a lG je maximum logaritmické věrohodnostní funkce v modelu s grafem G. Deviance má asymptoticky chí-kvadrát rozdělení, počet stupňů volnosti f závisí na rozdělení dat a zmíníme jej později. Je testovou statistikou pro test modelu s grafem G proti alternativě saturovaného modelu. Selekční algoritmy pracují v krocích spočívajících v postupném ubírání hran počínaje saturovaným modelem s úplným grafem (typ backward) nebo naopak v postupném přidávání hran počínaje grafem bez hran (typ forward). Zřejmě je tedy třeba umět testovat model s grafem G2 proti alternativě modelu s grafem G1 obsahujícím oproti G2 navíc jednu nebo více hran. Testovou statistikou je v takových případech diference deviancí dev(G2 ) − dev(G1 ) s asymptotickým chí-kvadrát rozdělením o f2 − f1 stupních volnosti, kde f2 jsou stupně volnosti pro dev(G2 ) a f1 jsou stupně volnosti pro dev(G1 ). Překročí-li deviance respektive diference deviancí kritickou hodnotu příslušného chí-kvadrát rozdělení, zamítáme testovaný model ve prospěch alternativního modelu s grafem s více hranami. Podrobný popis selekčních algoritmů nalezneme v knize [4] a v citovaých diplomových pracích.
3
Gaussovské grafické modely
Předpokládejme, že náhodný vektor X má mnohorozměrné normální rozdělení s nulovou střední hodnotou a varianční maticí V . Označme D = V −1 inverzní varianční matici a dij , i, j = 1, 2, . . . , k její prvky. Lze dokázat, že Xi ⊥ Xj |{Xr ; r 6= i, j} právě tehdy, když dij = 0. Deviance modelu s grafem G má tvar ˆ − ln[det(S D)] ˆ − k}, dev(G) = n{tr(S D) ˆ = Vˆ −1 a Vˆ je maximálně věrohodný odhad varianční matice V v mokde D delu s grafem G. Tento odhad se počítá iteračně aplikací tzv. IPF algoritmu
Grafické modely v analýze finančních dat
437
(Iterative Proportional Fitting), který je popsán např. v [4]. Výběrová varianční matice S je maximálně věrohodným odhadem pro V v saturovaném modelu. Počet stupňů volnosti pro chí-kvadrát rozdělení deviance modelu s grafem G je roven počtu chybějících hran v G. Následující příklad byl řešen v diplomové práci [6] s pomocí programu napsaného autorem práce v systému Mathematica. Příklad 1. Analýza vzájemných vztahů českých burzovních indexů. Databáze byla tvořena časovými řadami měsíčních pozorování uzávěrkových kursů odvětvových indexů Burzy cenných papírů Praha z let 1994-2001. Zaměřili jsme se na šestici odvětví, a to výroba nápojů a tabáku (X1 ), textilní průmysl (X2 ), hutnictví (X3 ), elektroprůmysl (X4 ), služby (X5 ) a investiční fondy (X6 ). Data byla transformována diferencemi logaritmů, které splnily předpoklady normality a nezávislosti pozorovaných realizací. Podívejme se nejprve na korelační matici indexů pro sledovaná odvětví. Nápoje Textil Hutnictví Elektro Služby Fondy 1
0.33 0.43 1 0.31 1
0.37 0.48 0.31 1
0.33 0.33 0.41 0.42 1
0.42 0.38 0.32 0.44 0.35 1
Naprogramovaný backward algoritmus vybral pro popis vzájemných souvislostí v datech graf 6m 4m @ @ 2m 1m
5m 3m
Korelace dvojic odvětví spojených v grafu hranami jsou vytištěny tučně. Z grafu lze číst, že chování indexu investičních fondů X6 výrazně ovlivňují z uvažovaných odvětví výroba nápojů a tabáku X1 a elektroprůmysl X4 , čemuž odpovídají dvě nejvyšší korelace v posledním sloupci korelační matice. U normálně rozdělených dat však hrany v grafu znamenají nenulové hodnoty parciálních korelací. Vidíme například, že vrcholy 2 a 6 nejsou spojeny hranou, tudíž proměnné X2 a X6 mají nevýznamnou parciální korelaci. Jejich relativně vysoká korelace 0.38 je způsobena vlivem ostatních proměnných. V Příkladu 2 řešeném v práci [8] ukážeme aplikaci modelu s řetězovým grafem na data podobného charakteru.
438
Jitka Zichová
Příklad 2. Chování indexu PX50 v závislosti na odvětvových indexech. Opět máme k dispozici časové řady odvětvových burzovních indexů pro vybraná odvětví a navíc řadu hodnot průřezového indexu PX50 za stejné období. Byla sledována odvětví výroba nápojů a tabáku (X1 ), textilní průmysl (X2 ), chemický průmysl (X3 ), elektroprůmysl (X4 ), energetika (X5 ), doprava a spoje (X6 ), služby (X7 ), sklářský průmysl (X8 ), investiční fondy (X9 ) a index ostatních odvětví (X10 ). Závisle proměnnou (Y ) je index PX50. Stejně jako v Příkladu 1 byly zpracovány diference logaritmů všech proměnných, a to třístupňovým algoritmem pro selekci řetězového grafu popsaným v knize [4] a realizovaným diplomantkou v systému Mathematica. Uveďme nejprve parciální korelace indexu PX50 s oborovými indexy. Statisticky významné parciální korelace na pětiprocentní hladině jsou vytištěny tučně. X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 0.15 -0.11 0.14 0.13 0.78 0.87 0.09 0.13 0.31 0.21 Blok nezávisle proměnných b1 je tvořen veličinami X1 , X2 , . . . , X10 a blok b2 obsahuje jedinou závisle proměnnou Y reprezentující index PX50. V grafickém modelu pro popis dat nás zajímají především hrany spojující vrchol 11 veličiny Y s vrcholy z bloku b1 . Selekční algoritmus navrhl model s grafem obsahujícím orientované hrany pro dvojice (X5 , Y ), (X6 , Y ), (X9 , Y ), (X10 , Y ). To znamená, že index PX50 je významně ovlivňován indexy energetiky, dopravy a spojů, investičních fondů a indexem ostatních odvětví. Odpovídá to statisticky významným parciálním korelacím. Ze získaného výsledku lze vyjít například při modelování regresní závislosti PX50 na odvětvových indexech. Vybraný grafický model nám oproti regresnímu modelování poskytuje navíc informaci o vzájemných souvislostech v množině nezávisle proměnných, a to prostřednictvím neorientovaných hran spojujících vrcholy z bloku b1 . Podgraf pro blok b1 lze popsat maticí sousednosti, která má 1 na místě (i, j), spojuje-li vrcholy příslušející proměnným (Xi , Xj ) hrana, a 0 v případě nepřítomnosti hrany. X1 0
X2 0 0
X3 1 0 0
X4 0 1 0 0
X5 0 0 1 0 0
X6 1 0 0 0 1 0
X7 0 0 1 1 0 0 0
X8 1 0 0 1 0 0 0 0
X9 1 1 0 0 1 0 0 0 0
X10 0 0 0 1 0 1 0 0 1 0
439
Grafické modely v analýze finančních dat
Největší provázanost s ostatními odvětvími vykazují indexy výroby nápojů a tabáku X1 , elektroprůmyslu X4 a investičních fondů X9 , jak ukazují tučně vytištěné 1 ve výše uvedené matici. Další příklad byl řešen v práci [5] a byl věnován studiu závislosti mezi několika bloky proměnných. Příklad 3. Analýza odvětvových indexů a indexu IBIX prostřednictvím blokové struktury. Odvětvové indexy byly rozděleny do bloků b1 , b2 , b3 , u nichž lze usuzovat, že proměnné z bloku s nižším indexem mohou ovlivňovat chování proměnných z bloků s vyšším indexem. Vstup představovaly časové řady diferencí logaritmů denních pozorování indexů z let 1993-1994. Blok b1 obsahoval indexy zemědělství (X1 ), dřevozpracujícího průmyslu (X2 ), chemického průmyslu (X3 ) a hutnictví (X4 ). V bloku b2 byla zastoupena odvětví potravinářství (X5 ), textilní průmysl (X6 ), stavebnictví (X7 ) a strojírenský průmysl (X8 ). Blok b3 zahrnoval elektroprůmysl (X9 ) a obchod (X10 ). Jediná proměnná X11 v bloku b4 reprezentovala průřezový index IBIX, jenž byl sestavován Investiční a Poštovní bankou. Autor práce naprogramoval zobecněný třístupňový algoritmus pro selekci grafického modelu s řetězovým grafem zahrnujícím více bloků proměnných. Tímto algoritmem byl pro vyšetřovaná data navržen graf, jehož strukturu zde opět naznačíme v maticové formě. X1 X2 X3 0 0 1 0 1 0
X4 1 1 1 0
X5 * * * *
X6 0 * 0 *
X7 * * * 0
X8 0 0 * *
X9 0 0 0 *
X10 0 0 0 0
X11 0 0 * 0
0
1 0
1 1 0
1 1 1 0
0 * 0 *
0 0 * 0
* 0 * *
0
0 0
0 * 0
Hvězdička na místě (i, j) představuje orientovanou hranu vedoucí z vrcholu i do vrcholu j v bloku s vyšším indexem, jednička na místě (i, j) pak neorientovanou hranu spojující dva vrcholy téhož bloku. Například vrchol 5 proměnné potravinářství je spojen orientovanými hranami s vrcholy 1, 2, 3, 4 všech odvětví bloku b1 a neorientovanými hranami s vrcholy 6, 7 a 8. Vysoká
440
Jitka Zichová
provázanost s ostatními odvětvími způsobuje i vliv proměnné potravinářství X5 na index IBIX. Vrchol 10 proměnné obchod není spojen s žádným z vrcholů bloku b1 . Vidíme, že index obchodu je prostřednictvím orientované hrany ovlivněn pouze chováním indexu stavebnictví s vrcholem 7 v bloku b2 . Dále lze konstatovat, že hodnota indexu IBIX je ovlivněna indexy chemického, potravinářského a strojírenského průmyslu, stavebnictví a obchodu, a že všechny čtyři bloky proměnných spolu souvisejí. Největší počet orientovaných hran je mezi bloky b1 a b2 .
4
Grafické modely pro kategoriální data
Nechť nyní X = (X1 , X2 , . . . , Xk )T představuje náhodný vektor měřených znaků na určitém subjektu, přičemž i-tý znak nabývá hodnot 0, 1, 2, . . . , ri , i = 1, 2, . . . , k. Označíme-li symbolem x konkrétní kombinaci sledovaných k znaků, je rozdělení vektoru X dáno k-rozměrnou tabulkou pravděpodobností P (X = x) všech možných kombinací. Databáze je v tomto případě tvořena n subjekty, z nichž každý Pje popsán k znaky. Četnost kombinace x v datech označíme n(x), přičemž x n(x) = n. Deviance modelu s grafem G je X n(x) dev(G) = 2 , n(x) ln nˆ p(x) x kde pˆ(x) je maximálně věrohodný odhad pravděpodobnosti p(x) v modelu s grafem G a relativní četnost n(x)/n je maximálně věrohodný odhad pro p(x) v saturovaném modelu. Odhady pˆ(x) se opět počítají iteračně pomocí IPF algoritmu. Logaritmicko-lineární rozvoj hustoty lze psát ve tvaru X ln p(x) = ua (xa ), a⊂K
kde sčítáme přes všechny podmnožiny a množiny vrcholů K a ua (xa ) jsou tzv. u-členy, pro něž platí ua (xa ) = ua (xi ; i ∈ a) a ua (xa ) = 0, existuje-li takové i ∈ a, že xi = 0. Počet stupňů volnosti pro devianci je roven počtu chybějících u-členů s nenulovými argumenty v logaritmicko-lineárním rozvoji p(x), neboť Xi ⊥ Xj |{Xr ; r 6= i, j} právě tehdy, když ua (xa ) = 0 pro všechna a ⊂ K taková, že i, j ∈ a. V práci [7] byl řešen problém z oblasti credit scoringu, to jest posuzování bonity žadatelů o úvěry. K dispozici byla databáze klientů jisté německé banky z doby před zavedením Eura. Základním sledovaným znakem je to, zda klientovi byl či nebyl bankou poskytnut úvěr, dalšími znaky je například pohlaví klienta, výše požadovaného úvěru apod.
Příklad 4. Stanovení faktorů ovlivňujících přidělení úvěru. Uvažujme následující kategoriální proměnné zaznamenávané u žadatelů o bankovní úvěr: úvěr (X1 ) nabývající hodnot 0 (neposkytnut) a 1 (poskytnut), výše úvěru (X2 ) s hodnotami 0 (<1500 DEM), 1 (1500 až 5000 DEM)
Grafické modely v analýze finančních dat
441
a 2 (>5000 DEM), úspory (X3 ) s hodnotami 0 (<100 DEM), 1 (100 až 1000 DEM) a 2 (>1000 DEM), pohlaví (X4 ), kde 0 kóduje muže a 1 ženu, a jiný úvěr (X5 ) s hodnotami 0 (ano) a 1 (ne). Poslední proměnná indikuje, zda žadatel již má přidělen jiný úvěr. Selekční algoritmus naprogramovaný diplomantkou v Mathematice navrhl model s grafem 3m 4m @ @ 1m 2m 5m Graf nás informuje, o tom, že přidělení úvěru X1 ovlivňují kromě pohlaví X4 všechny sledované znaky. Vrcholy 1, 2, a 3 odpovídající znakům úvěr, výše úvěru, úspory tvoří kliku dokumentující vzájemnou provázanost v této trojici proměnných. Další klika je tvořena vrcholy 1, 2, a 5, jež představují znaky úvěr, výše úvěru a jiný úvěr. Pohlaví X4 souvisí pouze s požadovanou výší úvěru X2 . Podíváme-li se na procentní podíl žen žádajících o úvěr v dané databázi, zjistíme, že se skutečně liší podle výše úvěru: < 1500 DEM
1500 až 5000 DEM
>5000 DEM
54 procent
36 procent
30 procent
Grafické modely v databázích uvedeného typu mohou například poskytnout bankám informaci o tom, které znaky je důležité u klientů evidovat a které nikoli.
Reference [1] Giudici P. (2001). Bayesian data mining with application to benchmarking and credit scoring. Applied Stochastic Models in Business and Industry 17, 69 – 81. [2] Hand D.J., Mc Conway K.J., Stanghellini E. (1997). Graphical models of applicants for credit. IMA Journal of Mathematics Applied in Business and Industry 8, 143 – 155. [3] Stanghellini E., Mc Conway K.J., Hand D.J. (1999). A discrete variable chain graph for applicants for credit. Applied Statistics 48, Part 2, 239 – 251. [4] Whittaker J. (1990). Graphical models in applied multivariate statistics. Wiley, New York. [5] Ambrož Z. (2004). Regresní modely pro analýzu výnosu portfolia. Diplomová práce, KPMS MFF UK, Praha.
442
Jitka Zichová
[6] Chýna V. (2002). Grafické modely pro analýzu spojitých finančních dat. Diplomová práce, KPMS MFF UK, Praha. [7] Svobodová B. (2003). Analýza kategoriálních finančních dat. Diplomová práce, KPMS MFF UK, Praha. [8] Zelinková J. (2003). Regrese a grafické modely pro finanční analýzu. Diplomová práce, KPMS MFF UK, Praha. Poděkování: Tato práce je podporována výzkumným záměrem MSM 113200008. Adresa: J. Zichová, KPMS MFF UK, Sokolovská 83, 186 75 Praha 8 E-mail :
[email protected]