Mendelova zemědělská a lesnická univerzita v Brně Provozně ekonomická fakulta
Aplikace neuronových sítí a metody ROC v klasifikačních úlohách ekonomické predikce Disertační práce
Vedoucí práce: Doc. Ing. Arnošt Motyčka, CSc.
Brno, 2009
Martin Pokorný
Poděkování patří řadě kolegů z fakultních i mimofakultních pracovišť, se kterými jsem spolupracoval, a kteří tak svým dílem přispěli ke vzniku této práce. Děkuji též školiteli, doc. Motyčkovi. Děkuji i své rodině. Výsledků bylo dosaženo v souvislosti s řešením výzkumného záměru VZ MSM 6215648904.
Prohlašuji, že jsem tuto disertační práci vyřešil samostatně s použitím literatury, kterou uvádím v seznamu. Spolupráce s řadou kolegů z fakultních i mimofakultních pracovišť je v příslušných kapitolách, kterých týkala, uvedena.
V Brně dne 23. února 2009
....................................................
4
Abstract Pokorný, M. The application of neural networks and ROC method in classification tasks of economical prediction. Dissertation theses. Brno, 2009. The disseratation theses deals with the problem of cost-sensitive binary classification by means of neural networks applied in economical prediction tasks, especially in the field of financial distress prediction. The first part contains the review of existing research in this area and the challenging key points related to cost-sensitive classification are set there. After that, the application of existing Receiver Operating Characteristics (ROC) method, which is able to solve mentioned problems, is discussed and the possibility of its wider use in economical prediction is proposed. The methodology of ROC analysis application is shown in medical and economical experiment of classification with neural networks. Keywords prediction, classification, neural networks, metoda ROC, economics, financial analysis
Abstrakt Pokorný, M. Aplikace neuronových sítí a metody ROC v klasifikačních úlohách ekonomické predikce. Disertační práce. Brno, 2009. Disertační práce se zabývá problémem nákladově orientované binární klasifikace neuronovými sítěmi v případech ekonomické predikce, zvláště pak v oblasti predikce finanční tísně. V první části práce je vypracován souhrn dosavadního výzkumu v této oblasti a jsou vytyčeny základní problémové body související zejména s nákladově orientovanou klasifikací. Poté je představena aplikace existující metody Receiver Operating Characteristics (ROC) řešící uvedená úskalí a možnost jejího širšího využití v ekonomické predikci. Na medicínském i ekonomickém experimentu klasifikace neuronovými sítěmi je poté ukázána metodika použití ROC analýzy. Klíčová slova predikce, klasifikace, neuronové sítě, ROC method, ekonomie, finanční analýza
5
OBSAH
Obsah 1 Úvod a cíl práce 1.1 Úvod do problematiky . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Cíl práce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Použité metody 2.1 Neuronové sítě v klasifikačních případech . 2.1.1 Základní pojmy . . . . . . . . . . . 2.1.2 Neuronové sítě . . . . . . . . . . . 2.2 Metoda Receiver Operating Characteristics 2.3 Finanční analýza . . . . . . . . . . . . . .
6 6 7
. . . . .
8 . 8 . 8 . 16 . 27 . 40
3 Současný stav aplikace neuronových sítí v ekonomické predikci 3.1 Přehled existujících souhrnů dosavadních publikací . . . . . . . . . 3.2 Aplikace neuronových sítí v predikci bankrotu a finanční tísně . . . 3.3 Ostatní aplikace metod umělé inteligence ve finanční oblasti . . . . 3.4 Aktualizace za roky 2007 a 2008 . . . . . . . . . . . . . . . . . . . . 3.5 Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC . 3.6 Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
. . . . . .
49 49 55 66 73 78 81
4 Metodika predikce neuronovými sítěmi a ROC analýzou 4.1 Příklad predikce patologického stádia nádoru prostaty . . . 4.1.1 Metodika . . . . . . . . . . . . . . . . . . . . . . . 4.1.2 Výsledky . . . . . . . . . . . . . . . . . . . . . . . . 4.1.3 Diskuze a omezení . . . . . . . . . . . . . . . . . . 4.2 Příklad v ekonomické predikci . . . . . . . . . . . . . . . .
. . . . .
88 88 89 103 104 113
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
5 Závěr
120
6 Literatura
121
Přílohy
131
A Odborné zaměření časopisů ve finanční oblasti
132
1
ÚVOD A CíL PRÁCE
1 1.1
6
Úvod a cíl práce Úvod do problematiky
Klasifikační úlohy v ekonomické predikci představují nezanedbatelnou část dosavadního výzkumu. Speciálně predikce finanční tísně a bankrotu patří k nejtypičtějším úlohám řešených řadou statistických metod a moho let již i technologiemi umělé inteligence. Neuronové sítě patří k tradičním metodám aplikovaných v ekonomické predikci, a to i přes svou uzavřenost a obtížnou interpretovatelnost. Většina publikací uvádí vyšší prediktivní výkon neuronových sítí oproti klasickým statistickým metodám, v posledních letech však vzrůstá podíl integrovaných modelů překonávajících i samostatné neuronové sítě. Disertační práce se z poměrně širokého portfolia metod použitelných pro klasifikaci zaměřuje téměř výhradně na neuronové sítě, konkrétně na vícevrstvé perceptronové sítě aplikované v úlohách binární klasifikace. V publikacích zaměřených na predikci finanční tísně neuronovými sítěmi je nejčastěji používanou evaluační metrikou prediktivního výkonu klasifikační přesnost. Klasifikační přesnost však není v situacích s nevyváženými datovými sety a v situacích s nerovnými náklady misklasifikace správnou metrikou. Její předpoklad rovných nákladů falešných poplachů a falešných negativit bývá v praxi zřídka kdy oprávněný, důsledky obou typů nekorektních klasifikací mají na ekonomické subjekty vzájemně se lišící dopad. V této oblasti může být ekonomickému výzkumu vzorem výzkum medicínský, v rámci něhož je pro svou různou nákladovost rozlišován falešný poplach od falešné negativity a finální podoba klasifikátoru musí oba typy chyb podle cílové aplikace zohledňovat. Přestože řada publikací ekonomického výzkumu rozlišuje oba zmíněné typy chyb, a přestože řada z těchto studií poukazuje na různou nákladovost misklasifikací, metodiku zohledňující tento fakt při výstavbě klasifikátoru bere v potaz pouze minimum studií. Metoda „rozlišovací operační křivkyÿ, nadále odkazovaná svým originálním anglickým názvem Receiver Oprating Characteristics (ROC), je v lékařských diagnostických úlohách často používanou metodou hodnocení prediktivního výkonu diagnostického testu. Vlastnosti této metody umožňují řešit nákladově orientovanou klasifikaci i ve výzkumu ekonomickém. Přestože počátky aplikace metody spadají do doby druhé světové války a její aplikace v biomedicínském výzkumu je dnes běžnou záležitostí, aplikace v ekonomických úlohách jsou i přes značnou podobnost úlohám biomedicínským spíše výjimkou. Z vlastního průzkumu více než sta odborných publikací predikce finanční tísně neuronovými sítěmi jen deset aplikuje metodu ROC, obvyklá podoba této metody se z uvedených deseti publikací navíc nevyskytuje u všech. V případě neuronových sítí chovajících se jako pravděpodobnostní klasifikátory je nezbytné stanovit na výstupním neuronu hraniční hodnotu oddělující obě třídy. Nejsou výjimkou publikace stanovující pevnou hraniční hodnotu ležící v polovině intervalu výstupní hodnoty, s takto nastavenou hraniční hodnotou však klasifikátor nemusí provádět optimální separaci tříd. I v dnešní době je tento problém stále
1.2
Cíl práce
7
aktuální, jak například upozorňuje Pendharkar (2008). Metoda ROC je schopná výše uvedená omezení evaluace prediktivního výkonu klasifikátorů zohlednit, a přiblížit tak analýzu prediktivního výkonu praktickým aplikacím.
1.2
Cíl práce
Cílem disertační práce je modifikovat ve stávajícím ekonomickém výzkumu převažující metodiku výstavby klasifikátoru nezohledňující různé náklady klasifikačních chyb. Metodický postup je modifikován speciálně pro neuronové sítě aplikované v úlohách binární klasifikace s použitou evaluační metrikou v podobě klasifikační přesnosti. Přechod na nákladově orientovanou metodiku výstavby klasifikátoru v ekonomické predikci je založen na integraci již existující a v medicíně široce využívané metody ROC (Receiver Operating Characteristics). Přestože ani aplikace metody ROC není v dosavadním ekonomickému výzkumu zcela neznámá, její výskyt je stále sporadický, jak dokládá vlastní rozsáhlý průzkum literatury. Disertační práce ukazuje výhody metody pro ekonomický výzkum i na konkrétních experimentech predikce neuronovými sítěmi.
2
POUŽITÉ METODY
2
8
Použité metody
Disertační práce vychází ze tří základních metodických okruhů: neuronové sítě aplikované v klasifikačních případech, dále metoda vyhodnocení diagnostických testů Receiver Operating Characteristics a zatřetí aplikace obou předchozích v oblasti finanční analýzy malých a středních podniků.
2.1
Neuronové sítě v klasifikačních případech
Účelem kapitoly je souhrn základních pojmů a konceptu neuronových sítí v klasifikačních případech. Nejedná se o souhrn současného stavu aplikace metod ve výzkumu či v praxi (který je uveden v následující kapitole), nýbrž o popis nejnutnějšího pojmového aparátu použitého touto prací. Text kapitoly vychází zejména ze dvou klíčových publikací – Bishop (1995) a (2006). První z publikací je zaměřena především na neuronové sítě, druhá popisuje i řadu dalších metod pro rozpoznávání vzorů. Mezi další publikace patří Mařík a kol. (2003), Orr, Schraudolph a Cummins (1999) a Zelinka (2003). 2.1.1
Základní pojmy
Data sestávají ze vzorů (bodů), každý vzor je popsan vektorem ~x = (x1 , . . . , xd )T , kde xi je i-tá prediktivní proměnná z celkového počtu d proměnných, d udává dimenzionalitu dat. Cílem binárního klasifikačního problému je vytvořit algoritmus, který zařadí nový vektor ~x do jedné ze dvou tříd Ck (class), kde v případě binární klasifikace (binary classification) je k = 1, 2. Obdobně je řešena klasifikace do více tříd (k > 2). Je-li k dispozici informace o zařazení každého vektoru ~x do příslušné třídy Ck , je tato informace součástí cílového vektoru ~t (target vector)1 . (Bishop, 1995 a 2006) Tytéž publikace vymezují složky dat: množina N vektorů {x~1 , . . . , x~N } a příslušných cílových vektorů {t~1 , . . . , t~N } se nazývá datový set (data set, ve statistické literatuře vzorek). Ta část datového setu, která je použita pro nastavení parametrů adaptivního klasifikačního modelu, tzv. klasifikátoru (classifier), se nazývá trénovací set (training set). Část datového setu, která se skládá z nových vektorů a která je určena k měření prediktivního, resp. klasifikačního výkonu modelu, je nazývána testovacím setem (test set). Stanovení parametrů klasifikačního modelu na základě trénovacího setu se nazývá trénování, resp. učení modelu (training/learning). Klasifikací je pak zařazení nového vektoru ~x do příslušné třídy, což je možné popsat funkcí y(~x), jejímž vstupním parametrem je nový vektor ~x, a která generuje výstup ~y kódovaný ve stejné podobě jako cílový vektor ~t. (Bishop, 1995 a 2006) Schopnost korektně klasifikovat nové vektory lišících se od vektorů v trénovacím setu se nazývá generalizace (generalization). Bishop (2006, s. 2) ke generalizaci 1
Nebo pouze kódovou hodnotou dané označení třídy.
2.1
Neuronové sítě v klasifikačních případech
9
uvádí: „V praktických aplikacích je variabilita vstupních vektorů taková, že trénovací data mohou zahrnovat pouze malou část všech možných vstupních vektorů, tudíž generalizace je hlavním úkolem v úloze rozpoznávání znakůÿ. Vstupní data modelu jsou před trénováním obvykle předzpracována, podstatou předzpracování (preprocessing, feature extraction) je transformace do nového prostoru proměnných, ve kterém je problém rozpoznávání vzorů obvykle jednodušší a s rychlejším výpočtem. Součástí této fáze bývá i redukce dimenzionality, neboť při velkém počtu prediktivních proměnných může dojít k redukci výkonu klasifikačního systému (curse of dimensionality). (Bishop, 1995 a 2006) Metodám předzpracování dat je detailněji věnována část textu následující kapitoly zaměřené přímo na neuronové sítě. Aplikace, ve kterých tvoří datový set také cílové vektory, označuje Bishop (1995) a (2006) jako řízené učení (supervised learning), resp. učení s učitelem. Příkladem je klasifikace nebo příbuzný problém regrese. Aplikace, ve kterých cílové vektory k dispozici nejsou, označuje jako neřízené učení (unsupervised learning), resp. učení bez učitele. Typickým zástupcem je shluková analýza (clustering). Klasifikační model má oproti regresi výstup představující jednu z konečného počtu diskrétních kategorií (tříd), výstupem modelu a potažmo cílového vektoru je označení třídy (class label) – typické je binární kódování 0/1 pro třídy C1 , C2 . Naopak regrese má výstup v podobě jedné nebo více spojitých proměnných. V grafickém znázornění klasifikačního případu je cílem nalezení rozhodovací hranice (decision boundary) oddělující prvky jednotlivých tříd spadajících do rozhodovacích oblastí (decision region), které mohou být i nespojité v rámci jedné třídy. Klasifikační i regresní úloha jsou speciální případy problému aproximace funkce (functional approximation). (Bishop, 1995 a 2006) Požadované mapování ustanovené s pomocí vzorů trénovacího setu lze podle Bishopa (1995) zapsat obecnou funkcí yk = yk (~x; w), ~ kde yk je výstup pro k-tou třídu (k = 1, . . . , c) z celkového počtu c tříd. Vektor w ~ je vektorem adaptivních parametrů modelu, často nazývaných váhy (weights). Modely, které jsou lineární funkcí koeficientů w, ~ nazývá autor lineárními modely. Míra přesnosti aproximace bodů trénovacího setu je dána chybovou funkcí E (error function), jakožto funkcí vah w. ~ Podstatou trénovacího procesu klasifikátoru je minimalizace chybové funkce E nalezením optimální kombinace vah daných vektorem w ~ ∗ . Jednou z typických jednoduchých funkcí je součet čtvercových odchylek přes všechny body trénovacího setu (sum of squares), funkci definuje Bishop (1995) vztahem E(w) ~ =
N X c 1X {yk (~xn ; w) ~ − tnk }2 , 2 n=1 k=1
kde yk (~xn ; w) ~ reprezentuje k-tý výstup jako funkce vstupního vektoru ~xn a vektoru vah w, ~ N je počet trénovacích vzorů, c je počet výstupů klasifikačního modelu, tnk reprezentuje cílovou hodnotu k-tého výstupu, když je vstupem vektor ~xn . Minimalizace chybové funkce vede k nalazení funkce y(~x, w ~ ∗ ). Přestože je chybová funkce
2.1
Neuronové sítě v klasifikačních případech
10
součtu čtvercových odchylek vhodná zejména pro regresní úlohy, je možné její použití i pro úlohy klasifikační, a jak udává Bishop (1995), výstup sítě může v jejím případě aproximovat posteriorní pravděpodobnosti. (Vhodnější chybové funkce pro klasifikaci jsou diskutovány v dalším textu). Nulová hodnota chybové funkce E(w ~ ∗ ) = 0 však obvykle nebývá cílem učícího procesu z důvodu nebezpečí přetrénování (přeparametrizování modelu) (overfitting). Reálné datové sety mají základní vlastnost, že jejich data představují systematickou složku a náhodnou složku (random noise). Přestože mají nová data testovacího setu stejnou povahu jako data v testu trénovacím, obsahují svou vlastní náhodnou složku. Cílem prediktivního modelu je správná predikce na nových datech (generalizace), a proto musí sestavovaný model reprezentovat systematickou složku dat namísto specifických detailů (náhodné složky) konkrétního trénovacího setu. (Bishop, 1995) Bishop (1995) i (2006) demonstruje problém přetrénování na případu aproximace funkce polynomem, kdy polynomy vyššího řádu dosahují na trénovacím setu nižší (až nulové) chybové funkce, avšak od určitého řádu polynomu za cenu vyšší chybové funkce na nových datech testovacího setu. Přestože polynomy vyššího řádu perfektně aproximují jednotlivé body trénovacího setu, trpí velkými oscilacemi a více než systematickou složku dat reprezentují náhodnou složku konkrétních trénovacích dat. Bishop v obou zmíněnýchqpublikacích doporučuje pro měření generalizace pou~ ∗ )/N (root-mean-square error, RMS), vydělení žít chybovou funkci ERM S = 2E(w počtem bodů N umožňuje srovnávat datové sety o různé velikosti a odmocnina zajišťuje, že hodnoty chybové funkce jsou ve stejném měřítku jako cílové proměnné t. Při jejím grafickém znázornění je patrný řád polynomu, od kterého chyba na testovacím setu výrazně narůstá i přesto, že chyba na trénovacím setu stále klesá. Problém přetrénování se stejně tak projevuje i v případě klasifikační úlohy. Bishop (1995, s. 13) udává: „S nárůstem komplexnosti modelu se i rozhodovací hranice stává více komplexní a tím více přizpůsobená trénovacím datům. Avšak pro řadu aplikací je nejlepšího generalizačního výkonu dasaženo modelem s průměrnou úrovní flexibility.ÿ Tatáž publikace dodává, že příliš jednoduchý model nemá dostatečnou kapacitu modelovat vybraná data (bias), zatímco přeparametrizovaný model vede k přetrénování (variance). Cílem natrénování modelu je pak nalezení kompromisu v jeho komplexnosti, tj. nalezení kompromisu mezi bias a variance. Typickým ukazatelem přeparametrizování modelu jsou velké hodnoty vah vektoru w ~ ∗ , které v uvedeném příkladu aproximace funkce polynomem způsobují velké oscilace. (Bishop, 1995 a 2006) Náchylnost k přetrénování modelu je také dána rozsahem datového setu, větší datové sety pravděpodobnost přetrénování snižují – jedním z přibližných pravidel je Bishopovo (2006) doporučení rozsahu dat v 5 až 10násobku adaptivních parametrů modelu. Vybrané metody, které umožňují v průběhu trénování řídit komplexnost modelu, jsou diskutovány dále v samostatné části. Příkladem je regularizace, v souvislosti s neuronovými sítěmi označovaná jako weight decay, dále metoda cross validace,
2.1
Neuronové sítě v klasifikačních případech
11
Obr. 1: Ukázka přeparametrizovaného modelu. Překresleno z publikace Bishop (1995, s. 14, obr. 1.11 a 1.12)
metoda včasného zastavení učení (early stopping) apod. U posledně uvedené metody je část datového setu vyhrazena tzv. validačnímu setu (validation set), který je použit při trénování k průběžnému měření generalizačního výkonu a tím ke kontrole komplexnosti modelu. Metoda cross validace je užitečná zvláště v případech omezeného datového setu. Podstatu metody popisuje Bishop (2006) rozdělením dat do S složek, trénování je realizováno na (S − 1) složkách, poslední složka je využita pro ověření prediktivního výkonu. Celkový výkon je pak dán průměrem S ověřovacích složek. V případě S = N se metoda nazývá leave-one-out. Nevýhodou metody je nutnost provádět trénování a ověřování modelu tolikrát, kolik je složek v rámci cross validace. V Bishopovi (1995) i (2006) lze najít detailní popis všech zmíněných metod. Na základě teorie pravděpodobnosti je možné realizovat klasifikaci s použitím Bayesova teorému, podstatou je klasifikace nového vzoru do třídy mající největší posteriorní pravděpodobnost, což minimimalizuje pravděpodobnost nekorektní klasifikace. (V této souvislosti je definována i tzv. diskriminační funkce, která je rovna posteriorní pravděpodobnosti pro danou třídu.) (Bishop, 1995 i 2006) Autor dále uvádí, že posteriorní pravděpodobnosti lze vypočítat s použitím uvedeného teorému, anebo je lze získat přímo například využitím neuronových sítí, jejichž výstup může být interpretován jako posteriorní pravděpodobnost. Bayesův teorém je popsán v řadě publikací, proto je na tomto místě uveden pouze odkaz na Bishopa (1995) – kap. 1.8 (s. 17) a Bishopa (2006) – kap. 1.2 (s. 12), kde je možné najít jeho využití pro účely statistické klasifikace. Bishop (2006) ukazuje volbu hraniční hodnoty rozhodovací hranice i graficky (obr. 1.24, s. 40). Ve schématu jsou vykresleny hustoty pravděpodobnosti dvou tříd s obvyklým přesahem (overlap) na hranici tříd. Optimální rozhodovací hranice leží v průsečíku obou hustot pravděpodobnosti, čemuž odpovídá kritérium minimalizace
2.1
Neuronové sítě v klasifikačních případech
12
klasifikačních chyb (misclassification rate), resp. minimalizace pravděpodobnosti chyby, a jemu odpovídající zařazení nového prvku do třídy mající největší posteriorní pravděpodobnost. V řadě aplikací je však kritérium minimalizace nesprávných klasifikací nedostatečné, neboť chybně klasifikovaná třída C1 nemusí představovat stejné náklady misklasifikace jako chybně klasifikovaná třída C2 . Typickým příkladem jsou diagnostické aplikace v medicíně. V této souvislosti se v publikacích obvykle rozlišují chyby typu I a chyby typu II, detailní popis je možné najít ve statistické literatuře. Jedním z přístupů řešících problém nerovných nákladů misklasifikace je podle Bishopa (1995) i (2006) nahrazení kritéria prosté minimalizace klasifikačních chyb kritériem minimalizace nákladové funkce (loss function, cost function), resp. inverzně maximalizace funkce užitku (utility function). Nestejné náklady jsou přiděleny jednotlivým typům chyb v maticí nákladů (loss matrix), v případě korektních klasifikací jsou její prvky nulové. Postup rozhodování v případě aplikace Bayesova teorému je podle Bishopa (1995) i (2006) rozdělen do dvou fází, zaprvé fáze odvození (inference stage), ve které je na základě trénovacího setu vytvořen model pro určení posteriorní pravděpodobnosti, a fáze rozhodnutí (decision stage), ve které je podle zjištěných pravděpodobností vybrána příslušná třída. Alternativou je podle téhož autora řešit obě fáze zároveň nalezením funkce, která mapuje vstup ~x přímo do příslušné třídy (na class label). Taková funkce se nazývá diskriminační funkce (discriminant function). Přestože je druhý z uvedených způsobů jednodušší, Bishop (2006) udává výhody prvního způsobu: snadnější úprava modelu prvního způsobu při měnících se nákladech misklasifikace, v případě diskriminační funkce je po změně nákladů nutné znovu vytvořit celý klasifikační model, dále možnost nastavení hranice pravděpodobnosti, pod kterou je klasifikace svěřena jinému systému (například expertnímu posouzení), tzv. reject option, dále snadnější práce s nevyváženými datovými sety, a v neposlední řadě možnost kombinovat separátní klasifikační modely, resp. jejich výstupy s použitím pravidel pravděpodobnosti. Data, která mohou být klasifikována do tříd lineárními rozhodovacími hranicemi, se nazývají lineárně separabilní (linearly separable). (Bishop, 2006) Klasifikaci lineárně separabilních dat mohou efektivně provádět lineární klasifikační modely, jejichž rozhodovací hranice jsou podle Bishopa (1995) a (2006) lineárními funkcemi vstupního vektoru ~x. y(~x) = w ~ T ~x + w0 Dle týchž publikací je nejjednodušší lineární diskriminační funkce y(~x) lineárního modelu lineární kombinací vstupních proměnných ~x, parametry lineární kombinace jsou adaptivními parametry modelu – váhy vektoru w, ~ w0 je nazývána prahovou hodnotou (bias, thershold). V nejjednodušším případě lze pak provádět klasifikaci vektoru ~x do dvou tříd C1 a C2 podle kritéria: je-li y(~x) > 0, pak je ~x zařazeno do třídy C1 , je-li y(~x) < 0, pak je ~x zařazeno do třídy C2 . Rozhodovací hranice y(~x) = 0 je (d−1)dimenzionální nadrovinou v d dimenzionálním prostoru vstupu ~x, v případě dvoudimenzionálního prostoru se jedná o přímku. (Bishop, 1995 a 2006)
2.1
13
Neuronové sítě v klasifikačních případech
Různé formy lineárních klasifikačních modelů mohou být reprezentovány jednovrstvými neuronovými sítěmi (single-layer networks) adaptivních vah mezi vstupy a výstupy. (Bishop, 1995) Předchozí příklad dvoudimenzionálního problému klasifikace uvednou diskriminační funkcí modeluje tentýž autor sítí se třemi vstupy (vstupy x0 = 1 a x1,2 ), třemi vahami (w0,1,2 ) a jedním výstupem realizujícím součet vážených vstupů. V případě více tříd zobecňuje Bishop (1995) uvedený přístup použitím jedné diskriminační funkce yk (~x) pro každou třídu Ck ve tvaru yk (~x) = w~k T ~x + wk0 , přičemž nový bod ~x je zařazen do třídy Ck v případě, že yk (~x) > yj (~x) pro všechna j 6= k. Uvedený klasifikátor autor opět modeluje jednovrstvou neuronovou sítí s počtem výstupů rovným počtu tříd, rozhodovací prostory jsou spojité a konvexní. y = g(w ~ T ~x + w0 ) Lineární kombinace vstupů může být transformována nelineární funkcí g(·) (příklad logistické regrese a perceptronu), která se nazývá aktivační funkce a která bývá monotonická, díky čemuž je předchozí tvar diskriminační funkce považován stále za lineární diskriminant, neboť rozhodovací hranice, kterou generuje, je stále lineární. (Bishop, 1995) Typickou aktivační funkcí je sigmoidální funkce (logistic sigmoid), dle téže publikace daná vztahem g(a) =
1 , 1 + exp(−a)
kde a=w ~ T ~x + w0 Bishop (1995) k sigmoidální aktivační funkci dodává: Použitím sigmoidální aktivační funkce je možné interpretovat výstupy diskriminačního modelu jako posteriorní pravděpodobnosti. Jestliže je vstup kak sigmoidální funkce malý, pak lze sigmoidální funkci aproximovat lineární funkcí. V případě klasifikace do více než dvou tříd vede rozšíření předchozí analýzy ke zobecnění sigmoidální funkce nazývané softmax. Tatáž publikace v souvislosti s vícevrstvými perceptronovými sítěmi uvádí, že namísto předchozí funkce bývá v praxi užitečné použít obdobný typ – aktivační funkci tanh danou předpisem g(a) = tanh(a) =
ea − e−a , ea + e−a
která se od logistické sigmoidy liší jen lineární transformací, avšak empirické výsledky ukazují, že poskytuje rychlejší konvergenci trénovacích algoritmů oproti logistické sigmoidě.
2.1
14
Neuronové sítě v klasifikačních případech
Orr, Schraudolph a Cummins (1999) zavádí funkci tanh jako univerzální bázovou funkci (universal basis function), neboť uvádí, že jakákoliv funkce může být vyjádřena lineární kombinací tanh funkcí. Dále uvádí, že řada funkcí formuje univerzální bázi, v souvislosti s nuronovými sítěmi se obvykle používají dvě třídy funkcí – sigmoidální (S-shaped), do nichž patří i funkce tanh, a radiální bázové funkce (radial basis functions). Dalším příkladem aktivační funkce je funkce jednotkového skoku (Heaviside function), použitá v případě perceptronu, dle Bishopa (1995) ve tvaru (
g(a) =
0, 1,
a<0 a≥0
Stanovení vah jednovrstvých sítí je obvykle založeno na minimalizaci chybové funkce sumy čtvercových odchylek, přestože pro klasifikační problém není ideální chybovou funkcí (avšak použitelnou). (Bishop, 1995) Typicky aplikovanou metodou k nalezení minima chybové funkce je gradientní metoda (gradient descent)2 . Bishop (1995) i (2006) zavádí metodu za předpokladu, že je chybová funkce derivovatelná podle vah w ~ (což například sigmoidální funkce je) následovně: Na počátku je zvolena náhodná kombinace vah w, ~ poté je vektor vah aktualizován pohybem o malou vzdálenost v prostoru vah ve směru největšího poklesu chybové funkce E, tj. ve směru −∇w~ E. Iterací tohoto postupu generujeme sekvenci vektorů vah w ~ (τ ) , jejichž komponenty jsou vypočteny podle vztahu
(τ +1) wkj
=
∂E , −η ∂wkj w~ τ
(τ ) wkj
kde η je malé kladné číslo nazývané učící koeficient (learning rate) ovlivňující rychlost učení – při malém η je učení pomalé, při velké hodnotě může naopak dojít k divergentním oscilacím. τ je označení iteračního kroku. Podle Bishopa (1995) je při snižování učícího koeficientu v každném kroku algoritmu, například způsobem η (τ ) ∝ 1/τ , zajištěna konvergence, byť uvedený výběr vede k pomalé konvergenci. V praxi se však podle téhož autora často používá konstantní učící koeficient η, jelikož obecně vede k lepším výsledkům, a to i přes ztrátu garance konvergence. Optimální hodnota η se v průběhu trénování navíc mění. Bishop (1995) zmiňuje i neefektivnost gradientní metody, neboť díky měnícímu se zakřivení povrhu chybové funkce E ve většině bodů neukazuje gradient přímo do minima chybové funkce. Problémy oscilací a pomalého trénování lze zmírnit zavedením momentu µ do vztahu změny vah gradientní metody. Bishop (1995) modifikovaný vztah definuje:
∆w ~ (τ ) = −η∇E
w ~τ
+ µ∆w ~ (τ −1) ,
kde µ je momentem, jehož funkci popisuje následovně: v oblastech nízkého zakřivení chybové funkce E se gradient příliš nemění a moment způsobuje větší kroky – větší 2
Jedna z řady metod založených na gradientu.
2.1
Neuronové sítě v klasifikačních případech
15
efektivní učící koeficient, zatímco v oblastech s vysokým zakřivením, kde gradient osciluje, způsobí moment snížení efektivního učícího koeficientu přibližujícího se k η. Moment je však dalším parametrem, jehož hodnotu je třeba stanovit. Obvykle je nastaven na malou hodnotu z intervlau 0 < µ < 1. Trénovací metody, kde každý iterační krok vyžaduje zpracování celého trénovacího setu, se nazývají dávkové (batch). (Bishop, 2006) Zároveň však autor dodává, že pro případ dávkových metod existují i efektivnější metody, jako například conjugate gradients a quasi-Newton metody. Nalezení dobrého minima může vyžadovat vícerou aplikaci gradientní metody, pokaždé s různým náhodným výběrem počátečních vah. Současně autor popisuje on-line verzi gradientní metody, také známé jako sequential gradient descent či stochastic gradient descent, která aktualizuje vektor vah po každém datovém bodu, aktualizace je opakována přes všechny body v řadě anebo vybrané náhodně. Existují i scénáře kompromisní. Autor uvádí výhody on-line metod ve srovnání s dávkovými, zejména efektivnější chování na redundantních datech a především vlastnost úniku z lokálních minim. Orr, Schraudolph a Cummins (1999) online verzi gradientní metody doporučují i v případě nestacionárních prostředí, kde se model postupně mění v čase, a také v situaci, kdy je použit průběžně se doplňující trénovací set. Dále autoři výše zmíněný kompromis mezi dávkovým a online zpracováním nazývají minidávky (minibatches), kdy jsou váhy aktualizovány po každých n bodech, kde n je větší než 1, ale menší než velikost trénovacího setu. Bishop (1995) k výběru učícího koeficientu η a momentu µ dodává, že jsou voleny metodou pokusu a omylu, a v dalším textu popisuje techniku bold driver pro automatické nastavení parametrů jako součást trénovacího algoritmu. Tato technika však nemůže být použita v online verzi, nýbrž pouze v dávkové. (Orr, Schraudolph a Cummins, 1999) Mařík a kol. (2003) doporučuje volit hodnotu momentu blízko jedné, představuje moment jako jednokrokovou „setrvačnostÿ, se kterou se pohybujeme po chybové funkci – při přiblížení k lokálnímu minimu jej lze překonat překročením o jeden krok, jehož velikost je dána velikostí předchozího kroku upravenou parametrem momentu. K výběru hodnoty globálního učícího koeficientu Orr, Schraudolph a Cummins (1999) uvádí, že je volen metodou pokusu a omylu, a počátečním odhadem může být převrácená hodnota druhé odmocniny velikosti dávky, anebo 1 pro online verzi trénování, a v případě že tento výběr vede k divergenci, je třeba učící koeficient snížit a pokusit se znovu. Dále Orr, Schraudolph a Cummins (1999) upozorňují na nutnost snížení učícího koeficientu při použití velkého momentu (blízkého jedné), neboť kombinací vysokého učícího koeficientu a vysokého momentu dojde k minutí minima chybové funkce. Popisují situaci, kdy v online verzi nemusí díky přidanému šumu v aktualizacích dojít ke konvergenci k minimu chybové funkce a uvádí řešení, ve kterém je trénování modelu prováděno do doby, kdy nedochází ke snižování chybové funkce, a poté se pokračuje buď v dávkovém režimu, anebo se v online režimu pomalu snižuje učící koeficient podle vztahu µ(t) = µ0 /(t − ta ), kde µ0 je startovací učící koeficient, t je současný iterační krok a ta je iterační krok odpovídající začátku
2.1
16
Neuronové sítě v klasifikačních případech
snižování učícího koeficientu. Uvedená metoda se také označuje jako „žíháníÿ (annealing). Orr, Schraudolph a Cummins (1999) popisují i několik technik automatické adaptace učícího koeficientu zahrnuté do trénovacího procesu, kromě již zmíněné techniky bold driver i další formu žíhání (annealing) a adaptační techniku lokálních učících koeficientů pro jednotlivé váhy v síti. Z dalších diskriminačních modelů umožňujících klasifikaci lineárně separabilních dat je perceptron. Bez uvádění dalších detailů, které je možné najít v řadě publikací popisujících problematiku neuronových sítí, je zdůrazněn pouze konvergenční teorém perceptronu: Pro každý datový set, který je lineárně separabilní platí, že s metodou učení perceptronu je v konečném počtu kroků garantována existence řešení. (Bishop, 1995)3 Mezi nejčastěji aplikované modely v ekonomické predikci patří logistická regrese (logistic regression), Fisherova lineární diskriminační analýza a probit regrese. Reálná finanční data lineárně separabilní obvykle nejsou, proto je další popis orientován na jiné metody. 2.1.2
Neuronové sítě
Model neuronové sítě definuje Bishop (2006) jako sérii funkcionálních transformací: Zaprvé je definováno M lineárních kombinací vstupních proměnných x1 , . . . , xD ve tvaru aj =
D X
(1)
(1)
wji xi + wj0 ,
i=1
kde j = 1, . . . , M , horní index (1) indikuje, že odpovídající parametry jsou v první (1) (1) vrstvě sítě. Parametry wji jsou označovány jako váhy a parametry wj0 jako prahové hodnoty (biases). aj jsou označována jako aktivace. Každá aktivace je poté transformována použitím derivovatelné nelineární aktivační funkce h(·) zj = h(aj ) udávající výstup skrytých neuronů, a které jsou voleny ze třídy sigmoidálních funkcí (logisti sigmoid, tanh). Tyto hodnoty jsou opět lineárně kombinovány k získání aktivací výstupních neuronů ve tvaru ak =
M X
(2)
(2)
wkj zj + wk0 ,
j=1
kde k = 1, . . . , K a K je celkový počet výstupních neuronů. Tato transformace odpovídá druhé vrstvě neuronové sítě. Aktivace výstupních neuronů jsou transformovány odpovídající aktivační funkcí k získání výstupů sítě yk . Typ aktivační funkce 3
S odkazem na další publikace datované až do roku 1962.
2.1
17
Neuronové sítě v klasifikačních případech
výstupních neuronů je dán povahou dat a zamýšleným rozložením cílových proměnných, v případě vícenásobné binární klasifikace má každý výstupní neuron přiřazenu aktivační funkci logistic sigmoid, tedy yk = σ(ak ), kde σ(a) =
1 . 1 + exp(−a)
Způsob volby výstupní aktivační funkce je blíže diskutován v následujícím textu. Zkombinováním všech uvedených fází je možné zapsat celkovou funkci sítě ve tvaru
yk (~x, w) ~ = σ
M X
D X
(2)
wkj h
(1)
(1)
wji xi + wj0
!
(2)
+ wk0 ,
i=1
j=1
kde sada vah a prahových hodnot je seskupena do vektoru w. ~ Šíření informace ze vstupu sítě po její výstupy se názývá dopředné šíření signálu (forward propagation). Zavedením dodatečného vstupu x0 , jehož hodnota je nastavena permanentně na x0 = 1, je možné zjednodušit výše uvedený zápis o samostatně stojící prahové hodnoty: aj =
D X
(1)
wji xi ,
i=0
čímž je možné celkovou funkcí sítě zapsat ve tvaru
yk (~x, w) ~ = σ
M X
j=0
(2) wkj h
D X
(1) wji xi
! .
i=0
„Model neuronové sítě je tak nelineární funkcí množiny vstupních proměnných {xi } do množiny výstupních proměnných {yk } řízené vektorem w ~ adaptivních parametrů.ÿ (konec definice neuronové sítě podle Bishopa (2006), s. 227–229) Uvedený typ sítě se označuje vícevrstvá perceptronová síť (MLP – Multilayer Perceptron). Přestože se podle téhož autora autora jedná o nepřesné pojmenování, neboť perceptron využívá odlišné aktivační funkce jednotkového skoku, je uvedený název často používán. Bishop (1995) do sítí MLP zahrnuje i vícevrstvé sítě aplikující aktivační funkci jednotkového skoku. K dalšímu častému nepřesnému označování dochází v počtu vrstev sítě. Zavedená síť se označuje jako dvouvrstvá síť. Přestože se započtením vstupů obsahuje tři vrstvy neuronů, podle Bishopa (1995) i (2006) vlastnosti neuronové sítě určují převážně váhy (adaptivní parametry modelu), které jsou v zavedeném příkladu ve vrstvách dvou, proto je označení třívrstvé sítě nepřesné. Počet vrstev je možné v síti
2.1
Neuronové sítě v klasifikačních případech
18
zvýšit, Bishop (2006) popisuje například i přímá spojení přímo nesousedících vrstev neuronů nebo architektury bez určitých spojení neuronů – sítě tohoto typu se označují jako dopředné (feed-forward), nebo-li sítě bez smyček, které zajišťují, že výstupy modelu jsou deterministickými funkcemi vstupů. Váhy neuronové sítě, jejich velikost a záporná či kladná hodnota, se zobrazují v grafické podobě pomocí tzv. Hintonova diagramu. „Jestliže jsou aktivační funkce všech skrytých neuronů nahrazeny za funkce lineární, vždy můžeme pro takovou síť najít ekvivalentní síť bez skrytých neuronů. To vychází z faktu, že kompozice postupných lineárních transformací je sama o sobě lineární transformací. Je-li však počet skrytých neuronů menší než buď počet vstupních nebo výstupních neuronů, pak transformace, které může tato síť generovat, nejsou nejlepšími možnými lineárními transformacemi vstupů na výstupy, neboť ve skrytých neuronech dochází k redukci dimenzionality a ztrátě informace.ÿ (Bishop, 2006, s. 229). Neuronové sítě se také označují jako univerzální aproximátory (uvádí Bishop (2006) s odkazem na řadu publikací zkoumajících vlastnosti dopředných sítí) – například dvouvrstvá síť s lineárními výstupy může rovnoměrně aproximovat jakoukoliv spojitou funkci na kompaktní vstupní doméně do jakékoliv úrovně přesnosti za předpokladu, že síť má dostatečně velký počet skrytých neuronů. Bishop (1995) dokazuje podobnou aproximační schopnost i pro případ binárních vstupů i výstupů sítě se všemi aktivačními funkcemi v podobě jednotkového skoku. Ukazuje, že dvouvrstvá síť může generovat jakoukoliv binární funkci za předpokladu dostatečného počtu skrytých neuronů. Dále zobrazuje i rozhodovací prostory pro sítě s aktivačními funkcemi jednotkového skoku v případě sojitých vstupů – dvouvrstvá síť generuje konvexní prostor, třívrstvá síť je schopna generovat i nekonvexní a nespojitý rozhodovací prostor. V případě použití sigmoidální funkce (logistic sigmoid) Bishop (1995) uvádí, že jejím použitím na výstupních neuronech je možné interpretovat výstupy pravděpodobnostním přístupem. Současně diskutuje možnosti aproximace lineární funkce na skrytých neuronech funkcí sigmoidální, čehož je možné dosáhnout do libovolné přesnosti snížením hodnoty vah a prahové hodnoty vstupujících do daného neuronu. Obodobně může sigmoidální funkce aproximovat i funkci jednotkového skoku nastavením vah a prahové hodnoty na velké hodnoty. Přestože popsané aproximační možnosti neuronových sítí jsou známy, dodnes není k dispozici exaktní metodika volby parametrů sítě k dosažení aproximace jakékoliv funkce. Výběr aktivační funkce na výstupním neuronu je svázán s výběrem příslušné chybové funkce. Bishop (2006) uvádí kombinace výstupních aktivačních funkcí a chybových funkcí: 1. Binární klasifikace, cílová proměnná t = 1 pro třídu C1 a t = 0 pro třídu C2 , síť mající jeden výstup s aktivační funkcí logistické sigmoidy, čímž je výstup sítě omezen do intervalu 0 ≤ y(~x, w) ~ ≤ 1 a může být interpretován jako podmíněná pravděpodobnost p(C1 |~x), s p(C2 |~x) = 1 − y(~x, w). ~ V případě trénovacího setu nezávislých bodů je chybovou funkcí cross-entropy ve tvaru
2.1
19
Neuronové sítě v klasifikačních případech
E(w) ~ =−
N X
{tn ln yn + (1 − tn ) ln(1 − yn )},
n=1
kde yn značí y(x~n , w). ~ Bylo zjištěno, že použití funkce cross-entropy namísto obvyklé sum-of-squares vede v případě klasifikačních problémů k rychlejšímu trénování a lepší generalizaci. 2. Samostatných K binárních klasifikací se sítí mající K výstupů, z nichž každý má aktivační funkci logistické sigmoidy. S každým výstupem je spojeno binární označení třídy tk ∈ {0, 1}, kde k = 1, . . . , K. Chybová funkce je dána vztahem E(w) ~ =−
K N X X
{tnk ln ynk + (1 − tnk ) ln(1 − ynk )},
n=1 k=1
kde ynk značí yk (x~n , w). ~ 3. Vícetřídní klasifikace, kde je každý vstup zařazen do jedné z K vzájemně exkluzivních tříd, binární výstupní proměnné tk ∈ {0, 1} mají kódvací schéma „1-z-Kÿ, výstupy sítě jsou interpretovány jako yk (~x, w) ~ = p(tk = 1|~x). Chybová funkce je v tomto případě dána vztahem E(w) ~ =−
K N X X
tkn ln yk (x~n , w) ~
n=1 k=1
Aktivační funkce výstupního neuronu je v tomto případě softmax funkce exp(ak (~x, w)) ~ yk (~x, w) ~ =P , exp(aj (~x, w)) ~ j
což znamená 0 ≤ yk ≤ 1 a
P
k
yk = 1.
Bishop (2006, s. 236) výběr aktivačních funkcí a chybových funkcí shrnuje: „Existuje přirozený výběr jak aktivační funkce výstupního neuronu, tak odpovídající chybové funkce podle typu problému, který je řešen. Pro regresi používáme lineární výstupy a sum-of-squares chybu, pro (vícenásobnou nezávislou) binární klasifikaci používáme výstupy s logistickou sigmoidou a cross-entropy chybovou funkci a pro vícetřídní klasifikaci používáme softmax výstupy s odpovídající vícetřídní cross-entropy chybovou funkcí. Pro klasifikační problémy zahrnující dvě třídy můžeme použít jeden výstup s logistic sigmoid nebo alternativně můžeme použít síť se dvěma výstupy mající softmax výstupní aktivační funkci.ÿ Podstata trénování neuronové sítě je dána problémem optimalizace parametrů, Bishop (2006) jej popisuje jako nalezení vektoru w, ~ který minimalizuje vybranou funkci E(w), ~ malým krokem v prostoru vah z w ~ kw ~ + δw ~ dochází ke změně
2.1
Neuronové sítě v klasifikačních případech
20
v chybové funkci δE ' δ w ~ T ∇E(w), ~ kde vektor ∇E(w) ~ ukazuje ve směru největšího poklesu chybové funkce, a protože je E(w) ~ hladkou spojitou funkcí w, ~ nejnižší hodnota je dána v bodě ustálení gradientu, kde ∇E(w) ~ = 0. Stejný pramen uvádí, že díky vysoce nelineární závislosti funkce na vahách a prahových hodnotách existuje řada bodů, ve kterých gradient ustává, tyto body se nazývají stacionárními body – minima, maxima a sedlové body. V této souvislosti Bishop (2006) i (1995) upozorňuje na problém symetrie v prostoru vah: V dvouvrstvé síti s M skrytými neurony s aktivační funkcí tanh a plnou konektivitou v obou vrstvách nedojde při změně znaménka skupiny vah a prahových hodnot ke změně výstupu sítě, nebo-li s dvěma vektory vah je dosaženo stejného mapování, což pro M skrytých neuronů znamená 2M ekvivalentních vektorů vah. Podobně dojde-li k prohození hodnot všech vah a prahových hodnot vedoucích do a vystupujících z konkretního skrytého neuronu s odpovídajícími váhami jiného skrytého neuronu, nedochází ke změně mapování vstupu na výstup, pro M skrytých neuronů pak existuje ke každému vektoru vah M ! ekvivalentních vektorů vah. Celková symetrie sítě je pak M !2M . Existence symetrie se netýká pouze funkce tanh, ale i řady dalších aktivačních funkcí. Z důvodu existence symetrie také Bishop (2006) udává, že každý bod v prostoru vah je členem rodiny M !2M ekvivalentních bodů. Mimo to v prostoru vah existuje řada různých stacionárních bodů, především lokálních minim a jak autor udává, pro úspěšnou aplikaci neuronových sítí není nutné nalézt globální minimum, ale je důležité porovnat několik lokálních minim za účelem nalezení dobrého řešení. V této souvislosti také zdůrazňuje fakt, že při absenci analytického řešení rovnice ∇E(w) ~ = 0 jsou aplikovány iterativní numerické procedury, z nichž většina zahrnuje volbu počátečních vah w ~ (0) a pak v iteracích τ dochází k pohybu po prostoru vah vyjádřitelném vztahem w ~ (τ +1) = w ~ τ + ∆w ~ (τ ) , přičemž různé algoritmy se odlišují (τ ) různou aktualizací vah ∆w ~ a řada z nich používá zmíněný gradient. Gradientní metoda (Gradient descent optimization) byla popsána v předchozí kapitole shrnující základní pojmy. Volba počátečních vah může významně ovlivnit kvalitu nalezeného řešení i rychlost trénování sítě, a dokonce i stochatické algoritmy jako je gradientní metoda mající schopnost úniku z lokálního minima mohou vykazovat vysokou závislost na počáteční podmínky. (Bishop, 1995) Dále stejný pramen uvádí, že řada současně používaných inicializačních procedur inicializuje váhy náhodnými hodnotami z důvodu symetrií v síti; diskutuje též velikost vah – velké váhy vedou k saturování sigmoidální funkce, kde g 0 (a) je velmi malé, čímž je malé i ∇E, a tím velmi plochý povrch chybové funkce; opačně příliš malé váhy vedou k přibližně lineární sigmoidální aktivační funkci, což vede k pomalému trénování. Bishop (1995) popisuje, že suma vstupů do sigmoidálních aktivačních funkcí by měla být v řádnu jedné a pro síť s normalizovanými vstupy navrhuje generovat váhy ze symetrického Gaussova rozložení s nulovým průměrem a směrodatnou odchylkou σ ∝ d−1/2 , kde d je počet vstupů do neuronu. Dála tatáž publikace uvádí, že z důvodu závislosti trénovacího pokusu na počátečních vahách je běžnou praxí trénovat konkrétní síť vícekrát s růz-
2.1
21
Neuronové sítě v klasifikačních případech
nými počátečními vahami a podle výkonu na nezávislém setu vybrat nejlepší z nich, případně formovat kombinovaný model z nejlepších sítí. Mařík a kol. (2003) v souvislosti s gradientní metodou uvádí inicializaci všech biasů a vah na malé náhodné hodnoty se střední hodnotou okolo nuly, například z heuristicky doporučeného intervalu h− 2s , 2s i, kde s je počet vstupů do neuronu, pro který váhy nastavujeme. Orr, Schraudolph a Cummins (1999) doporučují inicializovat váhy wij vstupující do i-tého skrytého neuronu náhodnými hodnotami z rovnoměrného rozložení s rozsahem [−ri , ri ], kde ri = q
1 |Ai |
,
kde |Ai | je počet vah vstupujících do neuronu. Dále Orr, Schraudolph a Cummins (1999) uvádí, že v případě, kdy jsou váhy příliš malé, jak aktivace, tak i chybové signály ustávají při průchodu sítí, a naopak jsou-li příliš velké, aktivační funkce tanh u skrytých neuronů bude saturovaná s hodnotou blízkou +1/ − 1, což způsobí, že její derivace bude blízká nule a dojde k blokování zpětně šířené chyby – tzv. paralýza neuronu. Učení vícevrstvé neuronové sítě mající libovolnou dopřednou topologii je nejčastěji založeno na principu metody zpětného šíření chyb (backpropagation errors). Tato obvyklá metoda je popsána v řadě publikací orientovaných na neuronové sítě, není zde proto znovu uváděno její odvození, odkázat lze na Bishopa (1995) a (2006) nebo například na Maříka a kol. (2003). Podstatu algoritmu lze podle Bishopa (1995) shrnout do těchto čtyř bodů: zaprvé aplikace n-tého vstupního vektoru ~xn do sítě a následná dopředná propagace signálu sítí vedoucích k nalezení aktivací všech skrytých a výstupních neuronů, zadruhé ohodnocení tzv. chyb pro všechny výstupní neurony, zatřetí zpětné šíření chyb vedoucích k ohodnocení chyb skrytých neuronů, P a začtvrté výpočet derivace chybové funkce E n podle wji , kde E = n E n , E n značí chybu pro samostatný n-tý vzor. V souvislosti s učením sítě je také využívána Jacobiho matice (Jacobian mak , trix), jejíž elementy jsou dány derivacemi výstupů sítě podle vstupů Jki = ∂y ∂xi kde každá z derivací je vypočtena s ostatními vstupy fixovanými. (Bishop, 1995). Dále autor uvádí, že Jacobiho matice poskytuje míru lokální sensitivity výstupů na změny v každé ze vstupních proměnných. Bishop (1995) vyzdvihuje důležitost také 2E Hessovy matice (Hessian matrix) dané druhými derivacemi chybové funkce ∂w∂ji ∂w , lk která je využívána několika nelineárními optimalizačními algoritmy používanými pro trénování neuronových sítí, dále Hessova matice formuje bázi pro proceduru úpravy dopředné neuronové sítě po malé změně v trénovacích datech, inverze matice je používána k identifikaci nejméně významných vah sítě jako součást prořezávacích algoritmů sítě, (error bar assignment), z vlastních hodnot Hessovy matice lze určit vhodné hodnoty regularizačních parametrů, determinant matice může být použit ke srovnání relativních pravděpodobností různých síťových modelů – výpočet Hessovy
2.1
22
Neuronové sítě v klasifikačních případech
matice je však náročný, O(W 2 ) pro každý vzorek datového setu. Orr, Schraudolph a Cummins (1999) analyzují použití Hessovy matice pro výběr optimální hodnoty učícího koeficientu v případě lineárních sítí, zmíněné techniky jsou však podle autorů podobně aplikovatelné i u sítí nelineárních. Důležitým aspektem při trénování neuronové sítě je určení počtu adaptivních parametrů tak, aby bylo dosaženo požadovaného mapování a zároveň nedocházelo k přetrénování neuronové sítě, tj. modelování náhodné složky dat trénovacího setu. Bishop (2006) uvádí, že zatímco je počet vstupů a výstupů sítě dán dimenzionalitou datového setu, počet skrytých neuronů M je volitelným parametrem. Porovnání modelů s různým M za účelem nalezení optimální architektury označuje Bishop (1995) jako strukturální stabilizaci (structural stabilization). Je možno také začít trénovat síť s malým počtem skrytých neuronů a postupně je přidávat, anebo opačným postupem zvolit prořezávání sítě. Podle Maříka a kol. (2003) odvisí počet vrstev a neuronů od charakteru úlohy a v praxi se určují na základě heuristik. Jako příklad uvádí perceptronovou síť se dvěma skrytými a výstupní vrstvou neuronů, kde se v první skryté vrstvě volí o něco více perceptronů, než je vstupů, a v druhé vrstvě se volí počet perceptronů jako aritmetický průměr počtu perceptronů v první skryté vrstvě a počtu výstupů. Zároveň upozorňuje na omezenou schopnost postihnout všechny závislosti trénovacích dat v případě, že je počet perceptronů malý, a naopak je-li počet perceptronů velký, nejen že se prodlužuje doba učení, ale hrozí i přeučení sítě (overfitting) a zhoršená schopnost generalizace. Dalším způsobem, jak kontrolovat komplexnost modelu je regularizace (regularization) spočívající v zavedení penalizačního koeficientu k chybové funkci, Bishop (1995) popisuje uvedené vztahem E˜ = E + υΩ a pro jednu z forem regularizace označovanou jako weight decay definuje penalizační koeficient Ω vztahem Ω=
1X 2 w , 2 i i
kde je součet proveden pro všechny váhy a prahové hodnoty. Koeficient υ řídí rozsah aplikace penalizačního koeficientu Ω. Přetrénované modely jsou charakteristické oscilacemi a velkým zakřivením rozhodovacích hranic způsobených velkými hodnotami vah modelu. Metoda weight decay zakřivení potlačuje. Alternativou k regularizaci, jak kontrolovat komplexnost neuronové sítě, je podle Bishopa (1995) metoda včasného zastavení učení (early stopping). Autor popisuje metodu následovně: V typickém učícím procesu se chyba na trénovacím setu s počtem iterací snižuje, avšak chyba měřená s ohledem na nezávislá data (validační set) často prvně klesá, ale od bodu, kdy začíná být síť přetrénovaná, začíná růst. Trénování sítě pak může být zastaveno v bodě nejmenší chyby na validačním setu,
2.1
Neuronové sítě v klasifikačních případech
23
Obr. 2: Znázornění chyby na trénovacím a validačním setu v průběhu typického trénovacího procesu, metoda včasného zastavení ukončuje trénování v minimu chyby na validačním setu (čárkovaná vertikála). Překresleno z publikace Bishop (2006, s. 261, obr. 5.12)
jelikož v tomto bodě je možné získat síť s předpokládaným nejlepším generalizačním výkonem. Další metoda pro řízení komplexnosti sítě je trénování s šumem (training with noise), která představuje záměrné přidávání šumu do vstupních vektorů v průběhu trénovacího procesu. Šum ztíží síti přizpůsobit se přesně konkrétním datovým bodům, čímž dojde k redukci overfittingu. (Bishop, 1995). Dále stejný pramen uvádí metody weight sharing a soft weight sharing založených na omezování skupin vah na stejnou nebo podobnou hodnotu. Orr, Schraudolph a Cummins (1999) jako jednu z metod ochrany proti přetrénování uvádí i použití online režimu spolu s náhodným přeuspořádáním pořadí vzorků trénovacího setu na konci každé iterace. Jedním ze základních problémů je výběr architektury neuronové sítě. Bishop (1995) k tématu uvádí: V prvním kroku potřebujeme proceduru systematického prozkoumání určitého prostoru možných architektur, a zadruhé způsob výběru té nejlepší architektury – obvykle podle generalizačního výkonu. Výběr optimální architektury je u řady technik součástí učícího algoritmu. Algoritmicky nejjednodušším způsobem prozkoumávání prostoru možných architektur je vyčerpávající hledání (exhaustive search) předem omezené třídy architektur, obvykle podle různícího se počtu M skrytých neuronů. Přestože výpočetní náročnost tohoto způsobu je značná, jedná se o nejčastěji aplikovanou metodu. Trénování sítě s malým počtem skrytých neuronů v počátku a s jejich postupným přidáváním je podstatou growing algoritmů, opačný postup tzv. prunning algoritmů (prořezávání sítě) spočívá v trénování na počátku velké sítě s postupným odebíráním spojení anebo celých neuronů (například metody silency of weights, optimal brain damage, optimal brain surgeon, weight elimination, node prunning). (Bishop, 1995) Ve stejné publikaci je možné najít i komplikovanější modulární modely, například network committees nebo mixtures of experts, založené na kombinaci samostatných sítí v jednu komplexní síť (jedním
2.1
Neuronové sítě v klasifikačních případech
24
z důvodů využití kombinovaných modelů, které autor uvádí, je i vlastní šum na validačním setu, který pak nemusí zajistit ideální generalizaci na setu testovacím). Výběr modelu nedoporučuje Bishop (1995) založit na minimu chybové funkce na trénovacím setu, neboť přidáním dalších adaptivních parametrů dochází ke snížení chyby – je nutné vybrat model s nejlepšími generalizačními schopnostmi, což obvykle není síť s nejmenší chybou na trénovacích datech. Autor označuje tento úkol za nejobtížnější úkol, který typicky omezuje praktickou aplikaci neuronových sítí. Dále uvádí případ vyhodnocení výkonu sítě metodou hold out: modely sítí jsou trénovány minimalizací chybové funkce na trénovacím setu a výkon je poté srovnán vyhodnocením chybové funkce na nezávislém validačním setu. Síť mající nejnižší chybu na validačním setu je vybrána jako nejlepší. Zároveň však dodává, že tato procedura může vést k určitému over fittingu validačnímu setu a že výsledná síť by měla být ověřena oproti třetímu testovacímu setu. Nemají-li použitá data dostatečný rozsah pro vyhrazení nezávislého srovnávacího setu, doporučuje Bishop (1995) použít metodu cross validace, která byla popsána v předchozí kapitole. Trénování a výsledný prediktivní výkon klasifikátoru může být výrazně ovlivněn předzpracováním vstupních dat (pre-processing, feature extraction). Orr, Schraudolph a Cummins (1999) uvádí několik předpokladů kladených na data a síť ještě před trénovacím procesem, aby vůbec bylo možné síť učit (ill-conditioning of the network). Síť, která předpoklady nesplňuje, vyžaduje vzájemně se lišící učící koeficienty pro jednotlivé váhy, a ty se liší natolik významně, že neexistuje globální učící koeficient, který by zajistil naučení sítě – v takovém případě je chybová funkce charakterizována dlouhými úzkými údolími. Matematicky zavádí Orr, Schraudolph a Cummins (1999) tzv. „condition numberÿ jakožto poměr mezi největší a nejmenší vlastní hodnotou Hessovy matice. Dále autoři uvádí, že ill-conditioning způsobují trénovací data, síťová architektura a/nebo počáteční váhy. Mezi typické problémy řadí Orr, Schraudolph a Cummins (1999) velké vstupy nebo výstupy, architektury mající zároveň malé a rozsáhlé vrstvy, architektury s více než jednou vrstvou skrytých neuronů a váhy s příliš malými nebo příliš velkými hodnotami. Jednou z nejdůležitějších forem předzpracování vstupu je redukce dimenzionality vstupních dat, jiné přístupy formují lineární nebo nelineární kombinace vstupních proměnných (features). (Bishop, 1995) Dále tatáž publikace popisuje jednu z nejběžnějších technik předzpracování, normalizaci vstupních dat: Tato technika je zvláště užitečná v situacích, kdy různé proměnné nabývají vzájemně se významně lišících hodnot, aplikací lineární transformace lze uspořádat všechny vstupy tak, aby měly podobné hodnoty. Každou ze vstupních proměnných zpracováváme nezávisle, pro každou proměnnou xi je vypočten její průměr x¯i a rozptyl σi2 na trénovacím setu dle vztahů N 1 X xni x¯i = N n=1 σi2
N 1 X = (xni − x¯i )2 , N − 1 n=1
2.1
25
Neuronové sítě v klasifikačních případech
kde n = 1, . . . , N značí vzory. Poté je definován set transformovaných proměnných daných vztahem x˜ni =
xni − x¯i . σi
Bishop (1995) k uvedeným vztahům dodává, že transformované proměnné x˜ni mají nulový průměr a jednotkovou standardní odchylku na trénovacím datovém setu. Kromě toho také upozorňuje na vstupní a cílové proměnné nabývající díky normalizaci jednotkového řádu, čímž je možné očekávat i váhy v síti se stejným řádem, a ty pak mohou být inicializovány náhodně. Bez normalizace by váhy naopak musely být podle Bishopa (1995) inicializovány selektivně. Orr, Schraudolph a Cummins (1999) v případě normalizace vstupů uvádí, že není nutné použít přesný průměr a směrodatnou odchylku vstupních dat – postačuje odhad z předchozí znalosti nebo výpočet těchto statistických charakteristik ze vzorku dat, nejsou-li například data dopředu známa. Dále také Orr, Schraudolph a Cummins (1999) dodávají, že podobný argument pro normalizaci platí i v případě skrytých neuronů, v ideálním případě je výhodné, aby i aktivace skrytých neuronů měly nulový průměr a jednotkovou standardní odchylku, avšak díky měnícím se vahám je predikce těchto hodnot problematická. V tomto případě autoři upozorňují na výhodu aktivační funkce tanh, jejíž obor hodnot se pohybuje od -1 do 1, čímž je symetrická podle nuly a standardní odchylka nepřesahuje hodnoty 1. Z tohoto důvodu také Orr, Schraudolph a Cummins (1999) doporučují používat přednostně aktivační funkci tanh namísto obvyklé logistické sigmoidy. Do fáze předzpracování dat patří i ošetření chybějících vstupních hodnot a identifikace chyb v datech. Bishop (1995) popisuje techniky pro doplnění chybějících hodnot, ale také jednoduchý přístup odstranění vektorů s chybějícími hodnotami v případech, kdy je dat dostatek a odstranění části dat nemění charakter datového setu. Dále autor diskutuje metody selekce vstupních proměnných, v souvislostí s redukcí dimenzionality analýzu principálních komponent (Principal Component Analysis), zahrnutí předchozí znalosti do modelu a související problematiku invariance na vstupních datech (kap. 8) . Struktura a funkce neuronové sítě je jednoduchou napodobeninou neuronové sítě biologické, byť dodnes nejsou všechny funkce mozku plně prozkoumány. Zelinka (2003) uvádí, že neurony tvoří cca. 20 % buněk mozku, přibližně 80 % pak tvoří tzv. buňky gliové různých druhů; všechny neurony mají vstup (dendrid), jádro (soma) a výstup (axon). Dále Zelinka (2003) zmiňuje velký počet neuronů v mozku – asi 25 miliard neuronů a popisuje jejich funkci: neurony jsou vzájemně spojeny a vytváří mohutné sítě (s odkazem na různící se počet spojení neuronu na jiné neurony v publikacích udává hodnotu 10 000–100 000 spojení, přičemž počet neuronů a spojení se v průběhu života mění), ve kterých se informace šíří formou elektrochemických vzruchů, čímž získává mozek paralelní výpočetní schopnost. Dále tentýž autor zmiňuje práh neuronu, při jehož překročení se objeví odezva neuronu na vstupní podnět
2.1
Neuronové sítě v klasifikačních případech
26
a přes výstupy neuronu se šíří na vstupy dalších neuronů přes tzv. synapse, které určují úroveň excitace. Mařík a kol. (2003) přehledně shrnují historický vývoj výzkumu v oblasti neuronových sítí, z uvedené publikace je z kap. 7 (s. 204) doslovně převzato: „Za počátek vzniku neuronových sítí lze považovat rok 1943, kdy W. McCulloch a W. Pitts matematicky popsali jednoduchý model neuronu. Ukázali, že pomocí vzájemného propojení těchto neuronů lze realizovat libovolnou funkci. V roce 1949 navrhl D. Hebb učící pravidlo (Hebbovo pravidlo), které nastavuje váhu spoje mezi dvěma neurony na základě velikostí aktivit obou neuronů. V roce 1957 navrhl F. Rosenblatt tzv. perceptron, který vznikl zobecněním McCullochova a Pittsova modelu neuronu pro reálný obor parametrů, a dále nalezl učící pravidlo pro tento perceptron. V roce 1959 vytvořil B. Widrow neuron zvaný adaline (adaptive linear element) spolu s učícím pravidlem. Jednou z nejvýraznějších osobností je S. Grossberg, který od roku 1964 vypracoval a matematicky analyzoval řadu poznatků týkajících neuronových sítí, jako je myšlenka samoorganizace, samostabilizace a kompetičního učení. Dále navrhl neurony typu instar a outstar a spolu s G. Carpenterovou rozpracoval síť ART. Zabýval se také globální konvergencí neuronových sítí. V roce 1969 byla vydána práce M. Minského a S. Peperta s názvem Perceptrons, ve které autoři zpochybnili možnosti neuronových sítí zejména argumentací, že problém separovatelnosti logické funkce XOR není možné vyřešit pomocí perceptronu. Algoritmus učení sítě perceptronů, který by tento problém zvládl, nebyl znám, a proto tato práce pozastavila zájem o neuronové sítě až do začátku 80. let. V roce 1982 rozvinul T. Kohonen myšlenku kompetičního učení a navrhl tzv. Kohonenovu síť (Kohonenovy mapy) a učící vektorovou kvantizaci (LVQ). Ve stejném roce publikoval J. Hopfield výsledky z oblasti magnetických materiálů s využitím sítě, která byla navržena už McCullochem a Pittsem, ale teprve díky této práci, ve které rozvedl použití energetické funkce pro učení a vybavování, se stala známá jako Hopfieldova síť. V roce 1986 byl D. Rumelhartem, G. Hintonem a R. Williamsem popsán učící algoritmus zpětného šíření (backpropagation), který umožňoval učit vícevrstvou perceptronovou síť a vyřešit tak problém funkce XOR.ÿ Dále Mařík a kol. (2003, s. 205) popisují současný stav výzkumu neuronových sítí: „V současné době existuje řada prací, které se zabývají neuronovými sítěmi, jejich modifikacemi, učícími pravidly a rychlejšími učícími algrotimy včetně řady aplikací. Nejvíce zájmu se soustřeďuje kolem vícevrstvé perceptronové sítě, která je nejznámnější a nejrozšířenější. Existují desítky algoritmů učení této neuronové sítě. Velmi úspěšným algoritmem je například Levenbergův–Marquardtům učící algoritmus vícevrstvé perceptronové sítě z roku 1994 založený na modifikaci Newtonovy metody.ÿ Orr, Schraudolph a Cummins (1999) uvádí některé zástupce aplikací neuronových sítí v praxi: učení strojů zahrnující optimalizaci, klasifikaci, asociativní paměť a regresi, dále kognitivní vědy s modelováním výšeúrovňové úvahy (například zpracování přirozeného jazyka) a nížeúrovňové úvahy (například rozpoznávání řeči), neurobiologie, matematika (neparametrická statistická analýza a regrese), ale napří-
2.2
Metoda Receiver Operating Characteristics
27
klad i filozofie. Tatáž publikace uvádí i konkrétní příklady úloh z oblasti zpracování signálu, řízení, robotiky, rozpoznávání obrazců, medicíny, rozpoznávání a produkce řeči, zpracování vizuální informace, ekonomie (simulace expertní úvahy), finanční aplikace, komprese dat apod.
2.2
Metoda Receiver Operating Characteristics
Metoda Receiver Operating Characteristics (ROC) umožňuje vizualizovat a analyzovat chování diagnostických systémů. (Fawcet, 2004) Její použití je obvyklé zejména v medicínských aplikacích. Metoda byla poprvé aplikována k vyhodnocování schopnosti radaru rozlišovat šum od nepřátelských letadel za druhé světové války. (Swets a kol., 2000) Vlastnosti metody však předurčují její použití při vyhodnocování a srovnávání prediktivního výkonu klasifikátorů i v ekonomických aplikacích. Publikace Fawcetta (2004), původně technická zpráva HP Laboratories, popisuje základní charakteristiky metody a vzhledem ke své přehlednosti a názorným příkladům je primárním pramenem této kapitoly. Z hlavních vlastností metody ROC Fawcett (2004) udává aplikovatelnost na případech s nerovnoměrným zastoupením klasifikačních tříd a nerovných nákladů misklasifikace. Mezi další důležité publikace vztahující se k této kapitole patří Provost a Fawcett (1997) a (2001), dále Provost, Fawcett a Kohavi (1998), Obuchowski (2003) a anaesthetist.com (2007). Klasifikační problém vyhodnotitelný ROC analýzou zavádí Fawcett (2004) následovně: binární klasifikační problém, ve kterém je každá instance I mapována do jednoho z prvků množiny p, n, kde p, n je pozitivní a negativní označení třídy (positive/negative class labels); klasifikační model (klasifikátor) mapující instance do predikovaných tříd produkuje spojitý výstup (například odhad pravděpodobnosti příslušnosti instance do dané klasifikační třídy), na který mohou být aplikovány různé hraniční hodnoty oddělující obě třídy, anebo model produkuje diskrétní výstup v podobě označení třídy. Skutečnou příslušnost k třídě označuje autor p/n (v souvislosti s diagnostickými testy obvykle značeno jako „zlatý standardÿ (gold standard), jak uvádí Zou, O’Malley a Mauri (2007)), predikované zařazení do třídy Y/N, kde Y značí pozitivní a N negativní třídu, čímž vznikají čtyři možné výsledky klasifikace: pozitivní instance správně klasifikovaná jako pozitivní (true positive, TP), pozitivní intstance nesprávně klasifikovaná jako negativní (false negative, FN)4 , negativní instance správně klasifikovaná jako negativní (true negative, TN), negativní instance nesprávně klasifikovaná jako pozitivní (false positive, FP)5 . Uvedené zobrazuje autor také pomocí kontingenční tabluky (confusion matrix), viz obr. 3.
4 5
Chyby typu II Chyby typu I
2.2
28
Metoda Receiver Operating Characteristics
Obr. 3: Kontingenční tabulka predikované a skutečné klasifikace. Upravená verze Fawcett (2004).
Nad uvedenou kontingenční tabulkou definuje Fawcett (2004) několik metrik, mezi nejdůležitější patří: – Frekvence výskytu TP (true positive rate, hit rate, recall) tp rate =
TP P
– Frekvence výskytu FP (false positive rate, false alarm rate) fp rate =
FP N
– Sensitivita (sensitivity) sensitivity = tp rate – Specificita (specificity) specificity =
TN = 1 − fp rate FP + TN
– Přesnost (accuracy) accuracy =
TP + TN P+N
– Pozitivní prediktivní hodnota (positive predictive value)6 ppv = 6
Dále též negativní prediktivní hodnota NPV.
TP TP + FP
2.2
Metoda Receiver Operating Characteristics
29
Vztah mezi hraniční hodnotou testu a hodnotou TP, FN, TN, FP, a potažmo sensitivitou a specificitou zobrazuje obr. 4 (převzato z publikace Erkel a Pattynama (1998, s. 90, obr. 2)). Obrázek ukazuje realistické rozložení výsledků typického testu, kdy dochází k překryvu obou klasifikačních tříd (narozdíl od ideálního testu, kde k přesahu nedochází). Jak autoři popisují, varianta (a) demonstruje dopad hraniční hodnoty na sensitivitu, nižší hraniční hodnota snižuje FN a zvyšuje TP; varianta (b) demonstruje dopad hraniční hodnoty na specificitu, nižší hraniční hodnota zvýší FP a sníží TN. Weinstein, Obuchowski a Lieber (2005) v souvislosti s reportováním sensitivity a specificity testu uvádí, že musí být uváděny obě zároveň, uvedením jen jedné není možné hodnotu interpretovat.
Obr. 4: Zobrazení dopadu hraniční hodnoty testu na sensitivitu a specificitu. Převzato z publikace Erkel a Pattynama (1998, s. 90, obr. 2)
Vizuálním zobrazením klasifikačního výkonu je ROC graf, který zavádí Fawcett (2004) jako dvourozměrný graf, ve kterém je na ose Y vykreslována tp rate a na ose X fp rate, ROC graf poté zobrazuje kompromisní řešení mezi TP a FP. Diskrétní klasifikátor, jehož výstupem je pouze označení třídy, pak podle Fawcetta (2004) produkuje pár FP a TP odpovídající jednomu bodu [FP, TP] v prostoru ROC grafu. Dále autor popisuje chování klasifikátoru v bodě [0, 0], kde hodnotí klasifikátor všechny instance jako negativní (tudíž TP = 0, FP = 0), v bodě [1, 1], kde
2.2
Metoda Receiver Operating Characteristics
30
jsou všechny instance klasifikovány jako pozitivní (tudíž TP = 1, FP = 1) a v bodě [0, 1], který reprezentuje bezchybnou klasifikaci. Fawcett (2004) taktéž neformálně hodnotí jednotlivé prostory ROC grafu: jeden bod v grafu (tj. jeden klasifikátor) je lepší než druhý bod (jiný klasifikátor), jestliže se nachází více severozápadně (vyšší tp rate, nižší fp rate, anebo obojí); „konzervativníÿ klasifikátory se objevují na levé straně grafu poblíž osy X (pouze evidentní případy jsou klasifikovány jako pozitivní, čímž je nízká fp rate, zároveň je však nízká i tp rate); „liberálníÿ klasifikátory se vyskytují v pravé horní straně ROC grafu (téméř všechny pozitivní případy jsou klasifikovány, avšak často za cenu vyšších nákladů fp rate). Diagonála y = x v ROC grafu představuje strategii náhodné klasifikace – klasifikátor nenese žádnou informaci o třídě. (Fawcett, 2004) Tato publikace dále upozorňuje na situaci, kdy se klasifikátor objeví v ROC grafu pod diagonálou – vzhledem k tomu, že je rozhodovací prostor symetrický podle diagonály, je možné negací klasifkátoru převést jeho výsledky do prostoru nad diagonálou. Negace je provedena převrácením klasifikačního výstupu na každé instanci, nebo-li TP se stávají FN a FP se stávají TN. Fawcett (2004) uvedenou situaci shrnuje popisem, že klasifikátor pod diagonálou sice nese informaci o třídě, ale aplikuje ji nesprávně. Na rozdíl od dříve popsaného diskrétního klasifikátoru Fawcett (2004) zavádí pravděpodobnostní klasifikátory, které přiřazují instanci pravděpodobnost nebo skóre (vyšší hodnota indikuje vyšší pravděpodobnost), v obou případech se jedná o numerickou hodnotu představující stupeň příslušnosti instance k dané třídě. Jako příklad je uveden Bayesův klasifikátor nebo neuronová síť. Fawcett (2004) uvádí, že na klasifikátor tohoto typu lze aplikovat hraniční hodnotu (threshold, cut-off), výstup klasifikátoru nad hraniční hodnotou je pak Y (pozitivní případ) nebo N (negativní případ). Klasifikátor pro danou hraniční hodnotu funguje jako klasifikátor diskrétní. Použitím různých hraničních hodnot (teoreticky od −∞ do +∞) lze produkovat řadu bodů v ROC grafu odpovídajících jednotlivým diskrétním klasifikátorům, souhrn těchto bodů tvoří tzv. ROC křivku (ROC curve). (Fawcett, 2004) Obuchowski (2003) nazývá takto konstruovanou ROC křivku empirickou ROC křivkou. Autorka dále zmiňuje i vyhlazené ROC křivky konstruované na základě předpokladů rozložení výsledků testu (obvykle používáno binormální rozložení, tj. normální rozložení testových hodnot obou tříd). Ukázka ROC křivky a jejích bodů odpovídajících různým hraničním hodnotám zobrazuje obr. 5 (převzato z publikace Erkel a Pattynama (1998, s. 91, obr. 3)). Základní algorimtus generování ROC křivky je uveden (převzato z publikace Fawcett (2004, s. 8)) na obr. 6. Některé publikace (viz kapitolu Současný stav aplikace neuronových sítí v ekonomické predikci) používají výstup klasifikátoru v intervalu 0–1, hraniční hodnotu nastavují napevno na 0,5 a prediktivní výkon měří kritériem přesnosti. Jak uvádí Fawcett (2004), tento přístup je správný v případě, kdy je výstup (score) klasifikátoru čistou pravděpodobností, nebo-li skóre musí být podle autora správně kalibrované. Fawcett (2004) uvádí příklad, kdy uvedená podmínka splněna není a hraniční hodnota 0,5 z výstupního intervalu 0–1 poskytuje pouze suboptimální řešení, přestože ROC křivka daná body [0, 0]–[0, 1]–[1, 1] zahrnuje bod [0, 1], tj. ideální klasifikaci se
2.2
Metoda Receiver Operating Characteristics
31
Obr. 5: Ukázka ROC křivky a jejích bodů odpovídajících různým hraničním hodnotám. Převzato z publikace Erkel a Pattynama (1998, s. 91, obr. 3)
100% přesností. V příkladu je zahrnuto 10 instancí, zapsáno ve tvaru (číslo instance, p/n, skóre): (1, p, 0,99999), (2, p, 0,99999), (3, p, 0,99993), (4, p, 0,99986), (5, p, 0,99964), (6, p, 0,99955), (7, n, 0,68139), (8, n, 0,50961), (9, n, 0,48880), (10, n, 0,44951) Hraniční hodnota 0,5 klasifikuje instance č. 7 a 8 nekorektně jako pozitivní Y, čímž vytváří chybu false positive FP = 2 a klasifikační přesnost klesá na 80 %. Naopak hraniční hodnota nastavená nad hodnotou skóre instance č. 7 až po hodnotu skóre instance č. 6 včetně poskytují ideální klasifikační výkon (FP = 0, FN = 0, TP = 6, TN = 4, fp rate = 0, sensitivity = 1, specificity = 1, accuracy = 1). Fawcett (2004) zmiňuje i možnost využití pravděpodobnosti výskytu pozitivních instancí p(p) = 6/10 = 0, 6 a tu použít jako hraniční hodnotu, ale i ta bude podávat suboptimální výsledek s 90% klasifikační přesností. Rovněž dodává, že uvedený problém lze řešit i kalibrací skóre klasifikátoru, na což existují metody, a odkazuje se na publikaci Zadrozneho a Elkana (2001) – viz literatura Fawcett (2004). Uvedenou vlasnost ROC analýzy (resp. ROC grafu) popisuje Fawcett (2004) jako měření schoponosti klasifikátoru produkovat dobré relativní skóre instancí, neboť jak dále autor uvádí (s. 8), „. . . klasifikátor nemusí produkovat přesné, kalibrované odhady pravděpodobnosti; pouze musí produkovat relativně přesné skóre, které slouží pro diskriminaci pozitivních a negativních instancíÿ. Dále také dodává (s. 9): „ROC křivka zobrazuje schopnost klasifikátoru třídit pozitivní instance relativně k negativním instancímÿ. Důsledkem relativních skóre je však nesrovnatelnost hraničních hodnot různých tříd klasifikátorů, neboť každá třída klasifikačních modelů může produkovat skóre z odlišného intervalu. (Fawcett, 2004)
2.2
Metoda Receiver Operating Characteristics
32
Obr. 6: Základní algoritmus generování ROC křivky. Převzato z publikace Fawcett (2004, s. 8)
Jednou z nejpodstatnějších vlastností ROC křivek je insensitivita na změny v rozložení tříd – jestliže dojde ke změně proporce pozitivních a negativních instancí v testovacím setu, ROC křivky zůstanou nezměněny. (Fawcett, 2004) Na dříve uvedené kontingenční tabulce demonstruje autor rozdíl mezi kritérii klasifikační přesnosti a tp rate spolu s fp rate, kde přesnost používá hodnoty z obou sloupců pozitivních a negativních instancí, čímž je citlivá na rozvržení obou tříd, naproti tomu veličiny tvořící ROC křivku jsou čistými sloupcovými poměry, nezávislými na rozvržení tříd. Dále Fawcett (2004) uvádí, že asymetrie v rozložení tříd v řádu 101 a 102 jsou v reálných problémech běžné. Algoritmus 1 (obr. 6) určený ke generování ROC křivky představuje pouze konceptuální formu, Fawcett (2004) upozorňuje na jeho složitost O(n2 ) a představuje algoritmus 2 pro efektivní generování ROC křivky využívající monotoničnosti prahových klasifikací – jakákoliv instance klasifikovaná jako pozitivní určitou hraniční hodnotou bude klasifikovaná jako pozitivní i všemi nižšími hraničními hodnotami. Autor dále popisuje podstatu algoritmu – seřazení instancí v testovacím setu sestupně podle skóre, křivka je pak generována postupným zpracováváním instancí seřazeného seznamu (čímž je možné jedním průchodem seznamu generovat ROC křivku, celkovou složitost udává autor O(n log n)). Jak dále autor popisuje, algoritmus zajišťuje korektní zpracování výskytu sekvence instancí se stejným skóre (řádky 7–10): pokud by první místa výskytu instancí se stejným skóre zabíraly pozitivní
2.2
Metoda Receiver Operating Characteristics
33
instance, bude v ROC křivce vykreslena „optimistickáÿ varianta klasifikátoru představovaná vertikální čarou vzrůstající tp rate, v případě výskytu pouze negativních instancí bude vykreslena naopak „pesimistickáÿ varianta představovaná horizontální čarou vzrůstající fp rate. Fawcett (2004) dále udává, že ROC křivka by měla reprezentovat očekávaný výkon klasifikátoru, který je průměrem mezi optimistickým a pesimistickým segmentem, a který nezáleží na náhodném uspořádání instancí se stejným skóre, proto je ROC křivka na inkriminovaném úseku vykreslena jako diagonála obdelníku mezi optimistickým a pesimistickým segmentem až po zpracování všech instancí se shodným skóre. Algorimtus efektivního generování ROC křivky je uveden (převzato z publikace Fawcett (2004, s. 13)) na obr. 7.
Obr. 7: Algoritmus efektivního generování ROC křivky. Převzato z publikace Fawcett (2004, s. 13)
Výkon klasifikátoru je možné reprezentovat samostatnou skalární hodnotou, obvykle používaná je plocha pod ROC křivkou – Area Under the ROC Curve (AUC). (Fawcett, 2004) Jak dále autor popisuje, vzhledem k faktu, že AUC je částí plochy jednotkového čtverce, hodnota AUC leží v intervalu 0–1, plocha 0,5 pak představuje náhodnou klasifikaci, tudíž žádný realistický klasifikátor by neměl mít AUC menší než 0,5. Greiner, Pfeiffer a Smith (2000) s odkazem na další publikaci (původně Swess v roce 1988) uvádí přibližné hodnocení výkonu klasifikátoru jako neinformativního při AUC = 0, 5, dále méně přesného při 0, 5 < AUC ≤ 0, 7, průměrně
2.2
Metoda Receiver Operating Characteristics
34
přesného při 0, 7 < AUC ≤ 0, 9, vysoce přesného při 0, 9 < AUC < 1 a perfektního při AUC = 1. Erkel a Pattynama (1998) uvádí, že velkou výhodou AUC pro porovnání klasifikačního výkonu testů je nezávislost na nastavené hraniční hodnotě, čímž je eliminován vliv konkrétní hraniční hodnoty na hodnotu sensitivity a specificity. Obuchowski (2003) k uvedené výhodě dodává i nezávislost AUC na prevalenci jedné z tříd v populaci. Fawcett (2004) dále zmiňuje statistickou interpretaci AUC – hodnota AUC klasifikátoru je ekvivalentní pravděpodobnosti, že klasifikátor přiřadí náhodně vybrané pozitivní instanci vyšší skóre, než náhodně vybrané negativní instanci. Obuchowski (2003) uvádí i dvě další interpretace: průměrná hodnota sensitivity pro všechny možné hodnoty specificity, a podobně průměrná hodnota specificity pro všechny možné hodnoty sensitivity.
Obr. 8: Ukázka ROC grafu, pravý graf zobrazuje AUC diskrétního klasifikátoru A a pravděpodobnostního klasifikátoru B. Převzato z publikace Fawcett (2004, s. 15, obr. 7)
Obr. 8 zobrazuje ROC křivky dvou klasifikátorů A a B s různou hodnotou AUC. (Převzato z Fawcetta (2004), s. 15, obr. 7). Je evidentní, že v levém grafu je AUC klasifikátoru B vyšší než AUC klasifikátoru A, a proto má klasifikátor B vyšší průměrný výkon. Příklad zároveň ukazuje důležitou oblast ROC grafu, kde od určité fp rate překonává klasifikátor A jinak průměrně výkonnější klasifikátor B – ROC křivka klasifikátoru A v tomto prostoru protíná ROC křivku B a pro stejné fp rate dosahuje vyšších tp rate. Fawcett (2004) k tomuto dodává, že v praxi však kritérium AUC funguje velmi dobře a je často používané pro měření obecného prediktivního výkonu. Obuchowski (2003, s. 6) protnutí ROC křivek komentuje: „Kdykoliv se ROC křivky dvou testů protnou (bez ohledu na to, zda jsou či nejsou shodné jejich plochy), znamená to, že test s vyšší přesností (tj. vyšší sensitivitou) závisí na rozsahu FPR (false positive rate); globální míra přesnosti, jako je plocha pod ROC křivkou, není v tomto případě užitečná.ÿ Dále autorka uvádí, že v dané situaci je jednou z alternativ použít ROC křivku k odhadu sensitivity ve fixované FPR (nebo, podle potřeby, FPR ve fixované sensitivitě), přičemž tato metrika přesnosti umožňuje zaměřit se na tu část ROC křivky, která je prakticky relevantní. Obuchowski (2003)
2.2
Metoda Receiver Operating Characteristics
35
dále popisuje kompromisní variantu, částečnou plochu pod ROC křivkou, která je definovaná jako plocha mezi dvěma FPR (nebo, podle potřeby, plocha mezi dvěma FNR – false negative rates). Halpern a kol. (1996) ke kritériu AUC uvádí, že vyjadřuje výkon přes všechny možné diskriminační hraniční hodnoty, avšak v praxi je většina testů aplikována s hodnotou blízké optimálnímu operačnímu bodu (OOP). Autoři dále uvádí, že porovnání dvou ROC křivek podle ploch pod nimi zahrnuje i porovnání prakticky irelevantních částí křivek, proto nemusí být AUC pravdivým ukazatelem diagnostické přesnosti testu. Greiner, Pfeiffer a Smith (2000) popisují příklad, kdy diagnostický kontext vyžaduje sensitivitu aspoň 90 %, čímž je část ROC křivky odpovídající nižší než uvedené sensitivitě irelevantní pro charakterizaci testu a porovnání testu, přesto však irelevantní část křivky přispívá do AUC. S odkazem na další publikaci autoři zmiňují možnost výpočtu částečných ploch. Podobnou úvahu je možné najít například i v Erkelovi a Pattynamovi (1998), kteří odkazují na regionální hodnocení klasifikátoru pro určený rozsah specificit (McGlish), resp. sensitivit (PAI – Partial Area Index, Jiang a kol.). Zou, O’Malley a Mauri (2007) k již uvedenému dodávají, že za určitých podmínek může být výpočet částečné plochy obtížný, a proto je častěji v praxi používána celá plocha. Dále také uvádí jako jedno z dalších kritérií stanovení optimální hraniční hodnoty součet sensitivity a specificity, které je podle autorů ekvivalentní maximalizaci rozdílu mezi sensitivitou testu a sensitivitou, jakou by měl test za podmínek náhodné klasifikace. Uvedené problematice je věnována pozornost v druhé části kapitoly – Provost a Fawcett (1997) a (2001). Algoritmus výpočtu AUC je uveden na obr. 9 (převzato z publikace Fawcett (2004, s. 16)), jedná se o rozšíření algoritmu 2. Vida (1993) k algoritmu poznamenává, že lichoběžníková metoda při nižším počtu bodů křivky soustavně podhodnocuje AUC ve srovnání s hladkou křivkou, při větším počtu bodů křivky však poskytuje smysluplnou statistiku. Tutéž vlastnost empirické ROC křivky zmiňuje i Obuchowski (2003). V souvislosti s porovnáváním testů na základě AUC souvisí i výpočet standardní chyby a zjišťování signifikantnosti rozdílů, detaily je možné najít například v původních publikacích autorů Hanley a McNeil nebo v anaesthetist.com (2007) a ve statistické literatuře. Výběr nejlepšího klasifikátoru by měl podle Fawcetta (2004) zohledňovat variabilitu v testovacích setech. Autor popisuje dvě metody tzv. průměrování ROC křivek (averaging ROC curves), které odpovídají jednotlivým použitým testovacím setům. První metoda, tzv. vertikální průměrování, průměruje tp rates pro fixované fp rates, Provost, Fawcett a Kohavi (1998) použili tuto metodu pro průměrování ROC křivek klasifikátoru v případě k-složkové cross validace. Druhá metoda, prahové průměrování (threshold averaging), zohledňuje fakt, že fp rate použitá v předchozí metodě jako nezávislá proměnná nemusí být vždy pod kontrolou, a aplikuje průměrování na základě nezávislé proměnné v podobě hraniční hodnoty. Detaily obou metod včetně algoritmů je možné najít ve výše uvedené publikaci (kap. 6). Fawcett (2004) dále v kap. 7 popisuje rozšířující témata ROC analýzy – metodu ROC convex hull, specifické náklady instancí, použití ROC analýzy ve vícetřídní klasifikaci a další.
2.2
Metoda Receiver Operating Characteristics
36
Obr. 9: Algoritmus výpočtu AUC. Převzato z publikace Fawcett (2004, s. 16)
Provost a Fawcett (1997 a 2001) kritizují použití klasifikační přesnosti jako evaluační metriky, neboť předpokládá konstantní a relativně vyvážené rozdělení tříd. Jak dále uvádí, klasifikátory jsou v praktických úlohách vystaveny velkému počtu normálních případů a klasifikují nepoměrně menší výskyt případů abnormálních, čímž je typické rozdělení tříd nerovnovměrné. Dále Provost a Fawcett (1997 a 2001) kritizují klasifikační přesnost kvůli předpokladu rovných nákladů misklasifikace – náklady FP jsou rovny nákladům FN, což však v praxi opět nebývá pravdou. Tytéž publikace uvádí způsob výběru klasifikátoru z množiny testovaných klasifikátorů výběrem nejnižších nákladů daných FP · c(Y,n) + FN · c(N,p), kde c(Y,n) jsou náklady FP a c(N,p) jsou náklady FN. Autoři však uvedenému vztahu dodávají, že tento typ analýzy předpokládá stanovené a neměnné rozdělení, v praxi však ke změnám
2.2
Metoda Receiver Operating Characteristics
37
v rozdělení dochází. Provost a Fawcett (1997 a 2001) zmiňují v této souvislosti i tzv. Neyman-Pearsonovo kritérium, které je založeno na maximalizaci klasifikace tp rate pro zafixovanou fp rate, resp. pro fp rate, která nesmí být překročena. Problém však nastává při změně požadavku na fp rate. Provost, Fawcett a Kohavi (1998) diskutují i možnost uměle sestaveného rozložení tříd v datovém setu podle cílových podmínek (cílové rozložení a náklady). I tuto metodu však odmítají, neboť náklady nebývá možné stanovit přesně a cílové rozložení nebývá předem známo. Odmítají tak možnost transformace nákladově-minimalizačního problému na problém maximalizující přesnost. Drummond a Holte (2000) uvádí, že nevyváženost tříd a asymetrické náklady misklasifikace jsou vzájemně vztažené a jedním ze způsobů, jak působit proti nevyváženosti, je zvýšit náklady misklasifikace minoritní třídy, a naopak jedním ze způsobů, jak aplikovat algoritmus s ohledem na náklady, je ovlivnit vyváženost trénovacího setu. ROC analýzu Provost a Fawcett (1997 a 2001) označují za metodu, která ilustruje chování klasifikátoru bez ohledu na rozdělení tříd nebo nákladů misklasifikace, avšak i tato metoda nedává přesnou odpověď, který klasifikátor je nejlepší, pokud v celém ROC grafu není evidentně dominantní klasifikátor. V obr. 10 (převzato z publikace Provost a Fawcett (1997), s. 3, obr. 2) jsou zobrazeny ROC křivky čtyř klasifikátorů A–D, avšak v grafu neexistuje jasně dominující klasifikátor pro všechny možné cílové podmínky. Výběr konkrétního klasifikátoru jako nejlepšího podmiňují autoři specifikací požadavku na výkon klasifikátoru, tj. rozdělením tříd a nákladů misklasifikace v cílových podmínkách, ve kterých bude klasifikátor aplikován. Metoda Provosta a Fawcetta označovaná jako ROC Convex Hull, umožňuje identifikovat sadu klasifikátorů, které jsou potenciálně optimální, a to i v měnících se podmínkách rozdělení tříd a nákladů misklasifikace. Metoda je založena na dříve popsané ROC analýze, rozhodovací analýze a výpočetní geometrii.
Obr. 10: Klasifikátory A–D v ROC grafu, ROC convex hull. Převzato z publikace Provost a Fawcett (1997, s. 3, obr. 2)
2.2
Metoda Receiver Operating Characteristics
38
K metodě ROC Convex Hull uvádí Provost a Fawcett (1997 a 2001) rovnici očekávaných nákladů klasifikace, které produkuje klasifikátor reprezentovaný bodem (TP, FP) v ROC grafu: p(p) · (1 − TP) · c(N,p) + p(n) · FP · c(Y,n), kde p(p) je pravděpodobnost výskytu pozitvní instance a p(n) = 1 − p(p) je pravděpodobnost výskytu negativní instance. Dva body (TP1 , FP1 ) a (TP2 , FP2 ) pak podle uvedených autorů mají stejný výkon když p(n) · c(Y,n) TP2 − TP1 = . FP2 − FP1 p(p) · c(N,p) Tuto rovnicí definuje Provost a Fawcett (1997 a 2001) sklon tzv. „isoperformance lineÿ, nebo-li přímky, jejíž body odpovídají klasifikátorům se stejnými očekávanými náklady. Dále autoři uvádí, že každá sada rozdělení tříd a nákladů definuje rodinu těchto přímek (se stejným výkonem) a přímky ležící více „severozápadněÿ, tj. s větším úsekem vyťatým na ose TP, odpovídají klasifikátorům s nižšími náklady. Z tohoto závěru odvozují Provost a Fawcett (1997 a 2001), že nejlepší klasifikátory leží na vnějším severozápadním ohraničení bodů v ROC grafu (ROC Convex Hull). V obr. 10 tomuto ohraničení odpovídá křivka CH, čímž do skupiny optimálních klasifikátorů nepatří B a D. V Provostovi a Fawcettovi (1997 a 2001) lze najít příklady dvou scénářů s různým rozdělením tříd a nákladů misklasifikace, kde každému scénáři (praktické situaci) odpovídají iso-performance přímky s odlišným sklonem. Nejlepší přímky s danými sklony jsou tečnami na vnějším ohraničení (convex hull), každá ze dvou přímek pak určuje optimální klasifikátor v rámci daného cílového rozdělení. Uvedené demonstruje obr. 11 (převzato z publikace Provost a Fawcett (1997), s. 3, obr. 3).
Obr. 11: Přímky α a β určují optimální klasifikátor v různých cílových podmínkách. Převzato z publikace Provost a Fawcett (1997, s. 3, obr. 3)
Pokud lze v případě nepřesných informací o cílovém rozložení tříd a nákladů specifikovat aspoň určité rozpětí nákladů, je možné podle Provosta a Fawcetta (1997
2.2
Metoda Receiver Operating Characteristics
39
a 2001) popsaným postupem zíksat rozsah sklonů přímek stejných nákladů, který vymezuje segment na vnějším ohraničení. Délka vyťatého úseku pak umožňuje provádět analýzu citlivosti klasifikátoru na změny v cílovém rozložení tříd a nákladů. Provost, Fawcett a Kohavi (1998) k problému, kdy neexistuje jasně dominující klasifikátor a kdy nejsou známy náklady a rozložení tříd, dodávají, že je možné omezit hodnocení dominance klasifikátorů na specifickou oblast ROC grafu – například při určitém počtu telerovatelných FP lze najít algoritmus (klasifikátor), který je nejlepší ve „vzdáleném levémÿ rohu ROC grafu. Na konkrétních příkladech z medicíny vysvětluje podstatu problému výběru optimálního klasifikátoru i internetový zdroj anaesthetist.com (2007).7 Závěry této publikace jsou široce aplikovatelné i mimo oblast medicíny. Autor uvádí, že v případě řídkého výskytu onemocnění, které má být klasifikátorem (testem) diagnostikováno, použití i velmi specifického testu je spojeno s mnoha FP, a naopak, v případě často se vyskytujícího onemocnění je pravděpodobné, že pozitivní test bude TP. V této souvislosti diskutuje obtížnou volbu hraniční hodnoty testu, jejíž stanovení ovlivňují tyto faktory: finanční náklady přímé i nepřímé léčby nemoci (která je nebo není přítomna) a náklady neúspěšné léčby, náklady dalšího šetření, negativní účinky léčby na pacienta nebo neúspěch léčby, úmrtnost spojená s provedením či neprovedením léčby. V případě, že jsou náklady FN (minutí diagnózy) vysoké a náklady FP (léčba zdravého) nízké, klasifikátor by se měl pohybovat v pravé části ROC grafu (vysoké TP i FP). Naopak je-li terapie nebezpečná a nedává příliš dobrý výsledek, klasifikátor by se měl pohybovat v levé části ROC grafu (nízké TP i FP). Formálně anaesthetist.com (2007) zavádí průměrné náklady použití diagnostického testu Cavg následovně: Cavg = Co + CTP · p(TP) + CTN · p(TN) + CFP · p(FP) + CFN · p(FN), kde CTP jsou náklady spojené s TP, analogicky ostatní typy nákladů, Co režijní náklady provedení testu. Pravděpodobnost p(TP) autor vypočítává vztahem p(TP) = p(D+) · p(T+|D+) = p(D+) · TPF, kde p(D+) značí pravalenci onemocnění v populaci, p(T+|D+) odpovídá sensitivitě, nebo také true positive fraction TPF. Rovnici průměrných nákladů použití diagnostického testu je pak možné přepsat do tvaru Cavg = Co + CTP · p(D+) · TPF + CTN · p(D−) · TNF + CFP · p(D−) · FPF + CFN · p(D+) · FNF, 7 Přestože na webu anaesthetist.com není uveden autor kapitoly s ROC analýzou, jedná se o jeden z nejpropracovanějších dostupných zdrojů k dané problematice. Materiál čerpá z několika kvalitních publikací a ROC analýzu osvětluje i pomocí názorných Java appletů.
2.3
40
Finanční analýza
kde TNF = p(T−|D−) (true negative fraction), FPF = p(T+|D−) (false positive fraction) a FNF = p(T−|D+) (false negative fraction). Jak dále autor popisuje, vzhledem k tomu, že TNF = 1 − FPF a FNF = 1 − TPF, je možné po úpravě psát Cavg = TPF · p(D+) · (CTP − CFN ) + FPF · p(D−) · (CFP − CTN ) + Co + CTN · p(D−) + CFN · p(D+) Stejný pramen poté uvádí, že víc než závislost Cavg na Co je podstatnější závislost průměrných nákladů testu na TPF a FPF, nebo-li průměrné náklady závisí na hraniční hodnotě testu definované na ROC křivce, změna hraniční hodnoty pak mění i náklady. Minimalizaci nákladů Cavg s využitím vyjádření TPF jako funkce FPF použitím ROC křivky, tj. TPF = ROC(FPF), popisuje autor derivací rovnice podle FPF dC/dFPF = dROC/dFPF · p(D+) · (CTP − CFN ) + p(D−) · (CFP − CTN ) a položením dC/dFPF rovno nule je získáno dROC/dFPF =
p(D−) · (CFP − CTN ) , p(D+) · (CFN − CTP )
což je opět sklon ROC křivky v bodě, kde jsou náklady optimální. Matematicky pak anaesthetist.com (2007) ukazuje, že při řídkém výskytu onemocnění je p(D−)/p(D+) vysoké, čímž je vysoký i sklon ROC křivky a hraniční hodnota testu pak musí být nastavena tak, aby se optimální bod pohyboval v levé části ROC křivky, nebo-li minimalizace FP i za cenu minutí TP. A opačně při vysoké prevalenci onemocnění leží optimální bod vpravo na ROC křivce. Podobně popisuje autor i situaci různících se nákladů misklasifikace. Sklon křivky je vysoký, jestliže náklady FP jsou vyšší než FN. Pak se optimální bod opět nachází v levé části ROC grafu, a naopak jsou-li důsledky (náklady) FP minimální a zisk léčby vysoký, leží optimální bod v pravé horní části ROC grafu.
2.3
Finanční analýza
Finanční analýza je v chápána jako rozbor údajů z účetnictví s následným hodnotícím procesem sloužícím především k finančnímu rozhodování podniku. (Sůvová a kol., 1999) Finanční analýza se rozděluje na analýzu technickou a analýzu fundamentální. Technická forma (přístup) dle Sedláčka (2001) aplikuje matematické, statistické a další algoritmizované metody, zpracování dat má kvantitativní povahu. Sedláček (2001) dále uvádí pět etap tohoto typu analýzy: výpočet ukazatelů zkoumané firmy, srovnání hodnot s odvětvovými průměry, analýza časových trendů, analýza vztahů
2.3
Finanční analýza
41
mezi ukazateli pomocí pyramidové soustavy a návrh na opatření ve finančním plánování a řízení. Naopak fundamentální formu tentýž autor charakterizuje jako přístup založený na zkušenostech odborníků, na jejich subjektivních odhadech a citu, větší podíl představuje zpracování kvalitativních informací. Mezi metody elementární technické finanční analýzy řadí Sedláček (2001): analýzu absolutních ukazatelů (stavových i tokových) – analýzu trendů (horizontální analýzu) a procentní rozbor (vertikální analýzu), dále analýzu rozdílových ukazatelů, analýzu cash flow, analýzu poměrových ukazatelů (ukazatelů rentability, aktivity, zadluženosti a finanční struktury, likvidity, kapitálového trhu, provozní činnosti a cash flow) a v neposlední řadě analýzu soustav ukazatelů (pyramidové rozklady a predikční modely). Živělová (2007) třídí ukazatele užívané ve finanční analýze na ukazatele absolutní (označované také jako stavové, vyjádření objemu položek účetních výkazů), ukazatele rozdílové (označované i jako fondy finančních prostředků, rozdíl dvou ukazatelů absolutních), ukazatele poměrové (poměr dvou absolutních ukazatelů) a ukazatele pružnosti (označované i jako ukazatele elasticity, poměr relativních přírůstků). Mezi vyšší metody finanční analýzy zařazuje Sedláček (2001) matematicko-statistické metody (bodové odhady, statistické testy odlehlých dat, empirické distribuční funkce, korelační koeficienty, regresní modelování, autoregresní modelování, analýzu rozptylu, faktorovou analýzu, diskriminační analýzu aj.), a dále nestatistické metody (fuzzy množiny, expertní systémy a gnostickou teorii neurčitých dat). Sůvová a kol. (1999) zmiňují kromě uvedeného v rámci nestatistických metod i neuronové sítě. Zároveň Sůvová a kol. (1999) dodávají, že žádná z metod není sama o sobě absolutně nejlepší nebo nejhorší, proto bývá užitečné metody kombinovat. Vstupním datovým zdrojem finanční analýzy je řada informací, které Sůvová a kol. (1999) rozdělují na finanční/nefinanční a kvantifikovatelné/nekvantifikovatelné. Mezi finanční zdroje informací zařazují účetní výkazy finančního účetnictví a výroční zprávy, vnitropodnikové účetní výkazy, předpovědi finančních analytiků a managementu podniku, burzovní zpravodajství, kurzovní lístky, vývoj úrokových sazeb a mediální ekonomické zpravodajství. Mezi kvantifikovatelné nefinanční informace pak podnikovou statistiku, personální, výrobní a jinou podnikovou evidenci tohoto typu, prospekty, interní směrnice a oficiální ekonomickou statistiku. Mezi nekvantifikovatelné informace pak řadí zprávy vedoucích pracovníků, auditorů, komentáře manažerů a odborného tisku, nezávislá hodnocení a prognózy a odhady různých analytiků. Hlavním datovým zdrojem finanční analýzy je podniková účetní evidence, zejména pak rozvaha a výkaz zisků a ztrát. Přestože jsou účetní data pro finanční analýzu klíčová, jejich vypovídací hodnota nemusí být vždy objektivní. Sedláček (2001) zmiňuje tři body, které komplikují analýzu výsledků na základě účetních dat: 1. neexistence teoretických modelů vzorových firem, 2. podobně neexistují obecně platné normální hodnoty ukazatelů a 3. jinde použitelné metody zpracování dat v ekonomii selhávají. Z výsledků izolovaných ukazatelů není možné podle Živělové (2007) vyvozovat žádné praktické závěry a autorka uvádí několik způsobů srovnání ukazatelů – pro-
2.3
Finanční analýza
42
storová analýza (srovnávání stejných ukazatelů s jinými podniky), trendová analýza (srovnání hodnot ukazatelů v čase), srovnání s plánem a srovnání s odhadem experta. Srovnávání výsledků finanční analýzy musí dodržet podmínky srovnatelnosti. Sůvová a kol. (1999) zdůrazňují zejména srovnatelnost časovou (v případě srovnávání subjektu v jeho vývoji se jedná o zachování podmínek podnikání) a srovnatelnost prostorovou (vzájemné srovnání více subjektů – zejména oborová srovnatelnost). Živělová (2007) v souvislosti s prostorovou analýzou upozorňuje i na rozdílné způsoby účtování a také na financování majetku pomocí leasingu, který není zahrnut v rozvaze. Analýzu trendu (v rámci analýzy absolutních ukazatelů), nebo-li sledování změn ukazatelů v časové řadě, je možné provádět pomocí tzv. horizontální analýzy. (Sedláček, 2001) Jak dále autor uvádí, při analýze jsou brány v úvahu jak změny absolutní hodnoty, tak i procentní změny jednotlivých položek účetních výkazů, po řádcích, horizontálně (změny mezi obdobími). Do analýzy absolutních ukazatelů spadá i procentní analýza komponent, tzv. vertikální analýza. (Sedláček, 2001) Tento typ analýzy tatáž publikace v případě analýzy účetních výkazů vymezuje vyjádřením jednotlivých komponent výkazů jako procentní podíly jedné z těchto komponent – jako základ pro procentní vyjádření se ve výkazu zisků a ztrát bere obvykle velikost tržeb a v rozvaze hodnota celkových aktiv. Autor dále uvádí, že výhodou analýzy je nezávislost na meziroční inflaci, a tím srovnatelnost výsledků analýzy z různých let, srovnatelnost vývojových trendů za více let a srovnání různých firem. K jedné z nejdůležitějších oblastí finanční analýzy patří analýza poměrových ukazatelů, které dávají do vztahu dva nebo více ukazatelů absolutních jejich podílem. Sedláček (2001) uvádí výhody použití poměrových ukazatelů spočívající v možnosti provádět analýzu časového vývoje firemní finanční situace (trendová analýza), v možnosti provádět prostorovou komparativní analýzu vzájemně podobných firem, a v neposlední řadě mohou být poměrové ukazatele použity jako vstupní údaje matematických modelů umožňujících popsat závislost mezi jevy, klasifikovat stavy, hodnotit rizika i předvídat budoucí vývoj. Živělová (2007) zdůrazňuje výhodu poměrových ukazatelů v redukci absolutních údajů lišících se podle velikosti firem na společnou komparativní bázi. Živělová (2007) vymezuje ukazatele zadluženosti (ukazatele řízení dluhu) jako míru rozsahu financování firmy cizími zdroji, resp. hodnocení finanční struktury podniku (poměr vlastních a cizích zdrojů) – v první fázi analýza zadluženosti porovnává vybrané rozvahové položky a poměřuje rozsah financování aktiv podniku cizími finančními zdroji. Jak dále autorka uvádí, poměr vlastních a cizích zdrojů se různí podle oboru činnosti a popisuje dvě pravidla optimalizace finanční struktury (pravidlo vertikální kapitálové struktury a podíl vlastního kapitálu na celkových zdrojích). Ukazatele platební schopnosti označuje Živělová (2007) také jako ukazatele likvidity, jejichž funkcí je podle autorky odpovědět na otázku, zda je podnik schopen splatit včas své krátkodobé závazky. Skupiny ukazatelů zadluženosti a platební schopnosti hodnotí finanční stabilitu podniku, přehled ukazatelů spadajících do této skupiny je v tab. 1. Další skupinou poměrových ukazatelů je skupina ukazatelů aktivity, které
2.3
Finanční analýza
43
Živělová (2007) označuje také jako ukazatele obratovosti nebo vázanosti kapitálu, a které měří efektivnost hospodaření podniku se svými aktivy a které mají podobu buď rychlosti nebo doby obratu. Podnikovou výnosnost charakterizují zejména ukazatele rentability, dle Živělové (2007) také označované jako ukazatele výnosnosti či profitability s funkcí měření zisku z podnikání. Tatáž publikace upozorňuje, že ukazatele tohoto typu vyjadřují kombinovaný vliv ukazatelů zadluženosti, platební schopnosti a aktivity na výsledky hospodaření podniku. Ukazatele aktivity a rentability jsou shrnuty v tab. 2. V citované publikaci je možné najít i ukazatele tržní hodnoty firmy vycházející z údajů o kapitálovém trhu. Sedláček (2001) k aplikaci poměrových ukazatelů uvádí i jejich nízkou schopnost vysvětlovat jevy a roli poměrových ukazatelů vymezuje jako určité úvodní síto, které zachytí oblasti vyžadující hlubší analýzu, zkoumáním poměrových ukazatelů však finanční analýza zdaleka nekončí. Sůvová a kol. (1999) demonstrují použití poměrových ukazatelů na příkladu podniku zabývajícího se dodávkami investičních celků a k příkladu dodávají další okolnosti, které mohou finanční analýzu ovlivnit: 1. v rozvaze jsou uvedeny stavové veličiny, které se mohou během krátké doby změnit (zejména závazky, pohledávky a finanční majetek; vysoký podíl oběžných aktiv poukazuje na vysokou rozpracovanost zakázek, kterou je potřeba zohlednit při hodnocení ukazatelů rentability aktiv a doby obratu aktiv), 2. zálohové financování ovlivňující ukazatele likvidity, aktivity a zadluženosti, 3. tvoří-li značnou část pohledávek a závazků přijaté a poskytnuté zálohy, je třeba zohlednit tuto skutečnost při hodnocení doby obratu zásob, doby inkasa pohledávek a doby splatnosti krátkodobých závazků. Sedláček (2001) poukazuje na omezenou vypovídací schopnost samostatných ukazatelů, neboť charakterizují pouze určitou oblast podnikové činnosti. Komplexní hodnocení finanční situace je obsahem tzv. soustav ukazatelů, které Sedláček (2001) rozděluje na soustavy hierarchicky uspořádaných ukazatelů umožňujících provádět rozklad vrcholového ukazatele v podobě pyramidové soustavy (a zjišťovat tak vliv analytických ukazatelů na ukazatel syntetický) a účelové výběry ukazatelů. Účelové výběry ukazatelů rozděluje tatáž publikace na bonitní (diagnostické) modely zaměřené na mezifiremní srovnávání a ex post analýzu (analýza retrospektivního vývoje) a bankrotní (predikční) modely s funkcí včasného varování před finančním úpadkem (ex ante analýza s predikčním horizontem 3–5 let). V obou případech je však podnik charakterizován jedním souhrnným ukazatelem. Dále Sedláček (2001) rozděluje tuto třídu modelů podle způsobu jejich tvorby na jednorozměrné (univariate models) – rozlišení prosperujících/upadajících firem jednoduchou souhrnnou charakteristikou tvořenou výběrem určitých typických poměrových ukazatelů, jejichž vyčíslená hodnota se transformuje na body, ze kterých se pak vypočte jednoduchý nebo vážený součet (Kralickův, Beaverův a Tamariho model). Druhou skupinu – vícerozměrné modely (multivariate models) charakterizuje tentýž autor výběrem poměrových ukazatelů (a jejich vah) pomocí složitějších matematicko-statistických metod, obvykle diskriminační analýzou. Příkladem je Altmanův Z-skóre model, Index bonity, Taflerův model a Bearmanova diskriminační funkce. Z dalších modelů, které Sedláček
2.3
Finanční analýza
44
(2001) popisuje, je model EVA – Ekonomická přidaná hodnota (Economic Value Added), Index IN95 a Index celkové výkonnosti firmy. Živělová (2007) uvádí nevýhodu jednorozměrných modelů spočívající v zařazování podniku podle různých ukazatelů střídavě mezi bezproblémové i problémové podniky. Metody vytváření účelových výběrů ukazatelů uvádí Sedláček (2001) v kap. 7.2, s. 110. V této práci popisované finanční klasifikaci se nejvíce přibližují bankrotní modely, které jsou podle Sedláčka (2001) odvozeny od reálných dat (a tím i s nevýhodou jejich specifičnosti na typ firem), kde se vychází z předpokladu, že ve firmě dochází již několik let před úpadkem k jistým anomáliím, jež je možné charakterizovat rozdílnou úrovní, variabilitou a dynamikou vývoje vybraných finančních ukazatelů; pro sestavení predikčního vícerozměrného modelu se pak používá diskriminační analýza, diskriminační rovnice zjištěná ze středních hodnot poměrových ukazatelů prosperujících a upadajících firem pak umožňuje určit příslušnost nové firmy do jedné z uvedených tříd. Nejčastěji aplikovaným modelem založeným na diskriminační analýze je Altmanův Z-skóre model. Živělová (2007) uvádí výslednou rovnici modelu získanou násobnou diskriminační analýzou původně 22 poměrových finančních ukazatelů později redukovaných na 5 ukazatelů u firem, které zbankrotovaly během pěti let (a k nim prosperujících firem): Z score = 1, 2x1 + 1, 4x2 + 3, 3x3 + 0, 6x4 + 1, 0x5 kde x1 je dán poměrem pracovního kapitálu a celkových aktiv, x2 poměrem nerozděleného zisku a celkových aktiv, x3 poměrem zisku před zdaněním a úroky a celkových aktiv, x4 poměrem tržní hodnoty vlastního kapitálu a účetní hodnoty cizího kapitálu, x5 poměrem tržeb a celkových aktiv. Dále Živělová (2007) popisuje Altmanem definované zóny výsledného hodnocení podniku na základě výsledného skóre: Z score nižší než hodnota 1,81 označuje podnik jako bankrotující, hodnota Z score vyšší než 2,99 označuje podnik jako finančně stabilní, u podniků s hodnotou pohybující se mezi uvedenými hranicemi neexistovala statisticky průkazná prognóza. Dále Živělová (2007) uvádí i modifikovanou verzi Altmanova modelu I. a I. Neumaierovými pro využití v podmínkách České republiky, jejíž podniky byly známy vysokou platební neschopností – Altmanovu rovnici rozšířili o šestý ukazatel x6 rovným poměru závazků po lhůtě splatnosti a výnosů, přičemž koeficient tohoto ukazatele je roven −1 a kritéria hodnocení výsledného Z score zůstávají nezměněna. Tatáž publikace zmiňuje, že původní Altmanův model byl postupně dopracován a v původní podobě je používán pro podniky kótované na kapitálovém trhu, pro podniky nekótované je pak doporučeno využít upraveného modelu se změněným ukazatelem x4 rovným poměru účetní hodnoty základního kapitálu a účetní hodnoty cizího kapitálu, dále se změněnými vahami (postupně pro x1 až x5 : 0,717; 0,847; 3,107; 0,420; 0,998), a také se změněnými hranicemi výsledného Z score (dobrá finanční situace pro Z > 2, 9, bankrotující firma Z < 1, 2, šedá zóna uprostřed intervalu). Sůvová a kol. (1999) popisuje přesnost předpovědi Altmanova modelu na dva roky dopředu jako dobrou, a nižší (asi 70 %) na dobu pěti let. Pro podmínky České
2.3
45
Finanční analýza
republiky uvádí Živělová (2007) model označovaný jako Index IN – Index důvěryhodnosti českého podniku (autorů Numaierová, I., Neumaier, I.): IN = v1 x1 + v2 x2 + v3 x3 + v4 x4 + v5 x5 − v6 x6 , kde x1 je dáno poměrem celkových aktiv a cizích zdrojů, x2 poměrem zisku před zdaněním a úroky a nákladových úroků, x3 poměrem zisku před zdaněním a úroky a celkových aktiv, x4 poměrem celkových výnosů a celkových aktiv, x5 poměrem oběžných aktiv a krátkodobých cizích zdrojů, x6 poměrem závazků po lhůtě splatnosti a výnosů; váhy modelu byly stanoveny pro celou ekonomiku i pro jednotlivá odvětví – hodnoty vah lze najít v Živělové (2007) na s. 86–87. Neumaierovi model dále zdokonalovali, v Živělové (2007) je na s. 87 uveden index IN99 (předchozí označován jako IN95) a index IN01 pro půmyslové podniky. Využití Altmanova modelu, ale i dalších modelů odvozených v zahraničních ekonomikách, v českých podmínkách naráží na řadu problémů. Mezi omezující faktory aplikace zahraničních modelů řadí Sedláček (2001) absenci dostatečně dlouhé časové řady sledovaných finančních ukazatelů, problematiku validity dat a dynamicky se měnící sociálně-ekonomické prostředí. Autor zároveň dodává, že pro firmy je často důležitější vývoj finančních indikátorů v čase, než konkrétní výsledná hodnota modelu v daném období. Omezující faktory ovlivňující aplikovatelnost modelů odvozených metodou vícerozměrné diskriminační analýzy popisují i Sůvová a kol. (1999): 1. Autoři doporučují zkonstruovat vlastní model na základě dat dané země, odvětví a časového období, avšak limitujícím faktorem bývá dostupnost dat zejména zbankrotovaných firem. 2. Modely nezahrnují další nefinanční a často nekvantifikovatelné informace, které analytici berou v úvahu. 3. Metody založené na diskriminační analýze nejsou dostatečně robustní vůči odlehlým datům (zejména při malých souborech) a navíc jsou založeny na předpokladu normálního rozdělení ukazatelů, který však nebývá u ekonomických proměnných splněn. 4. Problém existence šedé zóny, která je typická pro sporná hodnocení, podniky mimo zónu jsou analytikem často odhalitelné i bez využití predikčního modelu. 5. Možnost záměrného zkreslení účetnictví (autoři zmiňují „účetní trikyÿ, například mimorozvahové financování – např. leasing). 6. Závislost modelů na aktuálním ekonomickém cyklu (cyklický pokles poptávky), ve kterém byly odvozeny. Sůvová a kol. (1999) mechanickou aplikaci Altmanova modelu odvozeného pro americké podmínky v jakýchkoliv jiných podmínkách odmítají a s odkazem na další publikace uvádí, že lepších výsledků dosahují modely, ve kterých vystupují jako nezávislé proměnné i makroekonomické proměnné. Dále autoři zmiňují Tafflerovu výzkumnou práci v podmínkách Velké Británie, který však kromě výpočtu Z-skóre na základě diskriminační analýzy analyzuje i vývojový trend indexu. Sůvová a kol. (1999) uvádí, že Tafflerův přístup se v podstatě shoduje s výzkumnou prací českých autorů Vysušil, Kovanic, Kovanicová, aplikovat Altmanův model v podmínkách českého bankovnictví bylo také součástí práce Institutu ekonomie ČNB (1998). Pyramidové soustavy ukazatelů je možné najít v řadě publikací, například Živělová (2007) popisuje klasický model pyramidového rozkladu celkového vloženého
2.3
Finanční analýza
46
kapitálu označovaného také jako Du Pontova rovnice, a dále pyramidový rozklad rentability vlastního kapitálu. V Sedláčkovi (2001) je možné v kap. 7.1 najít metody výpočtu vlivu analytických ukazatelů na ukazatel syntetický, a to jak pro případ aditivních vazeb mezi analytickými ukazateli, tak i multiplikativních vazeb (metoda řetězového dosazování, logaritmická metoda, funkcionální metoda).
2.3
47
Finanční analýza
Tab. 1: Přehled poměrových ukazatelů podnikové stability dle Živělové (2007) Skupina ukazatelů zadluženosti CZ CA
Celková zadluženost
Míra zadluženosti celkového majetku a spojeného věřitelského rizika. (Debt ratio) Zahrnutí vlivu fin. leasingu: čitatel obohacen o sumu leasingových splátek, jmenovatel o hodnotu pronájmů.
Dlouhodobá zadluženost
DZ CA
Analytický ukazatel celkové zadluženosti.
Krátkodobá zadluženost
KZ CA
Analytický ukazatel celkové zadluženosti.
Míra samofinancování
VK CA
Míra proporce financování aktiv podniku penězi vlastníků. Míra hospodářské a finanční stability. (Equity ratio)
Finanční páka Podkapitalizování
CA VK
Míra změny rentability vloženého kapitálu v důsledku změny v zadluženosti. (Financial leverage)
DZ+VK SA
Hodnota by měla být větší než 1, neboť dlouhodobý majetek by měl být kryt dlouhodobým kapitálem, který by měl financovat i pracovní kapitál. (Zlaté bilanční pravidlo) V širším pojetí je součástí stálých aktiv i oběžný majetek s dobou použitelnosti přesahující jeden rok.
CZ VK
Dluh na vlastní kapitál
Obdobná vypovídací hodnota jako ukazatel míry samofinancování. Roste s růstem podílu závazků ve finanční struktuře podniku. (Debt-equity ratio)
Další hodnocení zadluženosti
CF CZ
Částečná kompenzace statického charakteru předchozích ukazatelů na bázi rozvahy, součástí závazků jsou i leasingové smlouvy.
ZUD U
Úrokové krytí
Kolikrát vytvořený zisk před odpočtem úroků a daní převyšuje úrokové platby. (Interest coverage) Při zahrnutí leasingových splátek je v čitateli i ve jmenovateli přičtena suma leasingových splátek – krytí fixních poplatků. (Fixed charge coverage)
CZ CA DZ KZ VK SA CF ZUD U
Celkové závazky (bez rezerv) Celková aktiva Dlouhodobé závazky (vč. dlouhodobých bankovních úvěrů) Krátkodobé závazky (vč. krátkodobých bankovních úvěrů) Vlastní kapitál Stálá aktiva Cash flow z provozní činnosti Zisk před zdaněním a úroky Úroky
Skupina ukazatelů platební schopnosti Běžná likvidita Pohotová likvidita
OA KZ OA−ZAS KZ
Míra krytí krátkodobých závazků oběžným majetkem. Důraz na stabilitu v čase. (Current ratio) Poměřuje pohotová oběžná aktiva (peněžní prostředky, obchodovatelné cenné papíry a pohledávky) s krátkodobými závazky. Srovnání s běžnou likviditou, vliv zásob. (Quick ratio)
Hotovostní likvidita
FMKP KZ
Zahrnuje hotovost, běžný účet, termínované vklady se spatností do 3 měsíců a krátkodobý finanční majetek. (Cash ratio)
Okamžitá likvidita
FMKP OSZ
Cash flow likvidita
CF KZ
Vyjadřuje schopnost podniku hradit krátkodobé závazky z peněžních toků. (Cash flow solventnost)
Stupeň oddlužení
CF CK
Poměr mezi financováním cizím kapitálem a schopností podniku vyrovnávat závazky z vlastní finanční síly.
Narozdíl od hotovostní likvidity zohledňuje strukturu kr. závazků podle jejich skutečné doby splatnosti.
Klesající hodnota v čase značí zhoršující se finanční situaci. OA KZ ZAS FMKP OSZ CF CK
Oběžná aktiva Krátkodobé závazky (vč. krátkodobých bankovních úvěrů) Zásoby Finanční majetek krátkodobé povahy Okamžitě splatné závazky Cash flow z provozní činnosti Cizí kapitál
2.3
48
Finanční analýza
Tab. 2: Přehled poměrových ukazatelů podnikové výnosnosti dle Živělové (2007) Skupina ukazatelů aktivity Obrat celkových aktiv
T CA
Míra efektivnosti využití veškerých aktiv. Hodnota se různí podle oboru činnosti.
Obrat dlouhodobého hmotného majetku
T DHM
Míra efektivnosti využití dlouhodobého hmotného majetku, srovnat s odvětvovým průměrem.
Obrat oběžných aktiv
T OA
Doporučeno sledovat obratovost podle jednotlivých skupin majetku.
Obrat zásob (OZAS)
T ZAS
Počet přeměn zásob v ostatní formy oběžného majetku až po opětovný nákup zásob za rok. Srovnat s odvětvovým průměrem (nelikvidní zásoby). (Inventroy turnover) V čitateli se doporučuje místo tržeb uvádět náklady na prodané zboží.
Doba obratu zásob
365 OZAS
Doba vázanosti oběžných aktiv v zásobách.
Obrat pohledávek (OPOHL)
T POHL
Rychlost transformace pohledávek v hotovost. (Accounts receivable turnover)
365 OPOHL
Doba, po kterou musí podnik průměrně čekat na obdržení plateb od odběra-
Doba obratu pohledávek
telů. (Average collection period)
Doba obratu závazků
–
Doba, která uplyne mezi nákupem zásob a externích výkonů a jejich úhradou. (Accounts payable turnover) Výpočet dán poměrem závazků z obchodního styku a průměrných denních nákupů na obchodní úvěr.
T CA DHM OA ZAS POHL
Tržby za prodej zboží a vlastních výrobků a služeb Celková aktiva Dlouhodobý hmotný majetek v zůstatkových cenách Oběžná aktiva Zásoby Pohledávky (průměrný stav)
Skupina ukazatelů rentability ROA (Rentabilita celkového vloženého kapitálu)
Z+U(1−d) CA
Vyjadřuje celkovou efektivnost podnikání. (ROI – Return on Investments)
ROE (Rentabilita vlastního kapitálu) ROCE (Rentabilita dlouhodobě invest. kapitálu)
Z VK Z+U(1−d) DZ+VK
Výnosnost kapitálu vloženého vlastníky. Umožňuje posouzení výnosnosti dlouhodobě investovaného kapitálu. V čitateli by úroky měly zahrnovat pouze úroky z dlouhodobých dluhů.
Finanční rentabilita vloženého kapitálu
CF CA
Množství peněžních prostředků vytvořených jednotkou vloženého kapitálu.
Finanční rentabilita vlastního kapitálu
CF VK
Schopnost podniku vytvořit z vlastní činnosti prostředky k vyplácení dividend či podílů na hospodářském výsledku. Při výpočtu vyloučit úroky z peněžních výdajů.
ROA ROE ROCE Z CA U d VK DZ CF
Return on Assets Return on Equity Return on Capital Employed Zisk po zdanění Celková aktiva Úrok z použitých úvěrů Sazba daně z příjmu Vlastní kapitál Dlouhodobé závazky (vč. dlouhodobých bankovních úvěrů) Cash flow rovno zisku po zdanění, odpisům a změně dlouhodobých rezerv
3
SOUČASNÝ STAV APLIKACE NEURONOVÝCH SíTí V EKONOMICKÉ PREDIKCI
3
49
Současný stav aplikace neuronových sítí v ekonomické predikci
Cílem kapitoly je popis vývoje i současného stavu aplikace neuronových sítí v ekonomické predikci se zaměřením na oblast finanční analýzy. V první podkapitole jsou uvedeny závěry již existujících souhrnů literatury (review), druhá podkapitola shrnuje výsledky nejčastějších oblastí aplikace, kterými jsou predikce bankrotu a finanční tísně v komerční a bankovní sféře, třetí podkapitola přehledově uvádí další typy aplikací v ekonomické predikci, aktualizace výsledků za poslední dva roky (2007 a 2008) je obsahem čtvrté podkapitoly, následuje podkapitola popisující výsledky aplikací vyhodnocujících prediktivní výkon klasifikátorů pomocí metody ROC (Receiver Operating Characteristics), v poslední podkapitole jsou pak uvedeny závěry z celého průzkumu literatury. Přehled literatury je založen na článcích publikovaných v zahraničních a ve většině případů impaktovaných časopisech. Publikace byly získány ze systému ScienceDirect, většina v polovině roku 2007 v rámci zkušebního přístupu MZLU v Brně, aktualizace za roky 2007 a 2008 a články s aplikovanou ROC analýzou pak v červenci 2008 v rámci plného přístupu MZLU v Brně do stejného systému. Do výběru aplikací byly zařazeny pouze články s dostupným plným textem, články s pouze dostupným abstraktem byly zpracovány jen v případě aplikací ROC analýzy. Celkem je zpracováno 108 publikací za posledních přibližně 20 let, časopisy včetně počtu zpracovaných publikací, časovým obdobím, ISSN a impakt faktorem jsou uvedeny v níže uvedené tabulce, odborné zaměření časopisů pak v příloze A. Přehled literatury si neklade ambice být vyčerpávajícím souhrnem veškeré publikační činnosti v dané oblasti, avšak charakteristické rysy dosavadního výzkumu z přehledu zřetelné jsou.
3.1
Přehled existujících souhrnů dosavadních publikací
V průzkumu dosavadní literatury je zpracováno pět ucelených review aplikací neuronových sítí v ekonomické predikci. Období 1990–1999 zpracovali Calderon a Cheh (2002), období 1992–1998 Vellido, Lisboa a Vaughan (1999), období 1988–1995 se zaměřením na obchodní sektor Wong, Bodnovich a Selvi (1997) a období 1990–1996 se zaměřením na finanční sektor Wong a Selvi (1998). Nejnovějším review shrnujícím období 1968–2005 se zaměřením na aplikaci statistických metod a metod umělé inteligence je publikace Kumara a Raviho (2007). Závěry prvních čtyř publikací jsou uvedeny v této podkapitole, poslední a nejnovější publikace žel nebyla v rámci subskribce MZLU v Brně na platformě ScienceDirect v červenci 2008 dostupná. Calderon a Cheh (2002) zpracovali review odborných publikací zaměřených na aplikací neuronových sítí ve finanční oblasti za období 1990–1999, z nichž nejvíce pochází z let 1997 (6 publikací), 1999, 1994 a 1992 (4 publikace). Analyzované studie jsou rozděleny do šesti kategorií: hodnocení rizik (preliminary information risk assessment, control risk assessment) – 3 studie, detekce chyb a
3.1
50
Přehled existujících souhrnů dosavadních publikací
Tab. 3: Přehled časopisů ve finanční oblasti (ScienceDirect) Název časopisu
Počet publikací
Za období
ISSN
Impakt faktor
Expert Systems with Applications
43
1995–2008
0957-4174
2007: 1,177
Decision Support Systems
16
1994–2008
0167-9236
2007: 1,119
European Journal of Operational Research
6
1995–1999
0377-2217
2007: 1,096
Computers & Operations Research
5
1996–2003
0305-0548
2007: 1,147
International Review of Financial Analysis
4
1999–2004
1057-5219
–
Information Sciences
3
1999–2007
0020-0255
2007: 2,147
Journal of Banking & Finance
3
1994–2005
0378-4266
2007: 0,753
Knowledge-Based Systems
3
2001–2008
0950-7051
2007: 0,574
Neurocomputing
3
1996–1998
0925-2312
2007: 0,865
Omega
3
1995–2002
0305-0483
2007: 1,327
Computers & Industrial Engineering
2
1993–1994
0360-8352
2007: 0,554
Information & Management
2
1993, 1998
0378-7206
2007: 1,631
International Journal of Accounting Information Systems
2
2001, 2002
1467-0895
–
Journal of Empirical Finance
2
2003, 2005
0927-5398
–
Accounting, Management & Information Technologies
1
1998
0959-8022
Applied Soft Computing
1
2007
1568-4946
2007: 1,537
Future Generation Computer Systems
1
1999
0167-739X
2007: 1,095
International Review of Economics & Finance
1
2001
1059-0560
–
Journal of Air Transport Management
1
1999
0969-6997
2007: 0,453
Journal of Business Research
1
1999
0148-2963
2007: 0,878
Journal of Microcomputer Applications
1
1995
1084-8045
Ukončen 1995
Mathematical and Computer Modelling
1
2007
0895-7177
2007: 0,527
Neural Networks
1
2004
0893-6080
2007: 1,951
Signal Processing
1
1999
0165-1684
2007: 0,737
podvodů (errors and fraud) – 6 studií, hodnocení výnosnosti podniku (going-concern audit opinion) – 3 studie, predikce finanční tísně (financial distress prediction) – 3 studie a predikce bankrotu (bankruptcy prediction) – 12 studií. Aplikaci neuronových sítí v hodnocení podnikové finanční situace označují autoři za výhodnou v případě použití sítí jako pomocného auditního nástroje a dále v případě hodnocení velkého množství vzorků s vysokou dimenzionalitou. Z hlediska metrik výkonnosti je ve většině studií použita klasifikační přesnost (accuracy) definovaná jako počet úspěšně klasifikovaných vzorků v testovacím setu v poměru ke všem vzorkům testovacího setu. V rámci domény uditu řada publikací používá rozdělení chyb na chyby prvního a druhého typu (Type I/II Error). V obou případech je cílem minimalizace chyb. Autoři upozorňují na nedostatek tohoto typu metrik, neboť nezohledňují relativní náklady chyb prvního a druhého typu. Datovými zdroji většiny publikací jsou veřejné zdroje (nejčastěji Security and Exchange Commission’s Accounting and Auditing Enforcement Releases (AAER)
3.1
Přehled existujících souhrnů dosavadních publikací
51
a Compustat) a dále pak simulovaná data. Uvedené zdroje však neobsahují data v dostatečném detailu, problematické je i jejich předzpracování. Z těchto důvodů jsou použité datové soubory relativně malé – medián v trénovacím setu (training/learning set) a testovacím setu (testing set) je 130, resp. 90 vzorů. Průměrný počet vzorů trénovacího setu je 262, v testovacím setu 177. Pravděpodobně z důvodu nedostatku dat velmi málo studií používá validační set (validation set), je-li použit, medián je 259 vzorů, průměr 590 vzorů. Pojetí testovacího setu a validačního setu je popsáno v obráceném než obvyklém použití – validační set označují autoři jako set použitý k ohodnocení výkonnosti klasifikátoru po jeho naučení. V případě nízkého počtu dat upozorňují autoři na nebezpečí přetrénování klasifikátoru, jehož důsledkem je výrazné narušení schopnosti klasifikace nových vzorů. Výstupní proměnné klasifikátoru jsou ve většině případu binární, výjimečně jsou požity vícehodnotové výstupy. Počet vstupních proměnných se značně liší, od 3 do 174 vstupních proměnných, průměr 21,06, medián 8,00. Autoři též upozorňují na poměr počtu vzorů datového setu k počtu vstupních proměnných, který se různí od 0,18 do 111. V případě nízkého poměru může být narušena validita neuronové sítě při klasifikaci nových vzorů (externích dat). Architekturou neuronové sítě je ve většině případů standardní backpropagation neuronová síť (BPNN), několik autorů použilo pravděpodobnostní a general regression neuronové sítě (GRNN). Upozorňují na využití Kohonenových sítí, které mohou být použity jako srovnávací test validity auditorovy klasifikace. Konkrétní závěry jednotlivých studí, včetně použitého softwaru, jsou uvedeny v tabulce 3 na straně 13. Každé z výše uvedených šesti kategorií podnikového hodnocení je věnována samostatná podkapitola s detailním popisem, v oblasti predikce finanční tísně a bankrotu je většina publikací zaměřena na srovnání s klasickými statistickými metodami diskriminační analýzy, přičemž většina publikací vykazuje lepší prediktivní výkon neuronových sítí v porovnání se statickými metodami. Autoři dále upozorňují na dvě sporné otázky. Zaprvé vliv metody reprezentace výstupu neuronové sítě na její prediktivní přesnost, a zadruhé trénování a testování neuronové sítě na nevyvážených datových setech (počet negativních vs. pozitivních vzorů v setu) v případě predikce finanční tísně. Podstatný význam má především druhá z otázek. Většina studií používá vyvážené trénovací i testovací sety, prediktivní výkon pak ve většině případů měří pomocí jednoduchého kritéria klasifikační přesnosti. Použití tohoto typu hodnocení však nedává pravdivou informaci o prediktivním výkonu na externích (reálných) datech, kde je výskyt pozitivních vzorů (například bankrotujících firem) i o několik řádů nižší než výskyt vzorů negativních. Autoři se v této sporné otázce odvolávají na publikaci Jaina a Naga (1997). Předkládaná disertační práce řeší tento problém vyhodnocením prediktivního výkonu klasifikčního modelu pomocí ROC analýzy, která dokáže nevyvážené datové sety zohlednit. Jako témata určená k dalšímu řešení uvádí: rozsah databáze vzorů, náklady špatné klasifikace a související metriky prediktivního výkonu, prescreening a výběr proměnných, kombinace neuronových sítí, genetických algoritmů a expertních sys-
3.1
Přehled existujících souhrnů dosavadních publikací
52
témů, dále modely neuronových sítí, distribuované učení a rozšiřitelnost, a specifické otázky hodnocení obchodního rizika. Z uvedených je pro disertační práci nejpodstatnější druhý bod, volba sofistikovanější metriky prediktivního výkonu. Calderon a Cheh znovu upozorňují na jediné dva typy metrik používané v ekonomických studiích – klasifikační přesnost a frekvence výskytu chyb prvního a druhého typu. První typ metriky jako uspokojivou metriku autoři odmítají, chyby prvního a druhého typu by naopak sledovány být měly, avšak žádná ze studií nebere v potaz různé náklady v případě chyb prvního a druhého typu. Calderon a Cheh na str. 25 uvádí metodiku zohledňující tento nedostatek. V závěru je poukázáno na nedostatky neuronových sítí, zejména na schopnost generalizace neuronových sítí. Neuronové sítě ztrácejí schopnost generalizace při přetrénování neuronové sítě, tj. při extrémním memorování trénovacího setu se související ztrátou klasifikačního výkonu na externích (nových) vzorech testovacího setu. Autoři se odvolávají na publikaci Gurneyho (1997), Haykina (1994), a udávají též konkrétní výsledky zveřejněné Coggerem a Fanningem (1997), jejichž neuronová síť vykázala 24% chybovost na trénovacím setu a 81% chybovost na testovacím setu. Vellido, Lisboa a Vaughan (1999) publikují review aplikací neuronových sítí v oblastech účetnictví a auditingu, financí se zaměřením na predikci bankrotu a úvěrového hodnocení, managementu a podpoře rozhodování, marketingu, výroby a v dalších okrajových oblastech. Převážně aplikovaným typem neuronových sítí je vícevrstvá perceptronová síť trénovaná backpropagation algoritmem (74 z 93 publikací). Pouze 14 publikací využívá unsupervised sítí, většinou samoorganizujících se map (SOM). Z oblasti predikce bankrotu je zpracováno 23 publikací, z nichž sedm predikuje bankrot bankovních institucí a 16 bankrot firem. Z oblasti hodnocení úvěru je zpracováno 14 publikací. Data pro vyhodnocení klasifikačního výkonu ve většině případů tvoří nezávislý testovací set vedle druhého trénovacího setu určeného k učení sítě. Minimum studií používá tři sety, kromě uvedených ještě set validační používaný k hodnocení generalizace v průběhu učení sítě. Rovněž ne mnoho studií aplikuje metodu cross validace. Rozsah dat se pohybuje většinou do 500 vzorků, jen ve výjimečných případech je použit rozsah v řádu tisíců vzorů. Z pohledu srovnání neuronových sítí s alternativními metodami je ve většině případů porovnáváno s diskriminační analýzou, logistickou regresí, probit analýzou, rozhodovacími stromy (ID3), a dále pak také s k-NN metodou, MARS metodou, a case-based forcasting systémy. Téměř ve všech studiích (59 publikací) dosahují neuronové sítě vyššího nebo srovnatelného klasifikačního výkonu ve srovnání s alternativními metodami, a jen ve zlomku aplikací (3 publikace) dosahují výkonu horšího. V případě hodnocení úvěryschopnosti trpí aplikace nedostatkem reálných dat, jejichž dostupnost je v praxi značně omezená. Počet vstupních proměnných se v tomto případě pohybuje od 6 do 27 a jen několik autorů používá selekční techniky pro optimální kombinaci vstupních údajů.
3.1
Přehled existujících souhrnů dosavadních publikací
53
Kromě neuronových sítí je použita řada dalších přístupů, tři studie rovněž aplikovaly hybridní modely, avšak 21 publikací vykazuje určitou formu integrovaného/smíšeného/hybridního modelu obsahujícího neuronové sítě, kdy došlo ke zvýšení klasifikačního výkonu. Z hlediska vhodnosti použití neuronových sítí pro popsané druhy predikce jsou nejčastěji zmiňovány výhody spočívající ve schopnosti neuronových sítí zpracovávat nekompletní či zkreslená data, vlastnost neparametrické metody bez omezujících předpokladů na data, a také schopnost sítí modelovat jakoukoliv komplexní nelineární spojitou funkci. Z nevýhod aplikace neuronových sítí je zmiňována zejména vlastnost black-box – neuronová síť není schopna podat vysvětlení klasifikace (28 citací), dále autoři uvádí, že napříč publikacemi není hodnocen dopad vstupních proměnných na výslednou klasifikaci pomocí formálních technik, chybí formální metoda optimalizace architektury neuronové sítě, byť se řada autořů snaží řešit tento problém například pomocí genetických algoritmů, strategií prořezávání sítí apod. Typicky je však použita metoda pokusu a omylu (21 citací). Třetím nejcitovanějším problémem je časová náročnost učení neuronových sítí (11 citací), dále problém přetrénování neuronové sítě se související ztrátou generalizace (10 citací), absence pravidla pro výběr vhodného učícího algoritmu, resp. paradigmatu neuronové sítě (8 citací), závislost neuronových sítí na kvalitě a množství dat (6 citací), nebezpečí uvíznutí v lokálních minimech při trénování (5 citací), nedostatečná fáze vývoje a robustnost neuronových sítí (3 citace) a absence vlastností klasických statistických metod (2 citace). V závěru autoři rovněž upozorňují na vhodnost výběru chybové funkce, kterou je ve většině případů SSE bez ohledu na to, zda je použita na případu regrese či klasifikace. S odkazem na Bishopa (1995) uvádí, že pro binární klasifikaci není SSE nejvhodnějším výběrem, namísto ní by měla být použita chybová funkce Cross-Entropy. Podobně autoři diskutují neadekvátní použití obvyklé sigmoidální funkce na výstupních neuronech při klasifikaci více než dvou tříd – aby bylo možné výstupy interpretovat jako pravděpodobnosti příslušnosti do daných tříd, je vhodnější použití funkce softmax. Wong, Bodnovich a Selvi (1997) shrnují ve svém review aplikace neuronových sítí v obchodním sektoru za období 1988–1995. Celkem analyzují 203 článků s 213 aplikacemi. Zastoupení oblastí aplikace neuronových sítí je následující: téměř 79 % publikací je zaměřeno na aplikaci neuronových sítí ve výrobě (53,5 %), ve finanční oblasti (celkem 54 publikací) je nejvíce zastoupna predikce na akciovém trhu (7 publikací), a dále pak predikce bankrotu firem (6 publikací) a bank (5 publikací). Nejvíce publikací bylo ve finanční oblasti publikováno v letech 1994 (16), 1993 a 1995 (13). Hybridní modely integrující neuronové sítě s další technologií umělé inteligence, jako například s expertními systémy či s technologiemi robotiky, jsou v této rané fázi navrhovány pouze v 16,4 % všech modelů. Téměř 39 % všech studií porovnává výkon neuronových sítí s 85 různými metodami, nejčastěji s diskriminační analýzou, regresní analýzou, logistickou regresí, a
3.1
Přehled existujících souhrnů dosavadních publikací
54
metodou ID3. Pouze tři studie uvádí, že neuronové sítě vykázaly horší prediktivní výkon. Mezi nejzastoupenější časopisy patří Computers and Industrial Engineering (28 aplikací), International Journal of Production Research (22 aplikací) a Decision Support Systems (12 aplikací). V závěru autoři poukazují na nepříliš časté využití neuronových sítí pro podporu strategického plánování, resp. pro podporu návrhové fáze rozhodování. Uvádí dva důvody, které toto využití neuronových sítí limitují – zaprvé neuronové sítě vyžadují velké množství dat a opakujících se případů k naučení, zatímco strategické rozhodování se zabývá unikátními případy, a zadruhé neuronové sítě neposkytují zdůvodnění jejich rozhodnutí. Autoři však dodávají, že i přes uvedená omezení by neměly být neuronové sítě pro strategickou podporu rozhodování ignorovány, zvláště pak ve spojení s ostatními technologiemi, jako například s expertními systémy. Dále jsou navržena další témata určená k prozkoumání aplikace neuronových sítí: 1. ohodnocení výkonu neuronových sítí s použitím různých architektur a trénovacích metod, 2. vliv kvality a kvantity trénovacích dat na výkon sítě, 3. vliv povahy dat a domény aplikace na výkon sítě v porovnání s ostatními metodami, 4. vytvoření obecné metodiky pro návrh architektury neuronové sítě, 5. vytvoření explicitní sady pravidel k určení, zda daný učící algoritmus je vhodný pro konkrétní aplikací, 6. redukovat pravděpodobnost konvergence k lokálnímu minimu s použitím genetických algoritmů nebo jiného stochastického přístupu. Wong a Selvi (1998) podobnou metodikou, jako ve své předchozí publikaci Wong, Bodnovich a Selvi (1997), zpracovávají review aplikací neuronových sítí v oblasti financí. Celkem je analyzováno 64 publikací (66 aplikací) z období 1990–1996, s největším počtem publikací v období 1993–1996 (průměrně 13 publikací ročně). Typickou aplikací je predikce bankrotu bank a firem a predikce akcií, které jsou charakteristické interakcí mnoha proměnných s vysokou vzájemnou korelací, často nelineární a příliš komplexní pro popis matematickým modelem. Řada publikací vykazuje lepší prediktivní výkon neuronových sítí v predikci časových řad oproti klasicým statistickým metodám. V uvedeném období bylo osm aplikací neuronových sítí kombinováno s dalšími technologiemi umělé inteligence – sedm aplikací s expertními systémy a zbývající jedna s expertními systémy a fuzzy logikou. Zároveň Wong a Selvi uvádí publikace, ve kterých bylo dosaženo vyššího prediktivního výkonu neuronových sítí ve spojení se statistickými metodami. Porovnání výkonu neuronových sítí se statistickými metodami je provedeno ve 37 publikacích, nejčastěji s diskriminační analýzou (16 publikací), logistickou regresí (8 publikací), regresní analýzou (8 publikací) a metodou ID3 (5 publikací). Pouze 5 publikací vykazuje horší prediktivní výkon neuronových sítí ve srovnání se statistickými metodami. Z pohledu využití neuronových sítí ve fázi strategického plánování uvádí autoři tytéž závěry jako ve svém předchozím review z roku 1997. Dále je doporučeno
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
55
kombinovat neuronové sítě se statistickými metodami, jsou uvedeny publikace, ve kterých integrace obou přístupů vedla k vyššímu prediktivnímu výkonu.
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
Obsahem této kapitoly je souhrn 25 publikací z období 1993–2007 (přesněji do poloviny roku 2007) aplikujících vícevrstvé perceptronové neuronové sítě (MLP, Multilayer Perceptron) učené algoritmem zpětného šíření chyb (backpropagation) na případech predikce bankrotu a finanční tísně. Zařazeny jsou i publikace, v nichž hrají neuronové sítě podstatnou roli, anebo které ukazují určité charakteristické rysy vztahující se k tématu disertační práce, jako například způsob vyhodnocení prediktivního výkonu naučeného klasifikátoru. Predikce bankrotu a finanční tísně je nejčastěji řešenou oblastí, ve které jsou technologie umělé inteligence aplikovány, a proto lze analýzou publikací z této oblasti získat nejvíce informací o charakteru použitých dat, jejich předzpracování a rozdělení do datových setů, o nejčastěji používaných architekturách neuronových sítí, způsobu jejich učení, vyhodnocení prediktivního výkonu atp. Přehled je seřazen od nejnovějších publikací po nejstarší, čímž je možno sledovat vývoj výzkumu. Publikace byly získány ve vyhledávacím systému ScienceDirect v polovině roku 2007 v rámci zkušebního přístupu MZLU v Brně. Pět z nalezených publikací vyhodnocuje prediktivní výkon klasifikátoru metodou ROC a jsou uvedeny v samostatné kapitole Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC. Jedná se o následující publikace – Gaganis, Pasiouras a Doumpos (2007); Ng a Jiang (2006); Tung, Quek a Cheng (2004); Gim a Whalen (1999); Williamson (1995). V této souvislosti je možné upozornit i na publikaci Kiviluota (1998), který sice přímo ROC analýzou klasifikátor nevyhodnocuje, avšak použitím Neumann–Pearsonova kritéria se tomuto typu analýzy přibližuje. Celik a Karatepe (2007) aplikují neuronové sítě na případu predikce bankovní krize v tureckém bankovním sektoru. Dva modely neuronových sítí predikují krizi na základě 25 vstupních finančních ukazatelů, výstupem sítě jsou čtyři ukazatele reprezentované čtyřmi neurony, které vyjadřují finanční stabilitu bankovní instituce. Data jsou představována měsíčními údaji z období 1989 až 2004 a byla před použitím normalizována a rozdělena na trénovací a testovací set. Topologie a parametry neuronové sítě byly určeny pomocí Taguchiho metody, byly ověřovány až šestivrstvé sítě, jako optimální byly určeny čtyřvrstvé sítě s počtem skrytých neuronů 20, 20, 50 v první, resp. druhé a třetí skryté vrstvě. Učící koeficient a moment nastaveny na hodnotu 0,1 a 0,4. Výsledky u dvou použitých modelů dosáhly úplné klasifikační přesnosti. Tsai a Wu (2007) zkoumají rozdíly klasifikačního výkonu kombinovaných klasifikátorů oproti klasifikátorům samostatným na třech datových setech kritériem klasifikační přesnosti i chyb typu I (upadající subjekt hodnocen jako zdravý) a typu II (opak). K dosavadní literatuře namítají několik výhrad – většina publikací používá pouze jeden datový set pro vyhodnocení klasifikačního výkonu namísto několika
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
56
datových setů, dále řada autorů nevyhodnocuje klasifikační výkon chybami typu I a II, nýbrž pouze procentním výskytem chyb (klasfikační přesnost či chyba), a v neposlední řadě velmi málo studií aplikuje více klasifikátorů na případu hodnocení úvěryschopnosti či predikce bankrotu. Ve své studii autoři používají tři datové sety (australský, německý a japonský) s 690, resp. 1000 a 690 vzory, pozitivními/negativními případy 307/383, resp. 700/300 a 307/383, a počtem atributů 14, resp. 20 a 15. Každý datový set byl náhodně rozdělen do trénovacího (70 %) a testovacího setu (30 %). Architektury neuronových sítí jsou podle popisu v publikaci třívrstvé s počtem skrytých neuronů různího se od 8 do 32, backpropagation, počet trénovacích epoch jakožto kritéria zastavení trénování 50, 100, 200 a 300. Samostatné klasifikátory jsou porovnány s kombinovanými, které jsou sestaveny strategií hlasování – výsledek kombinovaného klasifikátoru je dán nadpolovičním počtem shodných výsledků lichého počtu samostatných klasifikátorů (ověřeno 3, 5, 7, 9, 11, 13 a 15 samostatných klasifikátorů v kombinovaném modelu). Podle výsledků studie dosahují nejlepších výsledků, měřeno kritériem průměrné klasifikační přesnosti, samostatné klasifikátory. Naopak v případě kritéria procentního výskytu chyb typu I a II nejsou mezi samostatnými a kombinovanými klasifikátory větší rozdíly. Min, Lee a Han (2006) porovnávají prediktivní výkon SVM (Support Vector Machines), neuronových sítí a logistické regrese na případu predikce bankrotu. Dále navrhují metodu výběru vstupních charakteristik a optimalizaci parametrů SVM pomocí genetických algoritmů. Experiment je proveden na reálných datech 614 průmyslových korejských firem, z nichž 307 doznalo finančního úpadku v letech 1999–2002. Úpadek je predikován na základě několika setů vstupních proměnných s počtem 32, 30, 12 a 6. Výsledek je hodnocen kritériem klasifikační přesnosti, která je v případě GA-SVM 80,3 % a je nejvyšší hodnotou ve srovnání s ostatními modely. Lee, Booth a Alam (2005) ve své studii porovnávají na případu predikce bankrotu klasifikační výkon neuronových sítí učených s i bez učitele (supervised/unsupervised neural networks). Data obsahují 168 korejských společností (vyvážený set 84 zkrachovalých a 84 přeživších firem) v letech 1995–1998, hodnoceny jsou pěti finančními ukazateli Altmanova modelu. Klasifikační výkon byl srovnán pro obvyklou backpropagation neurnovou síť, síť Kohonenovu a také pro diskriminační analýzu a logistickou regresi. Nejlepší prediktivní výkon vykázala backpropagation neuronová síť (supervised). Zároveň však autoři zdůrazňují problém supervised přístupu – data jsou retrospektivní a v měnícím se prostředí nemusí odrážet současnou situaci. V této souvislosti autoři uvádí, že může být výhodné použití unsupervised sítí, které nevyžadují cílový vektor zatížený uvedenou retrospektivitou. V modelu je použita čtyřsložková cross validace, trénování na dvou ze subsetů, třetí použit pro validaci a čtvrtý pro testování modelu. Při trénovaní neuronové sítě je použita i metoda early stopping. Architektura neuronové sítě je dvouvrstvá, vstupní data nejsou normalizována, neurony skryté a výstupní vrstvy používají obvyklou sigmoidální funkci (logistic function), jsou testovány modely s 1–10 neruony skryté vrstvy. Na výstupním neuronu je definována hraniční hodnota 0,5 oddělující negativní od pozitivních případů, prediktivní výkon je sledován za pomoci kritéria klasifikační
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
57
přesnosti, a dále vyhodnocením chyb prvního a druhého typu, oběma typům je přiřazena stejná váha. Shin, Lee a Kim (2005) aplikují SVM (Support Vector Machines) a současně je srovnávají s třívrstvou neuronovou sítí na případu predikce bankrotu. Data obsahují 2320 vzorků (vyvážený set 1160 negativních/1160 pozitivních případů) stejně velkých korejských výrobních firem za období 1996–1999. Uvádí, že obvyklá neuronová síť typu backpropagation je aplikovatelná v predikci bankrotu, avšak je problém najít její optimální architekturu a tento proces vyžaduje odpovídající množství dat v trénovacím setu. SVM jsou schopny pracovat na menším množství dat a podle výsledků studie SVM třívrstvou nuronovou síť v prediktivním výkonu překonaly. Vstupní proměnné modelu jsou vybrány dvoustupňovou selekcí, z 250 finančních ukazatelů výběr 52, poté s ohledem na redukci dimenzionality výběr 10 proměnných. Výsledky jsou hodnoceny klasifikační přesností podle různé velikosti trénovacího setu. Huang a kol. (2004) aplikují techniku SVM (Support Vector Machines) a standardní backpropagation neuronové sítě na případu hodnocení podnikové finanční situace technologiemi umělé inteligence. Jsou použity dva datové sety – 74 případů 25 taiwanských finančních institucí z let 1998–2002 a 265 případů 36 komerčních bank z USA za období 1991–2000. Výsledky jsou hodnoceny prediktivní přesností, obě metody dosáhly přesnosti klasifikace okolo 80 %. Studie se dále zabývá analýzou vlivu vstupních proměnných na výslednou klasifikaci. Lam (2004) zkoumá schopnost backpropagation neuronových sítí k integraci fundamentální a technické analýzy ve finanční predikci. Predikce je založena na 16 finančních ukazatelích z firemních finančních výkazů („finanční dataÿ) a na 11 makroekonomických proměnných. Predikovanou veličinou je míra návratnosti Rate of return on common shareholders’ equity. Data představuje 364 firem z databáze CompuStat a makroekonomické ukazatele z databáze Citibase v období 1985–1995. Predikce je ověřena na několika experimentech: Experiment 1 (jednoroční finanční data pro predikci v následujícím roce) – trénovací set obsahuje data z roku n a klasifikaci (výstup) z roku n + 1, testovací set obsahuje data z roku n + 1 a klasifikaci z roku n + 2. Experiment 2 (dvouletá finanční data pro predikci v následujícím roce) – trénovací set obsahuje data z roku n a n + 1 a klasifikaci (výstup) z roku n + 2, testovací set obsahuje data z roku n + 1 a n + 2 a klasifikaci z roku n + 3. Experiment 3 používá ve stejném duchu tříletá finanční data. Experiment 4 používá kromě finančních dat i makroekonomické ukazatele na tříleté predikci v následujícím roce. Experiment 5 je navržen pro srování výkonu neuronové sítě s pravidly extrahovanými z naučené sítě algoritmem GLARE. Architektura neuronové sítě je vícevrstvá (1, 2 a 3 skryté vrstvy) s 10 skrytými neurony v první vrstvě, 7 neurony v druhé a 3 neurony ve třetí skryté vrstvě. První čtyři experimenty použily učící koeficient 0,5, moment 0,1 a 1000 trénovacích epoch. Výkon neuronové sítě je srovnán s horní třetinou návratnosti na trhu (návratnost za předpokladu maximální informace), a dále s průměrnou návratností (minimální srovnávací test). Není použito kritéria klasifikační přesnosti, neboť cílem studie je výběr vysoce návratových případů. Roz-
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
58
díly významnosti jsou ověřeny párovým t-testem. Výsledky ukazují, že neuronové sítě učené s jednoročními a víceletými finančními daty (bez makroekomických ukazatelů) významně překonávají minimální srovnávací test, nikoliv však maximální. V případě použití finančních dat i makroekonomických ukazatelů nebyl překonán ani minimální srovnávací test. Maximálnímu srovnávacímu testu se naopak přiblížil model s extrahovanými pravidly z naučené neuronové sítě. Lin a McClean (2001) srovnávají klasifikační výkon diskriminační analýzy, logistické regrese, neuronových sítí a rozhodovacích stromů na případu klasifikace finančně zdravých/upadlých firem. Klasifikátory pracují se vstupy vybranými statistickou metodou ANOVA (Analysis of variance) a expertním odhadem. V rámci této studie je rovněž sestaven hybridní model složený z několika elementárních klasifikátorů. Data jsou představována 1133 společnostmi z UK za 20 let (1980–1999), je použito 37 vstupních finančních ukazatelů, které jsou ve výsledném modelu zredukovány na čtyři kategorie finančních proměnných s celkovým počtem 15 ukazatelů. Trénovací set je použit z období 1980–1990, model je poté ověřen testem na období 1991–1999. Výkon klasifikátorů je měřen pomocí kritéria klasifikační přesnosti pohybující se od 80 do 90 %. Ahn, Cho a Kim (2000) navrhují hybridní systém predikce úpadku firem na základě finančních dat aplikací přístupu hrubých množin a neuronových sítí. Počet evaluačních kritérií je redukován bez ztráty informace pomocí přístupu hrubých množin, poté je redukovaná sada použita k vytvoření klasifikačních pravidel a trénování neuronové sítě. Efektivita modelu byla porovnána s diskriminační analýzou a neuronovými sítěmi na případu hodnocení jednoročních finančních dat (8 finančních ukazatelů) 2400 korejských firem (1200 upadlých, 1200 přeživších) v období 1994– 1997. Srovnávané neuronové sítě jsou dvouvrstvé MLP sítě, trénované backpropagation algoritmem, sigmoidální aktivační funkce, použito 5 a 3 skrytých neuronů. Validace je provedena s použitím 12složkové cross validace. Výsledky jsou hodnoceny kritériem klasifikační přesnosti, hybridní model vykázal nejvyšší prediktivní výkon. Davalos, Gritta a Chow (1999) aplikují neuronové sítě na případu predikce bankrotu amerických leteckých dopravců. Data jsou dostupná pro 19 větších dopravců v období 1979–1996. Z čtvrtletních výkazů je vytvořen datový set 26 bankrotujících a 26 přeživších vzorů popsaných 20 vstupními finančními proměnnými. Autoři zevrubně diskutují problém stanovení poměru bankrotujících a přeživších vzorků v trénovacím a testovacím setu ve vztahu k možnému ovlivnění výsledku měřeného klasifikační přesností. Jednou z možností je poměr shodný s reálným poměrem v základní populaci (base rate), anebo stanovit poměry odlišně – v této souvislosti se autoři odvolávají na Wilsona a Shardu (1994), kteří ve své studii změřili nejlepší výkon při poměru 50 : 50 namísto variant 80 : 20 a 90 : 10. Vyvážený set byl použit i v této studii. Neuronová síť je třívrstvá s 12 neurony v první skryté vrstvě, s 5 v druhé skryté vrstvě a výstupní vrstva obsahovala dva neurony. Síť byla trénována cca. 50 000 iteracemi, resp. do doby, kdy nedocházelo ke snižování chyby. Byla použita hyperbolická tangenta jakožto aktivační funkce, učící koeficient 0,9 a
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
59
moment 0,6. Optimální kombinace byla určena metodou pokusu a omylu. Cílové hodnoty vzorů byly kódovány schématem (0, 1) pro bankrotující vzorek a (1, 0) pro přeživší s hraniční hodnotou 0,5 na každém ze dvou neuronů (hodnota nad 0,5 je považována za 1 a opačně). Testovací sety byly sestaveny několikrát a neuronová síť byla na testovacím setu schopna dosáhnout úplné úspěšnosti. Prediktivní výkon je hodnocen s rozlišením chyb typu I a II. Výsledky též byly srovnány s Altmanovým Z-score modelem, který stoprocentní klasifikace nedosáhl. Zhang a kol. (1999) publikují výsledky predikce bankrotu neuronovými sítěmi a logistickou regresí. Zdůrazňují problém mnoha studií, ve kterých jsou trénovací a testovací sety ze setu kompletního vygenerovány náhodně. V tomto případě nemusí testovací set odrážet charakteristiku trénovacího setu, a potažmo vykazovaný klasifikační výkon nemusí být pravdivý. Ve své studii používají metodu cross validace s pěti složkami, ve které jsou postupně všechny vzorky použity pro ověření prediktivního výkonu. Vstupními proměnnými je všech pět ukazatelů Altmanova Z-score modelu s dalším ukazatelem likvidity. Data tvoří vyvážený set 220 vzorků (110 zbankrotovaných výrobních firem v USA za období 1980–1991 a k nim vybraných 110 firem přeživších). Je použita dvouvrstvá MLP síť s jedním výstupním neuronem, oproti obvyklým architekturám jsou přidána spojení mezi vstupní a výstupní vrstvou. Autoři dále diskutují problém výběru počtu skrytých neuronů, pro klasifikaci na trénovacím setu doporučují komplexní síť, pro klasifikaci nových vzorů testovacího setu síť jednodušší. Ve své studií ověřují architektury s 1–15 skrytými neurony. Nepoužívají normalizaci vstupních dat. Prediktivní výkon je měřen pouze pomocí klasifikační přesností. Celková klasifikační přesnost neuronové sítě na pěti subsetech testovacího setu se pohybuje od 77 do 84 %, zatímco v případě logistické regrese od 75 do 82 %. Ve studii jsou výsledky měřeny i na dalších subsetech a srovnána významnost rozdílů mezi ANN a logistickou regresí. Kiviluoto (1998) aplikuje samoorganizující se mapy (SOM) na případu predikce bankrotu. V souhrnu literatury upozorňuje na problém nízkého počtu dat, a také na příliš velké zastoupení zbankrotovaných firem, které neodpovídá realitě. V této souvislosti je uveden často používaný trik mnoha publikací, které se snaží odůvodnit použití kritéria minimalizace celkového počtu misklasifikací umělým vyvážením datového setu. Autor však uvádí, že v tomto případě dochází k plýtvání s daty zdravých firem, a současně dochází ke stanovení nesprávné klasifikační hraniční hodnoty, která musí být poté upravena, což je pro řadu klasifikátorů obtížné či nemožné. V případě malých datových setů, obvzláště pokud nejsou ověřeny cross validací, nemohou být rozlišeny rozdíly mezi výkonem klasifikátoru a chybami v datech. V těchto případech je reportovaný prediktivní výkon klasifikátoru přehnaný. Ve své studii používá autor 5000 finančních výkazů, ve kterých je poměr zdravých a upadlých firem stejný s poměrem v základní populaci. Dále se Kiviluoto (1998) věnuje problému klasifikačního kritéria. Používá obvyklé kritérium minimalizace celkového počtu nesprávných klasifikací, kromě něj však také Neyman–Pearsonovo kritérium, které spočívá v zafixování chyb typu I na určitou zvolenou (vyhovující) hodnotu, a poté je minimalizován počet chyb typu II. Neyman–Pearsonovo kritérium daleko
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
60
více odpovídá požadavkům reálných aplikací, neboť chyby typu I (klasifikace bankrotující firmy jako zdravé) s sebou obvykle nese mnohem vyšší náklady než chyby typu II. Kiviluoto (1998) fixuje procentní výskyt chyb typu I na hodnoty 25 a 30 %. K vyhodnocení klasifikačního výkonu je použita pětisložková cross validace. Kromě samoorganizujících se sítí je klasifikace implementována i dalšími metodami, zejména metodami diskriminační analýzy. Jo, Han a Lee (1997) porovnávají prediktivní výkon diskriminační analýzy, case-based forcasting systému a neuronových sítí na případu predikce bankrotu. Použitá neuronová síť je obvyklého typu dvouvrstvé MLP sítě, s počtem 1–(2n + 1) skrytých neuronů, kde n je počet neuronů vstupní vrstvy. Aktivační funkcí je sigmoidální funkce, na vstupu bylo použito 12 typů vstupů 9–20 finančních ukazatelů. Učící koeficient nastaven na 0,5, moment na 0,9. Data tvoří vyvážený set finančních ukazatelů korejských firem z období 1991–1993. Datové sety rozděleny na rok (nebo dva roky) použitý pro trénování a následující rok pro predikci. Výsledky jsou vyhodnoceny kritériem klasifikační přesnosti. Průměrná klasifikační přesnost všech tří srovnávaných metod se pohybuje od 81,5 do 83,8 %, neuronové sítě vykázaly nejvyšší prediktivní výkon. Kumar, Krovi a Rajagopalan (1997) publikují komparativní studii hybridních genetických klasifikátorů, neuronových sítí a statistických metod ve finanční doméně. Autoři upozorňují na omezující předpoklady statistických metod (normalita a homogenita rozptylu a kovariance dat) a uvádí výhodu uměle-inteligenčních přístupů netrpících uvedenými omezeními. Autoři aplikují dvouvrstvé backpropagation neuronové sítě, se sigmoidální aktivační funkcí, počtem skrytých neuronů od 0, 75p do 2p + 1, kde p je počet neuronů vstupní vrstvy, nejlepších výsledků dosáhla síť s 10 skrytými neurony. Počet vstupních proměnných byl pomocí pretestu Fisherovou lineární diskriminační analýzou zredukován z původních 14 na 7 nejlépe diskriminujících proměnných. Výstupní vrstva obsahuje jeden neuron pro binární klasifikaci. Výsledky jsou měřeny klasifikační přesností. Ve studii je potvrzena hypotéza lepšího klasifikačního výkonu v případě použití genetických algoritmů. Back, Laitinen a Sere (1996) využívají lineární diskriminační analýzu, logistickou regresi a genetické algoritmy jako selekční modely k empirickému výběru prediktivních proměnných pro neuronové sítě na případu predikce úpadku. Zároveň jsou tyto modely ověřeny i jako modely prediktivní. Data obsahují 37 finských výrobních firem v úpadku v období 1986–1989, k nim bylo vybráno 37 firem přeživších. Sadu prediktivních proměnných tvoří 31 ukazatelů likvidity, spolehlivosti a rentability. Výsledky ukazují, že pro predikci úpadku jsou určující zejména ukazatele likvidity, které byly zahrnuty ve všech výše uvedených modelech a letech (1 rok, 2 roky a 3 roky) před úpadkem. V případě dat jednoho roku před úpadkem byly dominantními ukazateli pro všechny modely ukazatele likvidity, 2 roky před úpadkem pro diskriminační analýzu ukazatele spolehlivosti, pro logistickou regresi ukazatele rentability a pro genetické algoritmy ukazatele likvidity. Tři roky před úpadkem pro všechny modely ukazatele likvidity. Autoři však uvádí, že v původní sadě prediktivních proměnných mají ukazatele likvidity hlavní zastoupení (19), zatímco ostatní
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
61
mají zastoupení menšinové (6). Kromě toho jsou ukazatele likvidity současně ukazateli dalších charakteristik finančního hospodaření. Pro ověření výkonu neuronové sítě byla data rozdělena do trénovacího setu s počtem 36 vzorků a testovacího setu s 38 vzorky. V trénovacím setu bylo 18 firem v úpdaku a 18 přeživích firem s daty za 1, 2 a 3 roky před úpadkem. Bylo ověřeno 9 modelů dopředných neuronových sítí se vstupy vybranými výše uvedenými metodami. Výstupem sítě je neuron s binárním kódováním přeživší/upadlá firma, bylo ověřeno několik skrytých vrstev, ve finále byla použita síť s jednou skrytou vrstvou se 7–12 neurony. Výsledky jsou měřeny jednak klasifikační přesností a jednak procentem výskytu chyb typu I (klasifikace upadlé firmy jako zdravé) a typu II (opak). Ověřeny byly kromě neuronových sítí jakožto prediktivního modelu také samotné selekční modely. Na datech 1 rok před úpadkem dosáhla nevyššího prediktivního výkonu neuronová síť s proměnnými vybranými genetickými algoritmy (přesnost 97 %). Na datech 2 roky před úpadkem byla diskriminační analýza nejlepším prediktivním modelem s přesností 77 %, a na datech 3 roky před úpadkem vykázal nejlepší výkon (přesnost 84 %) stejný prediktivní i selekční model jako na datech jednoročních. Jo a Han (1996) integrují neuronové sítě, case-based forcasting a diskriminační analýzu za účelem zpřesnění predikce bankrotu. Architektura integrované neuronové sítě je dvouvrstvá, obvyklá dopředná síť, sigmoidální aktivační funkce, normalizované vstupy v intervalu 0–1, výstupní vrstva ve dvou variantách: jeden výstupní neuron oproti dvěma výstupním neuronům. Data představují korejské firmy, které zbankrotovaly v období 1991–1993, v roce 1991 31 případů, v roce 1992 a 1993 99, resp. 141 případů. Data jsou podle shody v předmětu podnikání doplňena firmami přeživšími tak, aby bylo dosaženo vyváženého setu. Počet vstupních proměnných představovaných finančními ukazateli je 20 vybraných dvěma selekčními technikami (stepwise selection, t-test). Jsou použity tři sety s různými finančními ukazateli. Data jsou dále rozdělena do tří experimentálních setů – první používá rok 1991 pro učení a rok 1992 pro predikci, druhý set 1992 učení/1993 predikce, třetí 1991–1992 učení/1993 predikce. S dvěma metodami selekce vstupů, dvěma úrovněmi významnosti výběru vstupů, třemi typy datových setů a třemi typy sestavení učícího a testovacího setu s proměnlivou časovou periodou je nagenerováno a ověřeno celkem 36 experimentálních datových setů. Kritériem klasifikační přesnosti jsou hodnoceny jak samostatné modely diskriminační analýzy, neuronových sítí, case-based forcasting systémů, tak poté integrovaný systém. Významnost rozdílů je ověřena párovým t-testem, metodou ANOVA a dalším neparametrickým testem. Přesnost samostatných modelů se typicky pohybuje mezi 80–84 %, nejlepších výsledků dosáhly neuronové sítě. Podstatou integrovaného modelu je využití predikovaných hodnot neuronové sítě, diskriminační analýzy a CBFS jako nového vstupu. Výkonnost integrovaného modelu ve výsledku předčila výkon samostatných modelů. Lee, Han a Kwon (1996) navrhují hybridní modely neuronových sítí podporovaných MDA (Multivariate Discriminant Analysis), ID3 metodou a SOFM (Self Organizing Feature Map) sítěmi. Data tvoří vzorek 83 korejských firem v úpadku a k nim vybráných 83 firem přeživších v období 1979–1992, celkem 166 vzorků.
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
62
Trénovací/testovací set je rozdělen na tři skupiny – 66/100, 96/70, 126/40 vzorků. Data z prvního období jsou použita pro tvorbu modelu, data z následujícího období pro test predikce. Vstupních proměnných je 57, jedná se o finanční ukazatele použité v předchozích studiích. Jejich počet je v jednotlivých modelech redukován (10, 17, 18 v případě MDA, 7, 7, 9 v případě ID3, 10, 18, 17 v případě MDA a neuronových sítí, 7, 7, 9 v případě ID3 a neuronových sítí). Autoři diskutují vlastnosti samostatných statistických metod, v případě často aplikované MDA zdůrazňují omezující předpoklady metody – normální rozložení každé z klasifikačních tříd, identické kovarianční matice každé ze tříd a znalost průměrných hodnot dimenzí, kovariančních matic a pravděpodobností misklasifikace. Zároveň dodávají, že předpoklad normality bývá u dat finančního charakteru často porušen. Navržený hybridní model v první fázi pomocí SOM sítí provádí shlukovou analýzu a až v druhém kroku jsou na získaných clusterech z první fáze aplikovány supervised neuronové sítě. Architektura v případě experimentu s MLP neuronovými sítěmi je dvouvrstvá s počtem skrytých neuronů rovným počtu vstupních neuronů, učící algorimtus obvyklý backpropagation. V případě MDA a neuronových sítí a ID3 a neuronových sítí je architektura podobná, použito je 7, 9, 10, 17 a 18 skrytých neuronů, výstupní vrstvu tvoří vždy dva neurony. Výsledky jsou hodnoceny klasifikační přesností a nejvyššího klasifikačního výkonu dosáhla SOFM síť s podporou MDA, průměrný klasifikační výkon 84 %. Naopak nejhorších výsledků dosáhlo samostatné použití MDA. Leshno a Spector (1996) ověřují výkon neuronových sítí v predikci bankrotu s různým rozsahem a sestavením dat, s různými technikami učení a s různým počtem trénovacích iterací, a dále porovnávají výkon s tradiční Altmanovou diskriminační analýzou v podobě Z-score modelu. Data sestávají z 88 firem za tři roky (”rok 0”: rok bankrotu, ”rok − 1”: rok před bankrotem, ”rok − 2”: dva roky před bankrotem), vyvážený set 44 firem zkrachovalých a 44 přeživších v období 1984–1988, zdrojem dat databáze Compustat. Data rozdělena do trénovacího a testovacího setu pro všechny tři roky, například v ”roce 0” (rok bankrotu) 22 případů zkrachovalých firem jak v trénovacím tak i v testovacím setu, k nim rovněž 22 případů přeživších firem. První sestavení dat ověřuje předpoklad, že nejvíce informací pro predikci je obsaženo v roce bankrotu (”rok 0”). Trénovací set v tomto případě obsahuje pouze data z ”roku 0”. Druhé sestavení ověřuje předpoklad, že nejvíce informací pro predikci je obsaženo v tom roce, ve kterém se provádí predikce. Trénovací set je sestaven třikrát, zvlášť pro každý rok. Třetí sestavení ověřuje předpoklad, že všechny roky před bankrotem obsahují validní informaci o bankrotu. Trénovací set obsahuje data ze všech tří let. Modely byly poté ověřeny na všech třech testovacích setech zvlášť z každého roku před bankrotem. Výsledky (měřené kritériem klasifikační chyby se zohledněním chyb typu I a II) ukazují, že nejlepšího prediktivního výkonu dosáhlo třetí sestavení (21% chybovost celkově, 23% chybovost – chyby typu I, 20% chybovost – chyby typu II), a to na všech třech testovacích setech, resp. predikci v roce bankrotu, rok a dva roky před bankrotem. Autoři uvádí závěr, že všechny tři roky před událostí bankrotu obsahují informace vedoucí k predikci bankrotu. Zároveň se však potvrdil předpoklad, že rok před bankrotem obsahuje víc
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
63
informace k predikci ve srovnání s předcházejícími roky. Dílčím závěrem ze získaného výsledku je i úspěch třetího sestavení díky většímu počtu vzorků oproti prvním dvěma sestavením. Dále byly ověřeny různé architektury/modely (základ MLP síť) neuronové sítě a různý počet trénovacích iterací (50–300, nejlepší výsledky na testovacím setu 100 iterací). V případě počtu iterací autoři uvádí očekávatelný závěr, že při vyšším počtu trénovacích iterací dochází k přetrénování neuronové sítě, memorování trénovacího setu, se související ztrátou klasifikačního výkonu na testovacím setu. Predikce neuronové sítě byla porovnána také s Altmanovým Z-score modelem, který vykázal horší výsledky. Neuronová síť na daném testovacím setu vykázala 9% chybovost (celkově i typ I a II), zatímco Altmanův model mezi 20–30 % (celkově i typ I a II). Boritz a Kennedy (1995) zkoumají efektivnost klasifikace různých modelů neuronových sítí na případu predikce bankrotu. Používají dva přístupy k trénování neuronových sítí – backpropagation a Optimal Estimation Theory. V rámci prvního z uvedených přístupů testují modely backpropagation, Functional Link Backpropagation With Sines, Pruned Backpropagation a Cumulative Predictive Backpropagation. Výsledky neuronových sítí jsou porovnány s tradičními statistickými metodami. Architektura neuronových sítí je omezena na dvouvrstvou síť s počtem skrytých neuronů rovným počtu neuronů vstupních. Jsou testovány tři sety vstupních proměnných – proměnné Altmanova modelu, proměnné Ohlsonova modelu a poté jejich kombinace. Data pochází z období 1971–1984, 171 zkrachovalých firem a k nim ze stejného období z databáze Compustat II přiřazených 6153 přeživších firem. Dvě třetiny dat byly vyhrazeny na učící set, zbývající třetina na testovací set, poměr zbankrotovaných/přeživších firem identický se základním setem. Vstupní data byla předzpracována transformací každé vstupní proměnné do intervalu 0–1. Učení neuronové sítě bylo prováděno po dobu 5000 epoch, byly použity dvouvrstvé neuronové sítě s počtem skrytých neuronů 5, 9 a 13 pro všechny výše uvedné typy. Výsledky jsou vyhodnocení klasfikační přesností včetně frekvence výskytu chyb typu I (klasifikátor označuje firmu jako zdravou, firma ale reálně krachuje) a typu II (klasifikátor označuje firmu jako bankrotující, firma ale reálně bez finančních potíží). Dále jsou výsledky hodnoceny ukazatelem zohledňujícím různé náklady chybné klasifikace v případě chyb typu I a II – ukazatel vypočten pro tři úrovně nerovnosti nákladů chybné klasfikace – typ I je dvacetkrát nákladnější než typ II, opačná situace a situace rovnosti nákladů. Tímto výpočtem autoři řeší problém odlišné tolerance nákladů chyb typu I a II různými skupinami analytiků. Jako jedna z mála studií tak poskytuje detailnější analýzu klasfikačního výkonu. Autoři dochází k závěru, že výkon jednotlivých modelů neuronových sítí se liší v poměru chyb typu I a II, nejnižší výskyt chyb typu I vykázala Optimal Estimation Theory, avšak za cenu nejvyššího výskytu chyb typu II. Naopak backpropagation neuronová síť vykázala nejnižší výskyt chyb typu II za cenu vyššího výskytu chyb typu I. Lacher a kol. (1995) za pomoci Cascade-Correlation neuronové sítě predikují finanční zdraví firmy. Data čerpají z databáze Compustat pro výrobní firmy z období 1970–1989. Datový set je nevyvážený – 94 ohrožených firem oproti 188 bez-
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
64
problémovým podnikům, zařazení firmy je určeno posouzením auditora. Data jsou pro každý podnik za čtyřleté období – rok hodnocení auditorem a tři předcházející fiskální roky. Vstupní proměnné tvoří finanční ukazatele Altmanova Z-score modelu. Výsledky neuronové sítě jsou srovnány s výsledky diskriminační analýzy (MDA), byť autoři udávají důvody snižující relevantnost daného srovnání. Prediktivní výkon je vyhodnocen kritériem klasifikačních chyb pro neuronovou síť a Altmanův model, rozlišen je první a druhý typ chyby. Klasifikační přesnost Altmanova modelu se pohybuje od 70 do 90 % dle roku před identifikací finančního problému, klasifikační přesnost neuronové sítě se pohybuje od 84 do 94 %. Altman, Marco a Varetto (1994) ve své studii porovnávají prediktivní výkon lineární diskriminační analýzy a neuronových sítí v predikci finanční tísně více než 1000 italských firem v období 1982–1992. Obě metody dosáhly přibližně shodných výsledků s klasifikační přesností přes 90 % na testovacím setu. V modelu je použito dvoustupňového hodnocení, v prvním stupni jsou firmy vyhodnoceny jako zdravé vs. problémové, v druhém stupni je míra finanční tísně specifikována do dalších dvou stádií. Z několika provedených experimentů lze se zaměřením na použité typy neuronových sítí jmenovat třívrstvou síť s 10 vstupy, 10 neurony v první skryté vrstvě, 4 neurony v druhé skryté vrstvě a jedním výstupním neuronem, 1000 trénovacích cyklů, 808 vzorů. V dalším testu byla pro trénování vícevrstvé sítě použita data z období T−3 a testovací set sestával z dat z období T−1. Podobně jako v předchozím případě byla použita třívrstvá síť s konfigurací 15–15–6–1, počet trénovacích cyklů 2000. Autoři dále upozorňují na problém trénování komplexní sítě, s častým výskytem oscilací při trénování, obtížnou konvergencí a nezřídka též s problémem přetrénování. Navrhují komplexní síť rozdělit do několika menších propojených sítí. Tsukuda a Baba (1994) zkoumají prediktivní výkon dvouvrstvé neuronové sítě na případu predikce bankrotu japonských firem s použitím finančních dat rok a tři roky před bankrotem. V textu uvádí, že zhoršení finanční situace vedoucí k bankrotu se projevuje v období tři roky před samotným úpadkem. Neuronové sítě autoři učí tradičním algoritmem backpropagation, separátně jsou použita dvoje finanční data, společností zapsaných v Stock Exchange a společností nezapsaných. V prvním případě je použito 29 převážně výrobních firem upadlých v rozpětí let 1970–1990 s finančními daty tři roky a jeden rok před bankrotem. Datový set je vyvážený, k 29 upadlým firmám je vybráno podobných 29 firem přeživších. Trénovací set tvoří 24 párů, zbytek tvoří testovací set. Původních 70 finančních ukazatelů určených pro predikci bylo redukováno prostřednictvím testu statistické významnosti a shlukovou analýzou do osmi skupin. Výstup neuronové sítě je představován jedním neuronem, vzorky jsou kódovány s hodnotou 1 pro upadlou firmu, 0 pro přeživší, na výstupu je napevno nastavena hraniční hodnota 0,5 oddělující obě třídy. Ve skryté vrstvě byly ověřeny tři varianty počtu skrytých neuronů. Vliv počátečních vah, které jsou generovány náhodně a které ovlivňují výslednou podobu klasifikátoru, je kontrolován deseti trénovacími a ověřovacími pokusy. Podobná metodika experimentu je zvolena i v případě nezapsaných firem, rozdíl spočívá zejména ve velikosti datového setu, který čítá 56 zbankrotovaných firem a jednoho či dvou protějšků přeživších, a dále
3.2
Aplikace neuronových sítí v predikci bankrotu a finanční tísně
65
v počtu devíti prediktivních proměnných. Klasifikační výkon je hodnocen procentem chyb typu I a typu II a v případě zapsaných firem dosahuje u většiny experimentů nulových hodnot. Wilson a Sharda (1994) publikují jednu z prvních ucelených studií zabývající se aplikací neuronových sítí v predikci bankrotu. Výkon neuronové sítě je porovnán s diskriminační analýzou, která však klade omezující předpoklad normálního rozložení vstupních proměnných. Neuronové sítě toto omezení nemají. Vstupní proměnné neuronové sítě jsou identické se vstupními proměnnými Altmanova Z-score modelu. Vzorek firem tvoří 129 firem z období 1975 až 1982, z nichž 65 tvoří zbankrotované firmy a 64 přeživší. Predikce je založena na ukazatelích rok před bankrotem. K vytvoření neuronové sítě je použit trénovací set, k ověření testovací set, oba vygenerované z původních dat. Autoři uvádí, že neměli k dispozici informaci o proporci zbankrotovaných a přeživších firem v daném období, proto ověřili trénovací i testovací set s poměrem 50 : 50, 80 : 20 a 90 : 10. Tyto sety vytvořili pomocí techniky Monte Carlo Resampling. Poslední dva poměry uvádí jako pravděpodobně nejbližší realitě. Architektura neuronové sítě je dvouvrstvá, s 10 skrytými neurony a 2 výstupními neurony pro každou ze dvou tříd – binární kódování. Hraniční hodnota na každém ze výstupních neuronů nastavena na 0,5, v případě, že oba neurony dosáhly hodnoty ve stejném intervalu (0–0,5 vs. 0,5–1), je klasifikace považována za nekorektní. V trénovacím procesu byla tolerance na výstupních neuronech nastavena z počátku na 0,1, poté uvolněna. Prediktivní výkon je měřen pomocí kritéria klasifikační přesnosti na trénovacím setu (učení) i na testovacím setu (generalizace). Neuronové sítě vykázaly přesnost přes 90 % a jejich výkon je dle neparametrického Wilcoxonova testu statisticky významně vyšší než u diskriminační analýzy. Autoři dále detailně analyzují prediktivní validitu při různých proporcích zbankrotovaných a přeživších firem (s. 8–13). Fletcher a Goss (1993) aplikují standardní backpropagation neuronové sítě na případu predikce bankrotu a srovnávají jejich výsledky s metodou logistické regrese. Data tvoří vyvážený set pouhých 18 zbankrotovaných firem, k nimž jsou do páru přiřazeny podobné firmy bez finančních potíží. Výstupní kódování je zvoleno 1 pro firmy, které zbankrotovaly, 0 pro firmy přeživší. Autoři uvádí, že hraniční hodnota výstupního neuronu s rozsahem 0–1 je obvykle nastavena na 0,5, nicméně konkrétní hodnota závisí na relativních nákladech nekorektní klasifikace dané aplikace. Sami používají hraniční hodnoty výstupního neuronu od 0,25 do 0,75. Vstupními proměnnými jsou tři finanční ukazatele. Vzhledem k malému množství dat je použita metoda cross validace. Architekturu neuronové sítě je dvouvrstvá, obvyklá backpropagation síť. V publikaci je diskutován Kolmogorův existenční teorém, který udává, že jakákoliv souvislá funkce může být implementována dvouvrstvou neuronovou sítí s počtem skrytých neuronů 2n + 1, kde n je počet neuronů vstupní vrstvy. Argumentují však i náchylností takové sítě k přetrénování vedoucí ke ztrátě generalizace, a omezují proto počet neuronů skryté vrstvy na interval s horní √ hranicí rovné Kolmogorovu teorému a s dolní hranicí počtu skrytých neuronů na 2 n + m, kde m je počet výstupních neuronů. Dolní mez ve studii vykázala přesnější klasifikaci.
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
66
Výsledky jsou měřeny kritériem klasifikační přesnosti, pro hraniční hodnoty 0,55; 0,65 a 0,75 dosáhly neuronové sítě přesnosti přes 90 % a v posledním případě 100 %, logistická regrese dosáhla hodnot nižších. Udo (1993) aplikuje neuronové sítě na případu predikce bankrotu firem rok a dva roky před bankrotem. Autor uvádí omezující předpoklady použití regresní metody (předpoklad normality ve vztahu proměnných), které jsou v reálných datových setech obvykle porušeny. Neuronové sítě těmito předpoklady netrpí, navíc jsou schopny tolerovat chyby v datech a chybějící hodnoty. V publikaci je výkon obou metod porovnán. Obvyklá backpropagation neuronová síť s 16 vstupními finančními ukazateli (neurony), s třemi skrytými vrstvami a jedním výstupním neuronem byla trénována na finančních datech 150 zbankrotovaných a 150 přeživších firem z období 1989–1990. Testovací set je rovněž vyvážený a obsahuje po 50 firmách z obou tříd. Ověřena byla rovněž architektura se dvěma skrytými vrstvami, ta však vykázala horší výsledky. Hraniční hodnota výstupního neuronu byla nastavena pevně na hodnotu 0,3, vyšší skóre představovalo indikaci bankrotu. Učící koeficient byl nastaven na 0,9. Neuronová síť vykázala oproti regresi (která však použila pouze 6 vstupních finančních ukazatelů) ve většině případů vyšší přesnost, avšak autoři udávají, že významnost rozdílu výsledků nemohli změřit t-testem z důvodu nedostatku dat. Přesnost neuronové sítě se pohybuje mezi 82 a 92 %, zatímco v případě regrese mezi 72 a 80 %. U obou modelů přesnost klesá s použitím starších dat pro predikci.
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
Kapitola obsahuje souhrn 56 aplikací metod umělé inteligence ve finančních oblastech, které se zaměřením disertační práce souvisí, avšak nejsou zcela předmětem jejího zkoumání. Jedná se buď o aplikace jiných technologií umělé inteligence než vícevrstvých perceptronových neuronových sítí učených algoritmem zpětného šíření chyb, anebo o jiné oblasti aplikace než predikce bankrotu či finanční tísně. Obsah této podkapitoly tak dotváří přehled aplikací metod umělé inteligence ve finanční oblasti za posledních cca. 15 let. Mezi typické další uměle inteligenční technologie zde popsané patří ostatní typy neuronových sítí, zejména samoorganizující se mapy, dále genetické algoritmy, SVM – Support Vector Machines, Case-based Reasoning systémy aj. na případech nejen predikce bankrotu, ale i hodnocení úvěryschopnosti, predikce tržeb, vývoje indexů či směnných kurzů, hodnocení akcií atp. Každá zde uvedená publikace je popsána přehledově se zdůrazněním základního zaměření výzkumu a použité technologie. Publikace jsou seřazeny od nejnovějších (přibližně od poloviny roku 2007) po nejstarší (1994) tak, aby byl zřetelný vývoj v čase. Chavarnakul a Enke (2007) aplikují neuronové sítě GRNN (Generalized regression neural networks) v predikci vývoje cen akcií. Jejich výsledky ukazují, že integrace neuronových sítí navyšuje prediktivní výkon ve srovnání s tradičními
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
67
metodami (VAMA – Volume adjusted moving average, EMV – Ease of movement a dalšími). Hua a kol. (2007) aplikují SVM – Support Vector Machines na problému predikce bankrotu, jejichž výkon překonal neuronové sítě, lineární diskriminační analýzu a logistickou regresi. Součástí studie je i návrh a aplikace pravidla IBDR (Integrated Binary Discriminant Rule), jehož použití vykázalo vyšší prediktivní výkon než konvenční SVM. Jiao, Syau a Lee (2007) aplikuje fuzzy adaptivní síť (FAN – Fuzzy Adaptive Network) na případu hodnocení malých finančních organizací. Výhodou tohoto přístupu je možnost práce s vágními pojmy. Zhu a kol. (2007) navrhují systém SOLAR (Self-organizing Learning Array) jakožto klasifikační a predikční nástroj. SOLAR je dvou nebo třídimenzionální pole identických neuronů s dynamicky rekonfigurovatelnými spojeními. V této studii je systém aplikován na problémech hodnocení akcií, predikce bankrotu a hodnocení finanční situace. Výkon je měřen kritériem klasifikační přesnosti. Bennell a kol. (2006) aplikují neuronové sítě na případu podnikového a státního hodnocení (tzv. sovereign ratings). Data obsahují 1383 ročních zjištění o dlouhodobých zahraničních měnových hodnoceních, která byla vydána 70 subjektům jedenácti hodnotícími agenturami (USA, EU, Kanada, Japonsko) v letech 1989–1990. Neuronové sítě vykázaly lepší prediktivní výkon oproti klasickým ekonometrickým metodám. Chang, Liu a Wang (2006) aplikují hybridní model na případu predikce tržeb, model integruje samoorganizující se neuronové sítě (Self Organization Map, SOM), genetické algoritmy a Fuzzy Rule Base (FBR). Podle autorů ukazují experimentální výsledky efektivitu hybridního modelu ve srovnání s jinými tradičními přístupy. Chen a Shih (2006) porovnávají SVM (Support Vector Machines) s backpropagation neuronovými sítěmi na případu hodnocení úvěryschopnosti. První z uvedených technologií vykázala lepší prediktivní výkon měřený přesností o hodnotě 85 %. Ince a Trafalis (2006) navrhují dvoustupňový prediktivní model zahrnující parametrické (ARIMA, VAR) i neparametrické techniky (SVR a neuronové sítě) na případu předpovědi směnného kurzu. Kim (2006) popisuje problém natrénování neuronové sítě v případě velkého počtu dat a navrhuje metodu aplikace genetického algoritmu pro výběr vzorů trénovacího setu neuronové sítě v oblasti finančního dolování dat. Metodu aplikuje na případu analýzy akciového trhu – ukazatele změny korejského akciového indexu KOSPI z 2348 obchodovaných dnů v období ledna 1991 do prosince 1998. Ko a Lin (2006) v rámci predikce finanční tísně aplikují evoluční přístup s modularizovanými evaluačními funkcemi. Součástí studie je též extrakce nejdůležitějších finančních ukazatelů pro predikci. Použity genetické algoritmy a PSO – Practicle Swarm Optimization spolu s tradičními statistickými metodami a neuronovými sítěmi dohromady v modulárním systému.
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
68
Tsakonas a kol. (2006) aplikují na problému predikce bankrotu neuronové sítě ve spojení s bezkontextovou gramatikou řízeným genetickým programováním. Tento přístup umožňuje interpretovat strukturu neuronové sítě prostřednictvím pravidel podobných pravidlům expertních systémů. Enke a Thawornwong (2005) představují techniku získávání informací pro data mining a ohodnocení prediktivních vztahů řady finančních a ekonomických proměnných. Dále jsou na případu predikce akciového indexu S & P 500 aplikovány neuronové sítě, učené metodou early stopping s cílem zachování generalizovatelnosti. Min a Lee (2005) aplikují SVM (Support Vector Machines) na problému predikce bankrotu a srovnávají prediktivní výkon s diskriminační analýzou, logistickou regresí a třívrstvými backpropagation neuronovými sítěmi. Experimentální výsledky ukazují, že SVM překonává ostatní zmíněné metody. Použití neuronových sítí autoři kritizují z důvodu absence explanační schopnosti, dále z důvodu náchylnosti k přetrénovaní sítě a související ztrátě generalizovatelnosti a v neposlední řadě též problematické nalezení optimální síťové architektury. Pérez-Rodríguez, Torra a Andrada-Félix (2005) porovnávají prediktivní výkon modelu STAR (Smooth Transition Autoregression) a neuronových sítí na případu modelování nelineárního chování španělského akciového indexu Ibex-35 v krátkodobém i dlouhodobém horizontu. Yim a Mitchell (2005) porovnávájí prediktivní výkon hybridních neuronových sítí, konvenčních neuronových sítí, tradičních statistických metod, hierarchické shlukové analýzy a samoorganizujících se map (SOM) na případu predikce rizika státní úvěryschopnosti. Podstatou hybridního modelu je kombinace neuronových sítí a statistických metod. Kim a kol. (2004) zkoumají proces trénování klasifikátorů na případu včasného varování před ekonomickou krizí. V úvodu autoři upozorňují na problém trénování klasifikátorů, neboť počet dostupných dat představujících krizi je málo. Dalším problémem je stanovení citlivosti klasifikátoru. Mezi zkoumané klasifikátory jsou zařazeny logistická diskriminace (logistic discrimination), rozhodovací stromy, SVM (Support Vector Machines), neuro-fuzzy model a neuronové sítě. Empirický test je proveden na datech korejské ekonomické krize z roku 1997. Neuronové sítě vykázaly nejvyšší prediktivní výkon, avšak autoři upozorňují na problém jejich přetrénování. Manzoni (2004) navrhuje a empiricky ověřuje dvoustupňový model predikce pravděpodobnosti úpadku euroobligací. Prediktivní výkon modelu je porovnán mj. i s obvyklou vícevrstvou backpropagation neuronovou sítí. Chen a Huang (2003) aplikují neuronové sítě a genetické algoritmy na případu klasifikace úvěryschoponsti s použitím vzorku 307 schválených a 383 zamítnutých úvěrů hodnocených patnácti vstupními atributy. Prediktivní výkon je hodnocen klasifikační přesností. Chen, Leung a Daouk (2003) používají pravděpodobnostní neuronovou síť na modelu predikce směru vývoje tržního indexu Taiwan Stock Exchange. Eakins a Stansell (2003) prozkoumávají možnost predikce v oblasti návratnosti investic pomocí neuronových sítí s ostatními prediktivními metodami.
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
69
Kim a Han (2003) upozorňují na problém velmi malého počtu studií, které by se zabývaly při finanční predikci kvalitativními daty vyjadřujícími rozhodnutí expertů. Ve své studii navrhují metodu dolování dat na bázi genetických algoritmů pro odhalení rozhodovacích pravidel z expertních kvalitativních rozhodnutí. Z výsledků studie vyplývá, že navržená metoda má vyšší přesnost než indukční učící metody a neuronové sítě. Nowman a Saltoglu (2003) porovnávají prediktivní výkon různých modelů vývoje úrokových sazeb s využitím parametrických (neuronové sítě, k-NN, a lokální lineární regrese) i neparametrických metod. Qi a Wu (2003) aplikují neuronové sítě na případu predikce směnného kurzu mezi americkým dolarem, japonským jenem, německou markou, britskou librou a kanadským dolarem v 1, 6 a 12měsíčním horizontu z období 1973–1997. Neuronová síť nedosáhla prediktivní přesnosti modelu Random Walk. Leigh, Paz a Purvis (2002) popisují predikci zvýšení indexu New York Stock Exchange Composite Index v 5denním horizontu. Výsledky ukazují, že zvolená metoda je lepší než náhodný odhad. Leigh, Purvis a Ragusa (2002) aplikují technologie umělé inteligence ve čtyřech na sebe navazujících experimentech z oblasti predikce ceny akcií. V prvním experimentu jsou aplikovány metody rozpoznávání vzorů, v druhém neuronové sítě, v třetím genetické algoritmy a v posledním metoda cross validace s kombinací experimentu A a B. Shin a Lee (2002) aplikují genetický algoritmus v oblasti predikce bankrotu, včetně možnosti extrakce pravidel z genetického algoritmu. Data tvoří 528 středně velkých výrobních společností (264 bezproblémové/264 problémové) v období 1995– 1997. Je použit dvoustupňový výběr vstupních proměnných, v první fázi výběr 55 proměnných pomocí faktorové analýzy, v druhé fázi výběr devíti proměnných. Výsledky jsou vyhodnoceny ve formě podobné keritériu klasifikační přesnosti, která se na testovacím setu pohybuje okolo 80 %. Back a kol. (2001) aplikují samoorganizující se neuronové sítě (SOM) v analýze kvantitativních a kvalitativních údajů ve firemních účetních výkazech. Výsledky jsou srovnány s metodami shlukové analýzy. Kanas a Yannopoulos (2001) porovnávají prediktivní výkon lineárních a nelineárních neuronových sítí s Dow Jones (DJ) a Financial Times (TM) indexem v oblasti predikce akciových výnosů, neuronové sítě poskytly nejpřesnější předpovědi. Kim a Han (2001) prezentují hybridní data mining model prediktivního hodnocení podnikových obligací. Model používá novou indexovací metodu systému CBR (Case-based Reasoning) shlukováním finančních dat. Neuronové sítě jsou ve studii využity ke generování centroidů ve shlucích. Shin a Han (2001) se zabývají implementací efektivních indexovacích metod na bázi indukčních technik v rámci Case-based reasoning (CBR) přístupu. Pracují s datovým setem 3886 korejských společností v letech 1991–1995, hodnoceny jsou
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
70
finanční ukazatele a odpovídající hodnocení National Information and Credit Evaluation bond rating agency. Tay a Cao (2001) aplikují SVM (Support Vector Machines) v úloze predikce finančních časových řad, výsledky srovnávají s backpropagation neuronovými sítěmi. SVM překonalo prediktivní výkon neuronové sítě. Prediktivní výkon je sledován v závislosti na volitelných parametrech modelu. Alam a kol. (2000) prezentují experimentální výsledky aplikace fuzzy clustering algoritmů a dvou samoorganizujících se map na případu klasifikace potenciálního úpadku bank. John, Balakrishnan a Fiet (2000) publikují první pokus o využití neuronových sítí k modelování vztahu mezi firemní strategií, finančními ukazateli a tvorbou firemního bohatství měřeného přidanou tržní hodnotou (MVA – Market Value Added). Klasifikační přesnost neuronové sítě na testovacím setu je 93 %. West (2000) aplikuje pět modelů neuronových sítí na případu hodnocení úvěryschopnosti, jsou použity vícevrstvé perceptronové sítě (MLP), mixture-of-experts, radial basis function (RBF), learning vector quantization a fuzzy adaptive resonance. Výkon je ověřen 10složkovou cross validací na dvou reálných datových setech. Dále jsou výsledky porovnány s tradičními metodami, lineární diskriminační analýzou, logistickou regresí, k-NN, kernel density estimation a rozhodovacími stromy. Výsledky jsou hodnoceny procentem neúspěšné klasifikace (credit scoring error), zároveň jsou však vypočteny i relativní náklady klasifikace s ohledem na různé náklady přijetí či zamítnutí úvěru. Nejvyššího prediktivního výkonu dosáhly neuronové sítě mixture-of-experts a sítě využívající RBF. V rámci tradičních statistických metod byla nejúspěšnější logistická regrese. Burgess a Refenes (1999) rozšiřují modelování časových řad neuronovými sítěmi ve finanční doméně o použití tzv. error feedback terms, jakožto prostředku pro modelování procesů, které mají částečně nebo úplně povahu klouzavého průměru namísto čisté autoregrese. Donato a kol. (1999) představují nový typ problému, predikci tzv. osobního bankrotu, autoři uvádí, že zejména v USA se jedná o fenomén nabývající na významu. Ve studii aplikují rozhodovací stromy a neuronové sítě na tomto případu s použitím dat z klientských kreditních karet – operace z měsíčních výpisů z účtu a denní platební transakce. Quah a Srinivasan (1999) aplikují neuronové sítě na případu hodnocení akcií, experiment je proveden nad daty z období 1993–1996, autoři však přes pozitivní výsledek aplikace ANN poukazují na nízký rozsah dat. Shin a Han (1999) aplikují přístup CBR (Case-Based Reasoning) ve spojení s genetickými algoritmy na případu hodnocení obligací. Autoři navrhují hybridní model využívající genetické algoritmy jakožto alternativní metody pro označení důležitosti atributů v získávání minulých případů. Shazly a Shazly (1999) aplikují hybridní systém kombinující neuronové sítě a genetické algoritmy k predikci tříměsíčního směnného kurzu britské libry, německé marky, japonského jenu a švýcarského franku.
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
71
Yang, Platt a Platt (1999) aplikují pravděpodobnostní neuronové sítě (PNN, Probabilistic Neural Networks) na případu predikce bankrotu v americkém průmyslu těžby ropy a zemního plynu. Autoři upozorňují na často využívané backpropagation neuronové sítě v predikci bankrotu i přes jejich řadu nevýhod, mezi kterými vyzdvihují nutnost použití validačního setu k předejití přetrénování sítě při jejím trénování, čímž vzniká ztráta na datech. Naproti tomu pravděpodobnostní sítě využívají veškerá dostupná data pro výstavbu modelu. Nejvyššího prediktivního výkonu dosáhly pravděpodobnostní neuronové sítě bez normalizace vzorků a Fišerova diskriminační analýza. Back, Sere a Vanharanta (1998) aplikují samoorganizující se sítě na případu strukturování velkého množství finančních informací více než 120 papírenských firem za dobu pěti let. Kuo a Xue (1998) aplikují modulární systém pro predikci tržeb, který implementuje principy fuzzy logiky a fuzzy neuronových sítí. Výsledky indikují, že modulární systém má schopnost vyšší přesnosti než konvenční statistické metody a neuronové sítě. Varettova (1998) komparativní studie tradičních statistických metod (lineární diskriminační analýzy) a genetických algoritmů realizuje experiment predikce bankrotu na vzorku 1920 finančně zdravých a 1920 finančně neduživých italských průmyslových firem z období 1982–1995. Výsledky lineární diskriminační analýzy mírně předčily výkon dosažený genetickými algoritmy. Davis, Massey a Lovell II (1997) navrhují prototyp expertní sítě – integrovaného modelu expertního systému a neuronové sítě na případu auditního hodnocení. Model umožňuje rozpoznávat vzory velkého počtu proměnných s četnými vzájemnými vztahy, které ani zkušený auditor není schopen vyjádřit sadou logických pravidel. Kim a Noh (1997) publikují komparativní studii prediktivního výkonu úrokových sazeb neuronovými sítěmi, case-based reasoning systémy a jejich integrovanými modely. Prediktivní výkon je porovnán mezi uvedenými a s modelem Random Walk. Predikce americké úrokové sazby byla výše uvedenými modely oproti Random Walk modelu přesnější, avšak žádný z modelů významně nepřekonal Random Walk model v predikci korejské úrokové sazby. Refenes a kol. (1997) ve své studi predikce finančních časových řad navrhují modifikaci Error Backpropagation procedury metodou Discounted Least Squares (DLS), která zohledňuje postupně se měnící vztah vstupu a výstupu. Ve studii je proveden kontrolovaný experiment a také aplikace predikce v oblasti akciového trhu. DLS metoda poskytuje lepší výsledky, v případě predikce akcií 30% snížení MSE. Desai, Crook a Overstreet (1996) porovnávají prediktivní výkon MLP neuronových sítí a statistických metod (lineární diskriminační analýzy a logistická regrese) v případu hodnocení úvěryschopnosti, využívají též modulární neuronové sítě (samostatné sítě pro různé případy). Na vstupu je použito 18 finančních proměnných, datová báze vychází ze záznamů tří úvěrových společností jihovýchodních
3.3
Ostatní aplikace metod umělé inteligence ve finanční oblasti
72
států USA v letech 1988–1991. Vyhodnocení provádí pomocí kritéria klasifikační přesnosti. Neuronové sítě vykázaly lepší výsledky než statistické metody. Glorfeld a Hardgrave (1996) popisují problém výběru vhodné architektury neuronové sítě pro klasifikaci na základě heuristických metod, které však nejsou efektivní a ne vždy poskytují optimální řešení. Výsledné architektury jsou tak příliš komplexní s náchylností k extrémnímu přizpůsobení trénovacímu setu, a tudíž ke ztrátě generalizovatelnosti. Autoři představují metodu systematického vývoje architektury neuronové sítě založené na postupném přidávání neuronů skryté vrstvy do okamžiku ztráty na klasifikačním výkonu, a dále selekce vstupních proměnných dle jejich vlivu na výstup sítě. Metoda je aplikována na vývoj sítě pro případ klasifikace úvěryschopnosti firem. Datový set sestává z 40 vzorků komerčních bankovních úvěrů, z nichž 19 bylo akceptováno a 21 zamítnuto. Vstupními proměnnými je 12 finančních ukazatelů vypočtených z účetních výkazů respondenta. Při tvorbě/testování modelu byla použita 10složková cross validace. Klasifikační výkon je sledován kritériem přesnosti. Hung, Liang a Liu (1996) integrují metodu APT (Arbitrage Pricing Theory) a neuronové sítě na případu složení investičního portfolia. Autoři uvádí, že použití samostatné neuronové sítě k řešení uvedeného problému je výpočetně značně náročné (uvádí příklad sítě s 10 000 neurony k analýze 100 akcií, z nichž každá má 100 period), a proto navrhují model integrovaný. V závěru publikace je k dalšímu řešení uveden návrh integrace s expertními systémy, které by na rozdíl od neuronové sítě umožnily podat vysvětlení výsledného řešení. Quah a kol. (1996) zkoumají možnost integrace neuronových sítí a expertních systémů s možností definice logických operátorů s chováním podobným úvaze experta. Stavební jednotkou jejich modelu je NEULONET (Neural Logic Network) s vytvořeným příkazovým řádkem založeným na pravidlech. Nástroj je použit k vytvoření prototypu expertního systému v budoucí aplikaci dluhopisů. Wittkemper a Steiner (1996) diskutují různé metody predikce akciového rizika s použitím finančních výkazů 67 německých společností v letech 1967–1986. Nejpřesnější predikce byly dosaženy neuronovými sítěmi s topologií optimalizovanou genetickými algoritmy. Wood a Dasgupta (1996) popisují aplikaci neuronových sítí v predikci MSCI U.S.A. kapitálového tržního indexu (Capital Market Index), výkon neuronových sítí překonal výkon referenčních statistických metod (multiple linear regression, autoregressive integrated moving average modeling). Chen, Mangiameli a West (1995) popisují problémy shlukové analýzy aplikované na finančních datech. Autoři aplikují na konkrétních finančních datech samoorganizující se mapy, které vykazují lepší výsledky ve srovnání s tradičními metodami shlukové analýzy. Serrano-Cinca (1995) popisuje systém pro podporu rozhodování pro stanovení finanční diagnózy na bázi samoorganizujících se map. Systém je porovnán s lineární diskriminační analýzou a s vícevrstvými perceptronovými neuronovými sítěmi (MLP).
3.4
Aktualizace za roky 2007 a 2008
73
Piramuthu, Shaw a Gentry (1994) upozorňují na neefektivnost gradientní metody používané při učení backpropagation neuronové sítě, neboť je pomalá a vyžaduje objemný trénovací set. Cílem jejich studie je představit modifikovaný učící algoritmus použitím Newton-Raphsonova algoritmu v rámci backpropagation procedury a MLP sítí. Na datech z úvěrové analýzy porovnávají tradiční gradientní metodu, Newton-Raphsonův algrotimus a hybridní model obou předchozích (označován jako SG-NR) i s tradičními statistickými metodami. Vstupními proměnnými je 12 kvantitativních ukazatelů na bázi cash-flow a 3 kvalitativní ukazatele. Výstupem je pět klasifikačních tříd představovaných pěti výstupními neurony, neuron s největší aktivací udává výslednou třídu. Je použita dvouvrstvá MLP síť s 10 neurony ve skryté vrstvě. Učící koeficient je se pohybuje okolo 0,25 a moment 0,9. V testu tradiční gradientní metoda vykázala problém s konvergencí. Dále byly k porovnání klasifikátorů použity dva reálné datové sety podobného charakteru jako set předchozí. Klasifikančí výkon byl hodnocen na základě přesnosti a na základě času a počtu epoch k dosažení předem specifikované úrovně chyby. Stoprocentní přesnosti dosáhly všechny neuronové sítě i statistické metody ID3 a NEWQ, ačkoliv autoři udávají, že je tento výsledek ovlivněn velikostí datového setu. Závěrem studie je, že Newton-Raphsonův algoritmus a hybridní model SG-NR vykázaly lepší výsledky než tradiční backpropagation procedura co do hodnocení přesnosti a rychlosti konvergence. Yoon, Guimaraes a Swales (1994) navrhují hybridní systém IFES (Integrated Finance Expert System) integrující pravidlový expertní systém a neuronové sítě s cílem predikce ceny firemních akcií na základě firemních finančních ukazatelů. Autoři v úvodu případové studie uvádí vlastnosti obou technologií, v případě expertních systémů je problémem sestavení znalostní báze expertem, v případě neuronových sítí ukrytí znalosti v síti vah bez reálné možnosti vysvětlení výsledku. IFES je podroben experimentu predikce na základě čtyř finančních ukazatelů na datovém vzorku 151 firem. Na testovacím setu o 75 firmách dosáhl klasifikační přesnosti 76 % a srovnán byl s multivariační diskriminační analýzou, která dosáhla přesnosti 63 %.
3.4
Aktualizace za roky 2007 a 2008
Součástí souhrnu publikací je i aktualizace původního souhrnu z roku 2007. V systému ScienceDirect byly vyhledány publikace aplikující neuronové sítě v predikci bankrotu a finanční tísně v letech 2007 a 2008 (hledání provedeno v červenci 2008 v rámci plné subskribce MZLU v Brně). Jedna z publikací (Nguyen, Shi a Quek (2008)) aplikovala ROC analýzu ve vyhodnocení klasifikačního výkonu a je zařazena do samostatné kapitoly Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC. Celkem je v této kapitole shrnuto třináct publikací, čtyři publikace nebyly v rámci přístupu MZLU do ScienceDirect dostupné. Alfaro a kol. (2008) aplikují alternativní metodu AdaBoost na případu predikce bankrotu. Podstatou metody je kombinace postupně několika základních klasifikátorů použitím různých verzí trénovacích setů. Prediktivní výkon modelu
3.4
Aktualizace za roky 2007 a 2008
74
je porovnán s tradičními neuronovými sítěmi na datech 1180 (590 přeživších a 590 zbankrotovaných) evropských firem v období 2000–2003 s použitím 16 prediktivních proměnných rok před bankrotem – finančních ukazatelů a také kvalitativních proměnných. 80 % dat je použito na tvorbu trénovacího setu, zbylých 20 % na testovací set. Neuronová síť byla vybrána testem klasifikační přesnosti podle měnícího se počtu neuronů od 1 do 20 jedné skryté vrstvy s deseti trénovacími pokusy na každou ověřovanou architekturu. Nejlepších výsledků dosáhla síť se 27 vstupními neurony (16 prediktivních vstupů obsahuje i kvalitativní proměnné kódované schématem 1 z N, čímž došlo ke zvýšení počtu vstupních neuronů), s 12 neurony skryté vrstvy a jedním neuronem výstupní vrstvy. Aktivační funkce ve vstupní vrstvě jsou lineární, ve skryté a výstupní vrstvě sigmoidální, chybová funkce součet čtvercových odchylek, učící algoritmus backpropagation s adaptivní změnou učícího koeficientu od 0,3 do 0,01 a momentem 0,3. Učení bylo ukončeno po 1868 epochách. Prediktivní výkon je vyhodnocen jednak kritériem klasifikační přesnosti a jednak procentním výskytem chyb typu I a II. Kombinovaný model vykazuje oproti samostatné neuronové síti snížení chyby generalizace o cca. 30 procent a podle kritéria klasifikační přesnosti dosahuje pouze 9% chybovosti na testovacím setu. Boyacioglu Kara a Baykan (2008) aplikují neuronové sítě, SVM (Support Vector Machines) a statistické metody (diskriminační analýza, shluková analýza K-means a logistická regrese) na případu bankovního úpadku v Turecku. K predikci je použito dvaceti (resp. po redukci devíti) finančních ukazatelů v roce bankrotu a čtyř datových setů s různými charakteristikami 21 zbankrotovaných bank a 44 přeživších v období 1997–2004, které jsou následně rozděleny do trénovacího a testovacího setu. V rámci neuronových sítí jsou aplikovány vícevrstvé perceptronové sítě (MLP), samoorganizující se mapy, Competitive Learning a Learning Vector Quantization. Architektura MLP neuronové sítě s pěti skrytými vrstvami po 30 neuronech a se sigmoidální aktivační funkcí v každé vrstvě byla nalezena kombinací řady parametrů a s postupným přidáváním skrytých neuronů i vrstev do stavu stagnace prediktivního výkonu. Podle kritéria klasifikační přesnosti dosahují nejlepších výsledků vícevrstvé perceptronové sítě (MLP) a Learning Vector Quantization, v prvním případě 96% přesnost na testovacím setu. Chen a Du (2008) aplikují neuronové sítě a techniky dolování dat – shlukové analýzy na případu predikce finanční tísně s použitím finančních i nefinančních ukazatelů. Výsledky uměle-inteligenčních technologií jsou srovnány s tradičními statistickými metodami. Autoři kromě jiného upozorňují na problém záměrné manipulace se zveřejňovanými finančními výkazy, čímž může v krátkodobém horizontu dojít ke skrytí finanční tísně. Data tvoří 68 taiwanských firem z období 1999–2006, datový set je vyvážený s 34 firmami ve finanční tísni a 34 přeživšími firmami. Prediktivní proměnné jsou vybrány na základě předchozích studií, z původních 37 proměnných bylo po aplikování faktorové analýzy použito 13 proměnných. Experiment ověřuje vliv stáří dat na přesnost predikce, konkrétně jsou použita data 2, 4, 6 a 8 období (sezón) před objevením finanční tísně. Trénovací set tvoří 80 % dat, zbývající data tvoří testovací set. Výsledky jsou měřeny klasifikační přesností, procentním
3.4
Aktualizace za roky 2007 a 2008
75
výskytem chyb typu I (nesprávná klasifikace zdravé firmy jako upadlé) a typu II. Z výsledků vyplývá, že při opakovaném použití faktorové analýzy dochází ke snižování přesnosti klasifikace, dále čím novější data jsou pro predikci použita, tím přesnější jsou výsledky (82 % u dvousezónního období), zatřetí faktorová analýza zvýšila chyby typu II, a v neposlední řadě neuronová síť vykázala přesnější klasifikaci než shluková analýza. Ding, Song a Zen (2008) navrhují model predikce finanční tísně aplikací SVM (Support Vector Machines). Výkonnost modelu je srovnána s konvenčními statistickými metodami (MDA, logit) a s backpropagation neuronovými sítěmi, při jejichž použití autoři poukazují na problém přetrénování, a dále na obtížné stanovení všech parametrů sítě. Data tvoří celkem 250 vzorů vyvážených mezi přeživší a upadlé čínské firmy v období 2001–2004 s rozdělením 50 : 50 do trénovacího/testovacího setu a s transformací vstupů do intervalu (−1, 1). Predikce je založena na 11 finančních ukazatelích. Prediktivní výkon je měřen MSE (Mean Square Error) a klasifikační přesností s použitím cross validace. Srovnávací backpropagation neuronová síť je podle textu třívrstvá, s počtem neuronů různícím se od 16 do 32 (nejlepší výsledky 24 skrytých neuronů), učící koeficient 0,1, moment 0,7, aktivační funkce skrytých neuronů Tansig, v případě výstupních neuronů Logsig. Navržený model dosáhl ve srovnání s ostatními přístupy nejvyššího prediktivního výkonu, konkrétně klasifikační přesnosti 83 % na testovacím setu a s 10% úrovní významnosti překonal srovnávací modely, jejichž přesnost se mezi sebou významně neliší. U backpropagation neuronových sítí autoři zdůvodňují negativní výsledek nedostatkem dat. Hu (2008) navrhuje modifikovanou vícevrstvou perceptronovou síť a aplikuje ji na případu predikce finanční tísně. Tradiční sítě používají na výstupním neuronu sigmoidální aktivační funkci, která je založena na aditivní metodě vážené sumy. Autor však poukazuje na ne vždy splnitelný předpoklad aditivity mezi jednotlivými proměnnými, které musí být v tomto případě vzájemně nezávislé, a nahrazuje metodu vážené sumy metodou Choquet Fuzzy Integral. K určení parametrů modelu je použit genetický algoritmus. Data experimentu tvoří 129 firem v období 1975–1982, z nichž 65 zbankrotovalo. Predikce je založena na pěti finančních ukazatelích. Data jsou rozvržena do třech variant rozložení datových setů, 80 : 20 – 80 % trénovací set a 20 % testovací set, dále pak 70 : 30 a 60 : 40. Prediktivním kritériem je klasifikační přesnost. Výsledky ukazují, že navržený model ve srovnání s tradičními vícevrstvými perceptronovými sítěmi (MLP) a jinými technikami (diskriminační analýza, logit, probit, SLP) vykazuje vyšší přesnost a také stabilitu prediktivního výkonu mezi jednotlivými variantami rozvržení trénovacího a testovacího setu. Hung a Chen (2008) poukazují na problém kombinovaných klasifikátorů, které spojením několika samostatných klasifikátorů dědí také jejich negativa. Ve své studii navrhují kombinovaný klasifikační model tří elementárních klasifikátorů – rozhodovacích stromů, backpropagation neuronové sítě a SVM (Support Vector Machine) s integrací na základě tzv. očekávané pravděpodobnosti a model aplikují na případu predikce bankrotu. Podstatou modelu je selektivní výběr elementárních klasifikátorů pro predikci zbankrotovaný/přeživší podnik podle očekávané pravděpo-
3.4
Aktualizace za roky 2007 a 2008
76
dobnosti elementárních klasifikátorů. Má-li například elementární klasifkátor vyšší pravděpodobnost klasifikovat třídu bankrotu, s vyšší přesností bude v kombinovaném modelu klasifikovat opačnou třídu, třídu přeživších podniků. Model je aplikován na 56 zbankrotovaných a 64 přeživších podnicích v období 1997–2001, predikce je založena na 30 finančních ukazatelích, každá firma poskytla data za dva po sobě jdoucí roky. Trénovací set obsahuje 200 vzorů, testovací 40 vzorů, proporce zbankrotovaných a přeživších firem je shodná s originálním setem. K předejití přetrénování modelu je použia 10složková cross validace. Použitá neuronová síť je typu backpropagation, vstupní vrstva obsahuje 14 neuronů, skrytá 10 a výstupní jeden neuron, učící koeficient 0,75 s postupným snižováním při trénování, moment 0,2. Podle výsledků autoři udávají závěr, že tento typ modelu poskytuje přesnější výsledky než jiné metody kombinace klasifikátorů (weighting a voting strategie). Kiang a kol. (2008) aplikují neuronové sítě a Altmanův Z-score model na případu predikce bankrotu firem do dvou let po zpětném akciovém splitu v období 1999–2000. Dále pak zkoumají návratnost akcií dva roky po zpětném splitu pomocí indexu S & P 500. Data pochází z databáze Compustat a z Bankruptcydata.com. V roce 1999 došlo ke zpětnému splitu u 59 firem, z nichž 10 do dvou let zbankrotovalo, v roce 2000 46 firem, z nichž zbankrotovalo do dvou let 12. Data byla následně rozdělena do trénovacího a testovacího setu. V první fázi byla provedena řada experimentů kombinujících různé parametry neuronové sítě, po nalezení vhodné architektury (5 neuronů vstupní vrstvy se vstupy Altmanova modelu, resp. 10 neurony jiných finančních ukazatelů, 5 neurony skryté vrstvy a jedním neuronem výstupním, backpropagation, normalizované vstupy, učící koeficient 0,0005, 10 000 iterací, na výstupu sigmoidální funkce a hraniční hodnota 0,5) byl odstraněn vliv inicializace vah 20 trénovacími pokusy s různými počátečními náhodnými vahami. Autoři také zmiňují možnost změny hraniční hodnoty na výstupní neuronu s cílem ovlivnění počtu chyb typu I a II. Měřeno kritériem procentního výskytu klasifikačních chyb typu I a II překonala neuronová síť Altmanův Z-score model. Li, Sun a Sun (2008) aplikují CBR – Case-based Reasoning na případu predikce finanční tísně, ve své studii představují novou metriku shodnosti na principu k-NN (k-nearest neighbors). Experimentální výsledky na reálných datech čínských firem ukazují, že navržený model překonává řadu současně využívaných metod pro predikci tohoto typu. Min a Jeong (2008) navrhují metodu binární klasifikace pro predikci bankrotu založené na aplikaci genetických algoritmů. Metoda klasifikuje podnik na základě podobnosti s modelovou virtuální firmou, která je předem ustanovena pro případ bankrotující i přežívající firmy. Parametry modelu jsou modifikovány podle kritéria maximalizace klasifikační přesnosti na trénovacím setu. Výkon modelu je ověřen kritériem klasifikační přesnosti oproti multidiskriminační analýze, logistické regresi, rozhodovacím stromům a neuronovým sítím, podle utorů navržená metoda poskytuje perspektivní alternativu k již existujícím metodám predikce. Cho, Kim a Bae (2007) navrhují metodu integrace diskriminační analýzy, logistické regrese, neuronových sítí a rozhodovacích stromů do kombinovaného mo-
3.4
Aktualizace za roky 2007 a 2008
77
delu predikce bankrotu. Podstatou modelu je stanovení různých vah zdrojových (základních) metod podle jednotlivých subjektů predikce v testovacím datovém setu. Autoři rovněž diskutují problém dichotomické klasifikace s hraniční hodnotou 0,5 a závádí konfidenční intervaly odlišující jasné hraniční klasifikace (blízko hodnot 0 a 1) od méně zřejmých a často chybných klasifikací okolo hraniční hodnoty. Data tvoří 900 zbankrotovaných a 900 přeživších korejských společností v období 1999– 2002. Prostřednictvím t-testu je redukován počet vstupních proměnných z 83 na 54, a následnou logistickou regresí (stepwise logistic regression) na 11 proměnných. Evaluace modelu je provedena pětisložkovou cross validací, kritériem prediktivního výkonu je klasifikační přesnost, poměr False Negative Ratio v případě nekorektní predikce zdravé firmy, která ve skutečnosti upadá, a poměr False Positive Ratio. Experimenty ukazují, že navržený model na reálných finančních datech dosahuje marginálního navýšení prediktivní přesnosti ve srovnání se zdrojovými metodami. Lee (2007) aplikuje Support Vector Machines (SVM) na případu kreditního hodnocení s porovnáním s diskriminančí analýzou, CBR (Case-based Reasoning) a backpropagation neuronovými sítěmi. Data studie se skládají z 297 finančních ukazatelů kreditního hodnocení 3017 korejských společností z období 1997–2002. Uvedený počet finančních ukazatelů je několika metodami redukován na 10 ukazatelů, vstupy jsou normalizovány do intervalu (−1, 1). Data jsou rozdělena do trénovacího (80 %) a testovacího (20 %) setu, v případě neuronových sítí do trénovacího setu (60 %), validačního setu (20 %) a testovacího setu (20 %). Neuronová síť je podle textu třívrstvá, s počtem skrytých neuronů 10, 15, 20 a 25, počet epoch 1000, 2000 a 3000, učící koeficient 0,1 a moment 0,6, aktivační funkce skrytých a výstupního neuronu je sigmoidální. Nejlepších výsledků bylo dosaženo s 3000 epochami a s počtem 10 skrytých neuronů, konkrétně 60% klasifikační přesnosti na testovacím setu, jakožto kritéria měření prediktivního výkonu. SVM dosáhly lepších výsledků, autor též uvádí výhodu SVM v předejití přetrénování klasifikátoru a problematickému hledání kombinace optimálních parametrů modelu. Majhi, Panda a Sahoo (2007) představují dva nové modely neuronových sítí zahrnující nelineární vstupy a jednoduchou strukturu s jedním nebo dvěma neurony. Konkrétně jsou publikovány modely FLANN – Functinal Link Artificial Neural Network a CFL-ANN – Cascaded Functional Link Artifical Neural Netowrk. Sítě jsou aplikovány na případu predikce směnného kurzu čtyř měn a ve srovnání se standardním modelem LMS vykazují lepší výsledky. Min a Lee (2007) aplikují analýzu DEA (Data Envelopment Analysis) na případu podnikového hodnocení. Metoda byla aplikována na finančních datech 1061 externě auditovaných korejských výrobních firem, metoda umožňuje syntetizovat výkon firmy do jediného finančního ukazatele (skóre). Empirické výsledky byly validovány spolu s regresní analýzou a diskriminační analýzou na případu 103 zbankrotovaných firem.
3.5
3.5
Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC
78
Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC
V kapitole jsou shrnuty všechny nalezené publikace vyhodnocující prediktivní výkon klasifikátoru metodou ROC. Kromě nich byly v červenci 2008 v systému ScienceDirect (v rámci plné subskribce MZLU v Brně) vyhledány publikace s klíčovými slovy metody ROC a predikce bankrotu, finanční tísně či credit scoring za období 1988–2008. Byly nalezeny čtyři další publikace, z nichž je pro MZLU dostupná pouze jedna – Janssens a kol. (2005), pro zbývající tři je dostupný pouze abstrakt – Ravih a Pramodh (2007); Christodoulakis, Satchell a Xia (2008); Stein (2005). Celkem bylo za období posledních cca. deseti let nalezeno deset publikací tohoto typu. Nguyen, Shi a Quek (2008) navrhují systém včasného varování bankovního úpadku aplikací fuzzy neuronové sítě CMAC. Výkonnost modelu je ověřena na datovém setu 3635 amerických bank za 21leté období a za předpokladu predikce s daty v roce bankrotu, jeden rok, resp. dva roky před bankrotem. Datový set je nevyvážený, banky v úpadku tvoří necelých 18 % všech dat. K vyhodnocení výkonu je použita pětisložková cross validace. Výstup sítě je v intervalu 0–1, hodnotou 0 jsou kódovány přeživší banky. Podle různě volené hraniční hodnoty je prediktivní výkon klasifikátoru vynesen do ROC křivky, byť v méně obvyklém tvaru zobrazujícím procentní výskyt chyb typu I a typu II na osách y a x. Chyba typu I je v této studii definována jako nesprávná klasifikace upadlé banky jako zdravé. Přímka vedoucí od počátku grafu pod úhlem 45 stupňů představuje přímku shodných nákladů nesprávné klasifikace. Experimenty na nevyváženém setu ukazují vysoký výskyt chyb typu I, což autoři připisují nevyváženosti setu, ve kterém je více jak 80 % přeživších bank. Po provedení experimentu s vyváženým datovým setem došlo k významnému poklesu chyb typu I. Autoři proto doporučují trénovat klasifikátor na vyváženém setu. Dále je experimentálně ověřen vliv stáří dat před událostí úpdaku a jak autoři uvádí, dle očekávání dochází ke snižování klasifikačního výkonu při použití starších dat. Gaganis, Pasiouras a Doumpos (2007) navrhují aplikaci pravděpodobnostních neuronových sítí (PNN, Probabilistic Neural Networks) na případu auditního hodnocení. Sítě PNN překonávají tradiční modely neuronových sítí i metodu logistické regrese. Autoři ve spojistosti s PNN sítěmi zdůrazňují zejména vlastnost jejich jednodušší architektury, kterou je v případě klasických neuronových sítí obtížné stanovit. Součástí studie je též citlivostní analýza k ohodnocení vlivu vstupních proměnných v auditním procesu. Studie vyhodnoceuje klasifikační výkon nejen kritériem přesnosti, ale také Giniho indexem (GI), který je definován jako GI = 2AUC−1, kde AUC je plocha pod ROC křivkou. V této souvislosti autoři uvádí, že kritérium přesnosti implicitně předpokládá rovnost nákladů nekorektní klasifikace, zatímco kritérium GI je vhodnější v případě nevyvážených setů. Kromě toho GI vypočtený z ROC analýzy zohledňuje výkon klasifikátoru přes všechny možné náklady nekorektní klasifikace. Součástí studie je zobrazení výkonu klasifikátoru obvyklým tvarem ROC křivek.
3.5
Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC
79
Ng a Jiang (2006) úzce navazují na publikaci Tunga, Queka a Chenga (2004) a aplikují hybridní systém integrující principy fuzzy logiky a neuronových sítí (fuzzy neuronové sítě) na případu predikce bankrotu bankovních institucí. Navržený systém včasného varování je pojmenován Fuzzy Cerebellar Model Articulation Controller – Compositional Rule of Inference, FCMAC-CRI(S), a na základě veřejně dostupných finančních výkazů je schopen predikovat finanční obtíže. Výkon modelu je srovnán s Coxovým modelem a GenSoFNN-CRI(S) sítí v případu predikce bankovního krachu na vzorku 3635 amerických bank za dobu 21 let (období 1980–2000). V datech se nachází 702 zkrachovalých bank a 2933 přeživších bank. S vysokou pravděpodobností se jedná o totožný datový set jako v publikaci Tunga, Queka a Chenga (2004). Na základě statistické analýzy autoři vybírají 9 vstupních finančních proměnných s nejvyšším diskriminačním potenciálem – totožné proměnné s publikací Tunga, Queka a Chenga (2004). Podobně jsou provedeny tři experimenty – predikce na posledním dostupném finančním výkazu, predikce na rok starém výkazu a predikce na dva roky starém výkazu před bankovním úpadkem, také je použita pětisložková cross validace, 20 % dat je vyhrazeno na trénovací set, 80 % na testovací set. V podstatě stejnou metodikou jsou vyhodnoceny výsledky – pomocí ROC analýzy – výstupy sítě v intervalu 0–1 jsou analyzovány s různou hraniční hodnotou zohledňující různé náklady misklasifikace (reportovány poměry nákladů misklasifikace od 1:1 do 30:1). Autoři používají stejný nestandardní tvar ROC křivky. Stejně jsou definovány i chyby typu I a II. Po provedeném experimentu s 9 vstupy byla provedena další redukce dimenzionality vstupu na pouhé tři proměnné, s nimiž tytéž klasifikátory dosáhly ještě lepšího klasifikačního výkonu. Janssens a kol. (2005) aplikují algoritmus CBA (Classification Based on Associations) na případu predikce bankrotu a srovnávají jeho přesnost s ostatními metodami pomocí AUC. Souvisejícím problémem je výběr hraniční hodnoty klasifikace, autoři používají hraniční hodnotu, kdy FP (False Positives) předčí TP (True Positives) ve spojitosti s přidáváním nových pravidel do navrženého klasifikátoru. Charakteristickým rysem použitého datového setu je nevyváženost, pozitivní případy tvoří pouze 6% datového setu. Kromě samotného srovnání klasifikátorů kritériem plochy pod křivkou AUC autoři též diskutují výpočet standardní odchylky AUC pomocí Wilcoxonova testu s následným testem hypotézy signifikantního rozdílu mezi dvěma srovnávanými AUC. Tung, Quek a Cheng (2004) navrhují neuro-fuzzy systém, konkrétně tzv. GenSoFNN – Generic Self-organising Fuzzy Neural Network, založené na CRI (Compositional Rule of Inference), jakožto alternativy pro predikci bankovního úpadku. Síť funguje jako systém včasného varování finanční tísně na základě finančních ukazatelů odvozených z veřejně dostupných finančních výkazů. Vztah mezi vybranými ukazateli a charakteristikami finanční tísně je formován intuitivními fuzzy pravidly typu IF–THEN. Výkon navržené sítě je porovnán s Coxovým modelem, s MLP neuronovou sítí a s modifikovaným modelem MCMAC (Cerebellar Model Articulation Controller) na případu predikce bankovního úpadku 3635 amerických bank za dobu 21 let (období 1980–2000). V datech se nachází 702 zkrachovalých bank a 2933 pře-
3.5
Aplikace hodnotící prediktivní výkon klasifikátoru metodou ROC
80
živších bank. Po vyloučení chybějících údajů tvoří finální data 548 bank v úpadku (17,7 %) a 2555 přeživších bank (82,3 %), celkově 3103 bank. Jsou provedeny experimenty klasifikace na nejnovějších dostupných výkazech, dále na rok starých a dva roky starých finančních výkazech před bankovním úpadkem. Pro predikci je použito 9 finančních ukazatelů. Je použita pětisložková cross validace, 20 % dat je vyhrazeno na trénovací set, 80 % na testovací set. Studie vyhodnocuje výkon klasifikátoru pomocí ROC křivek. Výstupy sítě v intervalu 0–1 jsou analyzovány s různou hraniční hodnotou zohledňující různé náklady misklasifikace (reportovány poměry nákladů misklasifikace od 1:1 do 30:1). Autoři používají nestandardní tvar ROC křivky, namísto sensitivity a specificity vykreslují procento chyb typu I a II, ROC křivka tak v ideálním případě nulových chyb má svůj vrchol v bodě [0,0] namísto obvyklého bodu [0,1]. Chybu typu I definují: zkrachovalá banka klasifikovaná jako zdravá, typ II opačně. Cílem je minimalizace chyb typu I. Namísto obvyklého výpočtu plochy pod křivkou AUC je použita metrika Equal Error Rate (ERR), která je představována diagonálou v grafu a na které je procento chyb typu I a II rovno. Experiment byl poté modifikován na použití vyváženého setu se stejným počtem zkrachovalých a přeživších bank, v tomto případě bylo dosaženo lepšího prediktivního výkonu. Dále se potvrdila zhoršená tendence klasifikačního výkonu při použití starších finančních výkazů před samotným úpadkem – měřeno kritériem klasifikační přesnosti v případě posledních výkazů je průměrná přesnost kolem 93 %, v případě rok starých výkazů před úpadkem 85 % a v případě dva roky starých výkazů 75 %. Pro srovnání výkonu byl experiment proveden rovněž na Coxově modelu, MCMAC modelu a MLP neuronové síti s architekturou 9 vstupních, 10 skrytých a 1 výstupních neuronů. Přestože MLP síť překonala všechny ostatní modely, autoři kritizují způsob uložení znalostí v síti, které je zcela netransparentní. Gim a Whalen (1999) navrhují automaticky generovaný hybridní model klasifikace bankrotu na základě logistické regrese a neuronových sítí. Z výsledků těchto modelů jsou následně pomocí pravidlového indukčního algoritmu generována pravidla typu IF–THEN, která poté mohla být upravena finančními experty. Studie poukazuje na častý problém získávání báze pravidel od expertů, přístup generování pravidel počítačem s následnou úpravou expertem se ukazuje jako jedna z možných cest vedoucích k jeho řešení. Autoři testují prediktivní schopnost modelů elementárních i hybridních včetně úpravy pravidel expertem. Studie používá pro měření prediktivního výkonu ROC analýzu, konkrétně kritéria plochy pod křivkou AUC. V této souvislosti autoři upozorňují na nedostatečné kritérium klasifikační přesnosti, které nezohledňuje klasifikační výkon v případě vysoce nevyvážených setů. Data použitá ve studii pochází od korejské pojišťovací společnosti, trénovací set obsahuje v prvním experimentu 249 případů (zahrnuje 56 zbankrotovaných firem) a testovací set 264 případů (zahrnuje 58 zbankrotovaných firem), v druhém experimentu trénovací set obsahuje 100 přeživších a 27 zbankrotovaných firem. Vstupními proměnnými je deset finančních ukazatelů. Výsledky ukazují, že všechny hybridní modely jsou schopny predikovat bankrot významně lépe než náhodný odhad. Zároveň se jejich výkon významně neliší od numerických ne-hybridních modelů logistické
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
81
regrese a neuronových sítí. Jak autoři v závěru uvádí, nejdůležitějším výsledkem studie je zjištění, že lidský expert může významně zvýšit prediktivní výkon IF–THEN pravidel založených na výsledcích neuronové sítě (vykázán nejvyšší prediktivní výkon), zatímco v případě pravidel produkovaných logistickou regresí zásah experta prediktivní výkon snížil. Vliv experta na pravidla generovaná přímo ze zdrojových dat je neutrální. Williamson (1995) aplikuje genetické algoritmy k automatizaci a optimalizaci parametrů a trénování backpropagation vícevrstvých perceptronových sítí na případu hodnocení úvěryschopnosti. Jednotlivé vzorky jsou kódovány hodnotou 0 pro úspěšné úvěrové žádosti a hodnotou 1 pro neúspěšné žádosti. Autor udává, že díky povaze vícevrstvé neuronové sítě měly nejlepší predikce na výstupu sítě (jeden výstupní neuron) pro úspěšné žádosti hodnotu okolo 0,9 a pro neúspěšné hodnotu okolo 0,1. Výkon klasifikátoru studie hodnotí s různými hraničními hodnotami na výstupu pomocí ROC analýzy, výkon je tabelován do hodnot sensitivity a specificity s diferencí hraniční hodnoty 0,1. Kromě těchto údajů a grafického vyjádření obvyklými ROC křivkami je vypočteno i kritérium klasifikační přesnosti celkové, přesnosti na úspěšných a přesnosti na neúspěšných úvěrových žádostech. Z dostupných abstraktů, nikoliv celých článků, aplikujících ROC analýzu na případu predikce finanční tísně či bankrotu, lze uvést studii Raviho a Pramodha (2007), kteří navrhují novou PCNN síť (Principal Component Neural Network) na případu predikce bankrotu komerčních bank ve Španělsku a v Turecku, jednotlivé klasifikátory srovnávají kritériem plochy pod křivkou AUC. Další studií je případ aplikace ROC analýzy v situacích s nízkým zastoupení jedné z klasifikačních tříd v datovém setu, jak v abstraktu na případu úvěrů uvádí Christodoulakis, Satchell a Xia (2008). Poslední nalezenou studií je Stein (2005), který na případu úvěrového hodnocení diskutuje volbu vhodné klasifikační hraniční hodnoty s využitím ROC analýzy.
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
Závěr k dosavadním aplikacím neuronových sítí v ekonomické predikci vychází jednak z již existujících review (Calderon a Cheh (2002); Vellido, Lisboa a Vaughan (1999); Wong, Bodnovich a Selvi (1997) a Wong a Selvi (1998)), a jednak z vlastního průzkumu publikací uvedených v předchozích kapitolách. Typickými aplikacemi neuronových sítí a dalších modelů umělé inteligence v ekonomické predikci jsou predikce bankrotu a predikce finanční tísně firem. Většina publikací se soustředí na porovnání různých klasifikačních modelů, mezi nejčastější patří neuronové sítě, diskriminační analýza, logistická regrese, SVM (Support Vector Machines) a rozhodovací stromy. Vellido, Lisboa a Vaughan (1999) zmiňuje 59 publikací, ve kterých neuronové sítě dosahují vyššího nebo srovnatelného klasifikačního výkonu ve srovnání s alternativními metodami, oproti 3 publikacím s opačným výsledkem. Podobné výsledky popisuje i review Wonga, Bodnoviche a Selviho
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
82
(1997) a Wonga a Selviho (1998) a vlastní průzkum (několik publikací srovnává výkon neuronových sítí s Altmanovým Z-score modelem, neuronové sítě vykazují lepší výsledky). V posledních letech je soustředěna pozornost na integrované (kombinované, hybridní) modely (Vellido, Lisboa a Vaughan (1999) – 21 publikací), jejichž výkon obvykle překonává samostatné klasifikátory. Orientačně se pohybují reportované přesnosti modelů okolo 85 %. Kumar, Krovi a Rajagopalan (1997) uvádí omezující předpoklady statistických metod (normalita a homogenita rozptylu a kovariance dat), přičemž uměle-inteligenční přístupy podle autorů těmito omezeními netrpí. Podobné argumenty uvádí i Lee, Han a Kwon (1996), reálná finanční data podle autorů uvedené předpoklady porušují. Dále na tento problém upozorňují i Wilson a Sharda (1994) a Udo (1993). Z dalších přístupů používaných v ekonomické predikci lze jmenovat samoorganizující se mapy (sítě) a za účelem nalezení optimální kombinace parametrů modelu jsou často nasazovány genetické algoritmy. Rozsah dat je dle vlastního průzkumu průměrně 915 vzorů (medián 274 vzorů) za průměrně 8 let (medián 5 let). Vellido, Lisboa a Vaughan (1999) uvádí rozsah dat většiny publikací do 500 vzorů a jen ve výjimečných případech řád tisíců. Calderon a Cheh (2002) a Kiviluoto (1998) upozorňují na nedostatečnou velikost datových setů u některých publikací. Téměr všechny publikace používají jeden datový set (dále dělený do trénovacího a testovacího), ve výjimečných případech je použito i více datových setů (například data firem z různých států). Studie obvykle používají dělení dat na trénovací a testovací set, velmi málo publikací používá i validační set k průběžnému hodnocení generalizovatelnosti klasifikátoru v průběhu jeho učení. Dle Calderona a Cheha (2002) je průměrný počet vzorů trénovacího setu 262 (medián 130), průměr testovacího setu 177 vzorů (medián 90), a je-li použit validační set, průměrný počet vzorů činí 590 (medián 259). Pojetí testovacího a validačního setu navíc bývá popisováno v obráceném pořadí, termínem validační set označuje řada autorů nezávislý set (holdout), který je použit pro testování klasifikačního výkonu naučeného modelu. V řadě případů je pro trénování použito dat z dřívějších období (n − 1, n − 2 apod.), pro predikci je pak použito novějších období (n), obvykle jsou použita až tříletá až čtyřletá data před úpadkem. Výsledky naznačují, že s novějšími informacemi blíže k úpadku je obvykle dosaženo přesnější predikce, Tsukuda a Baba (1994) uvádí, že zhoršení finanční situace se projevuje v datech 3 roky před bankrotem. Reportované poměry trénovacího a testovacího setu jsou většinou okolo 70 : 30 a 80 : 20. Cross validace má obvykle 5 složek. Tsai a Wu (2007) kritizují použití jen jednoho testovacího setu, ve své studii používají sety tři. Zhang a kol. (1999) poukazují na náhodné generování trénovacího a testovacího setu, kdy testovací set nemusí odpovídat trénovacímu, čímž pak vykazovaný klasifikační výkon může být zkreslený. Datové sety jsou obvykle vyvážené, tj. počet vzorů negativní i pozitivní třídy je v trénovacím a testovacím setu shodný. Calderon a Cheh (2002) upozorňuje na fakt, že v reálné praxi bývá výskyt pozitivních vzorů i o několik řádů nižší než vzorů negativních, navíc publikace hodnotí prediktivní výkon jednoduchým kritériem klasifikační přesnosti, čímž je reportovaný prediktivní výkon klasifikátorů s ohledem na
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
83
praktickou aplikaci zavádějící. Podobné závěry publikují i Davalos, Gritta a Chow (1999), přestože sami používají vyvážený set, poukazují na možnost dodržení poměru v trénovacím a testovacím setu shodným s poměrem v základní populaci (base rate). Kiviluoto (1998) kritizuje umělé vyvažování setu za účelem ospravedlnění kritéria klasifikační přesnosti, jako hlavní důsledek autor uvádí kromě plýtvání s daty nespravné nastavení hraniční hodnoty, která musí být následně upravena, avšak to je podle autora pro řadu klasifikátorů obtížné nebo nemožné. Některé aplikace ověřují i různé poměry obou tříd. Nejčastější architekturou neuronové sítě je vícevrstvá perceptronová síť (MLP) trénovaná algoritmem backpropagation (BPNN), v review Vellida, Lisboi a Vaughana (1999) tento typ sítě představuje 74 z 93 publikací. Stejná publikace upozorňuje i na vhodnost výběru chybové funkce a aktivační funkce na výstupním neuronu. Počet vrstev je obtížně intepretovatelný, neboť studie mnohdy udávají počet vrstev jako počet vrstev neuronů a nikoliv spojení. V tomto smyslu nejčastěji udávají dvouvrstvé sítě s počtem skrytých neuronů (opět problematicky interpretovatelné číslo s ohledem na neznalost přesného počtu skrytých vrstev) nejčastěji do 15–30 neuronů. Obvyklou aktivační funkcí skrytých a výstupních neuronů bývá sigmoidální funkce. Některé studie nastavují počet skrytých neuronů rovný počtu vstupních neuronů, resp. dle vztahů 1–(2p + 1), 0, 75p–(2p + 1) a (2p + 1), kde p je počet neuronů vstupní vrstvy. Učící koeficient/moment jsou v několika publikacích uvedeny v těchto kombinacích: 0,1/0,4; 0,5/0,1; 0,9/0,6; 0,5/0,9; 0,1/0,7; 0,75/0,2; 0,01–0,3/0,3; 0,1/0,6. Trénovací proces bývá zastaven po 1000–3000 iteracích, jsou ale publikace, které reportují i 50–300 iterací, a naopak i 50 000 iterací. Velmi málo publikací aplikuje metodu včasného zastavení (early stopping). Lee, Booth a Alam (2005) poukazují na retrospektivní povahu dat u supervised sítí (učení s učitelem) a v souvislosti s měnícím se prostředím doporučují používat unsupervised sítí (učení bez učitele). Shin, Lee a Kim (2005) uvádí nevýhodu neuronových sítí spočívající v obtížném nalezení optimální architektury a v této souvislosti vyzdvihují SVM (Support Vector Machines). Řada publikací upozorňuje v souvislosti s neuronovými sítěmi na nebezpečí přetrénování sítě a související ztrátu generalizovatelnosti na testovacím setu. (Ding, Song a Zen (2008); Lee (2007); Min a Lee (2005); Kim a kol. (2004); Calderon a Cheh (2002); Vellido, Lisboa a Vaughan (1999); Glorfeld a Hardgrave (1996); Leshno a Spector (1996); Altman, Marco a Varetto (1994); Fletcher a Goss (1993)). Ve drtivé většině publikací je kritériem prediktivního výkonu klasifikační přesnost na testovacím setu, zhruba polovina publikací mimo přesnosti ověřuje výkon i chybami typu I a II. Velmi málo publikací rozlišuje různé náklady chyb prvního a druhého typu, ve většině případů mají oba typy stejnou váhu. Na tuto skutečnost upozorňuje v souvislosti s používaným kritériem klasifikační přesnosti Calderon a Cheh (2002), kritérium klasifikační přesnosti za uspokojivé nepovažují, chyby typu I a II by podle autorů být sledovány měly, avšak podle jejich review žádná ze studií nebere v potaz různé náklady obou typů. Na s. 25 pak uvádí metodiku zohledňující tento nedostatek. Boritz a Kennedy (1995) zohledňují různé náklady chyb typu I a II,
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
84
konkrétně ověřují rozdílnost nákladů třemi variantami (typ I dvacetkrát nákladnější než typ II, rovnost a opačná situace). Klasifikační přesnost jako kritérium kritizuje i Tsai a Wu (2007). Kiviluoto (1998) používá Neyman-Pearsonovo kritérium, ve kterém fixuje v praxi obvykle nákladnější chyby typu I na 25 a 30 %. Vstupními proměnnými klasifikátoru jsou nejčastěji finanční ukazatele, jejichž počet se různí od jednotek až po stovky. Calderon a Cheh (2002) udávají průměrný počet 21,06 a medián 8 proměnných. V případě jejich velkého počtu je obvykle provedena (i vícestupňová) selekce. Několik publikací používá i pět obvyklých proměnných Altmanova Z-score modelu. Z vlastního průzkumu vyplývá, že studie používají průměrně 13 proměnných, v drtivé většině finanční ukazatele. Řada publikací provádí selekci proměnných, na počátku je obvykle použito několik desítek prediktivních proměnných (někdy i stovek, které se po (i vícenásobné) selekci redukují na průměrně 11 vstupů). Jen velmi málo studií (6) transformuje vstupy do lépe zpracovatelného intervalu (například normalizace). Výstupní proměnné klasifikátoru jsou většinou kódovány binárně, výstupem neuronové sítě je v řadě případů jeden neuron s fixní hraniční hodnotou – Lee, Booth a Alam (2005) používají jeden neuron s fixní hraniční hodnotou 0,5, kteritérium klasifikační přesnosti a výskyt chyb typu I a II se shodnými náklady misklasifikace. Podobný výstup sítě používá i Tsukuda a Baba (1994), Udo (1993) používá pevnou hraniční hodnotu 0,3. Některé studie uvažují i variabilní hraniční hodnotu s příslušným dopadem na výskyt chyb typu I a II. Fletcher a Goss (1993) uvádí, že konkrétní hraniční hodnota závisí na relativních nákladech misklasifikace dané aplikace a ve své studii testují hraniční hodnotu v rozpětí 0,25–0,75. Podobný přístup diskutuje i Kiang a kol. (2008), avšak používá pevnou hraniční hodnotu 0,5. Cho, Kim a Bae (2007) diskutují problém jasných klasifikací blízkých krajním hodnotám výstupního neuronu a nejasných klasifikací blízkých hraniční hodnotě, ve své studii zavádí konfidenční intervaly odlišující obě situace. Druhým přístupem je použití jednoho výstupního binárního neuronu pro každou třídu. Na problém citlivosti učení neuronových sítí vzhledem k nákladům misklasifikace a je ovlivňující nastavení hraniční hodnoty upozorňuje i Pendharkar (2008). Autor testuje bisekční metodu s variabilní hraniční hodnotou a porovnává ji s neuronovou sítí s fixní hraniční hodnotou a s pravděpodobnostní neuronovou sítí. Pendharkar (2008) popisuje obvyklou situaci s výstupním neuronem se sigmoidální aktivační funkcí a hraniční hodnotou 0,5. Jak dále uvádí, posun hraniční hodnoty vede k různým výsledkům co do různých nákladů misklasifikace. Podstatou navržené metody je nalezení hraniční hodnoty tak, že celkové náklady misklasifikace jsou minimalizovány. Výsledky ukazují, že navržená metoda překonala neuronovou síť s pevnou hraniční hodnotou, ve srovnání s pravděpodobnostní neuronovou sítí pracuje metoda lépe jen v případě nízké asymetrie nákladů misklasifikace. Z nevýhod aplikace neuronových sítí v ekonomické predikci upozorňuje review Vellida, Lisboi a Vaughana (1999) mj. na uzavřenost neuronových sítí (black-box), absenci hodnocení vlivu vstupních proměnných na výslednou klasifikaci pomocí formálních technik, absenci metody optimalizace struktury neuronové sítě (jako typická
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
85
metoda v rámci tohoto review je metoda pokusu a omylu – 21 citací), dále časová náročnost učení neuronových sítí, problém přetrénování, závislost kvality modelu na množství dat, možnost uvíznutí trénování v lokálním minimu a další. Wong, Bodnovich a Selvi (1997) ve svém review navrhují témata k dalšímu řešení, mj. vyhodnocení výkonu různých architektur neuronových sítí a trénovacích metod, odhalení vlivu množství a kvality dat na prediktivní výkon, absence metodiky návrhu architektury neuronové sítě, neexistující pravidla pro posouzení vhodnosti použití algoritmu pro určitou aplikaci a redukce pravděpodobnosti konvergence k lokálnímu minimu aplikací genetických algoritmů nebo jiného stochastického přístupu. Chen a Du (2008) upozorňují na problém záměrné manipulace se zveřejňovanými finančními výkazy s důsledkem možného krátkodobého skrytí nadcházející finanční tísně. Samostatně mimo předcházející závěry je vyčleněno sedm studií aplikujících metodu ROC k vyhodnocení klasifikačního výkonu modelu. K nim náleží i tři pouze dostupné abstrakty publikací s týmž vyhodnocením. Společným rysem většiny z těchto publikací je nevyváženost datového setu a související kritika metriky klasifikační přesnosti kvůli předpokladům rovných nákladů misklasifikace a nezohlednění nevyváženosti datového setu. Publikace diskutují různící se hraniční hodnotu na výstupu klasifikátoru s dopadem na klasifikační výkon. Často jsou zdůrazňovány různé náklady misklasifikace chyb prvního a druhého typu. Nguyen, Shi a Quek (2008) reportují vysoký výskyt chyb typu I (klasifikace upadlých subjektů jako zdravých) jako důsledek nízkého (18%) zastoupení zbankrotovaných subjektů. Autoři provedli vyvážení setu, což mělo za následek pokles chyb typu I. Ve své studii používají méně obvyklý tvar ROC grafu, ve kterém vynáší procentní výskyt chyb typu I a II. Gaganis, Pasiouras a Doumpos (2007) používají pro vyhodnocení klasifikačního výkonu kromě přesnosti Giniho index daný vztahem GI = 2AUC − 1, index označují jako vhodnou metriku pro nevyvážené sety, zároveň index zohledňuje výkon přes všechny možné náklady misklasifikace. Ng a Jiang (2006) a Tung, Quek a Cheng (2004) používají variabilní hraniční hodnotu výstupu sítě (v intervalu 0–1) se zohledněním různých nákladů misklasifikace – reportovány poměry nákladů misklasifikace od 1 : 1 do 30 : 1. Autoři používají nestandardní tvar ROC křivky, namísto sensitivity a specificity vykreslují procento chyb typu I a II. Jako metrika je použita mj. Equal Error Rate (ERR) (diagonála v grafu, na které platí rovnost procenta chyb typu I a II). Tung, Quek a Cheng (2004) uvádí, že při použití vyváženého setu dosáhli lepších výsledků. Janssens a kol. (2005) srovnávají prediktivní výkon jednotlivých metod kritériem plochy pod křivkou AUC, hraniční hodnotu vybírají v situaci, kdy FP (False Positives) předčí TP (True Positives). Gim a Whalen (1999) a Ravi a Pramodh (2007) používají metriku plochy pod křivkou AUC. Williamson (1995) mění hraniční hodnotu na výstupním neuronu (v intervalu 0–1) s diferencí 0,1 a ukazují dopad změn na tabelovaných hodnotách sensitivity a specificity.
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
86
Celkově lze zdůraznit několik klíčových bodů k aplikaci neuronových sítí v ekonomické predikci: 1. Je nutné rozlišovat chyby typu I a II, resp. FN (False Negatives) a FP (False Positives). 2. Oba typy chyb s sebou obvykle nesou různé náklady misklasifikace. 3. Evaluační kritérium klasifikační přesnosti předpokládá shodné náklady misklasifikace a konstatní a vyvážený datový set. V praxi jsou běžné nevyvážené datové sety s různými náklady misklasifikace FP a FN, proto je nezbytné použít i jiný typ evaluační metriky, než je obyčejná klasifikační přesnost. Příkladem jsou chyby typu I a II s různými náklady, resp. metriky ROC analýzy s následným výběrem optimálního klasifikátoru. 4. Výsledný klasifikátor musí odpovídat cílovým podmínkám, ve kterých bude nasazen. Tj. zohlednit cílové rozložení tříd a nákladů misklasifikace. Je třeba vzít v úvahu, že cílové podmínky se mohou změnit. Jednou z metod umožňujících vybrat optimální klasifikátor podle cílových podmínek je metoda ROC Convex Hull. 5. Umělé vyvažování setů je některými autory odmítáno, jiní jej přijímají. Data v praxi obvykle vykazují několikanásobně vyšší výskyt negativních případů oproti případům pozitivním a jsou tudíž nevyvážená. 6. Použití fixní hraniční hodnoty 0,5 v případě výstupního neuronu v intervalu 0–1 a s binárním kódováním cílových vektorů nemusí být správné. V této situaci je vhodné ověřit různé hraniční hodnoty s příslušným dopadem na výsledky klasifikace. S výhodou lze v těchto případech vizualizovat výkon klasifikátoru přes všechny možné hraniční hodnoty pomocí ROC křivky. 7. Publikace srovnávající výkon klasifikátoru plochou pod křivkou AUC by měly vzít v úvahu, že výsledný klasifikátor by měl odpovídat optimálnímu operačnímu bodu, který je daný cílovým rozložením tříd a náklady misklasifikace. Metrika AUC zahrnuje i prakticky irelevantní situace. 8. Přetrénování neuronové sítě lze předejít například použitím metody early stopping s průběžným vyhodnocováním generalizovatelnosti již v průběhu učení klasifikátoru na vyhrazeném validačním setu. 9. Zmatečné označení počtu vrstev vícevrstvé neuronové sítě (počet vrstev neuronů vs. počet spojení mezi vrstvami neuronů).
3.6
Závěry k dosavadní aplikaci neuronových sítí v ekonomické predikci
87
10. Použití aktivační funkce tanh namísto obvyklé logistické sigmoidy může urychlit konvergenci. Dále volba správné aktivační funkce a související chybové funkce na výstupním neuronu sítě. 11. Datové subsety generované náhodně z původních dat by měly odrážet rozložení tříd v základní populaci, případně je vhodné použít více setů. 12. Předzpracování dat zejména pro vzájemně se lišící hodnoty prediktivních proměnných umožňuje jednodušší inicializaci a učení neuronové sítě.
4
METODIKA PREDIKCE NEURONOVÝMI SíTĚMI A ROC ANALÝZOU
4
88
Metodika predikce neuronovými sítěmi a ROC analýzou
Závěry z průzkumu aplikace neuronových sítí v ekonomické predikci poukazují na sporadický výskyt studií zohledňujících různé náklady misklasifikace a související volbu hraniční hodnoty na výstupu neuronové sítě. Vymezených dvanáct doporučení se odráží v metodice experimentů popsaných v této kapitole. Dokončeným experimentem je predikce patologického stádia nádoru prostaty neuronovými sítěmi s vyhodnocením prediktivního výkonu metodou ROC. Přestože je zaměření disertační práce informaticko-ekonomické, zařazení experimentu z oblasti medicíny je pro práci důležité z metodického hlediska. Druhým experimentem je predikce finanční tísně v oblasti pivovarů ČR. V obou případech se jedná o problém binární klasifikace vícevrstvými neuronovými sítěmi. Experiment predikce finanční tísně je popsán do fáze metodického postupu, prakticky dokončen nebyl. Postupovat lze však podobně jako u prvního experimentu. Analogie mezi medicínskou a ekonomickou predikcí je diskutabilní téma. Dovoluji si tvrdit, že existuje. Oba typy predikce vyhodnocují určitý stav subjektu (lidské bytosti, resp. podniku) na základě objevujících se symptomů a zařazují tento stav do předem vymezených kategorií vedoucích k určité léčbě, resp. aplikaci nápravných opatření v hospodaření podniku. Tak jako je po prozkoumání příznaků diagnostikován pacient na výskyt určitého onemocnění, je na základě ekonomických ukazatelů diagnostikován i podnik. Typickou ekonomickou predikcí tohoto typu je hodnocení finančního zdraví firmy, o které se již několik desetiletí snaží řada statistických i uměle-inteligenčních modelů. Společným rysem obou typů predikce je mj. i různá nákladovost špatných rozhodnutí. Jedním z nejpodstatnějších argumentů hovořících proti popsané analogii je možnost záměrného zkreslování účetních údajů, ze kterých pak vychází většina nejdůležitějších podnikových ukazatelů. Vyvrátit tento argument je obtížné, byť jsou účetní postupy zákonem dané a kontrolovatelné. Upustíme-li však od validity účetních údajů, v zásadě nezbývá žádný další hmatatelný informační zdroj popisující hospodaření podniku. Například i propracované a v praxi denně používané metody finanční analýzy spoléhají na účetní data jakožto na primární zdroj. Neuronové sítě v obou aplikacích umožňují zakódovat složité vazby mezi symptomy a výsledným hodnocením, mají schopnost tolerovat odchylky a chyby v datech, jsou schopné reagovat na změny vstupních podmínek v čase a na rozdíl od expertních systémů nevyžadují od experta stanovenou bázi pravidel popisujících rozhodovací proceduru. Cenou za uvedené vlastnosti však obvyklé bývá nižší přesnost.
4.1
Příklad predikce patologického stádia nádoru prostaty
Rakovina prostaty je jedním z nejčastějších případů rakoviny v mužské populaci. Pacienti s ohraničenou rakovinou prostaty (přesněji s nádorem ohraničeným na žláze)
4.1
Příklad predikce patologického stádia nádoru prostaty
89
mohou být efektivně léčeni tzv. radikální prostatektomií. Kritickým bodem je předoperační odhad stádia onemocnění, které předurčuje úspěšnost provedeného zákroku. Ve studii jsou sledována patologická stádia pT2 (pT2a–c) představující ohraničenou rakovinu a stádia pT3–T4 (pT3a–c) představující pokročilé onemocnění. Cílem studie je predikce předoperačního patol. stádia nádoru prostaty neuronovými sítěmi. 4.1.1
Metodika
Data experimentu tvoří statisticky reprezentativní skupiny 335 pacientů s histologicky potvrzenou rakovinou prostaty, u nichž byla provedena radikální prostatektomie (RAPE) na Urologické klinice 3. lékařské fakulty Karlovy univerzity v Praze – spolupracovník na tomto experimentu – za období 2001–2007. Data o pacientech jsou výsledkem dvou grantových projektů Interní grantové agentury Ministerstva zdravotnictví (NR 8096-3 Vztah mutací genu pro androgenní receptor a změn exprese androgenního receptoru v karcinomu prostaty k biologickým vlastnostem nádoru a hormonálnímu profilu pacientů s lokalizovaným karcinomem prostaty a NR 8039-3 Identifikace vrozených DNA polymorfismů u skupiny genů syntetické dráhy testosteronu jako faktorů genetické predispozice pro vznik a vývoj karcinomu prostaty a jejich využití pro prevenci a odhad prognózy v české populaci) a byly poskytnuty hlavním řešitelem obou projektů doc. MUDr. Michaelem Urbanem, přednostou Urologické kliniky 3. LF UK. Data jsou anonymní, bez možnosti identifikace pacientů. Patologická stádia pT2 tvoří 199 případů, pT3–T4 136 případů. Data byla před použitím očištěna od nekompletních záznamů, byly sjednoceny datové typy, zkontrolovány duplicity (žádné) a výskyt extrémů (žádné). Vzory skupiny pT2 jsou označeny jako pozitivní, vzory skupiny pT3–T4 jsou označeny jako negativní. Prediktivními proměnnými jsou Body Mass Index (BMI) [kg/m2 ], Gleason Score (GS, celočíselná hodnota 2–10 vyjadřující stupeň agresivity nádoru) určené patologem z vyoperované prostaty, předoperační hodnota Prostate Specific Antigen (PSA) [ng/ml] a předoperační hodnota testosteronu (T) [nmol/l]. Cílový vektor (gold standard) je dán patologickým stádiem určeným patologem z vyoperované prostaty. Vzorky byly vyhodnoceny nezávisle dvěma patology. Přestože je hodnota GS určena po provedené RAPE (ex-post), je možné vzhledem k prováděným předoperačním biopsiím použít proměnnou i pro ex-ante predikci. Všechny prediktivní proměnné jsou sledovány v přesnosti na pět desetinných míst. Charakteristika souboru je uvedena v tab. 4. Data souboru jsou vizualizována programem Gnuplot v obr. 12, 13 a 14. Statistická analýza prediktivních proměnných byla provedena výše uvedeným lékařským pracovištěm: „Výsledky jsou reportovány ve tvaru x±SEM. Mann-Whitney Rank Sum Test byl použit pro porovnání skupin. Diference a korelace jsou považovány za signifikantní při p < 0, 05. V případě BMI nebyl nalezen signifikantní rozdíl mezi oběma skupinami (mean ± SEM: pT2 27, 1 ± 0, 2 vs. pT3–T4 27, 6 ± 0, 3). GS je významně nižší v případě skupiny pT2 než u skupiny pT3–T4 (mean ± SEM: pT2 5, 1 ± 0, 1 vs. pT3–T4 6, 2 ± 0, 1; p < 0, 01). Průměrné předoperační PSA je významně nižší u skupiny pT2 než u skupiny pT3–T4 (mean ± SEM: pT2 7, 7 ± 0, 3
4.1
90
Příklad predikce patologického stádia nádoru prostaty
Tab. 4: Charakteristika souboru (335 pacientů) a prediktivních proměnných Skupina pacientů Proměnná
pT2
pT3–T4
n = 199
n = 136
≤ 54
16 (8)
4 (2,9)
55–59
41 (20,6)
20 (14,7)
60–64
61 (30,7)
46 (33,8)
65–69
47 (23,6)
39 (28,7)
Věk (roky)
70–74
28 (14,1)
25 (18,4)
≥ 75
6 (3)
2 (1,5)
Průměr/medián
62,7/62,0
64,1/63,9
Patologické stádium pT2a
31 (15,6)
pT2b
90 (45,2)
pT2c
78 (39,2)
pT3a
85 (62,5)
pT3b
48 (35,3)
pT4
3 (2,2)
BMI (kg/m2 ) Průměr
27,1
27,6
Směrodatná odchylka
3,1
3,1
≤4
55 (27,6)
7 (5,1)
5–6
117 (58,8)
70 (51,5)
≥7
27 (13,6)
59 (43,4)
Průměr/medián
5,1/5,0
6,2/6,0
≤4
27 (13,6)
7 (5,1)
4,1–10
124 (62,3)
75 (55,1)
10,1–20
48 (24,1)
54 (39,7)
Průměr/medián
7,7/6,7
9,3/8,9
Průměr
15,2
15,0
Směrodatná odchylka
7,1
7,7
Patologické Gleason Score
PSA (ng/ml)
Testosteron (nmol/l)
pT2/pT3–T4 = lokalizovaná/pokročilá rakovina prostaty BMI = Body Mass Index PSA = Prostate Specific Antigen Procentuální zastoupení ve skupině v závorkách
4.1
Příklad predikce patologického stádia nádoru prostaty
BMI – Body Mass Index [kg/m2 ] GS – Gleason Score PSA – Prostate Specific Antigen [ng/ml] T – Testosteron [nmol/l]
Obr. 12: 2D vizualizace dat
91
4.1
Příklad predikce patologického stádia nádoru prostaty
BMI – Body Mass Index [kg/m2 ] GS – Gleason Score PSA – Prostate Specific Antigen [ng/ml] T – Testosteron [nmol/l]
Obr. 13: 3D vizualizace dat 1/2
92
4.1
Příklad predikce patologického stádia nádoru prostaty
BMI – Body Mass Index [kg/m2 ] GS – Gleason Score PSA – Prostate Specific Antigen [ng/ml] T – Testosteron [nmol/l]
Obr. 14: 3D vizualizace dat 2/2
93
4.1
Příklad predikce patologického stádia nádoru prostaty
94
vs. pT3–T4 9, 3 ± 0, 3; p < 0, 01). V případě T nebyl nalezen rozdíl (mean ± SEM: pT2 15, 2 ± 0, 5 vs. pT3–T4 14, 9 ± 0, 7).ÿ Ze souboru byly náhodně vygenerovány tři subsety, s dodržením co největší shodnosti průměru a směrodatné odchylky BMI, GS, PSA, T a věku k datumu operace se základním souborem samostatně pro každou ze skupin pT2/pT3–T4. Poměr obou skupin pT2/pT3–T4 je mezi základním souborem a subsety shodný (pT2/pT3–T4 = 1, 46). Trénovací set tvoří 50 % souboru, validační set 20 % a testovací set 30 % souboru. Charakteristika souboru a z něj vygenerovaných subsetů jsou uvedeny pro skupinu pT2 v tab. 5 a pro skupinu pT3–T4 v tab. 6. Vizualizace dat subsetů má podobný charakter jako vizualizace dat původního souboru. Testovací set byl dále rozdělen na tři subsety podle rozsahů PSA: do 4 ng/ml (n = 9) (R1), 4,1–10 ng/ml (n = 61) (R2 – klinicky nejzajímavější interval) a 10,1– 20 ng/ml (n = 31) (R3). Hodnoty pro všechny čtyři dimenze byly normalizovány odečtením průměru a následně podělením výběrovou směrodatnou odchylkou, průměr i směrodatná odchylka jsou vypočteny z trénovacího a validačního setu, testovací set stojí s ohledem na nezávislé ověření prediktivního výkonu samostatně mimo výpočet souhrnných statistických charakteristik. Mj. průměr a výběrová směrodatná odchylka se při použití samostatného trénovacího setu, společně trénovacího a validačního a také při použití všech tří subsetů liší minimálně. Všechny datové sety jsou vytvořeny v kombinacích prediktivních proměnných: jednofaktorové sety BMI, GS, PSA, T; dvoufaktorové sety BMI-GS, BMI-PSA, BMI-T, GS-PSA, GS-T, PSA-T; třífaktorové sety BMI-GS-PSA, BMI-GS-T, BMI-PSAT, GS-PSA-T; čtyřfaktorové sety BMI-GS-PSA-T. Data jednotlivých setů jsou uchovávána v podobě textových souborů, jejichž struktura je dána použitým simulátorem neuronových sítí, SNNS – Stuttgart Neural Network Simulator. Vzorky jsou v souboru uvedeny v náhodném pořadí. PAT soubory simulátoru SNNS mají následující tvar: SNNS pattern definition file V1.4 generated at Sun Nov 18 09:26:51 2007
No. of patterns : 167 No. of input units : 4 No. of output units : 1 # Input Pattern (id 173): 1 BMI_value GS_value PSA_value T_value # Output Pattern: 1 1 # Input Pattern (id 236): 2 BMI_value GS_value PSA_value T_value # Output Pattern: 2 0 ...
„No. of patternsÿ značí počet vzorů v datovém setu, „No. of input unitsÿ značí počet dimenzí, „No. of output unitsÿ značí počet výstupů. Každý vzor je dán vekto-
4.1
95
Příklad predikce patologického stádia nádoru prostaty
Tab. 5: Charakteristika souboru a subsetů pro skupinu pT2 Subsety (skupina pT2) Proměnná
Soubor
Trénovací set
Validační set
Testovací set
n = 199
n = 99
n = 40
n = 60
≤ 54
16 (8)
8 (8,1)
3 (7,5)
5 (8,3)
55–59
41 (20,6)
20 (20,2)
11 (27,5)
10 (16,7)
60–64
61 (30,7)
32 (32,3)
9 (22,5)
20 (33,3)
65–69
47 (23,6)
26 (26,3)
9 (22,5)
12 (20)
Věk (roky)
70–74
28 (14,1)
10 (10,1)
7 (17,5)
11 (18,3)
≥ 75
6 (3)
3 (3)
1 (2,5)
2 (3,3)
Průměr/medián
62,7/62,0
62,6/62,5
62,7/61,9
62,9/61,8
pT2a
31 (15,6)
16 (16,2)
4 (10)
11 (18,3)
pT2b
90 (45,2)
47 (47,5)
14 (35)
29 (48,3)
pT2c
78 (39,2)
36 (36,4)
22 (55)
20 (33,3)
Průměr
27,1
27,1
27,0
27,2
Směrodatná odchylka
3,1
3,1
3,0
3,2
≤4
55 (27,6)
29 (29,3)
10 (25)
16 (26,7)
5–6
117 (58,8)
57 (57,6)
24 (60)
36 (60)
≥7
27 (13,6)
13 (13,1)
6 (15)
8 (13,3)
Průměr/medián
5,1/5,0
5,1/5,0
5,1/5,0
5,1/5,0
≤4
27 (13,6)
16 (16,2)
5 (12,5)
6 (10)
4,1–10
124 (62,3)
61 (61,6)
23 (57,5)
40 (66,7)
10,1–20
48 (24,1)
22 (22,2)
12 (30)
14 (23,3)
Průměr/medián
7,7/6,7
7,6/7,0
8,0/6,9
7,6/6,6
Průměr
15,2
15,0
15,4
15,2
Směrodatná odchylka
7,1
7,1
7,1
7,2
Patologické stádium
BMI (kg/m2 )
Patologické Gleason Score
PSA (ng/ml)
Testosteron (nmol/l)
pT2 = lokalizovaná rakovina prostaty BMI = Body Mass Index PSA = Prostate Specific Antigen Procentuální zastoupení v subsetu v závorkách
4.1
96
Příklad predikce patologického stádia nádoru prostaty
Tab. 6: Charakteristika souboru a subsetů pro skupinu pT3–T4 Subsety (skupina pT3–T4) Proměnná
Soubor
Trénovací set
Validační set
Testovací set
n = 136
n = 68
n = 27
n = 41
≤ 54
4 (2,9)
2 (2,9)
1 (3,7)
1 (2,4)
55–59
20 (14,7)
10 (14,7)
4 (14,8)
6 (14,6)
60–64
46 (33,8)
20 (29,4)
9 (33,3)
17 (41,5)
65–69
39 (28,7)
22 (32,4)
8 (29,6)
9 (22)
70–74
25 (18,4)
13 (19,1)
5 (18,5)
7 (17,1)
≥ 75
2 (1,5)
1 (1,5)
0 (0)
1 (2,4)
Průměr/medián
64,1/63,9
64,3/64,4
63,9/63,6
64,0/63,0
pT3a
85 (62,5)
45 (66,2)
14 (51,9)
26 (63,4)
pT3b
48 (35,3)
21 (30,9)
13 (48,1)
14 (34,1)
pT4
3 (2,2)
2 (2,9)
0 (0)
1 (2,4)
Průměr
27,6
27,6
27,7
27,4
Směrodatná odchylka
3,1
3,1
2,9
3,1
≤4
7 (5,1)
2 (2,9)
3 (11,1)
2 (4,9)
5–6
70 (51,5)
35 (51,5)
12 (44,4)
23 (56,1)
≥7
59 (43,4)
31 (45,6)
12 (44,4)
16 (39)
Průměr/medián
6,2/6,0
6,2/6,0
6,2/6,0
6,12/6,0
≤4
7 (5,1)
2 (2,9)
2 (7,4)
3 (7,3)
4,1–10
75 (55,1)
41 (60,3)
13 (48,1)
21 (51,2)
10,1–20
54 (39,7)
25 (36,8)
12 (44,4)
17 (41,5)
Průměr/medián
9,3/8,9
9,2/8,9
9,7/9,7
9,3/8,7
Průměr
15,0
15,0
15,3
14,9
Směrodatná odchylka
7,7
7,7
7,9
7,7
Věk (roky)
Patologické stádium
BMI (kg/m2 )
Patologické Gleason Score
PSA (ng/ml)
Testosteron (nmol/l)
pT3–T4 = pokročilá rakovina prostaty BMI = Body Mass Index PSA = Prostate Specific Antigen Procentuální zastoupení v subsetu v závorkách
4.1
Příklad predikce patologického stádia nádoru prostaty
97
rem vstupů (Input Pattern) a vektorem výstupů (Output Pattern). Výstup (cílová hodnota) je kódován hodnotou 1 pro pozitivní vzory (pT2) a hodnotou 0 negativní vzory (pT3–T4). Uvedený příklad odpovídá čtyřfaktorovému setu. V experimentu byly použity třívrstvé perceptronové sítě (MLP) se 2–4 vstupními neurony pro každou z prediktivních proměnných v dané kombinaci prediktivních proměnných, dvěma vrstvami skrytých neuronů s počtem různícím se od 1 do 40 neuronů v každé vrstvě (tj. 1600 ověřovaných architektur) a s jedním výstupním neuronem. Mezi sousedními vrstvami existuje plná konektivita. Aktivační funkce skrytých neuronů tanh (oproti logistické sigmoidě vykazovala lepší výsledky), v případě výstupního neuronu obvyklá logistická sigmoida (spojitý výstup 0–1). Pro tvorbu sítí byl použit program ff bignet.exe, který je součástí simulátoru SNNS. Program pracuje na příkazovém řádku, výstupem programu je textový soubor s definicí neuronové sítě (.NET). Ukázka definice třívrstvé neuronové sítě (neinicializované) v konfiguraci 4-3-2-1, tj. 4 vstupní neurony, dvě vrstvy skrytých neuronů se 3, resp. 2 neurony, 1 výstupní neuron (s ohledem na sazbu mírná úprava souboru – zkrácení oddělovacích linek v sekci definice linků): SNNS network definition file V1.4-3D generated at Mon Apr 07 18:20:51 2008 network name : SNNS_FF_NET source files : no. of units : 10 no. of connections : 20 no. of unit types : 0 no. of site types : 0
learning function : Std_Backpropagation update function : Topological_Order
unit default section : act | bias | st | subnet | layer | act func | out func ---------|----------|----|--------|-------|--------------|------------0.00000 | 0.00000 | h | 0 | 1 | Act_Logistic | Out_Identity ---------|----------|----|--------|-------|--------------|-------------
unit definition section : no. | typeName | unitName | act | bias | st | position | act func | out func | sites ----|----------|----------|----------|----------|----|----------|--------------|----------|------1 | | unit | 0.00000 | 0.00000 | i | 2, 2,24576 | Act_Identity | | 2 | | unit | 0.00000 | 0.00000 | i | 2, 3,24576 | Act_Identity | | 3 | | unit | 0.00000 | 0.00000 | i | 2, 4,24576 | Act_Identity | | 4 | | unit | 0.00000 | 0.00000 | i | 2, 5,24576 | Act_Identity | | 5 | | unit | 0.00000 | 0.00000 | h | 5, 2,24576 | Act_TanH | | 6 | | unit | 0.00000 | 0.00000 | h | 5, 3,24576 | Act_TanH | | 7 | | unit | 0.00000 | 0.00000 | h | 5, 4,24576 | Act_TanH | | 8 | | unit | 0.00000 | 0.00000 | h | 8, 2,24576 | Act_TanH | | 9 | | unit | 0.00000 | 0.00000 | h | 8, 3,24576 | Act_TanH | | 10 | | unit | 0.00000 | 0.00000 | o | 11, 2,24576 ||| ----|----------|----------|----------|----------|----|----------|--------------|----------|-------
4.1
Příklad predikce patologického stádia nádoru prostaty
98
connection definition section : target | site | source:weight -------|------|----------------------------------------------------------------------------------5 | | 4: 0.00000, 3: 0.00000, 2: 0.00000, 1: 0.00000 6 | | 4: 0.00000, 3: 0.00000, 2: 0.00000, 1: 0.00000 7 | | 4: 0.00000, 3: 0.00000, 2: 0.00000, 1: 0.00000 8 | | 7: 0.00000, 6: 0.00000, 5: 0.00000 9 | | 7: 0.00000, 6: 0.00000, 5: 0.00000 10 | | 9: 0.00000, 8: 0.00000 -------|------|-----------------------------------------------------------------------------------
Váhy a prahové hodnoty byly v neuronové síti inicializovány několika způsoby: náhodným intervalem od -1 do 1; metodou popsanou na s. 21 (Orr, Schraudolph a Cummins (1999)) – váhy wij vstupující do i-tého skrytého neuronu jsou inicializovány hodnotou z rovnoměrného rozložení s rozsahem [−ri , ri ], kde ri je rovno převrácené hodnotě odmocniny počtu vstupů do neuronu (použito i pro váhy vedoucí do výstupního neuronu); kombinací předchozí metody a metody Bishopa (1995) popsané na s. 20 – pro síť s normalizovanými vstupy generovat váhy ze symetrického Gaussova rozložení s nulovým průměrem a směrodatnou odchylkou σ ∝ d−1/2 , kde d je počet vstupů do neuronu. První z uvedených metod použita pro váhy vedoucí do skrytých neuronů, metoda Bishopa použita pro váhy vedoucí do výstupního neuronu. Způsoby inicializace vybrány pro každou kombinaci prediktivních proměnných v pretestu – šest inicializací (po třech s různým učícím koeficentem a momentem) na síti X-20-10-1 trénované metodou zpětného šíření chyb s momentem. V pretestu rovněž ověřena inicializace vahami s náhodnou hodnotou v intervalu od -0,25 do 0,25. Inicializace provedena vlastními programy modifikujícími výše uvedený tvar textového souboru s definicí neuronové sítě (použito Borland Delphi 7 Professional). Neuronové sítě byly trénovány metodou Backpropagation – zpětné šíření chyb, ve variantě s momentem (BackPropMomentum). Kombinace učícího koeficientu/momentu byly 0,2/0,3 a 0,05/0,3. Maximální počet cyklů pro učení sítě byl na základě pretestů nastaven v první z uvedených kombinací učícího koeficientu/momentu na 350–800 a v druhém případě na 500–1000 cyklů. Uchována je ta fáze sítě, ve které je dosaženo minima MSE na validačním setu (early stopping). Každá kombinace prediktivních proměnných byla trénována s různými inicializacemi minimálně pětkrát. K trénování sítí byl použit interpret batchman simulátoru SNNS, jehož činnost je možné řídit pomocí skritpu s příkazy jazyka Batchman. Trénování provedeno v OS MS Windows XP Professional. V níže uvedeném skriptu se v první části nachází sekce nastavení s definicí konstant – cesty k programům vyžadovaných pro natrénování sítě, cesty k PAT souborům s daty, omezení počtu neuronů první a druhé skryté vrstvy neuronů a nastavení trénovacích parametrů. # ********************** Settings ************************** # Paths PathPgms := PathWorkspace := PathData := PathResults :=
".\Pgms\" ".\Workspace\" ".\Data\Intervaly_2\" ".\Results\"
4.1
Příklad predikce patologického stádia nádoru prostaty
99
# Supplementary programs PgmCreateNet := PathPgms + "create_net_3layer_tanh.bat" PgmInitNet := PathPgms + "init_net.exe" PgmRoc := PathPgms + "roc.exe" # Data Combination := InputNeurons :=
"4-BMI-GS-PSA-T" 4
TrainingFile := ValidationFile := TestingFile :=
PathData + Combination + "\" + "vk_training_normB_r.pat" PathData + Combination + "\" + "vk_validation_normB_r.pat" PathData + Combination + "\" + "vk_testing_normB_r.pat"
TestingFileR1 := TestingFileR2 := TestingFileR3 :=
PathData + Combination + "\" + "vk_testing_normB_r.pat.r1" PathData + Combination + "\" + "vk_testing_normB_r.pat.r2" PathData + Combination + "\" + "vk_testing_normB_r.pat.r3"
# Network parameters H1Start := 1 H1End := 40 H2Start := H2End :=
1 40
# Training parameters NoCycles := MomentumMethod := LearningRate := Momentum := DMax := Jog :=
450 TRUE 0.2 0.3 0.0 FALSE
# Other parameters Target0 :=
"negative" # (See argument #2 at ConsoleROC)
# (TRUE => BackpropMomentum, FALSE => Std_Backprop) # (only for BackpropMomentum) # (only for Std_Backprop)
V druhé části skriptu je po načtení PAT souborů s daty (loadPattern) ověřováno 1600 síťových architektur pro 1–40 neuronů první i druhé vrstvy skrytých neuronů. Po nastavení konstant s názvy souborů obsahujícími výstup sítě pro data testovacího setu (RES soubory) je voláním externích programů postupně vytvořena a následně inicializována každá z ověřovaných neuronových sítí (popsáno v předchozím textu). Před trénováním je síť v inicializovaném stavu načtena do prostředí simulátoru (loadNet) a jsou nastaveny parametry trénování. Přebytečně je nastaven způsob inicializace (setInitFunc), neboť simulátor SNNS nekorektně inicializuje síť pro případ náhodných vah (parametr Randomize Weights), proto není inicializace prováděné simulátorem využíváno. Poté je nastaven způsob učení (setLearnFunc), pořadí zpracování neuronů (setUpdateFunc), žádná remapovací funkce, náhodné pořadí předkládáných vzorů trénovacího setu (setShuffle), a v zásadě přebytečně je volán reset sítě nastavující počáteční aktivace neuronů (nulové). Následující učení sítě je prováděno v NoCycles iteracích (trainNet), při nalezení minima MSE na validačním setu (testNet) je uložen soubor RES s výstupy sítě pro trénovací, validační a především test set včetně jeho variant pro různé rozsahy PSA R1–R3 (saveResult) spolu s natrénovanou neuronovou sítí (saveNet). Prediktivní výkon sítě je vyhodnocen ROC analýzou (voláním vlastního externího programu vytvořeného v Borland Delphi 7 Professional – implementace algoritmu
4.1
100
Příklad predikce patologického stádia nádoru prostaty
dle Fawcetta (2004) – algoritmus 2 a 3), reportovány jsou následující hodnoty: číslo iterace, při které bylo dosaženo minima validačního MSE, v této iteraci hodnota MSE na test setu, a dále pak AUC, skutečná sensitivita, specificita a hraniční hodnota na výstupu sítě při 90%, 92% a 95% sensitivitě pro celý test set a jeho tři podmnožiny – rozsahy PSA R1–R3. Detaily jazyka Batchman je možné najít v manuálu, který je spolu s celým simulátorem SNNS volně dostupný na Internetu (http://www.ra.cs.uni-tuebingen.de/SNNS/) – Zell a kol. (2009). # ********************** Execution ************************* print ("net rel_cycle rel_testMSE auc sens90 spec90 cuto90 sens92 spec92 cuto92 sens95 spec95 R1auc R1sens90 R1spec90 R1cuto90 R1sens92 R1spec92 R1cuto92 R2auc R2sens90 R2spec90 R2cuto90 R2sens92 R2spec92 R2cuto92 R3auc R3sens90 R3spec90 R3cuto90 R3sens92 R3spec92 R3cuto92
cuto95 R1sens95 R1spec95 R1cuto95 R2sens95 R2spec95 R2cuto95 R3sens95 R3spec95 R3cuto95")
loadPattern (TrainingFile) loadPattern (ValidationFile) loadPattern (TestingFile) for h1 := H1Start to H1End do for h2 := H2Start to H2End do FileNamePrefix := InputNeurons + "_" + h1 + "_" + h2 + "_1" TrainingResFile := ValidationResFile := TestingResFile :=
PathWorkspace + FileNamePrefix + "_training.res" PathWorkspace + FileNamePrefix + "_validation.res" PathWorkspace + FileNamePrefix + "_testing.res"
TestingResFileR1 := TestingResFileR2 := TestingResFileR3 :=
PathWorkspace + FileNamePrefix + "_testing_r1.res" PathWorkspace + FileNamePrefix + "_testing_r2.res" PathWorkspace + FileNamePrefix + "_testing_r3.res"
# 1) Create Net NetNonInit := PathWorkspace + FileNamePrefix + ".net" execute (PgmCreateNet + " " + InputNeurons + " " + h1 + " " + h2 + " " + NetNonInit) # 2) Initialize Net NetInit := PathWorkspace + FileNamePrefix + "_init.net" # Nova inicializace # execute (PgmInitNet + " " + NetNonInit + " " + InputNeurons + " " + h1 + " " + h2 + " 1 " + NetInit) # Puvodni inicializace h12 := h1 + h2 execute (PgmInitNet + " " + NetNonInit + " " + InputNeurons + " " + h12 + " 1 " + NetInit) # 3) Train Net loadNet (NetInit) setInitFunc ( "Randomize_Weights", 1.0, -1.0) if MomentumMethod then setLearnFunc ( "BackpropMomentum", LearningRate, Momentum) else setLearnFunc ( "Std_Backpropagation", LearningRate, DMax) endif setUpdateFunc ("Topological_Order")
4.1
Příklad predikce patologického stádia nádoru prostaty
setRemapFunc ("None") setShuffle (TRUE) resetNet () min_vMSE := 10000 rel_tMSE := 10000 rel_testMSE := 10000 rel_cycle := 0 for c := 1 to NoCycles do if Jog then jogWeights(-0.05, 0.02) endif setPattern (TrainingFile) trainNet () tMSE := MSE setPattern (ValidationFile) testNet () vMSE := MSE if vMSE < min_vMSE then min_vMSE := vMSE rel_tMSE := tMSE rel_cycle := CYCLES setPattern (TrainingFile) saveResult (TrainingResFile, 1, PAT, FALSE, TRUE, "create") setPattern (ValidationFile) saveResult (ValidationResFile, 1, PAT, FALSE, TRUE, "create") setPattern (TestingFile) testNet () rel_testMSE := MSE saveResult (TestingResFile, 1, PAT, FALSE, TRUE, "create") loadPattern (TestingFileR1) setPattern (TestingFileR1) testNet () saveResult (TestingResFileR1, 1, PAT, FALSE, TRUE, "create") delPattern (TestingFileR1) loadPattern (TestingFileR2) setPattern (TestingFileR2) testNet () saveResult (TestingResFileR2, 1, PAT, FALSE, TRUE, "create") delPattern (TestingFileR2) loadPattern (TestingFileR3) setPattern (TestingFileR3) testNet () saveResult (TestingResFileR3, 1, PAT, FALSE, TRUE, "create") delPattern (TestingFileR3) saveNet (PathResults + FileNamePrefix + "_trained.net") endif endfor # 4) ROC
101
4.1
Příklad predikce patologického stádia nádoru prostaty
102
# psa all execute (PgmRoc + " " + TestingResFile + " " + Target0, auc, sens90, spec90, cuto90, sens92, spec92, cuto92, sens95, spec95, cuto95) # psa range 1 execute (PgmRoc + " " + TestingResFileR1 + " " + Target0, R1auc, R1sens90, R1spec90, R1cuto90, R1sens92, R1spec92, R1cuto92, R1sens95, R1spec95, R1cuto95) # psa range 2 execute (PgmRoc + " " + TestingResFileR2 + " " + Target0, R2auc, R2sens90, R2spec90, R2cuto90, R2sens92, R2spec92, R2cuto92, R2sens95, R2spec95, R2cuto95) # psa range 3 execute (PgmRoc + " " + TestingResFileR3 + " " + Target0, R3auc, R3sens90, R3spec90, R3cuto90, R3sens92, R3spec92, R3cuto92, R3sens95, R3spec95, R3cuto95) print (FileNamePrefix + " " + auc + " " + sens90 + " " + spec90 + " + sens92 + " " + spec92 + " + sens95 + " " + spec95 + " + R1auc + " " + R1sens90 + " " + R1spec90 + R1sens92 + " " + R1spec92 + R1sens95 + " " + R1spec95 + R2auc + " " + R2sens90 + " " + R2spec90 + R2sens92 + " " + R2spec92 + R2sens95 + " " + R2spec95 + R3auc + " " + R3sens90 + " " + R3spec90 + R3sens92 + " " + R3spec92 + R3sens95 + " " + R3spec95
+ rel_cycle + " " + rel_testMSE + " " " + cuto90 + " " " + cuto92 + " " " + cuto95 + " " + " " + R1cuto90 + " " + " " + R1cuto92 + " " + " " + R1cuto95 + " " + " " + R2cuto90 + " " + " " + R2cuto92 + " " + " " + R2cuto95 + " " + " " + R3cuto90 + " " + " " + R3cuto92 + " " + " " + R3cuto95)
endfor endfor
Ukázka RES souboru simulátoru SNNS obsahujícího pro každý vzorek test setu požadovaný (učící) výstup sítě a skutečnou hodnotu výstupu: SNNS result file V1.4-3D generated at Tue Apr 08 01:01:54 2008 No. of patterns : 101 No. of input units : 4 No. of output units : 1 startpattern : 1 endpattern : 101 teaching output included #1.1 1 0.95437 #2.1 1 0.97121 ...
Pro každou kombinaci prediktivních proměnných je po průchodu 1600 architektur získán seznam obsahující výkon sítě na testovacím setu a na jeho podmnožinách PSA R1–R3. Ověřovacích pokusů (průchodů) s různou inicializací sítě bylo provedeno pro každou kombinaci prediktivních proměnných minimálně pět. Kritériem
4.1
Příklad predikce patologického stádia nádoru prostaty
103
výběru nejlepší sítě dané kombinace prediktivních proměnných je nejvyšší specificita pro min. 95% sensitivitu, sekundárně (při shodných specificitách) nejvyšší AUC (plocha pod ROC křivkou), a to v rámci všech ověřovacích pokusů. Nejlepší síť je vybírána samostatně za test set pro celý rozsah PSA, a dále samostatně za každou ze tří podmnožin test setu – PSA R1–R3. Při trénování klasifikátoru s výstupem v podobě skóre z daného intervalu může dojít k situaci, že dochází ke správnému oddělování tříd na výstupu, avšak v obráceném než požadovaném mapování. Například může dojít k většímu výskytu výstupních hodnot vzorů skupiny pT2 u hranice 0, přestože cílem trénování bylo dosáhnout hranice 1. Podobně, ale obráceně, pro skupinu pT3–T4. Ikdyž není dosaženo požadovaného mapování, může v tomto případě docházet k úspěšné (i 100%) separaci tříd. Z tohoto důvodu byly všechny sítě ověřeny i tzv. „reverzníÿ ROC analýzou (vlastní pracovní pojmenování oproti analýze „originálníÿ), ve které jsou skóre klasifikátoru vyhodnocována obráceně, ve Fawcettově algoritmu od nejmenších hodnot, tj. pod hraniční hodnotou jsou skóre pozitivní (TP), zatímco v případě originální analýzy jsou pozitivní (TP) případy nad hraniční hodnotou. Uvedená minimální 95% sensitivita (tp rate) je požadavkem medicínského výzkumu, nebo-li aspoň 95 procent skupiny pT2 musí být klasifikováno správně (tj. TP), neboť pacientům této skupiny zachrání RAPE život. Minutí těchto případů (tj. FN) s sebou nese vysoké náklady – jinou terapii s horší prognózou ve srovnání s RAPE. Provedená RAPE na pacientovi ze skupiny pT3–T4 (tj. FP) s sebou nenese tak vysoké náklady, přestože dojde k určitému zhoršení kvality života. Optimálním operačním bodem na ROC křivce je tedy bod v její horní pravé části. 4.1.2
Výsledky
Specificita při 95–100% sensitivitě (primární metrika), jim odpovídající hraniční hodnota na výstupu sítě a AUC (sekundární metrika) pro nejúspěšnější neuronové sítě jsou zaznamenány v tab. 7, 8, 9 a 10 postupně pro samostatné proměnné a kombinace dvou, tří a čtyř prediktivních proměnných. Empirické ROC křivky jsou znázorněny v grafech na obr. 15, 16, 17 a 18. Výsledky jsou hodnoceny pro celý test set (kompletní PSA) a pro jeho podmnožinu R2 (PSA 4–10 ng/ml) jakožto klinicky nejproblematičtější interval. Podmnožiny test setu R1 (PSA < 4 ng/ml) a R3 (PSA > 10 ng/ml) trpí nízkým počtem vzorů (9, resp. 31 vzorů). Prevalence pozitivních případů pT2 je cca. 60 % (údaj z původního souboru), v test setu dodržen stejný poměr, v podmnožině test setu R2 je poměr podobný (66 %). Výsledky pro čtyřfaktorové, třífaktorové a jednofaktorové kombinace na všech testovacích setech/subsetech byly zkontrolovány i v software MedCalc (statistický software pro biomedicínský výzkum), výsledky jsou totožné s jediným rozdílem, kdy MedCalc k hraniční hodnotě reportuje sensitivitu a specificitu, které tuto hraniční hodnotu nezapočítávají (> cutoff). Můj software reportuje stejnou sensitivitu a specificitu na hraniční hodnotě o jednu pozici blíže k vyšším hodnotám hraničních
4.1
Příklad predikce patologického stádia nádoru prostaty
104
hodnot, a to včetně dané hraniční hodnoty (≥ cutoff). V případě reverzní ROC analýzy se chovají oba programy zcela stejně, i MedCalc v tomto případě započítává do reportované sensitivity a specificity danou hraniční hodnotu. Prediktivní výkon samostatných proměnných není o mnoho vyšší oproti náhodnému odhadu. Nejvyšší prediktivní výkon vykázaly proměnné Gleason Score a PSA. Při téměř stoprocentní sensitivitě je dosahováno minimální specificity, AUC se často pohybuje okolo 50% hranice. Totéž znázorňují i ROC grafy na obr. 15. Při zvyšujícím se počtu použitých prediktivních proměnných se prediktivní výkon navyšuje. Vzrůstající tendenci prediktivního výkonu měřeného specificitou při minimálně 95% sensitivitě a AUC je možné vysledovat u dvou, tří, a zejména pak čtyřfaktorových kombinací. ROC křivky na obr. 16–18 ukazují oproti jednofaktorovým proměnným posun od hranice nerozhodnutelnosti směrem k vyšším hodnotám sensitivity a nižím hodnotám frekvence falešně pozitivních klasifikací (fp rate). Zkombinováním všech čtyř proměnných BMI, GS, PSA a T bylo dosaženo na celém test setu 46% specificity při 95% sensitivitě (AUC 77 %), na intervalu PSA 4–10 ng/ml pak 52% specificity při 95% sensitivitě (AUC 78 %). Tomuto výsledku odpovídá přesnost 75 % pro celý test set, resp. 80 % na intervalu PSA 4–10 ng/ml. Pozitivní a negativní prediktivní hodnota činí pro celý test set 72 %, resp. 86 %. Pro interval PSA 4–10 ng/ml je pozitivní a negativní prediktivní hodnota 79 %, resp. 85 %. 4.1.3
Diskuze a omezení
Při prevalenci cca. 60 % by při klasifikaci všech případů jako pozitivních bez ohledu na jakékoliv vstupní informace byla pravděpodobnost správné klasifikace rovněž šedesátiprocentní se zachycením všech pozitivních případů (tj. 100% sensitivitou) a 100 % falešně pozitivními (tj. nulovou specificitou). Pozitivní prediktivní hodnota testu udává pravděpodobnost, s jakou je testem pozitivně označený vzor skutečně pozitivní. Pro celý test set (se shodnou proporcí pozitivních případů jako v původním souboru) je pozitivní prediktivní hodnota 72 %, tj. je o 12 % vyšší vzhledem k odhadu na základě prevalence. Vybraná nejlepší síť na celém intervalu PSA (čtyřfaktorová 4-26-35-1) i na intervalu PSA 4–10 ng/ml (čtyřfaktorová 4-35-36-1) byly ověřeny na dalších testovacích datech – nikoliv na zcela nových dosud nepoužitých vzorech (ty již nejsou k dispozici, resp. nebyly před průzkumem samostatně vyhrazeny), ale na validačním setu, který už sice byl použit pro zastavení trénování sítě (a není tudíž zcela nezávislý), avšak pro orientační posouzení chování sítě na dalších datech jej k pokusným účelům použít lze. V případě kompletního intervalu PSA dosáhla síť oproti hraniční hodnotě uvedené z tab. 10 (0,28565) 85% sensitivity a 52% specificity, 72% pozitivní prediktivní hodnoty a 70% negativní prediktivní hodnoty (proporce pozitivních případů ve validačním setu je shodná s proporcí v testovacím setu i v celém souboru). V druhém případě pak síť 4-35-36-1 dosáhla oproti své hraniční hodnotě (0,55920) 87% sensitivity, 39% specificity, 71% pozitivní prediktivní hodnoty a 63%
4.1
105
Příklad predikce patologického stádia nádoru prostaty
Tab. 7: Prediktivní výkon samostatných proměnných
Proměnné
Specificita při min. 95% sensitivitě
AUC
Hraniční hodnota
Neuronová síť
*32,74416
–
Test set PSA kompletní (n = 101; 60 pT2, 41 pT3–T4)
1-BMI
4,88 %
50,51 %
1-GS
17,07 %
70,71 %
*7,00000
–
1-PSA
7,32 %
65 %
*15,40000
–
1-T
2,44 %
46,44 %
*27,20000
–
77,78 %
*28,98201
–
Test set R1: PSA 0–4 ng/ml (n = 9; 6 pT2, 3 pT3–T4)
1-BMI
66,67 %
1-GS
0%
58,33 %
*6,00000
–
1-PSA
0%
50 %
*3,84000
–
1-T
33 %
50 %
*24,80000
–
Test set R2: PSA 4–10 ng/ml (n = 61; 40 pT2, 21 pT3–T4)
1-BMI
0%
53,33 %
21,51386
–
1-GS
9,52 %
70,89 %
*7,00000
–
1-PSA
14,29 %
66,13 %
*8,86000
–
1-T
4,76 %
49,88 %
*26,40000
–
Test set R3: PSA > 10 ng/ml (n = 31; 14 pT2, 17 pT3–T4)
1-BMI
5,88 %
53,78 %
*34,60208
–
1-GS
29,41 %
71,43 %
*7,00000
–
1-PSA
5,88 %
53,15 %
*19,00000
–
1-T
0%
64,71 %
2,60000
–
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron AUC = Area Under the ROC Curve pT2/pT3–T4 = lokalizovaná/pokročilá rakovina prostaty * reverzní ROC analýza
4.1
Příklad predikce patologického stádia nádoru prostaty
PSA kompletní
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron
Obr. 15: ROC graf – samostatné proměnné
PSA 4–10 ng/ml
106
4.1
107
Příklad predikce patologického stádia nádoru prostaty
Tab. 8: Prediktivní výkon dvoufaktorových kombinací proměnných
Kombinace
Specificita při min. 95% sensitivitě
AUC
Hraniční hodnota
Neuronová síť
Test set PSA kompletní (n = 101; 60 pT2, 41 pT3–T4)
2-BMI-GS
34,15 %
71,69 %
0,20759
2-19-14-1
2-BMI-PSA
26,83 %
63,21 %
0,47142
2-9-30-1
2-BMI-T
21,95 %
57,93 %
*0,91281
2-9-38-1
2-GS-PSA
36,59 %
74,05 %
0,41539
2-13-21-1
2-GS-T
41,46 %
72,40 %
0,41499
2-39-15-1
2-PSA-T
34,15 %
65,49 %
0,45161
2-22-2-1
Test set R1: PSA 0–4 ng/ml (n = 9; 6 pT2, 3 pT3–T4)
2-BMI-GS
100 %
100 %
0,72200
2-12-40-1
2-BMI-PSA
66,67 %
94,44 %
0,69597
2-26-22-1
2-BMI-T
100 %
100 %
0,51117
2-25-1-1
2-GS-PSA
100 %
100 %
0,63760
2-22-20-1
2-GS-T
100 %
100 %
0,68973
2-16-26-2
2-PSA-T
66,67 %
88,89 %
*0,81705
2-30-2-1
Test set R2: PSA 4–10 ng/ml (n = 61; 40 pT2, 21 pT3–T4)
2-BMI-GS
38,10 %
74,05 %
0,38225
2-34-5-1
2-BMI-PSA
47,62 %
73,57 %
*0,77099
2-33-3-1
2-BMI-T
33,33 %
64,05 %
*0,91281
2-9-38-1
2-GS-PSA
38,10 %
79,52 %
0,46337
2-1-24-1
2-GS-T
47,62 %
76,31 %
0,41499
2-39-15-1
2-PSA-T
47,62 %
67,86 %
*0,86742
2-22-27-1
Test set R3: PSA > 10 ng/ml (n = 31; 14 pT2, 17 pT3–T4)
2-BMI-GS
35,29 %
73,95 %
2-BMI-PSA
41,18 %
67,65 %
0,43471
2-6-35-1
2-BMI-T
41,18 %
73,95 %
*0,66475
2-36-3-1
2-GS-PSA
41,18 %
72,27 %
0,29384
2-31-28-1
2-GS-T
58,82 %
79,83 %
0,51071
2-40-21-1
2-PSA-T
58,82 %
85,71 %
0,50573
2-10-26-1
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron AUC = Area Under the ROC Curve pT2/pT3–T4 = lokalizovaná/pokročilá rakovina prostaty * reverzní ROC analýza
0,17598
2-19-14-1
4.1
Příklad predikce patologického stádia nádoru prostaty
PSA kompletní (1/2)
PSA kompletní (2/2)
PSA 4–10 ng/ml (1/2)
PSA 4–10 ng/ml (2/2)
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron
Obr. 16: ROC graf – dvoufaktorové kombinace proměnných
108
4.1
109
Příklad predikce patologického stádia nádoru prostaty
Tab. 9: Prediktivní výkon třífaktorových kombinací proměnných
Kombinace
Specificita při min. 95% sensitivitě
AUC
Hraniční hodnota
Neuronová síť
73,29 %
0,21240
3-35-35-1
Test set PSA kompletní (n = 101; 60 pT2, 41 pT3–T4)
3-BMI-GS-PSA
36,59 %
3-BMI-GS-T
41,46 %
71,30 %
0,26460
3-7-32-1
3-BMI-PSA-T
39,02 %
65,41 %
0,54844
3-2-32-1
3-GS-PSA-T
41,46 %
76,91 %
0,31688
3-36-5-1
0,86332
3-28-10-1
Test set R1: PSA 0–4 ng/ml (n = 9; 6 pT2, 3 pT3–T4)
3-BMI-GS-PSA
100 %
100 %
3-BMI-GS-T
100 %
100 %
0,56266
3-16-9-1
3-BMI-PSA-T
100 %
100 %
0,62912
3-13-3-1
3-GS-PSA-T
100 %
100 %
*0,93797
3-29-15-1
Test set R2: PSA 4–10 ng/ml (n = 61; 40 pT2, 21 pT3–T4)
3-BMI-GS-PSA
42,86 %
78,45 %
0,46787
3-31-31-1
3-BMI-GS-T
47,62 %
79,52 %
0,30857
3-33-2-1
3-BMI-PSA-T
38,10 %
68,33 %
*0,95101
3-14-3-1
3-GS-PSA-T
38,10 %
78,33 %
0,40280
3-31-5-1
Test set R3: PSA > 10 ng/ml (n = 31; 14 pT2, 17 pT3–T4)
3-BMI-GS-PSA
47,06 %
63,03 %
0,37695
3-4-38-1
3-BMI-GS-T
64,71 %
77,73 %
0,50375
3-37-16-1
3-BMI-PSA-T
70,59 %
80,25 %
0,50130
3-3-15-1
3-GS-PSA-T
64,71 %
90,76 %
0,32862
3-36-5-1
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron AUC = Area Under the ROC Curve pT2/pT3–T4 = lokalizovaná/pokročilá rakovina prostaty * reverzní ROC analýza
4.1
Příklad predikce patologického stádia nádoru prostaty
PSA kompletní
PSA 4–10 ng/ml
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron
Obr. 17: ROC graf – třífaktorové kombinace proměnných
110
4.1
111
Příklad predikce patologického stádia nádoru prostaty
Tab. 10: Prediktivní výkon čtyřfaktorové kombinace proměnných
Kombinace
Specificita při min. 95% sensitivitě
AUC
Hraniční hodnota
Neuronová síť
0,28565
4-26-35-1
0,75702
4-15-6-1
Test set PSA kompletní (n = 101; 60 pT2, 41 pT3–T4)
4-BMI-GS-PSA-T
46,34 %
76,63 %
Test set R1: PSA 0–4 ng/ml (n = 9; 6 pT2, 3 pT3–T4)
4-BMI-GS-PSA-T
100 %
100 %
Test set R2: PSA 4–10 ng/ml (n = 61; 40 pT2, 21 pT3–T4)
4-BMI-GS-PSA-T
52,38 %
77,62 %
0,55920
4-35-36-1
Test set R3: PSA > 10 ng/ml (n = 31; 14 pT2, 17 pT3–T4)
4-BMI-GS-PSA-T
70,59 %
83,61 %
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron AUC = Area Under the ROC Curve pT2/pT3–T4 = lokalizovaná/pokročilá rakovina prostaty * reverzní ROC analýza
0,34115
4-4-31-1
4.1
Příklad predikce patologického stádia nádoru prostaty
PSA kompletní
PSA 4–10 ng/ml
BMI = Body Mass Index GS = Gleason Score PSA = Prostate Specific Antigen T = Testosteron
Obr. 18: ROC graf – čtyřfaktorová kombinace proměnných
112
4.2
Příklad v ekonomické predikci
113
negativní prediktivní hodnoty (proporce pozitivních případů v podmnožině R2 testovacího setu je 66 % a vzorů se stejně omezeným PSA na validačním setu 64 %). Tyto hodnoty jsou mírně horší oproti testovacímu setu, což připisuji nízkému počtu dat validačního setu. Základní tendence dělení obou tříd je však zachována. V případě dostatku dat by bylo vhodnější podle uvedených rozsahů PSA vyčlenit samostatně trénovací, validační set a testovací set. Tento postup by umožňoval přesnější zacílení predikce na konkrétní rozsah PSA. Počet iterací, při kterých bylo v průběhu trénování neuronové sítě dosaženo minima MSE na validačním setu se různil od několika set až po jednotky, kdy úspěch neuronové sítě závisel zejména na její úvodní inicializaci. Za zvážení by mohl stát i jiný způsob zastavení trénování neuronové sítě (resp. výběr stavu sítě na předem daném maximálním počtu trénovacích iterací). Namísto minima MSE na validačním setu by bylo možné hledat maximální specificitu při dané min. sensitivitě na validačním setu. V použitém způsobu zastavení trénování existuje určitá disproporce mezi hodnotou MSE na validačním setu a dosaženou separabilitou tříd měřenou metrikami ROC analýzy. Jedním z omezení popsaného výzkumu je absence statistických testů významnosti rozdílů naměřených hodnot a testování hypotéz. Vzhledem k tomu, že cílem disertační práce je poukázat na možnost využití ROC analýzy v problémech nákladově orientované klasifikace neuronovými sítěmi, nepovažoval jsem za nutné tuto problematiku řešit. V reálném výzkumu by však bylo více než vhodné přizvat do řešitelského kolektivu statistika. Z hlediska využití výstupů experimentu v předoperační diagnóze stádia nádoru prostaty v klinické praxi jsou výsledky nedostačující, přestože podle expertního odhadu urologa je prediktivní výkon lékaře v diagnóze předopračního stádia nádoru prostaty ve srovnání s výkonem neuronové sítě přibližně podobný. Byl jsem ujištěn, že i v případě mé chyby v provedeném výzkumu nemůže dojít k ohrožení zdraví pacientů.
4.2
Příklad v ekonomické predikci
Cílem ekonomického experimentu je vyhodnocovat podnikovou finanční situaci technologiemi umělé inteligence způsobem přiblížujícím se lidskému faktoru – finančnímu analytikovi. První fáze experimentu byla zaměřena na automatizovanou identifikaci několika typických finančních situací v sektoru pivovarů ČR, v případě identifikace atypické finanční situace pak odkázat na vyhodnocení člověkem. Experiment byl navržen jako otevřený pro využití různých uměle-inteligenčních technologií a přístupů a tím i zapojení řady kolegů orientujících se na různé oblasti umělé inteligence. Na tomto místě je popsána úvodní společná báze experimentu, poté je zaměřena pozornost na binární nákladově orientovanou klasifikaci neuronovými sítěmi na případu predikce stability podniku s cílem poukázat na možnost využití ROC analýzy jako náhrady nevyhovujícího kritéria klasifikační přesnosti spolu se stanovením optimální hraniční hodnoty na výstupním neuronu sítě. Pro-
4.2
Příklad v ekonomické predikci
114
blematika je popsána pouze do metodické fáze, ke konkrétní realizaci experimentu nedošlo. Postupovat je však možné obdobně jako u popsaného příkladu medicínské predikce v předchozí kapitole. Na experimentu spolupracovali kolegové z Ústavu informatiky, managementu a podnikových financí PEF MZLU v Brně, zejména pak dr. Redlichová. Jedním z přístupů aplikace neuronových sítí na problému predikce finanční tísně/bankrotu je použití historických dat s informací o úpadku/přežití firmy spolu s ekonomickými údaji za předcházející období. Neuronová síť se poté učí mapovat vzory obou tříd podle vstupních ekonomických ukazatelů s cílovým vektorem představujícím úpadek či přežití firmy. Jiným možným přístupem je využití expertního hodnocení finančního analytika, který vyhodnotí předložené ekonomické údaje a pro každou z firem stanoví finanční diagnózu, tj. cílový vektor. Druhý z přístupů byl použit v popisovaném experimentu. Ani jeden z přístupů nemusí být omezen na zařazení firmy do jedné ze dvou tříd, úloha může mít charakter vícetřídní klasifikace. Je-li schopen finanční analytik popsat pravidla rozhodovacího případu, může být výhodnější použít namísto neuronových sítí expertní systém. Data experimentu představují účetní údaje, resp. z nich vypočtené hodnoty poměrových ukazatelů finanční analýzy pro 35 pivovarů ČR v období 1993–2005. Data byla poskytnuta doc. Žufanem z Ústavu managementu PEF MZLU v Brně. Délka časového období s dostupnými údaji se mezi podniky liší od 1 do 13 let s průměrnou délkou období více než 7 let. Přestože pro některé podniky byly k dispozici údaje i za časovou jednotku kratší než jeden rok, použitou elementární časovou jednotkou byl jeden kalendářní rok. V případě predikce finanční tísně je obvyklé rozdělení dat na část několika let před úpadkem (obvykle tří až čtyřletá data) za účelem predikce v následujícím období. Popisovaný experiment má jiný charakter. Finanční expert vyhodnocuje finanční data za daný rok a pro něj stanovuje finanční diagnózu. V reálné aplikaci by měl analytik přihlédnout k časovému vývoji a nevyhodnocovat jednotlivé roky izolovaně. V naší studii byla zvažována varianta rozšíření dat o ukazatel vyjadřující dynamiku vývoje finanční situace v čase. Finanční situace podniku byla finančním analytikem (dr. Redlichovou) hodnocena na základě poměrových ukazatelů stability (ukazatele likvidity a zadluženosti) a ukazatelů výnosnosti (ukazatele aktivity a rentability). Pro predikci finanční tísně, resp. bankrotu je důležitá zejména skupina ukazatelů stability, ukazatele výnosnosti hodnotí efektivnost využívání podnikových zdrojů. Celkem bylo použito 14 finančních ukazatelů – prediktivních proměnných uvedených v následujícím přehledu (způsob výpočtu a interpretace ukazatelů jsou vysvětleny v tab. 1 a tab. 2). Ukazatel úrokové krytí vykazoval v datech u mnoha případů chybnou hodnotu. Ukazatele stability (první tři ukazatele likvidity, zbývající ukazatele zadluženosti): – běžná likvidita, – pohotová likvidita, – hotovostní likvidita,
4.2
– – – – –
Příklad v ekonomické predikci
115
krátkodobá zadluženost, dlouhodobá zadluženost, dluh na vlastním kapitálu, podkapitalizování, úrokové krytí.
Ukazatele výnosnosti (první čtyři ukazatele aktivity, zbývající ukazatele rentability): – doba obratu celkových aktiv, – doba obratu zásob, – doba obratu pohledávek, – doba obratu závazků, – ROE (rentabilita vlastního kapitálu), – ROA (rentabilita celkového kapitálu). Finanční analytička při hodnocení postupovala dvoustupňově, v prvním stupni hodnotila a učinila závěr samostatně za oblast likvidity, zadluženosti, aktivity a rentability, poté v druhém stupni zařadila daný rok daného podniku do jedné z tříd představujících odpovídající finančních situaci. Likvidita byla samostatně zařazena do tří stupňů – nízká, střední a vysoká, resp. neobvyklá situace. Podobně i zadluženost podniku, avšak každý z uvedených tří stupňů navíc rozlišoval situaci, kdy podnik kryje/nekryje stálá aktiva dlouhodobými závazky (tedy zadluženost nízká, nízká a SA kryjí DZ, nízká a SA nekryjí DZ, obdobně zbývající dva stupně). Aktivita byla samostatně zařazena do následujících tříd – dobrá, dobrá a poskytuje obchodní úvěr, dobrá a využívá obchodní úvěr, nízká, nízká a poskytuje obchodní úvěr, nízká a využívá obchodní úvěr, střední a poskytuje obchodní úvěr, střední a využívá obchodní úvěr, špatná, špatná a využívá obchodní úvěr. Rentabilita byla zařazena do těchto tříd: dobrá, dobrá a cizí zdroje se nevyplatí, dobrá a cizí zdroje se vyplatí, nízká, nízká a cizí zdroje se nevyplatí, nízká a cizí zdroje se vyplatí, záporná. Každá z uvedených čtyřech oblastí obsahovala také třídu, kdy výsledek nelze určit. V druhém stupni byl každý z hodnocených roků zařazen do jedné z cca. 39 tříd představujících souhrnné hodnocení finančního experta. Vzhledem k velkému počtu tříd, z nichž některé samostatně vyčleněné v podstatě identifikovaly stejnou finanční situaci, a vzhledem k tomu, že řada tříd byla zastoupena nízkým počtem případů nebo nepředstavovala jednu z typických situací, došlo k redukci tříd s omezením na nejvíce zastoupené nebo typické třídy. Ostatní tomuto kritériu nevyhovující třídy byly shrnuty do třídy představující situaci, kdy výsledek nelze určit (atypická situace). Takto došlo k redukci na následujících 12 výsledných tříd: – – – –
T1: T2: T3: T4:
dobrá stabilita i výnosnost (39 případů), dobrá stabilita, špatná rentabilita (24 případů), dobrá stabilita, špatná výnosnost (32 případů), špatná likvidita (20 případů),
4.2
– – – – – – – –
Příklad v ekonomické predikci
116
T5: špatná likvidita, špatná aktivita (1 případ), T6: špatná likvidita, špatná rentabilita (69 případů), T7: špatná likvidita, špatná výnosnost (12 případů), T8: špatná stabilita (17 případů), T9: špatná stabilita, špatná rentabilita (5 případů), T10: špatná stabilita, špatná výnosnost (13 případů), T11: špatná zadluženost, špatná rentabilita (1 případ), T12: nelze určit (16 případů).
Kdyby byl expert schopen výše uvedné hodnocení formulovat v obecné rovině sadou pravidel, byla by výhodnou uměle-inteligenční technologií expertní, resp. fuzzy-expertní systém. Není vyloučeno, že by finanční analytička po určitém čase tato pravidla dokázala specifikovat. V popisovaném případě byla získána báze vzorů s 11 vstupními prediktivními proměnnými představovanými hodnotami finančních ukazatelů za příslušný rok a podnik, a ke každému vzoru zařazení do jedné z 12 výsledných tříd představovaných hodnocením finančního experta. Ve finální bázi došlo k mírné modifikaci prediktivních vstupů – byly vypuštěny ukazatele dluh na vlastním kapitálu a úrokové krytí a analytické ukazatele krátkodobé a dlouhodobé zadluženosti nahradil souhrnný ukazatel celkové zadluženosti. Také byly některé vzory dodatečně vyfiltrovány. Mezistupeň hodnocení samostatných čtyřech oblastí není v tomto případě nezbytné analyzovat. Za dané situace je možné otestovat schopnost neuronové sítě separovat uvedené třídy – případ vícetřídní klasifikace. V dalším postupu je zaměřena pozornost na identifikaci špatné stability podniku v daném roce neuronovými sítěmi, avšak více než cílem uvedené predikce je představení ilustrativního příkladu binární a zároveň nákladově orientované klasifikace řešené neuronovými sítěmi. V datové bázi je možné postihovat případy, kdy dochází v daném roce určitého podniku k narušení stability snížením jeho platební schopnosti, anebo celá oblast stability je expertem hodnocena negativně. Tomuto stavu odpovídají z výše uvedeného přehledu třídy T4, T6–T10. Naopak pozitivně hodnocená stabilita byla identifikována u tříd T1–T3. Zbylé třídy je možné pro nízké zastoupení jedním případem, resp. třídou zastupující atypické případy vyloučit. Vzniká tak báze přibližně 230 případů rozdělených do dvou tříd. Samozřejmostí před použitím dat je jejich očištění a vyloučení extrémů. Obecně při každém klasifikačním problému by měla být prozkoumána separabilita na základě jednotlivých prediktivních proměnných vedoucí k redukci dimenzionality dat. Aniž by se disertační práce hlouběji zabývala tímto problémem, lze z logiky finanční predikce stability vyloučit ukazatele aktivity a rentability, čímž by poklesl počet prediktivních vstupů z 11 na 5. Redukce dimenzionality je důležitá i v případech vysokého počtu prediktivních proměnných a zároveň nízkeho rozsahu datové báze. Ideálním případem je nalezení jedné dobře diskriminující proměnné, čímž zcela odpadá potřeba výstavby složitějšího integrovaného modelu. Pro další postup tohoto ilustrativního příkladu předpokládejme, že hodnocení podnikové stability vyžaduje
4.2
Příklad v ekonomické predikci
117
všech pět prediktivních vstupů, byť by finanční expert pravděpodobně mohl být schopen identifikovat narušenou stabilitu i s nižším počtem ukazatelů. Při výběru metody vhodné pro klasifikační případ lze neuronovým sítím přes jejich výhody připsat na vrub zejména jejich uzavřenost a obtížnou interpretovatelnost. Naproti tomu u metod jako je logistická regrese nebo rozhodovací stromy toto omezení neexistuje, proto je součástí řady studií srovnání více typů metod. Datový set je nezbytné rozdělit do setů – trénovacího setu určeného k trénování neuronové sítě, při použití metody včasného zastavení trénování z důvodu ochrany proti jejímu přetrénování je nutné vyhradit validační set, na kterém je prediktivní výkon sítě ověřován v průběhu trénování, a zatřetí nezávislý testovací set, za účelem ověření prediktivního výkonu sítě po jejím natrénování. Poměr mezi uvedenými sety se liší, lze doporučit například vyhrazení 50 % dat na trénovací set, 20 % na validační set a 30 % na set testovací. V případě nedostatku dat je nutné modifikovat metodiku trénování a ověřování na použití metod cross-validace, resp. při extrémním nedostatku dat až po metodu leave-one-out. Narozdíl od publikací, které uměle vyvažují sety s oběma třídami, považuji za účelnější dodržet poměr zastoupení obou tříd shodný s realitou. Poměr mezi oběma třídami by měl být dodržen i v jednotlivých setech náhodně generovaných z původního souboru. Je možné použít jednoduchou metriku minima rozdílu průměru a směrodatné odchylky pro všechny dimenze mezi generovaným setem a původním souborem na předem daném maximálním počtu generovacích pokusů. V případě, že se hodnoty jednotlivých dimenzí v datech vzájemně liší, může být pro snadnější učení sítě nezbytné data normalizovat (separátně pro každou dimenzi odečíst průměr a podělit výběrovou směrodatnou odchylkou). Pro nákladově orientovanou klasifikaci s využitím ROC analýzy je nutné jednu z tříd označit jako pozitivní a druhou třídu jako negativní. V souladu s logikou ROC analýzy a popisované predikce je vhodné jako pozitivní případy označit ty vzory, kde je porušena finanční stabilita podniku. Vzory bez narušené stability jsou negativní. Obě třídy je nutné v datech kódovat na příslušnou výstupní hodnotu, čímž je pro každý vzor k dispozici vektor vstupních hodnot a k němu náležející cílová hodnota. Uvedeného mapování se bude poté trénováním snažit dosáhnout neuronová síť. Pozitivní vzory je vzhledem k obvyklé sigmoidální aktivační funkci na výstupním neuronu sítě a také vzhledem k pozdější analýze výsledků výhodné kódovat hodnotou 1 a negativní vzory hodnotou 0. Před samotným trénovacím procesem je nutné stanovit typ neuronové sítě, častým typem je vícevrstvá perceptronová síť (MLP). V souvislosti s odlišnými aproximačními schopnostmi x-vrstvých neuronových sítí je potřebné stanovit počet vrstev sítě (obvykle dvouvrstvé a třívrstvé sítě), dále aktivační funkce na skrytých neuronech (typicky logistická sigmoida nebo tanh) a výstupním neuronu (logistická sigmoida) spolu s příslušnou chybovou funkcí (viz. vazba mezi aktivační funkcí výstupního neuronu a chybovou funkcí na s. 18). Způsob hledání nejlepší síťové architektury významně ovlivňuje čas potřebný k vyřešení úlohy, obvykle nebývá možné provést vyčerpávající hledání z prostoru možných architektur, k dispozici jsou i tzv.
4.2
Příklad v ekonomické predikci
118
growing algoritmy a jejich protějšek, prořezávací algoritmy (viz. s. 23). Obvyklou metodou učení neuronové sítě je metoda zpětného šíření chyb (backpropagation), s výhodou v on-line verzi a s momentem. Problematické bývá správné určení kombinace učícího koeficientu a momentu, za tímto účelem je nezbytné provést řadu pretestů. Existuje několik metod, které chrání síť před přetrénováním, jednou z již výše uvažovaných možností je metoda včasného zastavení trénování v bodě, kdy na nezávislém validačním setu dochází k poklesu prediktivního výkonu. Vzhledem k tomu, že neuronová síť je výrazně ovlivněna volbou počátečních vah, je nezbytné zvolit odpovídající metody inicializace a neuronovou síť zkusit inicializovat několikrát (viz. s. 20). Z hlediska nákladově orientované klasifikace vzniká otázka, jak závažná je chyba nekorektně identifikované nestability u podniku ve skutečnosti stabilního (falešný poplach, FP) oproti nekorektně identifikované stabilitě na jinak finančně nestabilním podniku (falešně negativita, FN). Lze očekávat, že oba typy chyb s sebou nesou nestejné náklady. Například z pohledu interního auditu nenese FP tak vysoké náklady jako FN, neboť falešný poplach vede k detailnějšímu prozkoumání finanční situace – například najmutí finančního analytika, zatímco falešná negativita může ohrozit budoucí činnost podniku. Jiná situace je při auditu se zvěřejňovanými výsledky. Falešný poplach může v tomto případě ohrozit dostupnost úvěrových prostředků pro podnik, a tím ohrozit jeho budoucí investiční plán. Obdobný příklad by bylo možné předložit u bankovní instituce, která rozhoduje o poskytnutí úvěru. V případě neuronové sítě, která se na výstupním neuronu se sigmoidální aktivační funkcí chová jako pravděpodobnostní klasifikátor, je otázkou stanovení evaluačního kritéria pro výběr nejlepší sítě a umístění hraniční hodnoty (cut-off ) na výstupu sítě, která odděluje pozitivní případy od případů negativních. ROC analýza je schopna pomocí ROC křivky vizualizovat výkon klasifikátoru přes všechny možné hraniční hodnoty a pomocí kritéria plochy pod křivkou (AUC) srovnávat výkon klasifikátorů i pro předem neurčené náklady misklasifikace a předem neurčený poměr výskytu pozitivních a negativních případů v cílových podmínkách. Problémem kritéria AUC je křížení ROC křivek, kdy výběr nejlepšího klasifikátoru závisí na cílových podmínkách (zevrubně diskutováno v metodické pasáži – zejména Provost a Fawcett (1997) a Obuchowski (2003)). Literatura (například Obuchowski (2003)) v této situaci navrhuje použít odhad sensitivity ve stanovené fp rate, anebo odhad fp rate ve stanovené sensitivitě, případně srovnávat částečnou AUC na relevantní části ROC křivky podle cílových podmínek (tolerance určitého limitu falešných pozitivit nebo falešných negativit). Je-li k dispozici informace, i expertním odhadem uměle stanovená, o nákladovosti FP oproti FN, a zároveň prevalence pozitivních případů (například z minulé statistiky), je možné stanovit polohu optimálního operačního bodu na ROC křivce, který odpovídá příslušné hraniční hodnotě, resp. určitému rozpětí potenciálních hraničních hodnot. V této situaci je výhodné použití i klasických metod rozhodovací analýzy založených na minimalizaci nákladové funkce. Odvození optimálního operačního bodu je uvedeno v rámci popisu metody ROC na s. 37–40. Poloha optimálního
4.2
Příklad v ekonomické predikci
119
operačního bodu je dána sklonem ROC křivky, který je dán podílem násobku pravděpodobnosti výskytu negativní instance a nákladů FP ku násobku pravděpodobnosti výskytu pozitivní instance a nákladů FN. Matematický vzorec je k dispozci ve výše uvedené lokaci. Pro příklad vnitropodnikového hodnocení stability bude optimální operační bod ležet v horní části ROC křivky (tj. vyšší sensitivita klasifikátoru oproti nižší specificitě), neboť vyšší váhu má identifikace pozitivní situace i za cenu nákladově méně významných falešných poplachů. Sklon ROC křivky je v této části velmi nízký díky vyšší nákladovosti FN a také díky vyšší prevalenci pozitivních případů. V metodické části práce je rovněž popsána metoda ROC Convex Hull autorů Provost a Fawcett, která je schopna vytvořit hybridní klasifikátor pro všechny možné cílové podmínky aplikace s klíčovou vlastností garance aspoň takového výkonu, jakého je schopen dosáhnout nejlepší klasifikátor v daných cílových podmínkách. Ukázkovým příkladem pro uvedený typ ekonomické predikce je v předchozí kapitole popsaný experiment z oblasti medicíny. V tomto případě byla poloha optimálního operačního bodu stanovena požadovaným minimem korektní identifikace aspoň u 95 % pozitivních případů (minimální sensitivita). Jako nejlepší klasifikátory byly poté hledány ty sítě, které poskytovaly při tomto požadavku maximální specificitu, tj. minimum falešných poplachů. Hraniční hodnota je pak dána hodnotou, při které dochází k dosažení minimální sensitivity. Jedná se o jednoduchou, ale prakticky účinnou metodu. Obdobným způsobem lze postupovat i v uvedeném případu vnitropodnikové ekonomické predikce finanční stability.
5
5
ZÁVĚR
120
Závěr
Disertační práce představuje alternativní metodiku výstavby a evaluace binárního klasifikátoru v aplikacích ekonomického výzkumu predikce finanční tísně a bankrotu neuronovými sítěmi. Stávající ekonomický výzkum z velké části trpí problémem nezohlednění různé nákladovosti misklasifikací a souvisejícím použitím evaluačního kritéria klasifikační přesnosti. Tento přístup omezuje aplikovatelnost výsledků řady dosavadních studií v praxi. Vlastní průzkum literatury založený téměř výhradně na impaktovaných publikacích za posledních cca. dvacet let potvrzuje, že kritérium klasifikační přesnosti je v případech predikce finanční tísně neuronovými sítěmi dominantní evaluační metrikou. Přestože řada publikací rozlišuje klasifikační chyby typu I a II a poukazuje na jejich rozdílnou závažnost, jen málo z nich uvažuje různé náklady obou typů chyb nebo určitým způsobem při tvorbě klasifikačního modelu upřednostňuje jeden z typů chyb. Některé studie používají i pevně danou hraniční hodnotu na výstupu sítě. Tyto problémy označují i někteří autoři publikovaných studií jako jedny z hlavních nedostatků ekonomického výzkumu. Metoda Receiver Operating Characteristics (ROC) i na ní založená metodika výstavby a evaluace binárního klasifikátoru dokáží uvedená omezení řešit. Tato metoda i metodika nejsou v ekonomickém výzkumu predikce finanční tísně a bankrotu neuronovými sítěmi příliš známé (spíše výjimky), naopak v jiných oblastech, zejména v biomedicínském výzkumu, jsou běžně používané již několik desetiletí. Disertační práce navrhuje širší použití této existující metodiky i ve výzkumu ekonomickém. Metoda ROC umožňuje vizualizovat prediktivní výkon klasifikátoru v podobě tzv. ROC grafu a souvisejícími metrikami sensitivity, specificity a plochou pod ROC křivkou (AUC) nahradit evaluační kritérium klasifikační přesnosti. Metoda rovněž usnadňuje modifikaci klasifikátoru při změně cílových podmínek aplikace. Aplikace alternativní metodiky byla ukázána na příkladu predikce z oblasti medicíny a ilustrativně též na případu predikce finanční stability. Mezi oběma aplikacemi lze spatřovat značnou podobnost, byť se jedná o zcela různé obory. V prvním z uvedených experimentů se podařilo najít neuronovou síť, která ve srovnání s člověkem přibližně stejně úspěšně odhaduje předoperační patologické stádium nádoru prostaty na základě čtyř vstupních prediktivních proměnných. Velmi podobně lze na základě pěti ukazatelů finanční likvidity a zadluženosti detekovat narušenou finanční stabilitu podniku. Ekonomický experiment sice dokončen nebyl, avšak postupovat lze obdobně jako u experimentu medicínského. Více než konkrétní číselné výsledky dané aplikace je přínosem práce její metodická stránka. V disertační práci byly ukázány základní principy zmiňovaných metod. Účelem textu není popsat aplikaci těchto metod vyčerpávajícím způsobem. Nutno přiznat, že tohoto cíle by byl snáze a jistě lépe schopen dosáhnout statistik, což žel není případ autora této práce. Přesto se domnívám, že dalšímu navazujícímu výzkumu zaměřeného na nákladově orientovanou binární klasifikaci práce usnadňuje cestu.
6
6
LITERATURA
121
Literatura
Ahn, B. S., Cho, S. S., Kim, C. Y. The integrated methodology of rough set theory and artificial neural network for business failure prediction. Expert Systems with Applications, č. 18, 2000, s. 65–74. ISSN 0957-4174. Alam, P. a kol. The use of fuzzy clustering algorithm and self-organizing neural networks for identifying potentially failing banks: an experimental study. Expert Systems with Applications, č. 18, 2000, s. 185–199. ISSN 0957-4174. Alfaro, E. a kol. Bankruptcy forcasting: An empirical comparison of AdaBoost and neural networks. Decision Support Systems, č. 45, 2008, s. 110–122. ISSN 0167-9236. Altman, E. I., Marco, G., Varetto, F. Corporate distress diagnosis: Comparisons using linear discriminant analysis and neural networks (the Italian experience). Journal of Banking and Finance, č. 18, 1994, s. 505–529. ISSN 0378-4266. Anaesthetist.com The magnificent ROC [online]. [cit. 29. září 2008]. Dostupné na Internetu:
. Back, B., Sere, K., Vanharanta, H. Managing complexity in large data bases using self-organizing maps. Accounting Management and Information Technologies, č. 8, 1998, s. 191–210, ISSN 0959-8022. Back, B. a kol. Comparing numerical data and text information from annual reports using self-organizing maps. International Journal of Accounting Information Systems, č. 2, 2001, s. 249–269. ISSN 1467-0895. Back, B., Laitinen, T., Sere, K. Neural Networks and Genetic Algorithms for Bankruptcy Predictions. Expert Systems with Applications, č. 11/4, 1996, s. 407–413, ISSN 0957-4174. Bennell, J. A. a kol. Modelling sovereign credit ratings: Neural networks versus ordered probit. Expert Systems with Applications, č. 30, 2006, s. 415–425, ISSN 0957-4174. Bishop, C. M. Neural Networks for Pattern Recognition. Oxford: Calderon Press, 1995. ISBN 0-19-853864-2. Bishop, C. M. Pattern Recognition and Machine Learning. Springer, 2006. ISBN 0-387-31073-8. Boritz, J. E., Kennedy D. B. Effectiveness of Neural Network Types for Prediction of Business Failure. Expert Systems With Applications, č. 9/4, 1995, s. 503–512. ISSN 0957-4174. Boyacioglu, M. A., Kara, Y., Baykan, O. K. Predicting bank financial failures using neural networks, support vector machines and multivariate statistical methods: A comparative analysis in the sample of savings deposit insurance fund (SDIF) transferred banks in Turkey. Expert Systems with Applications, v tisku, 2008, s. xxx–xxx. ISSN 0957-4174.
6
LITERATURA
122
Burgess, A. N., Refenes, A-P. N. Modelling non-linear moving average processes using neural networks with error feedback: An application to implied volatility forecasting. Signal Processing, č. 74, 1999, s. 89–99, ISSN 0165-1684. Calderon, T. G., Cheh, J. J. A roadmap for future neural networks research in auditing and risk assessment. International Journal of Accounting Information Systems, č. 3, 2002, s. 203–236. ISSN 1467-0895. Celik, A. E., Karatepe, Y. Evaluating and forecasting banking crises through neural network models: An application for Turkish banking sector. Expert Systems with Applications, č. 33, 2007, s. 809–815, ISSN 0957-4174. Chang, P. C., Liu, C. H., Wang, Y. W. A hybrid model by clustering and evolving fuzzy rules for sales decision supports in printed circuit board industry. Decision Support Systems, č. 42, 2006, s. 1254–1269. ISSN 0167-9236. Chavarnakul, T., Enke, D. Intelligent technical analysis based equivolume charting for stock trading using neural networks. Expert Systems with Applications, v tisku, 2007, s. xxx–xxx, ISSN 0957-4174. Chen, A. S., Leung, M. T., Daouk, H. Application of neural networks to an emerging financial market: forecasting and trading the Taiwan Stock Index. Computers & Operations Research, č. 30, 2003, s. 901–923. ISSN 0305-0548. Chen, M. C., Huang, S. H. Credit scoring and rejected instances reassigning through evolutionary computation techniques. Expert Systems with Applications, č. 24, 2003, s. 433–441. ISSN 0957-4174. Chen, S. K., Mangiameli, P., West, D. The Comparative Ability of Selforganizing Neural Networks Define Cluster Structure. Omega, č. 23/3, 1995, s. 271–279. ISSN 0305-0483. Chen, W. H., Shih, J. Y. A study of Taiwan’s issuer credit rating systems using support vector machines. Expert Systems with Applications, č. 30, 2006, s. 427– 435. ISSN 0957-4174. Chen, W. S., Du, Y. K. Using neural networks and data mining techniques for the financial distress prediction model. Expert Systems with Applications, v tisku, 2008, s. xxx–xxx. ISSN 0957-4174. Cho, S., Kim, J., Bae, J. K. An integrative model with subject weight based on neural network learning for bankruptcy prediction. Expert Systems with Applications, v tisku, 2007, s. xxx–xxx. ISSN 0957-4174. Christodoulakis, G., Satchell, S. The Analytics of Risk Model Validation. Elsevier, 2008. ISBN 0-7506-8158-6. Kapitola 8, Analytic models of the ROC curve: Applications to credit rating model validation, s. 113–133. Cogger, K. O., Fanning, K. An introduction to adaptive logic networks with an application to audit risk assessment. Unpublished working paper, Central Missouri State University, 1997. Davalos, S., Gritta, R. D., Chow, G. The application of a neural network approach to predicting bankruptcy risks facing the major US air carriers: 1979– 1996. Journal of Air Transport Management, č. 5, 1999, s. 81–86. ISSN 09696997.
6
LITERATURA
123
Davis, J. T., Massey, A. P., Lovell II, R. E. R. Supporting a complex audit judgment task: An expert network approach. European Journal of Operational Research, č. 103, 1997, s. 350–372. ISSN 0377-2217. Desai, V. S., Crook, J. N., Overstreet, G. A. A comparison of neural networks and linear scoring models in the credit union environment. European Journal of Operational Research, č. 95, 1996, s. 24–37. ISSN 0377-2217. Ding, Y., Song, X., Zen, Y. Forecasting financial condition of Chinese listed companies based on support vector machine. Expert Systems with Applications, č. 34, 2008, s. 3081–3089. ISSN 0957-4174. Donato, J. M. a kol. Mining multi-dimensional data for decision support. Future Generation Computer Systems, č. 15, 1999, s. 433–441, ISSN 0167-739X. Drummond, C., Holte, R. Exploiting the cost (in)sensitivity of decision tree splitting criteria. In Langley, P. (ed.) Proceedings of the Seventeenth International Conference on Machine Learning (ICML 2000). Morgan Kaufmann, 2000, s. 239–246. ISBN 1-55860-707-2. Eakins, S. G., Stansell, S. R. Can value-based stock selection criteria yield superior risk-adjusted returns: an application of neural networks. International Review of Financial Analysis, č. 12, 2003, s. 83–97. ISSN 1057-5219. Enke, D., Thawornwong, S. The use of data mining and neural networks for forecasting stock market returns. Expert Systems with Applications, č. 29, 2005, s. 927–940. ISSN 0957-4174. Erkel, A. R., Pattynama, P. M. T. Receiver operating characteristic (ROC) analysis: Basis principles and applications in radiology. European Journal of Radiology, č. 27, 1998, s. 88–94. ISSN 0720-048X. Fawcett, T. ROC Graphs: Notes and Practical Considerations for Researchers. Technická zpráva HP Laboratories. Kluwer Academic Publishers, 2004. (Upravená verze původní zprávy.) [online]. [cit. 15. září 2008]. Dostupné na Internetu: . Fletcher, D., Goss, E. Applications: Forcasting with neural networks: An application using bankruptcy data. Information & Management, č. 24, 1993, s. 159– 167, ISSN 0378-7206. Gaganis, C., Pasiouras, F., Doumpos, M. Probabilistic neural networks for the identification of qualified audit opinions. Expert Systems with Applications, č. 32, 2007, s. 114–124. ISSN 0957-4174. Gim, G., Whalen, T. Logical second order models: Achieving synergy between computer power and human reason. Information Sciences, č. 114, 1999, s. 81– 104, ISSN 0020-0255. Glorfeld, L. W., Hardgrave, B. C. An improved method for developing neural networks: The case of evaluating commercial loan creditworthiness. Computers & Operations Research, č. 23/10, 1996, s. 933–944. ISSN 0305-0548. Greiner, M., Pfeiffer, D., Smith, R. D. Principles and practical application of the receiver-operating characteristic analysis for diagnostic tests. Preventive Veterinary Medicine, č. 45, 2000, s. 23–41. ISSN 0167-5877.
6
LITERATURA
124
Gurney, K. An introduction to neural networks. London (UK): UCL Press, 1997. Halpern , E. J. a kol. Comparison of receiver operating characteristic curves on the basis of optimal operating points. Academic Radiology, č. 3, 1996, s. 245– 253. ISSN 1076-6332. Haykin, S. Neural networks: a comprehensive foundation. New York: Macmillan, 1994. Hu, Y. C. Incorporating a non-additive decision making method into multi-layer neural networks and its application to financial distress analysis. Knowledge-Based Systems, č. 21, 2008, s. 383–390. ISSN 0950-7051. Hua, Z. a kol. Predicting corporate nancial distress based on integration of support vector machine and logistic regression. Expert Systems with Applications, č. 33, 2007, s. 434–440, ISSN 0957-4174. Huang, Z. a kol. Credit rating analysis with support vector machines and neural networks: a market comparative study. Decision Support Systems, č. 37, 2004, s. 543–558. ISSN 0167-9236. Hung, C., Chen, J. H. A selective ensemble based on expected probabilities for bankruptcy prediction. Expert Systems with Applications, v tisku, 2008, s. xxx– xxx. ISSN 0957-4174. Hung, S. Y., Liang, T. P., Liu, V. W. C. Integrating arbitrage pricing theory and artificial neural networks to support portfolio management. Decision Support Systems, č. 18, 1996, s. 301–316, ISSN 0167-9236. Ince, H., Trafalis, T. B. A hybrid model for exchange rate prediction. Decision Support Systems, č. 42, 2006, s. 1054–1062. ISSN 0167-9236. Jain, B. A., Nag, B. N. Performance evaluation of neural network decision models. J Manage Inf Syst 1997, 14(2), 1997, s. 201–216. Janssens, D. a kol. Adapting the CBA algorithm by means of intensity of implication. Information Sciences, č. 173, 2005, s. 305–318. ISSN 0020-0255. Jiao, Y., Syau, Y. R., Lee, E. S. Modelling credit rating by fuzzy adaptive network. Mathematical and Computer Modelling, č. 45, 2007, s. 717–731, ISSN 0895-7177. Jo, H., Han, I. Integration of Case-Based Forecasting, Neural Network, and Discriminant Analysis for Bankruptcy Prediction. Expert Systems with Applications, č. 11/4, 1996, s. 415–422, ISSN 0957-4174. Jo, H., Han, I., Lee, H. Bankruptcy Prediction Using Case-Based Reasoning, Neural Networks, and Discriminant Analysis. Expert Systems with Applications, č. 13, 1997, s. 97–108. ISSN 0957-4174. John, C. H. S., Balakrishnan, N., Fiet, J. O. Modeling the relationship between corporate strategy and wealth creation using neural networks. Computers & Operations Research, č. 27, 2000, s. 1077–1092, ISSN 0305-0548. Kanas, A., Yannopoulos, A. Comparing linear and nonlinear forecasts for stock returns. International Review of Economics and Finance, č. 10, 2001, s. 383– 398. ISSN 1059-0560.
6
LITERATURA
125
Kiang, M. Y. a kol. Do reverse stock splits indicate future poor stock performance? Expert Systems with Applications, v tisku, 2008, s. xxx–xxx. ISSN 0957-4174. Kim, K. J. Artificial neural networks with evolutionary instance selection for financial forecasting. Expert Systems with Applications, č. 30, 2006, s. 519–526. ISSN 0957-4174. Kim, K. S., Han, I. The cluster-indexing method for case-based reasoning using self-organizing maps and learning vector quantization for bond raing cases. Expert Systems with Applications, č. 21, 2001, s. 147–156. ISSN 0957-4174. Kim, M. J., Han, I. The discovery of experts decision rules from qualitative bankruptcy data using genetic algorithms. Expert Systems with Applications, č. 25, 2003, s. 637–646. ISSN 0957-4174. Kim, S. H., Noh, J. H. Predictability of Interest Rates Using Data Mining Tools: A Comparative Analysis of Korea and the US. Expert Systems with Applications, č. 13/2, 1997, s. 85–95, ISSN 0957-4174. Kim, T. Y. a kol. Usefulness of artificial neural networks for early warning system of economic crisis. Expert Systems with Applications, č. 26, 2004, s. 583–590. ISSN 0957-4174. Kiviluoto, K. Predicting bankruptcies with the self-organizing map. Neurocomputing, č. 21, 1998, s. 191–201, ISSN 0925-2312. Ko, P. C., Lin, P. C. An evolution-based approach with modularized evaluations to forecast financial distress. Knowledge-Based Systems, č. 19, 2006, s. 84–91. ISSN 0950-7051. Kumar, N., Krovi, R., Rajagopalan, B. Financial decision support with hybrid genetic and neural based modeling tools. European Journal of Operational Research, č. 103, 1997, s. 339–349, ISSN 0377-2217. Kumar P. R., Ravi, V. Bankruptcy prediction in banks and firms via statistical and intelligent techniques – A review. European Journal of Operational Research, č. 180/1, 2007, s. 1–28. ISSN 0377-2217. Kuo, R. J., Xue, K. C. A decision support system for sales forecasting through fuzzy neural networks with asymmetric fuzzy weights. Decision Support Systems, č. 24, 1998, s. 105–126. ISSN 0167-9236. Lacher, R. C. a kol. A neural network for classifying the financial health of a firm. European Journal of Operational Research, č. 85, 1995, s. 53–65. ISSN 0377-2217. Lam, M. Neural network techniques for financial performance prediction: integrating fundamental and technical analysis. Decision Support Systems, č. 37, 2004, s. 567–581, ISSN 0167-9236. Lee, K., Booth, D., Alam, P. A comparison of supervised and unsupervised neural networks in predicting bankruptcy of Korean firms. Expert Systems with Applications, č. 29, 2005, s. 1–16. ISSN 0957-4174. Lee, K. C., Han, I., Kwon, Y. Hybrid neural network models for bankruptcy predictions. Decision Support Systems, č. 18, 1996, s. 63–72, ISSN 0167-9236.
6
LITERATURA
126
Lee, Y. C. Application of support vector machines to corporate credit rating prediction. Expert Systems with Applications, č. 33, 2007, s. 67–74. ISSN 09574174. Leigh, W., Paz, M., Purvis, R. An analysis of a hybrid neural network and pattern recognition technique for predicting short-term increases in the NYSE composite index. Omega, č. 30, 2002, s. 69–76. ISSN 0305-0483. Leigh, W., Purvis, R., Ragusa, J. M. Forecasting the NYSE composite index with technical analysis, pattern recognizer, neural network, and genetic algorithm: a case study in romantic decision support. Decision Support Systems, č. 32, 2002, s. 361–377, ISSN 0167-9236. Leshno, M., Spector, Y. Neural network prediction analysis: The bankruptcy case. Neurocomputing, č. 10, 1996, s. 125–147, ISSN 0925-2312. Li, H., Sun, J., Sun, B. L. Financial distress prediction based on OR-CBR in the principle of k-nearest neighbors. Expert Systems with Applications, v tisku, 2008, s. xxx–xxx. ISSN 0957-4174. Lin, F. Y., McClean, S. A data minig approach to the prediction of corporate failure. Knowledge-Based Systems, č. 14, 2001, s. 189–195. ISSN 0950-7051. Majhi, R., Panda, G., Sahoo, G. Efficient prediction of exchange rates with low complexity artificial neural network models. Expert Systems with Applications, v tisku, 2007, s. xxx–xxx. ISSN 0957-4174. Manzoni, K. Modeling Eurobond credit ratings and forecasting downgrade probability. International Review of Financial Analysis, č. 13, 2004, s. 277–300, ISSN 1057-5219. Mařík, V. a kol. Umělá inteligence. 4. díl. Praha: Academia, 2003. ISBN 80-2001044-0. Kapitola 7, Vybrané partie z neuronových sítí, s. 204–253 (Jiřina, M.). Min, J. H., Jeong, C. A binary classification method for bankruptcy prediction. Expert Systems with Applications, v tisku, 2008, s. xxx–xxx. ISSN 0957-4174. Min, J. H., Lee, Y. C. Bankruptcy prediction using support vector machine with optimal choice of kernel function parameters. Expert Systems with Applications, č. 28, 2005, s. 603–614. ISSN 0957-4174. Min, J. H., Lee, Y. C. A practical approach to credit scoring. Expert Systems with Applications, v tisku, 2007, s. xxx–xxx. ISSN 0957-4174. Min, S. H., Lee, J., Han, I. Hybrid genetic algorithms and support vector machines for bankruptcy prediction. Expert Systems with Applications, č. 31, 2006, s. 652–660, ISSN 0957-4174. Ng, G. S., Quek, C., Jiang, H. FCMAC-EWS: A bank failure early warning system based on a novel localized pattern learning and semantically associative fuzzy neural network. Expert Systems with Applications, v tisku, 2006, s. xxx– xxx, ISSN 0957-4174. Nguyen, M. N., Shi, D., Quek, C. A nature inspired Ying–Yang approach for intelligent decision support in bank solvency analysis. Expert Systems with Applications, č. 34, 2008, s. 2576–2587. ISSN 0957-4174.
6
LITERATURA
127
Nowman, K. B., Saltoglu, B. Continuous time and nonparametric modelling of U.S. interest rate models. International Review of Financial Analysis, č. 12, 2003, s. 25–34. ISSN 1057-5219. Obuchowski, N. A. Receiver operating characteristic curves and their use in radiology. Radiology, č. 229, 2003, s. 3–8. ISSN 1527-1315. Orr, G., Schraudolph, N., Cummins, F. CS-449: Neural Networks. Lecture Notes. Willamette University, 1999. [online]. [cit. 14. září 2008]. Dostupné na Internetu: . Pendharkar, P. C. A threshold varying bisection method for cost sensitive learning in neural networks. Expert Systems with Applications, č. 34, 2008, s. 1456– 1464. ISSN 0957-4174. Pérez-Rodríguez, J. V., Torra, S., Andrada-Félix, J. STAR and ANN models: forecasting performance on the Spanish ”Ibex-35” stock index. Journal of Empirical Finance, č. 12, 2005, s. 490–509. ISSN 0927-5398. Piramuthu, S., Shaw, M. J., Gentry, J. A. A classification approach using multi-layered neural networks. Decision Support Systems, č. 11, 1994, s. 509– 525. ISSN 0167-9236. Provost, F., Fawcett, T. Anlysis and Visualization of Classifier Performance: Comparison under Imprecise Class and Cost Distributions. In Heckerman, D., Pregibon, D., Uthurusami, R. (ed.) Proceedings of the Third International Conference on Knowledge Discovery and Data Mining. AAAI Press, 1997, s. xxx–xxx. ISBN 978-1-57735-027-9. Provost, F., Fawcett, T. Robust Classification for Imprecise Environments. Machine Learning Journal, č. 42/3, 2001, s. 203–231, ISSN 0885-6125. Provost, F., Fawcett, T., Kohavi, R. The Case Against Accuracy Estimation for Comparing Induction Algorithms. In Shavlik, W. J. (ed.) Proceedings of the Fifteenth International Conference on Machine Learning. Morgan Kaufmann Publishers, 1998, s. xxx–xxx. ISBN 1-55860-556-8. Qi, M., Wu, Y. Nonlinear prediction of exchange rates with monetary fundamentals. Journal of Empirical Finance, č. 10, 2003, s. 623–640, ISSN 0927-5398. Quah, T. S., Srinivasan, B. Improving returns on stock investment through neural network selection. Expert Systems with Applications, č. 17, 1999, s. 295– 301, ISSN 0957-4174. Quah, T. S. a kol. Towards integrating rule-based expert systems and neural networks. Decision Support Systems, č. 17, 1996, s. 99–118. ISSN 0167-9236. Ravi, V., Pramodh, C. Threshold accepting trained principal component neural network and feature subset selection: Application to bankruptcy prediction in banks. Applied Soft Computing, v tisku, 2007, s. xxx–xxx. ISSN 1568-4946. Refenes, A. N. a kol. Financial time series modelling with discounted least squares backpropagation. Neurocomputing, č. 14, 1997, s. 123–138, ISSN 0925-2312. Sedláček, J. Účetní data v rukou manažera. Finanční analýza v řízení firmy. Praha: Computer Press, 2001. 2. doplněné vydání. ISBN 80-7226-562-8.
6
LITERATURA
128
Serrano-Cinca, C. Self organizing neural networks for financial diagnosis. Decision Support Systems, č. 17, 1996, s. 227–238. ISSN 0167-9236. Shazly, M. R. E., Shazly, H. E. E. Forecasting currency prices using a genetically evolved neural network architecture. International Review of Financial Analysis, č. 8:1, 1999, s. 67–82, ISSN 1057-5219. Shin, K. S., Han, I. Case-based reasoning supported by genetic algorithms for corporate bond rating. Expert Systems with Applications, č. 16, 1999, s. 85–95. ISSN 0957-4174. Shin, K. S., Han, I. A case-based approach using inductive indexing for corporate bond rating. Decision Support Systems, č. 32, 2001, s. 41–52. ISSN 0167-9236. Shin, K. S., Lee, Y. J. A genetic algorithm application in bankruptcy prediction modeling. Expert Systems with Applications, č. xx, 2002, s. 1–8. ISSN 09574174. Shin, K. S., Lee, T. S., Kim, H. J. An application of support vector machines in bankruptcy prediction model. Expert Systems with Applications, č. 28, 2005, s. 127–135. ISSN 0957-4174. Stein, R. M. The relationship between default prediction and lending profits: Integrating ROC analysis and loan pricing. Journal of Banking & Finance, č. 29/5, 2005, s. 1213–1236. ISSN 0378-4266. Sůvová, H. a kol. Finanční analýza v řízení podniku, v bance a na počítači. Praha: Bankovní institut, a. s., 1999. ISBN 80-7265-027-0. Swets, J. A. a kol. Better decisions through science. Scientific American Magazine, č. 10, 2000, s.82–87. ISSN N/A. Tay, F. E. H., Cao, L. Application of support vector machines in financial time series forecasting. Omega, 2001, s. 309–317. ISSN 0305-0483. Tsai, C. F., Wu, J. W. Using neural network ensembles for bankruptcy prediction and credit scoring. Expert Systems with Applications, v tisku, 2007, s. xxx–xxx. ISSN 0957-4174. Tsakonas, A. a kol. Bankruptcy prediction with neural logic networks by means of grammar-guided genetic programming. Expert Systems with Applications, č. 30, 2006, s. 449–461. ISSN 0957-4174. Tsukuda, J., Baba, S. I. Predicting Japanese Corporate Bankruptcy In Terms of Financial Data Using Neural Network. Computers & Industrial Engineering, č. 27, 1994, s. 445–448, ISSN 0360-8352. Tung, W. L., Quek, C., Cheng, P. GenSo-EWS: a novel neural-fuzzy based early warning system for predicting bank failures. Neural Networks, č. 17, 2004, s. 567–587, ISSN 0893-6080. Udo, G. Neural Network Performance on the Bankruptcy Classification Problem. Computers & Industrial Engineering, č. 25, 1993, s. 377–380, ISSN 0360-8352. Varetto, F. Genetic algorithms applications in the analysis of insolvency risk. Journal of Banking & Finance, č. 22, 1998, s. 1421–1439, ISSN 0378-4266.
6
LITERATURA
129
Vellido, A., Lisboa, P. J. G., Vaughan, J. Neural networks in business: a survey of applications (1992–1998). Expert Systems with Applications, č. 17, 1999, s. 51–70, ISSN 0957-4174. Vida, S. A computer program for non-parametric receiver operating characteristic analysis. Computer Methods and Programs in Biomedicine, č. 40, 1993, s. 95– 101, ISSN 0169-2607. Weinstein, S., Obuchowski, N. A., Lieber, M. L. Clinical Evaluation of Diagnostic Tests. American Journal of Roentgenology, č. 184, 2005, s. 14–19, ISSN 0361-803X. West, D. Neural network credit scoring models. Computers & Operations Research, č. 27, 2000, s. 1131–1152, ISSN 0305-0548. Williamson, A. G. Refining a neural network credit application vetting system with a genetic algorithm. Journal of Microcomputer Applications, č. 18, 1995, s. 261–277. ISSN 0745 7138. Wilson, R. L., Sharda, R. Bankruptcy prediction using neural networks. Decision Support Systems, č. 11, 1994, s. 545–557. ISSN 0167-9236. Wittkemper, H. G., Steiner, M. Using neural networks to forecast the systematic risk of stocks. European Journal of Operational Research, č. 90, 1996, s. 577–588. ISSN 0377-2217. Wong, B. K., Bodnovich, T. A., Selvi, Y. Neural network applications in business: A review and analysis of the literature (1988–95). Decision Support Systems, č. 19, 1997, s. 301–320, ISSN 0167-9236. Wong, B. K., Selvi, Y. Neural network applications in finance: A review and analysis of literature (1990–1996). Information & Management, č. 34, 1998, s. 129– 139, ISSN 0378-7206. Wood, D., Dasgupta, B. Classifying trend movements in the MSCI U.S.A. capital market index – a comparison of regression, ARIMA and neural network methods. Computers & Operations Research, č. 23/6, 1996, s. 611–622. ISSN 0305-0548. Yang, Z. R., Platt M. B., Platt, H. D. Probabilistic Neural Networks in Bankruptcy Prediction. Journal of Business Research, č. 44, 1999, s. 67–74. ISSN 0148-2963. Yim, J., Mitchell, H. Comparison of country risk models: hybrid neural networks, logit models, discriminant analysis and cluster techniques. Expert Systems with Applications, č. 28, 2005, s. 137–148. ISSN 0957-4174. Yoon, Y., Guimaraes, T., Swales, G. Integrating artificial neural networks with rule-based expert systems. Decision Support Systems, č. 11, 1994, s. 497–507, ISSN 0167-9236. Zelinka, I. Umělá inteligence: Hrozba nebo naděje? Praha: BEN – technická literatura, 2003. ISBN 80-7300-068-7. Zell a kol. SNNS – Stuttgart Neural Network Simulator. User Manual, Version 4.2. University of Stuttgart a University of Tübingen, 2009. [online]. [cit. 21. ledna 2009]. Dostupné na Internetu:
6
LITERATURA
130
.
Zhang, G. a kol. Artificial neural networks in bankruptcy prediction: General framework and cross-validation analysis. European Journal of Operational Research, č. 116, 1999, s. 16–32. ISSN 0377-2217. Zhu, Z. a kol. Self-organizing learning array and its application to economic and financial problems. Information Sciences, č. 177, 2007, s. 1180–1192. ISSN 00200255. Zou, K. H., O’Malley, A. J., Mauri, L. Receiver-Operating Characteristic Analysis for Evaluating Diagnostic Tests and Predictive Models. Circulation, č. 115, 2007, s. 654–657. ISSN 1524-4539. Živělová, I. Podnikové finance Brno: MZLU v Brně, 2007. ISBN 978-80-7375-0350.
Přílohy
A
A
ODBORNÉ ZAMĚŘENí ČASOPISŮ VE FINANČNí OBLASTI
132
Odborné zaměření časopisů ve finanční oblasti
Zdroje: ScienceDirect (www.sciencedirect.com), popis v originálním jazyce převzat z Elsevier (www.elsevier.com). Applied Soft Computing Applied Soft Computing is an international journal promoting an integrated view of soft computing to solve real life problems. Soft computing is a collection of methodologies, which aim to exploit tolerance for imprecision, uncertainty and partial truth to achieve tractability, robustness and low solution cost. The focus is to publish the highest quality research in application and convergence of the areas of Fuzzy Logic, Neural Networks, Evolutionary Computing, Rough Sets and other similar techniques to address real world complexities. Computers & Operations Research Audience: Researchers and Practitioners interested in computers and operations research and management science, in particular, ecology, transportation, safety, reliability, urban planning, economics, inventory control, investment strategy and military analysis. Also Methodologists in relation to operations research. Computers & Industrial Engineering Audience: Researchers, teachers and practitioners involved in industrial engineering, computers and their applications, management scientists and operations research specialists. Decision Support Systems Audience: Researchers and Developers of DSS, Researchers and Practitioners in computer science, management and business administration, Computer Manufacturers, Software Developers. European Journal of Operational Research Audience: Researchers and practitioners working in the area of operational research/management science. Expert Systems with Applications Audience: knowledge Engineers, Managers, Systems Engineers, Automation and Control Engineers, Electronic and Electrical Engineers. Future Generation Computer Systems Audience: Computer Scientists, Managers and Policy Makers in Information Technology. Information & Management Audience: Researchers & Practitioners involved in the management of information systems.
A
ODBORNÉ ZAMĚŘENí ČASOPISŮ VE FINANČNí OBLASTI
133
Information Sciences Audience: Workers pursuing basic investigations in the areas of information science focusing on informatics and computer science, intelligent systems, and applications. International Journal of Accounting Information Systems Audience: Institutions, professionals, students, practitioners and academics. International Review of Economics & Finance The International Review of Economics & Finance (IREF) is a scholarly journal devoted to the publication of high quality theoretical and empirical articles in all areas of international economics, macroeconomics and financial economics. International Review of Financial Analysis The International Review of Financial Analysis (IRFA) is a non-affiliated refereed journal whose primary goal is to provide an outlet for high quality Financial Research. Journal of Banking & Finance Audience: Financial Economists, Policy Makers in both private and public institutions. Journal of Business Research Audience: Executives, Researchers, Scholars. Journal of Empirical Finance Audience: Econometricians, Financial Economists. Journal of Microcomputer Applications The Journal of Network and Computer Applications welcomes research contributions, surveys and notes in all areas relating to computer networks and applications thereof. Journal of Air Transport Management Audience: Senior policymakers, managers and planners within the air transport industries worldwide; executives in government regulatory and other bodies; lawyers and financial analysts; academics and researchers in economics, geography, transport studies, business studies, finance, law, politics, travel and tourism. Knowledge-Based Systems Audience: Users and developers of expert systems in industries such as defence, engineering, aerospace, strategic planning, medicine, geological exploration, navigation, finance, marketing, manufacturing and robotics.
A
ODBORNÉ ZAMĚŘENí ČASOPISŮ VE FINANČNí OBLASTI
134
Mathematical and Computer Modelling Audience: Mathematicians, engineers, economists and anyone using mathematical modelling as a working tool. Neural Networks Audience: Computer scientists, artificial intelligence developers, electronic engineers, neuroscientists and psychologists. Neurocomputing Neurocomputing publishes articles describing recent fundamental contributions in the field of neurocomputing. Neurocomputing theory, practice and applications are the essential topics being covered. Omega Audience: Practising Managers, Specialists in Management Services, Operational Research Workers, Management Scientists, Management Consultants, Academics, Students and Research Personnel. Signal Processing Audience: Researchers in Signal Processing, Acoustics, Computer Science, Automatic Control, Electrical and Electronics Engineering.