Mendelova univerzita v Brně Provozně ekonomická fakulta
Credit scoring v risk managementu Diplomová práce
Vedoucí práce: Mgr. Martin Řezáč, Ph.D
Monika Holčáková
Brno 2010
Ráda bych zde poděkovala vedoucímu práce Mgr. Martinu Řezáčovi, Ph.D za jeho odbornou pomoc při vytváření diplomové práce.
Prohlašuji, že jsem celou diplomovou práci vypracovala samostatně a všechny materiály použité k vypracování pravdivě uvádím v seznamu literatury. V Brně dne 20. května 2010
__________________
Abstract HOLČÁKOVÁ, M. Credit scoring in risk management. Diploma thesis. Brno: MENDELU in Brno, 2009. The main goal of this diploma thesis is to explain the issue of credit scoring in risk management. We will consider various concepts, furthermore we focus on various methods of credit scoring. The logistic regression, which is the most popular method of credit scoring, will be explained in detail in the theoretical part. In the last part, the practical part, I use logistic regression on real data. I explore the sensitivity of outputs to the client's declared income, and I estimate the loss of the bank when it doesn't provide a credit to the client, which would be a good client paying off his/her debt. Keywords Risk management, credit, scoring, credit scoring, logistic regression.
Abstrakt HOLČÁKOVÁ, M. Credit scoring v risk managementu. Diplomová práce. Brno: MENDELU v Brně, 2010. Cílem této diplomové práce je vysvětlit problematiku kreditního skórování v risk managementu. Budeme se zabývat jednotlivými pojmy, dále se zaměříme na jednotlivé metody kreditního skórování. Podrobně bude vysvětlena logistická regrese, což je nejvyužívanější metoda kreditního skórování. V poslední, praktické části, použiji logistickou regresi na reálných datech, budu zkoumat citlivost výstupů na deklarovaném příjmu klienta a také budu odhadovat ztrátu, neposkytne-li banka úvěr klientovi, který by patřil mezi dobré klienty a dobře by splácel svůj dluh. Klíčová slova Řízení rizika, úvěr, skórování, kreditní skórování, logistická regrese.
Obsah
5
Obsah 1
2
Úvod a cíl práce
10
1.1
Úvod .........................................................................................................10
1.2
Cíl práce ................................................................................................... 11
Literární rešerše 2.1
12
Risk management ....................................................................................12
2.1.1
Úvěrové riziko ..................................................................................14
2.1.1.1 Řízení úvěrového rizika ...................................................................14 2.1.2
Operační riziko................................................................................. 17
2.1.2.1 Řízení operačního rizika ..................................................................18 2.1.3
Obchodní riziko................................................................................19
2.1.4
Basel II ............................................................................................ 20
2.1.4.1 Minimální kapitálový požadavek - 1. pilíř ...................................... 22 2.1.4.2 Aktivity bankovního dohledu - 2. pilíř ........................................... 23 2.1.4.3 Tržní disciplína - 3. pilíř ................................................................. 23 2.1.5
Kapitálová přiměřenost .................................................................. 23
2.1.5.1 Kapitálová přiměřenost a úvěrové riziko........................................ 23 2.1.6 2.2
Ukazatele bankovní rentability....................................................... 26
Credit scoring.......................................................................................... 28
2.2.1
Credit............................................................................................... 28
2.2.2
Scoring ............................................................................................ 29
2.2.3
Credit scoring .................................................................................. 29
2.2.4
Historie úvěrového skórování..........................................................31
2.2.5
Vývoj funkce.................................................................................... 32
2.2.5.1 Diskriminační analýza .................................................................... 33 2.2.5.2 Lineární regrese .............................................................................. 36 2.2.5.3 Rozhodovací stromy........................................................................ 38 2.2.5.4 Neuronové sítě ................................................................................ 39
6
Obsah
2.2.5.5 Lineární programování.................................................................... 41 2.3
Logistická regrese ....................................................................................42
2.3.1
Odhad logistického modelu.............................................................45
2.3.2
Maximální věrohodnost...................................................................45
2.3.3
Nezávisle proměnná logistické regrese .......................................... 46
2.3.4
Predikční síla modelu ......................................................................47
2.3.4.1 ROC křivka...................................................................................... 48 2.3.5 3
Giniho koeficient ............................................................................. 51
Praktická část 3.1
52
Metodika ..................................................................................................52
3.1.1
Proměnné.........................................................................................52
3.1.2
Možnosti logistické regrese .............................................................54
3.1.3
Testování hypotéz ............................................................................54
3.2
Model bez možnosti výběru (full model) ................................................56
3.3
Výběrové metody ..................................................................................... 61
3.4
Změny příjmů ......................................................................................... 64
3.4.1.1 Model bez možnosti výběru (full model)........................................ 64 3.4.1.2 Model postupného výběru (stepwise selection)..............................65 3.5 4
Odhad finanční ztráty..............................................................................67
Diskuze 4.1
70
Doporučení .............................................................................................. 71
5
Závěr
73
6
Literatura
74
A
ROC křivky výběrových modelů
80
B
ROC křivky - změny příjmu
82
C
Odhady parametrů různých příjmů
84
D
Odds ratio různých příjmů
85
Seznam obrázků
7
Seznam obrázků Obr. 1
Struktura Basel II
20
Obr. 2
Lineární regrese
37
Obr. 3
Rozhodovací strom
39
Obr. 4
Neuronová síť
40
Obr. 5
Logistický regresní model
42
Obr. 6
Senzitivita a specificita
49
Obr. 7
Prostor ROC křivky
50
Obr. 8
ROC křivka
50
Obr. 9
ROC křivka (full model)
61
Obr. 10
ROC křivka modelu „výběr vpřed“
80
Obr. 11
ROC křivka modelu „zpětné odstranění“
80
Obr. 12
ROC křivka metody „postupný výběr“
81
Obr. 13
ROC křivka – nový příjem 1 (full model)
82
Obr. 14
ROC křivka – nový příjem 2 (full model)
82
Obr. 15
ROC křivka – nový příjem 1 (stepwise selection)
83
Obr. 16
ROC křivka – nový příjem 2 (stepwise selection)
83
8
Seznam tabulek
Seznam tabulek Tab. 1
Chyba prvního a druhého druhu
15
Tab. 2
Dopady plynoucí z rozhodnutí o poskytnutí úvěru
16
Tab. 3
Rozdíly mezi Basel I. a Basel II.
22
Tab. 4
Senzitivita a specifičnost
49
Tab. 5
Nezávisle proměnné
53
Tab. 6
Klasifikační proměnné „Zaměstnání“ a „Pobytový status“53
Tab. 7
Šedá ekonomika
Tab. 8
Analýza významnosti nezávisle proměnných (full model) 57
Tab. 9
Odhad parametrů (full model)
58
Tab. 10
Odds ratio (full model)
59
Tab. 11
Předpovídaná pravděpodobnost (full model)
60
Tab. 12
Významné nezávisle proměnné (výběrové metody)
62
Tab. 13
Odhad parametrů (výběrové modely)
62
Tab. 14
Odds ratio (výběrové modely)
63
Tab. 15
Předpovídaná pravděpodobnost (výběrové modely)
63
56
Tab. 16 p-hodnoty vysvětlujících proměnných různých příjmů (full model) 64 Tab. 17
Předpovídané pravděpodobnosti při změně příjmů
65
Tab. 18 p-hodnoty vysvětlujících proměnných různých příjmů (postupný výběr)
66
Tab. 19
Odhady parametrů při změně příjmů (postupný výběr)
66
Tab. 20
Odds ratio při změně příjmů (postupný výběr)
67
Seznam tabulek
9
Tab. 21
Předpovídaná pravděpodobnost (postupný výběr)
67
Tab. 22
Odhad ztráty
68
Tab. 23
Dohad ztráty
69
Tab. 24
Odhady parametrů při změně příjmů (full model)
84
Tab. 25
Odds ratio při změně příjmů (full model)
85
10
Úvod a cíl práce
1 Úvod a cíl práce 1.1
Úvod
Řízení rizika je dnes velice důležitou součástí všech firem. Každým dnem se mohou měnit interní i externí podmínky, na které musí umět firma reagovat. Jestliže se budeme bavit o finančních institucích, pak je na místě, když řeknu, že každá z nich je ovlivněna několika riziky, kde nejdůležitějším rizikem je riziko úvěrové, tedy takové, které je spojené s možností nesplacení úvěru klientem. Poskytování úvěrů je v dnešní době rutinní záležitostí. Je možné ho získat jak od bankovní, tak i od nebankovní instituce. Žadatelé mají možnost vybírat z velkého množství druhů. Každý poskytnutý úvěr může znamenat jisté úvěrové riziko, před kterým jak už bylo řečeno, by se měla organizace chránit a předcházet mu. K tomu, aby organizace mohla rozhodovat, komu poskytne a neposkytne úvěr je zapotřebí dostatečné množství kvalitních informací o stávajících i nových klientech. Informace je možné získat, jak z interní databáze, z externích zdrojů, tak i od jiných bank. Dále je třeba informace analyzovat, zpracovat vhodnou metodou a rozhodnout se, zda žadateli bude úvěr poskytnut či nikoli. Rozhodování již není prováděno fyzickými osobami, jak tomu bylo dříve. Dnes se k rozhodování využívají tzv. skóringové modely, které hodnotí bonitu klienta na základě informací, které má banka k dispozici o stávajících klientech a jejich splácení. Poté novým žadatelům dle daných podmínek udělí skóre, a zjistí tak, jak bude klient schopen splácet. Jestliže bude zařazen do skupiny dobrých klientů, pak mu bude úvěr poskytnut. Bude-li patřit k žadatelům, kteří nesplňují požadavky banky, pak bude jeho žádost o úvěr zamítnuta. Jelikož žijeme v moderním světě a počítače jsou všední záležitostí, je možné rozhodovat se pomocí výsledků, které získáme ze softwarů pro tuto práci určených. Jednou z možností je program, který vyvinula firma SAS Institute. Neslouží pouze pro vyhodnocování skóringových modelů, ale obsahuje i spoustu dalších metod, které se využívají v jiných oblastech. Z programu získáme pouze
Úvod a cíl práce
11
výstupy ve formě číselných dat a také je zde možnost výstupy graficky znázornit. Je samozřejmostí, že člověk, který se má na základě výsledků analýz rozhodnout, musí výstupům rozumět, jinak by hrozilo špatného rozhodnutí. Díky úvěrovému skórování instituce předem ví jakému úvěrovému riziku je vystavena a podle toho se také chová.
1.2 Cíl práce Cílem práce je ukázat v jakém prostředí se banky pohybují a na základě čeho se vlastně rozhodují. Po seznámení s jednotlivými riziky a s pravidly, kterými se musí banka řídit, aby nedošlo k velkým ztrátám, se zaměřím přímo na řešení nejdůležitějšího rizika, tedy rizika úvěrového. V první části literární rešerše bude popsána problematika řízení rizika, kde budou jednotlivá rizika popsána, v druhé části se budu zabývat již kreditním skórováním. Vysvětlím co je úvěr, skórování, kreditní skórování, také se krátce zmíním o historii skóringu, a o jednotlivých výpočetních metodách. Dále podrobně vysvětlím metodu logistické regrese, což je v dnešní době nejvyužívanější metoda úvěrového skórování. Popíši, jak metoda funguje, jak odhadneme neznámé parametry, a také její vyhodnocení. Teoretické zkušenosti pak využijeme v praktické části, kde aplikuji logistickou regresi na jednotlivých datech, které mám k dispozici. Ukáži, jak jsou výstupy skóringového modelu citlivé na změnu příjmů. Budu předpokládat, že jistá skupina lidí si bude přivydělávat a tyto příjmy nezdaní. Jedná se o příjmy šedé ekonomiky. Jelikož není možné, aby byly přivýdělky vypočtené pomocí některého ekonomického nebo jiného ukazatele, je nutné je pouze odhadovat. Na základě zjištěných informací budu předpokládat, že se jedná o deset a patnáct procent z hrubého národního produktu. Také vyčíslím ztrátu v případě chyby prvního druhu. Následně navrhnu opatření, aby chyba nenastala.
12
Literární rešerše
2 Literární rešerše 2.1 Risk management Risk management, česky řečeno řízení rizik je proces, kdy se subjekt, kterého se riziko týká, snaží omezit působení existujících a budoucích faktorů, také se pokouší navrhovat řešení, díky kterým by riziko buďto eliminoval nebo jej alespoň minimalizoval.[24] Oblastmi, ve kterých je nutné rizika řídit, jsou například: • přírodní katastrofy, • ochrana životního prostředí, • finanční rizika, jako například: o investiční, o pojišťovací, o bankovní, • obchodní rizika, • technická rizika.[24] V dalším textu se budu zabývat bankovními riziky, kterými jsou především finanční rizika, ale samozřejmě také riziko obchodní, jelikož je banka organizací, jež snaží prodávat své produkty, a je tedy tímto rizikem také ovlivněna. Banka je finanční instituce, která provádí aktivní a pasivní obchody. Aktivní činnost znamená, že banka půjčuje peníze svým klientům, neboli poskytuje úvěry, a naopak pasivní činností je, když banka vede účty klientům, přijímá jejich vklady, atd. Banka hledí především na to, aby dosahovala co největšího zisku, a právě z tohoto důvodu se snaží poskytovat co nejvíce úvěrů. S každou její činností souvisí jistá míra rizika, které musí banka čelit. Rizika mohou ovlivnit hospodářský výsledek, a proto je vhodné je co nejúčinněji řídit, aby dopady byly co nejnižší. S řízením rizik jsou spojeny nemalé finanční prostředky, které musí mít banka k dispozici.
Literární rešerše
13
Dle opatření ČNB č. 2/2004 Sb., k vnitřnímu řídícímu a kontrolnímu systému banky se rizika dělí do skupin na: • úvěrové riziko – ve vztahu věřitel a dlužník existuje riziko, že dlužník nebude schopen nebo ochoten dostát svému závazku, • tržní riziko – jedná se o riziko, kdy může dojít ke ztrátě, jestliže se změní tržní ceny na finančních trzích, dále ho lze dělit na: o úrokové, o měnové, o akciové, o komoditní, • riziko likvidity – banka se může dostat do situace, kdy nebude schopna splatit závazky vůči svým klientům, které se stanou splatnými, nebo nebude schopna financovat svá aktiva • operační riziko – jde o ztrátu, která je způsobena nepřiměřeností nebo selháním vnitropodnikových procesů, lidského faktoru či systému, také se může jednat o ztrátu, kterou zapříčiní vnější okolí.[1] Jak už bylo řečeno, hlavním cílem banky je dosahování maximálního zisku. Aby ho ale mohla dosahovat, musí postoupit jistá rizika protože nevystaví-li se rizikům, může se stát, že ziskovost poklesne. Touto činností se zabývají manažeři bank, kteří hledají rizika, která by pro banku znamenala takovou návratnost, že by se plnily předem stanovené cíle. Řízení rizik se v České republice vyvíjí od počátku 90. let a je zřejmé, že se jedná o velice důležitou součástí fungování každé firmy. Činnostmi, které do této problematiky spadají, jsou: • identifikaci rizika • měření a vyhodnocování rizika o sledování – pravidelné měření a porovnávání skutečných hodnot rizika s maximálně povolenými, o omezování rizika – přijímání opatření, která vedou k menším ztrátám (zajištění, limity) [1]
14
Literární rešerše
2.1.1
Úvěrové riziko
Jedná se o historicky nejstarší a nejvýznamnější riziko, které může ohrožovat finanční instituce. Setkáváme se s ním při každé obchodní činnosti, protože jak už bylo uvedeno výše jde o riziko, že dlužník nebude schopen nebo ochoten splatit věřiteli (tedy bance) své závazky dle předem stanovených smluvních podmínek v plné výši. Je nutné zde říci, že existuje úvěrové riziko, které plyne z poskytování úvěru fyzickým osobám nebo firmám. Každé je ošetřeno jiným způsobem, ovšem já se zde budu zabývat pouze rizikem které může nastat, jestliže banka půjčí peníze fyzické osobě. Je to z důvodu, že data která v praktické části využiji jsou o fyzických osobách. [1] Rozlišujeme 2 formy úvěrového rizika fyzických osob: • riziko nesplnění závazku druhou stranou – pravděpodobnost vzniku ztráty, • inherentní riziko produktu – ztráta, jestliže druhá strana nesplní závazek. Úvěrovému riziku čelí banka dnes a denně, jeho vznik lze rozdělit na interní a externí příčiny. Interní závisí na rozhodnutích banky(v případě kreditního skórování poskytnutí či neposkytnutí úvěru), externí jsou dány vývojem ekonomiky, politickou situací a jinými vlivy vnějšího okolí, které je možné zkoumat například PESTE analýzou.[1] 2.1.1.1 Řízení úvěrového rizika Aby byla banka vystavena zdravému riziku, tedy riziku, které jí zajistí maximalizovat zisk, pak je nutné riziko řídit. Proto je třeba, aby v bance byl zaveden jistý systematický rámec, který bude aplikován tam, kde hrozí vznik úvěrového rizika. Systematický rámec obsahuje tyto činnosti: • Identifikace úvěrového rizika – banka se snaží rozpoznat úvěrové riziko od ostatních finančních rizik. Jakmile je riziko identifikováno je nuné zjistit, s kterými činnostmi dané riziko souvisí. Příčinou může být:
Literární rešerše
15
o Riziko klienta – vzniká, dostane-li se klient do špatné ekonomické situace a není schopen splácet. o Riziko země – z politických, ekonomických nebo jiných důvodů nejsou ekonomické subjekty země schopny plnit své zahraniční závazky. o Riziko koncentrace – banka se zaměřuje na jeden typ klientů, kterým poskytuje úvěry. Tito lidé jsou vystaveni stejným ekonomickým a rizikovým charakteristikám. [1] • Měření úvěrového rizika – Banka se snaží zjistit, jak velkou ztrátou jí riziko může ohrozit. Výsledkem je zjištění bonity klienta, neboli právních, finančních a ekonomických charakteristik klienta, a zařazení úvěrového obchodu do ratingové kategorie (pevně stanovené stupnice). Existují dvě formy ratingu. o Externí – je stanoven externí ratingovou firmou o Interní – si určí sama banka na základě analýz, a to buď pomocí finanční poměrové analýzy nebo dle metody zjednodušeného bodového hodnocení, čili kreditního skórování. Zjištěný výsledek je základním kamenem pro rozhodování banky o poskytnutí či neposkytnutí úvěru. Banka se zde může dopustit dvou chyb, které jsou znázorněny v tabulce 1. [1] Tab. 1
Chyba prvního a druhého druhu
Předpovídaná kvalita klienta Dobrá Špatná
Skutečná kvalita Klienta Dobrá Špatná Chyba prvního druhu Chyba druhého druhu -
Zdroj: Kašparovská, V. a kol. Řízení obchodních bank – vybrané kapitoly. 1. Vydání. Praha: C.H. Beck, 2006, s.76
Chyba prvního druhu – předpokládá se, že na základě analýzy se jedná o dobrého klienta, ovšem ve skutečnosti není schopen dostát svým závazkům dle stanovených podmínek.
16
Literární rešerše
Chyba druhého druhu – jde o opačnou situaci než v předchozí chybě. Klient je zařazen mezi špatné zákazníky, kterým nebude úvěr poskytnut. Ve skutečnosti by tento klient byl schopen řádně splácet.
Dopustí-li se banka jedné z uvedených chyb dochází ke ztrátě, jejíž dopady jsou znázorněny v tabulce č.2. Jsou zde také uvedeny možnosti, kdy banka rozhodne správně. Tab. 2
Dopady plynoucí z rozhodnutí o poskytnutí úvěru
Poskytnutí úvěru
ANO
NE
A - ZTRÁTA B - ZISK Nesplacení poskytnutého Úrokový výnos převyšuje úvěru představuje reálnou všechny náklady a znamená ztrátu. reálný zisk. C - ZISK D - ZTRÁTA Reálné náklady na úvěrovou Zde bance vznikají jednak analýzu jsou sice ztraceny, náklady na úvěrovou analýzu, ale užitek z rozhodnutí o jednak náklady z ušlé příležitosti. neposkytnutí úvěru převyšuje tyto náklady. NE ANO Splacení úvěru
Zdroj: Kašparovská, V. a kol. Řízení obchodních bank – vybrané kapitoly. 1. Vydání. Praha: C.H. Beck, 2006, s.77
Jestliže se banka dostane do situace A, pak se jedná o nejhorší variantu, která může být způsobena špatným rozhodnutím. Banka v tomto případě poskytla úvěr klientovy, který ho nesplácí a vynaložila zde náklady na úvěrovou analýzu. Opakem je situace B. Banka díky dobrému rozhodnutí poskytne úvěr klientovi, který dluhy splácí, získává úroky a poplatky, které jsou klientem zaplaceny, hradí náklady spojené s poskytnutím úvěru. Tuto situaci doprovází tvorba zisku. V případě C nebyly úvěry opodstatněně poskytnuty. Banka nepřišla o žádné peníze. Chyba druhého druhu je v tabulce 1 znázorněna situací D, kdy banka by dosáhla zisku, kdyby poskytla klientům úvěr, ale neučinila tak, tedy dosáhla jisté
Literární rešerše
17
ztráty, ta je ovšem menšího rozsahu nežli je tomu v případě chyby prvního druhu. • Zajištění úvěrového rizika – banka potřebuje mít jistotu, že když klient nezaplatí, získá peníze jiným způsobem. Kryje tím možnou ztrátu, a to pomocí těchto možností: o Dle povahy zajištění
Osobní – bance ručí třetí osoba, po které banka vymáhá dluh v případě, že klient není schopen nebo ochoten splácet.
Věcné – klient ručí movitou či nemovitou věcí.
o Dle svázanosti zajištění se zajišťovanou pohledávkou
„Abstraktní – představuje samostatně stojící právo, nezávislé od zajišťované pohledávky; s uspokojením pohledávky toto právo nezaniká, zajišťující subjekt však má právo na jeho vrácení (např. depozitní směnka dlužníka)“ [1, s. 78]
Akcesorické – zajištění je těsně svázáno se zajišťovanou pohledávkou. Se zánikem pohledávky zaniká také zajištění.
• Sledování úvěrového rizika – banka se snaží sledovat změny rizikovosti úvěrových pohledávek banky; při tomto procesu musí dodržovat jisté zásady. Tou nejdůležitější je, že čím vyšší je úvěrové riziko dané pohledávky, tím častější a podrobnější by analýza měla být.[1] Základními nástroji řízení úvěrového rizika jsou: o Zajištění – bylo popsáno v předchozí části. o Úvěrové limity – dány vedením banky. Pomáhají při rozhodování o poskytnutí úvěru. Limity tvoří takzvané mantinely při prodeji úvěrů. Tím, že se banka řídí dle limitů, snižuje nadměrné riziko, kterému je vystavena. 2.1.2
Operační riziko
Jedná se o ne moc známou formu rizika, která se stala viditelnou až v posledních letech, kdy byla vydána nová pravidla kapitálových požadavků Basel II, kte-
18
Literární rešerše
rá budou popsána v dalším textu. Riziko bylo zařazeno do výpočtu kapitálové přiměřenosti, tedy do výpočtu množství kapitálu, který musí banka držet pro případ očekávané ztráty způsobené danými riziky. Existuje několik definic rizika, ale dle České národní banky se jedná o riziko ztráty, která je způsobena nedostatky nebo selháním vnitřních procesů, lidského faktoru nebo systému. Také se může jednat o ztrátu způsobenou vnějšími vlivy. Jelikož se riziko stalo díky Basel II. pro banky důležité, investují do jeho měření a řízení nemalé finanční prostředky. [1] Mluvíme-li o operačním riziku, znamená to, že vznikla ztráta bance nebo klientovi, jež byla zapříčiněna chybou na straně banky, která je poté nucena danou ztrátu uhradit. Z důvodu neustálého vývoje bankovního trhu dochází ke stále většímu využití výpočetní techniky u vnitropodnikových procesů. Banky zavádí stále propracovanější informační systémy, kterými se snaží eliminovat chybu lidského faktoru, a snižovat tak i operační riziko. Některé bankovní operace jsou dnes již tak složité, z pohledu informačního systému, že banky ve velké míře využívají outsourcingu, který pro ně není nejideálnější, ale je schůdnější než vlastní obsluha informačního systému. V některých případech se ovšem i outsourcing může stát operačním rizikem, a to právě z důvodu závislosti na jiné firmě. Dále do rizika zahrnujeme zavádění nového produktu nebo nečekané katastrofické události. Jedná se o těžko měřitelné riziko, jelikož jsou dány pouze základní metody výpočtu a na rozdíl od úvěrového rizika je zde bankám poskytována jistá samostatnost vytváření vlastních modelů. 2.1.2.1 Řízení operačního rizika Jak již bylo uvedeno u řízení úvěrového rizika, banka se snaží riziko vyhledat, změřit ho, a také se před ním chránit. • Systém řízení operačního rizika – jedná se o vymezení rizika, cíle, postupy při jeho řízení, odpovědnosti, informace o významných událostech,
Literární rešerše
19
které vznikly z důvodu operačního rizika, jistou míru tolerance k riziku a způsob odstranění rizika. • Identifikace, vyhodnocování a sledování operačního rizika – je nutné identifikovat příčiny vzniku rizika a neustále vyhodnocovat a sledovat možné ztráty, které z rizika plynou. • Omezování operačního rizika – banka zjišťuje jak je schopná dané riziko ovlivnit a dle výsledků se rozhodne buď riziko přijmout nebo danou činnost, u které riziko hrozí ukončit. • Kontinuita provozu a pohotovostní plán – je dosti pravděpodobné, že riziko může znamenat omezení činností nebo informačních systémů tím, že selže třetí strana. Pak je nutné, aby banka měla dané postupy, které vedou k obnovení činnosti nebo informačních systému. Pohotovostní plány musí být známy zaměstnancům, kteří dle nich při výskytu postupují, také musí být pravidelně testovány a aktualizovány. [1] 2.1.3
Obchodní riziko
Nejen finančními riziky je banka ovlivněna. Důležitou roli zde hraje riziko obchodní, které je ovlivňováno ekonomickou situací na trhu. Je zde riziko nejistoty poptávky po produktech, také cen, které mohou být za produkty účtovány. Dalším rizikem zde je, že se mohou zvyšovat náklady na výrobu a dodávku produktů. Také, že banka nebude na trhu dobře fungovat, nedosáhne předpokládaných cílů, a že její produkty se neuchytí. Důležitými faktory zde je kvalita firmy, také správné určení firemní strategie a dobré její dobré jméno. Obchodní riziko je sledovatelné a hodnotitelé, ovšem zatím se nestalo součástí Basel II, když je v jistých situacích mnohem větším rizikem, než některá operační rizika.
20
Literární rešerše
2.1.4
Basel II
Basel II. jsou nové předpisy o povinných kapitálových rezervách. Důraz je kladen hlavně na měření rizik a na podporu pro zlepšování řízení rizik. Potřeba zdokonalit pravidla bankovního dohledu se objevila v druhé polovině 90. let z důvodu měnící se situace na finančním trhu. Do té doby se banky řídili pravidly Basel I. Předpisy byly vytvořeny „Výborem pro bankovní dohled“, který existuje již od roku 1947. Založili ho centrální banky G10. Najdeme ho ve Švýcarském městě Basel (Basilej) v sídle banky pro mezinárodní platby. [21] Obr. 1
Struktura Basel II
Zdroj: http://www.csas.cz/banka/content/inet/internet/cs/BaselII_final_cj.pdf
Nejdůležitější věcí, kterou se nová kapitálová pravidla zabývají je přimět banky, aby držely určité kapitálové rezervy odpovídající riziku, kterému čelí. Pro dosažení odpovídající míry kapitálu je nutné, aby banka ohodnotila svá rizika co nejpřesněji. To se provádí pomocí interních ratingových metod. Pravidla dbají na to, že subjekt, který je ochoten více riskovat je daleko zranitelnější, a proto musí mít vyšší minimální kapitálové vybavení. Hlavními cíli Basel II jsou: • zvýšení bezpečnosti a stability finančního systému, • posílení konkurenční rovnosti mezi bankami, • umožnění používání komplexnějších přístupů k řízení rizik.
Literární rešerše
21
Do obecných cílů zahrnujeme: • kapitálové požadavky, které odpovídají rizikům, • zohlednění rizik, • uznání vnitřních bankovních metod hodnocení rizika, • celosvětová aplikace (mezinárodně jednotný systém), • zvýšení bankovního dohledu.[1] Jedním z hlavních rozdílů mezi Basel I. a Basel II. je ten, že nová pravidla jsou založena na principu 3. pilířů. Tento i ostatní rozdíly jsou uvedeny v tabulce 3.
22
Literární rešerše
Tab. 3
Rozdíly mezi Basel I. a Basel II.
BASEL I. Bankovní dohled jednostranně zaměřen na kapitálovou přiměřenost Kapitálové požadavky se stanovují k úvěrovému a tržnímu riziku Jednotný způsob stanovení kapitálových požadavků Rizikové váhy a tedy výše kapitálového požadavku k úvěrovému riziku závisí na typu klienta (např. zda je členem OECD), nezávisí tudíž na podstupovaném riziku Minimální rozsah uznatelného zajištění Možnost uplatnění vlastních modelů měření rizik pro výpočet kapitálového požadavku pouze u tržního rizika Banky nejsou motivovány k lepšímu řízení rizik Nižší náklady spojené s administrativou výpočtu kapitálových požadavků
BASEL II. Tři pilíře bankovního dohledu: Kapitálová přiměřenost, proces dohledu, Uveřejňování informací Kapitálové požadavky se stanovují k úvěrovému, tržnímu a operačnímu riziku Více metod pro stanovení kapitálového požadavku k jednotlivým rizikům Rizikové váhy a tedy výše kapitálového požadavku k úvěrovému riziku závisí na rizikovosti klienta, která je u standardizované metody odvozena od externího ratingu a u metod IRB od interního bankou stanoveného ratingu klienta Výrazné rozšíření uznatelného zajištění Možnost uplatnění vlastních modelů měření rizik pro výpočet kapitálového požadavku navíc u úvěrového a operačního rizika Banky jsou motivovány k lepšímu řízení rizik, neboť tak mohou dosáhnout nižších kapitálových požadavků Podstatně vyšší náklady spojené s administrativou výpočtu kapitálových požadavků
Zdroj: Kašparovská, V. a kol Řízení obchodních bank – vybrané kapitoly. 1. Vydání. Praha: C.H.Beck, 2006, str. 89
2.1.4.1 Minimální kapitálový požadavek - 1. pilíř Stanovení minimálního kapitálového požadavku u úvěrového, tržního a operačního rizika. I přes nově zařazené operační riziko je nejvíce řešeno riziko úvěrové.
Literární rešerše
23
2.1.4.2 Aktivity bankovního dohledu - 2. pilíř Práva a povinnosti národního dohledu, který v České republice provádí Česká národní banka (dále jen ČNB). Jejím nejdůležitějším úkolem je kontrola spolehlivosti a prediktivní účinnosti vnitřních bankovních metod měření rizika. [21] Je zde také hodnocena dostatečnost kapitálu k pokrytí ztrát z možných rizik a podporována motivace k zavádění lepších technik řízení rizik. [1] 2.1.4.3 Tržní disciplína - 3. pilíř Třetí, doplňující pilíř se zabývá problematikou přehlednosti a zveřejňování významných informací bankami. Do budoucna to znamená, že banky budou nuceny poskytovat detailní informace a dokumentace o měření rizika.[1] 2.1.5
Kapitálová přiměřenost
Následující rovnice (2.1) zobrazuje výpočet kapitálového požadavku. kp =
Kapitál × 0,08 ≥ 0,08 KPúr + KPtr + Kp or
(2.1)
• KPúr – vypočtený kapitálový požadavek k úvěrovému riziku dle Basel II. • KPtr - vypočtený kapitálový požadavek k tržnímu riziku dle Basel II. • KPor - vypočtený kapitálový požadavek k operačnímu riziku dle Basel II. 2.1.5.1 Kapitálová přiměřenost a úvěrové riziko Jelikož se v následující části budeme zabývat interním měřením úvěrového rizika, uvedeme si zde možnosti výpočtů kapitálovou přiměřenost dle Basel II. : • Standardizovaný přístup • Základní IRB přístup • Pokročilý IRB přístup
24
1.
Literární rešerše
Standardizovaný přístup
Nejjednodušší metoda výpočtu kapitálové přiměřenosti úvěrového rizika založena na rizikových vahách, které se odvíjí od ratingů a stanovují je externí ratingové agentury. Platnost vydaných ratingů schvaluje národní regulátor, který má za úkol vypracovat seznam institucí, jejichž zveřejněné ratingy je možné ke stanovení rizikové váhy aktiva využívat. [1] Postup výpočtu: • Expozice = „celkové množství aktiv, která jsou vystavena riziku v případě, že dlužník nedostojí svým závazkům“[1, s. 320] se rozdělí do předem daných kategorií (expozice vůči bankám, expozice vůči státům a expozice vůči podnikům). • Do rizikových tříd jsou zařazeny jednotlivé expozice na základě externího ratingu. • Rizikovým třídám se přidělí váhy. • Provede se výpočet vážených aktiv (= součet násobků objemu expozic v rizikových třídách a k nim dané rizikové váhy) • Posledním krokem je výpočet minimálního kapitálového požadavku k úvěrovému riziku (= 0,08 x rizikově vážená aktiva)[1] 2.
IRB přístup
Na rozdíl od standardizované metody je zde využíván interní rating namísto externího. Bance je umožněno využít vlastní ocenění úvěrového rizika při splnění určitých požadavků, které jsou zformulované v Basel II. Základem je, že banka rozdělí svá aktiva do pěti tříd: • pohledávky za podniky, • pohledávky za státy, • pohledávky za bankami, • pohledávky za drobnou klientelou, • investice do akcií. [1]
Literární rešerše
25
V každé třídě je nutné rozlišit klíčové prvky: • rizikové komponenty – banka nebo regulátor odhadují rizikové charakteristiky, • funkce rizikových vah – transformace složek rizika na rizikově vážená aktiva a kapitálové požadavky, • minimální požadavky – nutné požadavky, které musí být splněny, aby banka mohla využít IRB metodu. Základní rizikové charakteristiky pro stanovení vah IRB metodou: • Pravděpodobnost selhání (POD – probability of default) – pravděpodobnost vyjadřující nedodržení závazku dlužníka ve stanovené lhůtě. • Expozice při selhání (EAD – exposure at default) – celková aktiva, která jsou vystavena úvěrovému riziku. • Míra ztráty při selhání (LDG – loss given default) – míra udávaná v procentech, která nám udává výtěžnost; Ta vyjadřuje podíl navrácené částky z expozice, jestliže dlužník přestal splácet. • Doba splatnosti (M – maturity) – udávána v letech. Obě IRB metody lze používat téměř u všech tříd. Základní IRB metoda funguje na základě vlastních odhadů pouze u stanovování pravděpodobnosti selhání klienta, ostatní charakteristiky určuje regulátor. Oproti tomu pokročilá IRB metoda umožňuje odhad všech rizikových charakteristik. „Podstata IRB metod spočívá v tom, že každé expozici je nejprve přidělen na základě interního procesu interní stupeň ratingu. Pro tento stupeň je odhadnuta pravděpodobnost selhání, resp. u pokročilé varianty IRB metody i další rizikové prvky. Pravděpodobnost selhání pak slouží jako důležitý vstup do funkce rizikové váhy, resp. funkce kapitálového požadavku."[1, s. 88] Chce-li banka využívat IRB metody musí být nejprve schválena představenstvem banky, dále musí být řízení rizika plně v souladu s požadavky Basel II., a také s požadavky národního regulátora. Ke kontrole systému interního ratingu a odhadu rizikových charakteristik se využívá interního auditu, který se provádí 1x do roka.
26
Literární rešerše
Při sestavování Basel II bylo dbáno na to, aby banky využívali hlavně IRB metod, a to právě z důvodu, že zde není žádný předem známý vzorec, podle kterého by se riziko odhadovalo jako ve standardizované metodě, ale je bankám dávána jistá volnost ve využívání vlastních metod. 2.1.6
Ukazatele bankovní rentability
Pro banku je výsledek hospodaření stejně důležitý jako pro ostatní organizace. Je možné ho vyjádřit jak v absolutních, tak i v relativních hodnotách. Mluvíme-li o hodnotách absolutních, jedná se o čistý zisk za dané období. V relativních vyjadřujeme rentabilitu aktiv a kapitálu. Využití relativních ukazatelů nám poskytuje možnost srovnávat bank mezi sebou a také jejich výkony v čase. Zjišťuje-li se hospodářský výsledek z finančního účetnictví, pak banka získává informace, které z činností vytváří zisk. Pomocí ukazatelů je možné provádět analýzu hospodářského výsledku. Jedná se o míru zhodnocení akcionáři vložených prostředků (vlastní kapitál), nebo o schopnost managementu banky zhodnotit své zdroje (celková aktiva).[1] Mluvíme tedy o ukazatelích rentability, které poměřují výsledky hospodaření s využitými zdroji. Při výpočtech ukazatelů rentability vlastního kapitálu (dále jen ROE) a rentability bankovních aktiv (dále jen ROA) se využívá čistý zisk po zdanění, který získáme pomocí následného výpočtu:
Literární rešerše
27
Čisté úrokové výnosy (úrokové výnosy – úrokové náklady) ± čisté provizní výnosy (provizní výnosy – provizní náklady) ± čisté výnosy z finančních operací (výnosy z obchodů akcií – náklady z obchodů s akciemi) ±čisté ostatní provozní výnosy (ostatní provozní výnosy – ostatní provozní náklady) = čisté výnosy z běžné obchodní činnosti - správní náklady (personální a věcné náklady, tzn. mzdy, odpisy, rezervy,…) = hrubý zisk / ztráta z běžné činnosti - rizikové náklady (rozdíl mezi tvorbou a rozpuštěním opravných položek) = provozní zisk / ztráta z běžné činnosti ±mimořádný hospodářský výsledek (náklady a výnosy se zvláštním charakterem) = čistý zisk před zdaněním / ztráta - daň ze zisku = čistý zisk po zdanění (dále jen ČZ)[1]
ROE =
ČZ × 100 VK
(2.2)
VK – průměrný vlastní kapitál banky
Jedná se o ukazatel, který vyjadřuje, kolik čistého zisku připadá na jednu korunu investovaného kapitálu. [2] Ještě je nutné říci, že ROE je ukazatel, kterému není vhodné dávat velkou důležitost, jelikož je dosti nespolehlivý, a to právě z důvodů, že: • základnou je čistý roční zisk, tudíž není možné, aby ukazatel mohl odrážet vliv rozhodnutí, která se týkají více období, • neobsahuje rizika, kterým banka čelí, • vychází z účetní hodnoty vlastního kapitálu, ovšem akcionáři se zaměřují na hodnotu tržní, která se od účetní dosti liší. [1]
28
Literární rešerše
ROA(% ) =
ČZ * 100 A
(2.3)
A – průměrný stav aktiv
Pomocí ukazatele ROA jsme schopni zjistit jaká míra zisku připadá na jednu korunu aktiv. [2]
2.2 Credit scoring Mluvíme-li o credit scoringu neboli úvěrovém bodování, je zapotřebí si nejdříve vysvětlit jednotlivé pojmy. 2.2.1
Credit
Začneme tedy u slova credit, česky řečeno úvěr. Pochází z latinského „credo“, což znamená „doufat v“ nebo „spoléhat na“. Jestliže se zaměříme na podstatu úvěru, pak znamená „kupuj nyní, plať později“. Půjčí-li si osoba určitý obnos peněz, stane se dlužníkem a po sjednané době svůj závazek musí splatit. Věřitel, tedy osoba, která peníze půjčila, musí dlužníkovi důvěřovat, aby měl jistotu, že se mu peníze vrátí zpět. [6] Aby byl dlužníkovi poskytnut úvěr, pak musí: • vytvořit dojem důvěry, • splácet dle daných podmínek, • platit rizikové pojistné, pro případ, že by nemohl splácet dluh. [6] Tyto tři aspekty nás přivádí k pojmům jako je bonita klienta nebo úvěrové riziko. Bonita neboli úvěrová způsobilost, odráží jak je dlužník ochoten a schopen splácet. Dnes ji spousta lidí mylně chápe jako osobní atribut jako například výška, váha, barva očí, které jsou přímo měřitelné, ovšem neberou již v úvahu úvěrovou způsobilost a ziskovost prvků. Úvěrové riziko již není nutné vysvětlovat, bylo popsáno výše. Aktivní činnost banky spočívá v poskytování úvěrů. Ovšem není jednoduché rozhodnout kdo na úvěr má a kdo nemá nárok. V dnešní době bance při tomto
Literární rešerše
29
rozhodování pomáhají statistické modely, pomocí kterých je možné zjistit, zda úvěr poskytnout či nikoli. Chceme-li tuto činnost pojmenovat, mluvíme o metodě kreditního skórování. Aby byla metoda vhodně využívána, pak jednu nejdůležitějších rolí hrají především informace. Banky si tuto skutečnost uvědomují a investují do nich nemalé finanční částky. Je zřejmé, že čím větší množství a lepší kvalita informací banka má, tím lepší rozhodnutí o úvěrech dělá a může tím získat konkurenční výhodu. Každá firma nebo finanční instituce může udělat špatné rozhodnutí, nebo ho mohou ovlivňovat další činnosti. Je třeba si některé z nich vysvětlit.[6] • Nepříznivý
výběr
-
jedná
se
o
špatná
rozhodnutí
vyplývající
z asymetrických informací. • Asymetrické informace – jeden z účastníků transakce má více nebo lepší informace než ostatní, které může využít pro konkurenční výhodu. [3] • Morální hazard – jeden ekonomický subjekt maximalizuje svůj užitek na úkor jiných subjektů transakce. [4] 2.2.2
Scoring
Scoring, jinak řečeno skórování znamená využití numerických nástrojů pro seřazení případů, jako například lidí, firem, zemí, atd. dle určitých hodnot, kterými mohou být výkon, prodejnost, rizika. Při rozhodování má banka dostupné určité údaje, které sjednotí do jediné hodnoty. Výsledky představující vlastnosti jsou vyjádřeny číslem. Skórování se využívá především v procesech, kde je třeba jisté předpovědi, která je vyjádřena pravděpodobností. Prediktivní skórovací modely jsou využívány k posouzení reálné pravděpodobnosti budoucích událostí na základě minulých zkušeností. [6] 2.2.3
Credit scoring
Nyní již můžeme přistoupit k vysvětlení samotného pojmu „credit scoring“. V překladu to znamená úvěrové skórování, což je postup, který umožňuje věřiteli na základě pravděpodobnosti ohodnotit bonitu potenciálních dlužníků, kde je hlavním cílem získat kvalitní úvěrové portfolio. [5] Funguje na základě využívá-
30
Literární rešerše
ní statistických modelů, pomocí kterých jsou transformovány významné údaje do číselných hodnot mající konkrétní význam. Jedná se o velkého pomocníka v rozhodovacím procesu. Je využíván převážně v bankovnictví a pojišťovnictví. Rozlišujeme následující druhy skórignu: • Kreditní – předpovídá, kteří klienti budou splácet úvěr a kteří nikoli. • Aplikační – využívá se u nových klientů. Pomáhá rozhodnout, komu bude úvěr poskytnut. • Behaviorální – určen pro stávající klientelu, kdy jsou body přiřazeny všem klientů bez rozdílu, zda požádal o úvěr či nikoli. [5] Rozhodování o poskytnutí úvěru pomocí kreditního skórování nahradilo klasické rozhodování, kdy bonitu klienta posuzoval pracovník banky na základě pěti Cs: • Character of the applicant – charakter žadatele, • Capacity to borrow – schopnost půjčovat, • Backup capital – záložní kapitál, • Collateral as security – zajištění, • Conditions – podmínky. [6] Metoda pěti Cs byla vhodná v případě, jestliže věřitel měl osobní informace o dlužníkovi. Ovšem ne vždy má věřitel tolik informací o dlužníkovi, proto metoda nemá své opodstatnění. Zaměříme-li se pouze na banku, pak není možné, aby zde existoval jakýkoli osobní vztah k dlužníkovi. Je tedy zřejmé, že banka nebude mít takové informace, jako kdyby se jednalo o půjčování peněz mezi známými. Kreditní skórování bylo vyvinuto pro americké banky, ale zpočátku se tato metoda nesetkala s velkou důvěrou. Lidé nevěřili, že jakási statistická metoda dokáže rozhodnout lépe, nežli by to dokázal člověk. Ale jak každý ví, lidská rozhodnutí mohou být ovlivněna nebo mohou být doprovázena chybami. Jestliže bude využit model kreditního skórování, pak se minimalizuje lidská zaujatost a chybování. I zde se mohou objevit problémy se získáváním dat, s tím, že model nemusí být objektivní nebo není správně využit a také nemusí být správně proveden. [6]
Literární rešerše
2.2.4
31
Historie úvěrového skórování
Bez výpočetní techniky by vznik úvěrového skóringu nebyl možný. Jako vše i úvěrové bodování má svou historii, kterou lze rozdělit do 3 základních mezníků: • 1935 – 1959, • 1960 – 1979, • 1980 a dále. Vše začalo díky anglickému statistikovi a genetikovi Ronaldu Aylmer Fisherovi, který publikoval článek „Lineární diskriminační analýza“ jež byl zaměřen na přírodní vědy a stal se základem pro prediktivní statistiky jiných oborů. V roce 1941 David Durand zjistil, že techniky, které Fisher využíval, jsou vhodné i pro rozlišení dobrého a špatného podnikání. Další významnou osobností se stal Henry Wells, který začal využívat statistické metody v rozhodování a díky němu se zrodil první systém úvěrového skórování. [6] Jak už bylo řečeno, lidé nebyli připraveni přijmout skutečnost, že statistická metoda dokáže rozhodnout lépe než člověk. I přesto, že E. F. Wonderlic prokázal, že metoda funguje, potýkal se s problémy, které se dají shrnout do dvou faktorů: • složitost skóringové funkce, • organizační překážka (použití PC k rozhodování). Mezi nejvýznamnější průkopníky patří Bill Fair a Earl Isaac, kteří roku 1956 založili vlastní poradnu „Fair Isaac“ (FI) v San Francisku. Vytvořili kreditní karty, které byly nabízené v hotelech Hilton. Dále se zaměřovali na finanční domy, ale jak už zde bylo řečeno, bylo nutné zápolit se zakořeněným postojem, který v tomto období panoval. Druhé období je v knize „The credit scoring toolkit“[6] pojmenováno „věk automatizace“, kdy FI navázali dlouhodobý vztah s obchodním domem „Mongomery Ward“, čímž si upevnili postavení na trhu a začali vyjednávat další obchodní styky s poskytovateli úvěrů ve Spojených státech amerických.
32
Literární rešerše
Dalším velkým mezníkem se stal rok 1960, kdy začaly mít ropné společnosti problémy s úvěrovými operacemi, které byly způsobeny krádežemi a podvody. Společnosti se rozhodli přijmout a provádět úvěrové bodování. Období automatizace je možné také nazvat obdobím rozkvětu kreditního skórování. Jedinou překážkou byla technika, o které lze říci, že nebyla nijak kvalitní. Využíval se tehdy sálový počítač IBM 7090, který byl schopen zvládnout pouze manipulaci s 25 proměnnými pro 600 žadatelů o úvěr najednou. [6] V letech 1970 až 1980 bylo skórování aplikováno na osobní úvěry, kontokorentní úvěry a úvěry pro malé podnikatele. Bohužel u většiny z těchto druhů byly rozhodnutí stále prováděny ručně. K výpočtům se využívaly metody: • diskriminační analýzy (DA), • lineární pravděpodobnostní modelování (LPM). V posledním období bylo díky početnímu a softwarovému vývoji umožněno experimentovat s jinými statistickými technikami, kterými jsou: • dnes běžně využívaná logistická regrese, • expertní systémy a neuronové sítě. V roce 1990 se credit scoring rozšířil do dalších oblastí poskytování úvěrů, jednou z nich byly hypotéky. Dnes je úvěrové bodování samozřejmostí. 2.2.5
Vývoj funkce
Po seznámení s historií úvěrového skórování již můžeme přejít k vývoji jednotlivých skóringových funkcí. Informace budu v této i následující kapitole čerpat převážně z knihy Credit Scoring and its Applications [7]. Nejvíce využívané jsou statistické metody. První byla Fisherova diskriminační metoda, kde základem byla lineární diskriminační funkce. Rozlišovala dobrého a špatného zákazníka. Tento přístup je možné považovat za lineární regresi. Ovšem metoda nepostačovala potřebám a začala se řešit existence jiných forem regrese. Takové, která nemá tolik omezující předpoklady a zaručí optimální výsledek. Vznikla tedy logistická regrese, která je i dnes základním kamenem úvěrového bodování.
Literární rešerše
33
Uvedeme si zde šest hlavních technik, které se využívají: • diskriminační analýza, • lineární regrese, • logistická regrese, • rozhodovací stromy, • neuronové sítě, • lineární programování. Každá z těchto metod má své pro a proti, a je nutné zvažovat jisté aspekty, které se vztahují k údajům a technikám modelování. Jako je například vhodnost metody, adaptabilita a pochopitelnost výstupu. Nyní se zběžně podíváme na jednotlivé techniky. Vynecháme zde pouze logistickou regresi, které se budeme podrobně věnovat v dalším textu. 2.2.5.1 Diskriminační analýza Technika, pomocí které zkoumáme závislost mezi skupinou nezávisle proměnných hodnot a jednou závisle proměnou hodnotou. Snažíme se zařadit objekty do existujících tříd na základě míry jejich podobnosti. Vektor X = (X1, X2, .., XP) je soubor p-náhodných proměnných , popisující informace, které jsou k dispozici. Skutečnou hodnotu proměnné pro konkrétního žadatele vyjadřuje vektor x = (x1, x2, .., xp). Ve skóringové terminologii mluvíme o charakteristikách Xi, které mají atributy xi. Uvedeme-li to na praktickém příkladu, pak charakteristikou může být POBYTOVÝ STATUS, kde jednotlivými atributy jsou: • vlastník, • nájemník nezařízené nemovitosti, • nájemník zařízené nemovitosti, • žijící s rodiči.
34
Literární rešerše
Každý z věřitelů může mít odlišné skupiny atributů, přičemž charakteristiky zůstávají stejné. Atributy zjišťujeme odpověďmi na otázky v žádosti, kde charakteristika je otázka, na kterou klient odpovídá. Předpokládejme, že A je souborem všech možných hodnot, že použití proměnné X = (X1, X2, .., XP) může trvat. To znamená, že všechny rozdílné způsoby žádosti mohou být zodpovězeny. Cílem diskriminační analýzy je najít pravidlo, pomocí kterého budě věřitel schopen rozdělit soubor A na dvě podmnožiny. Jestliže podmnožinu AG (good) tvoří žadatelé, kterým bude věřitel ochoten poskytnout úvěr, pak je zřejmé že AB (bad) je podmnožina, kam se řadí nevhodní žadatelé, kterým úvěr poskytnut nebude. Odmítne-li věřitel špatného žadatele, minimalizuje tím své očekávané náklady. Rozpoznáváme dva typy nákladů, které odpovídají dvěma chybám. Jedná se o chybu prvního a druhého druhu. Nyní budeme předpokládat, že očekávaný zisk pro každého žadatele značíme L a očekávaný dluh každého žadatele D, pak: • pG …… podíl dobrých uchazečů, • pB …… podíl špatných uchazečů. Dále očekáváme, že charakteristiky žádosti mají konečný počet nespojitých atributů. Soubor A je konečný a existuje zde pouze konečný počet způsobů vyplnění žádosti. Nechť P(X│G) je pravděpodobnost, že žadatel má atributy x a je dobrý, jedná se o podmíněnou pravděpodobnost a představuje podíl pravděpodobnosti, že žadatel je dobrý a má atributy x (P(G/x)) s pravděpodobností, že se jedná o dobrého žadatele P(G).
P( X / G ) =
P(G / x) P(G )
(2.4)
Podobně lze definovat i P(X│B), tedy pravděpodobnost, že žadatel má atributy x a je špatný. Je-li q(G│x) je definována jako pravděpodobnost, že někdo s atributy x je dobrý, pak ji můžeme vyjádřit následovně:
Literární rešerše
35
q(G / x) =
P( x / G) P ( x)
.
(2.5)
Jestliže P(x) pravděpodobnost, že má žadatel atributy x, pak rovnice 2.4 a 2.5 mohou být upraveny do tvaru: P( x / G ) = q (G / x) p ( x) = P( x / G ) p G .
(2.6)
Z rovnice 6 není těžké dostat se k Bayesovu teorému, který říká, že:
q (G / x ) =
P ( x / G ) pg P( x)
.
(2.7)
Podobně tomu bude i u pravděpodobnosti, že někdo s atributy x je špatným žadatelem:
q ( B / x) =
P ( x / B ) pB P( x)
.
(2.8)
Pomocí předchozí dvou rovnic, tedy rovnic 7 a 8, lze zapsat rovnost, že podíl: q (G / x ) q(B / x)
=
P ( x / G ) pG P ( x / B ) pB
.
(2.9)
Nyní již můžeme přejít k matematickému vyjádření očekávaných nákladů na jednoho žadatele, kdy poskytneme úvěr žadateli AG a odmítneme ty, kteří patří do množiny AB. L ∑ P( x / G ) p g + D ∑ P( x / B) p B = L ∑ q(G / x) p( x) + D ∑ q( B / x) px . (2.10) x∈ AB
x∈AB
x∈AB
x∈AG
Očekávané náklady dělíme do dvou skupin, a to dle zařazení do podmnožiny AG nebo AB. Jestliže žadatele umístíme do skupiny AG, pak se zde jedná o očekávané náklady Lp(x/G)pG. Druhé vyjádření nákladů se vztahuje k osobě, která se nachází v AB. Můžeme je vyjádřit jako Dp(x/B)pb. Načež jsme schopni říci, že x je zařazen do AG, jestliže platí vztah:
36
Literární rešerše
Dp ( x / B ) p B ≤ Lp ( x / G ) p G .
(2.11)
Poté rozhodovací pravidlo skupiny AG, je dáno rovnicí: D P ( x / G ) p G D q (G / x ) . AG = {Dp ( x / B ) p B ≤ Lp ( x / G ) p G } = x / ≤ = x / ≤ L P ( x / B ) p B L q( B / x)
(2.12)
Cílem této metody je pravidlo minimalizovat. [7] 2.2.5.2 Lineární regrese Jde o popis vztahu dvou proměnných, kde základem je vysvětlení pohybů ve vývoji závisle proměnné pomocí pohybů nezávisle proměnné. Proměnnými jsou X a Y, kde X je vysvětlující (nezávisle) proměnná a Y je vysvětlovaná (závisle) proměnná. U nezávisle proměnné předpokládáme, že neexistuje chyba, naopak závisle proměnná je náhodná proměnná, kde se chyba vystkytuje a je předmětem zkoumání. Závislost mezi těmito proměnnými nejlépe popisuje přímka.
Y = a + bx ,
(2.13)
kde a,b jsouneznámé parametry a určují: • a - vzdálenost průsečíku regresní přímky s osou y od počátku, • b - sklon úhlu, který přímka svírá s osou x. Parametry odhadujeme metodou minimálních čtverců, také zvanou OLS metodou. V obecném vyjádření vypadá takto: ∧
Y =
s
∑
r =o
β r * Fr
• βr – hledaný parametr • Fr – funkce nezávisle promněnných. Metoda lze využít za podmínek: • je-li funkce aditivní, • je-li lineární v parametrech.
(2.14)
Literární rešerše
37
Jak vypadá graf regresní analýzy je možné vidět na obrázku 2. Na ose y je zobrazena závisle a na ose x nezávisle proměnná. Hledáme nejvhodnejší regresní přímku, která by proložila jednotlivé body v grafu tak, aby součet druhých mocnin odchylek bodů od přímky byl minimální. [9] Obr. 2
Lineární regrese
Zdroj: http://cs.wikipedia.org/wiki/Soubor:LinearRegression.svg
Základem celé metody je snaha najít nejlepší kombinaci charakteristik:
β 0 + β1 X 1 + β 2 X 2 + ... + β p X p = β * X *T
(2.15)
Kde vektory
β * = ( β 0 , β 1 , β 2 ,..., β p ), X * = (1, X 1 , X 2 ,..., X p ),
vysvětlují pravděpodobnost selhání. Je-li pi pravděpodobnost, že žadatel i ze vzorku neplní, pak hledám takové w*, co se nejvíce přiblíží. p i = β 0 + xi1 β1 + xi 2 β 2 + ... + xip β p pro všechna i
(2.16)
Přepokládejme, že nG jsou dobré vzorky, pak pro snadnější zápis předpokládáme, že se jedná o první nG ve vzorku, a tak pravděpodobnost pi = 1 pro
38
Literární rešerše
i = 1,..., nG . Zbytek ze vzorku, tedy nB, kde i = nG + 1,..., nG + n B jsou špatní žadatelé, pro něž je pravděpodobnost pi = 0 . Poté lze říci, že platí vztah nG + n B = n . V lineární regresi vybíráme koeficient, který minimalizuje střední kvadratické chyby mezi levou a pravou stranou rovnice 2.14. Čemuž odpovídá minimalizace: 2
2
nG + n B p p ∑ β j xij . 1 β x − + ∑ ∑ ∑ j ij i =1 j =0 i =nG +1 j =0 nB
(2.17)
2.2.5.3 Rozhodovací stromy Velice jednoduchou a přehlednou formaou analytického rozhodování jsou rozhodovací stromy. Její velkou výhodou je snadná orientace a interpretace. Také její vyhodnocení není obtížné a dá se provést velice rychle. Hlavní činností je zde identifikace objektů, které jsou popsány jistými atributy, které učitel nebo algoritmus zařadí do skupin. Celkový soubor A rozdělíme do dvou podskupin, které jsou daleko více homogenní v riziku nezaplacení než původní skupina. Postup se opakuje až do doby, kdy dosáhneme koncového uzlu. Každý koncový uzel je klasifikován na dobrý AG nebo špatný AB. Graficky je to zobrazeno jako strom, což je zřejmé z obrázku 3.
Literární rešerše Obr. 3
39
Rozhodovací strom
Zdroj: THOMAS, L. C., EDELMAN T., CROOK J. N.: Credit Scoring and its Applications - SIAM monographs on mathematical modeling and computation. Philadelphia: Society for Industrial and Applied Mathematics, 2002. 248 s. ISBN 0-89871-483-4.
Při sestavování klasifikačního stromu se řídíme dle tří důležitých rozhodnutí, kterými jsou: • Jaké pravidlo je nutné použít pro dělení do podskupin. • Jak rozhodnut, že se jedná o koncový uzel. • Jak rozdělit uzly na dobré a špatné. Snažíme se minimalizovat náklady chybné klasifikace. [7] 2.2.5.4 Neuronové sítě Forma umělé inteligence, která byla vyvinuta pro usnadnění lidské práce. Mluvíme spíše o myšlenkových a rozhodovacích procesech nežli o manuální práci. K fungování neuronové sítě je zapotřebí počítače. První síť vymyslel slavný psycholog Frank Rosenbatt roku 1958. Inspirací mu bylo fungování lidského mozku. Jeho síť byla nazvána „percepton“ a vycházela právě z postupu zpracování vizuálních dat mozkem. Byla schopna učit se, jako každá z neuronových sítí. Základem je tvorba spojení mezi procesními prvky (neurony). Každý neuron má mnoho vstupní signálů (proměnných), které jsou vynásobeny vahou neuronu. Jednotlivé výsledky se sečtou a přetvoří se v neuron, který se stane vstupní hodnotou dalšího neuronu, což je námi hledaná hodnota. Jsme schopni o ni říci, zda
40
Literární rešerše
má být přijata či odmítnuta. Jednovrstvou neuronovou síť lze vyjádřit algebraicky: p
Β k = β k 0 x0 + β k 1 x1 + ... + β p x p = ∑ β kq x q
(2.18)
y k = F (u k )
(2.19)
q =0
Obr. 4
Neuronová síť
Zdroj: 7 THOMAS, L. C., EDELMAN T., CROOK J. N.: Credit Scoring and its Applications SIAM monographs on mathematical modeling and computation. Philadelphia: Society for Industrial and Applied Mathematics, 2002. 248 s. ISBN 0-89871-483-4.
xi – vstupy neuronu,
w – váhy neuronu,
y – výstup neuronu,
u – vnitřní potenciál.
Vstupní proměnné x1, …, xp jsou variabilní. Váhy nazýváme synoptické, kdy kladná váha (excitor) zvyšuje hodnotu odpovídající proměnné, kdežto záporná váha (inhibitor) nám hodnotu uk snižuje. Indexy jsou pro každou váhu psány v pořadí (k,p), kde k je neuron, kterou váha využívá a p ukazuje proměnlivost.
Literární rešerše
41
V jednovrstvé neuronové síti je k = 1, právě z důvodu, že je zde pouze jeden neuron je hodnota uk transformována pomocí aktivační funkce. Vnitřní potenciál může nabývat několika hodnot: • u = 0, • u < 0, • u > 0. Je-li u=0 nebo u >0, pak je výstupní hodnota rovna 1. Při hodnotě menší než nula je výstupem 0. U finančních institucí jsou neuronové sítě využívané i v jiných oblastech nežli jen ve skórování, jako například při hodnocení obligací a cílený marketing. [7] 2.2.5.5 Lineární programování Nejedná se o statistickou metodu, ale o jednu z disciplín operačního výzkumu, pomocí které jsou řešeny rozhodovací problémy. Proto je zde také uváděna. Mluvíme zde o optimalizační úloze, která hledá extrém při předem definovaných kritérií na množině přípustných variant. Vztahy jsou vyjádřeny pomocí: • účelové funkce (mohu ji maximalizovat nebo minimalizovat), • soustavy rovnic a nerovnic, které jsou omezujícími podmínkami. Je-li funkce a zároveň omezující podmínky lineární, pak se jedná o lineární programování. Je možné ho dále využít při: • výrobním plánování, • finančním plánování, • plánování reklamy, • nutričních problémech, • dělení materiálu, • směšovacích problémech • rozvrhování pracovníků, • dopravním problému.
42
Literární rešerše
2.3 Logistická regrese Jak už bylo výše zmíněno, logistická regrese je nejpoužívanější metodou pro odhad skóringové funkce, proto se jí v této práci budu věnovat podrobněji. Průběh logistické regrese znázorňuje S-křivka, která zpočátku rychle roste, ale následně se přírůstky zmenšují a dochází tak k pomalejšímu růstu, který pomalu ustává a křivka se přiblíží k horní hranici nasycení, jak je vidět z obrázku 5.
Obr. 5
Logistický regresní model
Zdroj: ALLISON, P. D. Logistic Regression Using the SAS® System: Theory and Application. Cary, NC: SAS Institute Inc., 1999. s. 287. ISBN 1-58025-352-0.
Jedná se o funkci, která je symetrická okolo bodu
[ pi ; x] , [0,5;0] .
S rostoucím x roste i pravděpodobnost, že daný jev nastane a opačně. Pravděpodobnost nikdy nemůže dosáhnout hraničních hodnot, jelikož se jedná o náhodnou proměnnou a je nutno počítat s určitou chybou, která při odhadu může nastat. Je to alternativní metoda lineární regrese, která není pro kategorické proměnné vhodná. Musíme si uvědomit, že v lineární regresi není závisle proměnná schopna nabývat všech reálných hodnot, kdežto při využití logistické regrese je to možné, což si ukážeme v dalším textu.
Literární rešerše
43
Logistická regrese je určena pro: • binomickou proměnnou, • nominální proměnnou, • ordinální proměnnou, jež budou vysvětleny v dalším textu. [10] Její využití je vhodné v následujících třech případech: • výskytu onemocnění – je zjišťován jev výskytu onemocnění, • sázkové kanceláře – odhady vítězství hráče v zápase, • kreditní riziko – odhad pravděpodobnosti nesplacení úvěru klientem, kterému byl poskytnut [8]. Metoda odhaduje pravděpodobnost jevu pomocí známých charakteristik. Jestliže se zjišťovaný jev, neboli závisle proměnná modeluje pomocí binární také zvané dichotomické či alternativní náhodné veličiny, znamená, že se jedná o binární logistickou regresi a pravděpodobnost závisle proměnné nabývá pouze dvou hodnot, buďto 0 nebo 1. Logistická regrese se v credit scoringu stala nejvyužívanější metodou od roku 1980, a to právě díky svým kladům, kterými jsou: • práce s binárními výstupy, • není možné, aby pravděpodobnosti spadali do jiného rozsahu nežli 0;1 , • věrohodné odhady pravděpodobnosti vzhledem k dostupným informacím. Hlavní nevýhodou je, že se jená o velice náročnou metodu, která vyžaduje mnoho úprav. Cílem využití logistické regrese v credit scoringu je najít model, pomocí kterého jsme schopni odhadnout pravděpodobnost splácení klienta, která závisí na vysvětlujících proměnných. [7]
44
Literární rešerše
Definujme si funkci odds nebo-li šanci:
odds =
pi . 1 − pi
(2.20)
Jedná se o poměr pravděpodobnosti úspěchu
( pi )
ku pravděpodobnosti
neúspěchu (1 − pi ) . Funkce je zde omezena zdola, což znamená, že nábývá hodnot 0; ∞) . Pomocí odds jsme schopni zjistit odds ratio, což je poměr odds nezávisle proměnné s odds celého datového souboru. Jak již bylo řečeno na začátku této kapitoly, je třeba získat funkci, kde bude závisle proměnná neomezená. Proto je nutné funkci odds zlogaritmovat. Získáme tak funkci logit(Y).
p logit(Y ) = ln i 1 − pi
.
(2.21)
Nyní k získání modelu logistické regrese stačí poslední krok, a to položit funkci logit(Y) rovnu lineární kombinaci charakteristických proměnných:
p ln i 1 − pi
= β 0 + β1 x1 + β 2 x2 + .... + β k xk .
(2.22)
Díky ní, je závisle proměnná schopna nabývat hodnot od (-∞,∞). Z rovnice si vyjádříme pi:
pi =
exp(β 0 + β 1 x1 + β 2 x 2 + ... + β k x k ) , 1 + exp(β 0 + β 1 x1 + β 2 x 2 + ... + β k x k )
(2.23)
Vydělíme ji čitatelem a získáme tento tvar:
pi =
1 . 1 + exp( β 0 − β1 x1 − β 2 x 2 − ... − β k x k )
(2.24)
Díky této úpravě bude pravděpodobnost nabývat pouze 0 nebo 1. Jedná se o binární model logistické regrese. [10]
Literární rešerše
2.3.1
45
Odhad logistického modelu
Tím, že jsme získali model pro binární závisle proměnnou, můžeme přistoupit k odhadům koeficientů. Obecně jsou využívané 3 metody pro odhad koeficientů: • metoda nejmenších čtverců (OLS), • metoda vážených nejmenších čtverců (WLS), • metoda maximální věrohodnosti (ML). U logistické regrese se koeficienty odhadují pomocí poslední zmíněné metody, tedy pomocí metody maximální věrohodnosti. 2.3.2
Maximální věrohodnost
Jedná se o obecný odhad, který je možné běžně využít pro všechny druhy statistických modelů, a to ze dvou důvodů: • Odhady mají žádoucí vlastnovsti v rozsáhlých vzorech při poměrně všeobecných podmínkách. Jsou: o konzistentní = s růstem pozorování se odhlad blíží ke skutečné hodnotě => zvyšuje se mi pravděpodobnost pi, o asymptoticky efektivní = odhad ve velkém vzorku pozorování bude mít standardní chybu, která je alespoň tak malá jako u jiných metod odhadu o asymptoticky normální = lze využít chí-kvadrát rozdělení a normální rozdělení pro výpočet interval spolehlivosti a p-hodnot. • Ve většině případů jsou odhady přímo odvoditelné z metody maximální věrohodnosti. Postupujeme tímto způsobem: • Zápis pravděpodobnosti jako funkci neznámých parametrů. Jde o tvorbu věrohodnostní funkce, kdy je nutné nejdřívě zvolit model, kterým vybereme pravděpodobnostní rozdělení vysvětlované proměnné. Poté zvolíme funkční formu.
46
Literární rešerše
• Nalézt hodnoty neznámých parametrů. Jedná se o maximalizaci, která se provádí na základě opakovaných výpočtů, kdy se jedná o postupnou aproximaci. [10] Nyní budeme předpokládat, že vektor η = (β 0 , β 1 , β 2 ,..., β k ) , β 0 je absolutní člen a β = (β 1 , β 2 ,..., β k −1 ) , pak lze provést odhad maximální věrohodnosti pomocí rovnice:
∂ ∂ eη i ηi ln (1 − pi ) = − ln 1 + e = − = − pi , ∂η i ∂η i 1 + eη i
(
)
(2.25)
kterou lze dále upravit na tvar n
n
i =1
i =1
l ( p ( β 0 , β )) = ∑ (Yiη i ( β 0 , β ) ) + ∑ ln (1 − pi ( β 0 , β ) ) .
(2.26)
Jelikož se jedná o metodu maximalizace, musíme vypočítat parciální derivace z rovnice 2.26 dle β 0 , β . [11] n n ∂l ∂l ∂η i =∑ = ∑ (Yi − pi ( β 0 , β ) ) ∂β 0 i =1 ∂η i ∂β 0 i =1
(2.27)
n n ∂l ∂l ∂η i =∑ = ∑ (Yi − pi ( β 0 , β ) )xi ∂β i =1 ∂η i ∂β i =1
(2.28)
Jelikož hledáme extrémy rovnic, pak je nutné položit je rovny nule. Vznikne nám soustava rovnic, která lze řešit pomocí metody tečen, jinak známé pod názvem Newton-Raphsonova metoda, která se využívá pro nalezení řešení rovnice její derivaci, tedy směrnici tečny.[26] 2.3.3
Nezávisle proměnná logistické regrese
Nezávisle proměnná může být spojitá, kategorizovaná nebo binomická.
Literární rešerše
47
Spojitá proměnná může nabývat libovolných hodnot z daného intervalu všech reálných čísel. Mluvíme-li o kategorizovaných proměnných, je nutné se zaměřit na její druh: • Nominální kategorizovaná proměnná je taková proměnná, kde mezi kategoriemi nejsou žádné vztahy, a proto je nepřípustné, aby tato proměnná vstoupila do logistické nebo jakékoli jiné regrese. Nastane-li tato situace, je nutné vytvořit nové konstantní proměnné, kde x k je nezávisle kategorizovaná proměnná s I kategoriemi a I− 1 novými proměnnými D k1 , D k2 ,..., D kI-1 . Platí-li tento předpoklad, pak můžeme rovnici modelu vyjádřit takto:
logit( p ) = β 0 + β1 x1 + β 2 x2 + ... + β k −1 x k −1 + ∑ β ki Dki .
(2.29)
• Další možností je ordinální kategorická proměnná. V tomto případě není
jediný způsob, jak s touto proměnnou zacházet. Jako první způsob lze brát to, že pokud má proměnná dostatečný počet kategorií (alespoň 7), pak je možné jí brát za spojitou. Další možností je vytvoření nových proměnných. Jedná-li se o binomickou proměnnou, pak je zde opět možnost vybrat si jak s proměnnou naložit. Bud vytvořím novou proměnnou nebo ji mohu brát jako spojitou. Ať využiji jakoukoli metodu, dostanu se ke stejnému regresnímu koeficientu, který se může numericky lišit. Nejlepší variantou je vyjádřit si proměnnou pomocí 0 a 1, a poté s ní pracovat jako se spojitou proměnnou. [12] Cílem logistické regrese je klasifikace jednotek, tedy žadatelů o úvěr, do předem známých tříd. V našem případě se jedná o třídy „splatí úvěr“ kdy pi = 1 a „nesplatí úvěr“ pi = 0 . 2.3.4
Predikční síla modelu
Predikční síla modelu je velice důležitým ukazatelem. Říká, jak dobře je skóringový model schopen řadit jednotky do tříd. Graficky lze predikční sílu zobrazit pomocí ROC křivky a početně díky Ginino koeficientu. Existují i jiné metody,
48
Literární rešerše
jako například Gains křivka nebo Lift křivka, ale jelikož nebudou v praktické části využity, nebudu se jimi zabývat. 2.3.4.1 ROC křivka Jak už bylo řečeno, ROC křivka (Receiver operating characteristic) slouží ke grafickému znázornění predikční síly logistického modelu. Byla vyvinuta již za druhé světové války pro detekování nepřátelských sil pomocí radaru. Dnes je její využití velmi rozmanité. Využívá se například ve zdravotnictví, psychologii, ekonomii, atd. ROC je grafické znázornění specifičnosti a senzitivity. Kdy: • Senzitivita – je relativní četnost správně zařazených dobrých případů (true positive rate, označím TPR). • Specificita – je relativní úspěšnost při klasifikaci negativních případů. (true negative rate, které označím TNR) [32] Předpokládáme, že v odhadu mohou nastat dvě chyby, kterými jsou: • False positive rate (FPR) – relativné četnost špatně klasifikovaných dobrých případů. • False negative rate (FNR) – relativní četnost špatného zařazení negativních případu. Jestliže chceme vykreslit ROC křivku, pak na osu x vynášíme doplněk specifičnosti FPR (FPR = 1 − TNR ) a na osu y senzitivitu. Lze tedy říci, že křivka zobrazuje porovnání mezi relativními četnostmi pravdivě pozitivních a falešně pozitivních případů. Všechny tyto možnosti a výpočty jejich relativních četností jsou znázorněny v následující tabulce.
Literární rešerše Tab. 4
49
Senzitivita a specifičnost
Předpovídaný Předpovídaný Relativní pozitivní negativní četnosti TP Skutečně pozitivní Pravdivě pozitivní FN Skutečně negativní Falešně negativní
FP Falešně pozitivní TN Pravdivě negativní
TP (TP + FP) FP FNR = (TP + FP) TN TNR = (FN + TN ) FN FPR = (FN + TN ) TPR =
Zdroj: http://en.wikipedia.org/wiki/Receiver_operating_characteristic
Graficky lze dobré a špatné odhady zobrazit pomocí Gaussovi křivky, což je možné vidět na obrázku 6. Obr. 6
Senzitivita a specificita
Zdroj: http://en.wikipedia.org/wiki/File:ROC_space-2.png
Prostor ROC křivky je čtverec, který je rozdělen diagonálou, jež od sebe odděluje špatné (pod diagonálou) a dobré třídění (nad diagonálou). Na obrázku 7 je zobrazena červenou přerušovanou čarou. Také je na tomto obrázku možné vidět modře vyobrazené body, které reprezentují jednotlivé odhadované případy. Nejlepším odhadem je ovšem bod černé barvy, který nalezneme v levém horním rohu prostoru. Jedná se o bod se souřadnicemi [0;1] , který je nazýván „perfektní klasifikace“.
50
Literární rešerše
Obr. 7
Prostor ROC křivky
Zdroj: http://en.wikipedia.org/wiki/File:ROC_space-2.png
Vyneseme-li do prostoru ROC křivku (černá křivka v obrázku 8) rozdělí se nám prostor dobrého třídění, kde plochu nad křivkou označíme B a plochu pod křivkou A. Obr. 8
ROC křivka
1
ROC B A
TPR
0
FPR = 1 TNR
1
Zdroj: Vlastní
Čím více se ROC křivka blíží ke stěnám prostoru nad diagonálou, tím je větší její predikční síla.
Literární rešerše
2.3.5
51
Giniho koeficient
Giniho koeficient (dále jen GC) je na obrázku 8 zobrazen jako plocha A, tedy plocha pod křivkou ROC. Vyjadřuje predikční sílu modelu číselně. Díky ROC křivce jsme schopni odvodit výpočet koeficientu. GC =
A A+ B
(2.30)
Koeficient nabývá hodnot z intervalu 0;1 . Rovná-li se nule, pak se jedná o zcela náhodný zařazování případů, naopak je-li roven jedné, jedná se ideální model, který výborně řadí špatné a dobré případy.[23] Není možné, abych získali GC, který bude roven 0 nebo 1. Jeho hodnota pohybuje v daném intervalu a k hraničním bodům se jen přibližuje. Čím je GC blíže jedničce, tím větší je predikční síla modelu. Lze ho odhadnout pomocí Sommerovi D-statistiky.
52
Praktická část
3 Praktická část 3.1 Metodika Nyní si ukážeme praktické využití logistické regrese na konkrétních datech, která jsou přílohou knihy Credit Scoring and its Applications [7]. Pro výpočet jednotlivých ukazatelů a parametrů využijeme program SAS Learning Edition 4.1 (dále jen SAS). Jedná se o program, který vyvinula firma SAS Institute, jež má celosvětové zastoupení a pobočku lze najít i v České republice. 3.1.1
Proměnné
V našem případě je Y binomická závisle proměnná, která nabývá hodnot: • 0 = dobrý žadatel, • 1 = špatný žadatel. V datovém souboru se nachází 902 dobrých a 323 špatných žadatelů. Celkový počet klientů je tedy 1225. Nezávisle proměnné jsou téměř všechny kvantitativního charakteru.
Praktická část Tab. 5
53
Nezávisle proměnné
Nezávisle proměnná Věk Počet dětí Ostatní rodinní příslušníci Příjem manžela(ky) Příjem žadatele Telefon Hodnota bytu
Nesplacený zůstatek hypotéky
Možnosti
0 = ne 1 = ano 0 = bez odpovědi, žadatel není vlastníkem 000001 = nulová hodnota prázdné = bez odpovědi 0 = bez odpovědi, žadatel není vlastníkem 000001 = nulová hodnota prázdné = bez odpovědi
Výdaje na hypotéku (nájemné) Výdaje na úvěry Výdaje na splátky Výdaje na kreditní karty Zdroj: vlastní
Dále se v nezávisle proměnných nacházejí dvě klasifikační proměnné, kterými jsou zaměstnání a pobytový status. Tab. 6
Klasifikační proměnné „Zaměstnání“ a „Pobytový status“
V
Zaměstnání vládní
O
W
žena v domácnosti
F
M
vojenské
U
P B R
soukromý sektor veřejný sektor v důchodu osoba samostatně výdělečně činná student nezaměstnaný ostatní bez odpovědi
P N Z
E T U N Z Zdroj: vlastní
Pobytový status majitel nájemník zařízeného bytu Nájemník nezařízeného bytu s rodiči ostatní bez odpovědi
54
Praktická část
Data jsem si poupravila. Jelikož odhady parametrů se desetinnými místy lišili, vydělila jsem „příjem manžela / manželky“,“ příjem žadatele“, „hodnota bytu“ a „nesplacený zůstatek hypotéky“ číslem deset, abych tak dostala hodnoty v řádu tisíců, které jsou srovnatelné s ostatními číselnými proměnnými. Dále jsem nezávisle proměnné „počet dětí“, „ostatní rodinní příslušníci“, „telefon“ zařadila mezi klasifikační proměnné z důvodu, že se nejedná o spojitou veličinu. 3.1.2
Možnosti logistické regrese
Jsou různé metody práce s proměnnými. V SAS je možné vybrat: • Full model (model bez výběru) – jedná se o výchozí model, který neumožňuje žádný výběr a počítá se všemi nezávisle proměnnými. • Forward selection (výběr vpřed) – je-li model ovlivněn novou veličinou na zvolené hladině významnosti, pak jsou do modelu postupně přidávány další jednotlivé proměnné. • Backward elimination (zpětné odstranění) – do modelu jsou nejprve zařazeny všechny proměnné, poté se v jednotlivých krocích nejméně významné odstraňují. • Stepwise selection (postupný výběr) – do modelu se přidávají jednotlivé nezávisle proměnné postupně, a po každém přidání je přezkoumán stav všech zahrnutých proměnných, abychom zjistili zda se nesnížil jejich vliv na model. Je-li tomu tak, pak je daná proměnná vyřazena. [27] 3.1.3
Testování hypotéz
Nejdříve si položím otázku, zda je model s parametry β lepší než model, kde je pouze konstanta ( β 0 ). Zjistím to pomocí globálního testování nulové hypotézy (dále jen H 0 ), kterou se snažím zamítnout. Říká, že všechny koeficienty nezávisle proměnných jsou nulové. Testovat H 0 je možné pomocí věrohodnostního poměru, skóre testu a Wald testu, kde sleduji hodnoty chí-kvadrát testu a p-hodnotu. Působí zde nepřímá úměrnost, tedy čím větší je chí-kvadrát, tím menší je p-hodnota. Snažíme se získat p-hodnotu menší než je hladina význam-
Praktická část
55
nosti. V našem případě se jedná o α = 0,05 . Bude-li p-hodnota menší, pak zamítneme nulovou hypotézu a přijmeme alternativní hypotézu (dále H1), která říká, že alespoň jeden koeficient nezávisle proměnné je nenulový. Dále je velmi důležité, které vysvětlující proměnné jsou významné a které nikoli. Opět zde máme dvě hypotézy: • H 0 : parametr je nevýznamný. • H1: parametr je významný. Zda nulovou hypotézu zamítnu či nikoli závisí na p-hodnotě jednotlivých proměnných a zvolené hladině významnosti. Také se budu zajímat o to, jak se výsledky logistické regrese změní, jestliže zahrnu do „příjmů žadatele“ příjmy z šedé ekonomiky. Jedná se o příjmy, které nebyly nijak zdaněny, nebo přiznány jako výdělek, a stát tak přišel o část peněz, které by plynuly do státního rozpočtu. Právě z důvodu nezdanění, stát neví o jaké množství peněz vlastně jde. Existenci stínové ekonomiky lze sledovat na hrubém domácím produktu (dále jen HDP). Jestliže spotřeba roste rychleji než HDP je zřejmé, že lidé si přivydělávají, aniž by příjmy zdanili. Říci o jakou částku z HDP vlastně jde, je složité a ekonomičtí odborníci ji pouze odhadují. Ing. Martin Fassmann, významný český ekonom zabývající se tímto tématem v rozhovoru pro Český rozhlas dne 5. března 2009 odpověděl na otázku Zdeňka Vališe o odhadu šedé ekonomiky takto: „To je taková populární stránka věci. Upřímně řečeno, mě to ani moc nezajímá, mě spíše zajímají ty vazby. Pro mě je celkem irelevantní, jestli je to pět nebo deset procent. Byl bych v tomto ohledu opatrný při házení procenty. Myslím, že to bude maximálně do deseti procent.“ [28] Na serveru www.lidovky.cz dne 21. února 2009 byl zveřejněn článek „Kdo neokrádá stát…“, ve kterém se hovoří o šedé ekonomice v intervalu mezi deseti až patnácti procenty. Na základě těchto dvou informací jsem se rozhodla, že budu počítat s hraničními hodnotami, tedy s 10% a 15% účastí šedé ekonomiky na HDP.
56
Praktická část
Jelikož chci navýšit příjmy žadatele o příjmy z šedé ekonomiky, zjistila jsem si, že: Tab. 7
Šedá ekonomika Položka HDP na osobu (za rok) nový Šedá ekonomika za rok (10 %) příjem 1 Průměrný měsíční příjem z šedé ekonomiky nový Šedá ekonomika za rok (15 %) příjem 2 Průměrný měsíční příjem z šedé ekonomiky
KČ 345.727 34.572,7 2.881 51.859 4.322
Zdroj: vlastní
Jelikož jsem ale příjmy vydělila deseti, budu přičítat hodnoty 288,1 Kč a 432,2 Kč. Nyní, když víme, o jaké částky se jedná, musíme si určit zároveň platící podmínky, za kterých bude žadatelův příjem navýšen: • počet dětí ≥ 3, • Příjem manžela(ky) ≤ 10.000 Kč, • Příjem žadatele ≤ 20.000 Kč.
3.2 Model bez možnosti výběru (full model) Jak již bylo řečeno, model bude počítat se všemi proměnnými, ať už budou pro model významné či nikoli. Zamítli jsme globální nulovou hypotézu, to tedy znamená, že koeficienty nejsou nulové. Významné parametry zjistíme z následující tabulky 8.
Praktická část Tab. 8
57
Analýza významnosti nezávisle proměnných (full model)
Nezávisle proměnná Věk Příjem manžela(ky) Příjem žadatele Hodnota bytu Zůstatek hypotéky Výdaje na hypotéku Výdaje na úvěry Výdaje na splátky Výdaje na kreditní karty Počet dětí Ostatní rodinní příslušníci Telefon Zaměstnání Pobytový status
Stupeň Wald p-hodnota volnosti Chí-kvadrát 1 3,8716 0,0491 1 6,6273 0,0100 1 20,8264 < 0,0001 1 0,9064 0,3411 1 0,3167 0,5736 1 1,1224 0,2894 1 0,3850 0,5349 1 2,5108 0,1131 1 5,3431 0,0208 5 2,8382 0,7249 2 1,5398 0,4631 1 0,3513 0,5534 10 5,7516 0,8357 4 10,9849 0,0267
Zdroj: vlastní
Významnými parametry jsou „věk“, „příjem manžela(ky)“, „příjem žadatele“, „výdaje na kreditní karty“ a „pobytový status“. Výpočty se ale provádí se všemi nezávisle proměnnými. Dále mohu určit vliv proměnných. Jelikož se jedná o logistickou regresi, není vhodné kvantifikovat tento vliv proměnné pomocí odhadnutých parametrů jako je tomu u lineární regrese. Je vhodnější vyvozovat závěry z poměru šancí (odds ratio).
58 Tab. 9
Praktická část Odhad parametrů (full model)
Odhad parametru Konstanta 1.4353 Věk 0.0131 Příjem manžela(ky) 0.000468 Příjem žadatele 0.000274 Hodnota bytu 0.000046 Zůstatek hypotéky -0.00003 Výdaje na hypotéku -0.00022 Výdaje na úvěry -0.00008 Výdaje na splátky 0.00138 Výdaje na kreditní karty 0.00221 0 -2.2278 1 -2.2974 Počet dětí 2 -2.2487 3 -2.4695 4 -1.0888 Ostatní rodinní 0 0.3294 příslušníci 1 0.3339 Telefon 1 -0.0689 B -0.2006 E -0.0147 M 0.00314 N 0.4864 P 0.1822 Zaměstnání R -0.0677 T 0.1779 U -0.5100 V 0.3522 W -0.4015 F 0.2822 N -0.6421 Pobytový status O -0.1482 P 0.1845 Nezávisle proměnná
Zdroj: vlastní
Tabulka 9 obsahuje odhady parametrů, které vypovídají o vlivu na výslednou pravděpodobnost. Kladné hodnoty znamenají, že proměnná má na splácení úvěru kladný vliv. Je s nimi spojena přímá úměrnost, což znamená, že když nezávisle proměnná vzroste o jednotku, zvýší se pravděpodobnost, že žadatel je dobrý. Nulová hodnota znamená, že proměnná nemá na pravděpodobnost vůbec žádný
Praktická část
59
vliv. Se záporným znaménkem před koeficientem je spojena nepřímá úměrnost. Se zvýšením vysvětlující proměnné se sníží pravděpodobnosti. Tab. 10
Odds ratio (full model)
Nezávisle proměnná Věk Příjem manžela(ky) Příjem žadatele Hodnota bytu Zůstatek hypotéky Výdaje na hypotéku Výdaje na úvěry Výdaje na splátky Výdaje na kreditní karty
Počet dětí
Ostatní rodinní příslušníci Telefon
Zaměstnání
Pobytový status
0 vs 5 1 vs 5 2 vs 5 3 vs 5 4 vs 5 0 vs 2 1 vs 2 0 vs 1 B vs Z E vs Z M vs Z N vs Z P vs Z R vs Z T vs Z U vs Z V vs Z W vs Z F vs U N vs U O vs U P vs U
Odds ratio 1.013 1.000 1.000 1.000 1.000 1.000 1.000 1.001 1.002 <0.001 <0.001 <0.001 <0.001 <0.001 2.699 2.711 0.871 0.824 0.993 1.011 1.639 1.209 0.941 1.204 0.605 1.433 0.674 0.959 0.381 0.624 0.870
Zdroj: vlastní
Jak již bylo řečeno, pomocí odds ratio je možné kvantifikovat vliv proměnných. Hodnota vyjadřuje poměr šancí klienta splatit úvěr. Vychází-li hodnota menší jak 1, pak je šance splacení podprůměrná. Přesáhne-li hodnota 1, pak šance na
60
Praktická část
splacení je nadprůměrná. Jelikož tento model zahrnuje všechny proměnné, nebudu zde všechny popisovat. Výklad proměnných vysvětlím na dvou případech. Zvýší-li se „věk“ o jednotku, zvyšuje se šance schopnosti splácet o 1,3 %. Naopak u proměnné „pobytový status N vs U“, mi s každou narůstající jednotkou klesá šance na splácení úvěru o 61,9 %. V poslední tabulce plného modelu je možné pozorovat procenta dobrých žadatelů (percent concordant), špatných žadatelů (percent discordant), procenta žadatelů u kterých se nedá rozhodnout, zda patří mezi dobré nebo mezi špatné klienty (percent tied). Dále je v tabulce zobrazena hodnota Ginniho koeficientu (dále jen GC). Tab. 11
Předpovídaná pravděpodobnost (full model)
Předpovídaná pravděpodobnost Dobří žadatelé Špatní žadatelé Dobrý = Špatný GC
Hodnoty 67,8 % 31,7 % 0,5 % 0,361
Zdroj: vlastní
Z tabulky 11 je tedy vidět, že 67,8 % žadatelů spadá mezi dobré klienty, 31,7 % jsou špatní klienti, u 0,5 % nelze rozhodnout, zda jsou dobří nebo špatní. Záleží zde na bance, jak se rozhodne. Ginniho koeficient nám popisuje predikční sílu modelu. Je vidět, že rozhodování o dobrých a špatných klientech není moc dobré. Graficky znázorněnou predikční sílu je možné vidět na ROC křivce (obrázek 9). Špatná predikční síla je zde zapříčiněna malým datovým souborem.
Praktická část Obr. 9
61
ROC křivka (full model)
Zdroj: vlastní
3.3 Výběrové metody Logistickou regresi jsem vypočítala všemi třemi výběrovými metodami. Každá jiným způsobem určila stejně významné nezávisle proměnné. Metoda vpřed vybrala proměnné v pěti krocích, poté už nebylo možno přidat další, jelikož jejich p-hodnota byla větší než hladina významnosti. Metoda zpětného odstranění zařadila v nultém kroku všechny proměnné a v dalších devíti proměnné postupně vymazávala. Metoda postupného výběru, měla úplně stejné výsledky jako metoda vpřed, jelikož nebyly vymazány v jednotlivých krocích žádné předem zařazené proměnné. Jelikož jsou výsledky všech metod stejné, budu je interpretovat společně. Nejprve byla zamítnuta nulová hypotéza o nulovosti koeficientů. Byla přijata alternativní hypotéza. Analýzu významnosti proměnných provedl program SAS. Vybral proměnné, které jsou uvedeny v tabulce 12.
62 Tab. 12
Praktická část Významné nezávisle proměnné (výběrové metody)
Nezávisle proměnná Věk Příjem manžela(ky) Příjem žadatele Výdaje na kreditní karty Pobytový status
Stupeň Wald p-hodnota volnosti Chí-kvadrát 1 8,3756 0,0038 1 6,2190 0,0126 1 37,5515 < 0,0001 1 5,1668 0,0230 4 13,8502 0,0078
Zdroj: vlastní
Je vidět, že jednotlivé metody vybraly ty vysvětlující proměnné, které jsem uváděla v metodě bez možnosti výběru jako významné. Oproti plnému modelu je zde rozdíl v hodnotách Wald chí-kvadrátu. U věku, příjmu žadatele a pobytového statusu se vypočtené hodnoty zvýšily, což znamená, že p-hodnoty vybraných proměnných se snížili. U ostatních byl efekt opačný. Tab. 13
Odhad parametrů (výběrové modely)
Nezávisle proměnná Konstanta Věk Příjem manžela(ky) Příjem žadatele Výdaje na kreditní karty Pobytový status
F N O P
Odhad parametru -0,4238 0,0143 0.000421 0.000303 0.00219 0.2677 -0.6653 -0.1357 0.2506
Zdroj: vlastní
Z tabulky 13 je možné vypozorovat, že krom konstanty zůstaly vlivy nezávisle proměnných stejné. Odhady se jen nepatrně změnily.
Praktická část Tab. 14
63
Odds ratio (výběrové modely)
Nezávisle proměnná Věk Příjem manžela(ky) Příjem žadatele Výdaje na kreditní karty F vs U N vs U Pobytový status O vs U P vs U
Odds ratio 1.014 1.000 1.000 1.002 0.985 0.338 0.658 0.968
Zdroj: vlastní
V tabulce 14 si můžeme povšimnout, že při jednotkovém růstu proměnné „pobytový status“ mi bude pravděpodobnost splacení úvěru klesat, oproti tomu, budeli se zvyšovat „věk“, poroste pravděpodobnost o 1,4 %. Také poroste i pravděpodobnost výdajů na kreditní karty. Zvýšení výdajů o jednotku způsobí růst pravděpodobnosti o 0,2 %. S růstem příjmů u žadatele , i u manžela(ky) se pravděpodobnost měnit nebude. Tab. 15
Předpovídaná pravděpodobnost (výběrové modely)
Předpovídaná pravděpodobnost Dobří žadatelé Špatní žadatelé Dobrý = Špatný GC
Hodnoty 66,7 % 32,8 % 0,6 % 0,339
Zdroj: vlastní
Díky tomu, že do modelu nebyly zahrnuty všechny proměnné a byly vybrány pouze ty významné, se pravděpodobnost dobrých žadatelů snížila o 2,2 %. V našem vzorku 1225 žadatelů to znamená, že banka v tomto případě zařadí 27 klientů mezi špatné žadatele, přitom v plném modelu by byli považováni za dobré. S poklesem pravděpodobnosti klesl i Ginniho koeficient, což znamená, že predikční síla se oproti plnému modelu ještě více zhoršila. Jednotlivé ROC křivky jsou uvedeny v příloze A.
64
Praktická část
3.4 Změny příjmů Jak bylo v metodice definováno, dle jistých kriterií byly navýšeny příjmy. Aby byly vidět změny, které se při zahrnutí příjmů z šedé ekonomiky staly, budu uvádět oba výsledky navýšení a porovnávat je metodou před navýšením. Nejdříve provedeme výpočet metodou bez možnosti výběru, poté metodou postupného výběru. 3.4.1.1 Model bez možnosti výběru (full model) Globální nulová hypotéza byla zamítnuta. Byla přijata alternativní hypotéza o nenulovosti alespoň jednoho z koeficientů nezávisle proměnných. O významnosti či nevýznamnosti lze rozhodnout na základě hodnot v tabulce 16. Tab. 16
p-hodnoty vysvětlujících proměnných různých příjmů (full model)
Nezávisle proměnná Věk Příjem manžela(ky) Příjem žadatele Hodnota bytu Zůstatek hypotéky Výdaje na hypotéku Výdaje na úvěry Výdaje na splátky Výdaje na kreditní karty Počet dětí Ostatní rodinní příslušníci Telefon Zaměstnání Pobytový status
p-hodnota
p-hodnota
p-hodnota
původní příjem
nový příjem1
nový příjem 2
0,0491 0,0100 < 0,0001 0,3411 0,5736 0,2894 0,5349 0,1131 0,0208 0,7249 0,4631 0,5534 0,8357 0,0267
0.0491 0.0098 < 0.0001 0.3475 0.5752 0.2837 0.5357 0.1142 0.0210 0.7284 0.4592 0.5587 0.8443 0.0263
0.0491 0.0096 < 0.0001 0.3507 0.5761 0.2811 0.5361 0.1147 0.0211 0.7292 0.4573 0.5614 0.8483 0.0261
Zdroj: vlastní
Z tabulky je vidět, že ať už proběhla jakákoli změna příjmu, významné nezávisle proměnné zůstali stejné. U proměnných „příjem manžela(ky)“, „ výdaje na hypotéku“, „ostatní rodinní příslušníci“ a „pobytový status“ se p-hodnota snížila, tudíž se zvýšením příjmu se z nich stávají stále významnější proměnné, ovšem pouze „příjem manžela(ky)“ a „pobytový status“ jsou opravdu významné.
Praktická část
65
Vliv odhadnutých parametrů zůstává stále stejný u všech 3 variant příjmu. Tabulku uvádím v příloze C. Hodnoty odds ratio zůstávají pro většinu významných proměnných stejné, ať už se příjem změnil jakkoli. Pouze u proměnné „pobytový status“ proběhly změny v řádu tisícin. Změnily se také hodnoty některých nevýznamných proměnných, jsou jimi „ostatní rodinní příslušníci“, „zaměstnání“ a „telefon“. Změny jsou také velmi malé, a proto změna pravděpodobností nebude nijak výrazná. Tabulka s hodnotami odds ratio je znázorněna v příloze D. Tab. 17
Předpovídané pravděpodobnosti při změně příjmů
Předpovídaná pravděpodobnost Dobří žadatelé Špatní žadatelé Dobrý = Špatný GC
Hodnoty
Hodnoty
Hodnoty
Původní příjem
nový příjem 1
Nový příjem 2
67,8 % 31,7 % 0,5 % 0,361
67,9 % 31,6 % 0,4 % 0,363
68,0 % 31,6 % 0,4 % 0,364
Zdroj: vlastní
Jak už bylo řečeno, v poměru šancí nebyly zaznamenány žádné velké změny, proto i předpovídaná pravděpodobnost se liší jen velice málo. Z tabulky 17 je vidět, že změny dosahují maximálně 0,2 %, a to v případě, kdy se jedná o rozdíl předpovídané pravděpodobnosti dobrých žadatelů u původního a nového příjmu 2. V tak malém souboru s jakým pracuji, se jedná o jinak zařazené 3 klienty. ROC křivky modelů se změněnými příjmy uvádím v příloze B. 3.4.1.2 Model postupného výběru (stepwise selection) Stejně tak jako v předešlých modelech, i zde byla zamítnuta globální nulová hypotéza a byla přijata hypotéza alternativní. Model stepwise selection, opět vybral stejné nezávisle proměnné. Je to logické, když byl změněn pouze příjem, který byl nejvýznamnější proměnnou.
66
Praktická část
Tab. 18
p-hodnoty vysvětlujících proměnných různých příjmů (postupný výběr)
Nezávisle proměnná
p-hodnota
p-hodnota
p-hodnota
původní příjem
nový příjem 1
nový příjem 2
Věk Příjem manžela(ky) Příjem žadatele Výdaje na kreditní karty Pobytový status
0,0038 0,0126 < 0,0001 0,0230 0,0078
0.0040 0.0123 < 0.0001 0.0238 0.0073
0.0040 0.0121 <.0001 0.0241 0.0071
Zdroj: vlastní
Stejně jako u metody bez možnosti výběru i zde se „pobytový status“ a „příjem manžela(ky)“ staly o něco málo významnější proměnné. Oproti tomu „věk“ se v obou případech změny zvýšil na stejnou hodnotu a „výdaje na kreditní kartu“ na významnosti trochu ztratily. V tabulce 19 můžeme sledovat, že vlivy zůstali stejné ve všech případech odhadů metodou stepwise selection. Tab. 19
Odhady parametrů při změně příjmů (postupný výběr)
Nezávisle proměnná
Odhad parametru původní příjem
Konstanta Věk Příjem manžel(ky) Příjem žadatele Výdaje na kreditní karty Pobytový status
F N O P
-0,4238 0,0143 0.000421 0.000303 0.00219 0.2677 -0.6653 -0.1357 0.2506
Odhad Odhad parametru parametru nový příjem 1
-0.4306 0.0142 0.000423 0.000308 0.00217 0.2699 -0.6649 -0.1411 0.2546
nový příjem 2
-0.4339 0.0142 0.000424 0.000311 0.00217 0.2709 -0.6648 -0.1436 0.2565
Zdroj: vlastní
Hodnoty odds ratio (tabulka 20) se změnily stejně jako u plného modelu pouze u pobytového statusu. Opět se nejedná o žádné velké změny. Což je vidět na odhadech pravděpodobnosti.
Praktická část Tab. 20
67
Odds ratio při změně příjmů (postupný výběr)
Nezávisle proměnná
Odds ratio
Odds ratio
Odds ratio
původní příjem
nový příjem 1
nový příjem 2
Věk Příjem manžela(ky) Příjem žadatele Výdaje na kreditní karty F vs U N vs U Pobytový status O vs U P vs U
1.014 1.000 1.000 1.002 0.985 0.338 0.658 0.968
1.014 1.000 1.000 1.002 0.988 0.388 0.655 0.973
1.014 1.000 1.000 1.002 0.990 0.388 0.654 0.976
Zdroj: vlastní
Z tabulky 21 je zřejmé, že pravděpodobnost, že žadatele zařadím mezi špatné klienty se s rostoucím příjmem snižuje, a pravděpodobnost dobrých žadatelů se zvyšuje. Jde sice jen o malé změny, ale jak už zde bylo několikrát řečeno, je to opět způsobené malým vzorkem zkoumání. Predikční síla s rostoucím příjmem také stoupá. Tab. 21
Předpovídaná pravděpodobnost (postupný výběr)
Předpovídaná pravděpodobnost Dobří žadatelé Špatní žadatelé Dobrý = Špatný GC
Hodnoty
Hodnoty
Hodnoty
Původní příjem
nový příjem 1
Nový příjem 2
66,7 % 32,8 % 0,6 % 0,339
66,8 % 32,7 % 0,6 % 0,341
66,8 % 32,6 % 0,5 % 0,342
Zdroj: vlastní
Graficky znázorněné ROC křivka jsou uvedeny pro obě změny příjmu v příloze B.
3.5 Odhad finanční ztráty Nyní se zaměřím na odhad finanční ztráty, která vyplývá z neposkytnutí finančního produktu dobrému klientovi v případě nezapočtení příjmů klienta z šedé ekonomiky. Ztrátu budu odhadovat pomocí předpovídané pravděpodobnosti. Jelikož znám jednotlivé pravděpodobnosti zařazení dobrých a špatných klientů budu sledovat, jak se mění se zvýšením příjmů a se změnou metody výpočtu.
68
Praktická část
Tab. 22
Odhad ztráty
Plný model původní příjem Plný model nový příjem 1 Plný model nový příjem 2 Postupný výběr původní příjem Postupný výběr nový příjem 1 Postupný výběr nový příjem 2
Dobří žadatelé (v %)
Špatní žadatelé (v %)
Dobrý = Špatný (v %)
67,8
31,7
0,5
67,9
31,9
0,4
68,0
31,6
0,4
66,7
32,8
0,6
66,8
32,7
0,6
66,8
32,6
0,5
Zdroj: vlastní
Porovnám-li modely výpočtu samostatně, pak vidím, že ztráty nejsou tak vysoké. Například Započítám-li příjmy z šedé ekonomiky (15 % HDP), pak oproti původnímu příjmu budou mezi dobré zařazeni 3 klienti, kteří v původním modelu byli zahrnuti jak mezi špatnými, tak i mezi klienty, jejichž pravděpodobnosti se rovnají. Porovnání s „novým příjmem 1“ není významné, jelikož by se jednalo o ještě menší počet klientů. U postupného výběru je asi nejlepší porovnávat původní model s novým příjem 1, kdy ti klienti, kteří byli původně špatní, byli na základě zvýšení příjmů zařazeni mezi dobré a klienti se stejnými pravděpodobnostmi zůstali stejní. Rozhodně zajímavější bude, když se zaměřím na pravděpodobnosti vypočítané odlišnými metodami. Podíváme se na rozdíly: • Plného modelu (původní příjem) a postupného výběru (původní příjme) - A • Plného modelu (nový příjem 1) a postupného výběru (nový příjem 1) - B • Plného modelu (nový příjem 2) a postupného výběru (nový příjem 2) - C • Plného modelu (původní příjem) a postupného výběru (nový příjem 1) - D • Plného modelu (původní příjem) a postupného výběru (nový příjem 2) – E • Plného modelu (nový příjem 1) a postupného výběru (původní příjme) - F • Plného modelu (nový příjem 1) a postupného výběru (nový příjem 2) - G
Praktická část
69
• Plného modelu (nový příjem 2) a postupného výběru (původní příjme) - H • Plného modelu (nový příjem 2) a postupného výběru (nový příjem 1) – I Tab. 23
Dohad ztráty
Rozdíl A B C D E F G H I
Odhad ztráty (počet klientů) 14 14 15 13 13 15 14 16 15
Zdroj: vlastní
K finančnímu vyjádření by bylo nutné znát úrokovou sazbu úvěru a také poplatky, které dobrý žadatel při poskytnutí úvěru bude platit. Jelikož se nezaměřuji na odhady určité bankovní instituce, tak ztrátu vyjádřím počtem jinak zařazených klientů. Jedná se o žadatele, kteří před zahrnutím příjmů z šedé ekonomiky patřili mezi špatné žadatele nebo mezi ty o kterých je těžké rozhodnout. Hodnotím-li ztrátu při zvýšení příjmů u jedné metody, nejedná se v tomto malém datovém souboru o nijak veliké číslo. Samozřejmě, že se zvyšujícím se počtem žadatelů by ztráta rostla. Tabulka 23 nám ukazuje, že jak je důležité, kterou metodu k výpočtu použijeme. Zhodnotím-li použité modely, pak plný model je dle GC prediktivně silnější a také jsou větší jeho pravděpodobnosti odhadu dobrých žadatelů. Jeho nevýhodou je jeho složitost výpočtu.
70
Diskuze
4 Diskuze V dnešní době, kdy se svět potýká s finanční krizí, je úvěrové riziko ještě více alarmujícím problémem, který může banku ohrozit. Je tomu již několik let, kdy banky pro ochranu před rizikem začaly využívat metodu úvěrového skórování. Ještě déle než banky se skórováním pracují pojišťovny. V posledních letech se její rozsah rozšířil také do telekomunikačních společností a k dodavatelům energie, u kterých je riziko, že zákazník poskytnutou službu nezaplatí. Jak už jsem uvedla, nacházíme se v období finanční krizi, kdy je riziko větší než v době ekonomického růstu. Proto je také více dbáno na jeho odhalení. Až se ekonomika dostane opět do období růstu, bude spousta organizací, nyní nemám na mysli pouze banky, riziko opět podceňovat. Jedná se o velmi náročnou a zodpovědnou činnost. Metody, které se k výpočtu používají, jsou již velmi propracované a pomáhají bance rozhodnout, kterým klientům by měla poskytnout úvěr a kterým nikoli. Výsledné rozhodnutí závisí na tzv. skóre, které je vypočteno na základě historických dat. Než bude klientovi úvěr poskytnut, bude banka posuzovat jeho bonitu. Kvůli finanční krizi se pravidla půjčování úvěrů (hlavně hypotečních) dosti zpřísnily. Banky si více žadatele prověřují, tím myslím, že prověřují jejich výdaje, zůstatky na účtech, také se zajímají o to, za co klient peníze utrácí. Dále důkladněji prověřují informace od žadatelova zaměstnance. Metoda úvěrového skórování umožňuje předvídat dlouhodobé chování zákazníků na základě dostupných historických dat. Aplikováním příslušné statistické metody banka získá skóre, tedy číselné ohodnocení klienta, které pomáhá při rozhodování. Banka díky výslednému skóre získá informace o tom, jak se klient bude pravděpodobně v budoucnosti chovat a jak bude splácet své dluhy. V diplomové práci jsem se zaměřila na hodnocení modelu logistické regrese a na to, jak zvýšení příjmů ovlivní jeho predikční sílu. Jelikož jsem ale pracovala s malým datovým vzorkem, nejsou výsledky moc přesvědčivé a viditelné. Předpokládala jsem, že zvýšení příjmů bude způsobeno na základě započtení výdělků, ke kterým klient přišel tzv. „načerno“. Bylo nutné určit si smysluplné
Diskuze
71
podmínky, za kterých se bude klientův příjem navyšovat. Já jsem zvolila variantu, kdy žadatel má 3 a více dětí, manželův nebo manželčin příjem je menší nebo roven 10.000 Kč a příjem samotného žadatele je menší nebo roven 20.000 Kč. Platili-li podmínky všechny navzájem, pak byl žadatelův příjem navýšen nejprve o 2.881 korun, což je průměrný měsíční příjem žadatele z šedé ekonomiky, která je vypočtena jako 10% částka z ročního HDP. Druhé zvýšení se dělo za stejných podmínek, ale jednalo se o vyšší částku, jelikož se jednalo o 15 % z ročního HDP. Po porovnání výsledků jsem zjistila, že jestliže bude model počítat metodou „full“, pak predikční síla bude vyšší, než když k výpočtu použiji některou z výběrových metod. Při každém zvýšení příjmů diverzifikační schopnost modelu malinko vzroste. Rozdíl je opravdu malý, ale jak už bylo řečeno, je to způsobeno tím, že pracuji s omezeným datovým vzorkem, který není nijak rozsáhlý. Aby byl vliv viditelnější, bylo by zapotřebí velké množství dat. I přes zvýšení predikční síly je schopnost modelu rozlišovat dobré a špatné žadatele velice špatná. Hodnota by se měla pohybovat minimálně kolem hodnoty GC = 0,5 a výše. Ovšem výsledky tohoto modelu jsou pod hodnotou 0,5. V poslední části jsem se snažila vyčíslit možnou ztrátu banky, jestliže nejsou započítány příjmy šedé ekonomiky. Jelikož se přímo na žádnou bankovní instituci nezaměřuji, je ztráta vyjádřena pouze počtem klientů, kteří jsou nejprve zařazeni mezi špatné žadatele nebo mezi klienty jejichž pravděpodobnosti splácení jsou si rovny, a po nárůstu příjmu se z nich stanou klienti dobří.
4.1 Doporučení Jelikož je zřejmě nemožné zjistit kolik příjmů, které klient získal prací načerno, navrhovala bych, aby datový soubor, se kterým jsem pracovala, byl více rozšířen. Nemyslím do počtu klientů, ale rozšířila bych počet nezávisle proměnných. Zajímala bych se o to, zda klient má ještě další příjmy krom těch, které mu plynou z pracovního poměru. Také bych chtěla znát přibližnou částku, kterou si klient měsíčně přivydělá. Dále bych rozšířila informace o klientovi o: • účel úvěru,
72
Diskuze
• výše úvěru, • počet úvěrů, • předchozí splácení, • způsob ručení. Předpokládám, že rozšířením proměnných by bylo docíleno vyšší predikční síly, a využití modelu by způsobilo lepší rozhodování o poskytnutí úvěru.
Závěr
73
5 Závěr V diplomové práci byla popsána problematika credit scoringu v risk managementu. Nejprve jsem se zaměřila na řízení rizika, abych objasnila, jaké rizikové vlivy na banku působí. Pozornost jsem věnovala finančním a obchodním rizikům. Podrobně jsem se věnovala úvěrovému riziku, kde jsem se krátce zmínila i o jeho kapitálovém požadavku, tedy o hodnotě kapitálu, který musí mít banka dle Basel II k dispozici, aby mohla určitou ztrátu z možného rizika uhradit. Dále jsem se zmínila o operačním a obchodním riziku. Po seznámení s řízením rizika jsem přešla k metodě úvěrového skórování. Nejprve byly vysvětleny základní pojmy, poté následoval popis jednotlivých metod, které je možné k výpočtu využít. Největší pozornost jsem věnovala logistické regresi, která se v dnešní době využívá nejvíce. V praktické části jsem pracovala s datovým souborem, který obsahoval informace o 1225 žadatelů. Aplikovala jsem metodu logistické regrese pomocí programu SAS Learning edition 4.1. Posuzovala jsem predikční sílu modelů, které byly počítány růstnými metodami a při různých hodnotách příjmů žadatelů. Výsledným zjištěním je, že model má velmi malou predikční sílu. Je nutné doplnit další informace o žadatelích, díky nimž by síla vzrostla. Se zvýšením příjmů predikční síla roste, ale jelikož soubor s 1225 žadateli je velmi malý, není zvýšení tak zřetelné. Nakonec mohu konstatovat, že kdybychom citlivost modelu na příjmy testovali s větším datovým souborem, pak by bylo jasně vidět, že vysoká. Také by bylo mnohem více zřejmé, že se započtenými příjmy z šedé ekonomiky pravděpodobnost, že žadatel bude dobře splácet, se zvyšuje a finanční ztráta by mohla být dosti citelná. Na závěr si myslím, že je vhodné říci, že úvěrové skórování je velmi důležitou součástí banky.
74
Literatura
6 Literatura 10
ALLISON, P. D. Logistic Regression Using the SAS® System: Theory and Application. Cary, NC: SAS Institute Inc., 1999. s. 287. ISBN 1-58025352-0.
6
ANDERSON, R. The Credit Scoring Toolkit: Theory and Practice for Retail Credit Risk Management and Decision Automation. Oxford University Press Inc., New York, 2007.s. 731. ISBN 978–0–19–922640–5.
41 COLQUITT, J.: Credit risk management – How to avoid lending disasters and Maximize Earings. 3. USA: The McGraw-Hill Companies, 2007. 373 s. ISBN 9780071446600. 40 CROUHY M., GALAI D., MARK R. The essentials of risk management. USA: The McGraw-Hill Companies, 2006. 416 s. ISBN 9780071429665. 1
KAŠPAROVSKÁ, V. a kol. Řízení obchodních bank – vybrané kapitoly. 1. Praha: C. H. Beck, 2006, 339 s. ISBN: 80-7179-381-7.
42 KLEINBAUM D. G., KLEIN M.: Logistic regression – A self—learning test. 2. New York: Springer 2002. 513 s. ISBN 0-387-95397-3. 38 SIDDIQI, N. Credit risk scorecards: developing and implementing intelligent credit scoring, New Jersey: John Wiley & Sons, 1969. s. 196 ISBN 9780471754510. 7
THOMAS, L. C., EDELMAN T., CROOK J. N.: Credit Scoring and its Applications - SIAM monographs on mathematical modeling and computation. Philadelphia: Society for Industrial and Applied Mathematics, 2002. 248 s. ISBN 0-89871-483-4.
Literatura
75
Elektronické dokumenty: 3 Asymetrie informací [online]. 2004 [cit. 2010-03-20]. Dostupné na:
. 16
BROŽOVÁ, H., ŠUBRT, T., MIKULECKÝ, M. Lineární programování [online]. 2006 [cit. 2010-03-26]. Dostupné na: .
32 Biostat3 [online]. 2004. Dostupné na Internetu: . 27
GLOSSOVÁ, M. Statistický program NCSS 60 [online]. [cit. 2010-04-29]. Dostupné na: .
2001
2
HÁLEK, V. Finanční řízení podniku [online]. 2007 [cit. 2010-02-04]. Dostupné na: .
23 SEGERA, J. Sborník prací účastníků vědeckého semináře doktorského studia [online]. 2008 [cit. 2010-04-20]. Dostupné na: . 5
JAKUBÍK, P., TEPLÝ, P. Skóring jako indikátor finanční stability [online]. 2008 [cit. 2010-03-23]. Dostupný na: .
15
KAY, A. Co jsou to umělé neuronové sítě│Science World.cz. [online]. 2001 [cit. 2010-03-23]. Dostupné na: .
30 KB01: Všechny animace (ROC křivka) [online]. 2010 [cit. 2010-05-05]. Dostupné na: . 29 KERLEŠ, M. www.lidovky.cz – tisk [online]. 2009 [cit. 2010-05-05]. Dostupné na: .
76
Literatura
21 KNOTZER, H. Basel II [online]. 2005 [cit. 2010-02-22]. Dostupné na: . 22
Linear regression. svg - Wikipedie, otevřená encyklopedie [online]. 2010 [cit. 2010-03-28]. Dostupné na: .
9
Lineární regrese - Wikipedie, otevřená encyklopedie [online]. 2010 [cit. 2010-03-28]. Dostupné na: .
17 Logistická regrese, binární závisle proměnné [online]. 2010 [cit. 2010-05-13]. Dostupné na: . 34
Logistická regrese, Statnotes, North Carolina State University, veřejná správa [online]. 1998 [cit. 2010-05-12]. Dostupné na www: .
8
Logistická regrese - Wikipedie, otevřená encyklopedie [online]. 2010 [cit. 2010-03-28]. Dostupné na: .
12 MELOUN, M. Klasifikace objektů [online]. 2002 [cit. 2010-03-23]. Dostupné na: . 26 Metoda tečen - Wikepedie, otevřená encyklopedie [online]. 2010 [cit. 2010-04-27]. Dostupné na: . 4
Morální hazard [online]. 2010 [cit. 2010-04_02]. Dostupné na: .
Literatura
77
33 Receiver operating characteristic - Wikipedia, the free encyclopedia [online]. 2010 [cit. 2010-05-10]. Dostupné na Internetu: . 20 ROE (Return on equity) │AZ – data.NET [online]. 2009 [2010-03-12]. Dostupné na: . 13 Rozhodovací stromy - Wikipedie, otevřená encyklopedie [online]. 2010 [cit. 2010-03-23]. Dostupné na: . 14
Rozhodovací stromy [online]. 2006 [cit. 2010-03-24]. Dostupné na: .
24 Řízení rizik - BusinessInfo.cz [online]. 2006 [cit. 2010-05-01]. Dostupné na: . 25
SKOLEK, T. Voříšek: Krize ukázala, že riziko má svoji skutečnou hodnotu – Finance.cz [online]. 2010 [cit. 2010-05-10]. Dostupné na: .
11 SLÁDEK, Roman: Statistické a klasifikační metody hodnocení zákazníků. Brno 2007. 68 s. Bakalářská práce. Masarykova univerzita v Brně. Dostupné na: 19 STUCHLÍK, J. Hodnotu svého skóre se nedozvíte – Peníze.cz [online]. 2009 [cit. 2010-05-20]. Dostupné na: . 18 ŠKALOUDOVÁ, A. Lineární regrese [online]. 2007 [cit. 2010-04_03]. Dostupné na: .
78
Literatura
28
VALIŠ, Z. Stínová ekonomika je dnes objemově stejná jako před rokem 1989 - Радио Прага [online]. 2009 [cit. 2010-05-05]. Dostupné na: .
Přílohy
79
Přílohy
80
ROC křivky výběrových modelů
A ROC křivky výběrových modelů Obr. 10
ROC křivka modelu „výběr vpřed“
Zdroj: vlastní
Obr. 11
ROC křivka modelu „zpětné odstranění“
Zdroj: vlastní
ROC křivky výběrových modelů Obr. 12
ROC křivka metody „postupný výběr“
Zdroj: vlastní
81
82
ROC křivky - změny příjmu
B ROC křivky - změny příjmu Obr. 13
ROC křivka – nový příjem 1 (full model)
Zdroj: vlastní Obr. 14
ROC křivka – nový příjem 2 (full model)
Zdroj: vlastní
ROC křivky - změny příjmu Obr. 15
ROC křivka – nový příjem 1 (stepwise selection)
Zdroj: vlastní
Obr. 16
ROC křivka – nový příjem 2 (stepwise selection)
Zdroj: vlastní
83
84
Odhady parametrů různých příjmů
C Odhady parametrů různých příjmů Tab. 24
Odhady parametrů při změně příjmů (full model)
Nezávisle proměnná Konstanta Věk Příjem manžela(ky) Příjem žadatele Hodnota bytu Zůstatek hypotéky Výdaje na hypotéku Výdaje na úvěry Výdaje na splátky Výdaje na kreditní karty
Počet dětí
Ostatní rodinní příslušníci Telefon
Zaměstnání
Pobytový status Zdroj: vlastní
0 1 2 3 4 0 1 1 B E M N P R T U V W F N O P
Odhad parametru
Odhad parametru
Odhad parametru
původní příjem
nový příjem1
nový příjem 2
1.4353 0.0131 0.000468 0.000274 0.000046 -0.00003 -0.00022 -0.00008 0.00138 0.00221 -2.2278 -2.2974 -2.2487 -2.4695 -1.0888 0.3294 0.3339 -0.0689 -0.2006 -0.0147 0.00314 0.4864 0.1822 -0.0677 0.1779 -0.5100 0.3522 -0.4015 0.2822 -0.6421 -0.1482 0.1845
1.4067 0.0131 0.000470 0.000281 0.000045 -0.00003 -0.00022 -0.00008 0.00138 0.00220 -2.2087 -2.2796 -2.2309 -2.4768 -1.1101 0.3315 0.3354 -0.0680 -0.2063 -0.0166 -0.00125 0.4850 0.1786 -0.0650 0.1838 -0.5035 0.3475 -0.3938 0.2825 -0.6424 -0.1498 0.1850
1.3924 0.0131 0.000471 0.000284 0.000045 -0.00003 -0.00022 -0.00008 0.00138 0.00220 -2.1990 -2.2705 -2.2218 -2.4805 -1.1209 0.3326 0.3361 -0.0676 -0.2090 -0.0176 -0.00333 0.4844 0.1770 -0.0638 0.1867 -0.5004 0.3453 -0.3901 0.2826 -0.6426 -0.1505 0.1853
Odds ratio různých příjmů
85
D Odds ratio různých příjmů Tab. 25
Odds ratio při změně příjmů (full model)
Nezávisle proměnná Věk Příjem manžela(ky) Příjem žadatele Hodnota bytu Zůstatek hypotéky Výdaje na hypotéku Výdaje na úvěry Výdaje na splátky Výdaje na kreditní karty 0 vs 5 1 vs 5 Počet dětí 2 vs 5 3 vs 5 4 vs 5 Ostatní rodinní 0 vs 2 příslušníci 1 vs 2 Telefon 0 vs 1 B vs Z E vs Z M vs Z N vs Z P vs Z Zaměstnání R vs Z T vs Z U vs Z V vs Z W vs Z F vs U N vs U Pobytový status O vs U P vs U Zdroj: vlastní
Odds ratio
Odds ratio
Odds ratio
původní příjem
nový příjem 1
nový příjem 2
1.013 1.000 1.000 1.000 1.000 1.000 1.000 1.001 1.002 <0.001 <0.001 <0.001 <0.001 <0.001 2.699 2.711 0.871 0.824 0.993 1.011 1.639 1.209 0.941 1.204 0.605 1.433 0.674 0.959 0.381 0.624 0.870
1.013 1.000 1.000 1.000 1.000 1.000 1.000 1.001 1.002 <0.001 <0.001 <0.001 <0.001 <0.001 2.714 2.725 0.873 0.820 0.992 1.007 1.638 1.206 0.945 1.212 0.609 1.428 0.680 0.959 0.380 0.622 0.870
1.013 1.000 1.000 1.000 1.000 1.000 1.000 1.001 1.002 <0.001 <0.001 <0.001 <0.001 <0.001 2.722 2.731 0.874 0.819 0.992 1.006 1.638 1.205 0.947 1.216 0.612 1.425 0.683 0.958 0.380 0.621 0.869