MENDELOVA UNIVERZITA V BRNĚ Provozně ekonomická fakulta
Analýza metod pro tvorbu modelu credit scoring Diplomová práce
Vedoucí práce: prof. RNDr. Beáta Stehlíková CSc.
Vypracovala: Bc. Jana Vodová Brno 2009/2010
Prohlášení Prohlašuji, že jsem tuto diplomovou práci na téma analýza metod pro tvorbu modelu credit scoring zpracovala samostatně, pouze s použitím literatury, kterou cituji a uvádím v seznamu literatury.
V Brně 21. května 2010
..................................... Bc. Jana Vodová
Poděkování Na tomto místě chci poděkovat vedoucí práce prof. RNDr. Beátě Stehlíkové CSc., za cenné rady, podněty a připomínky, které mi pomohly danou problematiku úspěšně zpracovat.
Abstrakt VODOVÁ, J.: Analýza metod pro tvorbu modelu credit scoring. Diplomová práce. Mendelova univerzita v Brně 2010. Tato práce si klade za cíl seznámit zainteresované čtenáře s nejčastěji používanými statistickými metodami pro tvorbu credit scoringových modelů. Vybrány byly parametrické metody lineární a logistická regrese a diskriminační analýza. Práce se také věnuje podstatě a vývoji credit scoringu a historii úvěru. Modely vytvořené pomocí metod popsaných v teoretické části, byly vzájemně porovnány a na základě jejich komparace byla vybrána nejvhodnější metoda použitelná v oblasti credit scoringu. Klíčová slova: credit scoring, regrese, diskriminační analýza, Gini index.
Abstract VODOVÁ, J.: Analysis of methods used for credit scoring models. Master thesis. Mendel University in Brno 2010. The aim of the thesis is to introduce the most used statistic methods for creation credit scoring models to readers who are interested in the topic. Parametric methods like linear and logistic regression and discriminant analysis are described. This work also deals with principles and evolution of credit scoring and loan’s history. Developed models, using described methods in the theoretical part, were compared and on the basis of comparison the most convenient method was chosen to be used in credit scoring field. Key words: credit scoring, regression, discriminant analysis, Gini index.
Obsah 1 Úvod
7
2 Cíl a metodika práce
8
3 Vývoj credit scoringu
10
3.1
Credit scoring . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
3.2
Historie credit scoringu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.3
Scorecards . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15
3.4
Průběh poskytnutí a čerpání úvěru . . . . . . . . . . . . . . . . . . . . . . .
17
4 Statistická analýza dat 4.1
4.2
4.3
4.4
4.5
18
Lineární regrese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
19
4.1.1
Odhady regresních parametrů . . . . . . . . . . . . . . . . . . . . . .
21
4.1.2
Intervaly spolehlivosti pro regresní parametry . . . . . . . . . . . . .
23
4.1.3
Kvalita volby regresní funkce . . . . . . . . . . . . . . . . . . . . . .
24
4.1.4
Zobecněná lineární regrese . . . . . . . . . . . . . . . . . . . . . . . .
27
Logistická regrese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.2.1
Odhady regresních parametrů . . . . . . . . . . . . . . . . . . . . . .
33
4.2.2
Statistická významnost modelu . . . . . . . . . . . . . . . . . . . . .
34
Diskriminační analýza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
4.3.1
Významnost modelu . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
Některé jiné metody . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
4.4.1
Klasifikační stromy . . . . . . . . . . . . . . . . . . . . . . . . . . . .
41
4.4.2
Neuronové sítě . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4.4.3
Lineární programování . . . . . . . . . . . . . . . . . . . . . . . . . .
43
Porovnání metod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
5 Vlastní práce
46
5.1
Lineární regrese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
53
5.2
Logistická regrese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
5.3
Diskriminační analýza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
6 Diskuze
70
7 Závěr
75
Seznam literatury
78
Seznam internetových zdrojů
79
Seznam příloh
82
1
Úvod
Velké množství populace již někdy žádalo o úvěr jakéhokoliv typu a mnoho jedinců si jistě položilo otázku „Jak se instituce vlastně rozhodují o poskytnutí úvěru jejich osobě?ÿ Odpověď na zmíněnou otázku by měla být objasněna v diplomové práci, kterou právě čtete. V současné době, kdy se trh s úvěry a dalšími možnostmi financování, které umožňují fungování systému, ve kterém je „objektÿ „využíván dnesÿ a „zaplacen pozdějiÿ, stává více konkurenční a bankovní i nebankovní instituce se snaží získat, co možná nejvíce kredibilních klientů1 , je důležité, aby tyto instituce měly nástroje, jak snížit úvěrové riziko. Tedy riziko, které je spojeno s úvěrovou disciplínou klienta. Jedním z takových nástrojů je credit scoring neboli kreditní skóring. V současné době společnosti zabývající se poskytování různých forem úvěrů disponují širokými databázemi obsahujícími desítky milionů až několik miliard záznamů o klientech. Rozvoj výpočetní techniky a programů umožňující práci s těmito záznamy, usnadnil jejich analýzu. Dynamicky se rozvíjí i trh se spotřebitelskými úvěry nabízenými mimo bankovní sektor, například v různých obchodech. Tyto typy žádostí o úvěr potřebují velmi rychlou analýzu dat získaných od žadatele a jejich vyhodnocení, protože v případě, že by schvalovací proces trval dlouhou dobu, mohl by dát zákazník přednost jinému obchodu. Techniky takové analýzy dat se objevují pod pojmem data mining. Databáze historických údajů o klientech, kterým byl úvěr poskytnut, spolu s informací zda–li byl úvěr splácel či nikoliv, slouží k tvorbě scoringových modelů. Credit scoring využívá matematicko–statistických metod, které vedou k určení míry rizika nesplacení potenciálního poskytnutého úvěru nebo k určení skóre, na jehož základě může být klientovi úvěr poskytnut. Existuje velké množství metod, které lze použít pro tvorbu takových modelů. Tato diplomová práce se bude detailněji zabývat pouze parametrickými metodami, jmenovitě lineární a logistickou regresí a diskriminační analýzou, zejména z toho důvodu, že patří k metodám nejčastěji používaným. Takové metody dokáží poskytnout snadno interpretovatelné a spolehlivé výsledky i pro uživatele, který není obeznámen s pokročilou úrovní matematické statistiky. 1
Kredibilním klientem rozumíme klienta, který řádně splácí své závazky za předem dohodnutých podmí-
nek.
7
2
Cíl a metodika práce
Cílem této diplomové práce je seznámit čtenáře s nejpoužívanějšími metodami využívanými pro tvorbu credit scoringových modelů. Velká část populace přistupuje k úvěru jako k nástroji dodatečného financování svých aktivit (někdy i jediného možného řešení financování) a v instituci, kam přijdou o úvěr žádat, se zpravidla dozvědí pouze výsledek celého úvěrového procesu. Proto bych chtěla přiblížit proces, jak se instituce rozhodují o poskytnutí úvěru a také odhalit možnosti, jak by potenciální klienti těchto institucí mohli ovlivnit výsledky, zejména, které faktory nejvíce ovlivňující výsledek úvěrového procesu by mohli sami žadatelé ovlivnit. Tyto metody budou nejprve teoreticky popsány a vysvětleny, poté v části věnované statistické analýze budou implementovány na reálná data. Následně budou metody mezi sebou porovnány a bude identifikována nejvhodnější metoda, s přihlédnutím na omezenost jejich použití a časovou či technickou náročnost zpracování. Práce má vymezit credit scoring jako nedílnou součást úvěrového procesu. K dosažení výše uvedených cílů byla stanovena hypotéza H0 :, že používání credit scoringových modelů nepřispěje k návratnosti poskytnutých úvěrů. Tato hypotéza bude v závěru práce potvrzena nebo vyvrácena. Třetí kapitola přiblíží čtenářům, co si mohou pod pojmem credit scoring představit. Bude zde také stručně popsána historie úvěru, bez jehož existence by nebyly potřeba žádné nástroje nutné k identifikaci úvěrového rizika. Další částí bude sumarizován vývoj samotného kreditního skóringu. Závěr kapitoly se bude zabývat scorecards neboli skórovacími kartami, jež jsou transparentním nástrojem pro klienty, v případě, že jim instituce poskytující úvěr tyto karty předloží k nahlédnutí. V krátkosti bude přiblížen postup úvěrového procesu. V kapitole, nazvané statistická analýza dat, budou detailně popsány metody lineární regrese, logistické regrese a diskriminační analýzy. Okrajově budou zmíněny některé další metody používané pro tvorbu credit scoringových modelů, avšak tyto metody nebudou v další části práce aplikovány na reálná data. Následující kapitola využívá prakticky metody popsané v kapitole 4. Reálná data posloužila v této práci k porovnání uvedených metod a k vyzdvižení jedné z nich, jako nejvhodnější 8
pro tvorbu modelů, sloužících k identifikaci klientů, kteří by poskytnutý úvěr nemuseli za smluvených podmínek splatit. Metodika práce spočívala ve shromáždění dostupné literatury, její následné nastudování a vzájemná konfrontace. Pro zpracování teoretické části diplomové práce, týkající se credit scoringu, bylo využito zejména odborných knih autorů Andersona, Thomase a Maysové. Statistické metody používané pro credit scoring našly teoretickou oporu v pracích Hebáka, Hustopecké, Hosmera a Lemeshowa či Huberta a Olejnika. Veškerá použitá literatura je uvedena v seznamu literatury. Přestože je credit scoring využíván i českými bankovními či nebankovními institucemi, které poskytují úvěry či jeho ekvivalenty, není zde podpora české odborné literatury a proto se v tomto oboru ustálily anglické termíny. Jejich české ekvivalenty nejsou příliš používané, proto i v této diplomové práci budou využívány především anglické výrazy. Větším problém, než obstarání odborné literatury, jež se v České republice vyskytuje v počtu jednotek kusů, bylo získání adekvátních dat, které byly nutné pro zpracování praktické části práce. Protože je v legislativě týkající se bankovnictví zakotvena klauzule o mlčenlivosti, nebyly mi data z žádné kontaktované banky poskytnuty. Z toho důvody byly použity data, která má ve svém internetovém archivu univerzita v Mnichově. Tato data pochází z reálné jihoněmecké banky, výsledky analýz byly interpretovány právě na tuto banku v Německu. Ke zpracování diplomové práce bylo použito programů PASW/SPSS 19. 0, JMP 8, Statistica 9. 0, MS Excel 2007, Gretl a LATEX.
9
3
Vývoj credit scoringu
Tato kapitola přiblíží čtenářům podstatu credit scoringu, stručně popíše jeho vývoj a také historii úvěru, důležitou k rozvoji credit scoringu. V neposlední řadě objasní problematiku skórovacích karet a úvěrového procesu.
3.1
Credit scoring
Zjednodušeně je credit scoring soubor rozhodovacích metod, modelů a technik, které pomáhají půjčovatelům peněz a majetku minimalizovat rizika nesplácení úvěrů, peněžních částek, které si klienti půjčí v současné době a splácí v budoucnosti. Tyto techniky určí, komu bude úvěr poskytnut, v jaké výši a také jaký bude případný zisk z transakce pro půjčovatele. Je založen zejména na pragmatičnosti a empirismu. Cílem je předpovědět s jakou pravděpodobností klient svůj úvěr nesplatí, nikoliv však vysvětlit příčiny nesplácení (MAYS, 2001, s. 4–5).
Obrázek 3. 1: Použití historických dat
Zdroj: Anderson
V současné době je credit scoring používán pomocí modelů zejména k určení a řízení rizika všeobecně. Metody jsou založeny na historických datech o dřívějších klientech2 , které 2
Aby byl model schopen predikovat spolehlivé výsledky, je nutné aby developeři měli kvalitní historická
data, které obsahují informace jak o klientech, kteří úvěr splatili, tak o klientech, kteří jej nesplatili. Data by měla zachycovat dostatečně dlouhé období a v případě změny podmínek na trhu, např. v současné době
10
jsou analyzovány a vstupní data o žadateli jsou pomocí matematicko–statistických metod vyhodnoceny. Schéma je popsáno na obrázku 3. 1. Na základě analýzy historických dat je určeno, které charakteristiky žadatele jsou relevantní k předpovědi splácení úvěrů a tedy mohou pomoci při tvorbě žádostí o úvěr. Banka se tak omezí pouze na získávání nutných informací. Některé tyto metody vedou k tvorbě tzv. skórovacích karet (dále jen scorecards), další metody přímo určují pravděpodobnost nesplacení úvěru klientem (např. regresní analýza). Dobře stanovený model je schopen předpovědět vyšší procento splácených i nesplácených úvěrů. Ve většině scoringových systémů (scorecards a scoringových modelů) vyšší skóre znamená nižší míru rizika3 .
3.2
Historie credit scoringu
Ještě než se začnu zabývat historií a vývojem credit scoringu, uvedu hlavní milníky dějin samotného úvěru, bez kterého by credit scoring nemohl vzniknout. Už více než 4 000 let si lidé mezi sebou půjčují peníze či zboží. První písemná transakce se datuje kolem roku 2000 př. n. l., kdy si farmář půjčil peníze na žně. Kamenná destička uváděla půjčenou částku, účel půjčky, dobu úhrady, splatnou částku a úrok. První právo, které se zabývalo regulací úvěrování bylo zavedeno Codem z Hammurabi kolem roku 1750 př. n. l. Přestože existovalo toto právo, trvalo až do 15. stol. př. n. l. než se z úvěrování stal průmysl, který se začal formovat ve středověké Itálii se vznikem historicky prvních zastaváren. V období mezi lety 450 až 250 př. n. l. bylo ve starém Římě obvyklou praxí, že neplatiče úvěrů věznili, později si poskytovatelé úvěrů brali členy rodiny jako rukojmí. V tomto období byly úroky a penále za pozdní splácení nebo nesplácení úvěrů velmi vysoké. Proto se už od dob Aristotela finanční krize, by měla být nová data do modelu zahrnuta, aby model i nadále byl schopen kvalitní předpovědi či určení výše skóre. 3 Poskytovatelé úvěrů se rozhodnou, jaká výše skóre při určitém riziku je pro ně akceptovatelná a toto skóre si nastaví jako spodní hranici, jež když klient svým skórem překročí, bude mu úvěr poskytnut. V současné době, kdy je konkurence na trhu úvěrů široká, je pravděpodobné, že i v případě, že žadatel nedosáhne svým skórem nad zmíněnou hranici, může být jeho případ individuálně a detailněji prozkoumán a úvěr mu poté poskytnut. Domnívám se však, že po splasknutí bubliny na hypotečním trhu v USA budou i poskytovatelé úvěrů v ČR opatrnější při rozhodování, zda–li poskytnout úvěr žadateli, který nesplnil podmínky určité míry rizika a naopak se domnívám, že většina poskytovatelů podmínky ještě zpřísní.
11
začalo diskutovat o tom, zda–li je morální vykazovat zisk z poskytnutých úvěrů. Ve středověku tato debata vyvrcholila tím, že katolické a muslimské náboženství, z důvodu nepochopení hodnoty peněz, zakázalo jakékoliv úroky z úvěru. V současné době tato debata pokračuje v islámských zemích. Založení Bank of England v roce 1694 znamenalo rozvoj finančního sektoru a také úvěrů, které byly poskytovány šlechtě a panstvu. První spotřebitelské úvěry byly poskytnuty v roce 1856 společností Singer zabývající se prodejem šicích strojů. První banka, která začala poskytovat debet byla královská Bank of Scotland, která v roce 1728 povolila Williamu Hogovi vybrat více peněz, než měl na svém účtu. Banka dále začala poskytovat hotovostní úvěry a tato praxe se rozšířila po celé Anglii, kdy banky úročily tyto půjčky 5% úrokem, protože zákon vyšší úrokovou míru zakazoval. Počátekm 20–tých let 20. století byli strůjci založení finančních domů Henry Ford a A. P. Sloan, kteří viděli velký potenciál trhu v tom, že lidé by mohli financovat svůj nový automobil jinak, než příjmem ze zaměstnání. Banky odmítaly poskytovat úvěry na automobily, protože si uvědomovaly jejich vysokou cenu a tedy vysokou pravděpodobnost nesplácení půjčených částek, které by mohly ohrozit chod banky a proto se finanční domy začaly hojně rozšiřovat. Ve druhé polovině 20. století se úvěrování prudce rozrostlo, zejména s uvedením kreditních karet na trh, které byly většinou úročeny fixní úrokovou sazbou. Až v 70–tých letech 20. století si vydavatelé karet uvědomili, že je potřeba různě vysokých úrokových sazeb a také pokut a penále za pozdní splácení či překročení limitu. (THOMAS, 2009, str. 1–2; THOMAS, EDELMAN, CROOK, 2002, str. 2–3; ANDERSON, 2007, str. 27–32) V současné době by se ekonomiky nejrozvinutějších zemí světa bez spotřebitelských úvěrů neobešly. V roce 2009 si spotřebitelé v České republice půjčili více než 1,8 mld. Kč. Graf 3. 1 uvádí objem klientských úvěrů poskytnutých obchodními bankami v období 1993–20094 . Z grafu je zřejmé, že se objem poskytnutých bankovních úvěrů od roku 2003 zvyšuje. Přesto, že neexistují oficiální statistiky úvěrů poskytnutými nebankovním sektorem, lze se domnívat, že roste i objem těchto úvěrů. V současnosti není hlavním úkolem legislativy ochrana zákazníka, ale dohoda Basel II5 , která má za úkol ochraňovat bankovní systém. Je zamě4 5
stavy k 31. 12. Anglickým názvem označován International Covergence of Capital Measurement and Capital Standards.
12
řena na credit scoring pro odhad rizika, který je používán při určení minimální kapitálové přiměřenosti banky. (ANDERSON, 2007, str. 37) Graf 3. 1: Objem poskytnutých bankovních úvěrů v tis. Kč.
Zdroj: ČNB, výpočet vlastní
Credit scoring se začal rozvíjet v padesátých letech minulého století, kdy Henry Wells a David Durand zjistili, že statistické metody třídění Ronalda Aylmera Fishera lze použít k rozlišení dobrých a špatných úvěrů. Bill Fair a Earl Isaac přispěli ke zkomerčnění statistických metod rozhodování v procesu credit scoringu, kdy své poznatky zpřístupnili finančním domům a zásilkovým obchodům. Klíčovým obdobím pro rozvoj credit scoringu byla 60–tá léta 20. stol., kdy vznikly kreditní karty a velké množství klientů bank a finančních domů tyto karty poptávaly. Z důvodu neustále se zvyšujícího počtu žadatelů bylo nutné proces rozhodování o poskytnutí úvěru zautomatizovat. To umožnil rozvoj výpočetní techniky, která dokázala relativně jednoduše analyzovat dostupná data a pomocí statistických metod odhadla Cílem BASEL II je zvýšit bezpečnost a stabilitu finančních systémů, posílit konkurenční rovnost mezi jednotlivými bankami a dát bankám možnost výběru metody k řízení rizik. Je rozdělen na tři pilíře, z nichž první se týká stanovení kapitálových požadavků, druhý ze zabývá dohledem nad dostatečnou výší kapitálu banky, který slouží k pokrytí rizik, jež banka podstupuje. Třetí pilíř nařizuje bankám zveřejňovat více informací o svých činnostech. Pravidla kapitálové přiměřenosti ovlivňují řízení rizik v bankách, protože je nutí k držbě určité minimální výše kapitálu. Jednou z metod výpočtu kapitálové přiměřenosti se, z uvedením BASEL II do provozu, stala metoda nazvaná IRB přístupy pro stanovení požadavku k úvěrovému riziku. Právě tento přístup potřebuje znát ke své realizaci pravděpodobnost, že dlužník nedostojí svým závazkům. K určení této pravděpodobnosti slouží credit scoringové modely, založené na metodách, kterými se zabývá tato práce. (KAŠPAROVSKÁ, 2006, s. 80–90)
13
riziko pro půjčovatele. Předpokladem byla stabilita zahrnutých faktorů v průběhu několika let. Cílem bylo použít historická data na ohodnocení nových klientů a tak vznikl aplikační scoringový model, který byl schopen posoudit v několika následujících letech, kterým žadatelům úvěr poskytnout. (THOMAS, EDELMAN, CROOK, 2002, str. 3) Nástavba aplikačního scoringu vznikla v 80–tých letech minulého století pod názvem behaviorální scoring. Zatímco aplikační scoring používá pouze historická data, behaviorální scoring obsahuje kromě historických dat i aktuální data zjištěná v průběhu splácení úvěru či poskytované různými úvěrovými společnostmi (např. průměrný zůstatek, počet překročení kreditního limitu apod.). Oba typy dat po analýze predikují riziko nesplacení úvěru v příštích 12 měsících a tyto predikce jsou aktualizovány každý měsíc. Rozdíl mezi oběma typy credit scoringu je v dynamičnosti. Aplikační scoring je statickým nástrojem zatím behaviorální scoring je nástrojem dynamickým. Problémem behaviorálního scoringu je, že pomocí něj není možné odhadnout budoucí klienty, kteří by úvěr nemuseli splácet a to s důvodu, že jsou používána aktuální data na již poskytnutý úvěr. Tento model podává informace zda– li současným klientům poskytnout další úvěr a za jakých podmínek nebo zlepšit stávající podmínky již poskytnutého úvěru. V současné době se setkáváme se třetí revolucí v credit scoringu, která je charakteristická zájmy půjčovatelů (strategie credit scoringu musí být v souladu s podnikatelskou strategií), možností klientů (klient si může vybrat mezi mnoha poskytovateli úvěrů) a regulačními podmínkami ze strany státu. Poskytovatelé úvěrů se již nesnaží minimalizovat riziko nesplacení konkrétního úvěru, ale hledají možnosti jak maximalizovat zisk z konkrétního klienta, jak tohoto klienta „přinutitÿ k použití dalších nabízených produktů, jaké je riziko přechodu klienta ke konkurenčnímu poskytovateli. Ačkoliv se mění pohled na credit scoring, pro tvorbu modelů jsou stále používána především historická data, která jsou analyzována různými statistickými metodami. Některé z těchto metod budou popsány v kapitole 4. (THOMAS, 2009, str. 5–9)
14
3.3
Scorecards
Rizikové scorecards jsou používány pro předpovídání neplacení úvěru, z důvodů jako je bankrot, podvod či pojistné nároky. V nejjednodušší podobě scorecard obsahuje skupiny charakteristik, u kterých je statisticky dokázáno, že dokáží odhadnout dobré (ty, kteří úvěr splatí) a špatné (ty, kteří úvěr nesplatí) klienty. Žadatel úvěru poskytne finanční instituci informace o svém měsíčním příjmu, jiných již obdržených a dosud splatných úvěrech, délce trvání současného zaměstnání, zamítnutých a/nebo nesplacených úvěrech, vlastnictví či pronájmu nemovitosti, typu bankovního účtu, apod. Výše uvedené charakteristiky jsou potenciálními faktory, které mohou ovlivnit úvěrovou disciplínu potenciálního klienta. Jednotlivé charakteristiky (např. výše příjmu) se rozdělí na atributy (intervaly např. 10 000–15 000 Kč) a každý z těchto intervalů je samostatně obodován na základě statistických analýz vypočítaných z historických údajů 6 . Podle toho, do kterého intervalu žadatel patří, tolik obdrží kreditních bodů. Po sečtení získaných bodů úvěroví specialisté stanoví, zda–li úvěr bude a za jakých podmínek poskytnut žadateli. Kreditní body tedy označují úvěrové riziko klienta v konkrétním čase. Scorecards jsou používány, protože jsou jednoduše interpretovatelné, což nevyžaduje velmi pokročilou znalost statistiky a data minigu risk managerů. Důvody odmítnutí žádosti o úvěr či nízkého skóre, resp. akceptování žádosti či vysokého skóre, mohou být snadno vysvětleny klientům, auditorům, vedoucím pracovníkům bank či jiných úvěrových institucí. Vývoj scorecards je známým a rozšířeným procesem, což zaručuje jeho transparentnost.(ANDERSON, 2007, s. 55–56, SIDDIQI, s. 5–27, THOMAS, EDELMAN, CROOK, 2002, str. 1–7)
6
V případě, že banka či finanční instituce zjistí pomocí analýzy historických dat, že klienti ve věku mezi
26 až 35 let splácí své úvěry s pravděpodobností větší než 0,9, pak tuto kategorii odmění nejvíce body. Záleží na poskytovateli úvěru samotném kolik bodů, kterému intervalu přiřadí.
15
Obrázek 3. 2: Příklad rozdělení atributů do intervalů
Zdroj: Siddiqi
Obrázek 3. 3 uvádí příklad, jak vypadá zpráva v průběhu vývoje scorecard. Zakroužkovaného hodnoty lze interpretovat následovně. Pro skóre v rozmezí 245–250 je očekávaná marginální míra „špatnéhoÿ klienta 1,2%. Tzn. 1, 2% žadatelů o úvěr, kteří budou mít skóre 245 až 250, budou pravděpodobně „špatnýmiÿ klienty. Kumulativní míra „špatnéhoÿ klienta nám říká, že 0, 84% všech žadatelů se skórem vyšším než 245 budou „špatnýmiÿ klienty. 17, 44% všech žadatelů se skórem vyšším než 245 bude akceptováno, jak je uvedeno v posledním sloupečku. Obrázek 3. 3: Průběh vývoje scorecard
Zdroj: Siddiqi
16
3.4
Průběh poskytnutí a čerpání úvěru
Úvěrový proces probíhá v několika krocích 1. žádost o poskytnutí úvěru, 2. prověření úvěru, 3. povolení úvěru, 4. přijetí úvěru, 5. poskytnutí úvěru a 6. sledování úvěru. Důležitým cílem banky nebo jiné instituce poskytující úvěry je provádět úvěrové obchody tak, aby směřovaly k zajištění návratnosti úvěrů a jejich výnosnosti. Aby klient mohl úvěr získat, musí být prověřena jeho úvěruhodnost a úvěruschopnost. Úvěruschopnost klienta je jeho schopnost uzavírat právoplatné úvěrové obchody, u fyzických osob je kritériem dovršení věku 18 let a u právnických osob doklad o zápisu v obchodním rejstříku či živnostenské oprávnění. Úvěruhodností klienta se rozumí jeho schopnost dostát závazkům z úvěrového vztahu, tedy zaplatit jak úvěr, tak úroky dle podmínek sjednaných v úvěrové smlouvě. Při zkoumání žádosti se vyhodnocují obecné informace jako jsou pohlaví nebo věk klienta, dále podnikatelský záměr, finanční situace, struktura financování nebo propočet bonity. Na základě scoringového modelu jsou klientské informace vyhodnoceny a v případě, že je klient uznán úvěruhodným, je mu úvěr poskytnut. Tímto krokem však úvěrový proces nekončí. Ve stanovených termínech jsou kontrolovány úvěrové podmínky. Instituce, která úvěr poskytla, se soustřeďuje zejména na schopnost klienta dostát svým závazkům, celkovou finanční situaci klienta na základě pravidelně předkládaných účetních výkazů, zda–li je úvěr využit k účelu, ke kterému byl poskytnut. V případě, že je ohrožena návratnost úvěru, je vypracováno hodnocení plnění úvěrové smlouvy a úvěr je označen za problémový. Z pohledu banky je nutné zhodnotit vyhlídky návratnosti úvěru, pravděpodobnost vzniku ztrát a posoudit možná opatření, kterými mohou být zmrazení úvěru, odložení splátek úroků apod. (ČERVENKOVÁ, 2006, s. 41–66) 17
4
Statistická analýza dat
Jak již bylo uvedeno v předchozích kapitolách, credit scoring je založen na statistických metodách a technikách operačního výzkumu. Používá se několik druhů metod z nichž každá má své přednosti, ale také nevýhody. Tabulka 4.1: Vybrané metody a jejich charakteristiky Metoda
Hlavní nástroj
P/NP
Lineární regrese
Metoda nejmenších čtverců
P
Charakteristika Zjistit rovnici spojité závisle proměnné Rozdělit případy do předem
Diskriminační analýza
Mahalanobisova vzdálenost
P
stanovených skupin minimali– zováním rozdílů uvnitř skupin
Logistická regrese
Metoda maximální věrohodnosti
P
Zjistit rovnici k odhadu binární závislé proměnné Použít stromovou strukturu
Rozhodovací stromy
RPA
NP
k maximalizování rozdílů mezi skupinami
Neuronové sítě
Vícenásobné perceptrony
NP
Naučit neuron přizpůsobit se změně prostředí Operační výzkumná technika
Lineární programování
Simplexova metoda
NP
používaná k zjištění aloka–
ce zdroje optimalizace Zdroj: ANDERSON, 2007, s. 163, P = parametrický model, NP = neparametrický model
V této diplomové práci bude věnována větší pozornost pouze parametrickým modelům (neparametrické budou pouze stručně popsány), protože patří k nejpoužívanějším technikám a na reálných datech bude zjištěno, který z těchto modelů je nejvhodnější, i přesto, že Anderson, 2007 uvádí, že většina statistických modelů vykazuje srovnatelné výsledky. Např. logistickou regresi využívá 80–90% vývojářů scorecards, zbytek stále využívá lineární regresi, zejména kvůli její jednoduchosti a flexibilitě. Záleží také na historii používání credit scoringu v dané bance nebo jiné finanční instituci. Ve firmách, kde byl credit scoring používán již
18
od jeho počátků, tedy od 50–tých let minulého století, převažují modely lineární regrese, naproti tomu v nových firmách, nebo ve firmách, kde byl credit scoring uveden později, zejména v bankách s uvedením Basel II do řízení úvěrového rizika, převažují modely logistické regrese. Neparametrické metody byly sice přizpůsobeny credit scoringu, ale bohužel nejsou příliš používány, i přes to, že neuronové sítě dokáží rozpoznat podvod, protože dokáží flexibilně zahrnout do modelu nová data. (ANDERSON, 2007, s. 161–165)
4.1
Lineární regrese
Tato část je zaměřena na mnohonásobnou lineární regresi, protože ji lze využít pro zkoumání závislosti pomocí modelu, který obsahuje jednu závisle proměnnou a několik nezávisle proměnných. Předpokládáme, že máme n pozorování m závisle proměnných X1 , X2 , . . . , Xm , které ovlivňují nezávisle proměnnou veličinu Y . V případě, že provádíme regresi závisle proměnné na nezávisle proměnných a zároveň je funkce lineární v těchto parametrech (nemusí být lineární ve svých proměnných), mluvíme o lineární regresi. Zkrácený maticový zápis regresní funkce lze zapsat:
Y = βX + ε
(1)
Kde:
Y1 Y2 Y= . , ..
Yn
β0 β1 β= . , ..
βm
,
x11 x12 · · · x1m x21 x22 · · · x2m X= . .. . . .. .. . . .
xn1 xn2 · · · xnm
ε1 ε2 ε= . ..
εn
Y . . . vektor vysvětlovaných veličin napozorovaných hodnot Y1 , Y2 , . . . ,Yn , β . . . vektor parametrů, jimiž jsou neznámé konstanty, které lze odhadnout z pozorovaných hodnot, X . . . vektor známých funkcí vysvětlujících proměnných sestavených do matice regresorů, hodnoty n napozorovaných hodnot m proměnných, xij i-té pozorování proměnné Xj , kde 19
i = 1, 2, . . . , n a j = 1, 2, . . . , m, ε . . . vektor neznámých náhodných chyb.
De Vaus (2002, s. 343–344) uvádí 7 hlavních předpokladů mnohonásobné lineární regresní analýzy: 1. Závisle proměnná Y musí být metrická proměnná, která je měřena intervalově, pokud není je nutné použít logistickou regresi nebo zobecněnou lineární regresi. 2. Nezávisle proměnné X1 , . . . ,Xm musí být měřeny na intervalové úrovni, je možné použít i proměnné neintervalové, ale musí být dichotomické 7 . 3. Nezávisle proměnné by mezi sebou neměly být vysoce korelovány, protože by byl porušen předpoklad absence multikolinearity, která způsobuje nespolehlivost regresního modelu. Vysoká multikolinearita může mít za následek vyřazení statisticky významné proměnné z modelu. 4. Data nesmějí obsahovat tzv. outliers neboli odlehlé hodnoty, které mohou způsobit špatné odhady parametrů. 5. Proměnné musí být lineární v parametrech, protože mnohonásobná lineární regrese je založena na Pearsonově koeficientu a pokud nejsou vztahy mezi proměnnými lineární, nebudou ani významné vztahy odhaleny. 6. Aby nedocházelo k nepřesnostem ve výsledcích musí být jednotlivé proměnné normálně rozdělené, tomuto předpokladu se lze vyhnout dostatečně velkým počtem pozorování, protože podle centrální limitní věty8 nemá porušení normality příliš vážné následky. 7 8
Proměnná nabývající pouze dvou hodnot, např. muž, žena. Centrální limitní věta v teorii pravděpodobnosti označuje tvrzení, podle něhož se rozdělení výběrového
průměru po vhodné normalizaci blíží k normálnímu rozdělení. O náhodné veličině s uvedeným chováním říkáme, že má asymptoticky normální rozdělení. (WIKIPEDIA, 12.4.2010) Tedy náhodná veličina X, která vznikla jakou součet velkého počtu vzájemně nezávislých náhodných veličin X1 , X2 , . . . , Xn , má za obecných podmínek přibližně normální rozdělení. K důkazu tohoto tvrzení slouží zejména Moivreova–Lapaceova věta, Lévyho–Lindebergova věta a Ljapunovova věta. (HEBÁK, KAHOUNOVÁ, s. 203)
20
7. Vztahy mezi proměnnými vykazují homoskedasticitu – konstantnost náhodných složek i jejich reziduí. Dále předpokládáme, že náhodné chyby mají nulové střední hodnoty, tj. že E(εi ) = 0,
i = 1, 2, . . . , n.
O rozptylech náhodných složek se předpokládá, že jsou všechny stejné a rovny neznámé konstantě σ 2 nebo jsou různé, tedy
2
var(εi ) = σ ,
i = 1, 2, . . . , n,
σ2 nebo var(εi ) = pi
i = 1, 2, . . . , n,
kde pi jsou vhodně zvolené konstanty.
Náhodné chyby jsou nekorelované, tedy cov(εi , εj ) = 0,
pro i 6= j,
i, j = 1, 2, . . . , n.
Klasický lineární regresní model předpokládá pro napozorované hodnoty závisle proměnné náhodné veličiny yi nekorelovanost a normalitu rozdělení se středními hodnotami E(yi ) = µi ,
i = 1, 2, . . . , n,
a rozptyly var(yi ) = σ 2 , 4.1.1
i = 1, 2, . . . , n.
Odhady regresních parametrů
Je nutné odhadnout koeficienty regresní rovnice a parametry rozdělení náhodné složky. Výběrovou regresní funkci, kde nahradíme parametry β1 , β2 , . . . , βm jejich bodovými odhady b1 , b2 , . . . , bm , vyjádříme takto: Yˆ = b1 X1 + b2 X2 + . . . + bm Xm ,
21
kde Yˆ je vyrovnaná nebo predikovaná hodnota Y , jednotlivá její pozorování můžeme zapsat Yi = b1 Xi1 + b2 Xi2 + . . . + bm Xim ,
i = 1, 2, . . . , n.
(2)
Pomocí metody nejmenších čtverců, která minimalizuje součet čtvercových odchylek, získáme vhodné bodové odhady regresních parametrů. Reziduum je rozdíl mezi skutečnými hodnotami Yi a predikovanými hodnotami Yˆi pro i = 1, 2, . . . , n.
S=
n X
= (Yi − Yˆi )2 =
i=1
n X
(Yi − b1 Xi1 − b2 Xi2 − . . . − bm Xim )2 ,
i=1
tento součet je minimální pro taková b1 , b2 , . . . , bm , která se určí řešením soustavy rovnic ∂S = 0, ∂b2
∂S = 0, ∂b1
...,
∂S = 0. ∂bm
(3)
Soustavu normálních rovnic lze zapsat jako (XT X)β = XT Y
a její řešení je následující (XT X)−1 (XT X)β = (XT X)−1 (XT Y) b = (XT X)−1 (XT Y).
Pro vhodný výběr typu regresní funkce může být někdy vodítkem přiléhavost výběrové funkce pozorovaným datům. V případě, kdy se nabízí možnost použití několika funkcí, vybereme tu, která má nejmenší reziduální součet čtverců. Reziduální součet čtverců označíme Se a lze jej vyjádřit ve tvaru Q=
n X
εi =
i=1
n X
(Yi − Yˆi )2 .
Vztah (4) umocníme a vezmeme v úvahu, že
n X
= Yˆi2 =
i=1
Q=
(4)
i=1
n X
Yi2 −
i=1
n X i=1
22
Yi Yˆi
n X
Yi Yˆi a získáme
i=1
(5)
dosazením Yi ze vztahu (2) získáme
Q=
n X
Yi2 − (b0
i=1
n X
Xi0 Yi + b1
i=1
n X
Xi1 Yi + . . . + bm
i=1
n X
Xim Yi ).
(6)
i=1
vztah (6) lze maticově zapsat takto Q = (YT Y) − β T (XT Y).
(7)
V případě, že použijeme reziduální součet čtverců k rozhodování o výběru regresní funkce, je nutné vzít v potaz, že funkce s větším počtem parametrů vedou k nižšímu reziduálními součtu čtverců, než funkce s menším počtem regresních parametrů. Protože funkce reziduálního rozptylu závisí na počtu parametrů, lze ji použít při porovnávání reziduálního součtu čtverců několika odlišných funkcí. Reziduální rozptyl je definován jako poměr reziduálního součtu čtverců ku počtu pozorování n a počtu regresních parametrů k, tedy: SE =
Q n−k
(8)
což je za předpokladu normality nestranný odhad σ 2 .9 (HINDLS, KAŇOKOVÁ, NOVÁK, 1995, s. 21–33, HINDLS, KAŇOKOVÁ, NOVÁK, 1997, s. 44–61) 4.1.2
Intervaly spolehlivosti pro regresní parametry
V modelu testujeme hypotézy: H0 : bj = 0
proti
H1 : bj 6= 0
j = 1, 2, . . . , m.
(9)
Za předpokladu normality jsou náhodné veličiny bj a SE nezávislé, potom náhodná veličina Tj =
bj bj =r RSS SE(bj )
∼ t(n−p) ,
(10)
n−p j+1;j+1
9
Jako nestranný bodový odhad parametru θ základního souboru nazýváme statistiku Tn , pro jejíž střední
hodnotu platí E(Tn = θ. Sledujeme–li u některých statistik, které jsou nestranným odhadem parametru θ, jak se jejich hodnoty soustřeďují v blízkosti hodnot θ, pak za lepší považujeme takovou statistiku, která má menší rozptyl var(T ). (WIKIPEDIE, 12. 3. 2010)
23
pro j = 0, 1, . . . , m, kde SE(bj ) je standardní chyba odhadu a hj+1;j+1 je j-tý diagonální prvek matice (XT X)−1 . Tedy potom má náhodná veličina Tj studentovo rozdělení o (n − p) stupních volnosti. Hypotézy ze vztahu (9) ověříme výpočtem: P (bj − t(n−p);1− α2 SE(bj ) ≤ bj ≤ bj + t(n−p);1− α2 SE(bj )) = 1 − α
(11)
Pomocí Tj určíme intervalový odhad bj , j = 0, 1, 2, . . . , m a ověříme hypotézy H0 a H1 , tj. užijeme Tj jako testové kritérium. Hypotézu H0 zamítneme, je–li |Tj | < t(n−p)1− α2 . (HINDLS, KAŇOKOVÁ, NOVÁK, 1995, s. 38–39, HINDLS, KAŇOKOVÁ, NOVÁK, 1997, s. 66–68)
4.1.3
Kvalita volby regresní funkce
V případě, že máme určenou regresní funkci a známe vyrovnané hodnoty Yˆ1 , Yˆ2 , . . . , Yˆn , kvalitu regresního modelu nám vystihuje index determinace. Udává kolik procent rozptylu vysvětlované veličiny je modelem vysvětleno. Nabývá hodnot < 0, 1 >. Hodnoty blízké nule vypovídají o nízké kvalitě regresního modelu, naopak hodnoty blízké jedné charakterizují jeho vysokou kvalitu, avšak nízká hodnota I 2 nemusí znamenat nízký stupeň závislosti, ale špatnou volbu regresní funkce. Index determinace je poměr rozptylu vyrovnaných hodnot a rozptylu pozorovaných hodnot. Rozptyl vyrovnaných hodnot neboli sumu čtverců vysvětlenou regresí zapíšeme takto: ESS =
n X
(Yˆi − Y )2 ,
(12)
i=1
kde n 1X Yi n i=1
Y =
a rozptyl pozorovaných hodnot neboli reziduální součet čtverců zapíšeme následujícím způsobem: n X
(Yi − Y )2 .
(13)
T SS = ESS + RSS,
(14)
RSS =
i=1
Potom platí
24
kde T SS je celkový součet čtverců, který vyjadřuje celkovou variabilitu vysvětlované proměnné. Je zřejmé, že model je tím lepší, čím větší je součet čtverců modelu – pozorovaných a vyrovnaných hodnot, a naopak čím menší je reziduální součet čtverců. Index determinace zapíšeme pomocí vztahů (12), (13) a (14), tedy I2 =
ESS RSS =1− . T SS T SS
(15)
Protože index determinace závisí na počtu vysvětlujících proměnných a se zvyšujícím počtem proměnných narůstá hodnota indexu, je častěji používán tzv. „modifikovanýÿ index determinace, který zohledňuje počet Xi , kde i = 1, 2, . . . , n a jeho hodnota je menší, než 2
hodnota I 2 . V lineární regresi je tento index označován R a má tvar 2
R = 1 − (1 − I 2 )
(n − 1) , n−p
(16)
kde p značí počet odhadnutých parametrů v modelu. Pro posouzení těsnosti závislosti mezi vysvětlovanou a vysvětlujícími veličinami je používán korelační koeficient. Z následujícího vztahu rY X = √
covXY varX × Y
(17)
je vypočítán výběrový korelační koeficient, který je bodovým odhadem korelačního koeficientu ρ, jež nabývá hodnot < −1; 1 >, přičemž hodnoty blízké 1 vyjadřují silnou pozitivní závislost, hodnoty blízké -1 silnou negativní závislost a hodnoty blízké 0 nezávislost. Významnost korelačního koeficientu posuzujeme pomocí t-testu, kde testujeme hypotézy o nezávislosti H0 : ρ = 0 proti alternativě H1 : ρ 6= 0.
Testovým kritériem je statistika t s
t=R
n−2 1−R
2,
kritická hodnota je τ = t1− α2 (n−2) .
25
(18)
V případě, že je |t| < τ , nezamítáme nulovou hypotézu. Druhou možností jak posoudit lineární závislost, neboli multikolinearitu pozorovaných hodnot jsou VIF faktory. Pro každou Xi je vypočítána hodnota faktoru a v případě, že tato hodnota je vyšší než 10, je daná proměnná lineárně závislá na jiné nezávisle proměnné. Multikolinerované proměnné je nutné z modelu vyloučit, aby nezkreslovaly odhady regresních parametrů. Hodnoty VIF faktory jsou vypočítány pomocí vztahu V IF (bj ) =
1 , 1 − Rj2
j = 1, 2, . . . , k,
(19)
kde Rj2 je koeficient determinace pomocné regrese v bodě 1. O statistické významnosti modelu vypovídá F -test s testovým kritériem F =
ESS p−1 RSS n−p
,
(20)
kde p udává počet regresních parametrů. Kritickou hodnotou je Fc = F1−α(p−1,n−p) . Hypotézy lze formulovat takto H0 : b0 = b1 = . . . = bk = 0 proti alternativě H1 : alespoň jeden z koeficientů není roven nule. Nulovou hypotézu zamítáme v případě, že F < Fc . V případě, že jsou rezidua neautokorelovaná, nevykazují heteroskedasticitu a jsou normálně rozdělené, lze pomocí nich posoudit celkovou vhodnost modelu. Pokud jsou výsledky testů statisticky významné na zvolené hladině významnosti, je možné konstatovat, že model je vhodný. K testu autokorelace chybového členu je používán např. Durbin–Watsonův test, který testuje hypotézy H0 : autokorelace není přítomna proti alternativě H1 : autokorelace je přítomna. Testovým kritériem je n X
DW =
(εi − εi−1 )2
i=1 n X
. (εi )
i=1
26
2
(21)
Hodnoty testového kritéria jsou v < 0; 4 >. Pokud se hodnota vypočítaného kritéria pohybuje kolem 2, potom mluvíme o nezávislosti, kolem 0 se jedná o pozitivní závislost a v případě, že se hodnota kritéria blíží 4, jde o negativní závislost. K přesnému určení DW lze využít speciálních statistických tabulek. (HINDLS, KAŇOKOVÁ, NOVÁK, 1995, s. 39–42, HINDLS, KAŇOKOVÁ, NOVÁK, 1997, s. 68–72, WOOLDRIDGE, 2009, s. 415–416)
4.1.4
Zobecněná lineární regrese
Problémem lineární regrese je velké množství jejich předpokladů: linearita, homoskedasticita, normální rozdělení a nezávislost chybové složky, aditivita apod. V credit scoringu, kde je závisle proměnná binární, je o lineární regresi referováno jako o lineárním pravděpodobnostním modelu (dále jen LPM, vysvětleno níže). Předpokládáme, že Yi nabývá pouze dvou hodnot, a to 0 a 1. Očekávané hodnoty Yi redukují pravděpodobnost, že se Yi rovná 1, zapsáno P (Yi = 1), na E(Yi ) = 1P (Yi = 1) + 0P (Yi ) = 0 = P (Yi = 1)
Víme, že E(Yi |Xi1 , . . . , Xij ) =
m X
(22)
βj Xij , i = 1, 2, . . . , n a v případě, že tento vztah zkom-
j=1
binujeme s (22), získáme E(Yi ) = P (Yi = 1) =
m X
βj Xij ,
i = 1, 2, . . . , n
(23)
j=1
Můžeme říci, že pravá strana regresní rovnice je interpretovatelná jako pravděpodobnost. Proto je lineární regresní model se závisle proměnnou, jež nabývá pouze hodnot 0 a 1, nazýván lineární pravděpodobnostní model. Jestliže Yi nabývá pouze dvou hodnot, usuzujeme, že i εi bude nabývat dvou hodnot pro každou hodnotu Xij , kde i = 1, 2, . . . , n a j = 1, 2, . . . , m, tedy Yi = 0,
potom (0 =
m X
βj Xij + εi ) ⇒ εi = −
j=1
Yi = 1,
potom (1 =
m X
m X
(βj Xij ),
i = 1, 2, . . . , n
j=1
βj Xij + εi ) ⇒ εi = 1 −
j=1
m X j=1
27
βj Xij ,
i = 1, 2, . . . , n.
a
když Yi =0, potom E(εi ) = P (Yi = 0)[−
m X
(βj Xij )] + P (Yi = 1)[1 −
j=1
m X
βj Xij ] = −1[1 − P (Yi = 1)]P (Yi = 1) +
j=1
+P (Yi = 1)[1 − P (Yi = 1)] = 0
i = 1, 2, . . . , n.
(24)
Výsledkem metody nejmenších čtverců budou nestranné odhady, avšak k tomu je potřeba konstantní hodnota rozptylu. V případě dichotomické závisle proměnné lze rozptyl zapsat takto var(εi ) = E(ε2i ) = P (Yi = 0)[−
m X
βj Xij ]2 + P (Yi = 1)[1 −
j=1
m X
βj Xij ]2 = [1 − P (Yi = 1)]
j=1
P(Yi = 1)2 + P (Yi = 1)[1 − P (Yi = 1)]2 = P (Yi = 1)[1 − P (Yi = 1)] = (
m X
βj Xij )
j=1
(1 −
m X
βj Xij ),
(25)
j=1
kde i = 1, 2, . . . , n. Tedy odhady pomocí OLS by byly nestranné, ale ne nejlepší nestranné, proto by testy hypotéz nebo intervaly spolehlivosti nebyly platné ani pro velké vzorky. Proto je nutné použít zobecněnou metodu nejmenších čtverců, která je aplikována ve dvou krocích. Nejprve jsou vypočteny odhady parametrů pomocí OLS a pro každé pozorování je sestrojena váha wi "
wi = X m j=1
#1
1
2
bj Xij (1 − (
m X
,
i = 1, 2, . . . , n.
(26)
bj Xij ))
j=1
Těmito vahami je vynásobena rovnice Yi = b0 +
m X
bj Xij + εi kde i = 1, 2, . . . , m, tedy
j=1
(wi Yi ) = w0 b0 +
m X
wi bj Xij + (wi εi ),
(27)
j=1
takto jsou získány nové odhady, řekněme ˆbj , j = 1, 2, . . . , m. I přesto, že εi nabývají pouze dvou hodnot, tedy nemají normální rozdělení, ve velkých souborech mají toto rozdělení
28
asymptoticky. Z toho vyplývá, že testy hypotéz mají obvyklou vypovídací schopnost. Výsledkem LPM je odhad pravděpodobnosti P (Y = 1), tedy např. pravděpodobnost s jakou bude úvěr splacen. (ALDRICH, NELSON, 1984, s. 12–16) Předpokládejme pro jednoduchost, že máme pouze jednu nezávisle proměnnou Xi , přičemž závisle proměnná je dichotomická, nabývá tedy pouze 0 nebo 1. Zkoumáme jak závisí podmíněná pravděpodobnost, že nějaký klient splatí úvěr. Potom regresní model v lineárním tvaru lze zapsat Yi = β1 + β2 Xi + εi , i = 1, 2, . . . , M,
(28)
kde Yi je 1 klient úvěr splatí, 0 klient úvěr nesplatí, Xi je výše poskytnutého úvěru i–tému klientovi, εi je chybová složka s vlastnostmi popsanými výše, M je počet opakování výběrového experimentu. Pro střední hodnotu platí E(Yi ) = β1 + β2 Xi ,
(29)
tedy představuje podmíněnou pravděpodobnost splacení úvěrů v závislosti na výši poskytnutého úvěru. Můžeme říct, že vztah (28) má charakter LPM. Střední hodnotu vysvětlované proměnné Yi můžeme také vyjádřit jako vážený aritmetický průměr, tedy E(Yi ) = 1(Pi ) + 0(1 − Pi ) = Pi ,
(30)
kde Pi = P (Yi = 1) a 1 − Pi = P (Yi = 0) jsou skutečné podmíněné pravděpodobnosti. Protože závisle proměnná je dichotomická, nabývá i chybová složka pouze dvou hodnot pro dané fixní Xi a to −(β1 + β2 Xi ) a 1 − (β1 + β2 Xi ). Pokud je střední hodnota εi rovna nule, potom těchto hodnot nabývá s pravděpodobností 1 − Pi = 1 − (β1 + β2 Xi ), tedy pro rozptyl εi po dosazení dostaneme σi2 = E(ε2i ) = (1 − Pi )2 Pi + (1 − Pi )Pi2 = Pi (1 − Pi ). 29
(31)
Pro odhad parametrů je nutné použít metodu zobecněných nejmenších čtverců, protože rozptyl není konstantní. Tato metoda koriguje negativní vliv heteroskedasticity chybových složek na odhadnuté parametry a je popsána výše. Popsaný model jednoduché lineární regrese nyní zobecníme pro případ vícenásobné regrese. Vektor k vysvětlujících proměnných o rozměru k × 1 označíme xi . Četnost v každém z M opakování výběrového experimentu představuje velmi malý rozsah ni pozorování. Tedy Yi je počet výskytů zkoumané alternativy v ni pozorováních, které odpovídají jednotlivým hodnotám vektoru nezávisle proměnných xi . Výběrová relativní četnost zkoumané alternativy v i–tém výběrovém experimentu pi je dána výrazem pi =
Yi . ni
Pro výběrový podíl pi
a skutečný podíl Pi platí vztah p i = Pi + ε i ,
i = 1, 2, . . . , M.
(32)
Předpokládáme–li lineární závislost Pi na k vysvětlujících veličinách, můžeme říct, že Pi = xi β,
i = 1, 2, . . . , M.
(33)
Maticově můžeme úplný lineární aditivní model pro všech M pozorování můžeme zapsat vztahem p = Xβ + u,
(34)
kde p je vektor výběrových podílů zkoumané alternativy. Pomocí metody zobecněných nejmenších čtverců získáme odhad parametrů b b = (XT XV−1 )−1 XT V−1 p,
(35)
kde V je kovarianční matice binomicky rozdělených náhodných složek, která má následující podobu
V=
P1 (1−P1 ) n1
.. .
0
··· P2 (1−P2 ) n2
··· 30
0 .. . Pn (1−Pn ) nM
.
Pokud neznáme skutečné podíly pravděpodobností Pi , můžeme je nahradit jejich odhady Pˆi (1−Pˆi ), ni
kde i = 1, 2, . . . , M . (HUŠEK, 1997, s. 154–158)
V případě, že testujeme shodu LPM s pozorovanými daty, není vhodné použít R2 , protože i když bude vysoká vypovídací schopnost LPM, hodnota koeficientu bude relativně nízká, protože měří poměr vysvětlené variability vážených proměnných, nikoliv proměnných původního datového souboru. Proto by R2 měl být přepočítán z originálních dat pomocí vzorce "
1− R2 =
n X
Yi −
i=1 n X
m X
#2
ˆbj Xij
j=1
(Yi − Y )
,
(36)
2
i=1
kde ˆbj je j–tý vážený koeficient, Xij původní data, Y je průměr Yi . (ALDRICH, NELSON, 1984, s. 16–17)
4.2
Logistická regrese
V případě, že závislá proměnná není spojitá, je nutné použít k modelování závislosti mezi vysvětlovanou a vysvětlujícími veličinami regresi logistickou. Předpoklady logistické regrese jsou 1. nominální, ordinální nebo dichotomická závisle proměnná (vysvětleno v následující kapitole), 2. data neobsahující odlehlé hodnoty a 3. nepřítomnost multikolinearity mezi nezávisle proměnnými. (FIELD, 2009, s. 265)
Máme–li binární závisle proměnnou, která nabývá hodnot 0 a 1, Y = 1 jestliže u sledovaného záznamu nastal jev A a Y = 0 v případě, že nastal jev nonA (tedy jev A nenastal). Cílem binární logistické regrese je odhadnout pravděpodobnosti, že záznam patří do jedné
31
ze dvou kategorií závisle proměnné. Není však možné odhadovat pravděpodobnost Y = 1, protože potom hodnoty predikované rovnicí P (Y = 1) = β0 + β1 X1 + . . . β2 X2
(37)
nemusí nabývat hodnot mezi 0 a 1. Pravděpodobnost jevu však může nabývat pouze hodnot < 0; 1 >. Tento nedostatek lze odstranit tím, že zaměníme pravděpodobnost jevu za šanci jevu. Šance, že jev A nastal je vyjádřena následujícím vztahem šance(A) =
P (Y = 1) . 1 − P (Y = 1)
(38)
Šance nabývá kladných hodnot včetně nuly. Transformujeme–li vztah (38) na přirozený logaritmus šance, jehož hodnoty nabývají jak kladných, tak i záporných hodnot, tak je tímto způsobem vyřešen problém predikovaných hodnot z rovnice ve vtahu (37), které mohou nabývat hodnot z (−∞; +∞). Logit je definován takto logit(Y ) =
ln P (Y = 1) . ln(1 − P (Y = 1)
(39)
Regresní rovnice poté vypadá následovně logit(Y ) = β0 + β1 X1 + . . . + βk Xk .
(40)
Při interpretaci výsledků je důležité nezaměňovat pravděpodobnosti, šanci a logit i přesto, že vyjadřují totéž.10 . V případě, že máme kategorizované (např. účel úvěrů, druh zaměstnání) nominální nezávislé proměnné není možné je do regrese, nejen logistické, zahrnout v jejich zakódovaných 10
Pomocí exponenciální funkce převedeme logit zpět na šanci:
šance(A) = exp[logit(Y )] = exp(β0 ) + exp(β1 X1 ) + . . . + exp(βk Xk ) a pravděpodobnost dostaneme pomocí vztahu P (Y = 1) =
šance(Y = 1) exp(β0 ) + exp(β1 X1 ) + . . . + exp(βk Xk ) = . 1 + šance(Y = 1) 1 + exp(β0 ) + exp(β1 X1 ) + . . . + exp(βk Xk )
Tyto transformace ulehčují interpretaci výsledků.
32
hodnotách. Pro každou kategorii vytvoříme I tzv. „dummyÿ neboli umělých proměnných, z nichž do modelu zahrneme I − 1. Referenční kategorii, kterou vynecháme je možné zvolit dle vlastního uvážení. Pokud Xk je kategorizovaná proměnná s I kategoriemi a nové proměnné označíme Ck1 , Ck2 , . . . , CkI−1 , Regresní model potom vypadá takto logit(Y ) = β0 + β1 X1 + . . . + βk−1,I−1 + βk1 Ck1 + . . . + βk,I−1 Ck,I−1 .
(41)
Pokud jsou některé kategorizované proměnné ordinální, je uváděno, že pokud má více než 7 kategorií, je možné s ní pracovat jako se spojitou proměnnou, nebo vytvoříme dummy proměnné podle postupu popsaného výše. V případě, že nezávisle proměnné obsahují dichotomickou proměnnou, můžeme z ní vytvořit umělou proměnnou, nebo ji zakódovat 0 a 1. V obou případech získáme pouze jeden regresní koeficient (HOSMER,LEMESHOW, 2000, s. 31–34).
4.2.1
Odhady regresních parametrů
V logistické regresi se parametry odhadují metodou maximální věrohodnosti (MLE). Aby bylo možné tuto metodu aplikovat, je potřeba nejprve zkonstruovat výběrovou funkci. Nejvěrohodnější odhady jsou takové, které tuto funkci maximalizují. Mějme náhodný výběr X1 , X2 . . . , Xn s pravděpodobnostní funkcí P (X = x|β1 , β2 , . . . , βk ),
(42)
kde β1 , β2 , . . . , βk jsou neznámé parametry. Realizací náhodného výběru je f (x1 , x2 , . . . , xn |β1 , β2 , . . . , βk ) = f (x1 |β1 ), f (x2 |β2 ), . . . , (xn |βk ) =
n Y
f (xi |β1 , β2 , . . . , βk ),(43)
i=1
P (X1 = x1 , X2 = X2 , . . . , Xn = xn |β1 , β2 , . . . , βk ) =
n Y
P (Xi = xi |β1 , β2 , . . . , βk ),(44)
i=1
protože jsou v tomto výběru jednotlivá pozorování na sobě nezávislá. Pozorované hodnoty x1 , x2 , . . . , xn budou „fixnímiÿ parametry funkce, zatímco hodnoty β1 , β2 , . . . , βk se mohou měnit. Z tohoto důvodu je následující funkce nazývá věrohodnostní. L(β1, β2 , . . . , βk |x1 , x2 , . . . , xn ) =
n Y i=1
33
f (xi |β1 , β2 , . . . , βk ), nebo
(45)
L(β1 , β2 , . . . , βk |x1 , x2 , . . . , xn ) =
n Y
P (Xi = xi |β1 , β2 , . . . , βk ).
(46)
i=1
Potom maximálně věrohodným odhadem parametrů β1 , β2 , . . . , βk jsou βˆ1 , βˆ2 , . . . , βˆk , pro které L(βˆ1 , βˆ2 , . . . , βˆk |x1 , x2 , . . . , xn ) ≥ L(β1 , β2 , . . . , βk |x1 , x2 , . . . , xn ). Místo funkce L(β1 , β2 , . . . , βk |x1 , x2 , . . . , xn ) se většinou maximalizuje její logaritmus, tuto funkci potom nazveme log–likelihood. Řešením soustavy rovnic ∂ ln L(β1 , β2 , . . . , βk |x1 , x2 , . . . , xn ) = 0, ∂βj
j = 1, 2, . . . , k
(47)
získáme maximálně věrohodné odhady parametrů β1 , β2 , . . . , βk , které označíme βˆ1 , βˆ2 , . . . , βˆk . (HOSMER, LEMENSHOW, 2000, s.47–56, WIKIPEDIA 10. 2. 2010)
4.2.2
Statistická významnost modelu
Jak dobře predikují nezávisle proměnné závisle proměnnou lze zjistit na základě statistiky -2LL (-2 log likelihood), která má asymptoticky χ2 rozdělení. V případě, že je tato statistika nižší u modelu, který obsahuje nezávisle proměnné, než u modelu obsahujícím pouze konstantu, potom zahrnuté nezávisle proměnné zlepšují predikci závisle proměnné. Tento test je založen na statistice G2M , která má tvar G2M = −2
n X
[(yi ln πˆi ) + (1 + yi )(1 − πˆi )],
(48)
i=1
kde M je označení modelu a πi = P (yi = 1). Případ, kdy model obsahuje pouze konstantu lze zapsat následovně G20 = −2(lnL0 − Ls ),
(49)
kde L0 je věrohodnost výběrových dat pro hodnocený model, v tomto případě model obsahující pouze konstantu a Ls je nejvyšší dosažená věrohodnost. Testová statistika G2M má asymptoticky χ2 rozdělení. Tedy v případě, že hodnota |G2M | ≥ než zvolený kvantil χ2 rozdělení o k − 1 stupních volnosti, řekneme, že alespoň jeden nebo až všechny parametry jsou 34
různé od 0, tedy statisticky významné pro vysvětlení závislé veličiny. K významnosti nezávislých proměnných v modelu bude dalším testem v 5. kapitole použit Omnibus test, jež je analogií F -testu z lineární regrese. Ověřuje hypotézu H0 : β0 = β1 = β2 = . . . = βk = 0 proti alternativě H1 : β0 6= β1 6= β2 6= . . . 6= βk 6= 0.
Hypotézu H0 zamítáme v případě, kdy je p-value menší než 0,05 (pokud si zvolíme 5% hladinu významnosti). Alternativou koeficientu determinace, který je používán v lineární regresi, je Cox&Snell R2 a Nagelkerke R2 . První jmenovaný koeficient lze zapsat
DCS
L0 =1− LM
!2
n
.
(50)
Tato statistika má však nedostatek v tom, že nemůže dosáhnout maximální hodnoty 1. Proto používáme Nagelkerke R2 , který je modifikací Cox&Snell R2 a jeho hodnota může dosáhnout 1. Je ve tvaru
DN =
DCS max(DCS ).
(51)
I přesto, že DN nabývá vyšších hodnot než DCS , tyto hodnoty jsou nižší než alternativa v lineární regresi. Není tedy možné porovnávat tyto dva typy regrese na základě výše uvedených koeficientů.(HUŠEK, 1997, s. 100–105) Test dobré shody v podobě Hosmer a Lemeshowova testu (dále jen H–L test) je vhodný v případě, kdy máme velký datový soubor. Testujeme hypotézu H0 : mezi pozorovanými a predikovanými hodnotami není žádný rozdíl. Pokud testujeme významnost modelu na základě H–L testu, nulová hypotéza nesmí být zamítnuta. Soubor dat je rozdělen na základě předpovídaných pravděpodobností do 10 přibližně stejně velkých skupin. V každé této skupině je určena očekávaná a skutečná četnost případů, u kterých nastal či nenastal jev A. Všechny očekávané četnosti musí být větší než jedna a většina z nich musí být větší než pět. Problémem Waldovy statistiky, na jejímž základě je 35
H–L test počítán je, že pro regresní koeficienty s velkou absolutní hodnotou, a tedy velkou standardní chybou, nabývá malých hodnot a tedy nulová hypotéza je zamítnuta, i když by být neměla. V případě, že hodnota některých koeficientů je v absolutní hodnotě velká, doporučuje se vytvořit model bez nich a poté test významnosti založit na změně v hodnotě -2 log likelihood. Statistickou významnost jednotlivých koeficientů testujeme pomocí hypotéz H0 : βk = 0 proti alternativě H1 : βk 6= 0 . Jako testové kritérium slouží Waldova statistika, která má asymptoticky χ2 rozdělení. W =
βˆj , σ ˆ (βˆj )
j = 1, 2, . . . , k,
(52)
kde βˆj je maximální věrohodný odhad a σ ˆ (βˆj ) je odhad směrodatné odchylky maximálního věrohodnostního odhadu. (HOSMER, LEMESHOW, 2000, 36–40, TARLING, 2009, s. 66–75)
4.3
Diskriminační analýza
Diskriminační analýza, dále jen DA, je jednou z klasifikačních metod sloužících k rozlišení objektů do existujících tříd. Proces zařazování je označován jako diskriminace. Je zkoumána závislost mezi skupinou k nezávisle proměnných, které se označují jako diskriminátory, a jednou závisle proměnnou, jež je nominální nebo kategoriální. Metodu ve své práci přestavil v roce 1936 R. A. Fisher, který se zabýval tříděním kosatců. Od té doby se DA používá v mnoha oborech, mimo jiné i v bankovnictví, kde slouží k rozhodování o přidělení úvěru. Cílem DA je minimalizovat vzdálenost mezi případy patřící do téže skupiny a maximalizovat rozdíly mezi případy patřící do jiných skupin, snaží se tedy nalézt predikční model, který by umožnil zařadit nové objekty do tříd, na základě největší míry pravděpodobnosti. Postup analýzy je možné rozdělit do následujících kroků: • definování skupiny,
36
• definování formy modelu, většinou se používá nějaká forma regresního modelu, • odvození modelu za použití vybrané statistické techniky, • testování a ověření platnosti, • aplikace, buď k vysvětlování nebo předpovídání o tom, že bude proměnná patřit do skupiny. Diskriminační analýza má předpoklady, které by měly být splněny, aby model poskytoval statisticky významné výsledky: 1. nezávislé veličiny, neboli diskriminátory, musí mít normální rozdělení, pokud je porušena normalita, měly by všechny diskriminátory mít stejné rozdělení, 2. kovarianční matice jednotlivých tříd musí být podobné, potom budou i směrodatné odchylky v rámci jednotlivých skupin přibližně stejně velké, 3. nepřítomnost multikolinearity v datech, 4. počet skupin je minimálně 2 a každý případ patří právě do jedné skupiny. DA se snaží vyčíslit hodnotu diskriminační funkce, na základě které jsou objekty zařazovány do primární třídy. (ANDERSON, 2007, s. 169–170). Vyčíslené hodnoty funkce lze poté použít k třídění nezařazených objektů na základě k diskriminátorů X1 , X2 , . . . , Xk . Označíme–li objekt x = (X1 , X2 , . . . , Xk )T , kde x ∈ X ⊆ Rk , X je výběrový prostor, počet tříd je 1, 2, . . . , r. K tomu, aby případy mohly být zařazeny do jednotlivých skupin slouží zařazovací, někdy označované rozhodovací, pravidla. Rozumíme jimi disjunktní rozklad X =
r [
wi
i=1
spolu s rozhodnutím, že pokud x ∈ wi ,
i = 1, . . . , r, tak x zařadíme do i–té třídy. Předpo-
kládáme, že má objekt z i–té třídy hustotu pravděpodobnosti pi (x), i = 1, 2, , r. Potom Z
pi (x)dx,
wj
37
(53)
pro i 6= j je pravděpodobnost chybného zařazení a pro i = j je pravděpodobnost správného zařazení. Označme l(j|i) jako ztrátu ze zařazení objektu patřícího do i– té třídy do j–té třídy, přičemž předpokládáme l(i|i) = 0. Tedy když je objekt z i–té třídy zařazen správně do i–té třídy, potom je ztráta rovna 0. Střední ztráta (či riziko) pro objekt patřící do i–té třídy je Ri =
r X
l(j|i)
j=1
Z
pi (x)dx,
i = 1, 2, . . . , r,
(54)
wj
Při znalosti vztahu (54) můžeme určit apriorní pravděpodobnosti πi , tedy poměrné zastoupení i–té třídy v celkové populaci. Potom celkovou střední ztrátu (celkové riziko) zapíšeme R=
r X i=1
kde sj (x) = −
r X
πi Ri =
r Z X r X
l(j|i)πi pi (x)dx = −
j=1wj i=1
r Z X
sj (x)dx,
(55)
j=1wj
l(j|i)πi pi (x), sj (x) nazveme j–tý diskriminační skór. V dalším textu budeme
i=1
hledat maximální skór. Optimálním rozhodovacím pravidlem je takový rozklad X =
r [
wi , pro který je celková
i=1
střední ztráta R minimální (při daných l(j|i), πi a pi (x). V případě, že
r [
wi∗ je takový
i=1
disjunktní rozklad X , že platí implikace x ∈ wi∗ ⇒ si (x) ≥ sj (x)
(56)
pro všechna j = 1, 2, . . . , r, potom platí R∗ = −
r Z X
si x)dx ≤ −
i=1w∗
pro libovolný jiný disjunktní rozklad
sj (x)dx
(57)
j=1wj
i
r [
r Z X
wj . Rozklad není určen jednoznačně, ale pro libovolný
j=1
jiný rozklad splňující implikaci (56) zůstává hodnota R∗ stejná. Předpokládáme l(j|i) = 1, pro j a l(i|i) = 0 pro j = i, potom je Ri = 1 −
Z
pi (x)dx
wi
38
(58)
podíl chybně zařazených objektů patřících ve skutečnosti do i–té třídy, celkový podíl chybně zařazených objektů lze zapsat R=1−
r X i=1
πi
Z
pi (x)dx.
(59)
wi
Potom Sj (x) = −
X
πi pi (x) ± πj pj (x) = −
i
protože výraz − skóry
r X
r X
πi pi (x) + πj pj (x)
(60)
i=1
πi pi (x) je nezávislý na j, je možné jej z rovnice vypustit, potom jsou
i=1
sj (x) = πj pj (x),
j = 1, 2, . . . , r.
(61)
Objekt zařadíme do j–té třídy, jestliže sj (x) ≥ si (x), tj. Porovnáváme πj pj (x) ≥ πi pi (x), pro každé j = 1, 2, . . . , r. V případě, kdy se shodují kovarianční matice je
X X 1 1 1 P 1 P P P |− (x−µj )T −1 (x−µk ) = − ln | |− xT −1 x+lnπj µTj −1 − 21 µTj −1 µk ln πj − ln | 2 2 2 2
Protože v modelovém příkladě uvedeném v kapitole 5 budeme objekty dělit pouze do dvou tříd, uvedu na tomto místě teorii týkající se speciálního případu DA, tedy případ, kdy budeme mít dvě třídy a lineární skóry. Objekt zařadíme do třídy jedna, jestliže s1 (x) ≥ s2 (x), tj 1 P 1 P P P ln π1 − µT1 −1 µ1 + µT1 −1 x ≥ ln π2 − µT2 −1 µ2 + µT2 −1 x 2 2 Rovnici (62) zapíšeme ve zkrácené podobě bT1 x + a1 ≥ bT2 x + a2 (b1 − b2 )T x ≥ (a1 − a2 ) dT x ≥ c 39
(62)
kde d(k×1) = (b1 − b2 ) =
P−1
(µ1 − µ2 ), dT x je nazývána Fisherova lineární diskriminační
funkce, která maximalizuje podíl mezi mezitřídní a vnitrotřídní variabilitou. Existuje mnoho postupů jak zvolit diskriminátory x, aby byly schopny dostatečně přesně zařadit objekty do tříd. Postup analýzy je shodný s regresí – nejprve jsou do modelu zahrnuty všechny diskriminátory, přičemž není známo, které budou účinně zařazovat objekty do tříd. Výsledkem DA je identifikace diskriminátorů, které účinně zařazují objekty do jednotlivých tříd. Mezi nejznámější z nich patří Wilkovo kritérium λ a Mahalanobisova vzdálenost. (McLACHLAN, 2004, s. 16–35)
4.3.1
Významnost modelu
Jak bylo uvedeno výše, existuje více postupů, kterými lze určit diskriminátory. Po zjištění, které diskriminátory jsou významné, lze určit i významnost modelu jako celku. Wilkovo kritérium λ Lze zapsat následujícím způsobem λ=
detW detW = , detT detW + B
(63)
kde W je matice vnitrotřídní variability a B je matice mezitřídní variability. V případě, že diskriminátor v diskriminační funkci má největší hodnotu tohoto kritéria, je zahrnut do modelu. Pomocí tohoto kritéria, které je vypočítáno za model jako celek, lze zjistit jaký poměr „variabilityÿ nebyl modelem vysvětlen. Kritérium F označuje významnost změny Wilkova kritéria, když je diskriminátor zahrnut do modelu, resp. odstraněn z modelu. Je přepočítán po každém zařazení, či vyřazení. n−r−k F = r−1
1−λk+1 λk λk+1 λk
!
,
(64)
kde n je celkový počet objektů, r je počet tříd, k je počet diskriminátorů, λk je Wilkovo kritérium λ před přidáním (odebráním) diskriminátoru a λk+1 je Wilkovo kritérium λ po přidání (odebrání) diskriminátoru. V případě, že je F –test statisticky významný (podle p–value, 40
nebo tabulkové hodnoty Fischer–Snedercova rozdělí o (n1 , n2 ) stupních volnosti), řekneme, že diskriminátor je důležitý. Mahalanobisova vzdálenost Mahalanobisova vzdálenost je hodnota standardní odchylky mezi hodnotou případu a tzv. „centroiduÿ, také označován jako těžiště, (analogie k průměrnému skóre) skupiny. Pro každou skupinu jsou vypočítány hodnoty a každý případ je přiřazen do skupiny, kde je vzdálenost 2 nejmenší. Tedy D1,2 je míra vzdálenosti mezi dvěma třídami 1 a 2. Čím je jeho hodnota
menší, tím je více zřejmé, že objekt do třídy patří. Je definována 2 D1,2 = (n − r)
k X k X
wij (ˆ xi1 − xˆi2 )(ˆ xj1 − xˆj2 ),
(65)
i=1 j=1
kde k je počet diskriminátorů v modelu, r je počet tříd, xˆi1 je průměr i–tého diskriminátoru ve třídě 1. Diskriminátor, který má nejmenší hodnotu Mahalanobisovy vzdálenosti, je zařazen do modelu. Počet odvozených modelů bude o jeden menší než je počet skupin. V případě dichotomické proměnné bude odvozen jeden model. Významnost modelu lze určit také z klasifikační tabulky správnosti zařazení. (McLACHLAN, 2004, s. 36–37)
4.4
Některé jiné metody
V této části budou popsány vybrané neparametrické metody, které lze použít pro tvorbu credit scoringových modelů. Jejich použití je méně časté, než výše uvedené parametrické metody. Neparametrické metody, na rozdíl od parametrických, mají málo, některé dokonce žádné, předpoklady. 4.4.1
Klasifikační stromy
Jedná se o grafický nástroj, umožňující zobrazit logický vývoj na sebe navazujících alternativních rozhodnutí. Má podobu stromu, kde „křížící se větveÿ (dále označeno „křižovatkyÿ) představují test na hodnotu atributu a „větveÿ vedoucí z těchto bodů jsou možné výsledky testu. „Listyÿ jsou ohodnoceny výsledky klasifikace. Rozhodovací proces začíná u kořene 41
stromu, pokračuje přes jednotlivé „křižovatkyÿ až po „listyÿ. V každé „křižovatceÿ je případ otestován a dále pokračuje po „větviÿ, která se shoduje s výsledkem testu. Když se případ dostane až k ˘listu je ohodnocen příslušnou hodnotou. Tato hodnota může být použita jako odhad nebo skóre, nebo jako nástroj zařazení do skupin. Data vstupující do této analýzy musí být diskrétní, jak vyplývá z výše uvedeného. RPA je základní technika, kterou je popsán způsob, jakým jsou vytvářeny jednotlivé „větveÿ. „Křižovatkyÿ je možné ohodnotit například pomocí Kolmogorov–Smirnova testu či Giniho indexu. Obecně klasifikační (také někdy nazývané rozhodovací) stromy nejsou vhodným nástrojem pro modelování předpovědí, ale v případě, že je při tvorbě scorecards k dispozici pouze malé množství dat, např. pro nový produkt, je tato metoda vhodná. (ANDERSON, 2007, s. 172–174) Obrázek 4.1: Příklad klasifikačního stromu
Zdroj: Anderson
4.4.2
Neuronové sítě
Lze je popsat jako sítě elementů, které mohou reagovat na vstupy a naučit se přizpůsobit se prostředí. Jsou schopné napodobit lidský mozek, zejména při organizování sebe sama nebo při učení. Oproti ostatním statistickým technikám, které předpokládají striktní dodržování předem stanovených pravidel a procedur, jsou neuronové sítě „učenyÿ opakujícími se případy. Výsledkem je obdoba klasifikačního stromu, ale mnohem detailnější a komplexnější. Neuronové sítě se skládají z umělých neuronů, jež jsou vytvořeny na základě biologických neuronů. Jsou vzájemně propojeny a předávají si signály, které transformují pomocí přenosových funkcí. Do neuronu může vstoupit neomezené množství vstupů, které jsou vyhodnoceny 42
na základě vnitřního vyučovacího systému, ale výstup je pouze jeden. Ten je pak dále předán dalšímu neuronu jako vstup. Existuje několik možností, jak neuronovou síť vytvořit. Nejvhodnějším z nich pro využití v credit scoringu je vícevrstvý perceptron neboli zpětná propagace. Jeho výhodou je použití dat, která jsou nelineární či vysoce korelovaná11 . Použití neuronových sítí v oblasti ekonomie není pouze pro credit scoring, kterým se zabývá tato práce, ale také je možné jejich použití pro hodnocení obligací nebo k cílenému marketingu. Také jsou využívány k analyzování transakcí s kreditními kartami, protože dokáží odhalit pravděpodobnost podvodu. (ANDERSON, 2007, s. 174–175)
Obrázek 4.2: Příklad neuronové sítě
Zdroj: Siganos, D. a Siganos, Ch.
4.4.3
Lineární programování
Lineární programování (dále jen LP) je technika pocházející z oblasti optimalizace. Obsahuje nástroje jako dynamické, integrované nebo nelineární programování. Cílem LP je najít extrém, maximum nebo minimum, lineární funkce více proměnných, při existenci vedlejších podmínek, které jsou vyjádřeny lineárními rovnicemi. Je to soubor metod využívajících lineární algebru. Nejprve je charakterizován problém, mezi jeho charakteristikami jsou odhaleny existující vazby, které jsou následně vymodelovány. Tato úloha je nejčastěji řešena Simplexovou metodou. Optimální řešení je takové, které maximalizuje účelovou funkci (lineární funkce 11
Tato analýza je však nad rámec diplomové práce, proto není více rozvedena. Více např. GURNEY, K.:
An introduction to neural networks.
43
sestavená z dostupných dat). Původním cílem LP byla pomoc manažerům při rozhodování s alokačními problémy. Tato metoda je extrémně efektivní při řešení problémů, které se vyskytují ve stabilním prostředí, proto se rozšířila do mnoha oborů. I přesto, že je technicky možné LP použít i v oblasti credit scoringu, děje se tak pouze zřídka, protože je zde velká náročnost na výpočetní techniku a není možné testovat statistickou významnost alokací. Z toho důvodu je tato metoda popsána velmi stručně.(ANDERSON, 2007, s. 177–178)
4.5
Porovnání metod
Srovnání metod, které vedou k výstavbě jednotlivých modelů bude provedeno pomocí ROC křivky, z níž lze odvodit Gini index, který popisuje kvalitu diskriminační a regresní funkce. Jak uvádí FAWCETT, 2005, s. 8, lze je vypočítat pomocí vztahu Gini + 1 = 2 × AU C,
(66)
Gini = 2 × AU C − 1,
(67)
potom
kde AU C(area under curve) je hodnota pod křivkou ROC. Index nabývá hodnoty mezi 0 a 1, čím více se jeho hodnota blíží k 1, tím diskriminační funkce lépe odděluje špatné klienty od dobrých. Interpretace ROC křivky je taková, že v případě, že úvěr bude poskytnut určitému procentu dobrých klientů, bude poskytnut procentu odpovídajícímu dobrým klientům, špatných klientů. Nejlepším modelem označíme ten, který při poskytnutí konkrétnímu procentu dobrých klientů, bude mít za důsledek poskytnutí úvěru nejmenšímu procentu špatných klientů. (ŘEZÁČ, F., ŘEZÁČ, M., s. 4).
44
Obrázek 4.3: Příklad tvaru ROC křivky
Zdroj: Sprawls
Další možností, jak uvedené metody porovnat je na základě klasifikační tabulky a s ní spojenými chybami I. a II. druhu. V případě, že na základě vypočítané pravděpodobnosti očekáváme, že klient úvěr nesplatil, ale ve skutečnosti jej splatil, nazveme tuto skutečnost chybou I. druhu. Pokud očekáváme, že klient úvěr splatil, ale on jej ve skutečnosti nesplatí, označíme tuto možnost za chybu II. druhu. Banka, nebo jiná instituce poskytující úvěry se podle chyb I. a II. druhu rozhodne, zda–li je pro ni nižší riziko plynoucí z nesplacení úvěru nebo riziko ztráty zisku. (ANDERSON, 2007. s. 190–191)
45
5
Vlastní práce
Následující kapitola má za cíl nalézt nejvhodnější model pro sadu reálných dat, která jsou publikována Univerzitou v Mnichově. Datový soubor obsahuje údaje o 1 000 klientech nejmenované jihoněmecké banky z nichž 300 klientů úvěr nesplatila a 700 klientů úvěr i úroky splatili. Tato data jsou univerzitou již upravena a jsou popsána dále. Bohužel i přes veškerou mou snahu získat obdobná data od některé z českých bank, nebyla mi data z důvodu existence zákona č. 21/1992 Sb. o bankách v § 38 o bankovním tajemství poskytnuta (Ministerstvo vnitra ČR, 30.4.2010)12 . Každá proměnná je charakterizována typem proměnné (ordinální13 , kardinální14 , nominální15 ), je uvedena její stručná charakteristika, v tabulce jsou uvedeny hodnoty, jichž daná proměnná nabývá. Grafické znázornění datového souboru je v příloze A. Y je vysvětlovaná (závisle) proměnná, která je dichotomická – nabývá pouze dvou hodnot uvedených v tabulce 5. 1. Tabulka 5. 1: Důvěryhodnost klienta Y KREDIT
Hodnota
Úvěr nesplacen
0
Úvěr splacen
1
Zdroj: Univerzita München
X1 je ordinální proměnná, která vyjadřuje, zda–li má klient v dané bance založený účet a v případě, že účet založený má, jaká je výše zůstatku. Čím vyšší zůstatek na účtě má, tím je pro banku méně rizikovým klientem. 12 13
Viz: http://portal.gov.cz/wps/portal/ s.155/701?kam=zakon&c=21/1992 Proměnné v ordinální škále jsou seřazené do tříd. Je možné určit, která třída je větší, resp. menší a také
můžeme kvantifikovat rozdíl, např. žebříček umístění. 14 Proměnné v kardinální škále jsou buď intervalové – pro dvě hodnoty proměnné můžeme vypočítat o kolik je jedna větší, resp. menší než druhá, nebo poměrové – pro dvě hodnoty proměnné můžeme vypočítat kolikrát je jedna větší, resp. menší než druhá. 15 Proměnné v nominální škále jsou nejméně informativní. Můžeme určit pouze rovnost nebo různost tříd. Obsahují např. rodinný stav (svobodný 1, ženatý 2, rozvedený 3,vdovec 4).
46
Tabulka 5. 2: Stav současného účtu Hodnota
X1 UCET
Název dummy
Nemá účet
1
nema
Účet v debetu nebo 0 peněžních prostředků
2
debet
0–200 DM
3
do200
4
od200
201 DM a více
Zdroj: Univerzita München
X2 je kardinální proměnná. Pro věřitele je důležitá znalost délky splatnosti úvěru, zejména pokud model potvrdí, že například úvěry s dobou splatnosti delší než 49 měsíců mají nízkou pravděpodobnost splácení. Poskytovatel úvěru se pak může rozhodnout, že úvěry s touto dobou splatnosti bude poskytovat s vyšším úrokem. X3 je nominální proměnná. Banku či jinou instituci poskytující úvěry zajímá, jakou měl klient platební morálku v případě splácení předchozích úvěrů.
Tabulka 5. 3: Platební morálka u předchozích úvěrů X3 MORAL
Hodnota
Název dummy
Problémy s placením předchozích úvěrů
0
problemplat
Problém s vedením účtu/další splatné úvěry u jiných bank
1
problemved
Neměl předchozí úvěr/všechny předchozí úvěry splaceny
2
nesplacel
Žádné problémy se současnými úvěry v této bance
3
noproblem
Splacené předchozí úvěry v této bance
4
splaceno
Zdroj: Univerzita München
47
X4 je nominální proměnná zachycující účel poskytnutého úvěru.
X4 UCEL
Tabulka 5. 4: Účel úvěru Hodnota Název dummy
Ostatní
1
ostatni
Nové auto
2
noveauto
Ojeté auto
3
ojeteauto
Nábytek
4
nabytek
Rádio/televize
5
radio
Domácí spotřebiče
6
spotreb
Opravy
7
opravy
Vzdělání
8
vzdelan
Dovolená
9
dovolena
Rekvalifikace
10
rekvalif
Podnikání
11
podnikani
Zdroj: Univerzita München
X5 je kardinální proměnná. Od požadované výše úvěru se odvíjí výše měsíční splátky. Pro instituci poskytující úvěry je tedy jednou z nejvýznamnějších veličin. X6 je ordinální veličina. Předpokladem je, že pokud má klient vyšší úspory nebo drží cenné papíry, bude schopen v budoucnu pokrýt vypočítané splátky.
Tabulka 5. 5: Výše úspor a/nebo cenných papírů (v DM) X6 USPORY
Hodnota
Název dummy
Žádné/nezjištěno
1
zadne
1–100
2
do100
101–500
3
do500
501–1 000
4
do1000
1 001 a více
5
od 1000
Zdroj: Univerzita München
48
X7 je ordinální proměnná, která zachycuje, jak dlouho pracuje klient v současném zaměstnání. Délka zaměstnání vypovídá o tom, že pokud je klient schopen si práci udržet, bude mít stále příjem a tedy bude schopen úvěr splácet. Tabulka 5. 6: Počet let v současném zaměstnání X7 LZAM Hodnota Název dummy Nezaměstnaný
1
nezam
Méně než 1 rok
2
zam1
1–4 roky
3
zam4
5–7 let
4
zam7
8 let a více
5
zam8
Zdroj: Univerzita München
X8 je ordinální proměnná. Čím vyšší je poměr splátky k příjmu, tím je možné očekávat vyšší pravděpodobnost nesplácení úvěru. Tabulka 5. 7: Poměr splátky k příjmu (v %) X1 POMER
Hodnota
Název dummy
36 a více
1
pomer36
26–35
2
pomer25
20–25
3
pomer20
Méně než 20
4
pomerdo20
Zdroj: Univerzita München
X9 je nominální veličina, která zachycuje pohlaví a stav klientů, protože i tento faktor může ovlivnit platební disciplínu. Tabulka 5. 8: Pohlaví a rodinný stav X9 STAV
Hodnota
Muž: rozvedený/žijící odděleně
Název dummy
1
rozvedeny
2
rozvedena
Muž: ženatý/vdovec
3
zenaty
Žena: svobodná
4
svobodna
Muž: rozvedený/žijící odděleně Žena: rozvedená/vdaná/žijící odděleně
Zdroj: Univerzita München
49
X10 je nominální proměnná. Předpokladem je, že v případě, že klient má ručitele za svůj úvěr, bance hrozí menší riziko nesplacení úvěru.
Tabulka 5. 9: Způsob zajištění úvěru X10 ZAJIST
Hodnota
Název dummy
Žádný
1
zadnyzjist
Spolužadatel o úvěr
2
spoluzadatel
Ručitel
3
rucitel
Zdroj: Univerzita München
X11 je ordinální proměnná. Z tabulky 5. 10 vyplývá, že lidé, kteří často mění bydliště, mají problémy se splácením úvěru.
Tabulka 5. 10: Počet let strávených v současné domácnosti X11 LBYT
Hodnota
Název dummy
Méně než 1 rok
1
bytdo1rok
1–4 roky
2
bytdo4rok
5–7 let
3
bytdo7rok
4
bytnad8rok
8 a více let
Zdroj: Univerzita München
X12 je nominální proměnná. V případě, že klient vlastní aktivum, je schopen jej v případě nesplácení prodat, aby mohl dostát svým závazkům.
Tabulka 5. 11: Nejhodnotnější typ aktiva, který je v současné době vlastněn X12 AKTIVA
Hodnota
Název dummy
Nezjištěno/aktiva nevlastněny
1
bezaktiv
Automobil/jiné aktiva
2
aktivauto
Stavební spoření/životní pojištění
3
aktivspor
Nemovitost
4
aktivnemovitost
Zdroj: Univerzita München
50
X13 je kardinální proměnná. Pro instituci poskytující úvěry je důležité, aby věděli, zda–li splácení úvěru bude záviset na věku žadatele. X14 je nominální proměnná. Pro instituci poskytující úvěry je důležitá znalost informace o jiných, dosud nesplacených úvěrech v ostatních institucích.
Tabulka 5. 12: Další dosud nesplacené úvěry X14 DUVERY
Hodnota
V jiných bankách
1
uverbanky
V obchodech
2
uverobchod
Žádné
3
uvernic
Název dummy
Zdroj: Univerzita München
X15 je nominální proměnná. Vypovídá o tom, zda–li je klient vlastníkem bytu či domu.
Tabulka 5. 13: Typ bydlení X15 BYT
Hodnota
Název dummy
Neplatí za bydlení (byt zdarma)
1
najemnic
Pronajatý byt
2
najem
Byt v osobním vlastnictví
3
vlastnikbytu
Zdroj: Univerzita München
X16 je ordinální proměnná. Klient, který už od banky někdy v minulosti úvěr získal a splatil, má větší pravděpodobnost, že úvěr získá znovu.
Tabulka 5. 14: Počet předchozích, i dosud nesplacených úvěrů v této bance X16 PRUVER
Hodnota
Název dummy
1
1
uver1
2–3
2
uver3
4–5
3
uver5
6 a více
4
uver6
Zdroj: Univerzita München
51
X17 je nominální proměnná. Věřitel si pomocí této proměnné ověří způsobilost klienta úvěr splácet. V případě, že je žadatel o úvěr nezaměstnaný, je zde velká míra rizika nesplacení úvěru.
Tabulka 5. 15: Typ zaměstnání X17 ZAM
Hodnota
Název dummy
Nezaměstnaný
1
nozam
Nevyučený – nekvalifikovaný pracovník
2
nekvalifik
Kvalifikovaný pracovník/zaměstnanec/nižší státní úředník
3
kvalifik
Vedoucí pracovník/podnikatel/vyšší státní úředník
4
vedouci
Zdroj: Univerzita München
X18 je ordinální proměnná, která zohledňuje počet osob, které se dělí o příjem domácnosti.
Tabulka 5. 16: Počet dalších osob žijících ve společné domácnosti X18 OSOBY
Hodnota
Název dummy
3 a více
1
osob3
0–2
2
osob2
Zdroj: Univerzita München
X19 je nominální proměnná, u které předpokládáme, že vlastnictví mobilního telefonu zvyšuje dostupnost klienta.
Tabulka 5. 17: Majitel mobilního telefonu X19 MOBIL
Hodnota
Název dummy
Ne
1
mobilne
Ano
2
mobilano
Zdroj: Univerzita München
X20 je nominální veličina. Předpokládáme, že v případě, že se cizinec přestěhuje zpátky do své domovské země, bude obtížnější vymáhat pohledávku, ve formě nesplaceného úvěru.
52
Tabulka 5. 18: Klient je cizincem žijícím a pracujícím na daném území X20 CIZINEC
Hodnota
Ano Ne
Název dummy
1
cizinecano
2
cizinecne
Zdroj: Univerzita München
Dříve než přistoupíme k výpočtům pomocí metod popsaných v teoretické části, je nutné upravit vstupní data. Nejprve jednotlivé kategoriální proměnné přetransformuji na dummy proměnné, aby nedocházelo ke zkreslení výsledků. Dále bude datový soubor nezávislých proměnných (který obsahuje dummy proměnné vytvořené z kategoriálních proměnných) otestován na přítomnost multikolinearity. Multikolinearitu detekujeme pomocí VIF statistik tak, že ve statistickém softwaru vygenerujeme inverzní korelační matici, která na diagonále obsahuje právě tyto statistiky. Pokud jejich hodnota přesáhne 10, potom detekujeme multikolinearitu. V takovém případě není možné tyto proměnné do modelu zahrnout. Výše uvedeným postupem bylo zjištěno, že VIF≥10 se vyskytují u proměnných ostatní, ojeteauto, nabytek, uver1 a uver3, tyto proměnné do vytvářených modelů nebudou zahrnuty. Protože je závisle proměnná dichotomická, nemá tedy normální rozdělení, ale binomické, zapíšeme Yi (n, p), kde n je počet pokusů a p je pravděpodobnost daného jevu. Potom i εi bude mít binomické rozdělení se střední hodnotou E(εi ) = np a rozptylem var(εi ) = np(1 − p), kde i = 1, 2, . . . , n). Avšak jak uvádí Majorová, předpoklady regrese jsou předpoklady klasické statistiky a protože ekonomická data nejsou generovány kontrolovaným experimentem, nemusí být tyto předpoklady vždy v ekonometrických modelech splněny.
5.1
Lineární regrese
Protože je vysvětlovaná veličina dichotomická, použiji lineární regresi, kde budou odhady vypočítány zobecněnou metodou nejmenších čtverců. Nejprve bylo nutné vypočítat podle vzorce váhy k jednotlivým případům. Toho jsem docílila pomocí MS Exel. Poté byla vypočítána samotná regrese, kdy do modelu byly zahrnuty všechny proměnné, které byly postupně vyřazovány podle jejich statistické významnosti až zůstaly pouze proměnné, jejichž t statis53
tika byla významná na 95% hladině významnosti. V tabulce 5. 19 vidíme, že hodnota korigovaného indexu determinace je 0, 227, tedy modelem je vysvětleno pouze 22,7% „variabilityÿ závisle proměnné. Tabulka 5. 19: Hodnocení modelu
Výpočet: vlastní
Z údajů v následující tabulce 5. 20 můžeme říct, že je vytvořený model statisticky významný, protože hodnota F –testu je 17, 28 a je významný na 95% hladině významnosti. Tabulka 5. 20: ANOVA
Výpočet: vlastní
Tabulka 5. 21: Rezidua
Výpočet: vlastní
Pro možnost srovnání s metodou logistické regrese bylo spočítáno Akaikeho kritérium, jehož hodnota je 807, 0103. Odhady parametrů jednotlivých proměnných včetně jejich intervalů spolehlivosti jsou uvedeny v příloze C v tabulce C 1, ze které vyplývá tvar regresní funkce.
Yˆ = 1, 253 − 0, 284U CET (nema) − 0, 199U CET (debet) − 0, 253M ORAL(problemplat)− 54
−0, 286M ORAL(problemved) − 0, 077M ORAL(splacel) + 0, 153U CEL(noveauto)− −0, 137U CEL(opravy) − 0, 098ZAM (zadne) + 0, 083ZAM (zam7)+ +0, 093P OM ER(pomer36) + 0, 069P OM ER(pomer25) + 0, 063ST AV (zenaty)− −0, 192ZAJIST (zadnyzajist) − 0, 253ZAJIST (spoluzadatel) − 0, 059LBY T (bytdo4rok)− −0, 08BY T (najemnic) − 0, 0000161CAST KA − 0, 005DELKA
Nyní koeficienty interpretujeme. Koeficient u spojité proměnné DELKA, jehož hodnota je −0, 004 nám říká, že v případě, kdy se zvýší o jeden měsíc délka poskytnutí úvěru, pravděpodobnost splacení úvěru poskytnutého za takových podmínek klesne o 0, 004, tedy o 0, 4%. Chceme–li interpretovat dummy proměnné, musíme tyto interpretace vztahovat k referenční kategorii. V případě kategoriální proměnné M ORAL, která byla rozdělena na dummy proměnné nazvané nema, debet, do200 a proměnná od200 byla zvolena za referenční kategorii. Z výše uvedené lineární regresní funkce můžeme říct, pokud bude osoba zařazena do kategorie osob, kteří nemají účet u dané banky, bude pravděpodobnost splacení úvěru o 0,284 než v případě osoby, která by měla na účtě více než 200 DM. Klient mající účet v debetu splatí poskytnutý úvěr s pravděpodobností o 0,199 menší než klient mající na účtě více než 200 DM. Z funkce také vyplývá, že v případě, kdy klientův účet obsahuje částku od 0 do 200 DM, nemá to žádný vliv na splacení nebo nesplacení úvěru. Největší negativní vliv na závisle proměnnou má dummy proměnná problemved. Nejvíce snižuje pravděpodobnost splacení úvěru, naopak proměnná, která nejvíce zvyšuje pravděpodobnost splacení úvěru je noveauto. Na základě odhadnutých pravděpodobností byla spočítána klasifikační tabulka. Bohužel výstupy z používaných softwarů nenabízí výstup v podobě přehledné klasifikační tabulky, ale pouze odhadnuté pravděpodobnosti jednotlivých případů. Tabulka 5. 22 byla vytvořena pomocí MS Excel a klasifikace probíhala stejně jako u logistické regrese a diskriminační analýzy, kdy je zpracována přímo statistickým softwarem, tedy pokud byl úvěr splacen, byly do této kategorie správně zařazeny případy, jejichž pravděpodobnost byla ≥ 0, 5, pokud byla nižší než 0, 5 byly tyto případy označeny za špatně zařazené do kategorie splacených
55
úvěrů. U nesplacených úvěrů se postupovalo analogicky. Vidíme, že model vytvořený metodou lineární regrese dokázal správně zařadit 77, 2% případů. Tabulka 5. 22: Klasifikační tabulka Odhadnuté Pozorované
Kredit
Celkem
0
1
0
133
167
300
1
61
639
700
Celkem
772
0
44,3%
55,7%
100%
1
8,7%
91,3%
100%
Celkem
77,2% Výpočet: vlastní
Následující graf 5. 1 zobrazuje ROC křivku, hodnota pod křivkou neboli AUC=0, 808, potom je hodnota Gini indexu 0, 616. Z grafu vyplývá, že pokud poskytneme úvěr například 60% dobrých klientům, zároveň jej poskytneme i zhruba 15% špatných klientů.
Graf 5. 1: ROC křivka pro lineární regresi
Výpočet: vlastní
56
5.2
Logistická regrese
Použijeme binomickou logistickou regresi, protože závislá veličina Y je dichotomická. Nejprve byly do analýzy zahrnuty veškeré proměnné definované v základním datovém souboru, které byly od nejméně statisticky významné proměnné postupně vyřazovány. Po každém vyřazení následovalo přepočítání logistické regrese. Omnibus test je používán k ověření hypotézy H0 : β0 = β1 = β2 = . . . = βk = 0 proti alternativě β0 6= β1 6= β2 6= . . . 6= βk 6= 0. Dosažená významnost v modelu obsahujícím významné proměnné je, jak uvádí tabulka 0, 000 při 18 stupních volnosti. Zamítáme tedy hypotézu H0 , informace obsažené v jednotlivých nezávislých veličinách, umožňují lepší predikci závisle proměnné. Tabulka 5. 23: Omnibus test
Výpočet: vlastní
Následující tabulka 5. 24 obsahuje hodnoty Cox&Snell R2 a Nagelkerke R2 . Protože první jmenovaný R2 nedosahuje maximální hodnoty 1, bude interpretován pouze druhý uvedený koeficient. V našem příkladě můžeme říct, že model vystihuje 33,8% „variability16 ÿ závisle proměnné. Porovnáme–li hodnoty -2LL v modelu obsahujícm pouze konstantu a v modelu s významnými veličinami, řekneme, že zahrnutí proměnných do modelu zlepšuje predikování nezávisle proměnné, protože hodnota se snížila z 1 221,729 v modelu s konstantou na 949,205 v modelu s proměnnými. Model obsahující proměnné je statisticky významný.
16
Variabilita v logistickém regesním modelu musí být vysvětlena jinak než v modelu klasické lineární
regrese, protože závisle proměnná nabývá pouze dvou hodnot.
57
Tabulka 5. 24: „Variabilitaÿ závisle proměnné
Výpočet: vlastní
Tabulka 5. 25: -2LL k určení významnosti modelu
Výpočet: vlastní
Test dobré shody v podobě Hosmer a Lemeshowova testu (dále jen H–L test) je vhodný v případě, kdy máme velký počet dat. Tato podmínka je v našem případě splněna, protože datový soubor obsahuje 1 000 klientů. Testujeme hypotézu H0 : βk = 0 proti alternativě H1 : βk 6= 0. V případě dat použitých v této analýze je možné spolehlivě interpretovat H–L test, protože jak vyplývá z tabulky 5. 27, ani jedna z očekávaných četností není menší než jedna a pouze jedna je menší než 5. Z výsledku testu, jež jsou v tabulce 5. 26 vyplývá, že nulovou hypotézu nezamítáme, tedy mezi pozorovanými a predikovanými hodnotami není žádný rozdíl. Model obsahuje data na akceptovatelné úrovni. Tabulka 5. 26: Hosmer a Lemeshowův test
Výpočet: vlastní
58
Tabulka 5. 27: Tabulka četností pro H–L test
Výpočet: vlastní
Dobrou diskriminační sílu modelu zjistíme z klasifikační tabulky 5. 28. Do kategorie závisle proměnné nedůvěryhodný klient bylo zařazeno správně pouze 49,3% případů, do důvěryhodných klientů bylo správně zařazeno 90,3% případů. Celkově model dokázal správně zařadit 78% případů na 95% hladině významnosti. Tabulka 5. 28: Kontingenční tabulka správnosti zařazení
Výpočet: vlastní
Proměnné byly postupně vyřazovány, až zůstaly v modelu pouze proměnné, které jsou statisticky významné na 95% hladině významnosti, to znamená, že mají vliv na predikci či vysvětlení závisle proměnné. Následující tabulka 5. 29 obsahuje odhadnuté koeficienty B, které ovlivňují změnu logitu, exp(B) pomocí, kterého určíme šance, jednotlivým odhadům koeficientů je vypočítán i jejich intervalový odhad.
59
Tabulka 5. 29: Významnost regresních koeficientů
Výpočet: vlastní
Finální model obsahující pouze statisticky významné proměnné má podobu:
logit(KREDIT ) = 5, 671 − 1, 642U CET (nema) − 1, 220U CET (debet)− −1, 229M ORAL(problemplat) − 1, 529M ORAL(problemved) − 0, 480M ORAL(splacel)+ +1, 224U CEL(noveauto) − 0, 907U SP ORY (zadne) − 0, 738U SP ORY (do100)+ +0, 681LZAM (zam7) + 0, 662P OM ER(pomer36) + 0, 507P OM ER(pomer25)+ +0, 379ST AV (zenaty) − 1, 128ZAJIST (zadnyzajist) − 1, 360ZAJIST (spoluzadatel)− −0, 475BY T (najemnic)−1, 277CIZIN EC(cizinecano)+0, 000CAST KA−0, 030DELKA.
Protože z výše uvedené rovnice je možné interpretovat pouze změnu logitu, což nemusí být příliš srozumitelné, je výhodnější si rovnici zapsat jako šance, tedy pomocí exponovaných odhadnutých koeficientů.
1 KREDIT =1 ) = P ( převaha šance(KREDIT = 1) = P ( KREDIT =0 převaha 0 ) = 290,191 + +0, 194U CET (nema) + 0, 295U CET (debet) + 0, 293M ORAL(problemplat)+ 60
+0, 217M ORAL(problemved) + 0, 619M ORAL(splacel) + 3, 401U CEL(noveauto)+ +0, 404U SP ORY (zadne) + 0, 478U SP ORY (do100) + 1, 975LZAM (zam7)+ +1,939 POMER(pomer36)+ 1,661 POMER(pomer25) +1,461 STAV(zenaty)+ +0, 324ZAJIST (zadnyzajist) + 0, 257ZAJIST (spoluzadatel) + 0, 622BY T (najemnic)+ +0, 279CIZIN EC(cizinecano) + 1, 000CAST KA + 0, 954DELKA.
Nyní budou vybrané odhady koeficientů interpretovány. Spojitá veličina se v modelu vyskytuje v podobě proměnné DELKA a CAST KA. V případě, že se proměnná DELKA změní o jednotku (o jeden rok) a ostatní nezávisle proměnné se nezmění, potom se logit změní o −0, 030. Je patrné, že tato interpretace není příliš výstižná, proto budeme interpretovat exponovaný koeficient, který říká, že v případě, kdy se změní hodnota DELKA o jednotku při neměnných hodnotách ostatních nezávislých proměnných, násobek, o který se změní šance, že bude úvěr splacen je 0,954. Jinými slovy šance převahy, že úvěr bude splacen se nepatrně zmenší. Tedy s růstem věku klesá šance, že úvěr bude klientem splacen. Při interpretaci nominálních a ordinálních veličin vztahujeme šance k referenčním kategoriím (těm, které do modelu nevstoupily). Interpretujeme proměnnou M ORAL, kde byla referenční skupinou podkategorie splacené předchozí úvěry v této bance. Koeficient −1, 229 u M ORAL(problemplat) představuje změnu logitu, když porovnáme problémy s placením předchozích úvěrů se splacenými předchozími úvěry v této bance, koeficient −1, 529 u M ORAL(problemved) představuje změnu logitu, když porovnáme problémy s vedením účtu se splacenými předchozími v této úvěry a koeficient −0, 480 u M ORAL(splacel) představuje změnu logitu, když porovnáme všechny úvěry splaceny se splacenými předchozími úvěry v této bance, za předpokladu, že se hodnoty ostatních nezávislých proměnných nemění. Hodnoty všech tří koeficientů jsou záporné, což znamená, že vztaženo ke splaceným předchozím úvěrům v této bance, problém s placením předchozích úvěrů, problém s vedením účtu a všechny úvěry splaceny jsou spojeny s poklesem logitu převahy klientem nesplaceného úvěru. Z hodnot koeficientů lze usoudit, že problém s vedením účtu snižuje logit více než problém s placením předchozích úvěrů a všechny úvěry splaceny. Opět je mnohem výstižnější interpretovat koeficienty šancemi. V případě proměnné M ORAL(problemplat) je 61
hodnota jeho exponovaného koeficientu 0, 293. Tato hodnota vyjadřuje poměr šancí převahy nesplaceného úvěru pro problémy s placením předchozích úvěrů vzhledem ke všem splaceným úvěrům, za předpokladu neměnných hodnot ostatních nezávislých proměnných. To znamená, že šance, že je úvěr klientem splacen je 0, 293 krát menší u respondentů, kteří měli problémy s placením předchozích úvěrů než u klientů, kteří všechny předchozí úvěry v této splatili. Analogicky, šance, že je úvěr splacen je 0, 217 krát menší u klientů, kteří měli problém s vedením účtu než u klientů, kteří všechny předchozí úvěry v této bance splatili a 0, 619 krát menší u klientů, kteří předchozí úvěry splatili než u klientů, kteří splatili všechny předchozí úvěry v této bance. Nejpřekvapivější je z ekonomického hlediska interpretace proměnné M ORAL(splaceno), exp(B) kde je pravděpodobnost, že úvěr nebyl splacen o 38% ( 1+exp(B) =
0,619 1+0,619
= 0, 382) vyšší
u klientů, kteří splatili předchozí úvěry než u klientů, kteří splatili všechny předchozí úvěry u této banky. Protože tato podkategorie obsahovala kromě splacených předchozích úvěrů i možnost, že klient úvěr nikdy neměl, domnívám se tedy, že velká část klientů, která ve své žádosti o úvěr uvedla, že patří do této kategorie, spíše uvěr dříve neměla. Proto v případě, kdy jim byl úvěr poskytnut, měli problémy se splácením. Pokud by se pomocí této analýzy vytvářela skórovací karta, doporučila bych bance, aby tuto kategorii neohodnotila vyšším počtem bodů, přestože název splacené předchozí úvěry napovídá, že klient v minulosti neměl se splácením úvěrů problémy a tedy, že by měl v procesu scorecard získat vysoký počet bodů. Ostatní proměnné se interpretují analogicky podle výše uvedeného postupu. a protože je tato diplomová práce zaměřena na porovnání metod, které vedou k tvorbě scoringových modelů a nikoliv na detailní analýzu jednotlivých modelů, nebudou zde zbylé koeficienty důkladně rozebrány. Hodnota AU C je 0, 809, potom Gini = 0, 618. Graf 3 ukazuje, že v případy, kdy je poskytnut úvěr například 80% dobrých klientů, je zároveň poskytnut i 35% špatných klientů.
62
Graf 5. 2: ROC křivka logistické regrese
Výpočet: vlastní
5.3
Diskriminační analýza
Byla použita lineární diskriminační analýza. Nejprve byly do modelu zahrnuty všechny proměnné, kromě těch, které vykazovaly multikolinearitu, poté byly proměnné postupně vyřazovány a model byl po každém vyřazení znovu přepočítán. Nyní interpretujeme výsledky u finálního modelu. Následující tabulka 5. 30 poskytuje poskytuje silný statistický důkaz významnosti rozdílů mezi průměry skupin splacených a nesplacených úvěrů pro všechny zahrnuté nezávisle proměnné. Je tedy možné je do modelu zařadit.
63
Tabulka 5. 30: Test rovnosti průměrů
Výpočet: vlastní
Základním předpokladem DA je rovnost kovariančních matic. Box’s M test ověřuje hypotézu H0 : že se kovarianční matice neodlišují mezi skupinami vytvořenými ze závisle proměnné. Log determinanty by měly být shodné. V našem příkladě však shodné nejsou, jak vidíme v tabulce 5. 31, ale příliš se neodlišují, avšak, jak vyplývá z tabulky 5. 32, hodnota F v Box’s M testu je 2, 202, která je statisticky významná s hodnotou p–value 0, 000. To znamená, že kovarianční matice skupin se neodlišují. Podle Huberta a Olejnika (2006, s. 30) není nutné brát ohled na významnost tohoto testu v případě, že máme velký vzorek dat, v našem případě je 1 000 klientů dostatečně velkým vzorkem. Tabulka 5. 31: Log determinanty
Výpočet: vlastní
Tabulka 5. 32: Shoda kovariančních matic skupin
Výpočet: vlastní
64
Tabulka 5. 33 poskytuje informace o diskriminační funkci. Protože máme dvě skupiny vytvořené ze závisle proměnné, diskriminační funkce je jenom jedna. Kanoická korelace je vícenásobná korelace mezi diskriminátory a diskriminační funkcí, pouze 22, 5% „variabilityÿ proměnné rozdělené do skupin je modelem vysvětleno. Tabulka 5. 33: „Variabilitaÿ
Výpočet: vlastní
Wilkovo kritérium λ indikuje významnost diskriminační funkce. Z tabulky 5. 34 vyplývá, že diskriminační funkce je vysoce významná, avšak modelem není vysvětleno 77, 5% „variabilityÿ, je to inverze ke kánoické korelaci. Tabulka 5. 34: Významnost modelu
Výpočet: vlastní
Tabulka 5. 35: Koeficienty kanoické diskriminační funkce
Výpočet: vlastní
65
Výše uvedená tabulka 5. 35 znázorňuje nestandardizované koeficienty, které tvoří diskriminační funkci spolu s jednotlivými nezávisle proměnnými. Koeficienty znázorňují příspěvek k diskriminační funkci jednotlivých proměnných. Tato rovnice bude mít podobu D = −1, 832 + 1, 482U CET (nema) + 0, 998U CET (debet) + 1, 023M ORAL(problemplat)+ +1, 143M ORAL(problemved) − 0, 994U CEL(noveauto) + 0, 480U SP ORY (zadne)− −0, 492LZAM (zam7) − 0, 354ST AV (zenaty) − 352AKT IV A(bezaktiv) − 0, 404BY T (najem)+ +0781CIZIN EC(cizinecano) + 0, 031DELKA + 0, 0001CAST KA
Na základě nestandardizovaných koeficientů tedy zjistíme, jak jednotlivé proměnné ovlivňují závisle proměnnou. Pomocí standardizovaných koeficientů můžeme určit vypovídající váhu jednotlivých znaků. Čili jaký je význam proměnné pro rozdělení do jednotlivých skupin. Tyto koeficienty jsou „očištěnyÿ o informace, které jsou obsaženy i v dalších nezávisle proměnných. Nejvyšší kladné hodnoty 0, 642 nabývá proměnná nema, tedy tato proměnná dokáže nejvíce rozlišit klienty, kteří úvěr nesplatí. Proměnná noveauto s hodnotou −0, 301 na druhou stranu nejvíce rozlišuje klienty, kteří úvěr splatili. Dalším způsobem, kterým lze zjistit relativní důležitost diskriminátorů je ze strukturní matice, která obsahuje korelace jednotlivých proměnných s diskriminační funkcí. Protože nejvyšší hodnoty (jak kladné, tak i záporné) jsou u proměnných nema a novauto, můžeme tedy říct, že tyto dvě proměnné nejvíce diskriminují splacené a nesplacené úvěry. Obecně lze říct, že hodnoty vyšší než 0, 3 označují důležitější diskriminátory. Diskriminátor s nejnižší hodnotou zam7 naznačuje, že klienta, který má současné zaměstnání 5–7 let, nemá spojitost s faktem, zda–li byl úvěr splacen či nikoliv a spíše je funkcí ostatních nezávislých proměnných.
66
Tabulka 5. 36: Strukturní matice
Výpočet: vlastní
V případě, kdy do diskriminační funkce dosadíme konkrétní hodnoty o klientovi, porovnáme získanou hodnotu s hodnotami v tabulce 5. 37, která obsahuje průměry ve skupinách. Nový případ zařadíme do skupiny, jejíž hodnota je bližší vypočítané. Hranici mezi oběma skupinami lze určit jako jejich součet vydělený dvěma, tedy (0, 822 − 0, 352)/2 = 0, 235. V případě, že hodnota D ≥ 0, 235 zařadíme případ do skupiny úvěrů, které nebudou splaceny, pokud bude D < 0, 235 žadateli bude úvěr poskytnut, protože v jeho případě bude úvěr splacen. Tabulka 5. 37: Funkce v „centroidechÿ skupin
Výpočet: vlastní
Klasifikační tabulka, obsahující v řádcích pozorované kategorie závisle proměnné a ve sloupcích predikce skupin, kam budou jednotlivé případy zařazeny. Procenta na diagonále znázorňují správně zařazené případy, tedy 72, 7% nesplacených úvěrů a 73, 6% splacených úvěrů bylo zařazeno správně. Celkově je správnost zařazení 73, 3%. Část tabulky nazvaná 67
cross–validated dává přesnější údaje o správnosti zařazení, protože při tvorbě modelu je datový soubor rozdělen na dvě přibližně stejně velké části. První část vytvoří model, za předpokladu, že zná zařazení jednotlivých případů a druhá část dat je potom do tohoto modelu vložena, aníž by byly známy výsledky zařazení, a jsou roztříděny do jednotlivých skupin. Proto je v případě cross–validated nižší procento správně zařazených případů. V našem příkladě bylo správně zařazeno 72, 6% všech úvěrů, z toho 71, 7% nesplacených a 73% splacených úvěrů. Tabulka 5. 38: Klasifikační tabulka
Výpočet: vlastní
Na základě hodnoty AU C = 0, 796 byl vypočítán Gini index, jež má hodnotu 0, 592. Na základě ROC křivky můžeme říct, že v případě, kdy bude poskytnut úvěr například 60% dobrých klientů, bude zároveň úvěr poskytnut téměř 20% špatných klientů.
68
Graf 5. 3: ROC křivka diskriminační analýzy
Výpočet: vlastní
Statistika roztřídění prvních deseti případů i s jednotlivými skóre je uvedena v příloze D.
69
6
Diskuze
Pro tuto část si definujeme vzorového žadatele o úvěr u jihoněmecké banky a podle výsledků jednotlivých modelů zjistíme, s jakou pravděpodobností úvěr splatí, nebo do které skupiny (splatí, nesplatí úvěr) bude žadatel o úvěr zařazen. Fiktivním žadatelem je 30–ti letá svobodná, rozená Němka17 , která požaduje úvěr ve 1 000 DM na nové auto, v délce splatnosti 24 měsíců. Do této banky přišla poprvé, nemá u ní tedy založený účet, o úvěr ještě nikdy nežádala. Výše jejich úspor je 80 DM. Pracuje na vedoucí pozici již šestým rokem, poměr splátky k jejímu příjmu by byl menší než 20%. Není schopná zařídit zajištění úvěru, avšak je vlastníkem bytu. Tabulka 6. 1: Fiktivní žadatelka o úvěr Charakteristika klienta Hodnota: ano=1, ne=0 Nemá účet v dané bance
1
Neměl předchozí úvěr
1
Účel úvěru – nové auto
1
Úspory do výše 100 DM
1
V současném zaměstnání je 5–7 let
1
Úvěr nebude zajištěn
1
Nemovitost jako aktivum
1
Poměr splátky ku příjmu menší než 20%
1
Žena: svobodná
1
Není cizincem
1
Zaměstnanec na vedoucí pozici
1
Požadovaná částka 1 000 DM
1000
Délka splatnosti úvěru 24 měsíců
24
Zdroj: autorka
Řekneme, že klientce bude úvěr poskytnut v případě, kdy bude pravděpodobnost splacení ≥ 0, 5. Rovnice v případě lineární regrese vypadá následovně18 17
Protože máme data konkrétní jihoněmecké banky, musíme výsledky referovat právě k této bance, tedy
v případě německé národnosti, klient není cizincem. 18 Do rovnice již neuvádím hodnoty koeficientů, pro které jsou charakteristiky klientky rovny 0.
70
Yˆ = 1, 253 − 0, 284 × 1 − 0, 077 × 1 + 0, 153 × 1 − 0, 192 × 1 − 0, 0000161 × 1000 − 0, 005 × 24 = = 0,7999. Pokud banka vypočítává pravděpodobnost splacení úvěru pomocí lineární regrese, klientka by úvěr dostane, protože jej se 79% pravděpodobností splatí. V případě logistické regrese bude pravděpodobnost, že výše uvedená žadatelka úvěr splatí: Pˆ (Y = 1) =
exp(5,671−1,642×1−0,480×1+1,224×1−0,738×1+0,681×1−1,128×1−0,030×24) 1+exp(5,671−1,642×1−0,480×1+1,224×1−0,738×1+0,681×1−1,128×1−0,030×24)
= 0, 9408.
Žadatelce bude úvěr poskytnut, protože pravděpodobnost splacení je 94%. V případě diskriminační analýzy jsme schopni určit, do které třídy bude klientka patřit, nikoliv pravděpodobnost splacení. Diskriminační funkce má následující podobu D = −1, 832 + 1, 482 × 1 − 0, 994 × 1 − 0, 042 × 1 + 0, 031 × 24 = −1, 092.
V tomto případě žadatelka úvěr také obdrží, protože hodnota diskriminační funkce je −1, 092, což je blíže k těžišti skupiny úvěr splacen, kde je hodnota těžiště −0, 352. Výše uvedené metody lze porovnat na základě Akaikova kritéria (AIC), hodnoty u jednotlivých modelů jsou uvedeny v následující tabulce. Musíme však brát v úvahu, že pomocí jednotlivých metod byly vypočítány modely, které obsahovaly odlišné statisticky významné proměnné, proto nemůžeme jednoznačně konstatovat pomocí níže uvedené tabulky, který model je lepší, resp. která metoda je lepší.
Tabulka 6. 2: Akaikovo kritérium u všech modelů Metoda Hodnota AIC Lineární regrese
807,01
Logistická regrese
922,59
Diskriminační analýza
844,72
Výpočet: vlastní
71
Všeobecně lze říci, že model mající nižší AIC, je lepší. Z výše uvedené tabulky vyplývá, že nejlepší metodou vedoucí k vytvoření credit scoringového modelu je lineární regrese. Další možností, jak metody uvedené v kapitole 5 porovnat, je na základě klasifikačních tabulek. Ty popisují správnost zařazení případů z datového souboru na základě odhadnuté pravděpodobnosti (v případě lineární a logistické regrese) a skóre (v případě DA). Z tabulky 6. 3 vyplývá, že model, který dokáže správně zařadit nejvíce případů, je model založený na logistické regresi.
Tabulka 6. 3: Správnost zařazení dle různých metod Použitá metoda
Hodnota
Lineární regrese
77,2%
Logistická regrese
78,0%
Diskriminační analýza
73,3%
Výpočet: vlastní
Metody lze v neposlední řadě srovnat pomocí Gini indexu. Čím více se jeho hodnota blíží k 1, tím lépe byli odděleni dobří klienti (ti, kteří úvěr splatili) od špatných (ti, kteří úvěr nesplatili). Hodnoty Gini indexu pro tři použité metody uvádí tabulka 6. 4. Vidíme, že hodnoty u různých použitých metod se příliš neliší. Můžeme konstatovat, že nejlepší metodou je logistická regrese, avšak pouze o 0, 002.
Tabulka 6. 4 Gini index pro různé metody Použitá metoda
Hodnota
Lineární regrese
0,616
Logistická regrese
0,618
Diskriminační analýza
0,592
Výpočet: vlastní
Na základě vypočítaných srovnávacích charakteristik můžeme říct, že nejlepším nástrojem pro tvorbu credit scoringových modelů je logistická regrese, která má největší hodnotu Giniho
72
indexu a největší procento správnosti zařazení případů, naopak má nejvyšší hodnotu AIC kritéria, která znamená, že pomocí metody logistické regrese byl vytvořen nejhorší model. Všechny tři metody určily podobné faktory, které významně ovlivňují závisle proměnnou. Jednotlivé významné faktory lze najít v tabulkách C 1,5. 29 a 5. 30. V úvodu práce byl stanoven jeden z dílčích cílů, který měl určit, jaké informace by banka měla od klientů požadovat, jestliže žádají o úvěr. Druhým dílčím cílem, bylo pomoci klientům bank, aby věděli jaké faktory mají zlepšit než budou o samotný úvěr žádat. Oba cíle můžeme vysvětlit na základě významných proměnných, které byly stanoveny modely. Nejprve se zaměříme na pozici banky, nebo jiné úvěrové instituce. Pokud instituce zařazuje klienty do skupin na základě diskriminační analýzy, musí žádosti o úvěr obsahovat informace o běžném účtu, platební morálce, aktivech, délce zaměstnání, typu bytu, úsporách klienta a zda–li je klient žijící a pracující na daném území, dále o účelu, výši a délce splatnosti úvěru. Odpovědi na tyto otázky jsou důležité při zařazování klienta do jedné ze dvou tříd – tedy jestli má klient předpoklady k tomu, aby úvěr i s úroky a za dohodnutých podmínek splatil, či nikoliv. V případě, že banka kvantifikuje riziko spojené s nesplácením úvěrů pomocí lineární či logistické regrese, musí od svých klientů získat informace o jejich běžném účtu, platební morálce, úsporách, délce současného zaměstnání, pohlaví a stavu, typu bytu, možnosti zajištění úvěru, délce žití v současné domácnosti, účelu, částce a délce splatnosti úvěru a také poměru splátky úvěru ku příjmu. Banka samozřejmě po klientech může požadovat další informace, kromě těch uvedených výše, avšak ze spotřebitelského chování lze usuzovat, že v případě, kdy klient nemusí o své osobě odhalovat spoustu informací, tím spíše si tuto instituci z velké konkurence vybere k podání žádosti o úvěr. Některé zmíněné informace banka nemusí od klientů vyžadovat, protože je může získat z jiných zdrojů. Jedná se zejména o platební morálku klienta, jež je k dispozici v bankovním či nebankovním úvěrovém registru, nebo stav účtu klienta u banky, který najde ve své evidenci. Z pohledu klienta slouží údaje o významných faktorech rozhodujících o přidělení úvěru pouze v případě, kdy zájemce plánuje žádat o úvěr s dostatečným časovým předstihem. Ovlivnit své skóre nebo pravděpodobnost splacení úvěru může tím, že než o úvěr požádá 73
bude udržovat dostatečně vysoké peněžní prostředky na účtě u dané banky, v případě, že má již nějaké poskytnuté úvěry, bude je splácet dle daných podmínek, nebo si bude udržovat současné zaměstnání po dobu více let. Pokud se žadatel impulsivně rozhodně žádat o úvěr, není možné výše uvedené charakteristiky změnit v krátkém časovém období. Znalost faktorů ovlivňující poskytnutí úvěru slouží lépe bance, nebo jiné instituci poskytující úvěry než žadateli o úvěr. Jejich znalost žadatelem mu však vysvětluje, na čem nejvíce záleží v procesu rozhodování o poskytnutí úvěru. Z jednotlivých klasifikačních tabulek můžeme určit chyby I. a II. druhu. Chyba prvního druhu je taková, kdy očekáváme, že klient bude špatným, ale ve skutečnosti by úvěr splatil a chyba II. druhu je v případě, kdy očekáváme, že klient bude dobrý, ale on úvěr nesplatí. Banka se musí rozhodnout, které riziko je pro ni přijatelnější, zda–li riziko nesplacení úvěru nebo riziko ztráty zisku. Následující tabulka uvádí, jaké jsou pravděpodobnosti dvou typů chyb u všech analyzovaných metod. Tabulka 6. 5: Chyby I. a II. druhu Použitá metoda
Chyba I. druhu
Chyba II. druhu
Lineární regrese
55,7%
8,7%
Logistická regrese
50,7%
9,7 %
Diskriminační analýza
27,3%
26,4%
Výpočet: vlastní
74
7
Závěr
Cílem práce bylo popsat a porovnat metody sloužící k tvorbě scoringových modelů. První část cíle byla splněna teoretickým popisem jednotlivých metod, také byla objasněna podstata credit scoringu a úvěrového procesu. Pro komplexní pochopení problematiky byla popsána historie úvěru i samotného credit scoringu. Na základě teoretické části je však nutné konstatovat, že metody nelze jednoznačně srovnat. I přesto, že každá z těchto metod určila podobné významné proměnné, koeficienty a testy, které jsou v metodách interpretovány analogicky jsou tvořeny jinými způsoby. Na základě srovnání uvedeném v diskuzi je vidět, že každá srovnávací metoda určí jinou metodu používanou při tvorbě credit scoringových modelů za lepší. V praktické části byly podle analyzovaných metod z první části vytvořeny tři modely, které byly následně porovnány, čímž byla splněna druhá část hlavního cíle. Možné srovnání poskytuje modelový příklad uvedený v diskuzi, kde byla vytvořena fiktivní žadatelka o úvěr a její jednotlivé charakteristiky byly implementovány do odhadnutých funkcí pomocí všech tří metod. Úvěr by jí byl poskytnut v případech, kdy banka tvoří credit scoringové modely na základě lineární, logistické regrese i diskriminační analýzy. Tato komparace však vyjadřuje pouze možnost poskytnutí úvěru. Bylo tedy nutné zvolené metody porovnat pomocí dalších vhodných možností, které statistika nabízí. K tomuto účelu byly použity klasifikační tabulky a ROC křivky, resp. Gini index. Ze srovnání všech tří metod se jeví za nejlepší logistická regrese, která vykazuje vysoké procento správně zařazených úvěrů na základě vypočítané pravděpodobnosti. Také Gini index je v tomto případě nejvyšší. Naopak má nejnižší hodnotu AIC kritéria. V úvodu práce byla formulována nulová hypotéza, že používáním credit scoringových modelů nedojde ke zlepšení návratnosti úvěrů. Na základě klasifikačních tabulek můžeme tuto hypotézu zamítnout. Modely dokázaly správně zařadit více než 70% úvěrů. Určíme– li tedy pomocí odhadnutých funkcí jednotlivých modelů pravděpodobnost splacení úvěru žadatelem a pokud tato pravděpodobnost bude nízká, úvěr mu nebude poskytnut. Předejdeme tedy možnosti, že by úvěr nebyl v budoucnu splacen, jinými slovy banka předejde budoucím ztrátám. V případě, že klienti jsou dobře ohodnoceni a úvěr získají, existuje pro banku reálná šance, že pokud tito klienti budou o úvěr žádat v budoucnu znovu, vyberou si tutéž banku. 75
Můžeme dospět k názoru, že realizace credit scoringových modelů přispěje k růstu zisku banky a také ke zvýšení konkurenceschopnosti, protože jednotlivé banky se snaží vyvíjet efektivní způsoby, jak získat klienty a současně, jak kontrolovat úvěrové riziko. Samotné modelování bylo realizováno pomocí softwaru. Jmenovitě byly použity PASW/SPSS, JMP, Statistica, MS Excel a Gretl a na tomto místě si v krátkosti dovolím tyto programy zhodnotit. Jako nejméně vhodný nástroj pro mě byla Statistica, protože v případě, kdy byla v používaném datovém souboru nějaká chyba, například při tvorbě dummy proměnných měla jedna proměnná u každého klienta hodnotu 0, byla vygenerována tabulka, že se objevila chyba v syntaxi a pokyn nebyl proveden. Bohužel se mi nepodařilo zjistit, kde se chyba nachází. Proto jsem použila první dva uvedené softwary, které vykazovaly stejné výsledky, avšak JMP u každého modelu vypočítal odlišnou hodnotu konstanty, i přesto, že hodnoty ostatních testů a odhadů koeficientů byly shodné. To bylo pravděpodobně zapříčiněno odlišnou stavbou matic z dummy proměnných. Z těchto tří statistických softwarů je nejintuativnější PASW/SPSS, proto jej můžu zainteresovaným čtenářům doporučit pro jejich analýzy. MS Exel a Gretl byly použity pouze jako doplňkový software, protože ani jeden software nedokázal zpracovat všechny výstupy podle mých představ. Při zpracování dané problematiky se vyskytlo několik nedostatků. Již v kapitole dvě je zmíněn problém neexistence české literatury o credit scoringu, i když to nebyl problém nepřekonatelný. Avšak musím negativně zhodnotit i dostupnost anglické literatury v českých knihovnách. Při praktické modelování nebylo možné získat všechny potřebné výstupy z používaných softwarů a hodnoty bylo třeba dopočítat ručně (například váhy, nebo klasifikační tabulka u lineární regrese). Dalším problémem, který však nebyl vyřešen, je hodnota skóre u diskriminační analýzy. Všeobecně se předpokládá, že vyšší skóre znamená větší šanci získat úvěr, avšak v mém příkladě, je nutná opačná interpretace, protože software modeloval špatného klienta a nepodařilo se mi modelovat klienta dobrého, který by získal kladné skóre. Tento fakt však neovlivňuje dosažené výsledky. Závěrem lze konstatovat, že credit scoringové modely, ať už jsou vytvořeny pomocí jakékoliv metody, nebudou nikdy schopny předpovědět nesplacení úvěru klientem s pravděpodobností 1, tedy na 100%, protože podmínky na trhu se stále mění. Avšak pokud bude banka do již vytvořených modelů implementovat nové in76
formace, bude schopna s dostatečnou přesností vyhodnotit riziko konkrétního klienta. Bez takového nástroje jakým je credit scoring, by banky ani jiné úvěrové instituce nemohly na trhu konkurovat ostatním subjektům a jak víme ze současné finanční krize, poskytnutí úvěrů klientům, kteří mají nízkou pravděpodobnost jejich splacení, může konkrétní banku přivézt do nemalých problémů.
77
Seznam literatury [1] ALDRICH, J. H., NELSON, F.D.: Linear Probability, logit, and probit models. SAGE Publications, Inc., Thousand Oaks, CA, 1984. 97 s. ISBN 0–8039–2133–0. [2] ANDERSON, R.: The Credit Scoring Toolkit: Theory and Practise for Retail Credit Risk Management and Decision Automation. Oxford University Press Inc., New York, 2007. 792 s. ISBN 978–0–19–922640–5. [3] DE VAUS, D.A.: Analyzing Social Science Data. SAGE Publications Ltd, London, 2002. 401 s. ISBN 0–7619–5938–6. [4] ČERVENKOVÁ, P.: Analýza úvěrového procesu obchodní banky. Diplomová práce, Masarykova univerzita, Brno, 2006. [5] FIELD, A.: Discovery Statistic Using SPSS. SAGE Publications Inc., Thousand Oaks, CA, 2009, 3. vyd. 856 s. ISBN 978–1–84787[6] HEBÁK, P., KAHOUNOVÁ, J.: Počet pravděpodobnosti v příkladech. SNTL– nakladatelství technické literatury, Praha, 1978. 311 s. Typové číslo L31–E1–IV– 31f/32075. [7] HOSMER, D. W., LEMESHOW, S.: Applied Logistic Regression. John Wiley & Sons, Inc., Hoboken, New Jersey, 2000. 383 s. ISBN 0–471–35632–8. [8] HINDLS, R., KAŇOKOVÁ, J., NOVÁK, I.: Metody statistické analýzy pro ekonomy. Management Press, Praha, 1997. 249 s. ISBN 80–85943–44–1. [9] HINDLS, R., KAŇOKOVÁ, J., NOVÁK, I.: Statistické metody (Statistika B). VŠE, Praha, 1995. 146 s. ISBN 80–7079–354–6. [10] HUBERT, C. J., OLEJNIK, S.: Applied MANOVA and Discrimination Analysis. John Wiley & Sons, Inc., Hoboken, New Jersey, 2006. 487 s. ISBN 978–0–471–46815–8. [11] HUŠEK, R.: Základy ekonometrické analýzy I. – Modely a metody. VŠE, Praha, 1997. 225 s. ISBN 80–7079–102–0.
[12] HUŠEK, R.: Základy ekonometrické analýzy II. – Speciální postupy a techniky. VŠE, Praha, 1998. 265 s. ISBN 80–7079–441–0. [13] KAŠPAROVSKÁ, V.: Řízení obchodních bank – vybrané kapitoly. C. H. Beck, Praha, 2006. 339 s. ISBN 80–7179–381–7. [14] MAYS, E.: Handbook of Credit Scoring. The Glenlake Publishing Company Ltd, Chicago, 2001. 382 s. ISBN 0–8144–0619–X. [15] McLACHLAN, G. J.: Discriminant Analysis and Statistical Pattern Recognition. John Wiley & Sons, Inc., Hoboken, New Jersey, 2004. 533 s. ISBN 0–471–69115–1. [16] MENARD, S. W.: Applied Logistic Regression Analysis. SAGE Publications, Inc., Thousand Oaks, CA, 2001. 110 s. ISBN 0–7619–2208–3. [17] TARLING, R:, Statistical Modelling for Social Researchers – principles and practise. Routledge, Oxon, 2009. 206 s. ISBN 978–0–415–44837–6. [18] THOMAS, L. C.: Consumer Credit Models: Pricing, Profit and Portfolios. Oxford University Press Inc., New York, 2009. 400 s. ISBN 978–0–19–923213–0. [19] THOMAS, L. C., EDELMAN, D. B., CROOK, J.: Credit Scoring and its Applications. Society for Industrial and Applied Mathematics, Philadelphia, 2002. 248 s. ISBN 0–89871–483–4. [20] SIDDIQI, N.: Credit Risk Scorecards: Developing and Implementing Intelligent Credit Scoring. John Wiley & Sons, Inc., Hoboken, New Jersey, 2006. 196 s. ISBN 978–0–471– 75451–0. [21] WOOLDRIDGE, J.: Introductory Econometrics: A Modern Approach. South–western Cengage Learning, Mason, OH, 2009. 867 s. ISBN 078–0–324–45162–1.
Seznam internetových zdrojů [1] FAWCETT,T.: An Introduction to ROC analysis [online]. c2005 [citováno 13. 5. 2010]. Dostupný z WWW:
. [2] Klientské úvěry podle časového hlediska [online]. c2003–2009 [citováno 28. 2. 2010]. Dostupný z WWW: . [3] MOJAROVÁ, M: Linearný ekonometrický model s dvomi premennými [online]. Citováno 8. 5. 2010]. Dostupný z WWW: . [4] Portál veřejné správy České republiky: Zákon č. 21/1992 Sb., o bankách [online]. c2003– 2010 [citováno 30. 4. 2010]. Dostupný z WWW: . [5] SIGANOS, D., SIGANOS, CH.: Neural Networks [online]. [Citováno 13. 5. 2010]. Dostupný z WWW: . [6] SPRAWLS, P.: Image Characteristics and Quality [online]. [citováno 13. 5. 2010]. Dostupný z WWW:
%2Bcurve%2Bimage%26um%3D1%26hl%3Den%26client%3Dfirefox-a%26sa%3DN %26rls%3Dorg.mozilla:en–US:official%26ndsp%3D20%26tbs%3Disch:1> . [7] ŘEZÁČ, F., ŘEZÁČ, M.: Measuring the Quality of Credit Scoring Models [online]. c2009 [citováno 12. 5.2010]. Dostupný z WWW: . [8] The dataset „Determining the solidness of borrowers via creditscoringÿ line].
[citováno
10.
12.
2009].
Dostupný
z
WWW:
[on-
muenchen.de/service/datenarchiv/kredit/kredit e.html> . [9] Wikipedie: Otevřená encyklopedie: Centrální limitní věta [online]. c2010 [citováno 20. 4. 2010]. Dostupný z WWW: . [10] Wikipedie: Otevřená encyklopedie: Odhad (statistika) [online]. c2010 [citováno 12. 3. 2010]. Dostupný z WWW: . [11] Wikipedia: The Free Encyclopedia: Maximum likelihood [online]. c2010 [citováno 10. 2. 2010]. Dostupný z WWW: .
Seznam příloh [1] Příloha A – Grafické znázornění datového souboru [2] Příloha B – Zdrojová data ke grafu 1: objem bankovních úvěrů [3] Příloha C – Odhad parametrů všech proměnných v logistické regresi [4] Příloha D – Zařazování případů v diskriminační analýze [5] Příloha E – Obsah přiloženého CD
Příloha A Příloha A obsahuje grafické znázornění, jak jsou dané charakteristiky proměnné zastoupeny v datovém souboru v souvislosti s nesplacenými úvěry.
Graf A 1: Struktura úvěrů
Zdroj: Univerzita München, výpočet vlastní
Graf A 2: Stav účtů klientů
Zdroj: Univerzita München, výpočet vlastní
83
Graf A 3: Doba splatnosti úvěrů
Zdroj: Univerzita München, výpočet vlastní
Graf A 4: Platební morálka klientů
Zdroj: Univerzita München, výpočet vlastní
Graf A 5: Účel úvěru
Zdroj: Univerzita München, výpočet vlastní
Graf A 6: Výše úspor klienta
Zdroj: Univerzita München, výpočet vlastní
Graf A 7: Počet let v současném zaměstnání
Zdroj: Univerzita München, výpočet vlastní
Graf A 8: Poměr splátky ku příjmu (v%)
Zdroj: Univerzita München, výpočet vlastní
Graf A 9: Pohlaví a stav
Zdroj: Univerzita Münche, výpočet vlastní
Graf A 10: Typ zajištění úvěru
Zdroj: Univerzita München, výpočet vlastní
Graf A 11: Počet let v současné domácnosti
Zdroj: Univerzita München, výpočet vlastní
Graf A 12: Nejhodnotnější typ aktiva
Zdroj: Univerzita München, výpočet vlastní
Graf A 13: Věk žadatele
Zdroj: Univerzita München, výpočet vlastní
Graf A 14: Další, dosud nesplacené úvěry
Zdroj: Univerzita München, výpočet vlastní
Graf A 15: Typ bydlení
Zdroj: Univerzita München, výpočet vlastní
Graf A 16: Počet předchozích úvěrů
Zdroj: Univerzita München, výpočet vlastní
Graf A 17: Typ zaměstnání
Zdroj: Univerzita München, výpočet vlastní
Graf A 18: Počet dalších osob žijících ve společné domácnosti
Zdroj: Univerzita München, výpočet vlastní
Graf A 19: Majitel mobilního telefonu
Zdroj: Univerzita München, výpočet vlastní
Graf A 20: Cizinec pracující a žijící na daném území
Univerzita München, výpočet vlastní
Příloha B Tabulka B 1: Zdrojová data pro graf 1 na straně 13 Období
Úvěry celkem
1993
670092,3
1994
771306,7
1995
824523,9
1996
890104,7
1997
903980,1
1998
864697,2
1999
824462,8
2000
823925,7
2001
771930,3
2002
751295,6
2003
816246,1
2004
875340,4
2005
1026027,3
2006
1221555,2
2007
1553695,9
2008
1783871,2
2009
1820100,6 Zdroj: ČNB
Příloha C Tabulka C 1: Odhady koeficientů jednotlivých proměnných
Výpočet: vlastní
Příloha D Tato příloha obsahuje tabulku zařazování případů do skupin 0 a 1. Pro ilustraci je uvedeno prvních deset případu. Statistický software vygeneruje správnost zařazení všech 1 000 klientů. Tabulka D 1: Významnost regresních koeficientů, Výpočet: vlastní
Příloha E Přiložené CD obsahuje původní datový soubor pocházející z Univerzity v Mnichově, v tomtéž souboru MS Excel se nachází vytvořené dummy proměnné, se kterými bylo pracováno. Druhý soubor obsahuje inverzní korelační matici, která má na své diagonále VIF faktory, které jsou označeny žlutě.