Tijdschrift voor Economie e n Management Vol. XLIII, 1, 1998
Methodologie bij het opstellen en beoordelen van Ikiredietclassificatiemodellen door Ph. JOOS*, H. OOGHE*" en N. SIERENS""
I. INLEIDING In dit artikel wordt een theoretisch overzicht gegeven van de mogelijkheden en beperkingen die optreden bij het opstellen van classificatiemodellen. Daarnaast wordt een methodologie voorgesteld die gebruikt kan worden bij de beoordeling en vergelijking van verschillende modellen. Om geen louter abstracte uiteenzetting te geven zal steeds vanuit de context van kredietverlening gewerkt worden. Het hoeft echter geen betoog dat de beschreven classificatietechnieken en performantiecriteria ook voor tal van andere onderzoeksproblemen kunnen gebruikt worden. De keuze voor kredietverlening is niet ongegrond. Bij deze activiteit is het immers van uitermate groot belang om het risicoprofiel van de debiteur correct in te schatten. Kredietscoringsmodellen zijn gebaseerd op een groot aantal kredieten uit het verleden en kunnen op een consistente manier het beoordelingsproces ondersteunen. Naast consistentie en objectiviteit hebben kredietmodellen ook de eigenschap efficiëntieverhogend te zijn. De bespreking van de verschillende methodes zal ook steeds beperkt blijven tot twee-groep classificatie. Dit impliceert dat enkel nagegaan wordt of een kredietnemer binnen een vooropgestelde periode zal betalen of niet. Daarnaast zullen ook geen modellen, die naast classificatie ook de exacte timing van de faling proberen te schatten, ~ - ~ -
'"raduate School of Business, University of Stanford en Faculiei1 van Economische en Toegepaste Economische Wetenschappen, Universiteit Gent. ";"' Fac~ilteitEcononlische en Toegepaste Economische Wetenschappen, Universiteit Gent.
besproken worden. Hiervoor wordt vemezen naar betreffende literatuur'. Het artikel is als volgt gestructureerd: het volgende punt heeft betrekking op de basisbeginselen van een classificatieonderzoek, nl. het bepalen van de populatieklassen waartoe kredieten kunnen behoren en de keuze van steekproef; het derde punt geeft een bondige uitleg over verschillende schattingstechnieken; de keuze en selectie van de variabelen komt in het vierde punt aan bod; de performantiecriteria die kunnen toegepast worden bij de geschatte modellen worden in het vijfde punt aangehaald, en de valideringsvraagstukken komen in het volgende deel voor. Tot slot vat het besluit de belangrijkste aspecten samen en wordt verder onderzoek voorgesteld.
11. POPULATIE EN STEEKPROEF
Een eerste uitgangspunt is het definiëren van de populatieklassen waartoe kredieten kunnen behoren. Hierbij zijn diverse alternatieven voorhanden, die kunnen herleid worden tot "subjectieve" en "objectieve" indelingen. Aangezien risicobepaling de hoofddoelstelling is, zal dienen gezocht te worden naar risicoklassen voor kredieten. De subjectieve risico-indeling vertrekt van de indeling door de kredietanalist, is dus onderhevig aan een subjectieve appreciatie. Uit onderzoek is ook gebleken dat er een sterk positief bestand bestaat tussen de ervaring van de analist en de accuraatheid van zijn voorspelling (Jeffrey (1992)). Hiertegenover staat een objectieve risico-indeling, waarbij de klassen worden vastgelegd op basis van juridische criteria, bv. lopende en opgezegde kredieten. Hier ontstaat de gelijkenis met falingspredictie-onderzoek, waarbij het eveneens de bedoeling is ondernemingen in te delen in twee categorieën (falend en niet falend) op basis van financiële ratio's. Het moment van opzegging van een kredietovereenkomst gaat meestal de faillissementsuitspraak vooraf, zodat hier wel een verschilpunt is (Chalos (1985)). Om een model te bekomen dat voorspellend werkt naar de toekomst is het uiteraard belangrijk om gebruik te maken van recente informatie. Daarnaast is het essentieel dat de periode waarin het model geschat wordt een 'representatieve periode' is. Een model dat bij voorbeeld wordt geschat in een periode van extreme hoogconjunctuur, zal in een periode van laagconjunctuur minder accuraat zijn.
Specifiek bij falingsonderzoek kan er ook voor geopteerd worden verschillende modellen te gebruiken, met name één jaar voor faling, twee jaar voor faling enz. Er wordt gebruik gemaakt van een state-based sample (Palepu (1986)) i.p.v. een random selectie, aangezien de kans op selectie in de steekproef afhankelijk is van de status van de kredietnemer (falend of lopend), m.a.w. de steekproefproporties zijn niet gelijk aan de populatieproporties. Aangezien het aantal falende eenheden veel kleiner is dan het aantal lopende in de populatie, zou een pure random steekproeftrekking bijzonder kleine falende steekproeven opleveren, wat leidt tot onnauwkeurige parameterschattingen in het model. Het aantal falende kredietnemers is dus oververtegenwoordigd in de steekproef en dat zal voor bepaalde statistische modellen een vertekening van de parameters veroorzaken. Recentelijk zijn er een aantal aanpassingen voorgesteld door Zmijewski (1984), Palepu (1986), Dopuch et al. (1987) en Maddala (1991). Zij verwijzen in deze context naar self-selection bias2 en choice-based sampling. Een goede, representatieve steekproef moet een scoringsmodel opleveren dat toepasbaar is op de totale populatie kredietnemers. In feite kan men echter twee populaties onderscheiden (Foster (1986)): namelijk de populatie van nieuwe kredietnemers (aanvragers) en de populatie van (reeds) aanvaarde kredietnemers. Als nu een scoringsmodel dat gebaseerd is op reeds aanvaarde kredietnemers, gebruikt wordt voor nieuwe kredietaanvragen, is het dus mogelijk dat de bestaande steekproef niet representatief is. Foster (1986) spreekt in dit verband van het pre-screeningprobleem, i.e. de bestaande kredietnemers (lopende en falende) zijn ooit eens als "aanvaard" en dus als goed bestempeld of gescreend op basis van een aantal voor de kredietanalist relevante variabelen. Boyes et al. (1989) vermelden hier de term censored samples omdat bij het scoringsonderzoek enkel wordt gebruik gemaakt van informatie over applicanten die ooit krediet hebben gekregen. Een gevaar bestaat wanneer de kredietverlener bepaalde subjectieve criteria toepast om nieuwe kredietaanvragen af te wijzen. Dit veroorzaakt een zeker element van willekeur bij het aanvaardingsproces en dus ook bij de totstandkoming van de steekproef van aanvaarde kredietnemers (die achteraf worden ingedeeld bij de lopende of falende groep). Kredietnemers met identieke kenmerken (die normaliter zouden moeten worden aanvaard resp. afgewezen) kunnen door verschillende kredietanalisten anders ingedeeld worden. Deze indeling is dus niet gebaseerd op objectieve
kenmerken van de kredietaanvrager. Wanneer nu deze subjectieve indelingsfactor gecorreleerd is met de storingsterm in het scoringsmodel, dan leidt censoring tot scheefgetrokken parameterschatters (Boyes et al. (1989)). Het voornaamste gevolg van hetpre-screening fenomeen is dat het scoringsmodel, gebaseerd op een steekproef van aanvaarde dossiers, misschien niet toepasbaar is op de kredietaanvaardingsbeslissing. Een ander gevolg heeft betrekking op het gebrek aan informatie over de verworpen kredietaanvragen, en dus het gebrek aan inzicht in de mate van verkeerdelijk verwerpen van potentieel goede kredietnemers, de zgn. commerciële fout of type I1 fout (cfr. punt V.B). 111. SCHATTINGSMETHODES In deze sectie zullen een aantal classificatietechnieken worden beschreven. Het is onmogelijk en tevens niet de bedoeling van dit artikel een exhaustief overzicht te geven. Er wordt het volgende onderscheid gemaakt: klassieke statistische technieken, recursive partitioning analysis (of tree classification), neurale netwerken en genetische algoritmes. De laatste drie classificatiemethodes brengt men soms onder de algemene noemer van inductive learning, i.e. leerprocessen op basis van voorbeelden (Shaw en Gentry (1991)). Voor een gedetailleerde beschrijving van deze technieken wordt verwezen naar een aantal standaardwerken. De classificatiemodellen worden telkens besproken in het geval van twee-groep classificatie: Yz =
i opgezegd of gefaald 1 O1alsals kredietnemer kredietnemer i lopend is
(1)
A. Klassieke statistische technieken Hierbij wordt een onderscheid gemaakt tussen een viertal parametrische schattingstechnieken. Uiteraard bestaan er ook non-parametrische statistische methodes waarbij geen veronderstelling wordt gemaakt rond de groepsconditionele verdeling van de variabelen. De meest bekende methode is de kernel discriminant techniek. Voor een goede bespreking hiervan wordt verwezen naar McLachlan (1992). Hieronder zullen twee categorieën parametrische analysetechnieken aan bod komen: discriminantanalyse en regressie met een onafhankelijke dummy variabele.
1. Discriminantanalyse R.A. Fisher ontwierp in 1936 deze techniek als multivariate uitbreiding van de univariate variantie analyse. Discriminantanalyse (DA) vergelijkt de verdeling van één of meerdere variabelen bij verschillende groepen of populaties, i.c. de groep van goede en gefaalde kredietnemers. De groepen dienen gekend te zijn, identificeerbaar en mutueel exclusief. Via steekproeftrekking verkrijgt men observaties van de variabelen uit elke groep of populatie. DA is in wezen parametrisch vermits het beroep doet op bepaalde veronderstellingen m.b.t. de verschillen tussen de variabelen gemiddelden (vectoren) en covariantiestructuren tussen de groepen; belangrijk is eveneens dat de verklarende variabelen multivariaat normaal verdeeld zijn (Altman et al. (1981)). Lineaire DA levert in het geval van (1) de volgende discriminant functie op:
met Di bo, -.., h‘ X . X
= discriminantscore van kredietnemer i = geschatte coëfficiënten = variabelen of kenmerken van kredietnemer i
Het schattingsproces van de coëfficiënten is gericht op het bekomen van de beste discriminatie tussen beide groepen. De toewijzing van een kredietnemer tot een groep, i.e. resp. falend of lopend, gebeurt door zijn discriminantscore D idie in het interval [-m, + m ] ligt, te vergelijken met de afkapgrens tussen falende en lopende kredietnemers. Er zal daarop uitgebreid ingegaan worden in punt V.B. 2. Regressie met een afhankelijke dummy variabele a. Lineaire regressie Bij deze methode wordt de kans op faling voorgesteld als een lineaire functie van de verklarende variabelen (zie b.v. Gujurati (1995)):
P(y
=
IIX)
= P, ( X ) =b,
+ b,X,+. ..+bkXk
(3)
met P(y = 1 IX) X b@...,bk X, ,..., Xk
= probabiliteit dat een kredietnemer faalt = vector met k kenmerken X,, X,,..., X, = geschatte coëfficiënten = variabelen of kenmerken van kredietnemer
Hierbij moeten restricties aan X en b, opgelegd worden om een output in [0,1] te bekomen3. Een nadeel van deze methode is bovendien dat verondersteld wordt dat het verband tussen de kans op faling en de verklarende variabelen lineair is. Intuïtief wordt aangevoeld dat het gebruik van een sigmoïdale of S-vormige curve een beter beeld kan geven van de realiteit. Dit wordt mogelijk gemaakt door het gebruik van logit of probit analyse. b. Logit analyse Bij logit is het de bedoeling conditionele probabiliteiten te schatten, de zgn. logistieke scores die in het interval [0,1] liggen, op basis van het volgende model (zie b.v. Hosmer en Lemeshow (1989)):
De exponent in formule 3 geeft de zgn. logit weer. De schatting van de coëfficiënten gebeurt algemeen o.b.v. de maximum likelihood methode. Hierbij wordt de likelihood function uit onderstaande formule gemaximaliseerd:
met p2 (Xi) b
Xi Yi
= probaliteit dat kredietnemer i faalt
= vector met k te schatten parameters b,, b, ..., b, = vector met kenmerken van kredietnemer i = 1indien kredietnemer i faalt, zoniet O
Logit analyse wordt vaak gebruikt in classificatiestudies omdat het een aantal gunstige kenmerken bezit. O.a. kan hier vermeld worden
dat er geen aanpassing van de schattingsmethode vereist is bij disproportionele steekproeven (cfr. Noot 2) aangezien enkel de constante term b, is vertekend. Andere schattingsmethodes vereisen daarentegen wel een aanpassing (Maddala (1992)). c. Probit Analyse Het vertrekpunt hier is dat men de probabiliteit van faling voorstelt door de cumulatieve standaard normaalverdelingsfunctie die een output in het interval [0,1] oplevert (zie b.v. Altman et al. (1981)):
D e coëfficiënten worden eveneens bepaald a.d.h.v. de maximum likelihood methode. Het verschil tussen het logit en probit model zit in de veronderstelling rond de cumulatieve verdeling van de storingsterm: ui is standaard normaal verdeeld bij probit en logistiek verdeeld bij het logit model. Hoewel het niet kan bewezen worden geldt ook voor deze methode4 dat de coëfficiënten van het model weinig of niet zullen beïnvloed worden door disproportionele steekproeven. De resultaten van logit en probit analyse liggen meestal trouwens zeer dicht bij elkaar (Maddala (1992)). Probit analyse is toegepast door o.a. Zmijewski (1984), Marais et al. (1984), Boyes et al. (1989) en Gentry et al. (1991). Na de hierboven besproken statistische methodes zal hieronder kort worden ingegaan op een aantal recente modelleringstechnieken, die elk een aantal potentiële voordelen inhouden t.o.v. de klassieke methodes. Algemeen kunnen ze onder één noemer worden gebracht, nl. inductieve leer methodes. B. Machine learning
Machine learning (ML) is een non-parametrische classificatie techniek gebaseerd op regels of beslissingsbomen. Financiële toepassingen zijn terug te vinden bij o.a. Marais et al. (1984), Frydman et al. (1985), Srinivasan en Kim (1987), Canart (1990), Gentry et al. (1991) en Chung en Tam (1993). ML maakt gebruik van voorbeelden, i.c. kenmerken van kredietnemers, om te komen tot algemene classificatie regels. De voorstelling van deze regels kan gebeuren via een beslissingsboom (decision tree) of een opeenvolging van beslissingsregels
(decision rules). De eerste voorstellingswijze is visueel de meest aantrekkelijke en eveneens het gemakkelijkst te interpreteren. Een classificatieboom bestaat uit takken (branches), bladeren (leafs) en knooppunten (nodes). De verzameling voorbeelden of cases, weergegeven door kenmerken (attributen of variabelen) van de steekproef eenheden, wordt sequentieel verdeeld in subsets van cases op basis van een variabele. Daartoe wordt voor deze variabele een afkappunt of splitsingswaarde gezocht die de klassen (i.c. falende en lopende kredietnemers) het best opsplitst. Door deze opsplitsing te maken wordt een beslissingsknooppunt (decision node) gecreëerd. Dit opsplitsingsproces wordt herhaald totdat er voldoende scheiding is ontstaan tussen de klassen. De eindpunten van de boom worden bladeren of leafs genoemd, en de weg die wordt afgelegd om tot zo'n blad te komen is een tak of brunch (Quinlan (1993)). Algemeen zijn er drie fasen te onderscheiden in de constructie van deze bomen (Siegel en Castellan (1988)): 1. selectie van de splitsingswaarden of afkapgrenzen per variabele; 2. beslissing om een knooppunt als eindknooppunt te beschouwen (pruning); 3. toewijzing van een eindknooppunt tot een klasse.
Zeer belangrijk is hetpruning-proces waarbij rules of trees vereenvoudigd worden om het overfitting-fenomeen tegen te gaan. Dit treedt op wanneer een model geconstrueerd wordt met zoveel regels dat wel elke onderneming uit de originele steekproef correct geklasseerd wordt, maar dat naar predictie of validering toe veel mindere resultaten geboekt worden ((cfr. punt VI) (Quinlan (1993)). Er zijn een aantal algoritmes ontwikkeld om de 3 fasen stapgewijs proces uit te voeren: CART (Breiman en Stone (1980)), AQ (Michalski en Chilauslq (1980)), ID3 (Quinlan (1983)) en C4.5 (Quinlan (1986)). Uiteraard is deze opsomming niet volledig. Cruciaal bij elk van deze methodes is het criterium waarop de splitsing gebaseerd is. Hier wordt vaak een beroep gedaan op het entropie-concept uit de informatietheorie van Shannon (1948). E r wordt een boom opgesteld die de hoogst mogelijke informatiewaarde of entropie bevat. Dit begrip zal uitgebreid besproken worden in punt V.D. Het Europese STATLOG-projekt, opgestart in oktober 1990 en beëindigd in juni 1993, biedt een overzicht van classificatiemethoden in diverse wetenschapsgebieden. De bestaande ML software krijgt in het
STATLOG-project ruime aandacht (Michie et al. (1994)). Een veelbelovende ML methode is het genetisch algoritime. Genetische algoritmen zoeken naar een oplossing voor een probleem door vele kandidaat oplossingen te genereren uit een ruimte bestaande uit alle mogelijke oplossingen. De zoekprocedure is gebaseerd op ideeën afkomstig uit de genetica. Dit ML algoritme bevindt zich nog in een experimentele fase, maar zal naar de toekomst toe ongetwijfeld ruimere bekendheid verwerven in het kredietscoringsonderzoek. C. Neurale netwerken Neurale netwerken zijn computer algoritmen die het menselijke leerproces en de intuïtie nabootsen zonder zich te baseren op een voorgeprogrammeerde kennisbank. Een neuraal netwerk is een sterk vereenvoudigd model van het menselijke zenuwstelsel en vertoont eigenschappen zoals leren, veralgemenen en abstraheren (Hawley et al. (1990)). Neurale netwerken bestaan uit twee essentiële elementen:
verwerkingselementen: input, hidden en output units of nodes; interconnecties:verbindingen of connection weights tussen de processing units. Elk venverkingselement ontvangt en combineert input signalen en transformeert die in een output signaal, dat dient als input signaal voor de volgende verwerkingseenheid. De signalen worden door het netwerk gestuurd via gewogen interconnecties tussen de venverkingseenheden. Sinds het midden van de jaren '80 is er een explosie van neurale netwerken die gebruikt worden als classificatie-instrument. Er bestaan verschillende types neurale netwerken, waarvan sommige minder geschikt zijn voor classificatie, maar meer voor clustering of associatieve leerprocessen. Het kent een ruime verspreiding over diverse wetenschapstakken, zoals o.a. spraakherkenning, digitaliseren van handschrift, identificatie van onderzeese objecten en toepassingen in de ruimtevaart. Financiële toepassingen zijn o.a. simulatie van de kapitaalstructuur, beheer van wisselkoersrisico, samenstelling van aandelenportefeuille, cash management en kredietscoring (Hawley et al. (1990)). De netwerken verschillen naargelang het trainingsulgoritme dat de relaties of gewichten bepaalt tussen input elementen (i.c. variabelen m.b.t. de kredietnemer) en output waarden (i.c. lopend of
falend). De meest populaire trainingsalgoritmen zijn back propagation en cascade-cowelation (of Cascor). D e transformatie van input signalen naar één output signaal wordt uitgevoerd door een niet-lineaire activation function, en neemt vaak de vorm aan van een sigmoïdale, Gaussiaanse of exponentiële functie. Daarnaast zijn er ook voorbeelden van neurale netwerken met een binaire activation function. De activatiewaarde van een node 1wordt in het geval van een sigmoïdale functie als volgt bepaald (Coats en Fant (1993)) 7
met YI I,
4
= activatiewaarde van node 1 = connectiegewicht tussen input node i en node 1 = waarde van input node i (signaal)
De bedoeling van het neurale netwerk algoritme is te komen tot een berekende output die sterk aansluit bij de werkelijke output (falende of lopende kredietnemer). De training van een neuraal netwerk of het leerproces bestaat uit de verandering van de connecties door de optimalisatie van een kostenfunctie (cost function of error function). Een veel gebruikte kostenfunctie is de som van de gekwadrateerde afwijkingen (Michie et al. (1994)). E r bestaat geen formele theorie in verband met de optimale netwerktypologie. Beslissingen in verband met het aantal hidden layers en nodes en de keuze van de activation function moeten dus bepaald worden op louter experimentele basis. De ontwikkeling van neurale netwerken vereist dan ook meer expertise dan het opstellen van statistische modellen. Algemeen geldt wel dat de complexiteit van het netwerk positief gecorreleerd is met interne validiteit, maar negatief met externe validiteit (het zgn. overfitting-probleem). Het grote voordeel van neurale netwerken is dat ze noisy data of onvolledige, foutieve en inconsistente inputgegevens kunnen venverken, nl. door het filteren van de bruikbare informatie (Hawley et al. (1990)). Dit komt immers sterk overeen met de informatie i.v.m. kredietnemers aanwezig in kredietdossiers. Het belangrijkste nadeel bij deze methode is de complexiteit van de interne structuur van het net-
werk van interconnecties en de onmogelijkheid om na te gaan welke stappen de inputgegevens afleggen om de output units te bereiken. Dit wordt het black box fenomeen genoemd en is inherent aan neurale netwerken. De enige manier om de consistentie en betrouwbaarheid van het systeem te testen is door de output te bestuderen. Een ander nadeel is de noodzaak aan een groot aantal voorbeelden (i.c. kredietnemers) om het netwerk voldoende te trainen. D. Keuze van de methode Er bestaan dus verschillende methodes om het classificatieprobleem aan te pakken, waarbij de natuurlijke vraag rijst welke methode het meest aangewezen is. Men kan echter niet a priori stellen dat er een methode primeert boven alle andere. Men dient rekening te houden met de voor- en nadelen van elke techniek en deze af te wegen binnen de specifieke probleemsituatie van het onderzoek en de eigenschappen van de dataset. Een leidraad hierbij zijn de ervaringen beschreven in de vakliteratuur binnen het eigen onderzoeksgebied, i.c. de literatuur rond falingspredictie en scoringssystemen. Deze conclusie wordt eveneens getrokken in het STATLOG-projekt (Michie et al. (1994)). Het Europese STATLOG-projekt bestudeert 24 algoritmen die kunnen ondergebracht worden in de hierboven besproken categorieën: klassieke statistische, neurale netwerken en machine learning. Deze algoritmen worden toegepast op 22 datasets uit verschillende wetenschapsdomeinen, die kunnen ondergebracht worden in vier hoofdgroepen: 1. datasets waarbij kosten een belangrijke rol spelen5; 2. kredietdatasets waarmee de beslissing van de analist wordt nagebootst; 3. image datasets (herkenning van beelden, b.v. handschrift); 4. andere datasets (b.v. aidstesten, DNA sequenties, kwaliteitscontrole).
Cruciaal voor de keuze van de techniek blijken de specifieke kenmerken van de bestudeerde dataset te zijn, zoals o.a. het aantal variabelen, het meetniveau, de aanwezigheid van missing values (of onbekende waarden), de modelvoorstelling (formule of een set van regels), de mogelijkheid om een kostenfunctie te gebruiken in het schat-
tings- en valideringsproces en tot slot de interpreteerbaarheid van de classificatieregel. In Appendix 1zijn een aantal recente studies uit dit domein chronologisch vermeld, waarbij die verschillende classificatiemethodes met elkaar worden vergeleken.
IVO SELECTIE VAN VARIABELEN Het is de bedoeling omvia bovenstaande technieken een model te construeren dat het risico van de kredietnemer zo goed mogelijk in kaart brengt. Daartoe worden relevante kenmerken van de kredietnemer opgenomen als variabelen in het model. A. Welke kandidaat-variabelen? Tot op heden bestaat er geen onderliggende economische theorie voor het bepalen van de relevante beslissingsset, zodat de uitwerking bij de modelbouwer eerder pragmatisch is. De selectie van variabelen zal dus voornamelijk gebeuren op basis van falingsonderzoek uit het verleden en de ervaring van kredietanalisten (Foster (1986)). De elementen waarop de kredietbeslissing gesteund is, worden door Marais et al. (1984) ondergebracht in de volgende categorieën: financiële informatie, betalingshistoriek, kasstroomprojectie en sectortoestand. Uiteraard hoort daar nog de subjectieve beoordeling bij van de ondernemingsleiding en de waardering van de waarborgen. Zoals eerder vermeld is kredietverlening in se toekomstgericht zodat de kredietanalist zoveel mogelijk recente gegevens van de kredietnemer wenst. Dit kan bij de financiële gegevens, i.c. jaarrekeninggegevens, een probleem vormen omwille van het historisch karakter. B. Meetproblematiek Het is niet alleen de bedoeling om de relevante variabelen te selecteren, maar deze tevens zo accuraat mogelijk te meten. Zoals hierboven is gebleken, bestaan er vele mogelijke relevante variabelencategorieën, en dus nog meer mogelijke meetalternatieven.
1. Meetniveaus Algemeen kunnen voor de variabelen een aantal meetniveaus onderscheiden worden:
1. nominaal b.v. afzetgebied, sector, jaarrekeningschema; 2. ordinaal b.v. verklaring van de revisor, leeftijd (jong, oud); 3. interval of ratio b.v. schuldgraad, omvang kredietlijn. Sommige variabelen kunnen verschillende meetniveaus aannemen, waardoor ze een andere informatiewaarde krijgen. Een illustratie hiervan is de leeftijd van de onderneming: indien dit gemeten wordt als continue variabele uitgedrukt in jaren, dan veronderstellen de meeste modellen een lineair monotoon verband met risico (i.e. het risico daalt lineair met de leeftijd); indien daarentegen gewerkt wordt met leeftijdsklassen (b.v. jong, oud), dan verliest men weliswaar een deel van de informatie, maar worden daarmee wel eventueel de relevante risicozones aangeduid. Een ander voorbeeld is de financiële hefboom: wanneer de omzetting van interval naar ordinaal niveau (i.e. richting werkt positief of negatief) gebeurt, wordt de nadruk verlegd van de grootte naar de richting van de hefboomwerking. Deze omzetting van interval of ratio naar ordinaal niveau wordt discretionering genoemd. Een probleem dat bij meting van variabelen opduikt is dat van extreme waarnemingen of outliers. Barnett en Lewis (1994) bespreken uitgebreid de univariate en multivariate methodes om deze waarnemingen op te sporen. Een voordeel van discretioneren van continue variabelen is dat daarmee (continue) outliers worden herleid tot de meest extreme klassen. De diverse classificatietechnieken reageren verschillend op de aanwezigheid van outliers. De meetproblematiek is sterk gelieerd met de methodologie en de schattingsmethode die men wil gebruiken. Bij statistische modellen is het immers minder evident om kwalitatieve variabelen op te nemen of variabelen die slechts een beperkt aantal waarden kunnen aannemen. In dit geval moet namelijk steeds met dummy-variabelen gewerkt worden, hetgeen de output minder duidelijk en overzichtelijk maakt. Bovendien kan het gebruik van een hele reeks dummy's zorgen voor een verzadiging van het regressiemodel omdat teveel parameters dienen geschat te worden. Het gebruik van beslissingsbomen of neurale netwerken kan de selectie van kwalitatieve variabelen vergemakkelijken. Beslissingsbo-
men kennen echter het tegengesteld probleem dat vooral variabelenklassen als input voor het model fungeren, hetgeen de moeilijkheid oplevert continue variabelen in relevante klassen op te delen zonder dat dit gepaard gaat met informatieverlies. Om dit te vermijden stellen Fayyad en Irani (1996) een methode voor gebaseerd op het entropie-concept. 2. Sectorvergelijking
Tot nog toe werd gesproken van het meten van ondernemingskenmerken van de kredietnemer zonder deze te situeren in zijn omgeving. Er bestaat immers een manier om de individuele variabelen van een kredietnemer te koppelen aan de sector waarin deze zich bevindt. Een mogelijkheid bestaat om sectorspecifieke modellen op te stellen, maar hier zit dikwijls het probleem in de afwezigheid van voldoende waarnemingen van gefaalde kredietnemers per sector. Platt en Platt (1990) stellen voor om modellen te schatten met sectorgecorrigeerde financiële ratio's. Zij stellen de volgende methode voor:
X§ory
-- X --
i
X sectory met
xi, sector y
= sectorgecorrigeerde ratio X van kredietnemer i
X i
= ratio X van kredietnemer i
Xsector y
= gemiddelde ratio X in sector y
Dit levert volgens hen drie voordelen op (Platt en Platt (1991)): e e o
stabielere financiële ratio's6; stabielere modelparameters (in tijd); minder afwijking tussen misclassificatiepercentages van de schattings- en valideringssteekproef.
Indien de verdeling van de ratio sterk afwijkt van de normaalverdeling kan i.p.v. het gemiddelde ook de mediaan worden gebruikt. Een alternatief voor formule 8 is een standaardisering van de ratio op de volgende manier: -
;,sector y
IQR
(xsecrory)
-
= mediaan van ratio X in sector y IQR(Xsecro,.y)= interquartile range of spreiding tussen eerste en derde kwartiel
Xsector. y
Sectorrelatering zorgt ervoor dat zeer heterogene sectorspecifieke variabelen, die onvoldoende discrimineren tussen individuele falende en lopende kredietnemers, toch zullen opgenomen worden in het model en kunnen bijdragen aan de classificatieresultaten. Deze laatste vaststelling geldt voor alle in hoofdstuk I11 besproken classificatiemodellen. Daarnaast maakt sectorrelatering ook ratiovergelijking van ondernemingen uit verschillende sectoren mogelijk aangezien dezelfde metrische schaal wordt gebruikt voor alle ondernemingen. Het grote discussiepunt bij sectorgerelateerde ratio's blijft de omlijning van de sectoren: Platt en Platt gebruiken de 4-digit SIC indeling, in Europa bestaat een gelijkaardige NACE-indeling en de NBB stelt voor België een hergroepering van jaarrekeningen op basis van 37 PU en 103 meer verfijnde DI-sectoren voor. Aldus is er een keuze voor het niveau sectordetaillering waarvoor er geen optimale beslissing bestaat. C. Selectie van de relevante variabelen In punt 1V.Awerden de kandidaat-variabelen omschreven. Het is evident dat niet al deze variabelen significant het risico van de kredietnemer verklaren en dat er dus een selectie moet plaatsvinden. 1. Preliminair Onderzoek
Vooreerst kan een preliminair onderzoek uitgevoerd worden: dit bestaat uit univariate testen, het opsporen van collineariteit en het verwerken van missing values. Deze testen zijn vooral van toepassing bij statistische methodes maar kunnen ook nuttig zijn bij de andere beschreven methodes. Bij univariate testen wordt het discriminerend vermogen van elke individuele variabele nagegaan. Bij continue variabelen kan hiervoor bij voorbeeld de two-sample Kolmogorov Smirnov test (cfr. punt V.A) gebruikt worden, bij nominale variabelen en continue variabelen met een beperkt aantal waarden kan men dan een chi-kwadraat-test toepassen. Wel moet steeds voor ogen gehouden worden dat een univar-
iaat niet discriminerende variabele in een multivariate context eventueel wel een significante bijdrage kan bieden. Om geen variabelen ten onrechte uit te sluiten is het daarom aangewezen niet te strenge afkapgrenzen te gebruiken. Deze univariate testen worden in de meeste onderzoeken als eerste schiftingsmechanisme aangewend, ongeacht de gekozen schattingsmethode. Bij discriminantanalyse moet daarnaast ook de normaliteitsvoorwaarde van de variabelen nagegaan worden. Collineariteit betekent dat er een lineair verband bestaat tussen de verschillende onafhankelijke variabelen waardoor onstabiliteit van de coëfficiënten kan voorkomen bij statistische modellen (b.v. Greene (1993)). Voor het opsporen van collineariteit kan men verschillende methodes toepassen zoals het gebruikvan correlatiecoëfficiënten, variante inflation factoren (V.I.F.) en condition indices. Voor verdere uitwerking wordt naar gespecialiseerde literatuur verwezen. Het probleem van collineariteit stelt zich niet bij machine learning. D e poblematiek van missing values7 kan opgelost worden door de betreffende populatie-eenheden uit de steekproef te verwijderen. Een andere methode bestaat erin om vervangingswaarden te schatten door middel van een lineaire regressie. In deze vergelijking is de variabele met de missing values dan een afhankelijke variabele die verklaard wordt door de andere onafhankelijke variabelen.
2. Variabelenselectie en modelbouw Er is nood aan een selectieprocedure die enkel de meest significante verklaringsvariabelen opneemt in het classificatiemodel. Bij de klassieke statistische technieken wordt hierbij gebruik gemaakt van de stapsgewijze selectie of subset selectie. Deze laatste techniek stelt modellen op bestaande uit alle mogelijke combinaties van variabelen (modellen met 1variabele, 2 variabelen, ...) en is dus zeer rekenintensief. Bij discriminantanalyse worden variabelen stapsgewijze toegevoegd op basis van criteria voor Wilk's h of partiële F-ratio's. Bij methodes waarbij de coëfficiënten bepaald worden door de maximum likelihood methode is het gebruikelijk om telkens deze variabele toe te voegen die het meest significant is volgens de scoretest. Daarnaast wordt er door de likelihood ratio test (cfr. punt V.C.2) nagegaan of geen variabelen uit het model kunnen verwijderd worden. Voor een verdere uitwerking van deze testen wordt opnieuw naar gespecialiseerde literatuur verwezen.
Bij de klassieke statistische methodes zijn er tevens significantietoetsen aanwezig voor de geschatte parameters zoals de Waldtest en scoretest (Huberty (1994)). Daarnaast worden de variabelen waarvan de coëfficiënten een contra-intuïtief teken hebben, verwijderd (Altman et al. (1994)). Bij machine learning wordt vaak het information gain criterium gebruikt om variabelen toe te voegen aan het model (cfr. punt VD). Hier wordt niet de mogelijkheid geboden de verklaringskracht per individuele variabele na te gaan. Wel kunnen significantietesten per brunch of per decision rule uitgevoerd worden. In de meeste onderzoeken met betrekking tot neurale netwerken, worden vooral de meest significante variabelen geselecteerd die reeds opgenomen werden in eerder gebruikte statistische modellen. Er bleek geen eenduidigheid te bestaan over andere beperkende of versoepelende criteria. Bij neurale netwerken is het eveneens onmogelijk de significantie te meten van de connectiegewichten tussen de verschillende knooppunten. D. Verklarende factoren voor de insignificantie van variabelen Foster (1986) geeft een overzicht van verklaringen voor de insignificantie van bepaalde variabelen: 1. Prescreening: Zoals vermeld in hoofdstuk I1 wordt de steekproef meestal samengesteld op basis van reeds bestaande kredietnemers. In de steekproef zullen er zich dus relatief minder ondernemingen bevinden die zeer slecht scoren op criteria die door analisten vaak gehanteerd worden. Dit kan als implicatie hebben dat bepaalde variabelen die in se sterk discrimineren tussen lopende en falende kredietnemers niet zullen opgenomen worden in het model. Door het prescreening-probleem kan de externe validiteit van het model niet gewaarborgd worden. 2. manipulatie door de kredietnemer: Het kan voorkomen dat de kredietnemer zelf bepaalde variabelen manipuleert in zijn voordeel. Voorbeelden hiervan zijn gemanipuleerde afschrijvingen, resultaat- en kasstroomprojecties. 3. slechte steekproef: De steekproef dient steeds respresentatief te zijn voor de populatie van kredietnemers, zoniet kan het voorkomen dat een significante variabele in de populatie, niet signi-
ficant is in de steekproef. De random selectie verzekert de representativiteit. 4. meetfouten: cfr. punt 1V.B. 5. gecorreleerde i/ariabelea: cfr. punt 1V.C.1.
V. PERFORMANTIECRITERIA
D e performantie van een classificatiemodel duidt aan hoe het model presteert en wordt in de econometrische literatuur aangeduid met goodness-offit. De context waarbinnen deze prestatie bekeken wordt, kan verschillend zijn: de schattingsomgeving (i.e. kredietnemers gebruikt bij het opstellen van het model) of een valideringsdataset. In dit punt wordt het gebruik van 4 soorten performantiemaatstaven bij de oorspronkelijke steekproef behandeld. De valideringsaspecten worden besproken in punt VI. A. Maatstaven gebaseerd op een classificatieregel Aangezien classificatie de centrale doelstelling is van de ontwikkelde modellen is deze performantiemaatstaf de meest gebruikte in het kredietbeoordelingsonderzoek. Op basis van een classificatievegel wordt een kredietnemer toegewezen tot de falende of de lopende categorie. Bij binaire scoremodellen zoals beslissingsbomen en neurale netwerken met binaire transformatiefuncties gebeurt de classificatie rechtstreeks, hoeft dus geen afkapgrens bepaald te worden en kan de accuraatheid van het model direct bepaald worden. Binnen een continue scoremodel kan de classificatieregel algemeen als volgt worden voorgesteld: =
j, van kredietnemer i >y5'; i O1alsals dede score score j; van kredietnemer i l y'b
(10)
met Y
*
= toegewezen klasse van kredietnemer i
ji
= falingsscore van kredietnemer i (b.v. logit score)
Y
= afkapgrens, treshold of cutoffpoint
Een classificatieregel verdeelt de scores dan in twee groepen8 waarbij twee types misclassificaties optreden: 1. Type I fout: de fout dat men een gefaalde kredietnemer klasseert als een lopende; 2. Type II fout: de fout dat men een lopende kredietnemer klasseert als een falende.
Het is de bedoeling deze afkapgrens te bepalen waarbij beide fouten geminimaliseerd worden. Er spelen echter nog twee factoren een rol bij de bepaling van het optimale afkappunt, nl. de populatieproporties en de misclassificatiekosten. Depopulatieproporties (cfr. punt 11) geven de frequentie van falingen in de populatie kredietnemers aan. Men heeft de falende en de lopende populatieproportie, waarbij deze laatste soms tot 50 keer groter is dan de eerste. Het model is gebaseerd op steekproeven lopende en gefaalde kredietnemers waarvan de proporties niet overeenstemmen met deze uit de populatie, i.e. de gefaalde gevallen zijn oververtegenwoordigd. Wanneer men het classificatiemodel toepast op de werkelijke populatie moet gecorrigeerd worden voor deze scheeftrekking: in werkelijkheid (i.e. de populatie) komen veel minder falende kredietnemers voor dan in de steekproef. De misclassijïcatiekosten9 zijn in de context van kredietverlening eveneens sterk verschillend voor beide fouten: een falende kredietnemer foutief als lopend klasseren weegt vaak zwaarder door dan een lopende als falend klasseren. Volgens Altman (1980) kiinnen de volgende componenten van de type I kost onderscheiden worden: e recuperatieratio (terugwinning via waarborgen); e verloren interestopbrengsten op het nog uitstaand bedrag; 8 opportuniteitskost van tijd die gespendeerd wordt aan de afhandeling van slechte debiteuren; e juridische kosten (o.a. advocaatkosten). De type I1 kost is heel wat moeilijker te kwantificeren aangezien meestal geen informatie bijhouden wordt over de verworpen kredietaanvragen. Deze kost is een opportuniteitskost en is opgebouwd uit de volgende componenten: a verloren winstmarge (t.o.v. een referentierente of kapitaalkost); e verloren winstmarges op toekomstige kredieten; e verloren winstmarges op eventuele andere verrichtingen.
Marais et al. (1984) spreken van de lossfunction, i.e. een matrix opgesteld door kredietanalisten met de relatieve misclassificatiekosten. Deze kosten kunnen sterk verschillen naargelang de specifieke kredietnemer. Onderstaande formule bundelt al deze bedenkingen om te komen tot de te minimaliseren kostenfunctie (Koh (1992)):
expected cost = EC = 7 t ~ ~l ~Type C I~+~nlOpCDp, , a Type II
(11)
met = populatieproportie falende resp. lopende kre-
Xfai, X I ,
,
C,, , C,, Type I, Type 11
dietnemers = kost van Type I en Type I1 fout. = misclassificatiepercentages ten gevolge van type
I , resp. type I1 fouten. Steele (1995) vermeldt dat tot nog toe weinig aandacht besteed is aan de invloed van misclassificatiekosten en populatieproporties, de zogenaamde subjectievefactoren, op het afkappunt. Een uitzondering n
C~ypr~
hierop is Koh (1992), die een reeks kostenverhoudingen -voorC~vmII opstelt en daarbij telkens liet optimale afkappunt berekenty~enmodel kan bij voorbeeld beter presteren dan een ander bij een kostenverhouding van 1:1, maar minder (i.e. een grotere EC vertonen) bij een andere verhouding. Hierdoor wordt duidelijk dat de keuze van het beste model voor een groot deel wordt bepaald door het risicogedrag van de kredietbeslisser, nl. hoe staat hij t.o.v. de foutkosten. Er bestaat een mogelijkheid om - zonder rekening te houden met de subjectieve factoren - de classificatieperformantie van een model statistisch te testen. De significantie wordt getoetst met de KolmogorOV-Smirnovtest. De Kolmogorov-Smirnov two-sample test is een nietparametrische test die nagaat of twee onafhankelijke steekproeven getrokken zijn uit dezelfde populatie (of populaties met dezelfde verdeling). De one-tailed KS two-sample test wordt gebruikt om te bepalen of de observaties in de populatie waaruit één steekproef (b.v. de falende steekproef) werd getrokken stochastisch groter zijn dan de waarden van de populatie waaruit de tweede steekproef werd getrokken (Siegel en Castellan (1988)). Toegepast op kredietscoring betekent dit het volgende: De KStest gaat na of de of de scores van de falende kredietnemers signifi-
cant hoger liggen dan deze van de lopende kredietnemers. De KStest maakt gebruik van de cumulatieve verdelingsfuncties van de kredietscores van de lopende (F,,) en de falende kredietnemers (Ff,,). Het grootste verschil tussen beide functies drukt uit of de steekproeven al dan niet uit dezelfde populatie komen. Dlol,,fal = max [F,, (Y)- Ff.1 (Y) l waarbij met DloP,fa,
= maximaal verschil tussen lopende en falende score-
verdeling (Y)
= cumulatieve verdeling van de scores y van lopende
Ff,, (Y)
= cumulatieve verdeling van de scores y van falende
no
= aantal lopende resp. gefaalde kredietnemers
Fl,
kredietnemers kredietnemers J
y11
D e bovenstaande testgrootheid benadert een %'-verdeling met 2 vrijheidsgraden wanneer de steekproeven groot zijn. De score waarbij het maximaal verschil tussen de lopende en falende cumulatieve distributiefunctie voorkomt, is tevens het optimale afkappunt op basis van de minimalisatie van de misclassificatiefouten (en dus met abstractie van de subjectieve factoren). Dit verband wordt toegelicht in Appendix 2.
B. Maatstaven gebaseerd op het ongelijkheidsprincipe De performantie van een model kan ook grafisch aangetoond worden door de constructie van de trade-offfunctie. De cumulatieve waarschijnlijkheidsfuncties voor lopende en falende ondernemingen gemeten bij elke score1° worden dan gesitueerd in een assenstelsel met als X-as de type I-fout (Ff,,(y)) en als Y-as de type 11-fout (l-F,Jy)) (Steele (1995)). Een model presteert "beter" naarmate de curve dichter bij de assen ligt. Het best presterende model en meest discriminerende model vertoont een trade-off functie die langs de assen loopt. Een perfect model classificeert immers elke 'falende' kredietnemer als wer-
kelijk falend (de type-I fout is dus steeds 0) en een lopende onderneming als lopend (de type I1 fout is eveneens O voor elke waarde). Het slechtst presterende model (i.e. een model dat geen onderscheid kan maken tussen falende en lopende kredietnemers) verloopt daarentegen lineair dalend van 100% type IS tot 100% type I. In dit geval vallen FfL,,(y)en F,,(y) immers samen (voor elke score zijn er evenveel lopende als falende kredietnemers) waardoor de type I en type SI-fouten voor elke score steeds complementair zijn. Elk punt op de curve vertegenwoordigt een optimaal afkappunt bij een gegeven foutkost (C,,,, I en CDp,Ir) en populatieproporties (q,, en n,,)). De procedure voor het bepalen van het optimale afkappunt rekening houdend met de foutkost en de populatieproporties is opgenomen in figuur 1. In het voorbeeld wordt uitgegaan dat een standaardkrediet van 500 BEF voor 70% van de hoofdsom verloren gaat bij een faling van de kredietnemer en de commerciële kost 1,2% bedraagt (i.e. 6 BEF op 500 BEF). De populatieproporties worden resp. 98% (lopend) en 2% (falend) verondersteld. Deze subjectieve factoren worden vervolgens gecombineerd in het derde kwadrant terwijl de trade-offfunctie in het eerste kwadrant van Figuur 1voorgesteld wordt. FIGUUR 1 %de-offfunctie tussen Type I en Type I1 misclassificatiefout en bepaling van het optimaal afkappunt.
Type I : 1 1 %
~ ( & e l/)= 8 BEF prlor(lal)= 2% prior(1op)- 98%
De ongelijkheid tussen het geschatte model (de curve) en het slechtst mogelijke model is een geaggregeerde performantiemaatstaf, en wordt voorgesteld door de ginicoëficiëntl l. Deze ligt tussen O en 1 en is gelijk aan de verhouding van enerzijds de oppervlakte gevat tussen de model-curve en het slechtste model (i.e. de gearceerde oppervlakte in Figuur 2) en anderzijds de oppervlakte tussen het slechtste en beste model (i.e. de driehoek met de assen als benen).
FIGUUR 2 Het beste, slechtste en geschatte classificatiemodel
Geschatte
Model
0.0
0.1
0.2 0.3 0.4
0.5
0.6
Type I fouten
0.7
0.8
0.9
1.0
Een empirische benadering van de ginicoëfficiënt is weergegeven in onderstaande formule:
X i > Yr X,,,,
1
Y,,
= type I en type I1 fout bij afkapgrens i = maximaal type I en type 11, i.e. elk 100%
Er bestaan eveneens mogelijkheden voor de berekening van de spreiding of variantie van de ginicoëfficiënt. Dit levert een beeld van de betrouwbaarheid van de schatting op. Een empirisch georiënteerde methode wordt voorgesteld door Wygard en Sandström (1989): via jackknifing (cfr. punt VI.B.3) of de systematische weglating van één observatie wordt de ginicoëfficiënt telkens herrekend. De schatting van de variantie ziet er als volgt uit:
met
n-l n (GINI) = -C (GINII') - GINI" n ;=I
)2
(14)
ô j ~ , , ( G I ~ I ) = geschatte variantie van de ginicoëfficiënt = geschatte ginicoëfficiënt bij weglating van observaGINI@) tie i = gemiddelde van alle GI&I(~) GI N I ~ ) Bovenstaande definitie van de ginimaatstaf is slechts één mogelijke formulering van ongelijkheid. Zeer vaak wordt in classificatiestudies beroep gedaan op het entropieconcept van Theil. Dit zal hieronder verder worden besproken. In punt VB werd de KS-test aangehaald als significantietoets van de afstand tussen de cumulatieve verdeling van de lopende scores en deze van de falende scores. Bij vergelijking van verschillende modellen zal bij het best presterende model het grootste verschil tussen de
cumulatieve verdeling van de lopende en falende ondernemingen genoteerd worden. Dit houdt verband met de ongelijkheid tussen twee verdelingen en kan dus ook onder de huidige performantiecategorie gebracht worden. C. R2-type maatstaven Dit type maatstaf duidt het percentage van de variantie aan dat verklaard wordt door het model. Dit gebeurt door vergelijking van de voorspelde waarden (i.e. falingsscores die in het interval [0,1] liggen) met de werkelijke waarden (i.e. O of I ) van de afhankelijke variabele. Deze maatstaf kan dus niet gebruikt worden bij discriminantmodellen die een output tussen -m en +m opleveren en waarbij ook geen variantie hoeft verklaard te worden. Bij deze discriminantmodellen kan men wel eventueel gebruik maken van eenzgn. count (cfr. punt V.C.4). In de context van twee-groepen classificatie zijn er een aantal alternatieve R' maatstaven. Altman et al. (1981) merken op dat deze maatstaven gemakkelijk interpreteerbaar zijn voor de vergelijking van verschillende modellen gebaseerd op dezelfde steekproef. De resultaten zijn echter sterk afhankelijk van zowel de steekproef als de distributie van de verklarende variabelen.
1. Maatstaven gebaseerd op residuen Een residu is het verschil tussen een voorspelde en een werkelijke . bestaan voor kwalitatieve modellen een aantal waarde: ~ ( y , - j , ) ~Er dergelijke maatstaven. De meest gebruikelijke is deze van Efron (Maddala (1991)):
In bovenstaande formule wordt de gekwadrateerde fout vermenigvuldigd met een factor waarbij n, het aantal gefaalde kredietnemers (met y= l) en n, het aantal lopende kredietnemers (met y=O) voorstelt. Domencich en McFadden (1975) verfijnen de bovenstaande R' door een gelijkaardig residu te construerenvoor het zogenaamd naïef model, i.e. een model waarin alle observaties dezelfde probabiliteiti, hebben doordat de verklarende variabele enkel uit een constante bestaat.
R2 uit formule 15 wordt voor dit naief model bekomen door 9, in de teller te vervangen door 9, die gelijk is aan de proportie falende kredietnemers in de steekproef. De McFadden R2 ziet er als volgt uit (Altman et al. (1981)):
-+( y 1- Y , )
2
Bovenstaande maatstaven zijn echter minder betrouwbaar in kleinere steekproeven, zodat McFadden zelf een meer robuuste maatstaf voorstelt, gebaseerd op de log-likelihoodfunctie. 2. Maatstaven gebaseerd op likelihood ratios Deze maatstaf kan enkel gebruikt worden modellen waarbij de coëfficiënten bepaald worden op basis van de Maximum Likelihood Methode.Tot deze categorie behoren de logit en probit-modellen die eerder besproken werden (cfr. punt III.A.2.b en III.A.~.c)'~.De log-likelihood functie is de natuurlijke logaritme van formule 5:
waarbij n, het aantal gefaalde kredietnemers (met y = l ) en n, het aantal lopende kredietnemers (met y=O) voorstelt. Net zoals hierboven wordt deze grootheid vervolgens opgesteld voor het naïef model r proportie falende door in formule 17 de scorej, te v e r v a n ~ d o ode elementen in de steekproef. Dit levert In L op (Altman et al. (1981)). De likelihood ratio test is gebaseerd op het verschil tussen de log-likelihood van het geschatte en het naïef model, en is x2-verdeeld met het aantal variabelen als vrijheidsgraden (of het aantal parameters k min 1):
is een alternatief voor boDe zogenaamde McFadden pseudo venstaande test en is weergegeven door de volgende formule (Maddala (1991)):
F z ~ ( F ~Z) ~+n ( 1 - y ~ ) McFadden pseudo R'
=l-
'=n,' l n ( j ) -t n,i=l ln(1- 9 )
(19)
index heeft nog maar weinig te maken met de R2 Dezepseudo binnen de context van lineaire regressie. 3. Hosmer-Lemeshow testgrootheid
Deze testgrootheid wijkt af van de klassieke R2 berekening, maar is wel gebaseerd op de afwijking tussen geobserveerde y's (O of 1)en geschatte y's. De techniek is enkel van toepassing op modellen die een falingsprobabiliteit opleveren tussen O en 1 (Hosmer en Lemeshow (1989)). Het vertrekpunt is een rangschikking van de n geschatte pi waarnl~. den, die ingedeeld worden ing groepen, de zgn. ~ i s i c o ~ r o e ~ eBinnen elkegroep wordt vervolgens het aantal gefaalde kredietnemers bepaald en omgezet in een proportie 0.De verwachte proportie E is gebaseerd op de geschatte scores, vb. logit scores (liggen tussen O en l ) . Deze grootheden O en E worden voor elke risicogroep als volgt berekend:
waarbij nk het aantal waarnemingen binnen de risicogroep k voorstelt. De Hosmer-Lemeshow testgrootheid HL wordt hieronder weergegeven:
Het voordeel van deze testgrootheid is dat er een significantietest mogelijk is, aangezien HL x2-verdeeld is. Het nadeel is dat HL gebaseerd is op een groepering van waarnemingen en dat er dus een verlies aan informatie is. Via het bekijken van de g verschillende risicogroepen kan men zones ontdekken waar het model minder goed presteert. 4. Count R2 Deze maatstaf leunt sterker aan bij maatstaven gebaseerd op een classificatieregel dan op de klassieke R2 - berekeningen. Stel opnieuw: Yi
=
de score 9, van kredietnemer i >y* ( O1 als als de score j; van kredietnemer i < y *
met
y* = toegewezen klasse van kredietnemer i j = falingsscore van kredietnemer i (b.v. logit score) y* = afkapgrens, treshold of cutoffpoint Vervolgens worden dan het aantal juist en fout geklasseerde ondernemingen onderscheiden. De gezochte is dan (Maddala (1991))14:
R2
Aantal juiste predicties Aantal observaties
Deze maatstaf kan dus zowel voor discriminantanalyse als regressiemodellen gebruikt worden. Daarnaast is er ook de mogelijkheid om deze maatstaf toe te passen bij binaire scoremodellen. Bij deze laatste modellen wordt opnieuw niet gewerkt met een afkappunt maar wordt er rechtstreeks afgelezen hoeveel correcte predicties gemaakt werden. Deze R~-maatstafis dus de enige die rekening kan houden met populatieproporties en misclassificatiekosten.
D. Maatstaven gebaseerd op entropie Dit begrip is afkomstig uit de informatietheorie van Shannon (1948). De eerste econometrische toepassingen zijn te vinden bij Theil(1971).
Informatie van een gebeurtenis is omgekeerd evenredig met de kans dat het zich voordoet: de verassing is dus zeer groot als een gebeurtenis met een zeer kleine kans op voorkomen zich toch voordoet. Informatie wordt gemeten via een kansfunctie. Bij een ééndimensionele distributie van een variabele X met k klassen (of die k waarden kan aannemen) kan de entropiewaarde of verwachte informatiewaarde als volgt worden voorgesteld (Thiers):
P(x,) log, X I(X)
= = = =
probabiliteit dat X behoort tot klasse i (X = xi) logaritme met basis het getal 2 een variabele X die k waarden kan aannemen X,, X, ..., xk informatie van X uitgedrukt in bits
Een uitbreiding van bovenstaande formule wordt bekomen door over te gaan op een tweedimensionele distributie met variabelen X en Y die resp. k en n klassen hebben (b.v. X is de verkregen predictiescore en wordt in 6 klassen ingedeeld; Y is een dummy (0,l) die weergeeft of de kredietnemer al dan niet gefaald is). Het is de bedoeling na te gaan wat het verband is tussen X en Y en welk deel van de informatie van Y kan verklaard worden door X, de zgn. mutuele of gemeenschappelijke informatie: I(X:Y). Onderstaande formule geeft de mutuele informatie weer:
met
I(X),I(Y)= informatie van de eendimensionele distributie van X resp. Y
I(X, Y)
= informatie van de tweedimensionele distributie van X en
P(x,yj)
= kans van het
Y samen voorkomen van xi en yi
(joint probability) Een alternatieve formulering voor mutuele informatie is weergegeven in onderstaande formule (Quinlan (1993)):
met = informatie van de eendimensionele distributie van X I(Y) I(Y(X) = conditionele informatie, i.e. I(Y) waarbij X constant is P(yj/x,) = de conditionele kans vany, wanneer X, geldt
De mutuele informatiemaatstaf, ook wel gain genoemd, geeft de hoeveelheid verband aan tussen X en Y en is te vergelijken met een correlatiecoëfficiënt. Het is een symmetrische maatstaf die de hoeveelheid informatie aangeeft die gemeenschappelijk is aan X en Y. De mate waarin Xverklaard wordt door Y wordt bekomen door I(X:Y) te relateren aan de totale informatie van X, i.e. I(X). De bekomen maatstaf wordt ook wel de gain ratio genoemd en wordt weergegeven door de volgende formule:
Quinlan (1993) duidt nog op het belang van de noemer aangezien er een scheeftrekking bestaat in functie van het aantal klassen X: het meest extreme geval is datgene waarbij er evenveel klassen als waarnemingen van X bestaan. Wanneer elke klasse één unieke waarneming van X bevat, zal de conditionele informatie I(Y:X)] gelijk zijn aan 0. Hierdoor wordt I(X:Y) gelijk aan I(Y) (Quinlan (1993)). Het onderstaande voorbeeld illustreert de berekening van bovenstaande informatie maatstaven. TABEL 1 Berekening van de entropiemaatstaven X Predictiescore X<0,2 0,2<X<0,3 0,3<X<0,4 0,4<X<0,6 0,6<X<0,8 X>0,8 totaal I(x) I(Y) I(Y(X) MI (X,Y) C1 (X:Y)
aantal lopende 40 35 24 15 10 1 125
Y aaillal falendc 1 2 2 4 6 10 25
totaal aantal 41 37 26 19 116 11 150
= 2,446251 bits1' = 0,650022 bits"
= 0,416848 bitsL7 = 0,234073 bits = 0,095687 bits
Deze maatstaven kunnen in twee opzichten worden gebruikt. Vooreerst kan men via MI of C1 depe$ormantie van verschillende modellen vergelijken door de cumulatieve verdelingen van de falingsscores (b.v. logistieke scores) te gebruiken als X zoals in bovenstaand voorbeeld. Net zoals bij verschillende R ~maatstaven zijn er immers geen absolute normen voor de MI en de gain ratio waardoor de toepassing van deze maatstaven dus vooral bij vergelijking van modellen aangewezen is. Een tweede gebruik is gericht op het classificatiekarakter van de geschatte modellen: via entropie kan gezocht worden naar de afkapgrens waarbij de MI of C1 maximaal is. Deze grens wordt gevonden via een trial-and-error procedure waarbij elke falingsscore als afkapgrens wordt gebruikt om de verdeling van de scores te splitsen in twee klassen, nl. falende en lopende kredietnemers. Variabelen X en Y be-
vat dan elk 2 klassen waaruit MI en C1 kunnen berekend worden. Een andere toepassing van dit classificatiekarakter vindt plaats bij de inductie van beslissingsbomen waar entropie gebruikt wordt om de splitsingswaarden voor de variabelen te bepalen. Een mogelijk nadeel van het entropieconcept is dat enkel een beoordeling wordt gegeven over het discriminerend karakter van het model. Bovendien kan a posteriori ook geen rekening gehouden worden met kostenverhoudingen en populatieproporties. Deze maatstaf wordt dus best steeds in combinatie met andere maatstaven toegepast. In het falingspredictie-onderzoek werd entropie toegepast als performantiemaatstaf door Zavgren (1985) en Keasy en McGuinness (1990). Beide studies vergelijken van de informatiewaarde van 5 geschatte logit en probit modellen (5 jaar, 4 jaar, ..., l jaar voor faling). Keasey en McGuinness (1990) concluderen dat de informatie significant hoger is voor het 1jaar-model t.o.v. het 5 jaar-model wanneer deze gebruikt worden voor gefaalde ondernemingen, maar deze vaststelling niet algemeen opgaat voor lopende ondernemingen.
E. Samenvatting
TABEL 2 Methodes en performantiemaatstaven bij twee-groep classificatie
Classificatieregel Trade-off functie GINI-maatstaf Efron R2 McFadden RZ Likelihood Ratio Test McFadden Pseudo RZ Hosmer-Lemeshow Count R' Entropie
Statistische Methodes Regressie Discrimet minantafhankelijke analyse duinmy X X X X X X X X
Inductieve Leermethodes Machine Neurale Learning ~etwerken'"
X
x"
X X X X X
x 2 0
X X
X X X
X X
X X X
VI. VALIDERINGSASPEKTEN De classificatiemodellen worden geschat op basis van een steekproef, de zgn. schattingssteekproef en kunnen met elkaar vergeleken worden via de hierboven besproken performantiecriteria. Deze criteria zijn voor een stuk scheefgetrokken2' wanneer ze berekend zijn op dezelfde gegevens waarmee de modellen tot stand zijn gekomen. Aangezien het de bedoeling is de scoringsmodellen te gebruiken voor predictieve doeleinden en vooral voor het raten van kredietnemers die niet tot de steekproef behoren, is het van belang een validering of betrouwbaarheidstest van de modellen door te voeren. Op die manier wordt het overfitting-fenomeen (cfr. punt I1I.B en II1.C) geneutraliseerd dat voorkomt bij het gebruikvan complexe methodes (b.v. neurale netwerken met verschillende hidden layers of niet-vereenvoudigde beslissingsbomen). Voor validering bestaan verscheidene procedures, die telkens gevalideerde versies opleveren voor de performantiemaatstaven. Er kan een onderscheid gemaakt worden tussen de methodes die gebruik maken van nieuwe gegevens (weerspiegeld in een valideringsdataset) en deze die de bestaande steekproef hergebruiken. A. Gebruik van nieuwe steekproeven
I-Iet model wordt geschat op basis van de schattingssteekproef (i.e. training of design sample) en wordt vervolgens gevalideerd via een valideringsdataset (i.e. test of holdout sample). Deze methode wordt ook wel one-shot train-and-test (Michie et al. (1994)) of holdout method (Huberty (1994)) genoemd. Een nadeel van deze methode is de noodzaak van grote databestanden van falende en lopende kredietnemers, aangezien er voldoende observaties nodig zijn voor zowel de schatting als de validering. De betrouwbaarheid van de verschillende performantiemaatstaven hangt af van de grootte van de holdout sample, maar hoe meer observaties deze bevat, hoe minder er overblijven voor de design sample. Aldus. zal het classificatiemodel een lagere prestatie kennen. Deze methode kan als inefficiënt worden beschouwd, aangezien grotere steekproeven noodzakelijk zijn om een goed classificatiemodel te kunnen opstellen. Vanuit deze nadelen zijn de hieronder beschreven methodes gegroeid.
B. Gebruik van de oorspronkelijke steekproef De hieronder besproken valideringsmethodes maken alle gebruikvan de oorspronkelijke schattingssteekproef. Er wordt een onderscheid gemaakt tussen crossvalidering, jackknifing en bootstrapping. 1. Crossvalidering
Dit is de meest elementaire methode waarbij de observaties verdeeld worden in M substeekproeven. Elke substeekproef wordt gebruikt als valideringsset voor het classificatiemodel dat geschat wordt op basis van de observaties uit de overige M-l substeekproeven (Michie (1994)). Dit proces wordt M keer herhaald door M modellen te schatten en telkens de performantie te bepalen op de M-de valideringsset. Om een beeld te krijgen van de gemiddelde performantie wordt het gemiddelde van elke maatstaf bepaald over de M valideringen. Deze valideringsmethode is standaard opgenomen in de meeste tree classification software (b.v. C4.5 en CART). Het rekenintensieve karakter van cross-validering stelt geen onoverkomelijke problemen. Deze methode is niet aangewezen voor de bepaling van maatstaven andere dan de misclassificatiefouten, aangezien in kleinere steekproeven M datapunten wegvallen en dit de statistische efficiëntie van de performantiemaatstaven schaadt. 2. Lachenbruchprocedure
D e Lachenbruchmethode is eigenlijk een speciaal geval van crossvalidering (cfr. punt VI.B.l) waarbij Mwordt gelijkgesteld aan het aantal observaties n in de steekproef. Aldus worden n modellen geschat op basis van n-l observaties. Deze methode wordt ook de leaving-one-out method genoemd (Lachenbruch (1975)) en wordt gebruikt voor de schatting van het misclassificatiepercentage van een model, en niet zozeer voor de berekening van de andere performantiemaatstaven.
D e jackknife maakt ook gebruik van de leaving-one-out benadering en is een techniek voor het bepalen van de scheeftrekking en de standaardfout van statistische schatters, zoals b.v. de coëfficiënten in een logit of probit model. De jackknife maakt daarvoor gebruik van steek-
proeven waarbij één observatie weggelaten is, de zgn. n jackknife samples, en schat telkens de parametervector 0'') (i.e. de schatting van parameter Q bij weglating van observatie i). De scheeftrekking van de parameter wordt verkregen via de volgende formule (Efron en Tibshirani (1993)):
Een schatting van de variantie van parameter Q Is reeds gegeven voor de ginicoëfficiënt in formule 14. Aldus kan men voor elke performantiemaatstaf de betrouwbaarheid berekenen via de jackknife waarde voor de bias (of scheeftrekking) en variantie. E r kunnen zelfs voor elke maatstaf confidentie-intervallen bepaald worden. Op die manier wordt elke performantiemaatstaf meteen berekend en geëvalueerd voor de totale populatie. In zijn onderzoek naar de efficiëntie van de jackknife kwam Efron (1993) echter tot het besluit dat de jackknifeschatting voor de scheeftrekking en spreiding sterk afhangt van de onderliggende empirische verdeling van de observatie^^^. 4. Bootstrapping Gedurende de voorbije l 0 jaar is de bootstrap sterk ontwikkeld en toegepast in diverse domeinen, i.c. kredietscoring. Marais et al. (1984) waren de eersten die bootstrapping toepasten op kredietscoring. De techniek is voor een deel vergelijkbaar met jackknifing en kan aangewend worden om enerzijds een benadering te geven van de true error rate of de werkelijke misclassificatiefout van een model en anderzijds de betrouwbaarheid van de modelparameters te testen. Stone and Rasp (1993) vergelijken een aantal valideringsprocedures voor falingspredictiemodellen gebaseerd op logit analyse, i.c. bootstrap en cross-validering. Algemeen kan men stellen dat bootstrapping een computerintensieve techniek is, gericht op het herbruiken van de dataset om daarmee een testgrootheid accurater te bepalen. Deze testgrootheid kan dus het rnisclassificatiepercentage, andere performantiemaatstaven of de pararnetervector zijn. Bootstrapping behoort tot de zgn. resampling m e t h ~ d waarbij s ~ ~ het de bedoeling is de populatie - waaruit de
steekproef random getrokken is - te simuleren via B bootstrap steekproeven. Algemeen kan de bootstrap voorgesteld worden door Figuur 3. FIGUUR 3 Schematische tekenmg van de bootstrap toegepast op problemen met een algenzene datastructuur P -t x, I c. het kred~etscor~ngmodel gebaseerd op geobserveerde kenmerken van kredietnemers
REAL WORLD
BOOTSTRAP WORLD
Observed Data
(Efron en Tibshirani (1993))
Het werkelijk classificatiemodel P is gebaseerd op geobserveerde ~ ~ )waarbij > x(i) de data voorgesteld door de vector x =(X,, X ~ , . . . X b.v. waarnemingen van elke variabele voor een bepaalde steekproefeenheid voorstelt. De performantiemaatstaf van het model (b.v. de ginicoëfficiënt) wordt geschat via O. De bootstrapzijde van Figuur 3 behandelt op analoge wijze het elementen uit de werkelijke wereld. D e berekening van 6* gebeurt op dezelfde manier van 6 maar deze keer gebaseerd op de bootstrapsteekproeven. Deze steekproeven xi* zijn random getrokken met teruglegging uit de oorspronkelijke steekproef x. Zo kan het voorkomen dat kredietnemer k meermaals voorkomt in een bootstrapsteekproef en kredietnemer q niet opduikt in deze steekproef. D e dubbele pijl "=3" is cruciaal en geeft aan dat men het model P schat op basis van de oorspronkelijke steekproef. Dit schattingsproces wordt voor elke herhaald, waaruit telkens de testgrootheid 6
volgt. De verdeling van O* imiteert de werkelijke verdeling van deze modelparameter in de totale populatie. Via een histogram kan deze empirisch bepaalde verdeling grafisch uitgebeeld worden en kunnen confidentie-intervallen bepaald worden (Efron en Tibshirani (1993)). Concreet betekent dit dat men voor elke performantiemaatstaf een empirisch confidentie-interval kan bepalen en daaruit hypothesetesten kunnen afleiden. Cruciaal hierbij is dat de bekomen confidentieintervallen niet symmetrisch opgebouwd zijn rond de eerste waarneming van de parameter. Veall (1992) stelt voor de bootstrap te betrekken bij het data miningprocess, i.e. de zoekprocedure om de relevante variabelen op te nemen in het model. Hij behandelt dit proces als een schatter met een geschatte steekproefverdeling, bekomen via bootstrapping. Veall bekritiseert de stepwise procedure in de klassieke statistische modelbouw, aangezien de geschatte coëfficiënten in de laatste run niet noodzakelijk deze zijn die in de werkelijke populatie geldig zijn. Veall voert 2000 bootstrapreplicaties uit en onderzoekt voor elke variabele het aantal keer dat deze weerhouden wordt in een model. Aldus bekomt hij een overzicht van het data mining process. De bootstrap kan eveneens aangewend worden om de predictiefouten van een model te schatten. Marais et al. (1984) en Frydman et al. (1985) passen dit toe op hun falingspredictiemodellen. De meest eenvoudige aanpak hierbij is de volgende (Efron en Tibshirani (1993)): neem B bootstrapsteekproeven en scliat telkens een model; gebruik het model om de oorspronkelijke steekproefelementen te classificeren volgens formule 10; bepaal telkens het foutenpercentage (eventueel type I en type I1 fouten). De afwijking tussen het foutenpercentage in de oorspronkelijke en de bootstrapsteekproef wordt optimisme genoemd:
l B
(28)
met
optimisme = -C[err,(x,y') - err, (x",y " ) ] Bb=~
B e n , (x,y*)
= aantal bootstrapreplicaties (b= 1(B) = misclassificatie in de oorspronkelijke steekproefx op
err, (x*,yf
= misclassificatie in de bootstrapsteekproef x* op basis
basis van het afkappunt y* (uit bootstrapmodel) van het afkappunt y* (uit bootstrapmodel)
Marais et al. (1984) berekenen dus het optimisme van de expected loss rateZ4i.p.v. het verwachte misclassificatiepercentage. Zij komen soms tot resultaten waarbij de expected loss rate van het bootstrapmodel drie keer lager is dan deze uit de oorspronkelijke steekproef. Het optimisme of de overjitting bias kan dus ernstig zijn. Tabel 3 vat bondig de valideringsprocedures samen. De volgorde is historisch bepaald waarbij de bootstrap pas in 1979 door Bradley Efron werd beschreven. TABEL 3 Overzicht en gebruik van vnlidenngsproced~~res Valideringsinethode crossvalidering Lachcnbruch jacltltnife
bootstrapping
Hergebruik van steekproeven M steekproeveil zonder teruglegging n steekproeven zonder teruglegging 11 steekproeven zorzder teruglegging
B steekproeven me1 teruglegging
Gebruik misclassificatie % misclassificatie % misclassificatie % parameterverdeling maatstaven (verdeling) misclassificatie % parameterverdeling maatstaven (verdeling)
VII. BESLUIT Dit artikel poogt een aantal aspekten te belichten die van belang zijn bij het opstellen en het beoordelen van classificatiemodellen voor kredieten. Deze worden ondergebracht in vijf categorieën: bepaling van de steekproef en schattingstechnieken, variabelenkeuze, performantiebeoordeling en validering. Vooreerst moet er voldoende aandacht worden besteed aan de omlijning van de populatie kredietnemers en de daaruit volgende steekproeftrekking. Indien het model nieuwe kredietnemers classificeert, zal het pre-screening fenomeen opduiken wanneer alleen bestaande kredietnemers in de steekproeven opgenomen zijn. Er bestaan verschillende schattingstechnieken om modellen op te stellen, zodat de keuze vaak niet zo eenduidig is:Factoren die een rol spelen zijn o.a. de interpreteerbaarheid van het model, de behandeling van verschillende meetniveaus van de variabelen, de verwerking van missing va-
lues en de betrouwbaarheid. Naast de klassieke statistische modellen zijn ook machine learning en neurale netwerken besproken. Het garbage-in-garbage-outprincipe is van toepassing bij de variabelenselectie: de bepaling van de kandidaat-variabelen, een accurate meting en een duidelijk onderbouwde selectie ervan zijn uiterst belangrijk. Uit de tientallen modellen die kunnen worden opgesteld, wordt het "beste" geselecteerd op basis van een aantal performantiecriteria. Deze paper stelt vier soorten maatstaven voor, die worden berekend om de vergelijking van verschillende modellen mogelijk te maken. Tot slot wordt aandacht besteed aan de betrouwbaarheid van deze maatstaven in de populatie-omgeving door valideringstesten voor te stellen. Bootstrapping is hierbij een recente techniek met het grote voordeel dat de betrouwbaarheid van een model voldoende kan getest worden zonder nieuwe valideringssteekproeven. De conclusies van deze paper zijn nuttig als checklist voor het opstellen, interpreteren en vergelijken van classificatiemodellen. Banken en ondernemingen hebben immers veel belang bij het opstellen van betrouwbare en robuuste modellen voor het analyseren van kredietaanvragen of doorvoeren van periodieke herzieningen.
APPENDIX I Vergelijking studies ivm schattingsmethodes Studie Marais, Pattell en Wolfson (1984)
Coininentaar De focus van dit onderzoek ligt op het opstellen en empirisch testen vals classiiïcatiemodellen voor commerciële kredieten. Er wordt aandacht besteed aan de loss function, i.e. de specifieke misclassificatiekostenvoor de bankier (cfr. punt VA). Probit en recursive partitioning worden met elkaar vergeleken. Beide modellen wordei1 onderworpen aan een sensitiviteitsanalyse voor een aantal factoren. Deze studie is bovendien één van de eerste accounting toepassingen die de bootstrapmethode (cfr. punt VI.B.4) gebruikt in de valideringsfase.
Studie Frydman, Altman en Kao (1985)
Srinivasan eii Kim (1987)
Chung en Tam (1993)
Weymaere en Martens (1993)
Commeiitaar Zij stellen Recursive Partitioning Algorithm (RPA) als decisioii tree methode t.o.v. LDA en passen beide tecliiiieken toe op falingspredictie. Innovatief is hier de vergelijkingswijze van LDA en RPA door te werken met risicogroepen, i.e. ondernemingen met ongeveer hetzelfde risico. Op basis vaii liet aantal gefaalde en lopende kredietnemers in de lenves wordt een alternatieve "score" berekend. Het RPA scoringssysteein is discreet waarbij het aantal scores gelijk is aan het aantal lenves, zodat elke onderneming binnen dezelfde lenf ook dezelfde score heeft. Ook vergelijken ze de betrouwbaarheid van de modellen via twee methodcs: cross-validering en bootstrapping. Het verlenen van handelskrediet staat hier centraal, waarbij zowel aandacht wordt besteed aan het schattenvan defnultiiskvan een klant, als het bepalenvan de hoogte van de kredietlijn. Ze gebruiken daartoe 4 statistische n~odellen(DA, logit analyse, goal programming en RPA) en één judgeinentnl model, nl. analytica1 hierarcliy process. Deze laatste techniek isvoor het eerst geïntroduceerd door Saaty in 1980 en levert opmerkelijke resultaten op in deze studie. Er wordt een comparatieve analyse uitgevoerd op 3 inductieve leermethodes (ID3, AQ en een backpropagation neuraal netwerk) en getest op een falingspredictie dataset. De neurale netwerken komen er als beste classificatie methode uit in zowel een 1 als 2 jaar voor faling model. Deze Belgische studie is gebaseerd op een dataset van Belgische jaarrekeningen (zowel verkort als volledig schema) en gebruikt 3 teclinieken: logit analyse, LDA en neurale netwerken. Het laatste model wordt in feitevergeleken met de Ooghe-Joos-De Vos modellen, aangezien dezelfde dataset wordt gebruikt. Er worden 3 classificatie-experimenten uitgevoerd, waaruit de neurale netwerk modellen meestal iets beter presteren dan de traditionele modellen.
neaire discriminantanalyse. neurale iietwerkeii en beslissiiigsbomen. Hierbij wordeii vier reële en drie artificiële datasets gebruikt. Als conclusie wordt gesteld dal liet gemiddeld foutenpercentage veel ininder varieert naargelang de methode (23,3 t.o.v. 29.3%) dan naargelang het type dataset (5,2 t.o.v. 45,956). Vervolgens worden methodes om oiseufittingbij neurale netwerken tevermijdenvergeleken. Daanioor wordt het gebruik van een valideringsdataset afgewogen tegenover het gebruik vaii een optimale netwerkAltman, Marco en Varetto (1994)
Salchenberger, Cinar en Lasli (1992)
In deze studie worden lineaire discriminantanalyse en neurale netwerken vergeleken. Hiervoor werden gegevens van meer dan 1000 Italiaanse firma's tussen 1982 en '92 gebruikt. Beide methodes leverden bevredigende resultaten op (ineer dan 90% correcte classificaties). Complexe neurale netwerken (met verschillende lzidden lnyers) bereikten een hogere performantie op de originele steekproef. Door de soms onlogische interconneciiegewichtei~en het ove$ittirig-fe~iomeenwerden bij validering echter mindere resultaten geboekt. Voor conclusies in verband met beide methodes werd dan ook verder onderzoek aaiigeraden. Neurale netwerken wordeii ook hier voorgesteld als een alternatief voor traditionele statistische technieken als logistieke regressie. Bij de evaluatie wordt rekening gehouden met verschillende type I en type 11-kosten. Voor de verscliillende geteste modellen (6, 12 en 18 maanden voor faling) bereiken de neurale netwerken significant betere resultaten. Daarnaast werden de grotere robuustheid en de soepelere basishypotheses als bijkomendevoordeleiivan neurale net-
APPENDIX 2 Verband tussen het optimaal afkappunt en de Koln~ogorov-Smirnovtestgrootheid
lopende kredietnemers
t
F (z)= P OP
o
+---
"lopend"
----t
1
"falends
kredietscore y De KS-testgrootheid werd gedefinieerd in formule 12 en is gebaseerd op het verschil tussen twee cumulatieve distributies en F,,,(y) en F (y).Anders uitgedrukt kan dit verschil als volgt geschreven worden:
Uit bovenstaande grafiek kunnen de misclassificatiepercentages worden afgeleid bij een afkappunt z: Type I = F,,(z) = q Type I1 = 1- F,,, (z) = l - p Voor de bepaling van het optimaal afkappunt (zonder rekening te houden met de foutkosten en populatieproporties) wordt de som van beide foutenpercentages geminimaliseerd: z is het optimaal afkappunt bij min [ F , , (z) + Ffa,(z)] = min [q+l-p]
Bij de KS-test wordt gestreefd naar het maximaliseren van D@-q) en bij classificatie wordt q + 1- p geminimaliseerd. Beide termen zijn complementair (p - q + q + - p = l) zodat het maximaliseren van D precies hetzelfde oplevert als het minimaliseren van de fouten. Aldus is D maximaal bij het optimaal afkappunt. NOTEN 1. Voorbeelden hiervan zijn te vinden bij Lane et al. (1986), Laitiiien (1993) e.a. 2. "Selection bias refers to the bias in the estimates obtained by following the usual procedures of estimation that ignore the non-randomness of the samples (Maddala (1992)). 3. Bovendien kan ook niet gewerkt worden met de OLS (Ordinary least squares) methode aangezien de storii~gstermniet normaal verdeeld is en bovendien te kampen heeft met heteroscedasticiteit. 4. Dezelfde coilclusie geldt ook voor liet lineair model. 5. Kredietbeoordeling is hiervan een typisch voorbeeld: misclassificatiekosten (cf. punt VB) bepalen zeer sterk het classificatieresultaat, zowel in de scliattings- als iil de valideringsfase. 6. Een stabiele financiële ratio wordt gedefinieerd als een ratio waarvan het gemiddelde onveranderd blijft over verschillende perioden. Financiële ratio's kunnen in de tijd veranderen omwille van verschillende redenen. Ecn sectorgerelateerde ratio incorporeert de reactie van zowel de iildividuele onderneming als de sector op een bepaalde gebeurtenis. Een voordeel van sectoraanpassing is dat veranderingen in de individuele ratio's worden toegelaten zonder dat de verwachtingswaarde van de sectorgecorrigeerde ratioverdeling wijzigt, bij een veronderstelling van constante variantie (Platt en Platt (1990)) 7. Dit betekent dat voor bepaalde steekproefeeliheden niet alle variabelen kunnen ingevuld worden. 8. Men kan ook werken met drie groepen, nl. de lopende, falende en grijze groep kredietnemers, door twee afkapgrenzen te bepalen. 9. Bij beslissii~gsbomenkan door toepassing valx bepaalde algoritmes, reeds bij het opstellen van het model rekening gehouden worden met het kostenaspect. 10. Deze maatstaf kan dus niet toegepast worden bij binaire scoremodellen. 11. Dit begrip wordt vooral gebruikt in de macro-economische leer over inkomensverdeling. die de vorm van een lo12. Bij neurale netwerken met opeenvolgeilde acfivntioi~,fi~tzclions git of probit functie aannemen, mag deze maatstaf echter niet gehanteerd worden daar de coëfficiënten in dit geval niet bepaald worden door de maximum likelihood methode. 13. Indien er 10 groepen worden gevormd, spreekt men van risicodecielen en is g = 10. 14. Maddala werkt bij deze maatstaf niet met optimale afkappunten maar met de afkapgrens 0,s; wanneer de score van de kredietnemer dus groter is dan 0,s wordt hij als 'falend' geklasseerd en vice versa.
19. Niet bij lineaire regressie 20. idem als 20.
21. Bij machine learning kan men zelfs beslissingsbomen opstellen met een 100% classificatiejuistheid (Michie ct al. (1994)) 22. Indien kleine veranderingen in de onderliggende data sleclits een kleine verandering meebrengt van de parameter O , dan wordt deze laatste alssr?zoothbestempeld en levert de jackknife betrouwbare resultaten op (Efron en Tibshirani (1993)). 23. Westfall en Young (1993) zeggen hierover het volgende: " Using tlie entire set of data y o i ~have in hand or ~ ~ s i tlze r ~ ggiven ha-generatimig nlechanisln (such as a die) thnt is n model of tlze process y011 cciish to z~nrlerstand,to procluce new samnples of simi~lnteddata, and to examine the i.esults of those samnples. " 24. Deze komt overeen met verwachte misclassificatiekost uit formule 11 en is gebaseerd op een specifieke lossfunction,i.e. een bepaling van de misclassificatiekosten.
REFERENTIES Altman, E.I., 1980, Commercial Bank Lending: Process, Credit Scoring, and Costs of Errors in Lending, Jo~lrnalof Financinl and Qi~antitativeAlzalysis 15, 4, November, 813831. Altman, E.I., Avery, R.B., Eisenbeis, R.A. and Sinkey, J.E, 1981, Application of Classification Techniques in Business, Bankiilg and Finance, (JA1 Press Iiic., Greenwich, Connecticut). Altman, E.I., Marco, G. and Varetto, F., 1994, Corporate Distress Diagnosis: Comparing Using Linear Discriminant Analysis and Neural Networks (the Italian Experience), Journol of Banking and Finance 18, 505-529. Asarnow, E. and Edwards, D,, 1995, Measuring Loss oii Defaulted Bank Loans: a 24-Year Study, The Journal of Commercial Lending, March, 11-23. Barnett, V. and Lewis, T., 1994, Outliers in Statistical Data, (Wiley Series in Probability, third edition, Chichester). Bell, T.B., Ribar, C.S. and Verchio, J.R., 1990, Neural Nets vs. Logistic Regression: a Comparison of Each Model's Ability to Predict Commercial Bank Failures, paper submitted to "Cash Flow Accounting Conference", (Nice). Berry, A.J., Faulkner, S., Hughes, M. and Jarvis, R., 1993, Financial Information, the Banker and the Smal1 Business, British Accoi~ntingReview.25, 2, June, 131-150. Boyes, W.J., Hoffman, D.L. and Low, S.A., 1989, An Econometric Analysis of the Bank Credit Scoring Problem, Joilrnal ofEconometrics.40, 3-14. Breiman, L., Friedman, J.H., Olsheil, R.A. and Stone, C.J., 1984, Classification and Regression Trees, (Wadsworth Intl., Belmont, California). Canart, A., 1990, Artificial Intelligente and Credit Risk Assessment: Machine Learning Applied to the Credit Granting Decision, doctoral dissertation, Departement d'Economie de I'Entreprise, (Facultés Universitaires Notre-Dame de la Paix, Namur). Chalos, P., 1985, Financial Distress: a Comparative Study of Individual, Model, and Committee Assessments, Joumal ofAccounting Research 23, 2, Autuinn, 527-543. Coats, P.K. and Fant, L.F., 1993, Recognizing Financial Distress Palterns Using a Neural Network Tool, Financinl Manageme~zt,Autumn, 142-155. Cowen, S.S. and Page, A.L., 1982, A Note on the Use of Selected Nonfinancial Ratio Variables to Predict Small-Business Loan Performance, Decision Sciences 13, l , January, 82-87. Chuiig, H.M. and Tam, K.Y., 1993, A Comparitive Analysis of Inductive-Learning Algorithms, I~aternationalJournnl of Intelligent Systems in Accounting, Fi~aancealzd Mnnagement 2, 1, January, 3-18. Curram, S.P., Mingers, J., 1994, Neural Networks, Decision Tree Induction aiid Discriminant Analysis: an Empirical Comparison, Journa1 ofthe Operational Research Sociey 45, 4, April, 440-450. Dietrich, J. and Kaplan, R., 1982, Empirical Analysis of tlie Commercial Laan Classification Decision, The AccouritilzgReview, January, 18-38.
Dopuch, N., Holthausen, R.W. and Leftwich, R.W., 1987, Predicting Audit Qualifications with Fiiiancial and Market Variables, Tlie Accounting Review 62, July, 431-454. Efron, B. and Tibshirani, R.J., 1993, An Introduction to the Bootstrap, (Chapman & Hall, New York). Favvad. ,, ,U.M. and Irani.,K.B..,1996., Multi-Interval Discretization of Continuous-Valued Attributes for Classification Leariiing, Machirie Leamiizg, 1022-1027 Fisher, R.A., 1936, Tlie Use of Multiple Measures in Taxonomie Problems,Arznals of Eilgenics 7, 179-188. Foster, G,, 1986,Financial Statement Analysis, (Prentice-Hall International Editions, Englewood Cliffs, New Jersey). Frydman, H., Altman, E.I. and Kao, D.L., 1985, Introducing Recursive Partitioning for Finailcial Classificatioil: the Case of Financial Distress, Jolourrznl of Finance 40, 1, March, 269-291. Gentry, J.A., Shaw, M.J. and Whitford, D.T, 1991, Predicting Loan Riskwith Systems that Use Either Probit or an Inductive Learning Approach, Working paper, (University of Illinois, Urbana-Champaign). Greene, W.H., 1993, Econometrie Analysis, (MacMillan Publishing Co, 2nd editioii, New York). Gujarati, D.N., 1995, Basic Econometrics, (McGraw-Hill, Inc, 3rd edition), 540-570. Hawley, D.D., Johnson, J.D. and Raina, D,, 1990, Artificial Neural Systems: a New Tool for Financial Decision-Makiiig, Financial Annlysts Joi~rnal,November-December, 6372. Hayes, R.S., 1991, Internatioiial Banker's Utilization of Ratios, Financial and Non-Financial Information for Lending Decisions, working paper presented at E.A.A. conference in Maastricht, 11 April 1991. Hosmer, D.W. and Lemeshow, S., 1989, Applied Logistic Regression, (John Wiley & Sons, New York). Huberty, C.J., 1994, Applied Discriminant Analysis, (John Wiley & Sons, Inc., New York). Jeffrey, C., 1992, The Relation of Judgement, Personal Involvement, and Experience in the in the Audit of Bank Loans, Tlze Accounting Review, October, 802-819. Keasey, K. and McGuinness, P., 1990, Tlie Failure of UK Industrial Firms for the Period 1976-1984, Logistic Analysis and Entropy Measures, Jourrzal of Bilsiness Finalzce andAccountilzg 17, 1, Spring, 119-135. Koh, H.C., 1992, The Sensitivity of Optimal Cutoff Points to Misclassification Costs of Type I en Type I1 Errors in the Going-Concern Prediction Context, Journa1 ofBusiness Finance and Accounting 19,2, January, 187-197. Lachenbruch, P.A., 1975, Discriminant Analysis, (Hafner Press, McMillaii Publishing cÓ., Inc., London). Laitinen, E,, 1993, Financial Predictors for Different Phases of the Failure Process, Omega International Journa1 of Management Science, 21, 2,215-228 Lane, W.R., Looney S.W. and Wansley J.W., 1986, Ai1 Application of the Cox Proportional Hazards Model to Bank Failure, Jourrzal of Bankirzg and Finance 10, 4, december, 511531. Maddala, GS., 1991, A Perspective on the Use of Lirnited-Dependent aiid Qualitative Variables Models in Accounting Research, The Accounting Review 66, October, 788-807. Maddala, G.S., 1992, Introductioil to Econometrics, (Maxwell MacMillan Int. Editions, New York). Marais, M.L., Patell, J.M. and Wolbon, M.A., 1984, The Experimental Design of Classificatioii Models: an Application of Recursive Partitioning and Bootstrapping to Commercial Bank Loan Classifications, Jounzal ofAccounting Research 22, supplement 1984,87114. McLachlan, G.J., 1992, Discriminant Analysis and Statistica1 Pattern Recognition, (John Wiley and sons Inc.,New York, USA). Michie, D,, Spiegelhalter, D.J. and Taylor, C.C.. 1994, Machine Learning, Neural and Statistical Classification, (Ellis Horwood Series in Artificial Intelligence, New York).
Miller, A.J., 1990, Subset Selection in Regression, (Chapmann and Hall, London). Nygard, F. and Sandström, A., 1989, Income Inequality Measures Based on Sample Surveys, Jozourr~nlof Econometrics 4, 81-95. Ooghe, H.& Verbaere, E,, 1982, Determinanten van faling: Verklaring en predictie, (Accountancy, bedrijfsfinanciering en beleidsinformatie, RUGent, Gent). Ooghe, H. & Van Wymeersch, C., 1994, Financiële analyse van de onderneming, theorie en toepassing op de jaarrekening, (zesde herwerkte druk, Kluwer Editorial Zaventem, België). Ooghe, H., Joos, P. and D e Bourdeaudhuij, C., 1995, Financial Distress Models in Belgium: the Results of a Decade of Empirica1 Research, bzternntionnl Joi~rrzalofAccounting 30, 3, 245-274. Palepu, K.G., 1986, Predicting Takeover Targets: a Methodological and Empirica1 Analysis, Joi~rizalofAcco~~r~ting nnd Economics 8, 3-35. Platt, H.D. and Platt, M.B., 1990, Development of a Class of Stable Predictive Variables: the Case of Bankruptcy Predictioii, Joiirnnl of Bilsiizess Finnnce nizd Accoz~nting17, 1, Spring, 31-51. Platt, H.D. and Platt, M.B., 1991,ANote on the Use of Industry-Relative Ratios in Bankruptcy Prediction, Journal of Bnnking nnd Finnnce 15, 6, December, 1183-1194. Quinlail, J.R., 1985, Induction of Decisioii Trees, Machine Leaming l , 81-106. Quinlan, J.R., 1993, C4.5: Programs for Machine Learning, (Morgan Kaufmann Publishers, San Mateo, California). Salchenberger, L.M., Ciiiar, E.M. and Lash, N.A., 1992, Neural Networks: a New Tool for Predicting Thrift Failures, Decision Sciences 23, 4, jul-aug, 899-916. Shaw, M.J. and Gentry, J.A., 1991, Inductive Learning Methods for Financial Management, Workshop at University of Namur, June 23. Siegel, S. and Castellan, N.J., 1988, Nonparametric Statistics for the Behavioral Sciences, (second edition, McGraw-Hill Book Company, New York). Srinivasan, V. and Kim, Y.H., 1987, Credit Granting: a Comparative Analysis of Classification Procedures, The Journnl of Finalzce 17, 3, July, 665-683. Stanga, K.G. and Tiller, M.G., 1983, Needs of Loan Officers for Accounting Information from Large Versus Smal1 Companies, Accoi~ntingand Business Research 14, 53, Winter, 63-70. Steele, A., 1995, Going Concern Qualifications and Bankruptcy Prediction, Working paper, presented at doctoral workshop Leuven on March 2. Stone, M. and Rasp, J., 1993, The Assessment of Predictive Accuracy and Model Overfitting: ai1 Alternative Approach, Jounlal of Business Fiizance nlzdAccounting 20, 1, January, 125-131. Theil, H., 1971, Principles of Econometrics, (North-Holland Publishing Company, Amsterdam). Tliiers, G,, Meervoudige inhrmatie-analyse, intern rapport, (Rijksu~iiversitairCentrum Antwerpen). Veall, M.R., 1992, Bootstrapping the Process of Model Selection: an Econometric ExampIe, Journnl ofApplied Ecorzonzelrics 7, 1, March, 93-99. Westfall, P.H. and Young, SS., 1993, Resampling-Based Multiple Testing, Examples and Metliods for p-Value Adjustment, (John Wiley & Sons, New York). Weymaere, N. and Martens, J.P., 1993, Using Multi-Layer Perceptroii for Financial Distress Analysis of Companies, Workiiig Paper, (Electroilics and Information Systems Department, University of Ghent). Zain, S., 1994, Failure Predictioii: an Artiiïcial Intelligence Approach, doctoraal proefschrift, (Vakgroep Bedrijfsl'inanciering R.U.G). Zavgren, C.V., 1985, Assessing the Vulnerability to Failure of American Industrial Firms: a Logislic Analysis, Jo~imalof Business Finaizce ancl Accoz~nting,Spring, 19-45. Zmijewski, M.E., 1984, Methodological Issues Related to thc Estimation of Financial Distress Prediction Models, Joirrrzal ofAccoz~ntingResearch 22, supplement 1984, 59-86.