9. Dobývání znalostí v praxi 9.1
Příklad úlohy
Na závěr knihy se opět vraťme k příkladu zmíněném v první kapitole. Vodítkem při dobývání znalostí nám bude metodologie CRISP-DM.
9.1.1
Porozumění problematice
Banka XY je zaměřena na drobné klienty kterým vede účty, poskytuje půjčky apod.1 Pod rostoucím tlakem konkurence chce tato banka zlepšit své služby. Management banky má jen velmi vágní představu, co je možno od metod dobývání znalostí očekávat. Doufá ale, že mu tyto nové metody umožní lépe pochopit klienty a tak například cíleněji nabízet své produkty (tedy úloha deskripce), nebo rozlišovat mezi různými skupinami klientů (tedy úloha klasifikace).
9.1.2
Porozumění datům
Obr. 1 Data o klientech banky XY
Data sledovaná bankou XY mají podobu několika navzájem propojených tabulek (Obr. 1). Základní tabulkou je tabulka Account (účty). S každým účtem může disponovat nějaký klient (tabulka Client). K jednomu účtu může mít přístup více klientů, jeden klient může mít zřízeno více účtů; tato skutečnost 1
Banka XY je fiktivní banka. Jakákoliv podobnost s reálnou bankou je čistě náhodná. Uvedená data byla použita v rámci workshopů Discovery Challenge na konferencích PKDD’99 a PKDD2000.
1
je zachycena v tabulce Disposition, která přiřazuje klienty k účtům. Klientovi, který disponuje nějakým účtem, může být k tomuto účtu vydána kreditní karta (tabulka Credit Card). Nejdůležitější údaje o účtech jsou údaje o prováděných operacích, to je zachyceno v tabulce Transactions (transakce). Na některých účtech mohou být zřízeny trvalé platební příkazy (tabulka Permanent order), na základě některých účtů banka poskytuje úvěr (tabulka Loan). Tabulka Demograph obsahuje demografické údaje o 77 okresech, lze z nich tedy vyčíst další informace o prostředí ve kterém klient žije.
položka account_id district_id date frequency
význam identifikace záznamu okres pobočky datum založení účtu četnost výpisů
pozn.
Ve tvaru YYMMDD "MESICNE" " TYDNE" "PO OBRATU"
Tab. 1 Tabulka účty
položka význam client_id identifikace záznamu rodné číslo datum narození a pohlaví
district_id
pozn. ve tvaru YYMMDD pro muže, YYMM+50DD pro ženy,
okres bydliště Tab. 2 Tabulka klienti
položka disp_id client_id account_id type
význam pozn. identifikace záznamu identifikace klienta identifikace účtu typ dispozičního práva (owner/user) Pouze "owner" může dávat trvalé příkazy a žádat o úvěr Tab. 3 Tabulka dispoziční práva
položka order_id account_id bank_to account_to amount k_symbol
význam identifikace záznamu číslo účtu banka příjemce účet příjemce uhrazená částka charakteristika platby
pozn.
dvouznakový kód
"POJISTNE" "SIPO" "LEASING" "UVER"
Tab. 4 Tabulka trvalé příkazy
2
položka trans_id account_id date type
význam identifikace záznamu číslo účtu kterého se transakce týká datum transakce typ transakce
operation
způsob provedení transakce
amount balance k_symbol
částka zůstatek po provedení operace charakteristika transakce
bank account
banka partnera učet partnera
pozn.
ve tvaru YYMMDD "PRIJEM" "VYDAJ" "VYBER KARTOU" "VKLAD" (v hotovosti) "PREVOD Z UCTU" "VYBER" (v hotovosti) "PREVOD NA UCET"
"POJISTNE" "SLUZBY" "UROK" "SANKC. UROK" "SIPO" "DUCHOD" "UVER" dvouznakový kód
Tab. 5 Tabulka transakce
položka loan_id account_id date purpose ammount duration payments status
význam identifikace záznamu identifikace účtu datum poskytnutí úvěru účel úvěru částka doba splácení měsíční splátky status splácení úvěru
pozn.
ve tvaru YYMMDD
'A' úvěr ukončen bez problémů, 'B' úvěr ukončen s problémy, 'C' běžící úvěr, bez problémů, 'D' běžící úvěr, s problémy
Tab. 6 Tabulka úvěry
položka card_id disp_id type
význam identifikace záznamu dispoziční právo k účtu typ kreditní karty
issued
datum vydání
pozn.
možné hodnoty jsou "junior", "classic", "gold" ve tvaru YYMMDD
Tab. 7 Tabulka kreditní karty
položka A1=
význam kód okresu
pozn.
3
district_id A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 A14 A15 A16
jméno okresu region počet obyvatel počet obcí s počtem obyvatel < 499 počet obcí s počtem obyvatel 500-1999 počet obcí s počtem obyvatel 2000-9999 počet obcí s počtem obyvatel > 10000 počet měst podíl městského obyvatelstva průměrný plat míra nezaměstnanosti '95 míra nezaměstnanosti '96 počet soukromých podnikatelů na 1000 obyvatel zjištěné trestné činy '95 zjištěné trestné činy '96 Tab. 8 Tabulka demografická data
Banka poskytla pro analýzu jen určitý (relativně malý) vzorek těchto dat: 4500 účtů, 5369 klientů, 6471 trvalých příkazů, 682 záznamů o úvěrech, 892 záznamů o kreditních kartách. Z tohoto počtu se vymyká pouze tabulka transakce obsahující 1056320 záznamů – údajů o pohybu na účtech až za 5 let. První představu o podobě dat bylo (vzhledem k rozsahu dat) možno získat relativně jednoduchými nástroji (Access, Excel). Tak lze například zjistit, jaký je podíl bezproblémových úvěrů a úvěrů s problémy (Tab. 9) nebo jaké je zastoupení držitelů kreditních karet podle typu karty (Tab. 10). Bylo rovněž konstatováno, že některé údaje v tabulce transakce (např. konstantní symbol) mají mnoho chybějících hodnot. Dále bylo zjištěno, že daných datech se nevyskytoval klient, který mohl manipulovat s více účty a že s jedním účtem mohli manipulovat maximálně dva klienti.
Status úvěru
absolutní počet
žádný úvěr A B C D
3818 203 31 403 45
relativně vůči všem úvěrům 29.77% 4.55% 59.09% 6.6%
relativně vůči všem účtům 84.84% 4.51% 0.69% 8.95% 1%
Tab. 9 Klasifikace úvěrů
typ karty žádná junior classic gold
absolutní počet 3608 145 659 88
relativně vůči všem kartám 16.26% 73.88% 9.87%
Tab. 10 Klasifikace kreditních karet
4
relativně vůči všem účtům 80.17% 3.22% 13.98% 1.96%
9.1.3
Příprava dat
Předzpracování dat je nejpracnější částí celé analýzy. Vzhledem k tomu, že zamýšlíme použít algoritmy pracující s jedinou tabulkou (tedy používající reprezentaci objektů pomocí hodnot atributů) musíme především vytvořit agregované hodnoty pro řadu charakteristik. Za centrální tabulku zvolíme údaje o účtech (tabulku account). K této tabulce pak budeme přiřazovat údaje z tabulek s ní spojených: •
V tabulce client můžeme z rodného čísla určit věk a pohlaví klienta.
•
V případě tabulek client a dispsition určíme počet klientů, kteří mají právo nakládat s účtem 2, vzhledem k tomu, že v datech se nevyskytuje klient který má právo manipulovat s více účty, nemusíme provádět spojování tabulek opačným směrem.
•
V případě tabulky permanent order určíme počet a trvalých příkazů, celkovou částku a to, zda se vyskytuje příkaz pro určitý typ platby.
•
V případě tabulky transactions vyjdeme z toho, že lze předpokládat měsíční periodicitu řady transakcí. Budeme tedy počítat průměrný zůstatek, průměrný příjem, průměrný výdej (souhrnně i podle typu transakcí) a průměrný počet transakcí za jeden měsíc. Průměrný zůstatek přitom spočítáme jako vážený průměr zůstatku po provedené transakci, kde vahou bude počet dnů, po které byl tento zůstatek na účtu [Coufal a kol, 1999]: 1 prům_zůst = 30 ∑i zůstatek(i) ∗ počet_dnů(i). Smysl má rovněž určit měsíční minimum a maximum ze zůstatku, příjmu a výdaje.
•
Z tabulky loan přiřadíme příslušné údaje účtům ke kterým je splácen úvěr.
•
Z tabulky credit card zjistíme, kolik karet a jakého typu je vydáno k účtům.
•
Z tabulky demograph přiřadíme účtům (majitelům účtů) demografické charakteristiky
Protože některé algoritmy (např. asociační pravidla) pracují pouze s kategoriálními daty, je nutno předem diskretizovat numerické atributy. Zkusíme obě varianty „slepé“ diskretizace, ekvidistantní i ekvifrekvenční intervaly.
9.1.4
Modelování
Ukažme si na několika vybraných úlohách způsob použití některých analytických procedur pro krok modelování. V případě prvních dvou relativně jednoduchých úloh vystačíme s jednou metodou, Další dvě úlohy vyžadují postupné použití několika algoritmů.
2
Z věku a pohlaví můžeme zkusit usoudit na vzájemný vztah těchto klientů (partneři, rodiče a děti) – tyto naše dedukce jsou ale neprůkazné.
5
9.1.4.1 Jednoduchá deskripce Při této úloze nás bude zajímat souvislost typu úvěru a dalších charakteristik účtu. Znalosti získané touto analýzou by měly popisovat rizikovou skupinu klientů, v ideálním případě na základě charakteristik, které se dají zjistit ještě před poskytnutím úvěru. Jako analytický nástroj nejprve použijeme metodu GUHA [Coufal a kol, 1999].. Vzhledem k tomu že metoda pracuje pouze s kategoriálními daty, budeme pracovat s diskretizovanými podobami numerických atributů. Spojíme rovněž hodnoty A a C atributu loan.status do nové hodnoty good a hodnoty B a D téhož atributu do nové hodnoty bad. Metodou GUHA pak budeme hledat asociační pravidla (hypotézy) typu A ~ loan.status, kde A bude nejvýše dvoučlenná konjunkce. Pro ~ použijeme Fisherův kvantifikátor na hladině významnosti α=0.05, požadujeme přitom hypotézy s podporu (support) alespoň 15 objektů. Tab. 11 ukazuje některé nalezené asociace [Coufal a kol, 1999]. Jednotlivé sloupce tabulky zachycují číslo hypotézy, předpoklad A, závěr, hodnotu Fisherova kvantifikátoru, podporu (support), a spolehlivost (confidence) pravidla A ⇒ loan.status 3.
#
předpoklad
loan.status
Fisher
podpora
spolehlivost
1
prům_sankční_úrok(ne)
good
6.12144e-024
603
0.9234
2
prům_sankční_úrok(ano)
bad
6.12144e-024
26
0.8966
3
trvalý_příkaz_SIPO(ano)
good
5.0375e-013
421
0.9546
4
trvalý_příkaz_SIPO(ne)
bad
5.0375e-013
56
0.2324
5
trvalý_příkaz_SIPO(ano) jiný_trvalý_příkaz(ne)
good
1.30383e-013
208
1.0000
6
další_disponent(ano)
good
3.75844e-009
145
1.0000
7
další_disponent(ne)
bad
3.75844e-009
76
0.1415
8
rok_poskytnutí_uvěru(98) good
1.11229e-005
154
0.9747
9
kreditní_karta(ano)
good
1.38617e-005
165
0.9706
10
výše_splátky(<2000)
good
3.3309e-004
125
0.9690
11
rok_založení_účtu(97)
good
2.6498e-002
117
0.9590
Tab. 11 Asociační pravidla pro typ úvěru
Pro hledání vztahu mezi údaji o transakcích a typech úvěru můžeme rovněž použít vizualizační možnosti, které nabízí i tak běžný nástroj jako je Excel [Mikšovský a kol, 1999]. Pro účty patřící z hlediska typu úvěru do téže třídy spočítáme průměrné, maximální a minimální měsíční hodnoty příjmu, výdaje a zůstatku. Vyneseme-li pak do grafu průběhy těchto hodnot za šestiměsíční období, které předcházelo poskytnutí půjčky, můžeme pozorovat vzájemné rozdíly mezi účty různých tříd (Obr. 2).
3
Podpora je hodnota a ze čtyřpolní tabulky, spolehlivost je pak podíl a/(a+b) hodnot ze čtyřpolní tabulky.
6
Obr. 2 Vývoj průměrného zůstatku a minimálního zůstatku pro různé typy úvěrů
9.1.4.2 Jednoduchá klasifikace Úlohou bude klasifikace úvěrů do tříd bezproblémové nebo rizikové. Za bezproblémové budeme považovat úvěry typu A a C (Tab. 6), za problémové pak úvěry B a D. Bezproblémových úvěrů je tedy 606 a problémových je 76. Naší snahou bude nalézt znalosti, které by umožňovaly rozpoznat potenciálně problémový úvěr ještě dříve, než je poskytnut. Budeme vycházet z toho, že pro banku je horší chybou4 považovat potenciálně problémový úvěr za bezproblémový, než naopak. Vzhledem k tomto předpokladu i vzhledem k tomu, že četnost jednotlivých tříd je značně nevyvážená, budeme brát do úvahy různé ceny za chybu klasifikace. Pro vytvoření klasifikačních znalostí použijeme algoritmus C5.0 pro tvorbu rozhodovacích stromů a pravidel. Trénovací data budou tvořena informacemi o všech 682 účtech ke kterým je přiřazen úvěr; kromě údajů z tabulek účet, klient, dispozice a úvěr nás opět budou zajímat údaje o transakcích (o průměrných měsíčních částkách). Budeme tedy pracovat s celkem 69 atributy. Nejprve byl vytvořen rozhodovací strom, který umožnil získat představu o důležitosti jednotlivých atributů (důležitost atributu odpovídá vzdálenosti tohoto atributu od kořene stromu). To umožnilo provést novou analýzu, pouze s použitím vybraných atributů. Při tomto použití algoritmu C5.0 byl zvolen výstup v podobě rozhodovacích pravidel. Výsledkem analýzy na redukované (co do počtu atributů) trénovací množině bylo 24 pravidel. Počet chyb, kterých se báze pravidel dopustila při klasifikaci byl 52 (z 606) pro bezproblémové úvěry a 0 pro úvěry problémové. Celková úspěšnost klasifikace tedy byla 92.4%; všechny problémové úvěry přitom byly klasifikovány správně [Mikšovský a kol, 1999].
9.1.4.3 Podpora zavádění kreditních karet Při této úloze jde o to zjistit kteří klienti z těch, co přicházejí do úvahy, ještě nemají kreditní karty a tyto karty jim nabídnout [Putten, 1999]. Z pohledu banky se jedná o to nabídnout další svůj produkt již existujícím klientům. Přitom, čím více produktů banky bude klient využívat, tím klesá nebezpečí, že přejde k jiné bance. Navíc banka inkasuje poplatky za použití karty. Při podrobnějším pohledu do dat se ukáže, že přestože jak počet tak používání kreditních karet roste, ke konci roku 1998 mělo kartu jen 18% klientů. Zdá se tedy, že dobrý nástroj pro stanovení potenciálních držitelů kreditní karty může bance přinést nezanedbatelné zisky. 4
Statistici by řekli, že jde o chybu prvního druhu.
7
Cílem úlohy dobývání znalostí bylo nalezení charakteristik klientů majících kreditní kartu i vzájemné odlišení mezi klienty držiteli zlaté karty a karty klasik, resp. mezi klienty držiteli karty junior a karty klasik. Skrytým výchozím předpokladem zde je, že data jsou dostatečně dobře reprezentují databázi všech klientů. Vzhledem k tomu, že jak počet klientů tak počet karet, které jsou v databázi je velice malý, nebudou dostupná data pravděpodobně odpovídat tomuto předpokladu. Ve fázi předzpracování byla z databáze vytvořena jedna datová matice podle klientů. Sledovanými charakteristikami byly jak statické údaje (o klientovi, o bydlišti), tak údaje o transakcích (minima, maxima, průměry zůstatků, příjmů, výběrů). Zajímavým novým atributem byla tzv. hodnota karty spočítaná jako průměrná částka vybraná kartou násobená počtem výběrů kartou. Cílovými atributy (pro různé dílčí podúlohy) pak byly typy karet. Pro úlohu nalezení charakteristik klientů majících kreditní kartu (deskriptivní úloha) byla použita metoda detekce odchylek. Pro numerický atribut se průměrná hodnota v rámci třídy vydělí průměrnou hodnotou v celých datech, pro nominální atributy se místo průměrů dělí četnosti. Tímto postupem získáme jakýsi index, který ukazuje jak moc je atribut relevantní pro zařazení objektů do dané třídy. Tímto postupem bylo např. zjištěno, že držitelé karet provádějí větší výběry v hotovosti, že mají větší zůstatky na účtech, nebo že lépe splácejí úvěry. V případě rozlišování mezi držiteli různých typů karet bylo např. zjištěno, že držitelé zlaté karty mají (ve srovnání s kartou klasik) vyšší hodnotu karty danou většími výběry i počtem transakcí. Pro predikci toho, zda je klient držitelem karty (klasifikační úloha) byl použit algoritmus k-nejbližšch sousedů. Výhodou této metody je, že výsledkem není pouze kategorické rozhodnutí ano/ne, ale že predikce je doplněna o jakési skóre vyjadřující zájem potenciálního klienta o kreditní kartu. Právě takovéto skóre (nebo váha klasifikace) je neocenitelné v marketingových aplikacích (viz křivka zdvihu v kapitole o evaluaci). Pro experimenty byla data rozdělena na část trénovací (75%) a testovací (25%). V první úloze bylo cílem predikovat, zda klient vlastní kartu. Ve skupině prvních 20% zájemců seřazených podle skóre bylo 52.2% držitelů kreditní karty. Pro druhou úlohu byla jako závislá veličina zvoleno to do jaké míry klient vlastní kartu. Tato míra je dána tím, jak moc kartu využívá, tedy hodnotou karty. V této druhé úloze bylo dosaženo jisté zlepšení; ve skupině prvních 20% zájemců seřazených podle skóre bylo 61.4% takto definovaných držitelů kreditní karty. Připomeňme na závěr popisu této úlohy, že náhodný výběr klientů bude obsahovat pouze 17% držitelů kreditní karty.
9.1.4.4 Vytvoření profilů skupin klientů Cílem této úlohy bylo nalézt skupiny klientů s podobným chováním a tyto skupiny následně charakterizovat. Jde tedy o to nalézt a popsat různé segmenty trhu. Základem pro analýzu se staly údaje o transakcích [Hotho, Meadche, 2000]. Podobně jako v předcházejících úlohách využívajících transakce velkou část práce představovalo předzpracování dat. Tentokrát se vyšlo z možných kombinací hodnot trans.k_symbol, trans.type, trans.operation. Ze 7*2*5=70 možných kombinací bylo v datech nalezeno 16. Těchto 16 atributů (dimenzí) bylo použito jako výchozí bod pro určování profilů klientů; každý klient byl charakterizován průměrnou částkou (danou počtem transakcí a celkovou částkou) pro každý atribut. Důležitost jednotlivých atributů v takto vzniklé databázi profilů byla posuzována statistickou metodou hlavních komponent. Jako nejvýznamnější se ukázaly atributy “vklad v hotovosti” a “výběr v hotovosti”. Pro hledání skupin klientů byla použita Kohonenova mapa (SOM) - tedy neuronová síť umožňující provádět shlukování objektů. Tímto algoritmem bylo nalezeno 5 shluků. Jeden se shluků vykazoval dobrou shodu s průměrným profilem všech klientů, jiný shluk měl vysoké hodnoty pro atribut ATTR13 = „trans.k_symbol(důchod) ∧ trans.type(příjem) ∧ trans.operation(převod_z_účtu)” (Obr. 3).
8
Obr. 3 Nalezené profily klientů
Výsledek tvorby profilů byl použit jako zdroj dat pro tvorbu rozhodovacího stromu následně převedeného do podoby rozhodovacích pravidel. Cílem bylo nalézt charakteristiky jednotlivých skupin klientů. Tak např. shluk č. 3 odpovídá důchodcům kteří převádí vyšší částky do jiných bank (ATTR5 = „trans.type(výdej) ∧ trans.operation(převod_na_účet)”):
Rule #1 for Cluster 3 IF prum_castka_ATTR5(> 9945) ∧ prum_castka_ATTR13(> 0) THEN Cluster(3) (115, 0.983)
9.1.5
Vyhodnocení výsledků
9.1.5.1 Jednoduchá deskripce V případě jednoduché deskripce byla nalezená pravidla posuzována expertem. Ne vše, co bylo systémem nalezeno (a tedy co bylo významné ze statistického hlediska) považoval expert za zajímavé: •
Mezi zřejmé znalosti expert zařadil např. hypotézy 1 a 2 (viz Tab. 11), které říkají pouze to, že klient, který měl záporný zůstatek na účtu (platil sankční úrok), měl rovněž problémy se splácením úvěru.
•
Poněkud zajímavější jsou dvojce hypotéz 3 - 4 a 6 - 7, a hypotéza 5. Tyto hypotézy lze interpretovat tak, že účty domácností (SIPO, více dispozičních práv) jsou spíše bezproblémové. Z pohledu použitého kvantifikátoru si můžeme všimnout, že např. dvojce hypotéz 3 a 4 vykazuje stejnou (významnou) vazbu ve smyslu Fisherova kvantifikátoru, ale z pohledu spolehlivosti implikace je podstatně významnější hypotéza 3. Nelze tedy skutečnost, že z účtu se neplatí SIPO považovat za indikaci toho, že úvěr nebude splácen (hypotéza 4).
•
Hypotéza 10 nabízí jako kritérium spolehlivosti výši měsíčních splátek; menší úvěry (měsíční splátky do 2000) se zdají být bezproblémové.
9
•
Hypotéza 9 je při bližším zkoumání snadno vysvětlitelná, aby získal klient kreditní kartu, musí mít po určité období dostatečný zůstatek na účtu. To zdá se dává záruky i splácení úvěru.
•
Hypotézy 8 a 11, ač poměrně silné, nedávají expertovi valný smysl. Mohou být dány způsobem přípravy vzorku dat poskytnutým pro analýzy.
Výsledkem této analýzy tedy bude doporučení bedlivěji sledovat účty, které nesouvisí s domácností klienta a lépe prověřovat žádosti o úvěry s vyšší měsíční splátkou. Při použití vizualizačních nástrojů pro odhalování vztahů (zde mezi transakcemi a typem úvěru) je interpretace výsledků značně subjektivní. Pohledem na grafy se ale zdá, že bezproblémové úvěry se vztahují k účtům, u kterých je průměrný zůstatek vyšší než 40000, nebo u kterých minimální zůstatek neklesne pod nulu. Druhé uvedené zjištění odpovídá hypotézám 1 a 2 zjištěným metodou GUHA. Znalost odvozená v prvním případě se zdá být zajímavější.
9.1.5.2 Podpora zavádění kreditních karet Podobně jako v případě jednoduché deskripce nepovažoval expert všechny nalezené znalosti za stejně zajímavé. Např. to, že klienti se zlatou kartou měli vyšší výběry souvisí i s různými limity výběru pro různé typy karet.
9.1.5.3 Vytvoření profilů skupin klientů Transakční data obvykle nesou podstatně více informací než data socio-demografická. I v tomto případě segmentace byly nalezeny zajímavé (a interpretovatelné) skupiny klientů na základě transakcí a nikoliv na základě socio-demografických charakteristik. Problémem je však značný objem transakčních dat a s tím související problémy se zpracováním (a předzpracováním). Investované úsilí se ale vyplatí.
9.1.6
Využití výsledků
V případě podpory zavádění kreditních karet bylo navrženo použít klasifikační skóre pro direct mail. Práh skóre lze pak volit tak aby se optimalizovaly náklady na poštovné. V případě návštěvy nějakého klienta s vysokým skóre mu může banka nabídnout příslušný typ karty. Zajímavé by jistě bylo i zpřístupnění klasifikačního modelu na webu tak, aby potenciální klient sám mohl ověřit zda splňuje podmínky pro získání karty. Ke zlepšení vytvořených modelů bylo navrženo vzít do úvahy i používané předpisy pro přidělování karet. Segmentace klientů provedená pomocí Kohonenovy mapy je rovněž užitečná pro marketing. Propagace jednotlivých typů produktů může být prováděna podstatně cíleněji a tím i efektivněji.
10
9.2
Obecné zkušenosti
Zkušenosti z reálných komerčních aplikací patří k žárlivě střeženým tajemstvím příslušných firem. Aby měli i odborníci zabývající se vývojem celého oboru KDD možnost „nakouknout pod pokličku“ reálným úlohám, bývají zpřístupňována (reálná nebo simulovaná) data z řady aplikačních oblastí pro provádění analýz na nekomerční bázi. V posledních letech se analýzy takovýchto dat prezentují na řadě mezinárodních konferencí věnovaných dobývání znalostí z databází. Uveďme zde např. tzv. KDD Cup pořádaný v rámci (amerických) konferencí KDD, nebo různé Discovery Challenge konané v rámci konferencí evropských 5 (PKDD) nebo asijských (PAKDD). Společně řešené úlohy a následné diskuze ukazují, jaké jsou klíčové předpoklady úspěchu použití metod dobývání znalostí z databází v praxi [Berka, 2001]: •
metodologie pro standardizaci procesu dobývání znalostí Metodologie učiní proces KDD srozumitelným a reprodukovatelným. Umožní rovněž přenesení úspěšných postupů a řešení z jedné aplikační oblasti do jiné, i sdílení zkušeností mezi odborníky zabývajícími se touto problematikou. Příkladem může být metodologie CRISP-DM.
•
spolupráce s experty z dané aplikační oblasti Podobně jako v případě expertních systémů, i při dobývání znalostí hraje expert z dané aplikační oblasti (a expert na data) důležitou roli. Jeho spolupráce je klíčová jak v úvodních krocích (porozumění dané problematice a porozumění datům), tak pro evaluaci a využití znalostí.
•
dokonalejší metody předzpracování Algoritmy pro předzpracování a transformace dat (diskretizace a seskupování hodnot, ošetření chybějících hodnot, vytváření nových atributů) obvykle pracují nezávisle na aplikační oblasti. Zdá se, že využití doménových znalostí může výrazně zvýšit efektivnost těchto metod.
•
algoritmy schopné zpracovávat složitější data Většina algoritmů používaných pro modelování, pracuje s jedinou datovou tabulkou tvořenou záznamy s pevnou strukturou. V reálných aplikacích se ale setkáváme s podstatně složitějšími typy dat: vzájemně provázané relace, časová data, prostorová data, texty, strukturovaná data. Řada činností v kroku předzpracování jde tedy na vrub „nedokonalým“ nástrojům pro modelování. Přestože tato oblast je předmětem intenzivního výzkumu (viz např. metody ILP), do běžně používaných systémů pro dobývání znalostí se dosažené výsledky zatím příliš nepromítly.
•
Interpretace výsledků srozumitelná expertovi Rozhodujícím kritériem pro úspěch nějaké reálné aplikace KDD je akceptování výsledků experty a potenciálními uživateli. To nejlepší řešení je bezcenné, pokud nebude používáno. Experti nejsou ochotni probírat se stovkami a stovkami pravidel, ani je nezajímají tabulky ukazující zlepšení jednoho klasifikátoru vůči jinému o 1.13%. Co je zajímá, je vhled do nalezených znalostí, nebo silná a slabá místa naučeného klasifikátoru. Jako důležité se tedy jeví následné zpracování výsledků a jejich vizualizace.
5
Výše analyzovaná data z bankovní oblasti pocházejí právě z Discovery Challenge na PKDD’99 a PKDD2000.
11
Literatura: [Berka, 2001] Berka,P. Data Mining Contests in Europe. IPSJ Magazine Vol 42 No 5, 2001, 454-456. [Berka, 1999] Berka,P. (editor): Workshop Notes on Discovery Challenge. University of Economics, Prague, 1999 [Coufal a kol, 1999]: Coufal,D. – Holeňa,M. – Sochorová,A.: Coping with disovery challenge by GUHA. In [Berka, 1999]. [Hotho, Meadche, 2000] Hotho,A. – Meadche,A.: Efficient Discovery of Client Profiles from a Financial Database. In [Siebes, Berka, 2000]. [Mikšovský a kol, 1999] Mikšovský,P. – Železný,F. – Štěpánková,O. – Pěchouček,M.: Financial data challenge. In [Berka, 1999]. [Putten, 1999] Putten P.van der: Promoting Credit Card Usage by Mining Transaction Data. In [Berka, 1999]. [Siebes, Berka, 2000] Siebes,A. – Berka,P. (editors): Discovery Challenge. University Lyon, 2000.
12