Mendelova univerzita v Brně Provozně ekonomická fakulta Ústav informatiky
Vybrané metody pro aplikace pokročilých analytik v prostředí Cloud Diplomová práce
Vedoucí práce: Ing. Michael Štencl, Ph.D.
Autor: Bc. Petr Homola
Brno 2013
{Zadání diplomové práce}
Rád bych poděkoval především vedoucímu diplomové práce a svému mentorovi Ing. Michaelu Štenclovi, Ph.D. za odborné vedení, cenné rady a připomínky, jež mi poskytl během zpracování této diplomové práce. Poděkování rovněž patří mým rodičům, kteří se o mne během studia strachovali, a mému bratrovi, Ing. Antonínu Homolovi, za neuvěřitelnou trpělivost při společných rozpravách. Děkuji své přítelkyni za to, že při mně stála i v krušných studijních dobách a nikdy ve mne nepřestala věřit. Děkuji všem svým přátelům za podporu i rozptýlení.
Prohlašuji, že jsem diplomovou práci „Vybrané metody pro aplikace pokročilých analytik v prostředí Cloud“ vyřešil samostatně dle pokynů vedoucího práce a s použitím uvedené literatury. V Brně dne 4. ledna 2013
………………………………….
Abstract Homola, P. Selected methods for the application of advanced analysts in Cloud environment. Master Thesis. Brno, 2013. The work deals with the design and implementation of selected methods for the application of advanced analytics as SaaS in Cloud environment. The theoretical part describes the basic principles and methods of advanced analytics focused on customer churn rate, fraud detection, revenue prediction and customer segmentation. Methodology CRISP-DM and data mining methods are used for implementation of selected advanced analytics. Implemented application revenue prediction forecast future revenue and provides information for management and planning processes. Application of customer segmentation divides and describes the major trading customers groups. Keywords Data mining, CRISP-DM, Cloud, customer segmentation, revenue prediction
Abstrakt Homola, P. Vybrané metody pro aplikace pokročilých analytik v prostředí Cloud. Diplomová práce. Brno, 2013. Práce se zabývá návrhem a realizací vybraných metod pro aplikaci pokročilých analytik jako SaaS v prostředí Cloud. V teoretické části jsou popsány základní principy a metody pokročilých analytik zaměřených na predikci náchylnosti zákazníka k odchodu, detekci podvodů, predikci příjmů a zákaznickou segmentaci. S využitím metodologie CRISP-DM a metod dolování dat jsou realizovány vybrané pokročilé analytiky. Realizovaná aplikace predikce příjmů předpovídá budoucí příjem a poskytuje informace pro procesy řízení a plánování. Aplikace segmentace zákazníků rozděluje a popisuje zákazníky na obchodně významné skupiny. Klíčová slova Dolování dat, CRISP-DM, Cloud, segmentace zákazníků, predikce příjmů
Obsah
6
Obsah 1
Úvod
8
2
Cíl práce
9
3
Literární přehled 3.1
Náchylnost zákazníků k odchodu ............................................................. 10
3.1.1
Metody pro modelování náchylnosti k odchodu ............................... 12
3.1.2
Odhad dopadu nasazení (ROI) .......................................................... 13
3.2
Odhalování podvodů ................................................................................. 13
3.2.1
Neřízené metody pro odhalování podvodů ....................................... 14
3.2.2
Řízené metody pro odhalování podvodů ........................................... 16
3.3
Predikce příjmů ........................................................................................ 21
3.3.1 3.4
4
10
Metody predikce příjmu .................................................................... 22
Segmentace zákazníků .............................................................................. 24
3.4.1
Expertní metody RFM/FRAT ............................................................ 25
3.4.2
CLV (Customer Lifetime Value) ........................................................ 26
3.4.3
Další metody segmentace zákazníků ................................................. 29
Metodika práce
31
4.1
Metodologie CRISP-DM ........................................................................... 31
4.2
Kritéria výkonnosti ................................................................................... 32
4.2.1
Přesnost.............................................................................................. 32
4.2.2
Plocha pod ROC křivkou (AUC) ........................................................ 32
4.2.3
Metoda Davies-Bouldin index ........................................................... 33
4.2.4
Metoda křížové validace .................................................................... 33
4.2.5
Metoda K-Means................................................................................ 34
4.2.6
Metoda X-Means ............................................................................... 35
4.2.7
Metoda k-NN ..................................................................................... 35
4.2.8
Rozhodovací stromy .......................................................................... 35
4.2.9
Metoda Bagging ................................................................................. 36
4.2.10
Metoda Boosting ................................................................................ 36
4.2.11
Metoda Random Forests ................................................................... 36
4.3
Programové vybavení ............................................................................... 36
4.3.1
RapidMiner ........................................................................................ 37
Obsah
7
4.3.2 5
Weka .................................................................................................. 37
Vlastní práce 5.1
38
Predikce příjmů ........................................................................................ 38
5.1.1
Porozumění problému ....................................................................... 38
5.1.2
Porozumění datům ............................................................................ 39
5.1.3
Úprava dat..........................................................................................40
5.1.4
Modelování ........................................................................................ 42
5.1.5
Evaluace ............................................................................................. 45
5.1.6
Nasazení ............................................................................................. 50
5.2
Segmentace zákazníků .............................................................................. 51
5.2.1
Porozumění problému ....................................................................... 51
5.2.2
Porozumění datům ............................................................................ 51
5.2.3
Úprava dat.......................................................................................... 53
5.2.4
Modelování ........................................................................................ 55
5.2.5
Evaluace CLV analýza ........................................................................ 57
5.2.6
Evaluace RFM analýza .......................................................................60
5.2.7
Nasazení – shrnutí výstupů ............................................................... 63
6
Diskuse
64
7
Závěr
69
8
Seznam použitých zdrojů
70
Seznam obrázků
74
Seznam tabulek
75
Úvod
8
1 Úvod V současné době je velké množství informací uchováváno v databázích. Dříve stačilo k jejich využití jednoduchých postupů, typicky to byl přístup lidský, tedy expertní. S rostoucím množstvím uchovávaných informací však roste úměrně také náročnost na jejich zpracování. Lidský faktor již neslouží k přímému zpracování dat, ale především pro sestavování logických bloků a dohled nad výsledky. Avšak jeho nezastupitelný význam je stále při porozumění problematice, sestavování úkolů a interpretaci výsledných. K zpracování dat slouží metody z oboru KDD „Knowledge Discovery in Databases“, především tedy DM (dolování dat). Dolováním dat nazýváme proces netriviálního získávání implicitní, dříve neznámé a potenciálně užitečné informace z dat1. Metody dobývání znalostí z databází se často uplatňují v marketingu, managementu a CRM (řízení vztahů se zákazníkem). Kdy pomocí metod DM lze analyzovat chování zákazníků a objevit kauzality, jejichž znalost využívá proces CRM. Dnešní organizace řídí interakce s velkým počtem zákazníků napříč velkým počtem komunikačních kanálů. Cílem CRM je podpora pro udržení a vytvoření profitabilního vztahu se zákazníkem a snížení operativních nákladů. Hlavními úkoly CRM je získávání, udržení zákazníků a zvýšení prodeje (Nisbet et al., 2009). V poslední době se zpracování dat posouvá zcela novým směrem. Do popředí se dostává Cloud, jež dovoluje firmám přesunout své data i aplikace do internetu. Společnosti outsourcují své technické zázemí, odpadá nutnost udržování a inovací technického zázemí, toto vše zařizuje provozovatel Cloud prostředí. Největší výhodou Cloud prostředí je jeho škálovatelnost, uživatel platí pouze za obsazené místo nebo výpočetní výkon, který je však možné v krátkém čase navýšit nebo naopak snížit. Což je důležité, pokud například společnost potřebuje zareagovat na zvýšenou poptávku. V Cloud prostředí pracují platformy SaaS, jež nabízejí své programy jako službu, kde uživatel platí pouze na informace nebo za dostupnou funkcionalitu. Koncový uživatel si předplatí aplikační službu a databázi (SaaS), která běží v infrastruktuře Cloud. Koncový uživatel má přístup k aplikacím prostřednictvím svého prohlížeče nebo mobilního zařízení kdekoliv a kdykoliv. Z informace se stává obchodovatelný produkt. Největšími poskytovateli SaaS jsou například Google Apps, Microsoft Office 365 a OnLive. Mnoho firem přesouvá celé své infrastruktury do Cloudu. Jako SaaS již běží celopodnikové CRM řešení (Salesforce.com) a jediným nutným vybavením pro práci a správu tohoto systému se stává webový prohlížeč.
1 BERKA, Petr. Dobývání znalostí z databází. Praha : Academia, 2003. ISBN 80-200-1062-9
Cíl práce
9
2 Cíl práce Hlavním cílem práce je aplikace pokročilých analytik na reálné úlohy. V rámci práce se bude jednat o úlohy zaměřené na predikci náchylnosti zákazníků k odchodu (Customer Churn), Odhalování podvodů (Fraud detection), predikce příjmů (Revenue prediction) a segmentace zákazníků pokročilejšími segmentačními algoritmy. Na 2 vybraných úlohách bude provedena realizace za použití metod pro dolování dat. Data pro realizované úkoly budou na straně zadavatele v rámci firemní databáze. Úkoly budou realizovány ve formě aplikací a přizpůsobeny pro nasazení jako SaaS v prostředí Cloud. Práce bude navrhovat řešení vybraných úkolů v metodologii CRISP-DM. Řešení výběrem relevantních dat a užitím vybrané metody umožní dosažení cíle zadavatele. Výsledky aplikací budou určeny pro zákazníky zadavatele, jež provozuje SaaS řešení. Dílčím cílem je výběr některé z vhodných metod pro řešení úloh pokročilých analytik. Součástí práce je přehled současného stavu nejpoužívanějších metod pokročilých analytik. Metody musejí splňovat základní omezení vyplývající z použití jako SaaS v prostředí Cloud. Jedná se především o jednoduchou aplikovatelnost řešení a snadnou interpretaci výsledků. Součástí práce bude rovněž verifikace výsledků na reálných datech zadavatele a technická validace aplikace v prostředí zadavatele. Diskutována bude časová a paměťová náročnost na testovaných datech. V diskuzi bude zohledněn i odhad dopadu (ROI) aplikací.
Literární přehled
10
3 Literární přehled Komplexní problémy je nutné řešit v prostředí, umožňující distributivní výpočty. Jedná se zejména o problémy založené na zpracování velkého množství dat a na robustních metodách, jež vykazují velkou složitost. Pro řešení složitých úkolů jsou vyvinuty v zásadě 2 infrastruktury (Nisbet et al., 2009). Grid je dedikovaná skupina počítačů v síti, které principem rozděl a panuj, řeší složité problémy. Cloud je nededikovaná skupina počítačů v internetu, která může být vytvořena na účel zpracování složitých úkolů. Infrastruktura Cloud je založena na škálovatelnosti, distribučním principu výpočtu, sdílení tohoto výpočetního výkonu mezi úkoly, vysokou míru paralelizace úloh, paralelizaci dat (více zdrojů stejných dat). Poskytování služeb v Cloudu, jako softwarové služby se nazývá SaaS (Software as a Servise). Tato služba je přístupná v síti internet a nabízí kompletní DM řešení zákazníkům. Nevýhodou těchto řešení ovšem je, že jsou pevně nastavená a lze je jen obtížně přizpůsobit individuálním potřebám (Nisbet et al., 2009). Pro řešení složitých problémů jsou vyvinuty pro prostředí Cloud speciální techniky pro Data Mining (DM) a Knowledge Discovery (KDD). Tyto techniky lze aplikovat v nástroji „Open Service Framework for Cloud-based Data Mining“, což je Framework pro projekty datového dolování speciálně navržený do prostředí Cloud. Vstupem frameworku jsou příkazy definující jednotlivé kroky a výstupní formát. Definice jsou vkládány v univerzálním jazyce pro popis DM projektů (PMML). Stále je ale nutné znát vhodné metody a principy pro plnění vytyčeného DM projektu. Pro správně použití metod je nutné znát především jejich omezení, vyplývající z jejich aplikace na daný problém a vhodné sestavení po sobě následujících kroků. Následující literární přehled bude popisovat metody, aplikace a celá řešení pokročilých analytik. Vybrány byly 4 nejčastější problémy ze CRM okruhu (náchylnost zákazníků k odchodu, odhalování podvodů a segmentace zákazníků) a jeden problém z okruhu nejčastějších obchodních problémů (predikce příjmů).
3.1 Náchylnost zákazníků k odchodu Udržení zákazníků se týká míry, do jaké je společnost schopna uspokojit a udržet si své stávající zákazníky a je všeobecně vnímána jako základní kámen úspěchu celé CRM (S Neslin et al., 2004). Pokud vnímáme náchylnost zákazníků jako pravděpodobnost k ukončení vztahu se společností, nikoliv jen jako akt, lze tuto pravděpodobnost kvantifikovat a na jejím základě určit takové strategie, aby k odchodu zákazníka vůbec nedošlo. Udržení zákazníka je pro společnost
Literární přehled
11
mimořádně důležité, protože každá společnost potřebuje určitý objem zákazníků. Pokud nějakého ztratí, musí být nahrazen novým, ale ten v blízké budoucnosti vykazuje daleko nižší příjmy. Toto platí zejména ve vyspělých nebo nasycených odvětvích. Obecně platí, že udržení stávajícího zákazníka je pro společnost lepší (levnější) než získání nového (Berry, Linoff, 2011). Odchod zákazníka má mnoho důvodů a některé z nich není schopna společnost ovlivnit. Tyto důvody se člení na nedobrovolné (například se zákazník odstěhuje nebo zemře), očekávané (zákazník již nadále nepotřebuje využívat službu) a dobrovolné (zákazník dostane levnější/lepší službu jinde). Klasický model nedokáže rozlišit mezi těmito druhy odchodu. Existují 2 základní přístupy k modelování, první z nich je predikce binární skutečnosti (odejde/neodejde), nejčastěji se využívá řízených metod – klasifikací. Druhý přístup se snaží předpovídat životnost zákazníků, tedy dobu za jakou zákazník odejde, zde je nejčastěji užívána hazard function a survey analysis (Berry, Linoff, 2011; Coussement et al., 2010). Úspěšný model pro popis náchylnost zákazníků k odchodu je generalizací vztahu mezi chováním zákazníka a charakteristikami zákazníka, založeném na předchozím chování, a schopnosti podniku tyto informace využít pro predikci budoucího chování zákazníka (Bock, Poel, 2011). Kvalita modelu je přímo závislá na dvou faktorech a to, vstupních datech (především na jejich schopnosti ovlivnit výslednou proměnou) a použité metodě dolování dat (Nisbet et al., 2009). Data pro predikci náchylnosti jsou důležitá pro správnou tvorbu modelu. Pokud data obsahují informace, z nichž můžeme přesný model vytvořit, je nutné tyto informace extrahovat, případně připravit pro DM metody. Nejčastěji se setkáme s dvěma typy dat, transakčními daty a zákaznickými charakteristikami. Transakční data jsou zdrojem zákaznického chování v čase, lze jich využít pro sestavování zákaznických profilů (Nisbet et al., 2009). Transakční data je doporučeno abstrahovat od reálného data a zvolit časové sjednocení k datu odchodu, zobrazeno na obr. 3.1. Druh vstupních dat pro modelování odchodu je dalším z faktorů úspěchu. Doporučené typy dat jsou demografické údaje (Lemmens, Croux, 2006; Wei, Chiu, 2002), finanční charakteristiky zákazníka (Bock, Poel, 2011; Coussement et al., 2010; Khan et al., 2010), záznamy hovorů či psané zprávy (Coussement et al., 2010; Huang et al., 2012) a transakční data (Nisbet et al., 2009).
Literární přehled
12
Obr. 3.1: Příprava dat pro modelování náchylnosti k odchodu (Nisbet et al., 2009).
3.1.1
Metody pro modelování náchylnosti k odchodu
Práce (Bose, Chen, 2009) se zaměřuje na tvorbu hybridního modelu, kombinuje neřízenou metodu segmentace s rozhodovacím stromem. Vstupní data jsou segmentovány metodou SOM (Self organizing Map), tyto segmenty jsou přidány k charakteristikám na vstup pro rozhodovací strom implementovaný C5.0. Jako porovnávací kritérium volí top-decile lift, poměr mezi skutečnými odchody v 10% nejvyšších predikovaných pravděpodobností k odchodu ku poměru všech predikovaných odchodů a skutečných odchodů. Toto kritérium hodnotí model z hlediska identifikace zákazníků s nejvyšší pravděpodobností k odchodu. Při testování na reálných datech dochází k závěru, že kombinace modelů přináší lepší výsledky než použití metod samostatně. Klasické metody, Rozhodovací strom (CART), Logistická regresi a Neuronové sítě srovnávají ve své práci (Au et al., 2003; Khan et al., 2010; Hadden et al., 2006). Tyto 3 nejpoužívanější metody pro predikci odchodu zákazníků v telekomunikačních službách testují na reálných datech. Nejlepší výsledky uvádí (Au et al., 2003; Hadden et al., 2006) u rozhodovacích stromů, jež jako jediný nevyžaduje očištění vstupních dat od chybějících hodnot. Naopak nejlepší výsledky uvádí (Khan et al., 2010) pro logistickou regresi, jež vykazuje nejlepší výsledky pro správnou identifikaci odcházejících zákazníků. Ke klasickým metodám patří i diskriminační analýza a Expertní metody, které ale pro větší objemy dat a neznámé prostředí vykazují nejhorší výsledky (Neslin et al., 2004). Složené klasifikátory jsou velmi často používány pro jejich vyšší přesnost (Bock, Poel, 2011). Práce testuje na reálných datech několik složených klasifikátorů, vybírá metody Rotation Forest, RotBoost, Bagging, a jednoduché klasifikátory C4.5, CART a RSM (response surface method). Spolu s metodami testuje i několik druhů úpravy vstupních dat, například PCA (analýza hlavních komponent), ICA (analýzu nezávislých komponent) a SRP (rozptýlená náhodná
Literární přehled
13
projekce). Kritéria pro srovnání jsou AUC (plocha pod ROC křivkou), přesnost modelu a top decile-lift. Výsledky jsou nejlepší u Rotation Forest s úpravou vstupních dat metodou ICA, při srovnání v kritériu top decile-lift metoda jednoznačně převyšuje ostatní. Tohoto lze využít při konstrukci modelu pro identifikaci zákazníků s nejvyšší pravděpodobností k odchodu. Nejlepší výsledky v přesnosti klasifikace z jednoduchých klasifikátorů vykazuje metoda RSM. Práce (Lemmens, Croux, 2006) hodnotí složené klasifikátory Bagging a Boosting (Stochastic gradient boosting) kritériem top decile-lift, na reálných datech telekomunikační společnosti. Doporučuje u aplikovaných metod použití nákladové matice pro zvýšení přesnosti v identifikaci náchylnějších zákazníků k odchodu. Uvádí, že rozdíl při použití nákladové matice může být až 10% . 3.1.2
Odhad dopadu nasazení (ROI)
Důležitou metrikou pro určení přínosu DM aplikace je výpočet ROI (Neslin et al., 2006). Přidanou hodnotu aplikace pro společnost definuje výpočtem finanční částky, jež nasazená aplikace firmě přinese, v případě aplikací pro detekci odchodu zákazníků se jedná o praktický přístup. Výpočet zisku nasazení aplikace definuje vzorec (3.1). (3.1)
N … celkový počet zákazníků α … podíl zákazníků vybraných pro kampaň ku celkovým zákazníkům γ … úspěšnost kampaně (poměr setrvávajících zákazníků k cíleným zákazníkům) CLV … potencionální hodnota zákazníka pro společnost β0 … poměr skutečně odcházejících zákazníku k celkově všem zákazníků δ … náklad kampaně na jednoho zákazníka Nejvíce celkový zisk ovlivňuje přesnost predikce, rozsah kampaně (Nα), potencionální hodnota (CLV), úspěšnost kampaně (γ) a náklady na kampaň. Úspěšnost zachycení zákazníků zaleží ve velké míře na zvolené strategii kampaně, nákladům na kampaň a míra nasycení odvětví. Uvedené faktory nasazená aplikace svou činností ovlivnit nemůže a při závěrečné kalkulaci dopadu se doporučuje jejich zohlednění.
3.2 Odhalování podvodů Náklady spojené s podvodným chováním jsou velmi vysoké a to jak z finanční stránky tak také z hlediska goodwill organizace. Aby bylo možné omezit šance na podvod, a detekovat podvodné chování, používají se různé techniky z oblasti statistiky, umělé inteligence a dolování dat (Gupta, Gill, 2012b).
Literární přehled
14
Typická organizace ztratí kolem 5% svého ročního příjmu díky podvodům. Podvodné jednání pocházející od vlastníků a manažérů je více než 9 krát nákladnější než od zaměstnanců společnosti. Nejvíce zasažené odvětví je bankovnictví a veřejná správa (Berry, Linoff, 2011). Naopak terčem podvodného chování ze strany zákazníků jsou internetové transakce, jež jsou zasaženy až 12 krát2 častěji než klasické. Podvodné jednání zahrnuje odvětví mobilních operátorů, pojištění pohledávek, daňová přiznání, transakce kreditní kartou, pojišťovnictví, právní atd. Představují významné finanční úniky pro vlády a podniky, ale přesto odhalování a prevence podvodů není jednoduchý úkol. Nutné je pochopit, že podvod je adaptivní a evoluční, proto potřebujeme speciální metody inteligentních analýzy dat pro detekci a prevenci. Tyto metody existují v oblasti dobývání znalostí z databází (KDD), dolování dat, strojového učení a statistiky. Nabízejí použitelné a úspěšné řešení v různých oblastech podvodů trestných činů (Maimon, Rokach, 2010; Nisbet et al., 2009). Podvod může být spáchán prostřednictvím různých médií, poštou telefonem a internetem (počítačová kriminalita a internetové podvody). Mezinárodní rozměr webu a snadnost, s níž mohou uživatelé skrýt jejich umístění a identitu, obtížnost kontroly totožnosti a on-line verifikaci uživatele, spolu s jednoduchostí a dostupností, s níž mohou útočníci například přesměrovat prohlížeč na falešné stránky a krást informace o kreditní kartě, to vše přispělo k velmi rychlému růstu internetové kriminality (Nisbet et al., 2009; Phua et al., 2010).
3.2.1
Neřízené metody pro odhalování podvodů
Neřízené (unsupervised) metody jsou užitečné v aplikacích, kde se nenachází předchozí znalosti o podvodném chování. Například nevíme, která transakce v databázi je podvodná a která není. V těchto případech jsou používány právě neřízené metody, jež nacházejí odlehlé skupiny či jednotlivé záznamy, které vykazují větší pravděpodobnost podvodného chování. V podstatě dochází k analyzování všech dat, identifikaci nesrovnalostí a vytvoření celkového přehledu chování systému. Jakmile vznikne celkový přehled chování (nejčastěji jsou použity vzorce chování nebo profilování), lze již snadno identifikovat záznamy, jež do chování nezapadají, tzv. Anomálie. Běžně používanou metodou je segmentace, jež vytváří právě shluky s podobným chováním, celkovou analýzou shluků nacházíme velké místní 2
Report to the Nations on Occupational Fraud and Abuse. Association of Certified Fraud Examiners. 2010. Archived from the original on July 7, 2011.(posted from EN wiki)
Literární přehled
15
odchylky v datech. V souvislosti s odhalováním podvodů, se většinou jedná o globální anomálie v transakčních datech. Například pokud je průměrná platba několik stovek korun a nová příchozí platba je v řádech milionů. Lokální anomálie lze identifikovat při porovnání segmentů mezi sebou nebo různých podskupin uvnitř segmentu. Toto lze využívat, pokud je portfolio zákazníků heterogenní, což je běžné v prostředí úvěrových transakcí debetních karet, kde lze snadno rozpoznat výši debetu, zboží, za které byla transakce vystavena, a jiných informací. Pokud je správě rozpoznaný profil segmentu těchto plateb, pak je lokální anomálií právě transakce vymykající se běžnému chování segmentu, avšak nemusí se nutně vymykat z globálního profilu transakcí. Například pokud je vysoký úvěr realizován s účtem z nejziskovějšího segmentu, nejedná se o lokální anomálii (Bolton, Hand, 2001). Peer-Group analýza je systém, který umožňuje identifikaci účtů s rozdílným chováním od ostatních „normálních“ účtů v určitém časovém momentu – právě v momentu, kdy tato rozdílnost nastane. Účty označuje jako podezřelé a tyto jsou dále vybrány pro expertní analýzu. Peer-Group je založen na myšlence, že pokud se účty chovají stejně po určitou dobu a nastane moment, kdy se jeden z účtů začne chovat výrazně odlišné, je nutné tento účet dále monitorovat a prověřit. Analýza porovnává kumulativní střední částku mezi sledovaným účtem a účty s podobným chováním. Skóre je metrická vzdálenost t-statistiky, jež určuje normalizované vzdálenosti od těžiště skupiny účtů s podobným chováním. Analýza pracuje v časovém oknu (tedy zkoumá tyto vlastnosti na určité periodě), jež je pro výpočet charakteristického chování podobných účtů rovno 13 týdnům a pro testované (tedy zkušební období) stanovuje období 4 týdnů (Bolton, Hand, 2001; Berry, Linoff, 2011). Break-Point analýza je založena na myšlence, že i významná individuální změna na kreditní kartě může být projevem podvodného chování. Break-point analýza identifikuje podvodné chování na základě náhlé změny chování, jež u transakčních vyvolají náhlé nákupy, zvýšení frekvence nebo prodlení z placení. Toto chování je analyzováno v týdenní periodě pro každý jednotlivý účet. Účty jsou opět hodnoceny na základě t-testu. Definuje pevné okno pro analyzování transakcí, a to právě 24 jednotlivých transakcí., kde prvních 20 je použito pro vytvoření profilu a zbývající 4 pro evaluaci výsledků. Tato metoda je nejvíce užívána pro kreditní a debetní karty (Bolton, Hand, 2001; Delamaire et al., 2009). Outlier finding (identifikace odlehlých hodnot) metoda pro identifikaci abnormalit v datech. Pro tuto metodu je nutný větší soubor dat (transakcí), cílem je nalézt takové zákazníky nebo transakce, jež nejsou součástí běžného souboru, tedy jsou výrazně v rozporu se zbytkem dat z tohoto souboru (Maimon, Rokach, 2010). Nejčastěji se metody pro identifikaci odlehlých metod dělí na jednorozměrné a vícerozměrné. Vícerozměrné metody zohledňují všechny atributy pro identifikaci odlehlé hodnoty, to má ovšem nevýhodu především v situaci, kdy
Literární přehled
16
je podvodné jednání provázeno pouze jedním z atributů. Práce (Sen Wu et al., 2007) analyzuje společné znaky podvodného chování zákazníků v telekomunikačním průmyslu. Na základě identifikace odlehlých hodnot odhaluje kauzalitu u zákazníků s prodlením plateb a budoucím podvodným jednáním. Navrhuje pro další analýzu a pro predikování takových zákazníků využití Kohenovy neuronové sítě pro segmentaci. Výsledné segmenty identifikují skupiny nejvíce náchylné k podvodnému jednání v budoucnosti. Link analysis (analýza spojení) byla používána ještě před příchodem počítačů, ačkoliv s jejich příchodem se stala mnohem více robustní a přesnou. Jedná se o spojování relevantních elementů a akcí za účelem odhalení vazeb a kauzalit (Maimon, Rokach, 2010). Link analysis je nepoužívanější neřízená metoda pro odhalování podvodů, v oblasti datového dolování se také nazývá Link Discovery (objevování spojení). Původ disciplíny je diskrétní matematice, teorii grafů a sociálních věd. Cílem je nalézt skryté vazby mezi vzory, jež jsou zdánlivě být nesouvisející. Tyto vzory chování jsou následně označeny na podvodné či nikoliv. V širším kontextu se Link analysis využívá i v analýze chování uživatelů sociálních sítí, při odhalování trestných činů, či skupin pachatelů těchto činů. V tradičním pojetí, v dolování dat, jsou modelované subjekty označeny jako proměnné, jež mohou být korelovány (spojeny) s jinými proměnnými a objevena mezi nimi cílená kauzalita. V Link analysis není proměnou subjekt ale vztah mezi subjekty, kde se hodnotí pravděpodobnost, že daný vzor vztahu odpovídá právě cílenému vzoru vztahu. Nejčastěji bývá výstup Link analysis ve formě grafické reprezentace spojů spolu s pravděpodobností, že se jedná o vztah podvodný. Často se využívá externích databází s vzory podvodného chování. Skutečné odhalování podvodů je založeno na použití Link analysis a expertním zhodnocení (Nisbet et al., 2009; Berry, Linoff, 2011). 3.2.2
Řízené metody pro odhalování podvodů
Řízené metody pro detekci podvodného chování mohou být použity pouze za předpokladu, že máme k dispozici informace o tomto jednání. Nejčastěji jako výstup z a-priori analýz nebo auditů společnosti. Řízené metody jsou použity pro popis těchto dat, tedy pro vytvoření modelu těchto dat. Tento model je schopen do jisté míry identifikovat znaky vyvolávající podvodné chování a lze jej použít na predikci podvodného chování v budoucnu (Bolton, Hand, 2001). Nejpoužívanější metody pro odhalování podvodů jsou Rozhodovací stromy, Regresní analýza, Neuronové sítě, Bayesovské sítě, Expertní systémy, Generické algoritmy a Fuzzy logika (Delamaire et al., 2009; Sharma, Panigrahi, 2012; Abbott et al., 1998). Rozhodovací stromy je strukturovaný nástroj pro podporu rozhodování, kde každý uzel reprezentuje test atributu a každá větev představuje výsledky tohoto testu. Tímto se strom snaží rozdělit vstupní záznamy na soubory vzájemně se vylučujících tříd. Predikce je klasifikační problém, nová data jsou takto
Literární přehled
17
rozřazena do listů, kde každý je příslušný právě jedné třídě. Rozhodovací stromy jsou jedním z nejdůležitějších nástrojů pro odhalování podvodů. Rozhodovací stromy jsou prediktivní nástroje a s jejich pomocí lze nejenom podvodné jednání popsat (soupis uzlů k „podvodnému“ listu) ale také velmi dobře predikovat. Nejčastěji se pro odhalování podvodů používají tyto algoritmy ID3, CART (Nisbet et al., 2009) a C4.5. Nejčastěji jsou rozhodovací stromy nasazeny pro odhalování firemních podvodů, pojistných podvodů a podvodů u kreditních karet (Sharma, Panigrahi, 2012). Výhodou metody je snadná implementace a vizualizace výsledků. Nevýhodou stromů je klasifikace každé transakce zvlášť, což pro velký objem transakcí prodlužuje učící a predikční čas (Delamaire et al., 2009). Komplexní systém pro odhalování podvodů charakterizuje ve své práci (Gupta, Gill, 2012a). Popisuje inovativní systém postupů a metodik, jež pracují najednou v různých úrovních pohledů na data. Přínosem navrženého frameworku je komplexní zpracování informace o podvodném chování s výstupem ve 3 formách.
Literární přehled
18
Obr. 3.2: Framework pro odhalování podvodů (Gupta, Gill, 2012a).
Obr. 3.2 zobrazuje schéma komplexního systému pro odhalování podvodů. V první fázi se věnuje výběru, a předzpracování atributů vhodných pro další použití. Zpracováním těchto atributů pomocí klasifikačního algoritmu generuje prediktivní model pro budoucí detekci podvodů. Dalším zpracováním atributů pomocí metody asociačních pravidel, vytváří pravidla popisující podvodné chování. Zpracováním těchto pravidel vytváří model, jež má za úkol generovat výstrahu ve formě reportu, pokud je těmito pravidly v datech detekován
Literární přehled
19
podvodný jev. Poslední fází je prevence podvodů, což je inovativní přínos frameworku. Navrhuje popis podvodného chování ve 3 aspektech: Příležitost (Opportunity), klade důraz na identifikaci příležitostí k podvodnému chování a k jejich odstranění z organizace, pokud je to možné. Racionalizace (Rationalization) podvodného chování, kde analyzuje podvod z hlediska vývoje a skrývání, jelikož každý podvodný čin se jeho pachatel snaží zakrýt. Motivace (Motivation), je tlak na vnitřní struktury efektivně bránit podvodům a nevytvářet prostředí pro své vlastní podvody. Další Framework představuje ve své práci (Sharma, Panigrahi, 2012). Je zaměřen na řízené metody a má několik iterativních fází, předzpracování, dolování, evaluace vzoru, závěrečné úpravy vzoru a výkonnostní evaluace. Analyzuje dostupné metody pro detekci podvodů, ze kterých vybírá metody evaluované na reálných datech nebo ty, jež jsou dlouhodobě používány v praxi. Výše popsaný Framework (Gupta, Gill, 2012a) je v práci (Gupta, Gill, 2012b) prakticky ověřen na reálných datech 120 obchodních společností. Pro výběr atributů práce navrhuje jednosměrný ANOVA test, kde volí 35 proměnných (např.: celkový obrat skladů, celkový obrat, zisk, příjem nebo Z-skóre). Provádí srovnání klasifikačních algoritmů pro vytváření prediktivního modelu. Srovnávané algoritmy jsou CART, Naivní Bayesovský klasifikátor a Genetické programování. Nejméně falešných výstrah dosáhl CART, naopak generický algoritmus identifikoval až 99% z podvodných jevů ovšem při slabé sensitivitě. Jednotlivé přístupy k detekci podvodů a jejich kombinace jsou uvedeny v (Nisbet et al., 2009). Definuje 3 obecné přístupy k modelování podvodných jevů, které ilustruje obr. 3.3. Expertní systémy definuje jako kolekci odborných stanovisek a pravidel, založených na subjektivním odhadu odborníků v dané oblasti. Tyto pravidlo mohou být reprezentovány ve formě diagramů vedoucích ke konečnému rozhodnutí (principiálně rozhodovací strom). Problémem expertních metod je ale právě subjektivní rozhodnutí, jež mohou být v rozporu se skutečnými pravidly. Další metody využívají automatické přístupy založené na přístupech dolování dat, jako rozhodovací stromy, indukční pravidla a fuzzy logiku, jež jsou založeny na poznatcích získaných přímo z dat. Rovněž popisuje nejkomplexnější systém pro odhalování podvodů, Falcon Fraud Manager, jež je kombinací všech předchozích metod, založený je na expertním výběru prediktorů (z mnohaletých historických analýz) a tyto jsou modelovány pomocí vícevrstvá neuronová síť s učitelem.
Literární přehled
20
Obr. 3.3: Metody pro detekci podvodů (Nisbet et al., 2009).
Složený nákladově citlivý klasifikátor je založena teorii her, kde jsou při špatné klasifikace penalizovány nebo naopak oceněny ty správné, učící fáze metody je iterativní, přičemž každým dalším průchodem nastavuje váhy cest tak, aby došlo k minimalizaci nákladů (nebo maximalizaci zisků) při výsledné klasifikaci. Pro nastavení zisku predikce se užívá nejčastěji matice v tab. 3.1. Nejčastěji je používán naivní Bayesovský klasifikátor, který vykazuje efektivní klasifikaci citlivých dat, jako je odhalování podvodů. Z matice zisku v tab. 3.1, lze rozpoznat benefity a penalizace při správné a špatné klasifikaci (Maimon, Rokach, 2010). Tab. 3.1: Matice zisku. Predikce Podvod Legitimní
Skutečnost Podvod Legitimní t(x) - cena -cena 0 0
t(x) … cena transakce cena … náklady na realizaci detekce podvodů
Literární přehled
21
Návratnost investic (ROI) pro aplikace detekce podvodů je velmi důležitá. Nejčastěji se vypočítává jako rozdíl mezi původním stavem a stavem s nasazením aplikace. Celkový rozdíl, jenž by měl být vždy kladný, představuje právě skutečnou přidanou hodnotu aplikace a svou výší vyjadřuje celkovou obchodní úspěšnost aplikace. Pokud se tyto hodnoty nepočítají, lze jen s obtížemi hodnotit výsledek celé investice do vývoje a nasazení aplikace. Pokud předpokládáme průměrnou účinnost aplikací kolem 5-10%, vztáhneme-li toto číslo na celkový obrat společnosti, jedná se ročně o ohromné finance, jejímž ztrátám lze zabránit (Nisbet et al., 2009).
3.3 Predikce příjmů Predikce příjmu 3je důležitá pro plánovací a rozhodovací procesy v podniku. Na základě přesně předpovězených příjmů lze sestavovat vhodně rozpočet na následující období, jsou cenným zdrojem informací pro skladové rozpočetnictví a předběžných kalkulací. Při plánování investičních a sestavování provozních rozpočtů má přesná predikce vývoje příjmů nezastupitelnou roli. Při investičním projektu je často výše příjmu kalkulována pouze jako diskontovaná hodnota aktuálních příjmů či jako expertní odhad, což může být velmi nepřesné. Prognóza příjmů je důležitá pro firmy, které chtějí vytvořit velmi kvalitní a přesný rozpočet. V nynějším prostředí ekonomických nejistot, je to jeden z prostředků pro zvýšení vnitropodnikové efektivity, kdy díky kvalitním a přesným informacím, lze poskytnout klíčové informace pro rozhodování a plánování (Lin et al., 2013). Aktuální a přesná předpověď je zásadním kritériem pro rozhodovací procesy a má významný dopad na mnoho obchodních aspektů. Inovativní řešení v predikování příjmů lze využít v rozhodovacích procesech ve všech úrovních podniku. Přesné a aktuální prognózy mají zásadní vliv na efektivnost řízení podnikových procesů (Shan et al., 2005). Prognózování tržeb je nezbytným prvním krokem v ocenění jakékoli veřejně obchodované společnost. Toto platí zejména v internetovém průmyslu, kde jen málo firem uveřejňuje své zisky. Investoři a investiční profesionálové se obrací na predikce poměru mezi cenou firmy a jejími tržbami k měření relativního ocenění na trhu (Trueman et al., 2000). Hodnota podniku je dána očekávanými budoucími příjmy. Hodnota podniku není objektivní vlastnost celku zvaného podnik, protože je založena na projekci budoucího vývoje. Jedná se tedy o odhad. Činnost podniku je z
3
„Příjmy podniku jsou přírůstky peněžních prostředků (v širším pojetí všechny přírůstky aktiv) podniku
v určitém období.“ SYNEK, Miloslav a kol. Podniková ekonomika. 4. přeprac. vyd. Praha : C. H. Beck, 2006. 475 s. Beckovy ekonomické učebnice. ISBN 80-7179-892-4
Literární přehled
22
ekonomického pohledu složitý a komplexní systém vzájemně souvisejících procesů. Manažeři potřebují vědět, která rozhodnutí a činnosti povedou ke zvýšení EVA 4a musí být motivováni k tomu, aby takové činnosti prováděli. Je tedy nutné vytipovat měřítka, která představují generátory budoucí hodnoty EVA. Jak je patrné z výpočtu vztahu EVA, rozhodující složka ovlivňující výši ekonomické přidané hodnoty jsou především tržby, jež tvoří hlavní položku provozních výnosů (Strnadová, 2010). 3.3.1
Metody predikce příjmu
Literatura nejčastěji uvádí metody prognózování příjmů na základě ekonomickostatistických metod, metod strojového učení a jejich kombinací. Použití Ekonomicko-statistických metod pro predikci příjmu internetových firem rozebírá (Trueman et al., 2000). Srovnává výsledky prognóz založené na předchozím příjmu (priori revenue), konstantní změně příjmu (constant revenue change), konstantním růstu příjmu (constant revenue growth) a předchozím růstu trhu (priori market growth). Doporučuje kvartální odhad predikce a jako vstupní data navrhuje záznamy historických příjmů a dostupná aktuální vnitropodniková data, jako objem nových zakázek, počet nových zákazníků a informace o využívání služeb zákazníky. Nejlepší výsledky dosahuje model konstantních změn příjmu, jež dosahuje nejmenší průměrnou a rozptylu absolutní chyby predikce. Práce (Lundholm et al., 2010) popisuje vlastní statisticko-ekonomický model pro predikci maloobchodních tržeb. Kde je například zahrnut celkový počet otevřených prodejen, nově otevřené prodejny nebo průměrný obrat prodejny. Analýza časových řad je jedním z pokročilejších přístupů. Identifikuje a extrahuje významné statistiky a charakteristiky (perioda, amplituda, rozptyl hodnot) z dat. Predikování hodnot je závislé na modelu nebo funkci založeném na historickém chování řady. Většina modelů uvedených v literatuře je založena na statistických modelech časových řad. Tyto modely můžeme rozdělit na strukturované a nestrukturované modely. Nestrukturované modely, například ARIMA 5, předpokládají, že vycházíme z účetních údajů, veřejných údajů, nebo je založen na stacionárním stochastickém procesu. Diferencování je zde užito za účelem kvantifikace trendů. V této fázi dochází k zachycení sezónních vlivů. Zde ale nastávají obtíže se správným určením pořadí diferencování. Toto může být dosaženo pouze interaktivní analýzou spolu s expertním odhadem. Chceme-li úspěšně zachytit a kvantifikovat sezónní trend, musíme identifikovat sezónní periody, což může být v obchodním prostředí mimořádně složité. Další problémy 4 Ekonomická přidaná hodnota (vychází z anglického pojmu Economic Value Added, zkráceně EVA) je
finanční ukazatel, který lze definovat jako rozdíl mezi čistým provozním ziskem a kapitálovými náklady. SYNEK, Miroslav. Podniková ekonomika. Praha: C. H. Beck, 2002. ISBN 80-7179-388-4. 5 „Statisticko-ekonomický model ARIMA - autoregresní integrovaný klouzavý průměr“, Mills, Terence C. (1990) Techniky časové řady pro ekonomy. Cambridge University Press.
Literární přehled
23
přináší výskyt více vrstev trendů a sezónností (týdenní, měsíční, čtvrtletní). Složitost přidává i rozdílnost fiskálního a klasického kalendáře (Shan et al., 2005). Práce (William, Kinney, 1978) srovná metody naivní, regresní a ARIMA metody pro predikce příjmů. Jako srovnávací kritérium si vybírá přesnost předpovědi. Vstupní data používá provozní záznamy šesti železnic Jihozápadních Spojených Států za období 15 let. ARIMA metoda vykazuje nejmenší průměrnou absolutní chybu a nejmenší předpovídané zkreslení, za cenu nejvyšší výpočetní složitosti a nutnosti nejvyššího objemu trénovacích dat. Zkoumá použití ARIMA výsledků jako nezávislé proměnné pro regresní analýzu a dochází k závěrům, že podstatně snižují průměrné absolutní roční zkreslení predikce příjmů při experimentálním použití. Diskutuje využití výsledků ARIMA metody pro další použití a analýzy při predikci příjmů, avšak nepředpokládá generalizaci poznatků pro běžné použití v analýze časových řad. Vylepšení modelu ARIMA přináší SARIMA (sezónní autoregresní integrovaný klouzavý průměr), kterým lze generovat časové řady vykazující trend a sezónnost. Model SARIMA je používaný k modelování časových řad multiplikativně sezónního typu, tj. zatížených stochastickou sezónností. Umožňuje kalkulovat se sezonními koeficienty a lépe predikovat následující vývoj příjmů (Lin et al., 2013). Strukturovaný model překonává potíže s nutností provést diferenciaci úlohy, jak to stanovuje existence trendu a sezónnosti v datech. Strukturovaný model má v sobě uloženy veškeré sezónnosti a trendy a pomocí vytvořených charakteristik z dat vytváří funkci popisující modelovanou řadu. Nebezpečí nastává v momentu, kdy se trend nebo sezónnost mění, nebo vznikají neočekávaně nové. Jedním z příkladů je efekt rychlého zpomalování v high-tech průmyslu v průběhu několika posledních let. Pro strukturované modely stále existuje mnoho významných otevřené otázky, jako je odhad inicializačních hodnot pro trend a sezónnost. Práce (Shan et al., 2005) porovnává několik modelů pro odhad příjmů, na základě chyby odhadu, intervalu spolehlivosti, zkreslení odhadu a intervalu pokrytí. Popisuje metodu expertního odhadu, jež je založena na informacích o aktuálních prodejích a o předpokládaných prodejích do budoucna, jež jsou omezeny kótami maximálního obratu společnosti. Kóty jsou částečně expertním dohadem a mohou být velmi zavádějící. Například, pokud manažer prodeje vidí pravděpodobnost klesající nebo výrazně nižší odhady prodeje než původní kvóty, nemá motivaci vytvářet další kroky k uzavření zakázek a zvýšení prodeje. Odložené prodeje z minulého období uzavře v období následujícím, splní jednoduše kóty a v datech vznikají mylné záznamy o růstu prodejů, což dále záporně ovlivňuje budoucí odhady. Přesnost predikce může být na základě prodejních kvót minulého období pro to následující období vážně ohrožena.
Literární přehled
24
Výše popsané problémy při predikci příjmu částečně odstraňuje (Shan et al., 2005) použitím metody ASPIRE, jež je kolektivní expertní metodou, v kombinaci s kvantitativním modelem. Granularitu predikce příjmu stanovuje na měsíční cykly, kde nachází největší schopnost identifikovat a kvantifikovat významné sezónní vlivy. Kvantitativní model je založen na identifikaci unikátních charakteristik prostředí (trh nebo lokalita), kvantizaci proměnných cyklů a trendů v datech, základní predikční metodou využívá metodu SARIMA s odvozením konce účetního období a-priori pro každý podnikatelský subjekt, dynamické aktualizace Bayesovských modelů pomocí posledních prognostických dat a adaptivní sezónní výběr, jež vybírá sezónní periody z historických dat. Prognózy příjmu založené na lineární regresi využívají známá data a vytvářejí regresní přímku, jež je vytvořena aproximací daných hodnot polynomem prvního řádu metodou nejmenších čtverců. Jedná se o takovou aproximaci daných hodnot lineární přímkou, kde součet druhých mocnin odchylek jednotlivých bodů od přímky je minimální. Často u predikčních dat nebývá každý z koeficientů stejnou měrou důležitý pro výpočet výstupní proměnné, je nutné zohlednit heteroskedasticitu6 (Krajíčková, 2007), což nabízí řešení v podobě vážených koeficientů lineární rovnice. Rozšířením metody je použití polynomu vyššího řádu (exponenciální, mocninná, polynomiální analýza), jež lépe aproximují závislé hodnoty. Aplikace regresní analýzy jsou široce používány pro predikci a prognózování. Jejich použití, zvláště polynomů vyšších stupňů, je spojeno s oblastí strojového učení. Nejčastěji bývá regresní analýza použita pro odhalení vztahu mezi nezávislými a závislou proměnou a k bližšímu zkoumání této vazby. Regresní analýzy lze použít úspěšně k odvození kauzální závislosti pouze za velmi omezených okolností, a to především v předem dobře známých datech, v nichž se nenachází mnoho stochastických jevů (Maimon, Rokach, 2010). Nebezpečím regresní analýzy je interpretace korelačního koeficientu, protože vysoká korelace mezi dvěma proměnnými nemusí nutně implikovat příčinu. Práce (Armstrong, 2012) varuje před použitím regresních analýz k hledání kauzálních vztahů a jejich použitím, jako hlavního nástroje, k prognózám pomocí nezávislých proměnných, které nebyli specifikovány v a-priori analýze. Jejich použití doporučuje pouze na neexperimentálních datech a použitím jiné prognostické metody k ověření výsledků.
3.4 Segmentace zákazníků Cílem segmentace je rozdělení trhu do skupin sdružujících zákazníky s podobnými nákupními charakteristikami. Klíčem úspěšné segmentace je identifikovat míru Heteroskedasticita je nekonstantnost rozptylu u náhodných poruch a jejich reziduí, nebo také závislost variace na parametru. 6
Literární přehled
25
podobnosti mezi zákazníky s ohledem na nákupní vzor. Segmentace rozdělí trh na skupiny, v nichž se nachází homogenní prvky, které jsou ve srovnání s jinými segmenty heterogenní. Skupiny sdružující zákazníky s podobným chováním jsou využívány pro cílený marketing nebo detailnější analýzy nákupního chování. Segmentace zákazníků je prvním krokem při procesu rozhodování. Segmentační metody můžeme rozdělit na statické, nebo také expertní, např.: ABC analýza, RFM/FRAT analytické metody. Dynamické metody, založené na určité znalosti závislé proměnné, klasifikační a regresní metody, nebo bez znalosti závislé proměnné, kde je proces segmentace založen na vlastnostech dat samotných (Williams, Williams, 2006; Birant, 2011). 3.4.1
Expertní metody RFM/FRAT
Expertní metody jsou nejpoužívanějším typem segmentace. Seznam zákazníků je rozdělen na “homogenní” segmenty pro cílové aplikace. Typická segmentační kritéria zahrnují nákupní chování, demografické, geografické a psychografické údaje. Historické nákupní chování je často označováno jako nejdůležitější kritérium pro předpověď budoucího chování. Toto chování je použito v segmentačním procesu ve formě charakteristik Recency, Frequency a Monetary.
Recency – doba uplynulá od posledního nákupu Frequency – počet předchozích nákupů Monetary – celková výše utracených finančních prostředků
Obecně platí, čím kratší doba od posledního nákupu, čím více nákupů zákazník realizoval a čím více peněz za nákupy utratil, tím více pravděpodobný je jeho další nákup a je proto výhodné se na něj zaměřit. Nejčastější počet segmentů pro každou charakteristiku je 5. Segmenty označují čísla od 1 do 5, kde v 1. segmentu se nachází nejnižší hodnoty a v 5. segmentu hodnoty nejvyšší. Kombinací segment dostaneme 125 (5x5x5) unikátních segmentů, kde každý zákazník je zařazen do právě jednoho.(Sohrabi, Khanlari, 2007; Birant, 2011; Berry, Linoff, 2011). Diskutuje použití většího či menšího počtu segmentů (3-10) pro RFM analýzu, pro vizualizaci doporučuje použit 5 segmentů pro každou charakteristiku (Kohavi, Parekh, 2004). Jiné práce doporučují použití 3 segmentů, se stejným principem řazení. Vytvoříme 27 (3x3x3) unikátních segmentů, což ale snižuje informační přesnost modelu (Coussement et al., 2012). Upozorňuje také na nevýhody RFM analýzy. Při diskretizaci dochází ke ztrátě vysvětlujících informací. Počet segmentů není přesně definovaný, záleží na subjektivním rozhodnutí tvůrce analýzy, a tato skutečnost sebou nese riziko nepřesnosti odhadu. RFM analýza není příliš vhodná pro přidání dalších
Literární přehled
26
informací (nakoupené zboží, věk nebo pohlaví zákazníka) vztahujících se k zákazníkům. Cílem analýzy RFM je identifikovat segment zákazníků, jež mají vysokou pravděpodobnost reakce na marketingové kampaně. Zaměřit se na tyto zákazníky a vyhnout se výdaji prostředků na zákazníky, kteří nebudou reagovat, tím se marketingová kampaň stává více cílenou a úspěšnější (Coussement et al., 2012). Doporučuje frekvenční diskretizaci pro charakteristiky RFM. Dále diskutuje nejvhodnější zobrazení, kde shledává 2D HEAT mapu nejvíce přehlednou a 3D HEAT mapu jako přehledově užitečnou. Potvrzuje, že přehledná vizualizace spolu s dobrou segmentací je u RFM analýzy nejdůležitějším faktorem užitečnosti (Kohavi, Parekh, 2004). Sofistikovanější metody využívají také informací o zakoupených produktech/službách, berou v úvahu míru zastoupení jednotlivých položek a aktuální produktovou nabídku. Zakoupené položky jsou agregovány do Schémat (např.: sportovní zboží, spotřební zboží, luxusní dárky) a vytvořeny další intersegmenty. V případech, kdy ženy a muži reagují rozdílně na produktové nabídky, mohou být vytvořeny genderové skupiny. Seznam zákazníků je rozdělen nejprve dle RFM, dále dle produktu a nakonec do genderové skupiny, zde mluvíme o hierarchické segmentaci. Hierarchické segmentace využívá metoda FRAT – Frequency, Recency, Amount (finanční částka) a Type (typ produktu). Metody RFM a FRAT jsou předmětem úsudku a subjektivní úvahy. Nevýhodu spatřuje v předpokladech metody, které se nemusí vždy shodovat se skutečnosti. Jako příklad uvádí trvanlivé zboží (auto, lednička), kde pravděpodobnost dalšího nákupu stoupá s časem, tedy opačně než předpokládá RFM analýza. Další nevýhodu představuje pevný počet a rozsah segmentů. Řešení nachází v iterativním hledání počtu segmentů a frekvenční diskretizaci. Přidání další informace o zákaznících (produkt, pohlaví) zvyšuje počet segmentů geometrickou řadou, přičemž nemusí zvyšovat informační hodnotu (Birant, 2011). Doporučuje spojení RFM analýzy s dalšími informacemi, například zboží, demografické či marketingové údaje. Demonstruje evaluaci RFM analýzy na základě výsledků marketingové kampaně (Kohavi, Parekh, 2004). 3.4.2
CLV (Customer Lifetime Value)
Vypočet CLV se zabývá hodnocením životního cyklu zákazníka. Výpočet hodnot R, F a M pro každého zákazníka. Dále je nutný proces normalizace hodnot F a M, kde argument Recency je normalizován dle vzorce (3.2) uvedeného níže.
Literární přehled
27
(3.2)
Jelikož velikost Recency negativně ovlivňuje výslednou CLV, je charakteristika Recency normalizována zrcadlově (Sohrabi, Khanlari, 2007; Birant, 2011; Wang, Jing, 2008). Charakteristikám R, F a M lze navíc přiřadit váhy, jež vyjadřují důležitost, schopnost ovlivnit CLV. Nejčastěji používá metodu AHP (analytical hierarchy process). Pro výpočet vah používá rozhodovací matici, sestavenou expertním odhadem a výpočtem důležitosti jednotlivých charakteristik pro výpočet CLV, dle vztahu (3.3) (Wang, Jing, 2008). (3.3)
Doporučuje expertní váhy kombinovat charakteristikami přímo z dat pomocí metody AHP. Do jisté míry se tím odstraňuje závislost na subjektivním odhadu (Hsu, 2012; Han et al., 2012). Používá segmentaci algoritmem K-means do 8 shluků. Předpokládá rozložení hodnot segmentů do skupin pod celkový průměr a nad něj, čímž vznikají 2 segmenty pro každou z charakteristik. Výsledný počet 8 je kombinací všech segmentů vstupních charakteristik (2x2x2). Průměrné hodnoty vytvořených segmentů jsou porovnávány s celkovými průměry. Na základě srovnání je uveden charakter segmentu. Pro výpočet CLV daného segmentu je uveden následující vzorec (3.4). (3.4)
MRi … průměrná hodnota Recency i-tého segmentu, MFi … průměrná hodnota Frequency i-tého segmentu, MMi … průměrná hodnota Monetary i-tého segmentu. Pomocí vzorce je vypočítána CLV pro celý segment, výpočet CLV pro jednotlivé zákazníky je také možné, ale pro účely cíleného marketingu se nepoužívá (Sohrabi, Khanlari, 2007; Birant, 2011; Wang, Jing, 2008). Segmentace zákazníků na základě hodnoty CLV. Pro výpočet CLV stanovují postup nezávislý na RFM analýze. Výpočet CLV je založen na diskontované funkci zisku, vysvětlený níže ve vzorci (3.5). ∑ π(t) … funkce zisku v čase t 1/(1+d)i … výpočet diskontu (čisté současné hodnoty) při sazbě d a periodě i
(3.5)
Literární přehled
28
Nejdůležitějším faktorem pro výpočet CLV je správný odhad funkce π(t). Funkce je založena na historickém chování zákazníků, či jen historických zákaznických ziscích, a má za cíl stanovovat jejich budoucí hodnotu pro danou periodu. Nevýhodou je závislost na funkci zisku a nezahrnutí potenciální hodnoty zákazníka do výpočtu, kalkulace vychází pouze z historických dat (Chan, 2008; Berger, Nasr, 1998). Segmentace zákazníků na základě aktuální hodnoty, zákaznické loajality a potencionální hodnoty. Studie uvádí výpočty aktuální hodnoty (3.6), zakaznické loajality (3.7) a potencionální hodnotu (3.8) jako součást výpočtu CLV. (3.6)
(3.7)
∑
(3.8)
Aktuální hodnota je zisk plynoucí ze zákazníka během určité doby. Zákaznická loajalita je určena mírou odlivu zákazníků. Potenciální hodnota zákazníka je pravděpodobností nákupu dalšího zboží nebo služeb násobená ziskem z jejich prodeje. Tyto tři hodnoty jsou chápány jako perspektivy pohledů při zákaznické segmentaci. Aktuální zákaznická hodnota vyjadřuje vychozí bod pro nabídku služeb, potencionální hodnota vyjadřuje cross-sell příležitost a loajalita upřesňuje jejich životnost. CLV je váženým součtem všech tří ukazatelů, kde váhy jsou přiděleny stejným principem jako u vážených RFM charakteristik (Kim et al., 2006; Hosseni, 2011). Obr. 3.4 vysvětluje vztah mezi RFM charakteristikami a hodnotu CLV, výpočty CLV testuje na reálných datech a formuluje následující závěry. Pokud budeme CLV považovat za funkci závislou na proměnných Recency, Frequency a Monetary, potom má pro nízkou hodnotu Frequency a rostoucí Recency funkce CLV lineárně rostoucí charakter. Pro vysokou hodnotu Frequency a rostoucí hodnotu Recency má funkce CLV charakter exponenciálně rostoucí. Faktor Monetary přímo neovlivňuje pravděpodobnost budoucího nákupu, ovlivňuje však ve velké míře jeho výši, tedy pro funkci CLV má multiplikativní efekt. Práce poukazuje na existenci průměrného nákupního cyklu u různých hladin CLV. Rovněž identifikuje Increasing Frequency paradox, jež vysvětluje jako nelineární vztah mezi zvyšující se frekvencí nákupů a pravděpodobností k dalšímu nákupu. Výhodou použití CLV je kombinace všech vstupních RFM charakteristik do jednoho čísla, jež je cílem predikce (Fader et al., 2005).
Literární přehled
29
Obr. 3.4: Vliv charakteristik R, F a M na skutečnou hodnotu CLV (Fader et al., 2005).
3.4.3
Další metody segmentace zákazníků
Využití rozhodovacího stromu jako klasifikátoru/prediktoru segment. Používá zákazníky označené segmentem spolu s RFM charakteristikou, demografickými a marketingovými údaji k vytvoření klasifikačních pravidel pro predikci budoucího chování. Následně pro klasifikované skupiny zákazníků vytvoří asociační pravidla, cílem je identifikovat vztah mezi zákaznickým segmentem, zákaznickým profilem a produktem. Na základě pravidel je možné doporučit skupině produkt s
Literární přehled
30
nejvyšším asociačním skóre, jehož cílem je lepší spokojenost zákazníka a crossselling7 (Birant, 2011). Segmentace zákazníků klasifikačním algoritmem CART. Z transakčních dat je pomocí časové značky oddělena část, použitá pro vlastní výpočet budoucí hodnoty zákazníka. Výpočet budoucí hodnoty zákazníků je prostou agregací finančních částek z transakčních dat o zákaznících, následnou diskretizací je zákazníkům přidělen budoucí segment. Zbylá transakční data jsou použita jako “historická”, určená pro trénovací fázi modelu a cílem klasifikace je určení budoucího segmentu (Han et al., 2012). Použití rozhodovacího stromu (implementace SAS) ke klasifikaci zákazníků dle CLV. Množina zákazníků je rozdělená na testovací a trénovací množiny. Budoucí CLV je vypočítána na základě Testovací množiny, trénovací množina slouží k učícímu procesu rozhodovacího stromu. Na základě klasifikace trénovací množiny je provedena komparace s výsledky testovací množiny. Segmentace zákazníků je založena na hodnotách klasifikované CLV (Kim et al., 2006). Ve své práci (Coussement et al., 2012) srovnává metody RFM analýzy, rozhodovací stromů (CHAID) a Logistickou regresi při práci na reálných datech. Srovnávacím kritériem je přesnost segmentace v různých úrovních kvality dat pomocí křížové validace a srovnání s předem známými zákaznickými segmenty. Doporučuje použití CHAID rozhodovacího stromu, pro všechny úrovně šumu v datech. Práce je zaměřena na výstupy segmentace pro užití v cíleném marketingu. Práce (Hsu, 2012) aplikuje segmentační metodu Fuzzy c-means s cílem segmentovat zákazníky dle vážených RFM charakteristik. Počet segmentů volí na základě datových charakteristik a expertního odhadu. Metoda Fuzzy c-means pracuje iterativně na pokrytí zákazníků segmenty s nejnižším rozptylem. Doporučuje segmentační metody bez vnějšího vstupu (učení bez učitele) pro podniky malého a středního rozsahu. Cílem práce je identifikace nejziskovějších zákazníků.
Strategie spočívající ve snaze přimět zákazníky k nákupu dalšího zboží, souvisejícího s již nakoupeným (např. brašna a notebook). www.cevelova.cz/slovnicek/ 7
Metodika práce
31
4 Metodika práce Metodika práce popisuje základní principy a vysvětluje jednotlivé kroky metodologie CRISP-DM používané v běžné praxi pro vývoj DM aplikací. Dále metodika práce rozebírá použité metody, techniky a software použitý k realizaci vlastní práce.
4.1 Metodologie CRISP-DM Standardizovaný způsob Data Mining (dále již jen DM) vývoje s cílem přesně definovat kroky tvorby projektu, vyvarovat se obecných chyb a ušetřit prostředky vynaložené na vývoj projektů. Jedná se o ucelenou DM metodologii zahrnující popis a doporučení pro všechny kroky vývoje DM projektu, definuje úkoly, cíle a popisuje nejběžnější chyby jednotlivých fází. Umožňuje provádět DM vývoj efektivně a rychle. Na konci každé fáze jsou výstupy evaluovány a porovnány s původním cílem projektu, v případě nutnosti je možno kroky provádět iterativně. Metodologie CRISP-DM rozděluje vývoj DM projektů do šesti základních etap (Nisbet et al., 2009; Maimon, Rokach, 2010).
Obr. 4.1: Metodologie CRISP-DM.
Porozumění problému je vstupní fáze zaměřena na definování obchodního cíle projektu. Důležitá je správná formulace vstupů a výstupů, technická omezení, hodnocení úspěšnosti (obchodní i technická), definice prostředků vložených do vývoje (data, finance, lidská práce a software). Definice technických kritérií projektu (přesnost, časová/prostorová náročnost, výstupní formát).
Metodika práce
32
Porozumění datům (získání dat) je stručná charakteristika dat, zjištění kvality a rozsahu dat, formulace úprav nutných k použití dat pro realizaci úkolů. Vhodná jsou zejména grafická znázornění nebo diagramy postupu úprav. Úprava dat je proces, kterým se zajistí převod vstupních dat do formátu použitelného pro realizaci cíle. Zahrnuje úpravu formátu, redukci dimenzí, úpravu kvality (nakládání s chybějícími, nesmyslnými hodnotami), odstranění extrémních hodnot, normalizaci a agregace dat s cílem dosáhnout požadované informace. Podrobný popis metod a úprav dat a definici výstupního formátu. Následuje je krok modelování. Výběr algoritmu či metod pro analýzu, dokumentace vstupních parametrů a jejich nastavení, definice hodnotících kritérií včetně definice dat určených pro tuto fázi. Nezbytnou součástí je ocenění modelů dle zvolených kritérií, pokud je to možné, je přidáno i ocenění z obchodních hledisek. Evaluace zahrnuje úpravu výsledků modelování, testováni modelu na evaluačních datech a hodnocení výsledků z technického a obchodního hlediska. Fáze obsahuje zhodnocení výsledků pro potřeby nasazení, jejich vysvětlení z obchodního hlediska, případně určení chyb a důvodů nesplnění cílů. Dokumentuje kvalitu získaných výsledků, dostatečnost předchozích kroků vzhledem k výsledkům. Poslední krok nasazení. Dokumentace validního procesu pro pozdější použití, vytvoření plánů pro pozdější úpravy a kontrolu, shrnuje subjektivní poznatky z vývoje projektu, může zahrnovat revizní plán a závěrečnou zprávu. Ustavuje nároky na implementaci a doporučuje další kroky pro rozvoj projektu.
4.2 Kritéria výkonnosti 4.2.1
Přesnost
Klasifikační přesnost, také zvaná PCC (Percentage Correctly Classified), je hlavním kritériem pro srovnávání výkonosti v oblasti strojového učení a složených klasifikačních metod. Přesnost klasifikace nezohledňuje pravděpodobnost členství třídy, očekává již transformovaná data pomocí prahu klasifikačním modelem. Výpočet přesnosti klasifikace vychází ze vzorce (4.1), (Nisbet et al., 2009). .
4.2.2
(4.1)
Plocha pod ROC křivkou (AUC)
Plocha vyjadřuje při různých diskriminačních hladinách schopnost testované metody korektně přiřadit testovaným záznamům jejich skutečnou třídu. V případě klasifikace plocha pod křivkou vyjadřuje pravděpodobnost náhodně tažených
Metodika práce
33
párů, kde jeden náleží pozitivní třídě a druhý právě negativní třídě, pro které model přiřadí vyšší skóre pozitivnímu pozorování. Charakteristika AUC (Area Under the Receiving operation Characteristics) je nezávislá na prahové hodnotě a tudíž nejvíce objektivním kritériem výkonosti. AUC sumarizuje výkonnost klasifikátoru reprezentovanou ROC (Receiving operation Characteristics) křivkou, která zobrazuje hodnotu poměru sensitivity a specificity, pro každou úroveň prahu. Může nabývat hodnot mezi 0.5 a 1, kde nejvyšší hodnota reprezentuje výkonnější klasifikátor. AUC je všeobecně uznávaným objektivním kritériem výkonnosti, vhodný pro srovnávání klasifikačních modelů (Bock, Poel, 2011; Huang et al., 2012; Maimon, Rokach, 2010). 4.2.3
Metoda Davies-Bouldin index
Metrika pro interní hodnocení segmentačních algoritmů. Evaluace výsledků segmentace je založena na hodnotách a rysech vstupních dat. Nevýhodou interních evaluací je, že dobrý výsledek evaluace nemusí nutně znamenat lepší segmentaci. Vypočet Davies-Bouldin indexu je dán vztahem (4.2), (Petrovic, 2006).
∑
(
)
(4.2)
n … počet segmentů, cx … etalon segmentu x, σ … průměr vzdáleností všech prvků segmentu x k etalonu cx, d(ci, cj) … vzdálenost mezi etalony ci a cj. Davies-Bouldin index měří průměrnou podobnosti mezi každým segmentem a jeho nejpodobnějším. Segmenty mají být kompaktní a oddělené, proto nižší hodnoty indexu znamenají lepší segmentační výkon (Kovács et al., 2005; Petrovic, 2006). 4.2.4
Metoda křížové validace
Křížová validace8 je metoda pro posouzení, jak se generalizované výsledky metody mohou chovat na neznámých datech. Používá se při ověřování prediktivních modelů, kde je cílem odhadnout, jak přesný bude prediktivní model v praxi. Vstupní množina dat je rozdělena do (k) vzájemně exkluzivních podmnožin s náhodným výběrem prvků. Kde (k) je současně počet iterací validace. Pro učící proces je použito (k-1) podmnožin a pro testování je použita zbývající podmnožina. Validace se (k-krát) opakuje, každá podmnožina je použita právě jednou jako testovací. Výsledky validace jsou průměrem výsledků každé z 8
Křížová validace je známá spíše pod anglickým označením„k-fold cross-validation“.
Metodika práce
34
(k) iterací. Z výsledků validace lze určit stabilitu modelu, výpočtem průměru se standartní odchylkou. Výhodou metody je postupné použití všech podmnožin právě jednou pro testovací fázi. Nejčastěji se používá nastavení (k=10), ale hodnota (k) není nijak omezena (Maimon, Rokach, 2010; Nisbet et al., 2009). 4.2.5
Metoda K-Means
Algoritmus K-means iterativně hledá hodnoty vektorů tak, že minimalizuje střední odchylku mezi zadanou množinou dat a vektory (vzdálenost od etalonu shluku), které mají k těmto datům nejmenší euklidovskou vzdálenost a rozděluje je do předem daného počtu shluků (tříd) K (C1, C2….Ck) (Kelbel, Šilhán, 2002). Základní algoritmus používá Euklidovu vzdálenost a aritmetický průměr dat ve shluku (střední hodnota třídy) je etalon (centroid). Číslo (K) udává počet etalonů, jež se na počátku inicializují náhodně zvolenou hodnotou nebo vhodně zvolenou heuristikou (apriorní znalostí úlohy). Po inicializaci provádí algoritmus 2 kroky. Klasifikace, data se klasifikují do tříd (C1, C2….Ck) dle minimální euklidovské vzdálenosti od etalonu. Přepočítání etalonu, vypočítají se nové hodnoty etalonů na základě středních hodnoty dat klasifikovaných do daného shluku. Hodnota etalonu je rovna průměru všech dat ve shluku. Kroky se opakují, dokud je alespoň jeden z datových bodů klasifikován jinak než v předchozím kroku. Algoritmus K-means je velmi jednoduchý a rychlý i pro velké množství dimenzí dat. Je velmi výhodné zvolit dobře počáteční hodnoty etalonů. Prvky se mohou jednoduše přeskupovat mezi shluky. Algoritmus v konečném počtu kroků konverguje k řešení (Selim, Ismail, 1984). V závislosti na vstupních podmínkách může existovat více řešení. (Kelbel, Šilhán, 2002). Experimentální zkušenosti naznačují, že je tento algoritmus pro účely vektorové kvantizace velmi vhodný jak z hlediska kvality rozkladu trénovací množiny do shluků, tak především svou lineární složitostí výpočtu řešení. Časová složitost algoritmu K-Means je dána dle vztahu (4.3), prostorová složitost je dána dle vztahu (4.4) viz (Nisbet et al., 2009) (4.3)
i … počet iterací K … počet shluků n … počet instancí D … počet atributů (dimenzí)
Metodika práce
35
(4.4)
K … počet shluků n … počet instancí D … počet atributů (dimenzí) 4.2.6
Metoda X-Means
Rozšířením metody K-means s automatickým výběrem počtu shluků. Správný počet etalonů je určen na základě heuristické analýzy. Algoritmus začíná s minimálním počtem etalonů a iterativně jej zvyšuje za podmínky, že má nárůst shluků v datech požadovaný smysl. Pokud algoritmus rozdělil jeden ze shluků na dva, je určeno metrikou Bayesian Information Criteria (BIC), kompromis mezi složitostí modelu a jeho přesností (Pelleg, Moore, 2000). 4.2.7
Metoda k-NN
Metoda klasifikace založená na vzdálenosti, tedy podobnosti záznamů stejné třídy. Metoda k-NN předpokládá existenci trénovací množiny správně oklasifikovaných záznamů. Vlastní klasifikace nového záznamu je založena na výběru (k) trénovacích záznamů, jež jsou nejbližší ke klasifikovanému záznamu, z nichž je klasifikovanému záznamu přiřazena třída, jež náleží většině z (k) sousedů. Metrikou je vzdálenost vektorů v Euklidovském prostoru. Nevýhodou je silná závislost metriky na druhu analyzovaných záznamů (Nisbet et al., 2009). 4.2.8
Rozhodovací stromy
Metoda je založena na snižování entropie původní, heterogenní, množiny pomocí tvorby rozhodovacích pravidel na homogenní skupiny jedné třídy. Algoritmus hledá atribut, jenž rozděluje heterogenní množinu na homogennější podmnožiny s nižší možnou entropií. Hledá takový atribut, jež má nejvyšší informační zisk, tedy nejvyšší schopnost snížit entropii. Takto vytvoří algoritmus pravidlo, podle kterého se množina rozdělí. Kroky určování informačního zisku a tvorby pravidla se opakují rekursivně, dokud lze snižovat entropii nebo dokud strom nedosáhne maximální hloubky, zde je přidán list určující klasifikaci do třídy. Ořezávání stromů může být realizováno při konstrukci, kde expanze uzlu je podmíněna celkovou hodnotou entropie v podmnožině uzlu, nebo prořezávání po konstrukci, kde dochází k odstraňování větví a nahrazování listy za podmínky dodržení míry chybovosti. V kombinovaných klasifikačních modelech, jako je C4.5 (Maimon, Rokach, 2010), je pravidlo ohodnoceno vahou (významností) a vyhodnocování probíhá dle vah sestupně. Ořezávání modifikuje subtree raising, kde je celý podstrom, pokud
Metodika práce
36
splňuje hranice chybovosti, nahrazen podstromem s nejčastějším výskytem (Maimon, Rokach, 2010). 4.2.9
Metoda Bagging
Bagging (bootstrap aggregating) k vytvoření modelu využívá bootstrapové výběry, tedy náhodné výběry s opakováním, jež rozdělí na trénovací, na níž je vytvořen model, a testovací část, kde prakticky testuje predikční sílu vytvořeného modelu. Pro tvorbu vnitřních modelů jsou často použity Rozhodovací stromy. Počet iterací bývá omezen parametrem, nejčastěji je užíváno 10 opakování. Výsledek klasifikace je průměrnou hodnotou hlasování všech modelů. Metoda Bagging rovněž umožňuje při učící fázi paralelizovat iterace a tvorbu stromů. Hotový (naučený) model metody Bagging je pro klasifikační úkoly stejně rychlý jako základní lineární model. (Maimon, Rokach, 2010; Nisbet et al., 2009). 4.2.10 Metoda Boosting Vytváří iterativně modely, tvorba modelu je stejná jako u metody Bagging, a přidává váhy ke klasifikovaným záznamům. Váhy se zvyšují, pokud se při validaci jedná o nepřesnou klasifikaci, další iterační krok se více zaměřuje na záznamy s vyšší váhou. Klasifikace je výsledkem váženého hlasování vnitřních modelů. Vnitřní modely je možné vytvářet libovolným klasifikačním algoritmem, nejčastěji se používají Rozhodovací stromy. Zaměřením na obtížně klasifikovatelné části metoda posiluje (Boosting) svoji klasifikační přesnost. Metoda je citlivá k extrémním hodnotám a šumu v datech, naopak je velmi odolná proti přeučení (Nisbet et al., 2009; Maimon, Rokach, 2010). 4.2.11
Metoda Random Forests
Metoda iterativně tvoří modely, stejný princi jako u metody Bagging, které jsou tvořeny neprořezávanými rozhodovacími stromy. Z pozorování, jež nebyla použita k tvorbě modelů (princip bootstrap), je vypočten odhad generalizační chyby stromu (out-of-bag estimate). Při tvorbě stromu se volí náhodně prediktor větvení, a nejlepší větvení se hledá až mezi větvemi. Proces je složen z vytváření stromů a náhodného výběru prediktorů (Nisbet et al., 2009).
4.3 Programové vybavení Při realizaci práce bylo využito implementací DM metod a algoritmů, jež jsou obsaženy v knihovnách uvedených aplikací.
Metodika práce
4.3.1
37
RapidMiner
Nástroj RapidMiner (RM) obsahuje více než 500 základních metod pro DM a ETL (Extract Transfrorm Load). Nabízí rovněž možnost psaní vlastních skriptů v Groove. V grafickém prostředí lze připojit funkcionalitu z knihoven Weka a Rproject. Aplikace pracuje v prostředí Java Runtime Machine. Po připojení knihovny RM do programu v jazyce Java lze využívat všechny funkce dostupné v grafické aplikaci. Knihovna RM dovoluje uživatelské nastavení využitelných systémových prostředků. 4.3.2
Weka
Weka (Waikato Environment for Knowledge Analysis) obsahuje základní metody pro segmentaci, eliminaci atributů, klasifikaci a ETL. Weka je naprogramovaná v jazyce Javě, lze ji připojit jako samostatnou knihovnu do programu v jazyce Java. Weka nabízí soubor složených klasifikátorů, např.: Bagging, Boosting, Random Forest. V knihovně Weka lze nalézt vlastní implementace algoritmů, zvláště implementace rozhodovacích stromů REPTree (zrychlený C4.5) a J48 (C4.5).
Vlastní práce
38
5 Vlastní práce Kapitola obsahuje realizaci vybraných pokročilých analytik. Metody a techniky použité při realizaci jsou popsány v kapitole Metodika práce. Realizace se řídí metodologií CRISP-DM a kapitoly jsou členěny dle jednotlivých kroků metodologie.
5.1 Predikce příjmů 5.1.1
Porozumění problému
Cílem aplikace je vytvořit aplikaci pro predikci budoucích příjmů z neuzavřených zakázek. Aplikace bude obecně použitelná na různá vstupní data zadavatele. Aplikaci bude možné efektivně nasadit jako součást SaaS do prostředí Cloud. Součástí prezentace výsledků je i zachycení vývojového trendu příjmů. Výstupy aplikace budou určeny především vrcholovým manažerům, proto je nutné výsledky jednoduše a jasně reprezentovat. Výstupy aplikace musí být uchovávány pro další zpracování, například další aplikací zadavatele. Model pro predikci je vybrán na základě nejvyšší přesnosti (Accuracy), při stejných výsledcích je zvolen model s nejvyšším AUC. Třetím srovnávacím kritériem je čas metody strávený učícím cyklem. Granularita výsledků by měla být v rozsahu týdnů, měsíců a kvartálů. Aplikace by měla umožnit predikci příjmů až na 3 kvartály. Požadovány jsou 2 typy predikce. Krátkodobá predikce pro předpověď období kratší než je kvartál. Kde cílem je klasifikovat jednotlivé budoucí zakázky jako vyhrané či prohrané. Výsledkem je seznam zakázek s predikovaným výsledkem, včetně konfidenčních intervalů. Predikční výsledky jsou akceptovány, je-li celková přesnost předpovědi vyšší než 80%. Dlouhodobá predikce pro předpověď více než 2 kvartály dopředu. Na základě predikovaných dat určit trend vývoje příjmu. Výsledkem jsou agregovaná data dle granularity a trendová křivka určující předpokládaný vývoj příjmů Výsledky dlouhodobé predikce jsou akceptovány, je-li relativní akumulovaná chyba pod úrovní 15,000% a absolutní relativní chyba nižší než 10,000% pro predikci delší než 2 kvartály, za podmínky týdenní granularity pro chybu kumulovanou. Zdrojová data pro aplikaci jsou použita z interních zdrojů zadavatele. Vývoj aplikace se řídí striktně metodikou CRISP-DM pro vývoj aplikací v oblasti dolování dat.
Vlastní práce
5.1.2
39
Porozumění datům
Získání dat z databáze SalesForce.com spojením tabulek Opportunity, Owner, Account, a jejich agregátů. Tab. 5.1: Přehled vstupních dat se základní charakteristikou. Role
Jméno
Typ
Statistika
Rozsah
Chybí
id
OpportunityID
integer
avg = 2044153 +/- 16312
[2015836; 2072463]
0
label
Opportunity
integer
avg = 19757 +/- 8889
[5230 ; 35439]
0
label
LeadSource
integer
avg = 116007 +/- 3913
[5216; 116166]
0
label
Type
integer
avg = 5267 +/- 72.5
[5216 ; 5391]
0
label
DateCreated
date
length = 2383 days
[25.9.2003 ; 4.4.2010]
0
label
DateClosed
date
length = 36525 days
31.12.1937;31.12.2037
0
label
YearMonthClosed
date
mode = 2010/03 (2113)
[2004/10;2037/12]
0
label
Amount_denorm.
real
avg = 57923+/-385863
[-399000 32849063]
0
label
ExpectedRevenue
real
avg = 22073+/-230263
[-399000; 24636797]
0
label
DaysOpenToClose
integer
avg = 216 +/- 296
[-665 ; 12462]
0
label
QuartersToClose
integer
avg = -1.97 +/- 2.80
[-24 ; 110]
0
label
Status
binary
Lost (13172,Won (12509)
Won12509,Lost13172
0
label
CntClosedChange
integer
avg = 1.603 +/- 2.056
[0.000 ; 20.000]
0
label
CntStageChange
integer
avg = 2.055 +/- 1.024
[1.000 ; 8.000]
0
label
CntClosQuartChg
integer
avg = 0.696 +/- 1.090
[0.000 ; 6.000]
0
label
AccountCntWon
integer
avg = 6.454 +/- 15.004
[0.000 ; 142.000]
0
label
AccountCntLost
integer
avg = 3.709 +/- 9.125
[0.000 ; 81.000]
0
label
AccountCntOpen
integer
avg = 3.688 +/- 9.891
[0.000 ; 96.000]
0
label
AcntMinSaCycWon
integer
avg = 30.190 +/- 77.207
[0.000 ; 1338.000]
0
label
AcntMaxSaCycWon
integer
avg = 166.551 +/- 246.695
[0.000 ; 1949.000]
0
label
AcntAvgSaCycWon
integer
avg = 72.347 +/- 104.574
[0.000 ; 1338.000]
0
label
AccountIndustry
integer
avg = 137333 +/- 80200
[5216 ; 371802]
0
label
AccountType
integer
avg = 175195 +/- 50626
[5216 ; 229974]
0
label
OwnerCntWon
integer
avg = 161.601 +/- 127.308
[0.000 ; 577.000]
0
label
OwnerCntLost
integer
avg = 137.504 +/- 106.807
[0.000 ; 390.000]
0
label
OwnerCntOpen
integer
avg = 139.652 +/- 175.475
[0.000 ; 778.000]
0
label
OwnMinSaCycWon
integer
avg = 33.297 +/- 120.639
[0.000 ; 559.000]
0
label
OwnMaxSaCycWon
integer
avg = 788.392 +/- 386.457
[0.000 ; 1949.000]
0
label
OwnAvgSaCycWon
integer
avg = 138.432 +/- 157.516
[0.000 ; 815.000]
0
label
Owner_Division
integer
avg = 40553+/-110764
[5216 ; 413743]
0
label
OwnerDepartment
integer
avg = 328003+/- 160600
[5216; 413701]
0
Data obsahují 25 681 instancí (unikátních zakázek) a 31 atributů, z nichž jsou zde obsaženy i speciální atributy jako jsou Status (binární atribut) a OpportunityID (identifikátor zakázky). Data neobsahují žádné chybějící hodnoty,
Vlastní práce
40
není nutné řešit problematiku spojenou s chybějícími hodnotami a aplikovat metody pro nakládání s chybějícími hodnotami. Při porovnání rozsahu hodnot a průměrné hodnoty se standartní odchylkou, předpokládáme u atributů DaysOpenToClose, QuartersToClose a OwnMinSaCycWon významný výskyt extrémních hodnot. Pro identifikaci extrémních hodnot je použit programový nástroj WEKA, při použitém nastavení (weka.filters.unsupervised.attribute.InterquartileRange R first-last -O 1.0 -E 25.0). Identifikováno 2105 (8,94 %) jako extrémní hodnoty, vysoký počet extrémních hodnot je způsoben především vysokým počtem chybně zadaných hodnot.
Obr. 5.1: Výskyt extrémních hodnot.
V datech jsou identifikovány sémanticky chybná data, např.: DateClosed 21. 12. 1937, 29. 5. 2020 nebo DaysOpenToClose 12462. Doporučeno je použít ve fázi úpravy dat odstranění extrémních hodnot a filtr datumových atributů. Informační zisk a vážení atributů. 5.1.3
Úprava dat
Proměnné vyřazeny metodou expertní eliminace. ExpectedRevenue je agregovaná proměnná, sestrojená na základě vzorce (5.1) níže a je přímo vázána na predikovaný Status, proto ji nelze dále použít.
Vlastní práce
41
(5.1)
Atribut Opportunity – hodnota se 100% unikátních hodnot, jedná se o sekundární identifikátor zakázek. Atributy DateCreated a YearMonthClosed jsou datumové proměnné, které dle informačního koeficientu nemají žádný vliv na budoucí výsledek, pro další výpočty. DaysOpenToClose je atribut vytvořený z rozdílu DateClosed a DateCreated. Vzhledem k proměnnému datu uzavření zakázky je velmi nevhodný k použití. Atribut DateClosed je připojen k datům jako tzv. meta atribut, není použitý přímo pro učící a evaluační proces, ale pouze pro agregaci výsledků dlouhodobé predikce. Na vstupní atributy je použita metoda optimálního výběru, která volí atributy na základě jejich informačního zisku (schopnosti snížit entropii). Optimalizovaným výběrem bylo z celkového počtu 31 atributů vybráno nejvhodnějších 13 atributů. Vybrané atributy jsou uvedeny v tab. 5.2 níže. Tab. 5.2: Normalizovaný informační zisk atributů s výběrem.
Atribut AcntMinSaCycWon AcntMaxSaCycWon AcntAvgSaCycWon AccountCntWon AccountCntLost Amount Type AccountType LeadSource AccountCntOpen OwnerCntLost CntClosedChange CntStageChange
Váha 0,9603 0,9569 0,9567 0,9555 0,6383 0,2653 0,2256 0,1578 0,1222 0,0897 0,0784 0,0717 0,0615
Odstranění extrémních hodnot, používáme pro očištění dat o extrémní hodnoty (weka.filters.unsupervised.attribute.InterquartileRange -R first-last -O 1.0 -E 25.0). Aplikace přechozích kroků získáme pouze numerické atributy, zbavené extrémních hodnot, je proto výhodné je před dalším zpracováním normalizovat. Výsledkem jsou data, která rozdělujeme na tréninkový a evaluační množina dat. Obr. 5.2 zobrazuje graf všech zakázek s rozdělením hodnot na dva sety. Data jsou rozdělena dle DataClosed na 2 segmenty.
Vlastní práce
42
tréninkový set [1. 1. 2009 – 32. 12. 2010], celkem 11 847 záznamů, evaluační set [1. 1. 2010 – 30. 12. 2010], celkem 6 401 záznamů.
Obr. 5.2: Historie zakázek s rozdělením na trénovací a evaluační set.
5.1.4
Modelování
Evaluační metodou pro výběr modelu je křížová validace. Metoda má výbornou schopnost pokrýt testovací fází celou množinu dat. Metoda křížové validace vyžaduje pouze množinu trénovacích dat bez dalšího zásahu (vytváření testovacího setu). Počet křížových validací je obvykle nastaven na 10. Srovnávací kritéria metod.
Přesnost je hlavním kritériem srovnání úspěšnosti metod. AUC pro zhodnocení schopnosti metody korektně klasifikovat vyhrané a prohrané zakázky. Pokud dojde ke shodným výsledkům v prvním kritériu. Čas, měřený prováděcí čas procesoru algoritmu po inicializaci všech proměnných. Čas je průměrem 10-ti cyklů křížové validace.
Srovnávané metody.
Metoda k-NN, implementace algoritmu k-NN v knihovně RapidMiner, metrika měření vzdálenosti ponechána na standardní Euklidově vzdálenosti, nastavení k=1.
Vlastní práce
43
J48, implementace algoritmu C4.5 v knihovně WEKA, neomezena hloubka stromu, minimální počet instancí v listu je roven dvěma, povoleno prořezávání stromu. RepTree, implementace zrychlené algoritmu C4.5 v knihovně WEKA, neomezena hloubka stromu, minimální počet instancí v listu je roven dvěma, povoleno prořezávání stromu. AdaBoost.M1, implementace metody Adaptive Boosting v knihovně RapidMiner,počet iterací 10, vnitřní učící metoda REPTree s nastavením shodným jako v samostatném použití. Bagging, implementace metody Bootstrap aggregating v knihovně RapidMiner, počet iterací je 10, vnitřní učící metoda REPTree s nastavením shodným jako v samostatném použití. RandomForest, implementace metody Random Forest v knihovně Weka, vnitřní učící metoda Random Tree, počet stromů je 10, maximální hloubka je neomezená. Tab. 5.3: Výsledky cross-validace na trénovací množině dat.
Algoritmus Bagging randomForest J48 RepTree AdaBoost.M1 k-NN
Čas[ms] 4968 2200 6344 962 6339 35
AUC Přesnost[%] 0,962 89,41 0,952 89,09 0,923 88,64 0,944 87,69 0,952 87,25 0,879 83,67
Tabulka ukazuje srovnání výsledků použitých modelovacích technik na trénovací množině. Nejdůležitějším srovnávacím kritériem je přesnost modelu, nejvyšší hodnotu 89,41% pozorujeme u metody Bagging, druhou nejvyšší přesnost dosáhla metoda RandomForest, která dosahuje daleko nižší výpočtový čas, 2200ms. Naopak složený klasifikátor AdaBoost se umístil na předposledním místě s výsledkem nižším než samostatné stromové metody. Zajímavá je i velmi vysoká přesnost 83,67% metody k-NN s nejnižším výpočtovým časem 35ms. Hodnota AUC 0,962 u metody Bagging potvrzuje její výborné klasifikační schopnosti na trénovací množině.
Vlastní práce
44
Obr. 5.3: ROC křivky křížové validace modelů.
Na obr. 5.3 vidíme graf ROC křivek jednotlivých metod. Křivka je generována pro třídu Lost z tab. 5.4. Metody měli velmi podobné výsledky klasifikace a křivky této skutečnosti odpovídají. Křivka nám říká, jak úspěšné metody byli při klasifikaci třídy Lost. Vertikální osa udává hodnotu správné klasifikace (Precisnost) a horizontální osa hodnotu chybné klasifikace (1Sensitivita). Tab. 5.4: Matice záměn metody Bagging.
Skutečnost -> Predik. Won Predik. Lost
Won 5919 386 6,122% (1-Sensitivita)
Lost 869 4673 15,680% (1-Specificita)
Precisnost 87,198% 92,370%
Vlastní práce
45
Z tab. 5.4 identifikujeme výrazně vyšší procento chyby I. řádu9 15,680% než chyby II. řádu10 6,122%, což je způsobeno především vyšším výskytem Won třídy, a povaze Bagging metody k upřednostnění pozitivní třídy Won. Výrazněji je tak ovlivněna precisnost metody, jež dosahuje 87,198%, při klasifikaci třídy Won. Z hlediska kritérií pro výběr modelu je přesnost klasifikace metodou Bagging nejvyšší. 5.1.5
Evaluace
Evaluace proběhla na evaluačních datech s 6401 záznamy. Evaluační data jsou časově přímo následující po tréninkových. Evaluační proces předpokládá stejné podmínky i při praktickém využití metody. Prvním výsledkem evaluačního testu je krátkodobá predikce. Výsledkem této predikce je klasifikace instancí do predikovaných tříd. Výstupem krátkodobé predikce je klasifikace zakázky do třídy Won nebo Lost. Hodnotícím kritériem je přesnost, kde je akceptovatelná hodnota vyšší než 80%. Tab. 5.5: Matice záměn pro výsledky krátkodobé predikce.
Skutečnost -> Won Lost
Won 2491 504 16,828% (1-Sensitivita)
Lost 495 2911 14,533% (1-Specificita)
Precisnost 83,423% 85,242%
Přesnost krátkodobé predikce se získá výpočtem váženého průměru ze sloupce „Precisnost“ uvedeném v tab. 5.5. Výsledkem je přesnost 84,39%, která je vyšší než požaduje zadání, můžeme prohlásit, že krátkodobá predikce splňuje kritérium udané v zadání. Hodnota AUC je 0,912, jež dokazuje dobré determinační schopnosti modelu viz kapitola 4.2.2. Výstupem krátkodobé predikce je kolekce záznamů. V tab. 5.6 je uveden vzorek výstupních dat krátkodobé predikce. Výstupní data obsahují ID zakázky, predikovaný výsledek, a konfidenční hodnoty k třídám Lost, Won. Hodnoty Confidence udávají hodnotu náležitosti k určité třídě, ze kterých aplikace pomocí nastaveného prahu určí výsledek predikce. Hodnoty můžeme interpretovat jako míru náležitosti k jedné nebo druhé třídě.
Chyba I. řádu (chybná pozitivní klasifikace), znamená klasifikaci prohrané zakázky jako vyhrané. Chyba II. řádu (chybná negativní klasifikace), znamená klasifikaci vyhrané zakázky jako prohrané. 9
10
Vlastní práce
46
Tab. 5.6: Výstupní formát krátkodobé predikce.
ID 2066308 2056150 2017245 2017548 2064732 2066098 …
Confidence(Won) Confidence(Lost) Predikce(Status) 0.7590223097039482 0.24097769029605182 Won 0.0 0.9999999999999999 Lost 0.0 0.9999999999999999 Lost 0.7794391735418648 0.22056082645813535 Won 0.10626026890293905 0.8937397310970607 Lost 0.0 0.9999999999999999 Lost … … …
Dlouhodobá predikce se zabývá agregací dat do delších časových úseků. Chyby typu II. označujeme dále jako FN a chyby typu I. označujeme dále jako FP. Jejich významné rozdíly ovlivňují agregovaný výstup, proto je nutné rozdíly mezi nimi minimalizovat avšak s podmínkou neměnnosti klasifikační přesnosti. Metoda predikce využívá k minimalizaci principů Cost/benefit (nákladové) analýzy, která umožňuje nastavit automaticky klasifikační práh. Tento práh určuje hranici příslušnosti k jednotlivým třídám. Metoda používá nákladovou matici s ohodnocením FN = FP = 1,0 a nákladem 0,0 pro správnou pozitivní a negativní klasifikaci.
Obr. 5.4: Zobrazení nákladové analýzy.
Vlastní práce
47
Výsledkem analýzy z obr. 5.4 je nalezení takového prahu, při němž nabývá nákladová funkce minimálních hodnot. Použití nákladové analýzy má za následek neutrálnost predikce. Nákladovou matici lze upravovat a vytvářet pozitivní nebo negativní prognózy při předpokladu výrazné neměnnosti přesnosti. Metoda dlouhodobé predikce klasifikuje záznamy náležící do predikovaného horizontu, ty jsou agregovány dle nastavené granularity (týden, měsíc, kvartál).
Obr. 5.5: Skutečný a predikovaný příjem agregovaný v týdenních intervalech.
Můžeme pozorovat velmi dobrou korelaci mezi hodnotami. Nejvyšší nepřesnosti se predikce dopouští v 13. a 14. týdnu, kde rozdíl dosahuje výše až 1,5 milionu $, a týdnu 26. a 27., kde nepřesnost dosahuje výše 1 milionu $. V širším pohledu dochází v intervalu mezi 2. a 19. týdnem k nadhodnocování příjmů, naopak ve zbývajících týdnech dochází k jejich podhodnocování. Důvodem jsou nepřesné a nedostatečně doplněné informace o zakázkách. Jejich předpokládaná doba uzavření je v době predikce velmi vzdálená (až 36 týdnů). Predikovaný příjem (trend) je přímka lineární regresní analýzy vytvořená z predikovaných hodnot. Parametry jsou: y = -126681x + 6E+06, R² = 0,2386,
Vlastní práce
48
a slouží především pro rychlou orientaci v predikovaných hodnotách. Nemá za cíl přesně kopírovat predikovaná data.
Obr. 5.6: Predikovaný a skutečný příjem na podkladu celkového objemu zakázek.
Z obr. 5.6 lze zhodnotit efektivnost z pohledu úspěšného uzavírání zakázek. Klesající budoucí příjmy identifikované na předchozím grafu, lze vysvětlit rapidním poklesem objemu všech predikovaných zakázek. Graf na obr. 5.7 zobrazuje kumulativní hodnoty příjmu. Ukazuje vývoj absolutní chyby a kumulativní absolutní chyby v závislosti na predikované periodě, například pro predikci celkového objemu příjmů k 20. týdnu, kde kumulativní chyba nabývá hodnoty 10 438 585 je absolutní chyba 8 975 896. Absolutní chyba nikdy nemůže být vyšší než kumulativní, absolutní chyba je zkreslená týdenní agregací výsledků predikce v predikci.
Vlastní práce
49
Obr. 5.7: Kumulativní chyba výsledku dlouhodobé predikce.
Výpočty chyb v regresních kritériích, kde výsledky týdenní predikce považujeme za regresi k reálným hodnotám, jsou dobrým technickým ukazatelem. Avšak výsledky predikce jsou určeny pro vedoucí pracovníky společnosti, u nichž se nepředpokládá vysoká technická odbornost a tedy ani znalost významu regresních chyb. Proto byly pro obchodní zhodnocení predikce vybrány relativní a absolutní chyby (tab. 3.1). Tyto kritéria více respektují manažérský pohled.
Vlastní práce
50
Tab. 5.7: Přehled dlouhodobé predikce pro 36. týden.
Celkový skutečný příjem [$] Celkový Predikovaný příjem [$] Absolutní kumulativní chyba Relativní kumulativní chyba[%] Absolutní chyba Relativní chyba [%]
5.1.6
108 686 202,020 112 940 162,880 16 325 104,000 14,455 4 253 960,860 3,767
Nasazení
Pro predikci příjmů byla vybrána metoda Bagging, jež vykázala nejlepší výsledky ve všech srovnávaných kritériích. Krátkodobá predikce splnila obchodní očekávání, a vykázala přesnost 84,39% (v tab. 5.5). Ke zvýšení dlouhodobé predikce byla aplikována analýza nákladové matice. Dlouhodobá predikce vykazuje dobrou týdenní přesnost (v obr. 5.5), relativní i kumulované chyby jsou v mezích akceptačních pravidel (v obr. 5.7 a tab. 5.7). Evaluace (verifikace) aplikace proběhla v pořádku, byly splněny všechny akceptační požadavky zákazníka. Výsledky dlouhodobé predikce (v obr. 5.6) demonstrují možnost přehledného zobrazení. Aplikace splňuje požadavky na výstupní formát, je možné ji tedy použít v dalších aplikacích zadavatele. Metoda Bagging nabízí schopnost paralelizování tvorby rozhodovacích stromů, paralelizaci umožňuje i křížová validace a nákladová analýza (implementace MetaCost, iterativní model minimalizace nákladů). Aplikace pro predikci příjmů byla realizována jako samostatný Java program. Aplikace byla testována v prostředí Cloud. Při testování vykazovala aplikace dobré časové nároky, díky dobré paralelizaci použitých algoritmů. Časová náročnost byla výrazně nižší než u neparalelizováné implementace a pomalejší než lineární algoritmus. Testování přineslo i dobré výsledky paměťových nároků, které nebyly na použitých datech nijak výrazné. Aplikace v sobě integruje i popsané úpravy dat, proto lze uvažovat i nasazení na zcela odlišné data. Validace projektu z obchodního hlediska musí být realizována formou expertních revizí. Doporučuje se model predikce po středních intervalech reevaluovat na nových datech. Požadavky na vstupní data a jejich formát jsou popsány v kapitole 5.1.3,.Zejména je nutné dodržet požadavky na povinné vstupní atributy (DateClosed, OpportunityID, Amount) z nichž jsou vytvořeny predikce. Při evaluaci modelu je dostačující použití křížové validace. Nároky na implementaci jsou sníženy použitím externích knihoven (zmíněno v popisu metody Bagging v kapitole 5.1.4).
Vlastní práce
51
5.2 Segmentace zákazníků 5.2.1
Porozumění problému
Cílem aplikace je segmentace zákazníků na obchodně důležité skupiny. Aplikace bude obecně použitelná na různá vstupní data zadavatele. Aplikaci bude možné efektivně nasadit jako součást SaaS do prostředí Cloud. Segmenty by měli sdružovat podobné zákaznické chování a umožnit tak lepší analýzu zákaznického portfolia. Výstupem aplikace bude CLV (Customer LifeTime Value) analýza s dynamickou segmentací dle RFM charakteristik a samostatná RFM analýza. Výstupy obou segmentací musí být zachovány ve formě použitelné pro další strojové zpracování. Výsledky RFM analýzy budou vizualizovány v 2D, které umožní jednoduchou a rychlou orientaci. Jeden pohled RFM analýzy by měl zobrazovat nejméně 3 veličiny. Zobrazení musí obsahovat signifikantní údaje. Výstupem CLV analýzy bude definice zákaznických segmentů a jejich popis. Hodnota CLV daného segmentu musí odpovídat současné a budoucí hodnotě zákazníka. Vysvětlete principy rozdělení a charakter identifikovaných skupin. Vizualizace by měla být přehledná a segmenty v ní snadno identifikovatelné. Zdrojová data pro aplikaci jsou použita z interních zdrojů zadavatele. Vývoj aplikace se řídí striktně metodikou CRISP-DM pro vývoj aplikací v oblasti dolování dat. 5.2.2
Porozumění datům
Dolování z SQL databáze, kolekce atributů vybrána na základě konzultace s odborníkem a výběru relevantních dat. Hlavní bylo napojit transakční záznamy na zákazníka a připojit aktuální reklamní kampaň a informace o zakoupeném produktu. Data jsou kolekcí transakčních záznamů, kde identifikátorem je ID faktury. Vstupní data obsahují 1 536 939 záznamů, z nichž každý je právě jedním transakčním záznamem. V datech je velké množství záznamů s neúplnými nebo zcela chybějícími atributy. Nenacházejí se však u atributů, jež budou využity pro další zpracování. Pro segmentaci využijeme pouze 4 atributy:
Vlastní práce
52
CustomerEmailHash, unikátní uživatelský identifikátor, StavObjednavka, binární příznak, je-li nákup zaplacen, PayVolume, celkový objem nákupu, StartObjednavkaDate, datum uskutečnění nákupu. Tab. 5.8: Přehled a základní charakteristika atributů.
Role
Jméno
Typ
id
CustomerEmailHash
integer
label
ObjednavkaID
integer
label
StavObjednavka
polynominal
Statistika avg=362025+/253512 avg=1211599309 +/-83656402 no polynomial
label
PayMethod
polynominal
label
ProductVolume
label
Rozsah
Chybí
[1.000;987386]
0
20100172;20100129
0
too many values
0
no polynomial
too many values
4
integer
avg 1.428+/-8.197
[0.000 ; 10000.000]
0
PayVolume
real
avg=958+/-2294
[0.000 ; 203430.000]
0
label
CampaignProduct
polynominal
no polynomial
too many values
389818
label
CampaignMedium
polynominal
no polynomial
too many values
321951
label
CampaignSource
polynominal
no polynomial
too many values
319942
label
CityObjednavka
polynominal
no polynomial
too many values
0
label label
DopravaObjednavka
polynominal
no polynomial
too many values
0
CustomerIP
polynominal
no polynomial
too many values
0
label
CustomerSex
polynominal
no polynomial s
label
CustomerCreated
date_time
length = 957 days
label
CustomerLastActivity
date_time
length = 953 days
label
CustomerCampaign
polynominal
no polynomial
too many values [11.4.2010 15:08:00 ; 23.11.2012 14:18:08] [15.4.2010 10:29:00 ; 23.11.2012 14:24:14] too many values
label
CustomerMedium
polynominal
no polynomial
too many values
174
label
CustomerSource
polynominal
no polynomial
too many values
168
label
CustomerNewsletter
polynominal
no polynomial
too many values
0
label
CustomerCity
polynominal
no polynomial
too many values
0
label
Rating
polynominal
no polynomial
too many values
0
label
ProductSupplier
polynominal
no polynomial
too many values
0
label
ProductCategory SpecialDeal StartObjednavkaDate
polynominal polynominal date
no polynomial no polynomial length = 937 days
too many values too many values 1.5.2010;23.11.2012
0 0 0
label label
559567 0 145619 176
Vybraný atribut PayVolume vykazuje poměrně malý rozptyl hodnot a vzhledem k rozsahu hodnot. Porovnáme-li průměrnou hodnotu a rozsah hodnot, můžeme konstatovat, že se zde bude nacházet velké množství extrémních hodnot a rozdělení nebude normální.
Vlastní práce
53
Obr. 5.8: Počet transakcí podle data.
V grafu na obr. 5.8 vidíme počet uskutečněných nákupů v průběhu času, tento histogram nám ukazuje rozložení záznamů v čase. 5.2.3
Úprava dat
Agregace transakčních dat na charakteristiky Recency, Frequency a Monetary zákazníka dle CustomerID. Frequency je vypočtena jako počet všech zaplacených nákupů. Monetary je sumou plateb za všechny uskutečněné nákupy. Recency je počet dní od posledního nákupu, což při výpočtu znamená maximální StartObjednavkaDate v dnech odečtená od maximálního data nákupu v celé množině, počet dní vztáhneme k datu, poslední objednávky v datech. Pro RFM analýzu byl ponechána celá (246 100 záznamů) data, pouze se agregovali transakční data na R (Recency), F (Frequency) a M (Monetary) charakteristiky zákazníka a jeho identifikátor. Frekvenční diskretizací byla nezávisle rozdělena každá z charakteristik R, F a M na 5 segmentů. Každý segment obsahuje přibližně stejný počet zákazníků. Byly vytvořeny sloupce RecencyBins, FrequencyBins a MonetaryBins. Každý zákazník je tak identifikován příslušností dle svých charakteristik, do jednoho z 5-ti segmentů.
Vlastní práce
54
Tab. 5.9: Charakteristiky a vzhled dat pro RFM analýzu. ID 120165 120166 120168 120171 120172 120173 120179 …
Recency 264 651 354 43 606 145 651 …
Frequency 6 1 9 34 4 2 1 …
Monetary 2431 1849 7550 28673 458 1700 129 …
RecencyBins range3 range5 range4 range1 range5 range2 range5 …
FrequencyBins range4 range1 range5 range5 range3 range2 range1 …
MonetaryBins range4 range3 range5 range5 range2 range3 range1 …
Pro CLV segmentaci byla data modifikována odstraněním extrémních hodnot (weka.filters.unsupervised.attribute.InterquartileRange -R first-last -O 9.0 -E 10.0). Celkem bylo odstraněno 3233 instancí (1,31 %), bez odstranění extrémních hodnot by se segmentační metoda zaměřila pouze na Recency, kde májí záznamy nejlepší rozdělení. V grafu na obr. 5.9 jsou zobrazeny extrémní hodnoty.
Obr. 5.9: Extrémní hodnoty.
Odstranění záznamů zákazníků s Recency větší než 500 (poslední nákup před více než 1 a ¾ rokem). Z empirického hlediska má zákazník s Recency vyšší než 500 pro společnost jen minimální hodnotu, proto je vyřadíme z množiny dat (41 674 zákazníků), Tito zákazníci nebudou dále uvažování ve výpočtech CLV.
Vlastní práce
55
Charakteristiky Recency, Frequency a Monetary byly normalizovány. Z nichž byla Recency normalizována dle vzorce (5.2). Její hodnoty ovlivňují výsledek CLV naopak než ostatní charakteristiky. (5.2)
.
Pro výstupní formát byly k charakteristikám Recency, Frequency a Monetary připojeny normalizované hodnoty. Tab. 5.10: Charakteristiky a úprava dat použitá pro CLV segmentaci. ID 2 3 6 8 12 13 14
5.2.4
Recency 107 302 22 397 38 284 357
Frequency 6 16 14 1 16 14 7
Monetary 8887 11894 8549 333 13531 6644 3572
R' 0,786 0,395 0,956 0,204 0,924 0,431 0,285
F' 0,111 0,333 0,289 0,000 0,333 0,289 0,133
M' 0,213 0,285 0,205 0,008 0,325 0,159 0,086
Modelování
Modelování je provedeno na celé množině dat pro CLV segmentaci. Použitá metoda K-Means musí mít pevně zvolený počet segmentů. Její parametr je nastaven na 8 segmentů. Z pohledu RFM analýzy, lze očekávat rozlišení segmentů patřících do skupin dle charakteristik R, F a M pod celkový průměr a nad celkový průměr. Tedy pro každou charakteristiku vytvoří právě 2 segmenty, jejich násobením dostaneme počet segmentů 8 (2×2×2) tedy právě všechny možné kombinace vstupů R, F a M. Pro metodu X-Means volit počet segmentů nemusíme, zvolíme pouze rozumný interval pro omezení výsledného počtu segmentů. Zvolené výběrové kritérium Davies-Bouldin index, určuje interně kvalitu segmentačního algoritmu, kde kvalita segmentace je znázorněna nižší hodnotou indexu. Dále byly použity metody: K-Means, pro implementace algoritmu K-means v knihovně RapidMiner, metrika měření vzdálenosti ponechána na standardní Euklidově vzdálenosti, maximální počet běhů s náhodnou inicializací 10, maximální počet optimalizačních kroků pro běh je 100, počet segmentů k detekci 8. X-Means, implementace metody X-means v knihovně RapidMiner, počet segmentů omezen intervalem <2,10>, vnitřní nastavení segmentačního algoritmu K-means je shodné s nastavení K-means metody výše.
Vlastní práce
56
Tab. 5.11: Srovnání metod CLV segmentace. Metoda X-Means K-Means
Počet segmentů 4 8
Davies Bouldin index 0,331 0,292
Tab. 5.11 ukazuje výsledky modelování na vstupní množině dat. Použitá metoda X-Means vnitřním rozhodovacím pravidlem definovala počet segmentů na 4. Naopak metoda K-Means se přednastavenými 8mi segmenty vykazuje lepší (tedy nižší hodnotu indexu) rozlišovací schopnosti při srovnání kritéria DaviesBouldin index. Použijeme model K-means (8 segmentů), které lépe odděluje výsledné segmenty.
Obr. 5.10: Výsledné rozložení etalonů jednotlivých segmentů použitou metodou KMeans.
Graf na obr. 5.10 zobrazuje etalony, tedy průměrné hodnoty charakteristik jednotlivých segmentů. Nejlepší rozdělení model dosahuje u charakteristiky Recency, naopak nejnižšího rozdělení dosahuje u Frequency. Tyto výsledky můžeme chápat z pohledu vstupních dat jako očekávané, rozložení zákazníků dle Recency bylo téměř normální, naopak u Frequency bylo toto rozdělení exponenciální.
Vlastní práce
57
Tab. 5.12: Vzdálenost mezi středy segmentů. Segment 0 1 2 3 4 5 6 7
0 0,585 0,462 0,547 0,736 0,357 0,286 0,391
1 2 0,585 0,462 0,545 0,545 0,242 0,433 0,663 0,518 0,717 0,803 0,465 0,631 0,227 0,525
3 4 5 6 0,547 0,736 0,357 0,286 0,242 0,663 0,717 0,465 0,433 0,518 0,803 0,631 0,422 0,752 0,514 0,422 1,002 0,819 0,752 1,002 0,253 0,514 0,819 0,253 0,312 0,691 0,491 0,239
7 0,391 0,227 0,525 0,312 0,691 0,491 0,239
Tab. 5.1 zobrazuje euklidovskou vzdálenost mezi každými dvěma středy segmentů. Nutno chápat, že středy se nachází v jednotkovém euklidovském prostoru o třech dimenzích, což omezuje rozsah vzdáleností na interval <0,√ >. Tab. 5.13: Počet zákazníků ve výsledných segmentech metodou K-Means. Segment 0 1 2 3 4 5 6 7 Celkem
Zákazníků 9200 47180 8462 18273 4789 42441 33992 36862 201199
[%] 4,573 23,449 4,206 9,082 2,380 21,094 16,895 18,321 100,000
Tab. 5.13 prezentuje rozdělení zákazníků do segmentů dle jejich počtu. Rozložení zákazníků v segmentech není optimální, avšak musíme přihlédnout k rozložení vstupních dat, které nevykazují normální rozdělení zákazníků dle charakteristik R, F a M. Naopak nerovnoměrné rozdělení je akceptovatelné z hlediska segmentace zákazníků na homogenní skupiny dle chování a nikoliv dle jejich počtu v segmentu. 5.2.5
Evaluace CLV analýza
Pro potřebu evaluace se využívá CLV analýza. Průměrné hodnoty zákaznického portfolia reprezentují hranice pro identifikaci segmentů. Průměrná hodnota je vytvořena z normalizovaných hodnot (kapitola 5.1.3).
Vlastní práce
58
Tab. 5.14: Průměrné hodnoty charakteristik zákazníků pro CLV analýzu. index Průměr
R' 0,623
F' 0,101
M' 0,102
Výpočet CLV je založen na porovnání průměrných charakteristik segmentu s celkovým průměrem a jeho zařazení do nadprůměrné/podprůměrné skupiny dle dané charakteristiky. Rovněž je nutné si uvědomit inverzní reprezentaci charakteristiky Recency, která je normalizována zrcadlově (viz kapitola 5.1.3) právě kvůli inverznímu vlivu na výpočet CLV. V následujícím textu bude proto vyšší hodnota považována za lepší a bude značit nižší časovou prodlevu od posledního nákupu.
Obr. 5.11: Vizualizace středů segmentů dle RFM charakteristik.
Na grafu vidíme vizuální reprezentaci středů segmentů na osách Recency, Frequency a velikostí bodu jako Monetary. Vertikální přímka znázorňuje průměrnou hodnoty Recency a horizontální přímka průměr Frequency (hodnoty z tab. 5.14). Grafické rozdělení dle hodnoty Monetary můžeme přibližně stanovit jako rozdělení dle velikosti bodů na první polovinu <0,036-0,06> pro podprůměrné hodnoty a druhou polovinu <0,2-0,6> pro hodnoty nadprůměrné. Rozdělení na 8 segmentů, dle předpokladu kombinace 2x2x2, byla úspěšná pro charakteristiky Frequency a Monetary, kde průměrná hodnota rozděluje segmenty právě na polovinu. Rozdělení segmentů dle průměru Recency na 3 podprůměrné a 5 nadprůměrné je očekávané, vzhledem k prvotnímu odstranění nerentabilních zákazníků (kapitola 5.1.3).
Vlastní práce
59
Tab. 5.15: Výpočet CLV a definice segmentů. Segment S(R') S(F') S(M') Počet zak. Charakter Def. seg. CLV Pořadí
0 0,408 0,114 0,322 9200
1 0,925 0,073 0,050 47180
2 0,794 0,163 0,571 8462
3 0,906 0,282 0,170 18273
4 0,922 0,635 0,401 4789
5 0,210 0,032 0,036 42441
6 0,461 0,059 0,046 33992
7 0,698 0,076 0,062 36862
R↓F↑M↑
R↑F↓M↓
R↑F↑M↑
R↑F↑M↑
R↑F↑M↑
R↓F↓M↓
R↓F↓M↓
R↑F↓M↓
úpadek 0,844 5
růst 1,049 4
vysoký 1,528 2
růst 1,359 3
vysoký 1,959 1
nízký 0,278 8
nízký 0,565 7
úpadek 0,837 6
V tab. 5.15 hodnoty S(R‘), S(F‘) a S(M‘) představují středy (tedy průměrné hodnoty) charakteristik pro segment. Charakter segmentu určuje jeho postavení v rámci průměrné hodnoty charakteristiky v tab. 5.14. Pokud je průměrná charakteristika segmentu vyšší, než celkový průměr je toto označeno ↑ v opačném případě je to šipka ↓ . Definice segmentu udává potencionální chování segmentu vhledem k výše uvedeným charakteristikám. Potencionální chování zákazníků není uvažováno jako neovlivnitelné, pouze udává aktuální potenciál segmentu. Hodnota CLV je prostým součtem průměrných hodnot segmentu. Hodnota CLV je bez jednotková (normalizovaná data) a udává tedy souhrnné skóre segmentu. Nejvyšší hodnotu CLV má segment 4, charakter R ↑ F ↑ M ↑ , představuje velmi vysokou Frequency, tedy vysoký počet nákupů. Vysoká Monetary segmentu určuje, že přináší vysokou finanční hodnotu a vysoká Recency, že jeho poslední nákup se odehrál v poslední době. Můžeme obecně říci, segment obsahuje zákazníky, kteří kupují často, což značí loajálnost ke společnosti, platí vysoké částky a jejich poslední nákup se odehrál před krátkou dobou. Tento druh zákazníka je pro společnost nejdůležitějším a nejvíce cenným, a společnost by měla se zákazníkem udržovat dobré vztahy, je zde velký potenciál zákazníka. Segment je definován jako vysoký, z hlediska očekávaného vysokého finančního příjmu pro společnost. Velmi podobný je segment 2, nákupní frekvence je nadprůměrně vysoká, a společnosti přináší nejvyšší finanční hodnotu ze všech segmentů. Doba od posledního nákupu je delší než u segmentu 4, proto lze doporučit zvýšenou pozornost. Obecně se segment 2 a 4 řadí mezi potencionálně nejpřínosnější. Segment 1 nejlépe definujeme jako „Nový zákazník“, nejkratší doba od posledního nákupu, velmi malý počet nákupů a nízká celková hodnota. Segment 3 vykazuje nadprůměrné výsledky všech charakteristik, avšak s poměrně lehce nadprůměrným Monetary. Segmenty 0 a 3 májí největší potenciál pro růst. Segment 7 s lehce nadprůměrnou Recency avšak podprůměrnou frekvencí a útratou, lze definovat jako „Jednorázový zákazník“, lze chápat jako zákazníka, jež jednou nakoupil a dále se rozhodl již nenakupovat. Segment 0 vykazuje velmi
Vlastní práce
60
nízkou Recency zároveň nadprůměrnou frekvenci a velmi vysokou hodnotu. Segment představuje skupinu zákazníků, jež bývala nejlepšími zákazníky, ale z nějakého důvodu se rozhodli přestat nakupovat. Obecně lze segmenty 7 a 0 zhodnotit jako potencionálně upadající. Segmenty 5 a 6 s vysokou prodlevou od posledního nákupu, nízkou frekvencí a nízkou hodnotou, tyto segmenty lze pojmenovat „ztracení zákazníci“, segmenty hodnotíme jako potencionálně nízké.
Obr. 5.12: Rozložení segmentů v RFM prostoru.
Obr. 5.12 zobrazuje všech 201199 zákazníků v prostoru určeném charakteristikami R, F a M. Body, představující zákazníky, jsou obarveny dle jejich příslušnosti k segmentu. Osu Recency zle s určitým nadhledem chápat jako osu časovou, prodleva od posledního nákupu se zvyšuje s klesající hodnotou Recency (z leva do prava). 5.2.6
Evaluace RFM analýza
Data pro RFM analýzu definuje tab. 5.9. Každý záznam obsahuje R, F a M charakteristiku spolu s 3-mi příznaky, jež určují do jakého z 5-ti segmentů (R, F, M) záznam patří. Celkově tedy existuje 125 (5x5x5) kombinací těchto segmentů. Segmenty charakteristiky jsou označeny čísly od 1 do 5, kde 1 znamená nejnižší hodnotu (pro R nejlepší segment, u F a M hodnoty nejhorší segment) a naopak 5 znamená nejvyšší hodnoty (pro R nejhorší segment, pro R a F segment nejlepší). Nejlepším segmentem je RFM=155 a nejhorším segmentem je RFM=511.
Vlastní práce
61
Všechny segmenty nelze najednou přehledně zobrazit, proto je nutné zaměřit se na vybrané pohledy.
Obr. 5.13: Průměrná platba a mohutnost segmentu dle RF.
Zobrazení pomocí Bubble chartu na obr. 5.13, dovoluje zobrazit najednou 4 hodnoty. Osy zobrazují příslušnost segmentu dle Recency a Frequency, velikost bubliny představuje mohutnost segmentu a barva bubliny udává průměrnou finanční útratu zákazníka. Zákaznickou základnu tvoří segmenty s F=1 a F=2, což označuje velký počet neloajálních zákazníků a jednorázových nákupů. Naopak Významným segmentem je RF=15, kde pozorujeme velké množství zákazníků s vysokou průměrnou hodnotou. Identifikovat lze postupný propad hodnoty F=5 segmentů se zvyšující se Recency. Zde je třeba se zaměřit na okolí segmentu RF=15, kde se nachází naši potencionálně nejlepší zákazníci, segmenty RF=14. RF=24 a RF=25. Segmenty RF=51, RF=41, RF=52 a RF=42, můžeme z obchodního hlediska považovat za ztracené, a jejich potencionální hodnotu stanovit jako velmi nízkou. Zobrazení HEAT mapou, osy představují charakteristiky RF a barva segmentů zobrazuje celkovou sumu utracených peněz. Lze velmi snadno identifikovat nejhodnotnější segmenty společnosti. Nejvyššího obrat společnosti generují segmenty obarvené červeně. Zajímavé jsou segmenty RF=32 a RF=42, kde se nalézají překvapivě jedny z nejobratovějších segmentů. Toto lze vysvětlit z grafu na obr. 5.14 níže, v těchto segmentech identifikujeme velmi vysoký počet zákazníků s dobrou průměrnou hodnotou.
Vlastní práce
62
Obr. 5.14: Celková hodnota segmentu dle RF.
Obr. 5.15: Průměrná Recency dle FM.
Vlastní práce
63
Barevnost segmentů v obr. 5.15 určuje průměrnou Recency segmentů, jež definují osy F a M. Zde vidíme významně vysoký průměr Recency u zákazníků nakupujících pouze jednou. Lze konstatovat, že společnost má mnoho jednorázových kupujících. Naopak délka nákupního cyklu u loajálních zákazníků je velmi nízká (Frequency vyšší než 7,5). 5.2.7
Nasazení – shrnutí výstupů
Shrnutí výstupů CLV analýzy jsou obr. 5.11, který umožňuje rychlou orientaci v segmentech dle jejich etalonu v osách RF a velikosti M. Tab. 5.15 analyzuje CLV hodnotu každého segmentu a definuje základní potenciál. Obr. 5.12 nabízí detailnější pohled na umístění a koncentraci segmentů v prostoru tvořeném RFM osami. Shrnutí výstupů RFM analýzy jsou obr. 5.13, obr. 5.14 zobrazuje finanční hodnoty zákaznických segmentů dle os Recency a Frequency. Lze z nich jednoduše identifikovat rozložení nejmohutnějších segmentů, segmentů s nejvyšší průměrnou finanční hodnotou zákazníka a nejobratovějších segmentů. Obr. 5.15 analyzuje průměrnou délku nákupního cyklu dle os Frequency a Monetary. Evaluace (verifikace) segmentační aplikace je splněna, na reálných datech zadavatele byly zpracovány obě dílčí analýzy a výsledky interpretovány ve formách požadovaných zadavatelem. Splněn je požadavek na výstupní formáty aplikace. Přínosem analýz je časová a technická nenáročnost jejich tvorby. Jednoduchá a vypovídající prezentace výsledků. CLV analýza identifikuje a hodnotí potenciál zákazníků rozdělených na homogenní skupiny dle chování. RFM analýza nabízí pohled na zákaznické portfolio pomocí předdefinovaných segmentů a pomáhá identifikovat jinak skryté vlastnosti zákaznických skupin. Pro implementaci jsou použity metody Frekvenční diskretizace a metody KMeans. RFM a CLV analýza byli realizovány ve formě samostatného Java programu a otestovány v prostředí Cloud. Při testování vykazovali dobrou časovou a paměťovou složitost, založenou na vlastnostech použitých algoritmů (kapitola Metodika, Metoda K-Means). Testování prokázalo dobrou adaptivitu aplikace na datech s vysokým podílem extrémních hodnot a šumu, především díky integrované fázi předzpracování. Aplikaci pro segmentaci zákazníků (RFM a CLV analýzu) je třeba konzultovat s expertem a validovat její výsledky z obchodního hlediska. RFM i CLV analýzy je doporučené re-evaluovat po krátkých až velmi krátkých intervalech na nových datech. Při revizi výsledků je nutné sledovat především pohyb a rozptyl segmentů v čase. Požadavky na vstupní data, především na povinné atributy a jejich hodnoty jsou pro obě analýzy definovány v kapitole 5.2.3.
Diskuse
64
6 Diskuse Pro realizaci aplikace predikce příjmů byl zvolen zcela nový přístup, kde je predikce příjmu založena na klasifikaci otevřených zakázek na vyhrané a prohrané, a jejich agregací dle zadané granularity je vypočítána hodnota predikovaného příjmu. Vytvořená aplikace predikuje příjmy na základě zákaznických dat, jež jsou zpracovávaný bez dalších vnějších znalostí. Pro klasifikaci zakázek byla vybrána metoda Bagging, jež vykázala nejlepší výsledky ve všech srovnávaných kritériích. Pomocí automatické nákladové matice se podařilo snížit absolutní chyby predikce ve všech granularitách. Přínosem aplikace predikce příjmů je implementačně jednoduchá, rychlá a přesná kalkulace příjmů z neuzavřených zakázek. Výstupem aplikace jsou data pro použití v dalších nástrojích, například Business Intelligence aplikace, jež mohou být integrovány ve stejném řešení SaaS. S nákladovou maticí je možné generovat optimistické a pesimistické predikce (existence konfidenčních intervalů), a přidat predikci na vypovídající schopnosti. Zde je ale nutno dodržet základní předpoklad, neměnit výrazně celkovou přesnost predikce. Na základě prognóz lze přesněji odhadovat další investice (lidské zdroje, finance, čas) do úspěšného uzavření zakázek. Výsledky aplikace predikce příjmů vykazují absolutní chybu 3,68% pro predikci na 3 kvartály. Tato hodnota je téměř srovnatelná se statistickoekonomickými modely, jež vykazují s 1,83%-5,77% absolutní chyby v (Lundholm et al., 2010) a chyby 3,3-5,5% v (Trueman et al., 2000). Práce (Shan et al., 2005) používající kombinovaný model SARIMA a ASPIRE prezentuje absolutní chybu kvartální predikce 1,83-2%. Chybovost aplikace výrazně nepřekračuje chyby v uvedených aplikacích. Při výběru algoritmů a metod pro aplikaci predikce příjmů byl kladen velký důraz na rychlé a přesné zpracování velkého množství dat, která lze předpokládat při nasazení jako SaaS. Aplikace proto využívá robustních algoritmů, pro dosažení vysoké přesnosti predikce, s vysokou mírou paralelizace, jež ve škálovatelném prostředí Cloudu dokáží tato kritéria splňovat i na jediném serveru. Při nasazení aplikace v Cloudu vykazuje klasifikační metoda Bagging časovou náročnost procesu učení jen o něco vyšší než lineární modely. Celková paměťová náročnost aplikace je přímo úměrná velikosti použitých dat, což pro velké objemy dat znamená nutnost běhu aplikace ve škálovatelném prostředí Cloud. Paměťové i výpočetní prostředky v Cloudu jsou však zpoplatněny, a skoková potřeba navýšení výkonu sebou nese další jednorázové náklady. Je proto důležité přemýšlet i nad dalšími rozšířeními aplikace. Jednou z možností je napojení aplikace přímo na databázi, využívat tok (stream) a zpracovávat data inkrementálně s postupným ukládáním mezivýsledků na pevný disk. Toto řešení sebou nenese další paměťovou
Diskuse
65
náročnost, avšak významně může zvyšovat celkový výpočetní čas kvůli přístupům na pevný disk. Dalším snížením časové a výpočetní náročnosti dojde při přesunu fáze předzpracování přímo na databázový server. Verifikace aplikace byla provedena na reálných datech zadavatele v prostředí Cloud, při verifikaci splnila všechna zadaná kritéria. Validování aplikace proběhlo na zařízení zadavatele. Verifikace aplikace je ověřena pouze na testovacích datech, před samotným nasazením bude nutné výsledky expertně ověřit. Po expertním ověření bude aplikace nasazena ve formě SaaS do portfolia nabízených funkcionalit. Přínosem aplikace je přesná, rychlá a universální prognóza příjmu založená pouze na korektních vstupních datech. Tato je důležitá pro rozhodovací a plánovací procesy ve společnosti. Aplikace se s pomocí dolovacích přístupů transformovat jinak obtížně reprezentovatelná data ze zakázek do formy predikce příjmů, jež je přehledná a využitelná pro všechny úrovně rozhodovacích procesů ve společnosti. Na základě přesných predikcí příjmu lze efektivně plánovat investice (Trueman et al., 2000), stanovovat budoucí hodnotu a plánovat strategie podniku (Shan et al., 2005), efektivně využívat zdroje obchodního oddělení pro uzavírání zakázek (aplikace umožňuje predikovat pravděpodobnost výhry zakázky) a jsou podkladem pro tvorbu kvalitních firemních rozpočtů (Lin et al., 2013). Možnosti využití aplikace jsou velké, náklady na její vývoj a technickou správu jsou nízké. Z těchto faktů můžeme usuzovat, že budoucí ROI realizované aplikace bude pro společnost vysoký. Nebezpečím predikcí na dlouhá časová období je skutečnost, že informace se mohou měnit v čase, mohou být nesmyslné (vlivem chybného zadávání) nebo mohou chybět úplně (hodnoty nejsou k datu predikce známy). Odložené zakázky, jejichž uzavření se přesune mimo predikované období, změna v situaci firmy, neustále se mění okolí (situace na trhu) firmy. Všechny tyto okolnosti významně ovlivňují přesnost predikce příjmů. V budoucnu lze připojit k aplikaci i modul pro predikování nových zakázek, které vzniknou a uzavřou se v predikovaném období. Statistickou, nebo DM metodou predikovat nově příchozí zakázky (expertní odhad, regresí, analýzou časové řady) spolu s pravděpodobností jejich uzavření do konce predikční periody. Tyto zakázky započítávat do výsledků predikce příjmů a zvyšovat tak její skutečnou přesnost na delší časové úseky. Budoucí použití self re-evaluation, tedy automatického inkrementálního učení, doučovat vytvořený model, na základě nejnovějších dat by mohl velmi zpřesnit výsledky predikce. Nejvyšší dopad inkrementálního učení by byl pro klasifikační přesnost složené metody Bagging, kde dojde k upravení vah listů. Nebezpečím je, i přes nová data, zastarávání modelu, zde je nutné doporučit evaluaci s modelem vytvořeným na nových a jen části starých dat. Z hlediska vývoje interních i externích faktorů ovlivňujících úspěšné uzavírání zakázek, nelze
Diskuse
66
vždy s jistotou doporučit použití re-evaluovaného modelu vytvořeného na velkém množství historických dat. Pro menší množství nových dat je re-evaluace modelu snadným a nenákladným postupem ke zvýšení přesnosti. Zákaznická segmentace je realizována dvěma přístupy, dynamickou segmentací zákazníků – CLV analýza a statickou segmentací zákazníků pomocí charakteristik RFM – RFM analýzu. Zákaznická segmentace pomocí CLV analýzy je založena na poznatcích uvedených v (Sohrabi, Khanlari, 2007; Birant, 2011; Wang, Jing, 2008). které doporučují výběr metody segmentace generující etalon, tedy metody K-Means a X-Means. Metoda pro CLV analýzu byla vybrána na základě srovnání Davies-Bouldin indexu, doporučeném v pracích (Kovács et al., 2005; Petrovic, 2006), jehož výsledek udává schopnost metody dobře oddělovat shluky. Použitý K-Means algoritmus vytváří středy shluků, pomocí nich jsou vypočítány hodnoty CLV daného segmentu. Součástí je i grafická prezentace výsledků analýzy spolu s interpretací výsledků. Aplikace umožňuje i grafické zobrazení do jednotkového prostoru charakteristik RFM (v obr. 5.12), který nabízí především celkový pohled na polohu a rozptyl zákaznických segmentů, jež citované práce nepřinášejí. CLV analýza detailně popisuje a definuje potenciální hodnoty jednotlivých segmentů. Práce se rovněž zabývá správnou interpretací výsledků segmentace zpět do obchodního prostředí, jež uvádí literatura (Kohavi, Parekh, 2004) jako klíčové kritérium pro efektivní nasazení. Přínosem CLV analýzy je identifikace nejdůležitějších skupin zákazníků a predikce jejich budoucího chování pro potřeby cíleného marketingu. Experimentální studie (Fader et al., 2005) vysvětluje závislost CLV na charakteristikách Recency, Frequency a Monetary (obr. 3.4). Existence průměrného nákupního cyklu (Recency) a vyšší hodnoty frekvence nákupu lokalizují nejvyšší hladiny CLV. Výsledky segmentace v obr. 5.12 toto přímo nedokazují, naopak spíše potvrzují klasickou reprezentaci uvedenou v (Maimon, Rokach, 2010; Berry, Linoff, 2011), kde se nejziskovější segmenty pohybují na nízké úrovni Recency a vysoké Frequency. Tuto skutečnost ve své práci potvrzuje i (Kohavi, Parekh, 2004). Výsledky CLV analýzy jsou velmi silně závislé na použitých datech, i přes toto omezení můžeme výsledky CLV analýzy doporučit. Zákaznická segmentace na základě RFM analýzy je vypracována dle doporučení (Sohrabi, Khanlari, 2007; Birant, 2011; Berry, Linoff, 2011; Kohavi, Parekh, 2004) Frekvenční diskretizací je vytvořeno 5 segmentů pro zařazení zákazníků do RFM segmentů. Společně tvoří výstupy této analýzy komplexní pohled na zákaznické portfolio. Výstupy jsou prezentovány v několika různých typech zobrazení a demonstrují variabilní možnosti využití výsledků aplikace. Aplikace pro zákaznickou segmentaci využívá algoritmus K-Means, který je konečný a vykazuje časovou i prostorovou lineární složitost (uvedeno v Metoda KMeans) a při těchto vlastnostech má dobré výsledky vektorové kvantizace do shluků. Další použitou metodou segmentace je frekvenční diskretizace, která
Diskuse
67
vykazuje lineární časovou a prostorovou složitost. Paměťové a časové nároky metod rostou úměrně s velikostí vstupních dat. Vstupní transakční data jsou ve fázi předzpracování agregována do výrazně menšího objemu, čímž i u velkých vstupních dat vykazuje aplikace dobrou výkonost a nízké nároky. Lze uvažovat o přesunutí fáze předzpracování přímo na databázový server a vstup aplikace upravit pouze na datový tok z této databáze. Další možností pro zrychlení výpočtu je použití implementace inkrementálního algoritmu K-Means. Pro přehledové účely a vizualizace segmentů jako celků je možné používat výběrové vzorky dat, které představují, při dobré metodě výběru, obecně relevantní výsledky. Samotná segmentace zákazníků pro potřeby dalšího využití může být nasazena jako služba v SaaS generující pouze segmentovaná data bez přidaných vizualizací. Verifikace a validace aplikace proběhla na testovacích datech zadavatele na zařízení zadavatele, a splňuje veškeré požadavky pro její nasazení, řešení je tedy validní. Problémem u segmentace zákazníků je především obtížná skutečná obchodní verifikace výsledků (Maimon, Rokach, 2010). Výsledky segmentace lze validovat technicky, např. snímkováním transakčních dat (Han et al., 2012; Kim et al., 2006; Coussement et al., 2012). Přínos aplikace lze nalézt v identifikaci obchodně důležitých segmentů zákazníků, jež vykazují homogenní chování a lze tak k celému zákaznickému segmentu přistupovat jednotně. Segmentační výsledky aplikace lze použít pro potřeby cíleného marketingu (Kohavi, Parekh, 2004) nebo pro snížení nákladů na marketingovou kampaň (Maimon, Rokach, 2010). Aplikace generuje seznam zákazníků s příslušností k segmentu, na základě seznamu lze identifikovat konkrétní zákazníky a kontaktovat je například e-mailem. Segmentací lze také identifikovat zákazníky odcházející a ztracené, pro něž lze efektivně navrhovat retenční a re-akviziční kampaně. Pro nejlepší zákaznické segmenty vytvářet věrnostní programy. Odhadovaný dopad (ROI) aplikace je velký, její možnosti použití a znovupoužitý výsledků jsou vysoké, naopak náklady na vývoj a technickou podporu jsou velmi nízké. Práce (Kohavi, Parekh, 2004) uvádí přesné výpočty ROI u zákaznických segmentací při cíleném marketingu. Kde srovnává stejné marketingové kampaně, jedna cílená náhodně a druhá na vybraný segment. Tyto výsledky považuje za skutečný finanční přínos segmentační aplikace. Skutečný výpočet ROI vyžaduje delší časový úsek, expertní zhodnocení a především sebou nese pro společnost vyšší finanční náklady. Výše zmíněné výpočty nebylo možné realizovat pro účely práce. Při výpočtech CLV byla brána v úvahu ekvivalentní váha charakteristik R, F a M, což má dle studie (Wang, Jing, 2008) negativní vliv na přesnost CLV a proto navrhuje použití expertních vah (wR=0.221, wF=0.341, wM=0.438) pro zpřesnění výpočtu. Tento poznatek ještě rozšiřuje (Han et al., 2012), jež upravuje expertní odhad vah charakteristikami získanými přímo z dat a výsledné váhy
Diskuse
68
získává kombinacemi metodou AHP. Tyto studie však předpokládají znalost původu dat a dostupnost expertního odhadu, kterým následně specializují proces segmentace. Cílem realizace CLV analýzy bylo vytvořit obecnou segmentační aplikaci. Aplikace segmentačních algoritmů založených na jiném principu než hledání středu shluku (etalonu) může významně ovlivnit přesnost. Nabízí se segmentace založené na hustotě, DBSCAN, OPTICS uvedené v (Maimon, Rokach, 2010), jež vykazující kvadratickou časovou a kvadratickou prostorovou náročnost. Nebo měkká segmentace založená na metodě Fuzzy c-means, jež ale (Hsu, 2012) nedoporučuje pro nasazení na větší data. V budoucnu lze uvažovat použití výsledků segmentace, jako identifikace homogenních zákaznických skupin, pro vstup do klasifikačního algoritmu. Spolu se základními charakteristikami lze k zákazníkům připojit další informace, např.: aplikované marketingové kampaně (Kohavi, Parekh, 2004; C Chan, 2008), demografické údaje (Kim et al., 2006; Hosseni, 2011) nebo detailnější informace o nakupovaném zboží (Birant, 2011). Klasifikační algoritmus poté vytváří pravidla pro jednotlivé segmenty, tyto pravidla můžeme považovat za charakteristická pro segment. Je možné použít také asociačních pravidel (Birant, 2011). Všechny tyto údaje mohou při přinést další užitečné informace o každém ze segmentů a zvýšit výstupní kvalitu a hodnotu modelu. Dalším budoucím rozšířením segmentace může být Sub-segmentace. Jedná se o segmentaci segmentu, tedy hierarchicky o segmentaci druhé úrovně. Přínosem Sub-segmentace je rozdělení vybraného segmentu na další segmenty, například dle druhu zakoupeného zboží, demografických nebo marketingových údajů. Sub-segmentace zvyšuje informační schopnosti a přidanou hodnotu RFM analýzy. Obě realizace se striktně držely metodologie CRISP-DM navržené pro vývoj projektů datového dolování. Metodologie především pomáhá řešitelům v každém kroku dodržovat zvolený cíl pomocí nastavených kritérií a standardů. CRISP-DM klade důraz na neustálou kontrolu plnění obchodního cíle, technické cíle jsou až na druhém místě, čímž se snaží zabránit selhání při obchodní verifikaci výsledků řešení. Poslední fáze CRISP-DM definuje podmínky a doporučení pro nasazení řešení u zadavatele, což napomáhá kvalitnější implementaci a, pokud je nasazení řešení delegováno, minimalizuje náklady spojené s výskytem sémantických chyb.
Závěr
69
7 Závěr Práce dle navrženého cíle realizuje vybrané metody pokročilých analytik, segmentace zákazníků a predikce příjmů. Aktuální situace je analyzována v literárním přehledu, kde jsou popsány 4 metody pokročilých analytik. Obsahuje kapitoly Náchylnost zákazníků k odchodu, Detekce Podvodů, Predikce příjmů a Segmentace Zákazníků. Analyzované metody a přístupy jsou uspořádány do kapitol dle zaměření, výběr je zohledněn na zaměření celé práce, tedy metody pro nasazení jako SaaS v prostředí Cloud. Rozšířený popis aplikací je uveden u Náchylnost zákazníků k odchodu a Odhalování podvodů. Pro vybrané realizace byla sestavena metodika práce. Dle zadání se celý vývoj řídí striktně metodologií CRISP-DM. Obsahuje definice evaluačních kritérií a metod. Dále je uveden popis použitých dolovacích metod a postupů použitých ve vlastní práci. Vlastní práce obsahuje 2 realizované metody. Proces vývoje se řídí metodologií CRISP-DM a dle této je i členěn. První kapitola se zaměřuje na predikci příjmů, dle požadavků zadavatele a v souladu s teoretickými principy byl navržen postup a výsledná realizace aplikace pro Predikci příjmů. Součástí vývoje je výběr vhodné metody, diskuze výsledků a především verifikace a validace aplikace včetně doporučení pro implementaci do ostrého provozu. Druhá kapitola se zaměřuje na Segmentaci zákazníků, dle požadavků zadavatele spolu s teoretickými principy je sestaven postup a realizovány 2 části aplikace. RFM analýza, jež reprezentuje klasickou a zákazníkům dobře známou segmentační funkci. CLV analýza, jež reprezentuje inovativní pohled na segmentaci zákazníků. Verifikace a validace aplikace byla provedena na testovacích datech zadavatele, závěrečná část obsahuje rovněž shrnutí a popis doporučení pro nasazení. Diskuze zahrnuje shrnutí celé práce, včetně porovnání s výsledky či metodami uvedenými v teoretickém přehledu. Zaměřuje se především na složitost realizací při nasazení jako SaaS v Cloudu a jejich odhad dopadu (ROI) při nasazení. Dále uvádí omezení a budoucí rozšíření aplikací. Navržené aplikace splnily akceptační podmínky zadavatele, jež na ně byly kladeny, uspěly při verifikaci výsledků a validaci v technickém prostředí zadavatele. Zadané cíle práce byly splněny.
Seznam použitých zdrojů
70
8 Seznam použitých zdrojů ARMSTRONG, J. S. 2012. Illusions in regression analysis. International Journal of Forecasting, roč. 28, č. 3, s. 689–694. AU, T, MA, G., LI, S. 2003. Applying and evaluating models to predict customer attrition using data mining techniques. Journal of Comparative International Management, roč. 6, č. 1, s. 10–22. AU, W., CHAN, K., YAO, X. 2003. A novel evolutionary data mining algorithm with applications to churn prediction. IEEE Transactions on Evolutionary Computation, roč. 7, č. 6, s. 532–545. BARAGOIN, C, CHAN, R., GOTTSCHALK, H., MEYER, G. Enhance Your Business Applications: Simple Integration of Advanced Data Minig Functions. Armonk: New York: IBM Redbooks, 2002. 348 s. ISBN 0-738-42779-9. BERGER, P. D.,NASR., N. D. 1998. Customer lifetime value: Marketing models and applications. Journal of Interactive Marketing , roč. 12, č. 1, s. 17–30. BERRY, M. J., LINOFF, G. S. 2011. Data mining techniques: for marketing, sales, and customer relationship management. Indianapolis, Indiana: Wiley Computer Publishing, 2011. 888 s. ISBN 978-0-471-47064-9. BIRANT, D.. 2011. Data Mining Using RFM Analysis. In: Knowledge-Oriented Applications in Data Mining. S.l.: s.n. s. 19.ISBN 978-953-307-154-1. BOLTON, R. J., HAND, D. J. 2001. Unsupervised profiling methods for fraud detection. Credit Scoring and Credit Control VII, s. 16. BOSE, I., CHEN, X. 2009. Hybrid Models Using Unsupervised Clustering for Prediction of Customer Churn. Journal of Organizational Computing and Electronic Commerce, roč. 19, č. 2, s. 133–151. HSU, S. C. 2012. The RFM-based Institutional Customers Clustering: Case Study of a Digital Content Provider. Information Technology Journal, roč. 11, č. 9, s. 1193–1201. CHAN, C. 2008. Intelligent value-based customer segmentation method for campaign management: A case study of automobile retailer. Expert Systems with Applications, roč. 34, č. 4, s. 2754–2762. COUSSEMENT, K., BENOIT, F. D., POEL. D. 2010. Improved marketing decision making in a customer churn prediction context using generalized additive models. Expert Systems with Applications, roč. 37, č. 3, s. 2132–2143.
Seznam použitých zdrojů
71
COUSSEMENT, K., BOSSCHE, F. A. M., BOCK, K. W. 2012. Data accuracy’s impact on segmentation performance: Benchmarking RFM analysis, logistic regression, and decision trees. Journal of Business Research. BOCK, K. W., POEL, D. 2011. An empirical evaluation of rotation-based ensemble classifiers for customer churn prediction. Expert Systems with Applications, roč. 38, č. 10, s. 12293–12301. ABBOTT, D. W., I. P. MATKOVSKY and J. F. ELDER. An evaluation of high-end data mining tools for fraud detection. Proc. of IEEE SMC98. 1998, DELAMAIRE, L, ABDOU H., POINTON J. 2009. Credit card fraud and detection techniques: a review. Banks and Bank Systems, roč. 4, č. 2, s. 57–68. FADER, P. S., HARDIE, B. G. S, LEE, K. L. 2005. RFM and CLV: Using Iso-Value Curves for Customer Base Analysis. Journal of Marketing Research, roč. 42, č. 4, s. 415–430. GUPTA, R.,GILL, N. S. 2012a. A Data Mining Framework for Prevention and Detection of Financial Statement Fraud. International Journal of Computer Applications, roč. 50, č. 8, s. 7–14. GUPTA, R., GILL, N. S. 2012b. Prevention and Detection of Financial Statement Fraud–An Implementation of Data Mining Framework. (IJACSA) International Journal of Advanced Computer Science and Applications, roč. 3, č. 8, s. 150–156. HADDEN, J., TIWARI, A., ROY, R., RUTA, D. 2006. Churn prediction using complaints data. Proceedings Of World Academy Of Science, Engineering and Technology, roč. 19, s. 158–163. HAN, S. H., LU, S. X., LEUNG, S. C. H. 2012. Segmentation of telecom customers based on customer value by decision tree model. Expert Systems with Applications, roč. 39, č. 4, s. 3964–3973. HOSSENI, M. B. 2011. Customer Segmentation Using CLV Elements. Journal of Service Science and Management, roč. 04, č. 03, s. 284–290. HUANG, B., KECHADI M. T., BUCKLEY, B. 2012. Customer churn prediction in telecommunications. Expert Systems with Applications, roč. 39, č. 1, s. 1414– 1425. KELBEL, J., ŠILHÁN, D. 2002. Shluková analýza. Osobní stránka-Ivan Nagy, s. 1–11. [cit. 22. December 2012]. Dostupné z: http://staff.utia.cas.cz/nagy/skola/Projekty/Classification/ShlukovaAnalyza.pdf KHAN, A., JAMWAL, S., SEPEHRI, M. 2010. Applying Data Mining to Customer Churn Prediction in an Internet Service Provider. International Journal of Computer Applications, roč. 9, č. 7, s. 8–14.
Seznam použitých zdrojů
72
KIM, S., JUNG, T., SUH, E., HWANG, H. 2006. Customer segmentation and strategy development based on customer lifetime value: A case study. Expert Systems with Applications, roč. 31, č. 1, s. 101–107. KOHAVI, R., PAREKH, R. Visualizing RFM segmentation. Proceedings of the 4th SIAM International Conference on Data Mining. 2004, s. 391–399. KOVÁCS, F., LEGÁNY, C., BABOS, A. Cluster validity measurement techniques. the 6th International Symposium of Hungarian Researchers on Computational Intelligence. 2005, KRAJÍČKOVÁ, P. Testování heteroskedasticity v lineárním regresním modelu. 2007 [cit. 2013-01-01]. Diplomová práce. Masarykova univerzita, Přírodovědecká fakulta. Vedoucí práce Dalibor Moravanský. Dostupné z:
. LEMMENS, A., CROUX, C. Bagging and Boosting Classification Trees to Predict Churn. Journal of Marketing Research. 2006, roč. 43, č. 2, s. 276–286. LIN, K. P., PAI, P. F., LU, Y. M., CHANG, P. T. 2013. Revenue forecasting using a least-squares support vector regression model in a fuzzy environment. Information Sciences, roč. 220, s. 196–209. LUNDHOLM, R. J., MCVAY, S. E., RANDALL, T. 2012. Forecasting Sales: A Model and Some Evidence from the Retail Industry. SSRN Electronic Journal, roč. 45, č. 2-3. MAIMON, O., ROKACH, L. 2010. Data mining and knowledge discovery handbook. Second Edi. London: Springer New York Dordrecht Heidelberg London. ISBN 9780387098227. NESLIN, S., GUPTA, S., KAMAKURA, W. 2004. Defection detection: improving predictive accuracy of customer churn models. 2004. NESLIN, S., GUPTA, S., KAMAKURA, W, LU, J., MASON, CH. H.. 2006. Defection Detection : Measuring and Understanding the Predictive Accuracy of Customer Churn Models. Journal of Marketing Research, roč. XLIII, s. 204–211. NISBET, R., ELDER, J. F., MINER, G. 2009. Handbook of statistical analysis and data mining applications. Boston: Elsevier Academic Press, 2009. 824 s. ISBN 9780123747655. NOVO, J. Drilling Down, Turning Customer Data into Profits with a Spreadsheet. Brandeton, FL: Booklosker.com, 2004. 356 s. ISBN 1-591-13519-2. PELLEG, D., MOORE, A. 2000. X-means: Extending k-means with efficient estimation of the number of clusters. Proceedings of the Seventeenth International Conference on Machine Learning, s. 727–734.
Seznam použitých zdrojů
73
PETROVIC, S. 2006. A comparison between the silhouette index and the daviesbouldin index in labelling ids clusters. Proceedings of the 11th Nordic Workshop of Secure IT. PHUA, C., LEE, V., SMITH, K., GAYLER, R. A Comprehensive Survey of Data Mining-based Fraud Detection Research. 30. September 2010, s. 14. SELIM, S., ISMAIL, M. 1984. K-means-type algorithms: a generalized convergence theorem and characterization of local optimality. IEEE Transactions on Pattern Analysis and Machine Intelligence, roč. PAMI-6, č. 1, s. 81–87. SHAN, J. Z., TANG, H.-K., WU, R., SAFAI, F. 2005. Dynamic modeling and forecasting on enterprise revenue with derived granularities. Granular Computing, 2005 …, č. July, s. 25–27. SHARMA, A., PANIGRAHI, K. P. 2012. A Review of Financial Accounting Fraud Detection based on Data Mining Techniques. International Journal of Computer Applications, roč. 39, č. 1, s. 37–47. SOHRABI, B., KHANLARI, A. 2007. Customer Lifetime Value (CLV) Measurement Based on RFM Model. Iranian Acc Aud Rev, roč. 14, č. 47, s. 7–20. STRNADOVÁ, M. 2010. Value drivers a jejich vliv na hodnotu firmy., s. 6. Dostupné z: http://www.konference.fbm.vutbr.cz/workshop/papers/papers2011/finance/Strn adova.pdf TRUEMAN, B., WONG, M., ZHANG, X.-J. 2000. Back to Basics: Forecasting the Revenues of Internet Firms. Review of Accounting Studies, roč. 6, č. 2-3, s. 305– 329. WANG, H., JING, Z. 2008. Study of Customer Segmentation for Auto Services Companies Based on RFM Model. Proceedings of the 5th International Conference on Innovation and Management, s. 734–739. WEI, C. P., CHIU, I. 2002. Turning telecommunications call details to churn prediction: a data mining approach. Expert Systems with Applications, roč. 23, č. 2, s. 103–112. WILLIAM R., KINNEY, J. 1978. ARIMA and Regression in Analytical Review: An Empirical Test. The Accounting Review, roč. 53, č. 1, s. 48–60. WILLIAMS, S., WILLIAMS, N. 2006. The profit impact of business intelligence. Burlington: MA: Morgan Kaufmann, 2006. 240 s. ISBN 978-0-12-372499-1. WU, S., KANG, N., YANG, L. 2007. Fraudulent Behavior Forecast in Telecom Industry Based on Data Mining Technology. Communications of the IIMA, roč. 7, č. 4, s. 5–10.
Seznam obrázků
74
Seznam obrázků Obr. 3.1: Příprava dat pro modelování náchylnosti k odchodu (Nisbet et al., 2009). .................................................................................................................................. 12 Obr. 3.2: Framework pro odhalování podvodů (Gupta, Gill, 2012a). .................... 18 Obr. 3.3: Metody pro detekci podvodů (Nisbet et al., 2009). ................................. 20 Obr. 3.4: Vliv charakteristik R, F a M na skutečnou hodnotu CLV (Fader et al., 2005). ....................................................................................................................... 29 Obr. 4.1: Metodologie CRISP-DM. .......................................................................... 31 Obr. 5.1: Výskyt extrémních hodnot. ....................................................................... 40 Obr. 5.2: Historie zakázek s rozdělením na trénovací a evaluační set. ................... 42 Obr. 5.3: ROC křivky křížové validace modelů. ...................................................... 44 Obr. 5.4: Zobrazení nákladové analýzy. .................................................................. 46 Obr. 5.5: Skutečný a predikovaný příjem agregovaný v týdenních intervalech. .... 47 Obr. 5.6: Predikovaný a skutečný příjem na podkladu celkového objemu zakázek. .................................................................................................................................. 48 Obr. 5.7: Kumulativní chyba výsledku dlouhodobé predikce. ................................ 49 Obr. 5.8: Počet transakcí podle data. ...................................................................... 53 Obr. 5.9: Extrémní hodnoty. ................................................................................... 54 Obr. 5.10: Výsledné rozložení etalonů jednotlivých segmentů použitou metodou KMeans. ...................................................................................................................... 56 Obr. 5.11: Vizualizace středů segmentů dle RFM charakteristik. ........................... 58 Obr. 5.12: Rozložení segmentů v RFM prostoru. ....................................................60 Obr. 5.13: Průměrná platba a mohutnost segmentu dle RF. .................................. 61 Obr. 5.14: Celková hodnota segmentu dle RF. ........................................................ 62 Obr. 5.15: Průměrná Recency dle FM. .................................................................... 62
Seznam tabulek
75
Seznam tabulek Tab. 3.1: Matice zisku. ............................................................................................. 20 Tab. 5.1: Přehled vstupních dat se základní charakteristikou. ............................... 39 Tab. 5.2: Normalizovaný informační zisk atributů s výběrem................................ 41 Tab. 5.3: Výsledky cross-validace na trénovací množině dat. ................................ 43 Tab. 5.4: Matice záměn metody Bagging. ............................................................... 44 Tab. 5.5: Matice záměn pro výsledky krátkodobé predikce. ................................... 45 Tab. 5.6: Výstupní formát krátkodobé predikce. .................................................... 46 Tab. 5.7: Přehled dlouhodobé predikce pro 36. týden. ........................................... 50 Tab. 5.8: Přehled a základní charakteristika atributů. ........................................... 52 Tab. 5.9: Charakteristiky a vzhled dat pro RFM analýzu. ....................................... 54 Tab. 5.10: Charakteristiky a úprava dat použitá pro CLV segmentaci. .................. 55 Tab. 5.11: Srovnání metod CLV segmentace. .......................................................... 56 Tab. 5.12: Vzdálenost mezi středy segmentů. ......................................................... 57 Tab. 5.13: Počet zákazníků ve výsledných segmentech metodou K-Means............ 57 Tab. 5.14: Průměrné hodnoty charakteristik zákazníků pro CLV analýzu. ............ 58 Tab. 5.15: Výpočet CLV a definice segmentů. ......................................................... 59