Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií
Student
: Mgr. Marika Višňová
Vedoucí bakalářské práce
: Ing. Ota Novotný, Ph.D.
Recenzent bakalářské práce
: Ing. David Slánský, Ph.D.
TÉMA BAKALÁŘSKÉ PRÁCE
Aplikace Business Intelligence v telekomunikačním sektoru
ŠKOLNÍ ROK : 2007/2008
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracovala samostatně a že jsem uvedla všechny použité prameny a literaturu, ze kterých jsem čerpala.
V Praze dne 02.01.2008
........................... .......................... podpis
Abstrakt V souvislosti s děním na trhu telekomunikačního sektoru, vyvstala v telekomunikačním odvětví potřeba zabránit odchodu ziskových zákazníků. Řízením odlivu ziskových zákazníků se v telekomunikační společnosti zabývá Churn management, který využívá nástroje Business Intelligence k analýze velkého množství dat souvisejících se zákazníkem. Analýza dat se provádí pomocí dolování dat, které používá analytické metody k predikci chování zákazníka. Čtenář bakalářské práce z kontextu pochopí logickou souvztažnost mezi děním na trhu telekomunikačního sektoru a potřebou orientace společnosti na zákazníka a tím i na Churn management. V práci jsou popsány principy a komponenty Business Intelligence a dolování dat, které tvoří technologický základ Churn managementu. V poslední kapitole, která je věnována samotnému Churn managementu, je ukázáno jak probíhá vytvoření prediktivního modelu dle metodiky CRISP-DM, což by mělo alespoň zprostředkovaně přiblížit Churn management v praxi.
Klíčová slova: Business Intelligence, dolování dat, Churn management, metodika CRISP-DM, prediktivní model, telekomunikační společnost, zákazník
Abstract In connection with the events at the telecommunication sector market a need for preventing the profitable customers from leaving has arisen in the telecommunication branch. Churn management is concerned with the management of the efflux of these profitable customers, using the tools of Business Inteligence to analyse huge amount of the data related to the customer. The data analysing is carried out by means of data mining which uses the analytical methods to predict the customer’s behaviour. The reader of the bachelor work will understand from the context the logical correlation between the processes at the telecommunication sector market and the necessity of company’s focusing in the customer, and thus in Churn management, too. The thesis describes the principles and the components of Business Intelligence and data mining which represent the technological basis of Churn management. Last chapter, devoted to Churn management itself, shows the particular process of building the predictive model according to the CRISP-DM method which should at least implicitly approximate Churn management in practise.
Key words: Business Intelligence, Data mining, Churn management, CRISP-DM methodology, predictive model, telecommunications company, customer
Poděkování Ráda bych touto cestou poděkovala vedoucímu bakalářské práce Ing. Otovi Novotnému, Ph.D. za jeho vstřícný přístup při vedení bakalářské práce, dále panu Ing. Ivanu Janovskému, Ing. Tomášovi Kalendovi a Ing. Davidovi Slánskému Ph.D. za jejich pomoc při psaní práce.
Obsah 1 ÚVOD..................................................................................................................................1 1.1 PŘEDMLUVA ......................................................................................................1 1.2 CÍL BAKALÁŘSKÉ PRÁCE ....................................................................................1 1.3 VÝCHODISKA ŘEŠENÍ .........................................................................................2 1.4 STRUKTURA BAKALÁŘSKÉ PRÁCE ......................................................................2 2 BUSINESS INTELLIGENCE ŘEŠENÍ ..........................................................................4 2.1 BUSINESS INTELLIGENCE ...................................................................................4 2.1.1 Logika uložení dat v BI řešení ...................................................................5 2.1.2 BI v architektuře IS/ICT organizace..........................................................6 2.1.3 Komponenty BI řešení................................................................................7 3 TELEKOMUNIKAČNÍ SEKTOR ................................................................................11 3.1 TELEKOMUNIKACE A TELEKOMUNIKAČNÍ OPERÁTOR ......................................11 3.2 TELEKOMUNIKAČNÍ SEKTOR A JEHO VÝVOJ V ČR ............................................12 4 DATA MINING ...............................................................................................................15 4.1 CO JE TO DATA MINING?...................................................................................15 4.2 ÚLOHY DOLOVÁNÍ DAT ....................................................................................16 4.3 METODIKY .......................................................................................................17 4.3.1 Metodika CRISP-DM...............................................................................17 4.4 VYBRANÉ METODY DOLOVÁNÍ DAT .................................................................19 4.4.1 Statistické metody ....................................................................................20 4.4.2 Metody umělé inteligence, nestatistické metody ......................................21 4.5 DATA PRO DOLOVÁNÍ A JEJICH ZDROJE ............................................................22 4.5.1 Data .........................................................................................................22 4.5.2 Jak vybrat správná data?.........................................................................23 4.5.3 Zdroje.......................................................................................................23 4.6 TECHNOLOGIE..................................................................................................24 5 APLIKACE BI V TELEKOMUNIKAČNÍM SEKTORU...........................................26 5.1 DŮVODY ZAVEDENÍ BI V TELEKOMUNIKAČNÍM SEKTORU ...............................26 5.2 OBLASTI APLIKACE BI ŘEŠENÍ V TELEKOMUNIKAČNÍM SEKTORU ....................27 5.3 CUSTOMER INTELLIGENCE ...............................................................................31
5.3.1 Architektura a komponenty řešení Customer Intelligence.......................33 6 APLIKACE BI V TELEKOMUNIKAČNÍM SEKTORU SE ZAMĚŘENÍM NA CHURN MANAGEMENT.................................................................................................35 6.1 CHURN MANAGEMENT .....................................................................................35 6.1.1 Postavení Churn managementu v telekomunikační společnosti ..............36 6.1.2 BI řešení podporující Churn management...............................................37 6.2 ŽIVOTNÍ CYKLUS ZÁKAZNÍKA ..........................................................................37 6.2.1 Ohodnocení zákazníka .............................................................................38 6.2.2 Věrnost zákazníka ....................................................................................39 6.3 CHURN MODELY ..............................................................................................39 6.3.1 Survival analysis ......................................................................................40 6.3.2 Binary outcome churn model...................................................................41 6.3.3 Logika sestavení churn modelu ...............................................................41 6.4 APLIKACE METODIKY CRISP-DM V RÁMCI CHURN MANAGEMENTU .............42 U
6.6.1 Business Understanding ..........................................................................43 6.6.2 Data Understanding ................................................................................44 6.6.3 Data Preparation.....................................................................................44 6.6.4 Modeling ..................................................................................................45 6.6.5 Evaluation................................................................................................46 6.6.6 Deployment ..............................................................................................46 7 ZÁVĚR .............................................................................................................................49 LITERATURA....................................................................................................................51 ODBORNÁ LITERATURA..........................................................................................51 INTERNETOVÉ ODKAZY ..........................................................................................51 ZPRÁVY, ČLÁNKY, STUDIE .....................................................................................52 TERMINOLOGICKÝ SLOVNÍK ....................................................................................54 SEZNAM OBRÁZKŮ A TABULEK................................................................................66
1 Úvod 1.1 Předmluva Telekomunikační sektor patří k dynamicky se rozvíjejícím odvětvím, které je ovlivňováno technologickým pokrokem a neustále se zvyšující konkurencí, ne jinak je tomu v České Republice. V konkurenčním boji je pro telekomunikačního operátora hlavním středem zájmu zákazník, stejně tak jako pro firmu, podnik či společnost z jiného oboru. Proto bych se v bakalářské práci soustředila právě na něj – na zákazníka telekomunikačního operátora. A to konkrétně na okolnosti spojené s jeho odchodem od společnosti nebo-li přechodem ke konkurenci, kterými se zabývá Churn management. Churn management nebo-li management, který identifikuje odcházející zákazníky telekomunikačních operátorů, potřebuje analyzovat velké množství dat, na jejichž základě získává informace o odcházejících zákaznících a dokáže tak vytvořit prototyp odcházejících zákazníků. Na základě této segmentace je management schopen použít nástroje marketingu pro zamezení odchodu zákazníků. Řešení pro Churn management při segmentaci zákazníků a hledání prototypu poskytuje Business Intelligence (dále už jen BI). Nástroje BI jsou schopny zpracovat velké množství dat a to tak, že při správném použití získá management kvalitní výstup (informace). Osobní pohnutkou k volbě tématu je skutečnost, že já sama jsem zaměstnancem telekomunikačního operátora, který působí na našem trhu. V bakalářské práci využívám poznatky z této společnosti.
1.2 Cíl bakalářské práce Hlavním cílem bakalářské práce je podat ucelený pohled na Churn management telekomunikačního operátora. Podání uceleného pohledu znamená uvést do problematiky BI,
jejíž
komponenty
Churn
management
využívá.
Objasnit
situaci
na
trhu
telekomunikačního sektoru, ze které vyvstává potřeba telekomunikační společnosti orientovat se na odcházející zákazníky. Dále popsat úlohy, metody a metodiky dolování 1
dat, které Churn management při identifikaci odcházejících zákazníků používá. Vymezit definici Churn managementu a analyzovat jeho postavení v telekomunikační společnosti. V neposlední řadě aplikovat metodiku CRISP-DM na prevenci odchodu zákazníků od společnosti. Přidruženým cílem je obeznámit s aplikací BI v telekomunikační společnosti, tj. analyzovat důvody pro zavedení BI a z nich vymezit oblasti aplikace BI v telekomunikační společnosti.
1.3 Východiska řešení Zaměření bakalářské práce je teoretické. Práce je vypracována metodou rešerše informačních zdrojů a doplněna o závěry ze studia příslušné literatury. Odborná literatura, ze které práce vychází: Novotný, Pour, Slánský: Business Intelligence: Jak využít bohatství ve vašich datech; Slánský: Řešení úloh Business Intelligence se zaměřením na prostředí telekomunikačních společností; Rud: Data mining: Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM); Berka: Dobývání znalostí z databází; Berry, Linoff: Data mining techniques: for marketing, sales and customer relationship management. Dalšími klíčovými zdroji jsou dokumenty: CRISP-DM 1.0 Step-by-step data mining guide a Enhanced Telecom Operations (eTOM) a www stránky: www.adastra.cz, www.crisp-dm.org, www.tmforum.org, www.systemonline.cz.
1.4 Struktura bakalářské práce Níže uvedené schéma znázorňuje strukturu bakalářské práce: 1. Úvod cíle a struktura práce
2. Business Intelligence řešení
3. Telekomunikační sektor
4. Data Mining
2
5. Aplikace BI v telekomunikačním sektoru
6. Aplikace BI v telekomunikačním sektoru se zaměřením na Churn management
7. Závěr
1. Úvod – cíl a struktura bakalářské práce. 2. Business Intelligence řešení – uvedení do problematiky Business Intelligence, vymezení základních termínů a principů. 3. Telekomunikační sektor – definice telekomunikací a telekomunikačního operátora. Analýza současného stavu telekomunikačního sektoru. 4. Data Mining – definice dolování dat, seznámení s úlohami dolování dat, metodikou CRISP-DM, vybranými metodami dolování dat. Rozdělení dat, návod jak vybrat správná data. Seznam technologií pro dolování dat. 5. Aplikace BI v telekomunikačním sektoru – důvody využití BI v telekomunikačním sektoru, oblasti aplikace BI, Customer Intelligence. 6. Aplikace BI v telekomunikačním sektoru se zaměřením na Churn management – uvedení do problematiky Churn managementu, jeho definice, jeho postavení v telekomunikační společnosti. Churn jako fáze životního cyklu zákazníka. Přístupy k modelování churnu. Aplikace metodiky dolování dat CRISP-DM na prevenci odchodu zákazníků od společnosti. 7. Závěr
3
2 Business Intelligence řešení Následující kapitola tvoří úvod do oblasti Business Intelligence, vymezuje samotný pojem Business Inteligence, jsou v ní definovány principy, na kterých je technologie založena, popsány základní komponenty řešení a jejich vzájemná propojenost.
2.1 Business Intelligence V dnešní době, kdy se mezi podnikajícími subjekty neustále zvyšuje konkurence, se každý podnik, firma či společnost snaží připojit ke svému podnikání přidanou hodnotu. Jednou z možností, a v současnosti i nutností, pomocí které podnik může dosáhnout přidané hodnoty, a tím zvýšit svou konkurenceschopnost na trhu, je právě BI. Přidanou hodnotu BI tvoří získávání relevantních a objektivních informací pro rychlé manažerské, ale i operativní rozhodování pomocí snadno manipulovatelných nástrojů. Informace jsou získávány na základě kvalitních a strukturovaných dat, která jsou dostupná v relativně krátkém čase, přičemž nové požadavky na další informace, vyplývající z aktuálních obchodních či výrobních situací, jsou velmi rychle formulovány. „Pojem Business Intelligence zavedl v roce 1989 Howard J. Dresner, analytik společnosti Gartner Group : „Sada konceptů a metod určených pro zkvalitnění rozhodnutí firmy“ 1 Další definice BI: „Business Intelligence je sada procesů, aplikací a technologií, jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě. Podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principech multidimenzionálních pohledů na podniková data. Aplikace BI pokrývají analytické a plánovací funkce většiny oblastí podnikového řízení tj. prodeje, nákupu, marketingu, finančního řízení, controllingu, majetku, řízení lidských zdrojů, výroby, IS/ICT apod.“ 2
1
[Z007]
2
[NOV2005] str. 19
4
2.1.1 Logika uložení dat v BI řešení Základní myšlenkou BI řešení je výše zmíněná multidimenzionalita. Data nejsou uložena
v
relačních
databázích
do
podoby
třetí
normální
formy,
ale
v tzv. multidimenzionálních databázích. Toto uložení umožňuje analytický pohled na data nebo-li získávání analytických informací. Informační technologie, která pracuje s multidimenzionálními databázemi se nazývá OLAP – On Line Analytical Processing. „Jejím hlavním principem je několikadimenzionální tabulka umožňující rychle a pružně měnit jednotlivé dimenze a měnit tak pohledy uživatele na modelovanou ekonomickou realitu.“ 3 Data, jež jsou uložena v multidimenzionální databázi ovšem nejsou primární (zdrojová) data, ta jsou uložena v klasických relačních databázích, udržována na maximální úrovni detailu a zpracovávána OLTP (On Line Transaction Processing) systémy (viz kapitola 2.1.3) v reálném čase. Přičemž OLTP systémy primárně slouží k pořizování dat. Multidimenzionální uspořádání prvků v multidimenzionální databázi umožňuje dívat se např. na jednoho zaměstnance (prvek dimenze) z několika úhlů pohledu – může se sledovat, kde pracuje, jaký je jeho plat, počet odpracovaných hodin apod. Jelikož jsou prvky dimenzí uspořádány v hierarchické struktuře lze tyto informace získat v rámci celé společnosti, závodu, provozu či dílny. Díky standardní, dalo by se říci povinné, dimenzi čas lze sledovat historii všech dat o zaměstnanci. Dimenze, které reprezentují rozdílné kategorie pro analýzu dat, mohou být uspořádány zpravidla do dvou schémat při implementaci na úrovni relační databáze – Schéma hvězdy (Star scheme) a Schéma sněhové vločky (SNOWFLAKE scheme). Uprostřed obou schémat se nalézá tzv. tabulka faktů, což je „tabulka sledovaných ekonomických a dalších ukazatelů identifikovatelných klíčem složeným z klíčů tzv. dimenzionálních tabulek, v nichž jsou uloženy prvky jednotlivých dimenzí. Dimenzionální tabulky slouží jako úložiště textových informací o hodnotách uložených v tabulce faktů.“ 4
3
[NOV2005] str. 21
4
[NOV2005] str. 23
5
Do fakt tabulky jsou uloženy veličiny měřitelné a měnící se v čase. Naopak diskrétní a konstantní veličiny jsou uloženy v dimenzionální tabulce. Schéma hvězdy v grafickém vyjádření, jak již název vypovídá, připomíná hvězdu. Okolo tabulky faktů se rozkládají tabulky dimenzí, přičemž každá dimenze je reprezentována právě jednou tabulkou. Schéma sněhové vločky je určitým druhem hvězdicového schéma, ve kterém jsou tabulky dimenzí normalizovány, čímž se data rozdělují do dalších tabulek. Dimenze na nejvyšším stupni hierarchie je vázána přímo na faktovou tabulku, ostatní pak na některou z nižších dimenzí v hierarchické struktuře.
2.1.2 BI v architektuře IS/ICT organizace Umístění BI v architektuře IS/ICT organizace nejlépe znázorňuje níže uvedené schéma.
GŘ, pobočky -
Vedení podniku,
- Dceřinné společnosti
Business Intelligence, strategický IS
BI
intranet, OIS, work-flow
Interní infrastruktura,
BI Dodavatelé
Zákazníci
Řízení obchodu prodej, nákup, sklady, marketing
BI
Řízení zdrojů majetek, personál PAM, dopravy, ekologie
Řízení ekonomiky - účetnictví, controlling, treasury, fin. plánování
R
Řízení výroby, provozu - TPV, plánování hlavní výroby, OŘV, dílenské řízení výroby, plánování kapacit
C M
Elektronický obchod, řízení ext.vztahů
(EIS, datové sklady, data marts, reporting)
Řízení vztahů k dodavatelům a ostatním partnerům
BI Ostatní partneři (státní správa, burza, ..)
Obr. 1: Umístění BI v architektuře IS/ICT organizace [NOV2005]
6
V současné době je BI rozšířeno do všech procesů i na všechny úrovně rozhodování organizace oproti minulosti, kdy BI nástroje sloužily jen pro podporu rozhodování managementu.
2.1.3 Komponenty BI řešení Kompletní
BI
řešení,
obzvláště
ve
velkých
podnicích,
což
je
případ
telekomunikačních společností, má poměrně rozsáhlou architekturu a skládá se z řady komponent. V této kapitole jsou popsány základní komponenty, bez kterých by BI řešení nemohlo být BI řešením.
Obr. 2: Hlavní komponenty BI a jejich vazby [Z001]
Vstupní komponentou každého BI řešení jsou produkční (zdrojové) systémy, které však nejsou součástí BI řešení, jsou však důležité, jelikož poskytují vstupní data pro datové sklady. Produkční systémy nebo-li již zmiňované OLTP systémy, jsou standardní relační databázové systémy, které slouží k ukládání a modifikaci operativních dat v reálném čase. Data v nich nejsou uspořádána tématicky, poskytují pouze popis jednotlivých transakcí, 7
tudíž nejsou vhodná k analýze. Příkladem produkčních systémů mohou být klasické ERP 5 nebo CRM 6 systémy. Dalším zdrojem dat mohou být externí databáze jako jsou číselníky adres, obcí, telefonní seznamy, registry ekonomických subjektů apod. Data z produkčních systémů a externích databází se převádí pomocí datových pump (ETL nástroje - Extraction, Tranformation and Loading) v nezměněné podobě nejdříve do dočasných úložišť (DSA – Data Staging Area). „Pak následuje fáze transformací („transformation“), během které dochází k nejpodstatnější části celého řešení – k čištění dat (doplnění chybějících hodnot, odstranění
překlepů,
převedení
na
shodné
formáty,
napárování
na
jednotné
číselníky/dimenze), datové konsolidaci (unifikaci hlavních entit – zákazníci, zaměstnanci, dodavatelé, partneři, produkty apod.) a výpočtu agregací dle hlavních entit.“ 7 Po těchto úpravách mohou být data nahrána do datového skladu, ze kterého jsou následně opět pomocí ETL nástrojů postoupena do operativního úložiště nebo datového tržiště. Dočasné úložiště je nepovinnou komponentou BI řešení, slouží k dočasnému uložení dat extrahovaných z produkčních systémů. Hlavním úkolem dočasného úložiště je podpora rychlého a efektivního výběru dat. Využívá se u neustále zatížených produkčních systémů nebo u systémů pracujících s daty, která musí být před zpracováním změněna na databázový formát. Další nepovinnou komponentou je operativní úložiště dat (ODS – Operational Data Store), jež poskytuje přístup k datům z produkčních systémů s minimální dobou odezvy, tedy téměř v čase, kdy byla zadána do produkčních systémů. Operativní úložiště je s produkčními
systémy
propojeno
prostřednictvím
EAI
platforem
(Enterprise
Application Integration). Ty umožňují vzájemnou komunikaci mezi libovolnými dvěma aplikacemi v reálném čase, a to bez nutnosti tyto dvě aplikace přímo vzájemně propojovat.
5
Enterprise Resource Planing
6
Customer Relationship Management
7
[Z001]
8
Své využití ODS nalézá např. na call centrech, kde operátor potřebuje znát aktuální údaje o zákazníkovi. Datový sklad (DWH – Data Warehouse) jako základní stavební kámen BI řešení konsoliduje data z různých produkčních systémů. Datový sklad obsahuje data, která jsou rozdělena dle logického významu, ne dle aplikací, ve kterých vznikla. Data jsou integrovaná, je u nich zachycena historie a nelze je měnit zásahem uživatele. Datový sklad si lze představit jako neměnnou, logicky uspořádanou centrálu dat podniku, do které jsou data nahrávána v časových intervalech (denně, týdně, měsíčně) a ze které je možno určitými způsoby vybírat potřebná data. Datová kvalita, kterou zaručuje datový sklad je jednou z nejvýznamnějších přidaných hodnot BI řešení. „Kvalitní data jsou taková, která odpovídají přesně realitě, jsou úplná, přesná a konsistentní.“ 8 Poslední komponentou sloužící k ukládání dat je datové tržiště (DMA – Data Mart). Datové tržiště je založeno na podobném principu jako datový sklad, oproti němu však obsahuje již agregace a vypočtené hodnoty, které jsou určeny pro užší skupiny uživatelů, např. pro oddělení marketingu, pobočku apod. Data v datovém skladu jsou sice očištěná a konsolidovaná, ale také často velmi objemná. K získání relevantních dat pro analýzu by bylo nutné zdlouhavě procházet celé historie datového skladu, proto se data ukládají do OLAP databází (jejich princip je popsán v kapitole 2.1.1), kde jsou data již agregovaná dle definovaných hierarchických struktur dimenzí a jejich kombinací. Technologie OLAP může být řešena prostřednictvím klasických relačních databázových tabulek (tzv. ROLAP, relational OLAP) anebo s využitím technologie vícerozměrných datových krychlí (tzv. MOLAP, Multidimensional OLAP), popř. kombinací obou (tzv. HOLAP, hybrid OLAP). OLAP je zde prvním popsaným analytickým nástrojem. Reporting se stejně jako OLAP nachází v analytické vrstvě BI řešení, pod reportingem si lze představit dotazování do databází pomocí standardních rozhraní těchto databází.
8
[Z010]
9
„V rámci reportingu lze identifikovat: standardní reporting, kdy jsou v určitých časových periodách spouštěny předpřipravené dotazy; ad hoc reporting, kdy jsou na databáze (většinou) jednorázově formulovány specifické dotazy, explicitně vytvořené uživatelem.“ 9 Další technologií, kterou se analytik může dostat k datům z datového skladu nebo datových tržišť je dolování dat (Data Mining). Dolování dat využívá specifické statistické metody, sofistikované algoritmy k výběru relevantních dat z datového skladu či datových tržišť. Vybraná data jsou většinou složitější vzorky chování, které nelze detekovat prostřednictvím OLAP technologií. Dolování dat se v současnosti nejvíce používá k predikci chování zákazníka či k segmentaci zákazníků. Uživatelé k BI technologiím přistupují pomocí manažerských aplikací (EIS – Executive Information Systems), jež v sobě integrují všechny nejdůležitější datové zdroje systému. Manažerské aplikace v sobě ukrývají jak analytický nástroj, tak i nástroj, který usnadňuje prezentaci informací získaných z datových zdrojů. Nedílnou součástí BI řešení jsou metadata nebo-li data o datech. Hlavní výhodou existence metadat je možnost snadnějšího pochopení principů, funkcionality a obsahu jednotlivých informačních systémů. Metadata poskytují možnost využívání systému nejen při každodenní práci, ale také jeho další rozvoj a případně využití pro rozvoj jiných komponent architektur IS/ICT organizace. Každé BI řešení je jiné, specifické pro určitou firmu, podnik či společnost. Cílem BI je navrhnout a implementovat manažerské aplikace, datové sklady a tržiště, které zpracovávají analytické a rozhodovací úlohy v řízení společnosti s odpovídající organizační a technologickou infrastrukturou. Principy BI jsou založeny na dodání informací do správných rukou v ten pravý čas a hlavně v pravdivé formě. V době silného konkurenčního tlaku a zvyšující se vyjednávací síle odběratelů, umožní BI vyhledat nejen nové tržní příležitosti a ohrožení, ale hlavně se na základě kvalitních dat a z nich získaných relevantních informací i správně rozhodnout.
9
[NOV2005] str. 34
10
3 Telekomunikační sektor Kapitola definuje pojmy telekomunikace a telekomunikační operátor, podává přehled o dění na trhu telekomunikací v ČR, a to jak v minulosti, tak i v současnosti. Jelikož se další kapitoly budou zabývat poskytovateli mobilních a fixních služeb, bude se výklad soustředit zejména na ně. Kapitolu je nutno brát jako úvod do světa telekomunikací, který pomůže pochopit specifika současného telekomunikačního trhu a úlohu BI v tomto sektoru.
3.1 Telekomunikace a telekomunikační operátor Telekomunikace jako odvětví jsou prostorem pro běžné ekonomické aktivity jako každé jiné odvětví, avšak současně představují komunikační infrastrukturu pro všechna ostatní odvětví národního hospodářství, pro státní správu či pro sociální a kulturní život obyvatel. Jsou tedy velmi významným prvkem tržního hospodářství každé vyspělé země. Definice telekomunikací podle odvětvové klasifikace ekonomických činností Českého statistického úřadu je následující: „Tato skupina zahrnuje: přenášení zvukových, obrazových, číselných a jiných informací kabelovým přenosem nebo bezdrátově: - telefonní, telegrafní a dálnopisné spojení - udržování sítě vysílačů - přenášení rozhlasových a televizních programů Do této skupiny nepatří: přihlašování nových telefonních účastníků výroba rozhlasových a televizních pořadů i v případě, že jsou součástí živého vysílání” 10
10
[SLA2004] str. 174
11
Telekomunikační operátor je subjektem telekomunikačního sektoru, „jedná se o organizaci, která působí na telekomunikačním trhu, tedy nabízí zde své produkty a služby.“
11
Telekomunikační operátory, jako ekvivalent lze použít název telekomunikační
společnosti, lze rozdělit na fixní a mobilní telekomunikační operátory, poskytovatele připojení k internetu a poskytovatele televizního a rádiového signálu. Jak bylo napsáno na začátku kapitoly práce se zaměřuje na poskytovatele mobilních a fixních služeb, budu se proto dále soustřeďovat pouze na fixní a mobilní telekomunikační operátory. „Typický fixní telekomunikační operátor poskytuje: služby přenosu hlasu a dat, přidané služby (Value Added Services) založené na využití pevné telekomunikační sítě, moderní technologie pro přenos dat – ISDN, ADSL. Typický mobilní operátor poskytuje: služby přenosu hlasu, dat, textu (SMS), přidané služby (Value Added Services) založené na využití mobilní telekomunikační sítě (např. geografická lokalizace, poskytování přenosové sítě pro partnerské služby dodávající obsah – zpravodajství, atd.).“ 12 Na našem trhu však působí i integrovaný telekomunikační operátor, který v sobě spojuje fixního i mobilního telekomunikačního operátora, tzn. poskytuje všechny výše uvedené služby.
3.2 Telekomunikační sektor a jeho vývoj v ČR Historie telekomunikačního sektoru se nejen u nás nechá rozdělit na historii fixních komunikací a mobilních komunikací. Telekomunikační
sektor
v
bývalém
komunistickém
Československu
lze
charakterizovat jako neefektivní, státem vlastněnou monopolní strukturu. Telekomunikace v této době spadaly pod Federální ministerstvo Praha. Hlavním účelem telekomunikační infrastruktury v komunistických zemích bylo poskytovat koordinační mechanismus
11
[SLA2004] str. 174
12
[SLA2004] str. 175
12
centrálně plánované ekonomice. Poptávka po telefonních linkách nebyla za komunistického režimu uspokojována, na zřízení pevné linky čekala česká domácnost někdy až 12 let. Na začátku 90. let byla situace telekomunikačním sektoru u nás katastrofická – telekomunikační síť byla zastaralá a počty nevyřízených objednávek telefonních přípojek astronomické. Trh volal po konkurenci, ale až do roku 2000 měl exkluzivní postavení, co se týče fixních hlasových služeb (meziměstské a mezinárodní hovory), SPT Telecom později restrukturalizovaný a přejmenovaný na Český Telecom a.s. V druhé
polovině
90.
let
začal
proces
liberalizace
vybraných
částí
telekomunikačního trhu, zejména datových služeb. Největší zlom, co se týče konkurence v oblasti fixních hlasových služeb, nastal v roce 2003, kdy dle novely telekomunikačního zákona, musel Český Telecom zpřístupnit telefonní přípojku do domácnosti i alternativním operátorům. Výsledkem bylo odstranění dlouhých čekacích lhůt při zřizování telefonních stanic, výstavba a následný rozvoj infrastruktury, rozšíření nabídky služeb nabízených na nejrůznějších platformách (od služeb pevného bezdrátového přístupu až po volání přes internet) či úplná digitalizace sítě. A také začátek konkurenčního boje. Na trhu poskytovatelů mobilních služeb si od roku 1991 udržoval pod křídly Českého Telecomu monopolní postavení jediný český mobilní operátor Eurotel. „V roce 1996 vstoupil na trh Radiomobil a v roce 2000 i třetí mobilní operátor – Český Mobil.“
13
Díky neflexibilitě Českého Telecomu v oblasti hlasových služeb začal okamžitě růst počet účastníků mobilních sítí. V současnosti na trhu existují tři mobilní operátoři – společnost Telefónica O2 Czech Republic a.s., která vznikla sloučením bývalého Českého Telecomu a Eurotelu, poskytuje tedy i fixní hlasové služby, dále Vodafone, dřívější Český Mobil, provozovatel sítě Oskar a T-Mobile, což je následovník Radiomobilu provozovatele sítě Paegas. Existuje také možnost tzv. virtuálního operátora, jenž využívá telekomunikačních sítí svých partnerů. Tato možnost však zatím nebyla využita. Co se týče mobilních služeb nabízejí všichni tři operátoři podobné služby (viz kapitola 3.1). V současné době, kdy je trh mobilních telekomunikací již nasycen a na trhu pevných linek, vstupem alternativních operátorů (nové telekomunikační subjekty), vzniklo
13
[SLA2004] str. 178
13
plně konkurenční prostředí, začal konkurenční boj o zákazníka. Významným milníkem se v tomto ohledu mimo jiné stala přenositelnost čísla (od roku 2003) – tzn., že zákazník může přejít od telekomunikačního operátora k jinému aniž by musel změnit své dosavadní telefonní číslo. Pro jednotlivé telekomunikační operátory tím vznikl další důvod obávat se konkurence. Z výše
popsaného
vývoje
na
našem
trhu
lze
odvodit
budoucí
trendy
v telekomunikačním sektoru, které nastupují již dnes. Jsou jimi dle [SLA2004]: deregulace – spojená s liberalizací, globalizace – vstup zahraničních operátorů na náš trh, konvergence služeb – podobnost nabízených služeb, technologická inovace – souvisí s technologickými trendy a vývojem a zvyšování konkurenčního tlaku. Telekomunikační sítě a služby se staly základní součástí infrastruktury společnosti. V současnosti nabývají velmi rychle na významu v souvislosti s dynamickým technologickým rozvojem a zejména s vývojem informačních technologií jako základu pro přechod k ekonomice založené na využívání znalostí. Vše nasvědčuje tomu, že role telekomunikací v tržním hospodářství bude v budoucnosti ještě daleko klíčovější. Proto jako atraktivní odvětví, poskytují telekomunikace velké příležitosti k podnikání, což však pro stávající telekomunikační operátory znamená zamýšlet se nad tím, jak si udržet své současné zákazníky. K tomu je zapotřebí dokonalá znalost zákazníka, jeho chování, preferencí a budoucích rozhodnutí, k čemuž je v současné době nutno zavést technologii BI.
14
4 Data mining Kapitola se zabývá data miningem, jedním z nástrojů BI, jehož pomocí jsou, ať už automaticky či poloautomaticky získávány informace pro Churn management. V kapitole je definován pojem data mining, jsou v ní popsány typické úlohy, které data mining řeší. Dále se kapitola věnuje data miningovým metodikám, vybraným metodám modelování a datům, která jsou nezbytná pro získání relevantních informací.
4.1 Co je to data mining? Data mining, volně přeloženo dolování dat, je spojení statistických metod, umělé inteligence, strojového učení a informačních technologií. Velký rozvoj data miningu začal v akademickém světě v 70. a 80. letech minulého století. Od konce 90. let se také čím dál více prosazuje v praxi, a to díky nasycenosti jednotlivých trhů a silnějšímu konkurenčnímu boji o každého zákazníka. Data mining nabízí, jako ostatně všechny nástroje BI, porozumění datům uloženým v datových skladech nebo provozních systémech. Dále z těchto dat poskytuje získání informací potřebných např. pro pochopení zákazníka. Získané informace lze potom použít např. pro změnu marketingové strategie. Data mining se nechá definovat jako ,,netriviální dobývání skrytých, předem neznámých a potencionálně užitečných informací z dat.” 14 Další definice nebo lépe řečeno cíl data miningu „je poskytovat společnosti zdokonalení marketingu, prodeje a podpory zákazníků díky lepšímu porozumění jejím zákazníkům.“ 15
14
[Z005]
15
[BER2004] str. 7, přeloženo z anglického originálu: ,,is to allow a corporation to improve its marketing,
sales, and customer support operations through a better understanding of its customers.”
15
Dle mého názoru tyto definice definují data mining jako celý proces, který však Berka v [BER2003] nazývá dobývání znalostí z databází a data mining je jeho pouhou součástí. Proto budu dále používat český překlad dolování dat a budu mít na mysli, celý proces, který zahrnuje stanovení cílů, porozumění datům, přípravu dat a další fáze popsané v níže uvedených metodikách (viz kapitola 4.3).
4.2 Úlohy dolování dat Dolování dat řeší různé druhy typových úloh, které mohou být např. následující: „Prediktivní úlohy – cílem je předpovědět hodnotu určité veličiny na základě znalosti hodnot ostatních veličin. Z hlediska statistiky je takovou metodou regresní analýza. Predikci v dolování dat provádíme zejména klasifikací příkladů do tříd.“ 16 Prediktivní úlohou je např. u Churn managementu určení zákazníků, kteří jsou rozhodnuti odejít od společnosti. Deskriptivní úlohy – „cílem je nalézt dominantní strukturu nebo vazby, které jsou skryté v daných datech“
17
a tuto dominantní strukturu nebo vazby určitým způsobem
popsat. Tento typ úloh řeší z hlediska dolování dat např. metoda shlukování. Deskriptivní úlohy se většinou nevyskytují jako samostatný typ úlohy, ale v kombinaci s nějakou další úlohou. Příkladem deskriptivní úlohy může být např. rozdělení zákazníků dle věku a dle místa bydliště pro marketingovou kampaň. „Hledání vzorů a pravidel (hledání nuggetů) – „podstatou je hledání určitých vztahů a vzorů chování v datech.“
18
Příkladem je analýza nákupního košíku – zjišťování,
které druhy zboží jsou určitými zákazníky kupovány současně. Segmentace – separace dat do skupin či tříd zákazníků s obdobnou charakteristikou, příkladem je rozdělení zákazníků dle věku, pohlaví, profese atd. Metodika CRISP-DM uvádí ještě další typické úlohy jako je např. klasifikace, analýzy závislosti, deskripce konceptů, klasifikace ad. Tyto úlohy a jejich popis lze najít na www.crisp-dm.org 16
[NOV2005] str. 205
17
[BER2003] str. 19
18
[NOV2005] str. 206
16
4.3 Metodiky Metodika je návodem jak při řešení úlohy postupovat, jak se vyvarovat chybám a jak co nejefektivněji dosáhnout stanoveného cíle, v tomto případě vyřešení úlohy. Metodiky si kladou za cíl poskytnout uživatelům jednotný rámec pro řešení různých typů úloh, jsou v nich popsány fáze procesu řešení úloh. Úlohy dolování dat také mají své metodiky, k nejznámějším patří metodika CRISPDM, metodika 5A firmy SPSS a také metodika SEMMA firmy SAS. Pro účely této práce bude v následující podkapitole popsána metodika CRISP-DM.
4.3.1 Metodika CRISP-DM Metodika CRISP-DM (CRoss Industry Standard Process for Data Mining) patří k často používaným metodikám. „Vznikla v letech 1996 až 1999 jako projekt financovaný Evropskou komisí a není tedy majetkem žádné komerční společnosti. Naopak její popis lze volně získat na internetu. Autorem je konsorcium čtyř heterogenních společností – automobilka DaimlerChrysler (dříve Daimler-Benz), poskytovatel databází NCR, pojišťovací společnost OHRA a výrobce softwaru pro Predictive analytics SPSS.“ 19 Metodika definuje celý proces dolování dat jako průchod šesti fázemi s tím, že velký důraz klade na iterativnost celého procesu. Možnost vrátit se k jednotlivým předchozím fázím dává procesu velkou flexibilitu a schopnost optimalizace. Pro přesnost jsou v následujícím textu zachovány anglické názvy jednotlivých fází.
19
[Z002]
17
Jednotlivé fáze procesu a iterativnost dobře znázorňuje níže uvedený obrázek.
Obr. 3: Fáze metodiky CRISP-DM a jejich propojení [CRISP2000]
Business Understanding – fáze je zaměřena na porozumění cílům a požadavkům manažerů, které se transformují do zadání úlohy pro dolování dat. „V této fázi se rovněž provádí inventura zdrojů (datových, výpočetních i lidských), hodnotí se možná rizika, náklady a přínos metod KDD
20
a stanovuje se předběžný plán prací.“ 21
Data Understanding – „fáze porozumění datům začíná úvodním sběrem dat a pokračuje různými činnostmi směřujícími k bližšímu obeznámení se s nasbíranými informacemi, k rozpoznání problémů kvality dat, k prvnímu pochopení podstaty nebo odhalení zajímavých podmnožin dat ve snaze vytvořit hypotézy pro skrytou informační hodnotu dat.“ 22
20
[BER2003] Berka nazývá dolování dat Knowledge Discovery in Databases
21
[BER2003] str. 25
22
[CRISP2000]
str. 14, přeloženo z anglického originálu: „the data understanding phase starts with
an initial data collection and proceeds with activities in order to get familiar with the data, to identify data quality problems, to discover first insights into the data or to detect interesting subsets to form hypotheses for hidden information.“
18
Data Preparation – fáze přípravy dat je nejpracnější fází z celého procesu dolování dat, zahrnuje selekci, čištění, transformaci, vytváření, integraci a formátování dat. Tyto činnosti vedou k vytvoření finálního datového souboru, jenž je použit při modelování. Modeling – v této fázi jsou vybrány metody dolování dat nebo-li analytické modely, které budou použity k získání informací z připravených dat. Většinou existuje řada různých metod pro řešení dané úlohy, je tedy třeba vybrat tu nejvhodnější a nastavit její parametry. Často je nutné vrátit se k fázi přípravy dat a data modifikovat. Evaluation – ve fázi vyhodnocení je již nalezen model, který se zdá být kvalitní z pohledu analýzy dat. Dosažené výsledky je třeba také prozkoumat pohledem manažerů, kteří musí odsouhlasit, že byly splněny požadavky a cíle formulované v zadání úlohy. Deployment – informace získané z nového modelu mohou být použity jak k sepsání
závěrečné
zprávy,
tak
k
nasazení
modelu
do
operačního
systému
pro automatickou klasifikaci nových případů, což by mělo vést ke zlepšení obchodních výsledků. „Praktici v oboru uvádějí, že nejdůležitější je fáze porozumění problému (80 % významu, 20 % času) a časově nejnáročnější je fáze přípravy dat (80 % času, 20 % významu). Překvapivě málo času zaberou vlastní analýzy (5 % času, 5 % významu).“ 23
4.4 Vybrané metody dolování dat Výpočetním jádrem celého procesu dolování dat z databází je použití určitých pro danou úlohu specifických analytických metod. Každá úloha se může řešit pomocí několika metod, a to buďto tak, že se využije pouze jedna metoda nebo kombinace více metod, což je častější jev. Záleží na analytikovi, na jeho zkušenostech, jakou metodu použije. Metody se liší např. způsobem reprezentování hledaných vlastností, do jaké míry jsou nalezené znalosti srozumitelné pro uživatele, pro jaký typ dat jsou vhodné ad.
23
[BER2003] str. 28
19
Každá metoda v sobě obsahuje prvek učení, tzn. systémy se “učí“ používat danou metodu na testovacích datech, naučenému systému se pak předkládají nové případy a systém se sám rozhoduje. Mezi metody dolování dat patří klasické statistické metody (např. regresní analýza), metody z oblastí informace či umělé inteligence (např. neuronové sítě).
4.4.1 Statistické metody Statistické metody představují teoreticky dobře prozkoumané a z praxe ověřené výpočetní algoritmy pro analýzu dat. Pro dolování dat mají význam: Diskriminační analýza – metoda, která je vhodná ke klasifikaci pozorování do dvou nebo více skupin. Zvolený počet členění na skupiny závisí na předpokládaném cíli analýzy a na struktuře dat, která jsou k dispozici. Diskriminační analýza vysvětluje např. finanční situaci, respektive úroveň úvěrového rizika podniků v jakémkoli období. Regresní analýza – metoda, která se užívá „pro zjišťování funkční závislosti jedné numerické (spojité) veličiny na jiných numerických veličinách.“
24
Široce dostupná metoda
z regresní analýzy je logistická regrese, která se využívá v modelování prediktivních úloh Churn managementu. Shluková analýza – patří mezi metody učení bez učitele. Shluková analýza analyzuje, zda se množina objektů přirozeně rozpadá na výrazné podmnožiny (shluky) objektů si podobných a přitom nepodobných objektům podmnožin ostatních. Případně dále analyzuje, jestli existuje celá hierarchie takových rozkladů, pokud existují, tak čím jsou charakteristické. Nebo jak se případné další objekty zařadí do již definovaných shluků. Shlukovou analýzu je možno použít např. pro různé segmentace zákazníků. Z dalších metod mají význam ještě korelační analýza, analýza rozptylu, faktorová analýza či kontingenční tabulky.
24
[BER2003] str. 46
20
4.4.2 Metody umělé inteligence, nestatistické metody Neuronové sítě – vycházejí z analogie s lidským mozkem. Podobně jako mozek jsou tvořeny množstvím navzájem propojených elementů; neuronů. V umělých neuronových sítích je neuron chápán jako buňka, která přijímá podněty od jiných neuronů, které jsou k ní připojeny „na vstupu“. Pokud souhrnně účinek těchto vstupních podnětů překročí určitý práh, neuron se aktivuje a sám začne svým výstupem působit na další neurony. Důležitá vlastnost z hlediska dolování dat je schopnost těchto modelů učit se z příkladů. V neuronové síti jsou znalosti „rozprostřeny“ v podobě vah jednotlivých vazeb mezi neurony. „Jednou z výhod neuronové sítě je její schopnost vystihnout v datech nelineární vztahy. Nevýhodou je zase například tendence neuronové sítě přizpůsobovat si data příliš, čímž model při aplikaci na nová data rychleji zastarává.“ 25 Neuronové sítě se nejčastěji využívají pro nacházení podobností a vzorů a tvorbu prediktivních modelů. Výsledky se však často těžko interpretují. Rozhodovací stromy – prediktivní model zobrazující data v podobě stromu. Popis modelu pomocí rozhodovacího stromu je řadou jednoduchých pravidel. Na vrcholu stromu stojí nadřazená všeobecná množina (např. zákazníci, kteří chtějí odejít od společnosti), která se poté dělí do množin dle určitého kritéria (např. pohlaví - ženy, muži). Tyto množiny se dále dělí do podmnožin opět dle dalšího kritéria (příjem – do 20000, nad 20000), a to tak, že předešlé množiny jsou jim nadřazené. Jak z textu vyplývá, data v jednotlivých množinách se vyznačují stejnými vlastnostmi. Nespornou výhodou rozhodovacích stromů je jejich schopnost vysvětlit výsledky Genetické algoritmy – patří mezi evoluční algoritmy, tedy výpočty (mechanismy, modely) založené na evolučním procesu v přírodě, tzn. pomocí párování, mutací a klonování, ve kterém DNA představují 0 a 1, se z původních modelů vyvíjí čím dál tím vhodnější model pro zadanou úlohu. Původní modely, které stály na začátku evoluce mohou být řešeny různými technikami dolování dat.
25
[RUD2001] str. 14
21
Tato technika vyžaduje výkonově náročné počítačové zpracování, což není v dnešní době, kdy výkonnost počítačů stále roste žádný problém. Proto si také tato metoda získává čím dál větší popularitu.
4.5 Data pro dolování a jejich zdroje Kvalitní data jsou jedním ze základů pro vyřešení úlohy dolování dat, s nimi souvisí také kvalita zdrojů. Dalším ze základů je porozumění trhu a vlastním cílům. Všeobecně platí, že model je tak kvalitní a relevantní dle toho, jaká jsou jeho zdrojová data.
4.5.1 Data Olivia Parr Rud ve své knize [RUD2001] dělí data na demografická, behaviorální a psychografická. Demografická data popisují charakteristiky osob a domácností, patří mezi ně např. pohlaví, věk, rodinný stav, příjem ad. Tento typ dat je velmi stabilní, což je vhodné pro prediktivní modely. Nevýhodu lze spatřovat v tom, že je obtížné získat přesná data pro jednotlivce. Behaviorální data vyjadřují míru akce nebo chování, řadí se k nim např. prodaná množství, typy nákupů, výše plateb ad. Behaviorální data mají nejlepší prediktivní sílu, té však odpovídá i jejich cena, pokud jsou získávána z externích zdrojů. Psychografická data jsou charakterizována názory, životním stylem či osobními hodnotami. Mají střední schopnost predikce, jsou např. užitečná při určování životního stupně zákazníka. Jejich největší nevýhoda je spatřována v tom, „že vyjadřují zamýšlené chování, které může vysoce, částečně nebo jen okrajově korelovat se skutečným chováním.“ 26
26
[RUD2001] str. 20
22
4.5.2 Jak vybrat správná data? Dat může mít každá společnost velké množství, ale jak vybrat vhodná data nebo-li vytvořit datovou sadu pro cílený model? Data pro modely získávání nových zákazníků či pro zákaznické modely jako je křížový prodej nebo udržení si zákazníka lze snadno získat z dřívějších kampaní. Výjimku tvoří data pro modely rizika jaké představuje kreditní riziko či pojišťovací riziko, tato data se získávají velmi těžko, „jelikož pro účinnost modelu je nutno je podepřít údaji z několika let, díky čemuž se těžko ověřují.“ 27 Vytvoření datových sad pro modelování má řadu specifik. Především je to určení velikosti datové sady, dle [RUD2001] na tuto otázku neexistuje přesná odpověď. Její velikost závisí na mnoha faktorech jako je např. počet proměnných použitých v modelu, jejich predikční schopnosti ad. Dalším specifikem je vybrání vhodného vzorku dat. Pokud není k dispozici relevantní množství určitého typu zákazníků, lze si pomoci přiřazením vah tak, aby byl zachován správný poměr. Datovou sadu lze vytvořit také z již modelovaných dat. V tomto případě se vyskytuje problém, pokud dostupný vzorek reprezentuje méně něž 80 % celkového počtu všech pro model požadovaných vzorků.. Problém lze řešit např. výběrem náhodných vzorků, kdy výsledný model nebude optimální, ale může přinést zlepšené zacílení.
4.5.3 Zdroje Ke zdrojům dat lze zařadit interní zdroje, jakými jsou zákaznická databáze, OLTP, databáze historie nabídek, datový sklad a externí zdroje. Existuje mnoho důvodů pro úzkou návaznost datového sklad a dolování dat. Nejdůležitějším důvodem je kvalita vstupních dat pro dolování. Sebedokonalejší modelovací metoda či analýza nepřinesou očekávaný výsledek, pokud nejsou vstupní data očištěna od chyb, zkontrolována úplnost všech požadovaných údajů a sjednoceny formáty z různých systémů. Procesní charakter dolování dat vyžaduje, aby se jako vstup dolování
27
[RUD2001] str. 32
23
dat používala průběžně aktualizována data. Všem těmto požadavkům vyhovuje datový sklad.
4.6 Technologie Technologie pro dolování dat pokrývají celý proces (od předzpracování až po interpretaci), nabízejí více algoritmů pro analýzu a kladou důraz na vizualizaci jak ve způsobu práce se systémem, tak i při interpretaci výsledků. V následující tabulce je uveden přehled využívaných nástrojů v ČR v abecedním řazení:
Název produktu nebo skupiny produktů Clementine
Výrobce SPSS
Vybrané kladné stránky - grafické prostředí - použité algoritmy
Intelligent Miner
IBM
- skórování integrované s databází - PMML
Enterprise Miner
SAS
- tradiční produkt - silná a efektivní syntaxe, příprava dat - široké portfolio produktů, např. statistika
Knowledge Studio
Angoss
- rychlé rozhodovací stromy
SPSS Base + Moduly,
SPSS
- poměr cena/výkon
Answer Tree, Decision
- rozšířenost pro statistické analýzy
Time Statistica
Statsoft
- integrace s Windows - kvalitní neuron. sítě
Další
Weka (freeware, univerzity), MARS (regrese, hledání závislosti), Oracle, MS SQL server (pilotní projekty) a další Tab. 1: Vybrané nástroje dolování dat [Z013]
24
Úspěšné nasazení technologie dolování dat by mělo splňovat následující podmínky: kvalitní vstupní data, spolupráce IT a uživatelů, softwarové nástroje urychlující vývoj modelů a porovnání více technik dolování dat, propracovaná metodika implementace procesů dolování dat a řízení projektů dolování dat. Dolování dat vnáší do podnikání společností přidanou hodnotu ve formě predikce chování zákazníků nebo segmentace zákazníků či analýzy rizik. Z těchto úloh může společnost vytěžit cenné informace a díky nim změnit zavedené procesy a upravit cíle či strategie společnosti. „Přestože dolování dat je analytickou a metodickou výzvou pro mnohé, v komerčních organizacích je jeho praktické a úspěšné nasazení podmíněno nikoli analytickou, ale obchodní vizí.“ 28
28
[Z013]
25
5 Aplikace BI v telekomunikačním sektoru Následující
kapitola
nastiňuje
problematiku
důvodů
zavedení
BI
v telekomunikačním sektoru. Diskutuje oblasti, které by BI řešení v telekomunikační společnosti mělo podporovat a analyzovat. Stručně seznamuje s řešením Customer Intelligence, které představuje BI řešení orientované na zákazníka. Tato kapitola vychází především z disertační práce D. Slánského [SLA2004].
5.1 Důvody zavedení BI v telekomunikačním sektoru Důvody zavedení BI v telekomunikační společnosti logicky vychází ze současné situace na trhu telekomunikačního sektoru, kde v současnosti dochází k deregulaci, globalizaci, konvergenci služeb, technologické inovace a zvyšování konkurenčního tlaku (viz kapitola 3.2). Těmto změnám se musí přizpůsobovat firemní strategie, obchodní požadavky, vnitřní procesy společnosti, ad. Každý operátor musí hledat skryté rezervy, aby maximalizovat svůj zisk. Skryté rezervy může objevit, když se zaměří na zákazníky, na optimalizaci firemních procesů a tím i na snížení nákladů a zvýšení výnosů. K tomu, aby společnost mohla využít skryté rezervy, musí míst k dispozici relevantní informace a ty může získat na základě kvalitních dat. Jelikož však telekomunikační operátoři disponují nadměrným množstvím dat (např. největší český telekomunikační operátor má 5 miliónů zákazníků využívajících mobilních služeb, což teoreticky znamená minimálně 5 miliónů záznamů), která jsou uložena v různých zdrojových systémech, potřebují technologii, jenž by data sjednotila a následně z nich vytěžila potřebné informace. Z definice BI (viz kapitola 2.1) vyplývá, že vyhovuje všem těmto požadavkům, tzn. při správném použití nástrojů BI, může telekomunikační operátor získat výhodu na trhu telekomunikačního sektoru a tím maximalizovat svůj zisk.
26
5.2 Oblasti aplikace BI řešení v telekomunikačním sektoru Oblasti aplikace BI jsou podmíněny důvody zavedení BI v telekomunikačním sektoru. Jestliže chce společnost znát oblasti, které by měly být analyzovány a podporovány pomocí BI nebo-li chce-li společnost zavést BI do řízení společnosti, musí mít nastaveny procesy provozu uvnitř společnosti. Tyto procesy vytváří základ pro oblasti aplikace BI. Každá společnost má nastavený určitý procesní model, „jedním z nejpropracovanějších procesních modelů telekomunikačního operátora je model sdružení Telemanagement Forum25“
29
, který je v současnosti znám pod zkratkou eTOM nebo-li
enhanced Telecom Operations Map 30 . „eTOM představuje rámec obchodních procesů, tzn. vztažný rámec nebo model pro kategorizaci všech obchodních aktivit, který poskytovatel služby použije. NENÍ to obchodní model poskytovatele služby. Jinak řečeno, nezabývá se strategickými otázkami ani neodpovídá na to, kdo by měli být cíloví zákazníci poskytovatele služby, jakým tržním segmentům sloužit, co je vizí, posláním atd. poskytovatele služby. Rámec obchodních procesů je pouze částí strategického obchodního modelu a nástrojem plánování pro poskytovatele služby.” 31
29 30
[SLA2004] str. 184 enhanced Telecom Operations Map, do českého jazyka se překládá jako Rozšířená mapa procesů
telekomunikačního operátora 31
[ETOM2005] str. 14, přeloženo z anglického originálu: „The eTOM is business process framework, i.e. a
reference framework or model for categorizing all the business activities that a service provider will use. It is NOT a service provider business model. In other words, it does not address the strategic issues or questions of who the service provider´s target customers should be, what market segments should the service provider serve, what are a service provider´s vision, mission, etc. A business process framework is one part of the strategic business model and plan for service provider.“
27
Procesy a jejich vazby popsané v eTOM znázorňuje následující obrázek:
Obr. 4: Procesy a jejich vazby v telekomunikační společnosti dle eTOM [SLA2004]
Na oblasti aplikace BI řešení v telekomunikační společnosti působí externí (vlivy externího trhu, technologické trendy) a interní vlivy (firemní strategie, obchodní požadavky, interní technologická omezení, standardy), jež určují jeho další působení a podobu jeho rozvoje. Interní vlivy jsou pro každou společnost specifické, což by znamenalo specializovat se na konkrétní společnost, což není cílem ani smyslem této práce, tudíž dále bude od nich upuštěno. Aby společnost mohla být úspěšně řízena (aby dosáhla maximálního zisku), tzn. její vnitřní procesy správně reagovaly na externí vlivy, musí se soustředit na několik kritických faktorů úspěchu řízení společnosti a na ně orientovat zavedení BI řešení. Kritické faktory úspěchu jsou následující: zvýšení výnosů (snížení nákladů), zvýšení loajality zákaznické báze a zvýšení efektivity firemních procesů.
28
„zvýšení výnosů zahrnuje: o vyšší vytěžení stávající zákaznické báze, což představuje: -
podporu zvyšování spotřeby současných produktů / služeb
-
tvorbu nových produktů / služeb a jejich efektivní cílení na relevantní segmenty zákazníků
-
identifikaci neprofitabilních zákazníků a nastavení procesu jejich vyřazení
o zvyšování efektivity prodejních kanálů, zvýšení loajality zákaznické báze zahrnuje: o identifikaci profitabilních zákazníků a podporu jejich loajality, tj.: -
zvyšování kvality péče o zákazníky
-
nastavení procesu pro uchování profitabilních zákazníků, kteří chtějí operátora opustit,
o identifikaci nechtěných zákazníků a tvorbu plánu jejich odchodu, o implementaci systému SLA pro zvýšení loajality zákazníků, zvýšení efektivity firemních procesů zahrnuje: o maximalizaci efektivity distribučních kanálů, o zvýšení efektivity - optimalizaci - stávající přenosové sítě, o optimalizaci provozu kontaktních center, o zvyšování efektivity procesu zapojení služeb (order to use / provisioning), o další oblasti zajištění příjmů – Revenue Assurance o a v neposlední řadě zvyšování efektivity podnikové informatiky“ 32 Poslední z ovlivňujících činitelů zavedení BI řešení, které však vycházejí z celkové úspěšnosti telekomunikační společnosti jsou následující: „o počet zákazníků o ARPU / AMPU – průměrný výnos na zákazníka se používal v posledních letech; v dnešní době se začíná používat druhý ukazatel – průměrný zisk na zákazníka o Churn rate – procento zákazníků, které operátor ztrácí
32
[SLA2004] str. 187 – 188
29
o OPEX - operační náklady operátora“ 33 Na základě podrobnější analýzy výše popsaného lze zjistit typické oblasti, které musí pomocí analytických nástrojů BI telekomunikační operátor řídit: „o jednotný pohled na zákazníka, jeho služby a jeho chování, o správa marketingových kampaní, o segmentace zákazníků, analýza a naplnění hodnot derivovaných vlastností zákazníka: -
ARPU
-
AMPU
-
churn rate
-
fraud risk
-
Lifetime Value
a další o optimalizace firemních zdrojů – sítě, call center, distribučních kanálů, atd. o Revenue Assurance“
34
Kombinací procesního modelu, faktorů úspěchu a jednotlivých navrhovaných řešení aplikace BI lze získat následující model (viz obrázek 5). Ten ukazuje procesy, na které by se měl telekomunikační operátor nejvíce soustředit, tedy je podporovat a analyzovat pomocí nástrojů BI. Jsou jimi operativní procesy fulfillment (neboli proces získávání zákazníků a zavádění jejich služeb), operations support & readiness (neboli podpora klíčových operativních procesů). Neméně významným procesem, co se týče podpory ze strany BI je také strategický proces product lifecycle management, který se zabývá definicí, plánováním, návrhem a implementací veškerých produktů a služeb z portfolia společnosti.
33
[SLA2004] str. 192
34
[SLA2004] str. 193
30
Obr. 5: Mapování řešení a faktorů úspěšnosti na procesní model eTOM [SLA2004]
5.3 Customer Intelligence Pokud se spojí BI se zákaznicky orientovaným přístupem společnosti vznikne Customer Intelligence, což volně přeloženo znamená inteligentní přístup k zákazníkovi. „Inteligentní přístup k zákazníkovi spočívá v podstatě v poznání zákazníka a nastavení příslušných obslužných procesů organizace tak, aby k zákazníkovi přistupovala v té podobě, která nejlépe umožní splnit cíle organizace.“
35
35
[Z010]
31
Primárně se tedy orientuje na shromažďování a analýzy dat z interakcí se zákazníkem a využívá přitom procesy a zdroje, které jsou součástí CRM (záznamy z obchodních kontaktů, dokumentace kontaktních center apod.) Customer Intelligence lze také definovat jako komplex aplikací zaměřených na poznání zákazníka, tudíž zahrnuje všechny uvedené oblasti spojené se zákazníkem, které musí BI nástroje v telekomunikační společnosti podporovat. Obecně lze tyto oblasti rozdělit na: 1. Segmentace zákazníků – sem patří např. identifikace neprofitabilních zákazníků, s čímž souvisí nastavení procesu jejich vyřazení; identifikace profitabilních zákazníků a podpora jejich loajality; identifikace zákazníků a domácností; roztřídění dle věkové kategorie, dle pohlaví; ad. 2. Analýzy marketingových kampaní – využití při cíleném marketingu; řízení marketingových kampaní; podpora návrhů výrobků a služeb; podpora věrnostních programů; ad. 3. Predikce
chování
zákazníků
–
pravděpodobnost
odchodu
zákazníka
od společnosti; pravděpodobnost rizika, že zákazník provede určitý podvod; pravděpodobnost koupě určitého výrobku; ad. Customer Intelligence plně splňuje požadavek na zaměření se na dva kritické faktory úspěchu telekomunikačního operátora, a to na zvýšení výnosů a zvýšení loajality zákaznické báze. Faktor úspěchu zvýšení výnosů může být pomocí Customer Intelligence podporován pomocí např. modelů “prosperity-to-buy“, což jsou modely, které odhadují pravděpodobnost, že si zákazník koupí určitý výrobek či službu. Další zvýšení výnosů přinese “cross-sell“ nebo “up-sell“ nebo-li prodej jiného výrobku či většího množství stejného výrobku / služby. Zvýšení loajality zákaznické báze lze uskutečnit pomocí cílené marketingové kampaně či dohodou o poskytování služeb (při nedodržení kvality jsou zákazníkovi poskytovány slevy – např. využití určitých služeb zdarma).
32
5.3.1 Architektura a komponenty řešení Customer Intelligence Architektura a komponenty řešení Customer Intelligence vyplývá z požadavků operátora na informace spojené se zákazníkem. Společnost, která se chce orientovat na zákazníka, a tou telekomunikační operátor beze sporu je, potřebuje mít všechna dostupná data související se zákazníkem (např. identifikační údaje, adresní údaje, informace o chování zákazníka, „celoživotní“ hodnota pro organizaci - Customer Lifecycle Value) uložena na jednom místě. Tuto potřebu naplňuje datový sklad, do kterého jsou data ukládána v časových intervalech. Ukládání dat v datovém skladu ale nevyhovuje při operativním řízení, kdy např. pracovníci call center nebo pracovníci na prodejnách potřebují pracovat s reálnými daty tak, aby mohli reagovat dle skutečných potřeb zákazníků. Tyto požadavky splňuje operativní úložiště dat, v souvislosti s Customer Intelligence je nazýváno Master Custommer Database. „V rámci této databáze jsou do jednoho místa integrována veškerá dostupná zákaznická data a to nejenom na úrovni transakčních dat, ale také na úrovni dat analytických a odvozených.“ 36 Centrálně uložená data přinášejí společnosti dle [Z010], následující výhody: lepší podporu v rozhodování, rychlejší získání informací, zvýšenou produktivitu business jednotek organizace, splnění regulatorních požadavků a zvýšenou produktivitu podpůrných jednotek. Součástí řešení může být i katalog produktů a služeb společnosti.
36
[Z010]
33
Obr. 6: Hlavní komponenty Customer Intelligence a jejich vazby [Z009]
Existuje mnoho různých architektur celkového řešení BI, každá má své specifické využití, které je dáno potřebami uživatelů nástrojů BI z řad obchodních oddělení organizace. Dle
vlivů,
které
působí
na
telekomunikačního
operátora,
vyplývá,
že
telekomunikační operátoři by se měli zaměřit na řešení „pro podporu zákaznicky orientovaných procesů, avšak současně by vzhledem ke stavu trhu neměli opomíjet možnost snižování provozních nákladů optimalizací všech firemních zdrojů.“ 37 Zabudováním řešení Customer Intelligence do technologické struktury BI řešení, získá telekomunikační operátor dokonalý přehled o svých zákaznících, čímž splní požadavek podpory orientace na zákazníky a vytěží z dat o zákaznících nespornou konkurenční výhodu.
37
[SLA2004] str. 195
34
6
Aplikace
BI
v
telekomunikačním
sektoru
se zaměřením na Churn management Poslední kapitola před závěrem práce se zabývá samotným Churn managementem. Vymezuje pojem Churn management, zasazuje Churn management do prostředí telekomunikační společnosti a identifikuje BI řešení, které podporuje Churn management. Kapitola se také věnuje životnímu cyklu zákazníka, a to kvůli pochopení postavení churnu v partnerství mezi zákazníkem a společností. V závěru kapitoly je ukázána aplikace metodiky CRISP-DM při sestavování prediktivního modelu pro Churn management.
6.1 Churn management Na zákazníka působí nabídky konkurenčních společností ze všech stran. Stačí jen nespokojenost se stávající službou nebo špatně vyřízená reklamace a zákazník si může zvolit mezi ostatními společnostmi, které nabízejí podobné služby a možná i výhodněji a s lepším přístupem k zákazníkovi. Jelikož však přechod ke konkurenci stojí zákazníka čas, tedy peníze, nebývá v praxi odchod zákazníka spojen pouze s jedním důvodem, ale s kombinací několik důvodů. Společnost by mohla nechat zákazníky odejít, to by však získání nového zákazníka nesmělo být daleko dražší než udržet si stávajícího. Odchod zákazníka je také signálem pro ostatní zákazníky, ztráta zákazníka se negativně dotýká image společnosti. Proto by se společnost raději měla zaměřit na stávající zákazníky a zabránit jejich odchodu. Problematikou prevence odchodu zákazníka nebo-li zjištění, kteří zákazníci chtějí od společnosti odejít se v telekomunikačním sektoru zabývá Churn management (např. ve finančním sektoru je to attrition management). Základním nástrojem Churn managementu je dolování dat. Churn management je tedy řízení odhalování rizika odchodu zákazníka ke konkurenci,
pomocí
netriviálního
dobývání
skrytých,
předem
neznámých
a potencionálně užitečných informací z dat. Churn často bývá zaměňován s retencí zákazníka, tyto pojmy však nevyjadřují to samé. Retence (uchování, udržení) zákazníka je širší pojem, stojí za ním všechny aktivity, 35
které mají zabránit zákazníkovi odejít od společnosti. Churn představuje odchod zákazníka od společnosti, tak jak ho znázorňuje životní cyklus zákazníka ve společnosti (viz kapitola 6.2).
6.1.1 Postavení Churn managementu v telekomunikační společnosti Churn management by měl být identifikován jako jeden ze strategických cílů telekomunikační společnosti. Proto by měl být řízen a kontrolován nejvyšším managementem. K dokonalosti v této oblasti vede pouze a jedině kvalita a konzistence různých činností a částí společnosti. Aby měla společnost věrné zákazníky, musí splnit některé základní předpoklady jako jsou: zajištění kvalitních produktů a služeb, které jsou srovnatelné s tržním průměrem, poskytovat tyto produkty a služby za relevantní cenu a v neposlední řadě nabídnout k produktům a službám adekvátní kvalitu a podporu. Postavení Churn managementu v telekomunikační společnosti lze zjistit z nastavených procesů operátora, tedy dle procesního modelu eTOM. Důsledkem výše popsaného je, že Churn management by měl být součástí strategického řízení, které se orientuje na produkt, tomuto vymezení vyhovuje obchodní proces Product lifecycle management. Tento proces se zabývá hlavně definicí, plánováním, návrhem a implementací veškerých produktů a služeb z portfolia společnosti. Je úzce spjat nejen s vývojem produktů, ale i s veškerými marketingovými aktivitami společnosti. Z dalších oblastí řízení, do kterých Churn management dle [ETOM2005] výrazně zasahuje a vzájemně se s procesy z této oblasti ovlivňuje, je Customer relationship management. „CRM zahrnuje soubor informací o zákazníkovi a jejich použití k personalizaci, přizpůsobení se konkrétnímu zákazníku a vytvoření ucelené nabídky dodávky služby zákazníku, stejně jako k hledání možností, jak hodnotu zákazníka pro podnik zvyšovat.“ 38
38
[ETOM2005] str. 31, přeloženo z anglického originálu: „CRM also includes the collection of customer
information and its application to personalize, customize and integrate delivery of service to a customer, as well as to identify opporutnities for increasing the value of the customer to the enterprise.“
36
Fulfillment procesy potom představují konkrétní procesy z oblasti CRM, které působí na Churn management, jak vyplývá z kapitoly 5.2
6.1.2 BI řešení podporující Churn management BI řešení podporující Churn management by se mělo orientovat na obchodní proces Product lifecycle management a fulfillment proces z oblasti CRM. Tyto dva procesy podporuje řešení Customer Intelligencce (viz kapitola 5.3), proto je také vhodným řešením pro Churn management. Každá oblast dolování dat potřebuje analyzovat různá data, což je i případ Churn managementu. Analýzy nejsou prováděny
přímo v datovém skladu, ale
ve specializovaných datových tržištích, kam se z datového skladu přesunou data relevantní pro určitý typ analýzy. K výběru relevantních dat z datového skladu se používají metadata, zachycující informace o datech. „Data Mining se typicky realizuje na serveru, který je oddělený od datového skladu nebo jiných informačních systémů společnosti. Některé společnosti dokonce vytvářejí modely na počítačích PC s využitím vzorkování dat.“ 39
6.2 Životní cyklus zákazníka Odchod zákazníka od společnosti je jednou z etap životního cyklu zákazníka ve vztahu ke společnosti (z anglického Customer Life Cycle). Životní cyklus zákazníka je založen na obchodních vztazích mezi společností a zákazníkem, má dopad na tvorbu hodnoty zákazníka a na firemní procesy. V [BER2004] rozlišuje 5 fází životního cyklu zákazníka. Jsou jimi: Prospects – lidé na cílovém trhu, kteří ještě nejsou zákazníky společnosti. Responders – lidé na cílovém trhu, kteří ještě nejsou zákazníky společnosti, ale již projevili určitým způsobem (např. vyplnění dotazníku či zaregistrování se na internetových stránkách společnosti) zájem o služby a produkty společnosti. 39
[NOV2005]
37
New customers – lidé na cílovém trhu, kteří provedli první nákup či podepsali smlouvu nebo se zaregistrovali na internetových stránkách společnosti a vyplnili osobní údaje. Established customers – noví zákazníci, kteří se ke společnosti vracejí a se kterými jsou vztahy rozšiřovány a prohlubovány. Former customers – zákazníci, kteří odešli od společnosti. Dělí se na dobrovolně odcházející (přešli ke konkurenci nebo již neviděli výhodnost služby), odcházející z donucení (neplatili účty) a na očekávané odcházející (nejsou již dlouho na cílovém trhu nebo se odstěhovali z místa cílového trhu). Zákazník z jedné etapy do druhé přechází samozřejmě svým přičiněním, ale to je z větší míry ovlivněno působením společnosti, jejími obchodními procesy. Vztah mezi životním cyklem a obchodními procesy udává následující obrázek.
Obr. 7: Vztah mezi životním cyklem zákazníka a obchodními procesy společnosti [BER2004]
6.2.1 Ohodnocení zákazníka Z poslední fáze obchodních procesů (viz obr. 7), kterou [BER2004] označuje jako Retention, lze zjistit, na které zákazníky se společnost bude orientovat, aby zabránila jejich odchodu. Jsou to zákazníci s vysokou hodnotou, kteří dobrovolně odchází (High Value, Voluntary Churn). Zákazníků s nízkou hodnotou např. ti, kteří mají problémy se zaplacením účtu, se společnost naopak bude chtít zbavit (Low value, Forced Churn). 38
Jak společnost určí vysokou či nízkou hodnotu zákazníka? Jednou z možností je Customer LifeTime Value nebo-li hodnota po dobu existence zákazníka u společnosti. „Rozdílem všech výnosů a nákladů na obsluhu vypočtete hodnotu zákazníka (v literatuře označovaná jako Lifetime Value - VLT). Při výpočtu je nutné zohlednit také budoucí výnosy, které musí vycházet z odhadu délky obchodního vztahu násobeného objemem předpokládaných objednávek. Vycházet lze z nákupního chování zákazníka v minulosti. Značnou roli při výpočtech hraje způsob zaznamenávání údajů do databází a metodika vyhodnocení historických dat.” 40 Další z možností je určení ukazatele ROI (Return on Investment, návratnost investic) nebo profitability zákazníka.
6.2.2 Věrnost zákazníka Věrnost nebo také loajalita zákazníka je dalším dalo by se říci faktorem, který ovlivňuje jeho odchod od společnosti. Věrný zákazník je důležitý pro přežití každé firmy. Je nadšen produkty nebo službami a díky tomu se cítí se společností spojen. Navíc šíří ústní reklamu a získává tak nové zákazníky. Čím déle si firma udrží ziskového zákazníka (zákazníka s vysokou hodnotou po dobu existence), tím více z něj profituje. Nejvyšší metou proto musí být neztratit žádného takového zákazníka. Vysoká loajalita zákazníků ve spojení s nízkým počtem odchodů ke konkurenci zajišťují trvalý obchodní úspěch společnosti.
6.3 Churn modely Existují dva přístupy jak lze modelovat odchod zákazníka od společnosti. Prvním z nich je odhad doby, kterou zákazník celkově u společnosti stráví, tento přístup se nazývá Survival analysis nebo-li analýza přežití. Druhým přístupem jak modelovat zákazníkův 40
[Z004]
39
odchod, je určit kdo od společnosti s nejvyšší pravděpodobností odejde, tento model [BER2004] nazývá Binary outcome churn model.
6.3.1 Survival analysis Survival analysis je méně používanou metodou modelování, co se týče predikce odchodu zákazníka. Jádro metody spočívá v tom, že se předpovídá doba, po kterou bude člověk zákazníkem společnosti. Metoda vychází z tzv. retenční křivky, která znázorňuje závislost „přeživší“ zákazníků na času, jež se začíná měřit od té doby, kdy se člověk stane zákazníkem společnosti.
Obr. 8: Retenční křivka [BER2004]
Oblast pod křivkou odhaduje průměrnou hodnotu života zákazníka u společnosti prvních x let vztahu zákazníka a společnosti. Analýza přežití poskytuje více informací o očekávaném odchodu zákazníka. Může být dobrou základnou pro určení skóre loajálnosti zákazníka, a to v tom smyslu, že zákazník, který déle setrvá u společnosti, bude mít i lepší skóre loajálnosti. Tomuto zákazníku se potom určitě vyplatí věnovat.
40
6.3.2 Binary outcome churn model Tento způsob modelování vymezuje skupinu odcházejících zákazníků, kteří odejdou v krátkém časovém horizontu, většinou 60 – 90 dní. Kratší období by nebylo možné aplikovat – nelze předpovědět, kdo odejde zítra, to samé platí i o delším časovém horizontu – za 100 let odejdou všichni. Technikou modelování může být logistická regrese, rozhodovací stromy nebo neuronové sítě. Zákazník se ohodnotí dle skóre, které udává, zda v průběhu 60 – 90 dní odejde od společnosti. Skóre je mixem různých hodnot jako jsou např. hodnoty vytěžené z informací, které známe o zákazníkovi z doby, kdy se stal zákazníkem společnosti nebo informace získané z partnerství zákazníka a společnosti jako jsou pozdní platby, problémy se službami nebo neočekávaně vysoké účty. Skóre tedy čerpá hodnoty z historických dat. Prediktivní model může pomoci při získávání nových zákazníků, a to tak, že se společnost vyhne těm lidem, kteří inklinují k odchodu od společnosti. Nebo může zredukovat riziko odchodu u stávajících zákazníků cílenou retenční kampaní.
6.3.3 Logika sestavení churn modelu
Obr. 9: Logika při postupu vytvoření churn modelu [BER2004]
41
6.4 Aplikace metodiky CRISP-DM v rámci
Churn
managementu Následující kapitola by měla ukázat aplikaci metodiky CRISP-DM při identifikaci zákazníků, kteří chtějí od telekomunikační společnosti odejít. V kapitole jsou popsány všechny fáze metodiky CRISP-DM. Jelikož konkrétní řešení představuje firemní knowhow, které každá společnost drží v tajnosti, budu muset postupovat v obecné rovině. Přičemž se budu snažit alespoň nastínit specifika řešení pro zákazníky využívající předplacených mobilních telekomunikačních služeb tzv. Prepaid (dále jen Prepaidzákazník). Na tomto principu fungují předplacené karty – např. Twist karta. Aplikaci metodiky CRISP-DM při vytváření prediktivního modelu znázorňuje níže uvedený obrázek.
Obr. 10: Nasazení metodiky CRISP-DM na prevenci odchodu zákazníků [Z005]
42
6.6.1 Business Understanding V první fázi metodiky CRISP-DM jsou stanoveny požadavky a cíle manažerů na prediktivní model, ze kterých je formulováno zadání úlohy pro dolování dat. Dále se určují kritéria úspěchu, která musí vycházet z obchodních požadavků a cílů a musí být snadno měřitelná. Kritéria úspěchu je nutno definovat i pro výsledný prediktivní model. Dalšími kroky, které je potřeba podniknout, jsou: -
inventura zdrojů (datových, výpočetních a lidských);
-
posouzení rizik, která mohou ovlivnit výsledek;
-
porovnání nákladů a přínosů celého procesu dolování dat;
-
výběr techniky a nástrojů, které se pro vytvoření modelu použijí;
-
sestavení plánu celého procesu dolování dat. V této fázi nelze opomenout určit v jaké formě bude výsledek modelu dodán.
Pro některé případy stačí prezentovat výsledek modelu pomocí tabulek a grafů. Pro další případy, zejména pro analýzu dat o zákaznících, je výsledek modelu (v tomto případě výsledný model) nasazen jako počítačový program, který na pravidelné bázi analyzuje zákaznická data. Pokud se první fáze metodiky CRISP-DM aplikuje v rámci Churn managementu, je již ze začátku jasné, že výsledný model bude vypovídat o odcházejících zákaznících. A že obchodní požadavky a cíle manažerů mohou být shrnuty do jednoho cíle a tím je snížení churnu. V případě Prepaid-zákazníků by se jednalo o formulaci: snížení počtu odcházejících Prepaid-zákazníků. Kritériem úspěchu pak může být zvolena např. redukce churnu Prepaid-zákazníků na určitou úroveň. Formulace úlohy pro dolování dat se vymezuje na základě obchodních požadavků a cílů. Jelikož společnost chce předpovědět odchod zákazníka, bude zvoleným typem úlohy úloha prediktivní (viz kapitola 4.2) a k jejímu vyřešení lze použít logistickou regresi, rozhodovací stromy či neuronové sítě. Formulace úlohy pak může být následující: identifikujte Prepaid-zákazníky, u kterých je vysoká pravděpodobnost
odchodu
od společnosti v následujících x měsících. Kritériem úspěchu může být např. přesnost predikce.
43
6.6.2 Data Understanding Fáze porozumění datům představuje etapu, ve které se vybírají data, která by mohla být vhodná pro sestavení modelu na základě definovaného cíle. Výběr dat se odvíjí od požadavků a cílů vymezených v předchozí fázi. Proto musí být specifikováno: koho společnost považuje za zákazníka; co společnost pokládá za churn, tzn. jak se chová zákazník, který chce odejít od společnosti – méně volá, ruší služby, nevyužívá služby, byly u něj zaznamenány pozdní platby za služby, apod.; jaké časové období má být zkoumáno; má se společnost zaměřit pouze na ziskové zákazníky ad. Záleží vždy na tom, jaké okolnosti dle společnosti ovlivňují zákazníkův odchod a za jaké časové období je chce měřit. Prepaid-zákazníka představuje pro telekomunikační společnost aktivní SIM karta, proto by churn mohl být definován jako x měsíční nečinnost SIM karty. Data, která by mohla identifikovat churn, by mohla být např.: zákazníkovi platby za služby, počet dobití SIM karty, počet hovorů v minutách za x měsíců, počet sms, trendy hovorů (zda stoupá či klesá počet hovorů), počet stížností na služby operátora, délka vztahu zákazníka a společnosti, demografická data o zákazníkovi ad. Ve spojitosti s časovým obdobím se v této fázi vymezuje tzv. predikční okno nebo také predikční mezera, která definuje “zpoždění“ použití modelu. Predikční okno se určuje dle [BER2004] z toho důvodu, že prediktivní úlohy hledají zákonitosti v minulosti, které předpovídají budoucí události. Data, která jsou v systémech zachycována v přítomnosti např. v jednom měsíci, budou pro predikci k dispozici až měsíc příští. Tento jeden měsíc “v přítomnosti“ vytváří uvedené predikční okno. Zvolení optimálního predikčního okna, záleží na správné obchodní úvaze a zkušenostech.
6.6.3 Data Preparation V této fázi jsou vybrána data, ze kterých vznikne prediktivní model. Data jsou následně očištěna, transformována, integrována a formátována. Mohou být také vytvořena odvozená data např. kvůli zachycení informací neobsažených v datech původních. Po všech úpravách dat je vytvořeno datové tržiště (datamart), což je hlavní úkol fáze přípravy dat.
44
„Datamart je datová matice, jejíchž řádky tvoří záznamy jednotlivých zákazníků. Sloupce popisující zákazníky dle atributů, které jsou vhodné pro vytváření modelů (demografická data, behaviorální data, informace o odchodu, hodnota zákazníka a další).“ 41 Ve fázi přípravy dat dochází k rozdělení dat na trénovací, ověřovací a testovací. 42 Trénovací data jsou používána k vytvoření prvotního modelu. Ověřovací data jsou aplikována při výběru nejlepšího modelu. Testovací data jsou užita při určení výkonnosti modelu na neznámých datech. Trénovací a testovací data se získají rozdělením původní datové množiny, přičemž „testovací část obvykle tvoří okolo 20 – 40 % objemu dat.“
43
Výsledky nasazení modelu na trénovací a testovací data se využívají ve fázi vyhodnocení modelů.
6.6.4 Modeling Jelikož tato fáze je plně automatizována pomocí softwaru pro dolování dat, představuje tak fázi nejméně náročnou na čas. Základem této fáze je výběr metody dolování dat pro vytvoření prediktivního modelu či modelů (většinou se vytváří více modelů, které se odlišují zvoleným počtem proměnných). Prediktivní úlohy se řeší klasifikací příkladů do tříd. Výstupem klasifikačního modelu je rozhodnutí o stavu – zákazník odchází / neodchází. Těmto stavům je možno přiřadit váhy (obvykle mezi čísly 0 a 1) a tak upřesnit míru jistoty odchodu – zákazník určitě odchází, spíše odchází apod. Na těchto principech fungují metody logistická regrese, rozhodovací stromy, neuronové sítě, metoda podpůrných vektorů či případové uvažování. Nejoblíbenějšími metodami jsou logistická regrese a rozhodovací stromy díky jejich snadné interpretaci výsledků.
41 42
[Z005] Rozdělení dle [BER2004]: training set, test set, validation set. V [Z005] jsou data rozdělena pouze
na trénovací a testovací. 43
[Z005]
45
6.6.5 Evaluation V této fázi dochází k výběru finálního modelu. Model je vybrán na základě jeho kvality nebo-li schopnosti predikce. Kvalita modelu je nejdříve otestována na testovacích datech. Pokud má vytvořený model lepší vlastnosti na trénovacích datech a výrazně horší na testovacích znamená to, že je model tzv. přeučen (má slabé generalizující schopnosti na neznámých datech). Při přeučení modelu je třeba najít budˇto jiné parametry vytváření modelů nebo jiné popisující atributy. Dalším ukazatelem kvality modelu je „tzv. lift, který představuje rozdíl mezi náhodným výběrem a výběrem pomocí predikčního modelu. Ukazatel přínosu také může být rozdíl mezi liftem stávajícího řešení a nově nalezeného řešení pomocí metod data miningu, což určuje předpokládaný ukazatel návratnosti investic.“ 44 Misklasifikační matice ukazuje tzv. error rate 45 nebo-li procento záznamů, které byly chybně klasifikovány. Určení procenta se provádí pomocí srovnání výsledků získaných z trénovacích dat a výsledků získaných z dat testovacích. Přičemž testovací data by měla být vytěžena z “co nejbližší přítomnosti”. Error rate je tak dalším ukazatelem kvality modelu a také ukazatelem přesnosti predikce. Na základě uvedených ukazatelů je vybrán nejlepší prediktivní model, tzn. model s nejpřesnější schopností předpovědět, kteří zákazníci jsou rozhodnuti od společnosti odejít. Dosažené výsledky je třeba také prozkoumat pohledem manažerů, kteří musí odsouhlasit, že byly splněny požadavky a cíle formulované v zadání úlohy.
6.6.6 Deployment V závěrečné fázi metodiky CRISP-DM dochází k nasazení vytvořeného prediktivního modelu do praxe, což znamená přesun modelu z prostředí dolování dat do prostředí skórování. Model je včleněn do informačního systému organizace, kde pravidelně (např. měsíčně) přiřazuje skóre jednotlivým zákazníkům. Skóre je hodnota 44
[Z005]
45
dle [BER2004]
46
mezi 0 a 1, která v případě Churn managementu ukazuje pravděpodobnost odchodu od společnosti v určitém časovém období. Dle skóre se může provést segmentace zákazníků a na vzniklé segmenty použít cílenou marketingovou kampaň. Marketingové kampaně pro Prepaid-zákazníky mohou být např.: různé bonusy při dobití kreditu, slevy pro odesílání sms zpráv, volání na určité číslo zdarma či sleva při volání ze zahraničí nebo do zahraničí. Přínos modelu může být měřen právě pomocí realizace marketingové kampaně, kdy se jedna část vybrané skupiny osloví náhodně či pomocí dosavadní praxe a druhá část pomocí prediktivního modelu. Úspěšnost kampaně je poté změřena ukazatelem ROI, který ukáže přínos prediktivního modelu. Prediktivní model je nutné periodicky sledovat kvůli riziku ztráty predikčních vlastností. Pokud model ztrácí predikční vlastnosti je potřeba vytvořit nový model na základě aktuálních dat. Z popsaného nasazení metodiky CRISP-DM v rámci Churn managementu lze usoudit, že výsledný prediktivní model bude ovlivněn: 1. formulací obchodních požadavků a cílů společnosti v oblasti Churn managementu 2. formulací zadání úlohy pro dolování dat 3. stanovením obchodních kritérií a kritérií pro dolování dat 4. výběrem dat, ze kterých je tvořen prediktivní model 5. určením délky predikčního okna 6. určením časového období, ze kterého jsou data pro prediktivní model vybrána 7. stanovením ukazatele kvality modelu 8. způsobem využití prediktivního modelu – přiřazením skóre, zvolením marketingové kampaně Postup při tvorbě prediktivního modelu dle metodiky CRISP-DM by měl být pro každou společnost stejný. Konkrétní řešení však závisí na výše uvedených činitelích, kterými je výsledný model ovlivněn. Z toho vyplývá, že nelze vytvořit prediktivní model, který by byl stejný pro všechny společnosti z telekomunikačního sektoru.
47
Pro získání jednoho nového zákazníka musí společnost investovat přibližně 4x více peněz než pro udržení si jednoho stávajícího zákazníka. Navíc peníze, které se odlévají ze společnosti s odcházejícími zákazníky mohou představovat značnou část ztraceného zisku. Díky využití metod dolování dat v oblasti Churn managementu je společnost schopna dozvědět se s předstihem, u kterých zákazníků je vysoká pravděpodobnost jejich odchodu. Identifikace těchto zákazníků a následná cílená komunikace může zachránit obchodní vztah a obnovit zákazníkovu důvěru v značku.
48
7 Závěr Záměrem bakalářské práce bylo teoreticky obsáhnout problematiku Churn managementu v telekomunikačního sektoru. Celá práce usiluje o vymezení postavení Churn managementu jak v telekomunikačním společnosti, tak i v oblasti Business Intelligence. Hlavní cíle, které byly vytyčeny v úvodu, byly následně dosaženy: 1. Úvod do problematiky BI - úvod do problematiky BI tvoří celá kapitola 2 2. Objasnění situace na trhu telekomunikačního sektoru - o situaci na trhu telekomunikačního sektoru hovoří kapitola 3.2 3. Popis úloh, metod a metodik dolování dat - úlohy, metody a metodiky dolování dat jsou shrnuty postupně v kapitolách 4.2, 4.3 a 4.4 4. Vymezení definice Churn managementu, analýza postavení Churn managementu v telekomunikační společnosti - Churn management je definován v kapitole 6.1 - postavení Churn managementu v telekomunikační společnosti analyzuje kapitola 6.1.1 5.
Aplikace
metodiky
CRISP-DM
na
prevenci
odchodu
zákazníků
od společnosti - aplikace metodiky CRISP-DM na prevenci odchodu zákazníků od společnosti je ukázána v kapitole 6.6 Vedlejší cíle byly také splněny: 7. Analýza důvodů pro zavedení BI - důvody pro zavedení BI v telekomunikační společnosti jsou analyzovány v kapitole 5.1 8. Vymezení oblastí aplikace BI v telekomunikační společnosti - oblasti aplikace BI v telekomunikační společnosti jsou vymezeny v kapitole 5.2 49
Logická souslednost jednotlivých kapitol byla volena tak, aby se čtenář nejdříve seznámil se základními principy BI, vývojem na trhu telekomunikačního sektoru a dolováním dat. Po osvojení tématiky poté pochopil souvislost mezi těmito jevy a Churn managementem. Přínos práce vidím zejména v kapitolách, které jsou věnovány aplikaci BI v telekomunikačním sektoru a aplikaci BI v telekomunikačním sektoru se zaměřením na Churn management. V první z nich čtenář pochopí nutnost zavedení BI v telekomunikačním sektoru, v souvislosti se vzniklou potřebou analyzovat velká množství dat souvisejících se zákazníkem. V druhé z nich pak má čtenář možnost proniknout do jedné z oblastí aplikace BI, která je v současné době jednou z nejpreferovanějších. Vlastní přínos k řešené problematice spatřuji: 1. ve vymezení důvodů pro zavedení BI v telekomunikační společnosti 2. ve vymezení postavení Churn managementu v telekomunikační společnosti 3. v aplikaci metodiky CRISP-DM na prevenci odchodu zákazníka od společnosti 4. ve vymezení činitelů, kteří ovlivňují výsledný prediktivní model při aplikaci metodiky CRISP-DM na prevenci odchodu zákazníka od společnosti Aplikace BI v telekomunikačním sektoru je dost rozsáhlé téma. Dobré by bylo obsáhnout všechny dílčí oblasti aplikace. Námětem pro další řešení problematiky by pak mohlo být zmapování další dílčí oblasti aplikace BI v telekomunikačním sektoru např. Revenue Assurance.
50
Literatura Odborná literatura [BER2003]
Berka, P.: Dobývání znalostí z databází, 1. vydání, Academia, 2003, 366 str., ISBN 8020010629
[BER2004]
Berry, M.,J.,A., Linoff,G.,S.: Data mining techniques: for marketing, sales and customer relationship management, 2. vydání, Wiley Publishing, Inc., 2004, 643 str., ISBN 0471470643
[CRISP2000] The CRISP-DM consortium: CRISP-DM 1.0 Step-by-step data mining guide, verze 1.0, The CRISP-DM consortium, 2000, 78 str. [HOL2006]
Holeňa, M.: Statistické aspekty dobývání znalostí z dat, 1. vydání, Karolinum, 2006, 106 str., ISBN 8024611864
[ETOM2005] TeleManagement Forum: Enhanced Telecom Operations (eTOM), The business process framework for the information and communications services industry, verze 6.1, TeleManagement Forum, 2005, 81 str. [NOV2005]
Novotný, O., Pour, J., Slánský, D.: Business intelligence: Jak využít bohatství ve vašich datech, 1. vydání, Grada Publishing, a.s., 2005, 254 str., ISBN 8024710943
[RUD2001]
Rud, O.,P.: Data Mining: Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků, 1. vydání, Computer Press, 2001, 329 str., ISBN 8072265776
[SLA2004]
Slánský, D.: Řešení úloh BI se zaměřením na prostředí telekomunikačních společností, disertační. práce, VŠE-FIS, 2004, 240 str.
Internetové odkazy www.adastra.cz www.businessworld.cz www.crisp-dm.org www.cssi.cz www.ctu.cz 51
www.cz.o2.com www.dbsvet.cz www.kdnuggets.com www.mobilmania.cz www.sas.com www.spss.cz www.statsoft.cz www.systemonline.cz www.t-mobile.cz www.vodafone.cz
Zprávy, články, studie [Z001]
Hanusek, L., Máša, P.: Technologie Data Warehousingu a Data Miningu [online]. 8/2007 [cit. 2007-11-16]. Dostupné na WWW: http://www.adastra.cz/dokument.aspx?menu_id=55&id=192
[Z002]
Háva, O.: Data mining okolo nás [online]. [cit. 2007-11-25]. Dostupné na WWW: http://www.spss.cz/files/ruzne/businessintelligence.pdf
[Z003]
Jelínková, R.: Multimediální kontaktní centrum jako součást CRM, materiály společnosti Siemens [online]. Dostupné na WWW: www.forum-etime.cz
[Z004]
Jurka, J.: Jak rozpoznat ziskového zákazníka od ztrátového? [online]. 11/2002 [cit. 2007-12-23]. Dostupné na WWW:
http://www.systemonline.cz/clanky/jak-rozpoznat-ziskoveho-zakaznika-od-ztratoveho.htm [Z005]
Kout, J.: Prevence odchodu zákazníka pomocí metod data miningu [online]. 2006 [cit. 2007-11-24]. Dostupné na WWW:
http://www.systemonline.cz/business-intelligence/prevence-odchodu-zakaznika-pomocidata-miningu-1.htm [Z006]
Mates, J., Šillerová, M.: Business Intelligence III. díl - Cílený marketing [online]. 6/2003. Dostupné na WWW:
http://www.systemonline.cz/clanky/business-intelligence-iii-dil-cileny-marketing.htm 52
[Z007]
Novotný, O., Pour, J., Slánský, D.: Přednášky k předmětu Business Intelligence, 2006
[Z008]
Pour, J.: Co lze očekávat od business intelligence? [online]. Dostupné na WWW: http://www.vsem.cz/data/docs/gf_Praha0906_ICT.pdf
[Z009]
Produktový list společnosti Adastra [online]. [cit. 2007-12-15]. Dostupné na WWW: http://www.adastra.cz/dokument.aspx?id=64
[Z010]
Slánský, D.: Abeceda konkurenceschopnosti aneb jak na ni s Business Intelligence [online]. 2006 [cit. 2007-11-17]. Dostupné na WWW: http://si.vse.cz/archiv/clanky/2006/slansky.pdf
[Z011]
Slánský, D.: Inteligentní byznys pomocí Business Intelligence [online]. 12.10. 2007 Dostupné na WWW:
http://www.modernirizeni.ihned.cz/index.php?p=600000_d&&article[id]=22200500 [Z012]
Slánský, D.: Udělejte si pořádek v klíčových datech [online]. Dostupné na WWW:
http://www.systemonline.cz/crm/udelejte-si-poradek-v-klicovych-datech.htm [Z013]
Šály, M.: Data mining: dnešní stav v ČR, aktuální novinky a trendy [online]. 2003 [cit. 2007-12-01]. Dostupné na WWW: http://si.vse.cz/archiv/clanky/2003/05_saly.pdf
[Z014]
Vítek, M: Úloha telekomunikací v národním hospodářství, segmentace telekomunikačního trhu [online]. Dostupné na WWW: https://ekonom.feld.cvut.cz/materialy/x16eet/ert05.pdf
[Z015]
Vlach, P.: Data mining v malých a středních organizacích [online]. 2007. Dostupné na WWW:
http://www.systemonline.cz/business-intelligence/data-mining-v-malych-a-strednichorganizacich-1.htm
53
Terminologický slovník Termín
Význam
AMPU – Average
Průměrná
marže
na
zákazníka
–
ukazatel
efektivity
Margin Per User
telekomunikačního operátora. Průměrná hodnota marže za určité časové období (typicky rok).
ARPU – Average
Průměrný
výnos
na
zákazníka
–
ukazatel
efektivity
Revenue Per User
telekomunikačního operátora. Průměrná hodnota výnosu za určité časové období (typicky rok).
Attrition
Řízení odhalení rizika, že chce klient přejít ke konkurenci, pomocí
management
netriviálního a potencionálně
dobývání užitečných
skrytých, informací
předem z dat.
neznámých Používá
se
ve finančním sektoru. Behaviorální data
Data vyjadřující míru akce nebo chování, řadí se k nim např. prodaná množství, typy nákupů, výše plateb ad.
BI – Business
Business Intelligence
je sada procesů, aplikací a technologií,
Intelligence
jejichž cílem je účinně a účelně podporovat rozhodovací procesy ve firmě. Podporují analytické a plánovací činnosti podniků a organizací a jsou postaveny na principech multidimenzionálních pohledů na podniková data.
BI řešení
BI řešení je konkrétní kombinace BI produktů a dalších pomocných aplikací. Zahrnuje také implementovaný datový sklad, nastavené datové pumpy a připravené multidimenzionální databáze.
Business
Jedna z fází metodiky CRISP-DM, je zaměřena na porozumění
Understanding
cílům a požadavkům manažerů, které se transformují do zadání úlohy pro dolování dat.
Cílená
Marketingová kampaň, která je zaměřena na vybranou skupinu
marketingová
zákazníků.
kampaň
54
CRISP-DM – CRoss Metodika dolování dat. Autorem je konsorcium čtyř heterogenních Industry Standard
společností – automobilka DaimlerChrysler (dříve Daimler-Benz),
Process for Data
poskytovatel databází NCR, pojišťovací společnost OHRA
Mining
a výrobce softwaru pro Predictive analytics SPSS.
CRM – Customer
Oblast zahrnující pracovníky, podnikové procesy a technologii
Relationship
IS/ICT jejichž cílem je maximalizovat loajalitu zákazníků
Management
a v důsledku toho i ziskovost podniku.
Cross-sell
Křížový prodej – prodej více jak jednoho produktu.
Customer
Uplatnění nových zdrojů dat o zákaznících a jejich potřebách
Intelligence
v rámci CRM na jedné straně a možnosti poskytování nových informačních služeb zákazníkovi s využitím technologií BI na straně druhé.
Customer Life
Životní cyklus zákazníka – je založen na obchodních vztazích mezi
Cycle
společností a zákazníkem, má dopad na tvorbu hodnoty zákazníka a na firemní procesy.
Customer LifeTime
Hodnota po dobu existence zákazníka u společnosti – hodnota
Value
zákazníka, vypočítaná jako součet hodnoty jeho dosavadní spotřeby u organizace (např. telekomunikačního operátora) a předpokládané hodnoty jeho spotřeby do doby, než od organizace odejde.
Databáze
Integrovaná počítačově zpracovávaná množina dat. Data, která jsou využívána ve více aplikacích. V databázi jsou minimalizovány redundance dat a existuje vhodně organizovaná správa těchto dat. Cílem databázového systému je uspořádat datové zdroje.
Data Mining
Dolování dat – netriviální dobývání skrytých, předem neznámých a potencionálně užitečných informací z dat.
Data Preparation
Jedna z fází metodiky CRISP-DM. Fáze přípravy dat zahrnuje selekci, čištění, transformaci, vytváření, integraci a formátování dat. Tyto činnosti vedou k vytvoření finálního datového souboru, jenž bude použit při modelování.
55
Data Understanding Jedna z fází metodiky CRISP-DM. Fáze porozumění datům začíná úvodním sběrem dat a pokračuje různými činnostmi směřujícími k bližšímu
obeznámení
se
s
nasbíranými
informacemi,
k rozpoznání problémů kvality dat, k prvnímu pochopení podstaty nebo odhalení
zajímavých podmnožin dat ve snaze vytvořit
hypotézy pro skrytou informační hodnotu dat. Demografická data
Data popisující charakteristiky osob a domácností, patří mezi ně např. pohlaví, věk, rodinný stav, příjem ad.
Deployment
Jedna z fází metodiky CRISP-DM. Informace získané z nového modelu mohou být použity jak k sepsání závěrečné zprávy, tak k nasazení modelu do operačního systému pro automatickou klasifikaci nových případů, což by mělo vést ke zlepšení obchodních výsledků.
Deskriptivní úlohy
Úlohy jejíž cílem je nalézt dominantní strukturu nebo vazby, které jsou skryté v daných datech.
Dimenze
Dimenze dávají kontext faktům. Obsahují většinou textové atributy popisující fakta.
Dimenzionální
Tabulka obsahující kontext k datům fakt tabulky, obvykle textové
tabulka
popisné údaje.
Diskriminační
Statistická metoda, která je vhodná ke klasifikaci pozorování
analýza
do dvou nebo více skupin. Zvolený počet členění na skupiny závisí na předpokládaném cíli analýzy a na struktuře dat, která jsou k dispozici. Diskriminační analýza vysvětluje např. finanční situaci, respektive úroveň úvěrového rizika podniků v jakémkoli období.
DMA – Data Mart
Datové tržiště – Podmnožina datového skladu adresující potřeby specifických předmětných oblastí podniku nebo uspokojující potřeby jednotlivých částí organizace.
DSA – Data Staging
Dočasné úložiště dat – databáze sloužící k prvotnímu ukládání
Area
netransformovaných dat ze zdrojových systémů.
56
DWH – Data
Datový sklad – integrovaný, subjektově orientovaný, stálý a časově
Warehouse
rozlišený souhrn dat, uspořádaný pro podporu řešení analytických úloh.
EAI – Enterprise Nástroje EAI vznikly za účelem integrovat informační systémy Application
organizace a razantně redukovat počet jejich vzájemných rozhraní.
Integration
Tyto nástroje pracují principielně na dvou úrovních - na úrovni datové integrace a na úrovni aplikační integrace. EAI platformy pracují v reálném čase.
EIS – Executive
Manažerské aplikace – cílem EIS je podporovat manažerské
Information
procesy, jako jsou podnikové analýzy, plánování či rozhodování.
Systems ERP – Enterprise
Systémy pro plánování podnikových zdrojů – je charakterizován
Resource
jako typ aplikace, resp. aplikačního software v informačním
Planning
systému, který umožňuje řízení a koordinaci všech disponibilních podnikových zdrojů a aktivit s cílem zajištění potřeb trhu i vlastního podniku.
Established
Dělení životního cyklu zákazníka dle Berry. Noví zákazníci, kteří
customers
se ke společnosti vracejí a se kterými jsou vztahy rozšiřovány a prohlubovány.
ETL – Extraction,
Datové pumpy – proces extrakce dat ze zdrojových systémů,
Transformation and transformace a čištění dat a nahrání dat do dimenzionálních Loading
(cílových) databází.
eTOM – enhanced
Rozšířená
mapa
Telecom Operations aktualizovaný Map
a
procesů
telekomunikačního
rozšířený
telekomunikačního
operátora
procesní
operátora
model
vyvinutý
–
procesů konsorciem
Telemanagement Forum. Evaluation
Jedna z fází metodiky CRISP-DM. Ve fázi vyhodnocení je již nalezen model, který se zdá být kvalitní z pohledu analýzy dat. Dosažené výsledky je třeba také prozkoumat pohledem manažerů, kteří musí odsouhlasit, že byly splněny požadavky a cíle formulované v zadání úlohy. 57
Fakt tabulka
Tabulka obsahující obchodní fakta a hodnoty, zpravidla číselné a aditivní.
Fixní
Organizace působící na telekomunikačním trhu, na kterém nabízí
telekomunikační
své produkty a služby. Mezi typické produkty a služby se řadí:
operátor
služby přenosu hlasu a dat, přidané služby (Value Added Services) založené na využití pevné telekomunikační sítě, moderní technologie pro přenos dat – ISDN, ADSL.
Forced Churn
Nedobrovolný odchod zákazníka od společnosti. Zákazník odchází od společnosti z donucení, jelikož např. neplatil účty.
Former customers
Dělení životního cyklu zákazníka dle Berry. Zákazníci, kteří odešli od společnosti. Dělí se na dobrovolně odcházející (přešli ke konkurenci nebo již neviděli výhodnost služby), odcházející z donucení (neplatili účty) a na očekávané odcházející (nejsou již dlouho na cílovém trhu nebo se odstěhovali z místa cílového trhu).
Fraud
Takové chování, kdy zákazník využívá služby poskytovatele s úmyslem za ně nezaplatit (ať již zcela nebo částečně).
Fulfillment
Operativní proces telekomunikační společnosti dle eTOM získávání zákazníků a zavádění jejich služeb.
Genetické algoritmy Patří mezi evoluční algoritmy, tedy výpočty (mechanismy, modely) založené na evolučním procesu v přírodě, tzn. pomocí párování, mutací a klonování, ve kterém DNA představují 0 a 1 se z původních modelů vyvíjí čím dál tím vhodnější model pro zadanou úlohu. Původní modely, které stály na začátku evoluce mohou být řešeny různými technikami dolování dat. Granularita
Úroveň podrobnosti faktů uložených ve fakt tabulce.
Hierarchie
Jeden možný způsob kombinace úrovní. V dimenzi je obvykle
v dimenzi
možné vytvořit více hierarchií, úrovně různě kombinovat, měnit jejich počet a pořadí.
58
Hledání nuggetů
Úlohy jejíž podstatou je hledání určitých vztahů a vzorů chování v datech.
HOLAP – Hybrid
Hybridní OLAP – kombinace přístupů MOLAP a ROLAP, kdy
OLAP
detailní data jsou uložena v relační databázi a agregované hodnoty jsou uloženy v binárních OLAP kostkách.
Churn
Anglický výraz pro odchod (dobrovolný i nedobrovolný) zákazníka od telekomunikačního operátora.
Churn management
Řízení odhalení rizika, že chce klient přejít ke konkurenci, pomocí netriviálního
dobývání
skrytých,
předem
neznámých
a potencionálně užitečných informací z dat. Název se používá v telekomunikačním sektoru. Informační systém
Systém jehož prvky jsou informační a komunikační technologie, data a lidé. Cílem informačního systému je efektivní podpora informačních a rozhodovacích procesů na všech úrovních řízení organizace (podniku).
Kostka
Označení pro multidimenzionální databázi (nebo její princip). Kostka je realizována buď prostřednictvím multidimenzionální databáze nebo zvláštní struktury relační databáze.
Kritický faktor
Taková vlastnost (zde řešení informačního systému), která výrazně
úspěšnosti
ovlivňuje celkové efekty řešení, resp. může přispět k celkové úspěšnosti/neúspěšnosti obchodních a dalších aktivit organizace.
Master Custommer
Hlavní zákaznická databáze – v rámci této databáze jsou
Database
do jednoho místa integrována veškerá dostupná zákaznická data a to nejenom na úrovni transakčních dat, ale také na úrovni dat analytických a odvozených.
Metadata
Data o datech - v této souvislosti slouží pro dokumentaci konkrétních implementací informačních systémů organizace. Metadata jsou tak popisem veškerých informačních systémů i jejich jednotlivých částí. Z pohledu řešení Business Intelligence zahrnují zejména datové modely, popisy funkcí, business a transformačních pravidel, reportů či požadavků na reporty apod. 59
Metodika
Doporučený souhrn fází, etap, přístupů, zásad, postupů, pravidel, dokumentů, řízení, metod, technik a nástrojů, který pokrývá celý životní cyklus. Určuje kdo, kdy, co a proč má dělat, aby bylo dosaženo efektivního řešení.
Mobilní
Organizace působící na telekomunikačním trhu, na kterém nabízí
telekomunikační
své produkty a služby. Mezi typické produkty a služby se řadí:
operátor
služby přenosu hlasu, dat, textu (SMS), přidané služby (Value Added Services) založené na využití mobilní telekomunikační sítě.
Modeling
Jedna z fází metodiky CRISP-DM, v této fázi jsou vybrány metody dolování dat nebo-li analytické modely, které budou použity k získání informací z připravených dat.
MOLAP –
Pro
MOLAP
je
charakteristické
specielní
Multidimensional
v multidimenzionálních - binárních OLAP kostkách.
uložení
dat
OLAP Multidimenzionální
Databáze, kde jsou data uložena na principu vícerozměrové matice.
databáze
Hodnoty jsou přístupné přímo pro danou kombinaci prvků dimenzí.
Neuronové sítě
Vycházejí z analogie s lidským mozkem. Podobně jako mozek jsou tvořeny množstvím navzájem propojených elementů; neuronů. V umělých neuronových sítích je neuron chápán jako buňka, která přijímá podněty od jiných neuronů, které jsou k ní připojeny „na vstupu“. Pokud souhrnně účinek těchto vstupních podnětů překročí určitý práh, neuron se aktivuje a sám začne svým výstupem působit na další neurony. Důležitá vlastnost z hlediska dolování dat je schopnost těchto modelů učit se z příkladů. V neuronové síti jsou znalosti „rozprostřeny“ v podobě vah jednotlivých vazeb mezi neurony.
New customers
Dělení životního cyklu dle zákazníka Berry. Lidé na cílovém trhu, kteří provedli první nákup či podepsali smlouvu nebo se zaregistrovali na internetových stránkách společnosti a vyplnili osobní údaje.
60
ODS – Operational
Operativní datové úložiště – jednotné místo datové integrace
Data Store
aktuálních dat z primárních systémů. Jedná se o zdroj pro sledování konsolidovaných agregovaných dat s minimální dobou odezvy po zpracování (tedy sledování v téměř reálném čase).
OLAP – On Line Informační
technologie
založená
především
na
koncepci
Analytical
multidimenzionálních databází. Jejím hlavním principem je
Processing
několikadimenzionální tabulka umožňující rychle a pružně měnit jednotlivé dimenze a měnit tak pohledy uživatele na modelovanou ekonomickou realitu.
OLTP – On Line
Počítačové zpracování transakcí v reálném čase.
Transaction Processing OLTP systémy
Standardní relační databázové systémy, které slouží k ukládání a modifikaci operativních dat v reálném čase.
Operations support
Operativní proces v telekomunikační společnosti dle eTOM –
& readiness
proces podpory klíčových operativních procesů.
OPEX –Operational Operativní náklady – náklady spotřebované na provoz. expenditures Prediktivní model
Prediktivní model je souborem pravidel nebo matematických rovnic,
užívajících
historická
data
a
zobrazujících
model
v minulosti na základě těchto dat. Předpovídá vlastnictví (hodnotu zákazníka nebo churn) na podrobné úrovni. Použije-li se na současná data, lze vytvořit předpověď o budoucím chování jednotlivých zákazníků. Prediktivní úlohy
Jejich cílem je předpovědět hodnotu určité veličiny na základě znalosti hodnot ostatních veličin. Z hlediska statistiky je takovou metodou regresní analýza. Predikci v dolování dat provádíme zejména klasifikací příkladů do tříd.
Prepaid služby
Způsob
poskytování
služeb
telekomunikačního
operátora.
Předplacené služby, na tomto principu fungují předplacené karty – např. Twist karta. 61
Product lifecycle
Strategický proces v telekomunikační společnosti dle eTOM.
management
Zabývá se hlavně definicí, plánováním, návrhem a implementaci veškerých produktů a služeb z portfolia společnosti. Je úzce spjat nejen s vývojem produktů, ale i s veškerými marketingovými aktivitami
společnosti.
Patří
sem
např.
automatizace
marketingových kampaní – Marketing Automation nebo předpověď odchodu zákazníků Churn Prediction a s nim úzce spojené aktivity na podporu jejich návratu Retention Management atd. Produkční
Produkční systémy jsou veškeré systémy uchovávající data, které
(zdrojové) systémy
vytváří a spravují podnikové informační systémy. Data mohou být v různých formátech a uložena v různých typech databázových systémů, atd.
Profitabilita
Ziskovost zákazníka – kalkulovaná jako rozdíl mezi výnosy ze
zákazníka
zákazníka a sumou přímých a nepřímých nákladů za uplynulé období.
Prospects
Dělení životního cyklu zákazníka dle Berry. Lidé na cílovém trhu, kteří ještě nejsou zákazníky společnosti.
Prosperity-to-buy
Modely
odhadující
s
přiměřenou
dávkou
přesnosti
modely
pravděpodobnost, že si zákazník koupí určitý výrobek nebo službu.
Psychografická data Data, která jsou charakterizována názory, životním stylem či osobními hodnotami. Regresní analýza
Statistická metoda, která se užívá pro zjišťování funkční závislosti jedné numerické (spojité) veličiny na jiných numerických veličinách.
Relační databáze
Databázový systém splňující tyto dvě základní podmínky: a) databáze je chápána jako množina relací, b) jsou k dispozici minimálně operace selekce, projektování IS a spojení, aniž by vyžadovaly explicitně předdefinované přístupové cesty.
62
Reporting
Činnosti
spojené
s
dotazováním
se
do
databází
pomocí
standardních rozhraní těchto databází. Responders
Dělení životního cyklu zákazníka dle Berry. Lidé na cílovém trhu, kteří ještě nejsou zákazníky společnosti, ale již projevili určitým způsobem
(např.
vyplnění
dotazníku
či
zaregistrování
se
na internetových stránkách společnosti) zájem o služby a produkty společnosti. Retence
Uchování nebo-li udržení zákazníka u společnosti, jsou všechny aktivity, které mají zabránit zákazníkovi odejít od společnosti.
Retenční křivka
Znázorňuje závislost „přeživší“ zákazníků na času, který se začíná měřit od té doby, kdy se člověk stal zákazníkem společnosti.
Revenue Assurance
Kombinace technologií, procesů a knowhow, v jejímž rámci poskytovatel služeb (např. telekomunikační operátor) průběžně analyzuje, vyhodnocuje a koriguje rizika úniku příjmů s cílem takovýmto rizikům předcházet, resp. je minimalizovat.
ROI – Return
Návratnost investic řešení, podle způsobu výpočtu uváděná
on Investment
v měsících, výnosových procentech, apod.
ROLAP –Relational Relační OLAP – řeší multidimenzionalitu uložením dat v relační OLAP
databázi.
Rozhodovací strom
Rozhodovací strom je strom, jehož uzly obsahují testy hodnot atributů a větve z uzlů vycházející reprezentují jednotlivé hodnoty daného atributu. Při rozhodování se začíná v kořenovém uzlu a postupuje se po větvích odpovídajících hodnotám atributů, které se testují. V nejnižších uzlech kde je strom zakončen (listy) se potom nachází
hodnota
závislé
proměnné.
Některé
verze
rozhodovacích stromů umí pracovat nejen s kategoriálními, ale i s kvantitativními atributy. Segmentace
Úlohy jejíž cílem je separace dat do skupin či tříd zákazníků s obdobnou charakteristikou, příkladem je rozdělení zákazníků dle věku, pohlaví, profese atd. 63
Shluková analýza
Statistická metoda, která analyzuje, zda se množina objektů přirozeně rozpadá na výrazné podmnožiny (shluky) objektů si podobných a přitom nepodobných objektům podmnožin ostatních. Případně dále analyzuje, jestli existuje celá hierarchie takových rozkladů, pokud existují, tak čím jsou charakteristické. Nebo jak se případné další objekty zařadí do již definovaných shluků.
SLA – Service Level Dohoda o úrovni služeb – v řízení podnikových informačních Agreement
systémů (IS): smlouva s provozovatelem IS (s dodavatelem v případě outsourcingu nebo v případě interního provozu vnitropodniková) nebo její součást, která vymezuje parametry provozu
a
hodnoty
těchto
parametrů,
které
mají
být
provozovatelem IS splněny. Pokud provozovatel nesplní sjednanou úroveň služby, bývá penalizován, způsob penalizace však musí být přesně sjednán. SNOWFLAKE
Datový model optimalizovaný pro analýzy, jehož každá dimenze je
scheme
definována více než jednou tabulkou.
STAR scheme
Datový model optimalizovaný pro analýzy, jehož každá dimenze je definována právě jednou tabulkou.
Statistické metody
Statistické metody představují teoreticky dobře prozkoumané a z praxe ověřené výpočetní algoritmy pro analýzu dat.
Survival analysis
Metoda modelování odchodu zákazníka od společnosti. Jádro metody spočívá v tom, že se předpovídá doba, po kterou bude člověk zákazníkem společnosti.
Telekomunikace
Tato
skupina
číselných
a
zahrnuje: jiných
přenášení
informací
zvukových,
kabelovým
obrazových,
přenosem
nebo
bezdrátově: (telefonní, telegrafní a dálnopisné spojení, udržování sítě vysílačů, přenášení rozhlasových a televizních programů). Do této skupiny nepatří: přihlašování nových telefonních účastníků výroba rozhlasových a televizních pořadů i v případě, že jsou součástí živého vysílání.
64
Telekomunikační
Subjekt telekomunikačního sektoru, jedná se o organizaci, která
operátor
působí na telekomunikačním trhu, tedy nabízí zde své produkty a služby.
Telekomunikační
Telekomunikační sektor je součástí ICT sektoru, který je definován
sektor
jako kombinace ekonomických činností (odvětví) produkující výrobky (technologie) a poskytující služby jež jsou primárně určeny
k
zpracování,
komunikaci
a
distribuci
informací
elektronickou cestou, včetně jejich zachycení, ukládání, přenosu a zobrazení. TOM – Telecomm
Mapa procesů telekomunikačního operátora – procesní model
Operations Map
procesů
telekomunikačního
operátora
vyvinutý
konsorciem
Telemanagement Forum. Umělá inteligence
Umělá inteligence je oblast lidské činnosti, která usiluje o tvorbu a využití strojů, které jsou sto vykazovat inteligentní chování, adekvátní lidskému jednání. Je vázána především na využití počítačů a exaktních postupů, které ústí do tvorby vhodných algoritmů a do využití formalizovaných znalostí. Zabývá se dílčími problémy jako jsou například: rozpoznávání obrazu, zpracování přirozeného jazyka, modelování kognitivních procesů, rozeznávání objektů, vyhledávání příčin, odvozování postupů, orientace v proměnlivém a/nebo neurčitém prostředí a „umělý život“. Zahrnuje i oblasti jejichž aplikace nacházejí uplatnění v ekonomii, managementu a podnikání: znalostní / expertní systémy; heuristické programování, neuronové sítě, genetické algoritmy, teorie agentů a další.
Up-sell
Prodej většího množství stejného výrobku. / služby.
Voluntary Churn
Dobrovolný odchod zákazníka od společnosti. Zákazník odchází od společnosti, jelikož např. již neviděl výhodnost služby poskytované společností.
65
Seznam obrázků a tabulek Obr. 1: Umístění BI v architektuře IS/ICT organizace [NOV2005].......................................6 Obr. 2: Hlavní komponenty BI a jejich vazby [Z001]............................................................7 Obr. 3: Fáze metodiky CRISP-DM a jejich propojení [CRISP2000]...................................18 Tab. 1: Vybrané nástroje dolování dat [Z013]......................................................................24 Obr. 4: Procesy a jejich vazby v telekomunikační společnosti dle eTOM [SLA2004]........28 Obr. 5: Mapování řešení a faktorů úspěšnosti na procesní model eTOM [SLA2004] .........31 Obr. 6: Hlavní komponenty Customer Intelligence a jejich vazby [Z009] ..........................34 Obr. 7: Vztah mezi životním cyklem zákazníka a obchodními procesy společnosti [BER2004] ....................................................................................................................38 Obr. 8: Retenční křivka [BER2004] .....................................................................................40 Obr. 9: Logika při postupu vytvoření churn modelu [BER2004].........................................41 Obr. 10: Nasazení metodiky CRISP-DM na prevenci odchodu zákazníků [Z005]..............42
66