Aplikace asociačních pravidel ve společnosti Zinest s.r.o. Daniel Rydzi Zinest s.r.o.
[email protected]
Jan Rauch Katedra informačního a znalostního inženýrství VŠE
[email protected] Abstrakt Tento článek si klade za cíl seznámit čtenáře s možností využití asociačních pravidel, jako jednoho z nástrojů pro dobývání znalostí z databází (Knowledge Discovery in Databases - KDD) v rámci konceptu Business Intelligence (BI). Článek lze rozdělit do dvou částí. První je věnována asociačním pravidlům včetně jejich vztahu k původní české metodě GUHA pro analýzu dat. Ve druhé části práce jsou zveřejněny výsledky konkrétní případové studie provádění analýzy asociačních pravidel, která byla provedena dle metodiky CRISP-DM. Analýza počíná pochopením problematiky, pokračuje přípravou datového skladu a končí vyhodnocením a nasazením analýzy asociačních pravidel. Případová studie je provedena nad daty společnosti Zinest s.r.o. – velkoobchodní společnosti kosmetikou a drogistickým zbožím. Klíčová slova: LISp-Miner, GUHA, asociační pravidla, Business Intelligence, KDD, Zinest Abstract The goal of this article is to introduce the possibility of use of Knowledge Discovery in Databases (KDD) technique known as “Association Rules” (AR) as a part of Business Intelligence (BI) solution. The article is divided into two main parts. The first one deals with association rules and with their relation to the original Czech method GUHA of data analysis. Second part of the article presents most interesting results of particular case study of Association Rules analysis that was done following the CRISP-DM methodology. The analysis starts with the phase of business understanding, then it continues with data-warehouse preparation, data input procedures and it ends by evaluation and deployment of Association Rules analysis solution. Case study wad performed on data of private company Zinest s.r.o. – drugstore and cosmetics wholesale. Keywords: LISp-Miner, GUHA, Association Rules, Business Intelligence, KDD, Zinest
1. Asociační pravidla 1.1 Nákupní košíky Pojem asociační pravidlo (Association Rule – AR) zpopularizoval v 90. letech minulého století R. Agrawal [1]. Agrawal představil asociační pravidla v souvislosti
SYSTÉMOVÁ INTEGRACE 4/2008
35
Daniel Rydzi, Jan Rauch
s analýzou nákupního košíku. Cílem celé analýzy bylo nalézt taková pravidla, která odpovídají implikaci: „Když zákazník koupí zboží X, tak koupí i zboží Y.“ Data o nákupních košících lze chápat jako datovou strukturu naznačenou v tab. 1. nákupní košík b1 b2 b3 … bn-1 bn
položky P1, P7, P89, P103, P159, P194 P4, P7, P25, P103, P234 P16, P79 … P4, P7, P25, P103, P194, P571, P714, P825, P1203 P571, P714, P926, P1203
Tab. 1: Data o nákupních košících Každý řádek odpovídá jednomu nákupnímu košíku, celkem máme údaje o n košících b1, …, bn. V každém nákupním košíku se vyskytuje nějaká podmnožina položek zboží, které má obchod na skladě. Můžeme předpokládat, že se jedná o položky P1, …, PK. Asociační pravidlo je výraz X→Y kde X a Y jsou neprázdné a disjunktní množiny položek. Příkladem asociačního pravidla je pravidlo {P7, P103}→{P194}. Pravidlo X → Y má vyjádřit, že pokud zákazníci nakoupí položky dané množinou X, pak také často nakoupí položky dané množinou Y. Pravidlo {párek, pivo}→{hořčice} tedy říká, že zákazníci, kteří nakoupí párek a pivo, také často nakoupí hořčici. Důležité míry intenzity asociačního pravidla X → Y jsou konfidence - conf (X → Y) a podpora - sup (X → Y). Jsou definovány takto:
conf (X → Y) =
sup (X → Y) =
počet košíků obsahujících X i Y počet košíků obsahujících X počet košíků obsahujících X i Y . počet všech košíků
Používají se i vzorce: │M(X U Y)│ conf (X → Y) =
│M(X)│ ,
│M(X U Y)│ sup (X → Y) =
n
.
kde M(X U Y) značí množinu všech košíků obsahujících sjednocení X U Y množin
36
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
položek X a Y (jinými slovy množinu všech košíků obsahujících X i Y) a │M(X U Y)│značí kardinalitu množiny M(X U Y), tedy počet košíků obsahujících X i Y. Podobně │M(X)│značí počet košíků obsahujících X. Asociační pravidla se z dat získávají nejčastěji pomocí algoritmu apriori. Jeho vstupem je vhodná reprezentace datové struktury dle tab. 1 a parametry minconf a minsup. Výstupem jsou všechna asociační pravidla X → Y taková, že conf (X → Y) ≥ minconf a sup (X → Y) ≥ minsup. Algoritmus pracuje tak, že nejprve vyhledá všechny podmnožiny položek, které se v datech vyskytují dostatečně často (tj. s podporou ≥ minsup) a z těchto sestaví asociační pravidla splňující conf (X → Y) ≥ minconf.
1.2
GUHA
Ačkoliv to byl Agrawal, kdo zpopularizoval analýzu asociačních pravidel na začátku 90. let minulého století, stejný analytický princip byl ve značně širší podobě popsán již v roce 1966 týmem českých vědců, vedeným P. Hájkem v souvislosti s vývojem metody GUHA [2]. GUHA (General Unary Hypotheses Automation) je metoda explorační analýzy dat, jejím cílem je nabízet vše zajímavé, co lze k danému problému odvodit z daných dat. Metoda je realizována pomocí GUHA procedur. GUHA procedura je program, který pracuje dle principu uvedeného v obr. 1.
Obr. 1: Princip GUHA procedury Vstupem každé GUHA procedury jsou jednak analyzovaná data a jednak jednoduché zadání rozsáhlé množiny relevantních (tedy potenciálně zajímavých) vztahů. Mohou to být jak asociační pravidla naznačená v obr. 1, tak i značně obecnější vztahy. GUHA procedura vygeneruje a verifikuje každý ze zadaných vztahů. Výstupem jsou všechny prosté vztahy, tedy takové vztahy, které jsou SYSTÉMOVÁ INTEGRACE 4/2008
37
Daniel Rydzi, Jan Rauch
jednak pravdivé v analyzovaných datech a jednak nevyplývají snadným způsobem z jednodušších a do výstupu již zařazených vztahů. Začátek vývoje metody GUHA spadá shodou okolností do počátků vývoje databázových systémů, ale její vývoj dlouho probíhal zcela bez vztahu k databázím. Přesto je nejvíce rozšířenou GUHA procedurou procedura ASSOC [3], která hledá vztahy zobecňující asociační pravidla definovaná v souvislosti s nákupními košíky. Vstupem procedury ASSOC je matice dat. Řádky matice odpovídají pozorovaným objektům a sloupce matice odpovídají atributům popisujícím tyto objekty. Pro každý atribut se předpokládá, že může nabývat konečně mnoha hodnot. Procedura ASSOC pracuje s asociačními pravidly tvaru Ant ≈ Suc, kde Ant a Suc jsou booleovské atributy odvozené od sloupců analyzované matice. Booleovský atribut Ant se nazývá antecedent, booleovský atribut Suc je sukcedent. Atributy Ant a Suc jsou odvozeny ze sloupců matice. Základní booleovský atribut užitý v asociačním pravidle se nazývá literál, negovaný základní booleovský atribut je negativní literál. Odvozené booleovské atributy jsou konjunkcí nebo disjunkcí literálů. Příkladem literálu je Pohlaví(M). Je to booleovský atribut, který je pravdivý pro pacienta pi, pokud hodnota atributu Pohlaví pro pacienta pi je M (je to muž). Příkladem konkrétního asociačního pravidla je Pohlaví(M) ∧ Piv_za_den(>5) ≈ BMI(32-36). Symbol ≈ je 4ft-kvantifikátor, vyjadřuje vztah antecedentu a sukcedentu. Každému 4ft-kvantifikátoru odpovídá nějaká podmínka týkající se kontingenční tabulky atributů Ant a Suc. Asociační pravidlo Ant ≈ Suc je pravdivé v matici M, jestliže podmínka přiřazená 4ft-kvantifikátoru ≈ je pravdivá v kontingenční tabulce Ant a Suc pro matici dat viz tab. 2.
M Ant ¬Ant
Suc
¬Suc
a c
b d
M,
Tab. 2: Kontingenční tabulka booleovských atributů Ant a Suc pro matici dat M
-
38
Symbol ¬ značí negaci, ¬ Ant značí negaci antecedentu atd. Platí: a označuje počet řádků matice M splňujících antecedent i sukcedent b označuje počet řádků matice M splňujících antecedent a nesplňujících sukcedent c označuje počet řádků matice M nesplňujících antecedent a splňujících sukcedent
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
d označuje počet řádků matice M nesplňujících ani antecedent ani sukcedent. Příkladem 4ft-kvantifikátoru je fundovaná implikace ⇒p,Base s parametry 0 < p
-
≤ 1 a Base > 0, které je definována podmínkou
a ≥ p ∧ a ≥ Base. Je-li a+b
asociační pravidlo Pohlaví(M) ∧ Piv_za_den(>5) ⇒0.9,100 BMI(32-36) pravdivé v analyzované matici M, pak to znamená že 90% z pacientů splňujících Pohlaví(M) ∧ Piv_za_den(> 5) (tedy mužů pijících alespoň 5 piv denně) má BMI v intervalu 32 – 36 a že pacientů, kteří splňují jak Pohlaví(M) ∧ Piv_za_den(>5) tak i BMI(32-36) je alespoň 100. Asociační pravidlo X → Y týkající se nákupních košíků je možno chápat jako pravidlo ve smyslu procedury ASSOC, pokud budou data o nákupních košících reprezentována pomocí matice dat. To lze udělat tak, že každý košík bude reprezentován jedním řádkem a každá položka jedním booleovským atributem. To znamená, že datová struktura v tab. 1 bude reprezentována maticí dat, která bude mít řádky b1, …, bn a sloupce P1, …, PK. V řádku b1 bude ve sloupci P1 hodnota true, protože položka P1 je obsažena v košíku b1, ve sloupci P2 řádku b1 bude hodnota false, protože položka P2 není obsažena v košíku b1, viz tab. 1. Analogicky pro ostatní řádky a sloupce. Asociační pravidlo {P7, P103}→{P194} uvedené v odstavci 1.1. můžeme tedy psát ve tvaru P7 ∧ P103 →conf, sup P194 kde P7 ∧ P103 je antecedent, P194 je sukcedent a →conf, sup je 4ft-kvantifikátor definovaný podmínkou
a a ≥ conf ∧ ≥ sup a+b a+b+c+d
.
2. Systém LISp-Miner LISp-Miner (http://lispminer.vse.cz/) je akademický systém pro podporu výuky a výzkumu KDD vyvíjený v Laboratoři inteligentních systémů v Praze (LISp) a na Katedře informačního a znalostního inženýrství VŠE v Praze od roku 1996. Jako první vznikla procedura 4ft-Miner, která je rozšířenou verzí GUHA procedury ASSOC [4]. Celý systém LISp-Miner nyní zahrnuje šest GUHA procedur a proceduru KEX pro strojové učení. Mezi GUHA procedury patří: •
4ft-Miner – Procedura se zabývá hledáním asociačních pravidel ve tvaru φ ≈ ψ (resp. podmíněných asociačních pravidel ve tvaru φ ≈ ψ/χ).
•
KL-Miner – Slouží k analýze dvoudimenzionálních kontingenčních tabulek.
•
CF-Miner – Slouží ke hledání podmínek, které určují splnění zvoleného rozdělení hodnot atributu.
SYSTÉMOVÁ INTEGRACE 4/2008
39
Daniel Rydzi, Jan Rauch
Dále jsou součástí systému LISp-Miner GUHA procedury SD4ft-Miner, SDKL-Miner a SDCF-Miner hledající rozdíly mezi dvěma skupinami objektů. Procedura SD4ftMiner hledá pravdivé vztahy tvaru α ⊗ β: φ ≈* ψ / γ. Zde symboly α a β jsou booleovské atributy definující dvě skupiny pozorovaných objektů, γ značí omezující podmínku a φ ≈* ψ odkazuje na asociační pravidlo φ ≈ ψ s antecedentem φ a sukcedentem ψ. Vztah α ⊗ β: φ ≈* ψ / γ říká, že skupiny α a β se za podmínky γ významně liší co se týče intenzity asociačního pravidla φ ≈ ψ. Rozdíl intenzity je dán symbolem ≈*, který se nazývá SD4ft-kvantifikátor a zpravidla je měřen jako rozdíl spolehlivostí.V tomto článku se však budeme zabývat především procedurou 4ft-Miner.
2.1
GUHA procedura 4ft-Miner
Procedura 4ft-Miner pracuje podle schematu uvedeného na obr. 1. Jejím vstupem je matice dat, která vzniká transformací z databázového zdroje. Transformace se provádí pomocí procedury LMDataSource, která je také součástí systému LISpMiner. Příklad takové matice, která je v tomto případě výřezem z datového skladu je v Tab. 3. odběratel
pobočka
Z1 - SIBEA s.r.o. Z2 - UNIPRO s.r.o. . . . ZK - Mařinec s.r.o.
Brno (B) Chýnov (CH) . . . Praha (P)
obchodní zástupce 51 31 . . . 22
…
řetězec
… …
FLOP PRIMA . . . FLOP
… …
Tab. 3: Výřez z datového skladu (ilustrativní příklady dat) V řadě případů se však nejedná o prostý výřez, přípustné hodnoty v některém sloupci matice mohou být definovány např. jako intervaly na původních hodnotách v databázi. Je tedy možno definovat např. nové hodnoty malý, střední, velký z původních hodnot udávajících náklady. Přípustné hodnoty atributů se nazývají kategorie. Před použitím procedury LMDataSource je třeba denormalizovat datový sklad do jediné tabulky, jelikož procedura LMDataSource v současné době neumí pracovat s propojením tabulek pomocí cizích a primárních klíčů (ať již jde o schéma hvězdy – star nebo vločky – snowflake). Analyzovaná matice dat tedy vzniká transformacemi z jedné tabulky dat, definice transformací se uchovávají v části systému LISp-Miner, která se nazývá metabáze. Procedury 4ft-Miner (stejně jako ostatní GUHA procedury systému LISp-Miner) pracují s analyzovanou tabulkou v režimu read-only. Na začátku běhu procedury 4ft-Miner se vytvoří dočasná reprezentace matice dat ve formě bitových řetízků. Každá kategorie každého atributu je reprezentována jedním bitovým řetízkem. Atribut (sloupec matice) Pobočka je vytvořen přímo (bez transformace) ze sloupce Pobočka v databázové tabulce. Má tedy tři kategorie odpovídající třem pobočkám Brno (B), CHýnov (CH), Praha (P) a je reprezentován třemi bitovými řetízky pobočka[B], pobočka[CH], pobočka[P], viz tab. 4. V řádku Z1 týkajícím se odběratele Z1 je hodnota 1 právě 40
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
v bitovém řetízku pobočka[B], protože hodnota atributu pobočka v tomto řádku je Brno (B), analogicky pro ostatní řádky. Dočasná reprezentace atributu pobočka
Atributy - sloupce matice dat odběratel Z1
pobočka
obchodní zástupce
Brno
51
Z2
CHýnov
31
Z3 . . . ZK-2 ZK-1 ZK
CHýnov . . . Brno Praha Praha
30 . . . 51 21 22
…
řetězec
… FLOP PRIM … A … . … . . … COOP … … FLOP
pobočka [B]
pobočka [CH]
pobočka [P]
1
0
0
0
1
0
0 . . . 1 0 0
1 . . . 0 0 0
0 . . . 0 1 1
Tab. 4: Matice dat M a bitová reprezentace atributů Procedura 4ft-Miner pracuje s asociačními pravidly tvaru Ant ≈ Suc, viz. odstavec 1.2, případně s podmíněnými asociačními pravidly tvaru Ant ≈ Suc / Cond kde Cond je booleovský atribut vyjadřující podmínku, za které nás asociační pravidlo Ant ≈ Suc zajímá. Procedura postupně generuje dočasné bitové reprezentace booleovských atributů Ant, Suc a Cond. Připomeňme, že tyto booleovské atributy jsou konjunkce nebo disjunkce literálů. Generování probíhá tak, že se nejprve generují bitové řetízky reprezentující jednotlivé literály a na ně se aplikují potřebné bitové konjunkce nebo disjunkce. Příkladem jednoduchého literálu je pobočka(Brno), je to booleovský atribut, který je v řádku matice pravdivý, právě když hodnota atributu pobočka v tomto řádku je Brno. Bitová reprezentace literálu pobočka(Brno) je tedy shodná s bitovým řetízkem pobočka[B]. Příkladem složitějšího literálu je pobočka(Brno, Praha). Je to booleovský atribut, který je v řádku matice pravdivý, právě když hodnota atributu pobočka v tomto řádku je Brno nebo Praha. Bitová reprezentace tohoto literálu je tedy bitovou disjunkcí řetízků pobočka[B] a pobočka[P]. Výsledné bitové řetízky se s výhodou využívají k výpočtu kontingenčních tabulek. Zkušenosti ukazují, že tento způsob generování a verifikace asociačních pravidel je dostatečně rychlý pro řadu praktických úloh [4]. Navíc umožňuje snadno pracovat se složitějšímu literály. 4ft-kvantifikátor ≈ v asociačním pravidle Ant ≈ Suc je obecným vyjádřením vztahu mezi antecedentem a sukcedentem. Konkrétní typy asociačních pravidel jsou determinovány užitým 4ft-kvantifikátorem. Procedura 4ft-Miner pracuje s 18 základními 4ft-kvantifikátory [4]. Základní kvantifikátory lze chápat jako charakteristiky intenzity asociačního pravidla, podmínka odpovídající každému kvantifikátoru má potom tvar: intenzita ≥ zadaný práh. Všechny kvantifikátory jsou definovány pomocí čtyřpolní tabulky pro konkrétní dvojici antecedentu a sukcedentu, viz Tab. 2 v odstavci. 1.2. Základní 4ftkvantifikátor BASEBase s parametrem Base je pro Base ≥ 0 definován podmínkou a
SYSTÉMOVÁ INTEGRACE 4/2008
41
Daniel Rydzi, Jan Rauch
≥ Base. Kvantifikátor může být zadán absolutně nebo relativně jako podíl a / n. Základní 4ft-kvantifikátor ⇒p s parametrem p je pro 0 ≤ p ≤ 1 definován podmínkou a
≥p.
a+b Lze si povšimnout, že fundovaná implikace je definována stejně jako konfidence – míra intenzity asociačního pravidla popsaná v odstavci 1.1. Obvykle se používají spíše složitější 4ft-kvantifikátory, které jsou konjunkcí základních 4ft-kvantifikátorů. Zde budeme používat 4ft-kvantifikátor ⇒p, Base fundované implikace, který je konjunkcí 4ft-kvantifikátorů ⇒p a BASEBase. Fundovaná implikace je tedy pro 0 < p ≤ 1 a BASE > 0 definována podmínkou a
≥ p ∧ a ≥ Base .
a+b
3. Cíle aplikace asociačních pravidel V následující části tohoto článku bude představena konkrétní případová studie aplikace asociačních pravidel ve společnosti Zinest s.r.o. Společnost Zinest s.r.o. je velkoobchodní společností drogistickým zbožím a kosmetikou, která působí na českém trhu od roku 1993. V poslední době se snaží snížit informační náskok (asymetrii informací) svých konkurentů z řad velkých společností využitím pokročilých aplikací typu Business Intelligence za účelem získání lepší představy o segmentaci vlastních odběratelů a možnosti odhadu jejich rentability. Zinest s.r.o. tedy vnímá Business Intelligence jako nástroj ke zvyšovaná své konkurenceschopnosti na trhu prostřednictvím zlepšování výkonnostních ukazatelů v důsledku znalostí, které jí Business Intelligence analýzy přinášejí. Výzkumným zadáním pro aplikaci asociačních pravidel bylo nalézt shodné vlastnosti perspektivních a neperspektivních zákazníků společnosti. Autoři tohoto článku analýzu zpracovali dle obecně rozšířené metodiky dobývání znalostí z databází s názvem CRISP-DM. Dle této metodiky existuje šest fází úloh dobývání znalostí z databází. První fází reagující na zadání výzkumného problému je fáze porozumění problematice, která je dále následována fází porozumění datům. Po absolvování těchto počátečních fází následuje příprava dat, modelování, vyhodnocení a nakonec využití výsledků. Ve shodě s metodikou CRISP-DM byla mezi fázemi vícenásobná zpětná vazba.
4. Porozumění problematice a datům Autorům práce byl zadán jasně specifikovaný úkol, kterým bylo nalézt takové vlastnosti odběratelů společnosti Zinest s.r.o., které jsou shodné u perspektivních odběratelů. Stejně tak zadavatele zajímá, jestli existuje množina shodných znaků u odběratelů, kteří jsou z hlediska ekonomického přínosu pro společnost neperspektivní. Měřítkem perspektivnosti v tomto případě bude dosažená obchodní marže. Analýza se tedy zaměří na definici skupiny odběratelů s nejvyšší a nejnižší 42
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
dosahovanou obchodní marží. Obchodní marži je třeba vnímat z hlediska jejího jak relativního, tak i absolutního vyjádření. Odběratel, na kterém se společnosti daří realizovat vysokou relativní obchodní marži není perspektivním odběratelem, pokud odebírá zboží pouze v řádech tisíc Kč ročně a naopak. Oba ukazatele je tedy potřeba porovnat najednou a vymezit skupinu odběratelů s velkou absolutní i relativní obchodní marží oproti odběratelům s nízkou absolutní i relativní obchodní marží. Společnost Zinest s.r.o. zakoupila v roce 2004 ERP systém společnosti LCS 1 International s názvem Helios IQ. Konkrétní instalace databáze v současnosti obsahuje 1 228 tabulek, v naprosté většině číselníků. Díky dlouhodobé analytické činnosti zadavatele nad touto databází, která spočívala v tvorbě různých aplikačních řešení typu Business Intelligence, nebylo porozumění datům a vytipování dat, jejichž analýza by měla odpovědět na výzkumné zadání, velkým problémem. Složitější bylo zajistit dostatečnou kvalitu dat.
5. Příprava dat 5.1 Příprava datového skladu nad daty společnosti Zinest s.r.o. Příprava dat pro úlohy dobývání znalostí z databází je nejnáročnější fází tvorby 2 celého BI řešení a zabere 80% času , ať již se jedná o tvorbu transformačních procedur (oblast ETL), jejichž smyslem je transformovat a přenášet data z produkčních databází do datového skladu, který má být zdrojem OLAPu nebo ať se jedná o přípravu dat pro samostatnou aplikaci dobývání znalostí z databází. Zatímco pro OLAP aplikace můžeme datový sklad budovat buď naprosto denormalizovaný (tj. transformovat všechna data do jedné tabulky bez ohledu na redundance) nebo můžeme ponechat databázovou strukturu propojení tabulek přes cizí klíče (star nebo snowflake schéma), v případě asociačních pravidel je denormalizace podmínkou. Ne jinak tomu bylo i v případě této analýzy. Datový sklad, který byl sestaven za účelem provedení analýzy asociačních pravidel nad daty z produkční databáze společnosti Zinest s.r.o. obsahoval ukazatele z oblasti demografických dat (např. okres, kraj, počet obyvatel ve spádové oblasti), produktových dat (podíly ve spotřebním koši odběratele, např. podíl zboží značky P&G, podíl zboží druhu „holící potřeby“ apod.) a dat behaviorálních (převažující forma úhrady, podíl zboží zakoupeného v akci apod).
5.2
Příprava dat na straně systému LISp-Miner
Příprava dat na straně systému LISp-Miner probíhá ve dvou krocích. Tím prvním je samotná technická příprava dat, spočívající v propojení zdroje a metabáze a tím druhým je samotný výběr relevantních atributů pro tvorbu matice dat.
1
Od května 2007 ovládaná původně polskou, dnes spíše nadnárodní společností ASSECO. 2 Tento fakt, je zmíněn např. v [5] a i autoři tohoto článku jej mohou potvrdit na základě svých zkušeností, konkrétně i na základě příkladu popisovaného v tomto článku. SYSTÉMOVÁ INTEGRACE 4/2008
43
Daniel Rydzi, Jan Rauch
5.2.1 Příprava dat (propojení zdroje a metabáze) Metabáze je specializovaná databáze systému LISp-Mineru, která uchovává: •
definice transformací, kterými se vytváří matice dat z databázové tabulky
•
parametry definující množinu asociačních pravidel, která mají být verifikována
• množinu nalezených prostých pravidel Na obrázku 3 je proces transformace dat označen pořadovými čísly 1. a 2. Pořadové číslo 1. označuje první krok, kterým je propojení zvoleného datového zdroje (v našem případě je to datový sklad) s výchozí prázdnou metabází LISpMineru. To je úkolem procedury LMAdmin. Podstatnou podmínkou je, že datový zdroj musí být ve formě databáze přístupné přes ODBC.
Obr. 3: Obsah metabáze a proces práce s procedurou 4ft-Miner Z obrázku je dále patrné, že fázi přípravy dat obhospodařuje procedura LMDataSource, která je v systému LISp-Miner spustitelná samostatnou aplikací LMDataSource.exe.
5.2.2 Výběr atributů pro tvorbu matice dat Procedura LMDataSource (2. krok, viz. obr. 3) umožňuje z jednotlivých sloupců datového zdroje vytvářet atributy, ze kterých jsou později procedurou 4ft-Miner generovány booleovské atributy dle zadání množiny asociačních pravidel. Mezi hlavní možnosti procedury LMDataSource patří poměrně propracovaná volba tvorby intervalů (kategorií) z numerických proměnných. Na základě definované výzkumné otázky a zorientování se v problematice (viz. kapitoly 3 a 4) je třeba vybrat z datového zdroje takové sloupce tabulky, které představují data o obchodní marži (budoucí sukcedenty) a ty, které dle hrubého odhadu zadavatele a analytika mohou představovat takové vlastnosti odběratelů, které mohou být vysvětlujícími proměnnými vůči obchodní marži (budoucí antecedenty). V důsledku toho řešitelé vytvořili atributy ze sloupců vyjadřujících dosaženou absolutní i relativní obchodní marži konkrétního odběratele. Dále byly vybrány některé demografické údaje, to pro případ, že by na obchodní marži měla 44
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
vliv geografická působnost odběratele. Také byly vybrány všechny produktové údaje, čímž řešitelé reagují na informaci, že k jednotlivým skupinám zboží od různých dodavatelů definuje zadavatel přednastavené a doporučené hladiny výše relativní obchodní marže, tudíž by vliv na dosahovanou relativní obchodní marži v závislosti na podílu prodeje různých skupin zboží od různých dodavatelů měl být velice intenzivní. Nakonec byly vybrány behaviorální údaje o realizované formě úhrady a vážené průměrné době splatnosti, což reflektuje zájem zadavatele zjistit, jestli má délka splatnosti faktury vliv na realizovanou obchodní marži.
6. Modelování – příprava a generování asociačních pravidel Pro definici množiny asociačních pravidel a jejich verifikaci slouží modul 4ftTask.exe (viz krok 3 na obr. 3.). Modul 4ftTask.exe umožňuje definici množin relevantních antecedentů a sukcedentů, případně i podmínek. Pro definice je k dispozici řada jemných možností, které umožňují přizpůsobit množinu generovaných a verifikovaných asociačních pravidel řešenému problému. Při nevhodném zadání může dojít ke kombinatorické explozi (například pokud povolíme až desetičlenné literály ze 100 kategorií) a doba běhu procedury přesáhne rozumnou mez. Navíc asociační pravidlo s 5 a více literály již málokdy mívá nějaký manažersky uchopitelný význam. Například informaci, kterou nám poskytlo asociační pravidlo: ¬ A04_okres(Šumperk) ∧ ¬ A09_obchodni_zastupce(22) ∧ D04_vazeny_prumer_slev(0%;3%〉 ∧ A06a_pocet_obyvatel(0;1000〉 ∧ D05_podil_zbozi_v_akci(0) ⇒0.9, 0.2 D10_celkova_abs_obchodni_marze (0 Kč;1 000 Kč〉, a která vypovídá o tom, že s vysokou mírou intenzity (spolehlivost = 0,9) platí, že pokud odběratel není z okresu Šumperk a zároveň se o něj nestará obchodní zástupce s číslem22 100 a zároveň mu v roce 2007 byla udělena průměrná sleva na zboží mezi 0 až 3 procenty (přičemž z frekvenční analýzy vyplývá, že stejnou vlastností oplývá 30,3% odběratelů) a zároveň pokud odběratel pochází z obce do 1 000 obyvatel a navíc neodebral vůbec žádné zboží prodávané v jedné z 24 promočních akcí pořádaných v roce 2007, tak na něm bohužel společnost Zinest s.r.o. vydělala maximálně 1 000 Kč, nelze považovat za manažersky významnou. Kromě toho, že je zřejmé, že se jedná o neperspektivní vztah, obtížně by se na základě této informace činilo manažerské rozhodnutí. Oproti tomu pravidlo, byť platící s nižší mírou intenzity (spolehlivost = 0,7), které však obsahuje pouze jediný dílčí antecedent a které zní: D05_podil_zbozi_v_akci(0) ⇒0.7, 0.2 D10_celkova_abs_obchodni_marze (0 Kč;1 000 Kč〉, a které nám podává informaci o tom, že odběratelé, kteří od společnosti Zinest s.r.o. neodebírají žádné zboží v akcích, typicky nejsou perspektivní, již má silný manažerský význam.
SYSTÉMOVÁ INTEGRACE 4/2008
45
Daniel Rydzi, Jan Rauch
7. Vyhodnocování – prohlížení a interpretace asociačních pravidel Modul 4ftTask.exe vygeneruje a verifikuje všechna pravidla ze zadané množiny relevantních pravidel a uloží nalezená pravdivá pravidla do metebáze. Typicky se jedná o statisíce až miliony pravidel, doba generování je v minutách. Orientaci v nalezených pravdivých pravidlech umožňuje modul 4ftResult. Na obrázku 3 se jedná o čtvrtý krok analýzy asociačních pravidel.
7.1 Rozdělení odběratelů Pro to, abychom mohli analýzu asociačních pravidel považovat za úspěšnou, není zcela nezbytné nalézt překvapivé asociace s vysokou mírou intenzity. I nenalezení takových pravidel může být považováno za úspěch. V naší analýze jsme se nejprve zaměřili na zjišťování asociačních pravidel, která se vztahují k dolnímu a hornímu kvantilu odběratelů, na kterých se společnosti Zinest s.r.o. daří realizovat nejnižší a nejvyšší obchodní marži. Relativní obchodní marží v tomto případě rozumíme podíl absolutní obchodní marže (resp. rozdílu mezi prodejní a nákupní cenou) na realizovaných tržbách. Z analýzy rozdělení četností při tvorbě atributu vyplynulo, že 5,4% odběratelů nakoupilo v roce 2007 od společnosti Zinest s.r.o. zboží s obchodní marží do 10%. Tito odběratelé nepřinesli společnosti žádný pozitivní ekonomický efekt a informace, která by vedla k odhalení toho, co mají tito odběratelé společného by byla velmi cenná.
Obr. 4: Frekvenční analýza rozdělení relativní obchodní marže realizované na zákaznících společnosti Zinest s.r.o. v roce 2007 vytvořená v proceduře LMDataSource. Naopak dle frekvenční analýzy (viz. obr. 4) v roce 2007 nakoupilo od společnosti Zinest s.r.o. celkem 14,2 % odběratelů zboží, na kterém společnost zrealizovala obchodní marži mezi 17,5 až 20% a v případě dalších dokonce 14,5% odběratelů se společnosti podařilo zrealizovat obchodní marži vyšší než 20%. Takoví 46
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
odběratelé samozřejmě vedení společnosti zajímají, protože ty je třeba podporovat. Jedná se o velice perspektivní odběratele.
7.2
Vlivy ukazatelů
V první fázi modelování se analytici snažili dát obchodnické schopnosti odběratelů do vztahu k jejich demografickým či behaviorálním vlastnostem, nicméně téměř bezvýsledně. V dalším kroku analýzy se proto snažili vysvětlit nízkou a vysokou obchodní marži spíše závislostí na produktových ukazatelích. Společnost Zinest s.r.o. nakupuje své zboží od různých dodavatelů, přičemž platí, že na různých druzích zboží od různých dodavatelů přednastavuje různou obchodní marži. Jako příklad nejnižší realizované obchodní marže může sloužit všeobecné známé a rozšířené zboží největšího světového producenta drogistického zboží a kosmetiky – společnosti Procter a Gamble (P&G), jako protipól může sloužit dovážené zboží z Jižní Koree a Polska, na kterém společnost tradičně realizuje nejvyšší obchodní marži. Obchodní zástupci používají přednastavené ceny (a tudíž i obchodní marži) jako výchozí. Mohou ji navýšit navýšením ceny nebo snížit ponížením ceny, případně udělením slevy. Vzhledem k tomu, že jsou placeni podílem z obchodní marže společnosti, je v tomto ohledu jejich loajalita vůči společnosti víceméně zaručena. Při této fázi analýzy došlo k přesnějšímu vymezení perspektivních a neperspektivních odběratelů. Za neperspektivní odběratele byli považováni ti, na nichž realizovaná relativní obchodní marže dosahovala maximálně 12,5% (přičemž tuto podmínku splňuje přesně 21% odběratelů, viz. obr. 4) a zároveň na nichž realizovaná absolutní marže dosahovala v roce 2007 méně než 5 000 Kč (jedná se o 41,3% odběratelů). Za perspektivní odběratele byli naopak zvoleni ti, na nichž realizovaná relativní obchodní marže dosahovala minimálně 17,5% (přičemž tuto podmínku splňuje 28,7% odběratelů) a zároveň na nichž realizovaná absolutní marže dosahovala v roce 2007 alespoň 5 000 Kč (jedná se o 58,7% odběratelů). Tímto modelem byli odběratelé segmentováni v souladu se zadanou výzkumnou otázkou definovanou v kapitole 3.
7.2.1 Analýza neperspektivních odběratelů Při analýze neperspektivních odběratelů bylo zjištěno například toto asociační pravidlo: D02_vazeny_prumer_doby_splatnosti(0) ∧ C03b_pece_o_telo_a_koupel(0;0.25〉 ∧ C07a_holici_potreby(0) ⇒0,7, 0,02 D10_celkova_abs_OM(0;5 000> ∧ D11_celkova_rel_OM(0;0.125〉 , přičemž pro toto pravidlo procedura 4ft-Miner vypočítala následující hodnoty čtyřpolní tabulky:
M
Suc
Ant a = 22 ¬Ant c = 79 k = 101 SYSTÉMOVÁ INTEGRACE 4/2008
¬Suc b=8 d = 972 l = 980
r = 30 s = 1051 n = 1081 47
Daniel Rydzi, Jan Rauch
Symbol k nás informuje o počtu pozorování, pro které platí sukcedent (odběratel je neperspektivní z hlediska obchodní marže). Vidíme, že se jedná o 101 odběratelů, což je téměř 10% všech odběratelů. Díky tomu, že se v analýze specializujeme na neperspektivní odběratele, u kterých neočekáváme, že jich bude významné procento z celkového počtu, musíme také volit nízkou BASE (neboli podporu), abychom pravidlo zbytečně neodfiltrovali. V tomto případě zvolíme BASE pouhá 2% z celkového počtu pozorování. Při běžné analýze by volba pouhých dvou procent významně snížila vypovídací schopnost asociačního pravidla, jelikož takové pravidlo by bylo statisticky nerelevantní. V tomto případě tomu tak však není. Z čtyřpolní tabulky dále vyplývá, že z 30 odběratelů, kteří splňují antecedent, jich 22 splňuje také sukcedent, přičemž těchto 22 odběratelů představuje více než 20% všech neperspektivních odběratelů. Spolehlivost tohoto pravidla je měřena právě podílem a/r a je v tomto případě rovna 0,733, což představuje relativně silnou intenzitu. Asociační pravidlo lze interpretovat tak, že relativně hodně odběratelů, kteří nejsou pro společnost Zinest s.r.o. přínosem, má společného to, že jim není udělována doba splatnosti (platí hotově), nenakupují žádné holicí potřeby a zboží kategorie „péče o tělo a drogerie do koupele“ tvoří až 25% všeho, co od společnosti nakoupí (posledně zmíněný fakt platí pro 84% odběratelů). Další asociační pravidlo praví, že: B02b_pg(0.25;0.5> ∧ C02a_kosmetika(0) ∧ C05a_detska_drogerie(0) ⇒0,7, 0,02 D10_celkova_abs_OM(0;5 000> ∧ D11_celkova_rel_OM(0;0.125〉, přičemž toto pravidlo má téměř shodné hodnoty a i b s předchozím. V tomto pravidle se dozvídáme, že pro 20% neperspektivních odběratelů platí, že nakupují relativně hodně zboží značky Procter&Gamble (mezi 20 až 50 % svých celkových odběrů, což ovšem platí pro 46% všech odběratelů) a zároveň, že v roce 2007 nekoupili žádnou kosmetiku ani žádnou dětskou drogerii (což platí v obou případech přibližně pro 30% všech odběratelů). Takovýchto asociačních pravidel při zvolených kritériích kvantifikátoru fundované implikace nalezla aplikace přes 80. Jejich zkoumáním byl přijat závěr, že nejvíce asociačních pravidel vypovídá o nulové době splatnosti a nenakupováním zboží s vyšší přidanou hodnotou, jako jsou holící potřeby nebo kosmetika a naopak s relativně vysokým podílem nákupu zboží s nižší přidanou hodnotou (resp. obchodní marží), jako jsou prací prášky nebo domácí potřeby. Na základě těchto zjištěných hodnot byli obchodní zástupci (poté, co jim byl předán příslušný seznam jejich neperspektivních odběratelů) instruováni, aby v následujícím období zaměřili své prodejní snahy na prodej luxusnějšího zboží s tím, že odběratelům mohou nabídnout platbu platebním příkazem nebo alespoň čtrnáctidenní dobu splatnosti. Smyslem této aktivity je vyzkoušet, zda-li tito odběratelé do 14 dnů budou schopni odprodat malé množství např. kosmetiky a v případě, že ano, začlenit takový druh zboží do jejich stálého sortimentu. Na druhou stranu v případě neúspěchu této aktivity je společnost připravena s těmito odběrateli rozvázat smluvní vztah.
48
SYSTÉMOVÁ INTEGRACE 4/2008
Aplikace asociačních pravidel ve společnosti Zinest s.r.o.
7.2.2 Analýza perspektivních odběratelů Při analýze perspektivních odběratelů bylo zjištěno například toto asociační pravidlo: B05a_import(10 000;inf) ∧ B05b_import(0.25;0.5〉 ⇒0,7, 0,03 D10_celkova_abs_OM (5 000; ∞) ∧ D11_celkova_rel_OM (0.175;∞) , s parametry čtyřpolní tabulky:
M
Suc
Ant a = 33 ¬Ant c = 134 k = 167
¬Suc b = 11 d = 903 l = 914
r = 44 s = 1037 n = 1081
Z hodnot čtyřpolní tabulky vyplývá, že existuje 167 značně perspektivních odběratelů (reps. odběratelů splňujících sukcedent). Vzhledem k tomu, že je to číslo jen o málo vyšší než v případě neperspektivních odběratelů, byla hodnota BASE ve fundované implikaci zvýšena jen o 1% (z 2% na 3%). S poměrně vysokou spolehlivostí (0,75) toto asociační pravidlo potvrdilo již očekávaný fakt, a to ten, že nejperspektivnější odběratelé odebírají relativně hodně importovaného zboží na kterém realizuje společnost Zinest s.r.o. vysokou obchodní marži. První dílčí antecedent vypovídá o absolutní hodnotě prodaného importovaného zboží. Nejperspektivnější odběratelé odebrali od společnosti importované zboží v hodnotě větší než 10 000 Kč, přičemž se jedná o horní interval této kategorie, který splňuje 25,7% všech odběratelů. Druhý dílčí antecedent vypovídá o relativním zastoupení importovaného zboží vzhledem k ostatním druhům zboží. Zboží z dovozu tvořilo podíl mezi 25 a 50% všeho nakoupeného zboží u pouhých 9,8 % všech odběratelů. Vzhledem k tomu, že počet perspektivních odběratelů je větší než počet těch neperspektivních a také díky jejich jasnějšímu profilu, vygenerovala procedura 4ft Miner při více omezující hodnotě parametru BASE než v případě neperspektivních odběratelů dokonce několik set asociačních pravidel. Nutno přiznat, že v drtivé většině se v antecedentech objevovaly údaje o vysokém relativním a absolutním zastoupení importovaného zboží a naopak o nízkém relativním i absolutním zastoupní v tuzemsku nakoupeného zboží značky Procter&Gamble.
8. Jak mohou asociační pravidla jako součást BI přispět k manažerskému rozhodování Informaci a blahodárných účincích prodeje importovaného zboží oproti tuzemsky nakupovanému zboží značky Procter&Gamble, získává vedení společnosti každý měsíc také i z multidimenzionálního BI reportingu vytvořeného nad OLAP kostkou. Analýza asociačních pravidel v tomto ohledu jen znovu důrazně potvrdila potřebu orientovat společnost na prodej dovezeného zboží, především kosmetiky a omezovat nevýdělečný prodej těžkých pracích prášků společnosti Procter&Gamble. Nezanedbatelnou přidanou hodnotou analýzy asociačních pravidel je však SYSTÉMOVÁ INTEGRACE 4/2008
49
Daniel Rydzi, Jan Rauch
potvrzení toho, že nejperspektivnější odběratelé skutečně patří mezi největší odběratele importovaného zboží. Před provedením této analýzy se vzhledem k nízkému celkovému obratu importovaného zboží vůči zboží P&G odhadovalo, že mezi nejperspektivnější odběratele mohou patřit odběratelé, kteří odeberou nepatrné procento importovaného zboží, ale velké množství spotřebního zboží značky P&G. Vzhledem k tomu, že prodej značky P&G právě prochází druhým zkušebním rokem a vedení společnosti uvažuje o jeho omezení až uzavření, byla doposud tato myšlenka hlavním protiargumentem ukončení spolupráce. Výsledky této analýzy však nasvědčují, že zmíněné obavy jsou liché a zřejmě budou sloužit k podpoře významného manažerského rozhodnutí směřujícího k ukončení spolupráce se společností Procter&Gamble ČR. Závěrem tedy nezbývá než konstatovat, že asociační pravidla jsou mocnou technikou z oblasti dobývání znalostí databází, která může být, jako součást konceptu BI, prospěšná i malým a středním podnikům. V tomto článku jsme se seznámili s možnostmi, kterak implementovat asociační pravidla ve firmě krok za krokem a jak analyzovat jejich výstupy. Při dostatečné míře zajištěné kvality dat a kvalifikované síly, mohou asociační pravidla s minimem nákladů podporovat manažerská rozhodnutí i malých a středních podniků.
Literatura [1] AGRAWAL, R., MANILLA H., SRIKANT, R., TOIVONEN, H., VERKAMO, A. I.:Fast Discovery of Association Rules. In FAYYAD, U. M., PIATETSKY-SHAPIRO, G., SMYTH, P., UTHURUSAMY, R. (eds.). Advances in Knowledge Discovery and Data Mining. Cambridge, Massachusetts: AAAI/MIT Press, 1996. [2] HÁJEK, P., HAVEL, I., T., CHYTIL, M. K.: Metoda GUHA automatického vyhledávání hypotéz. Kybernetika 2, 1966, s. 31-41 [3] HÁJEK, P., HAVRÁNEK, T., CHYTIL, M. K.: Metoda GUHA. Praha, Academia, 1983, 314 s. [4] RAUCH, J., ŠIMŮNEK M.: An Alternative Approach to Mining Association Rules. In: Lin T. Y., Ohsuga S, Liau C J, and Tsumoto S (eds) Data Mining: Foundations, Methods, and Applications, Springer-Verlag, 2005, s. 219 - 238. [5] NOVOTNÝ, O., POUR, J., SLÁNSKÝ, D.: Business Intelligence. 1. vydání Praha: Grada, 2005. 254 s. ISBN 80-247-1094-3.
50
SYSTÉMOVÁ INTEGRACE 4/2008