ISKI 2008 – Vedecko-výskumná činnosť v oblasti využívania IKT
Sledování vztahu zákazníka a poskytovatele prostředky asociační analýzy Customer–Provider Relationship Monitoring by Association Analyse Means Naděžda Chalupová, Arnošt Motyčka Mendelova zemědělská a lesnická univerzita v Brně Provozně ekonomická fakulta, Ústav informatiky,
[email protected],
[email protected]
Abstrakt
Keywords
Příspěvek se věnuje možnostem využití asociačních pravidel pro podporu manažerského rozhodování. Tato pravidla představují znalosti popisující frekventované vzory vyskytující se v databázi. Možnosti uplatnění asociační analýzy jsou ilustrovány na problému internetového obchodu, který chce přesněji zacílit nabídku svého zboží zákazníkům. Pozornost je věnována formulaci úlohy, předzpracování a přípravě dat pro úlohu a v neposlední řadě také interpretaci získaných znalostí. Pro řešení úlohy bylo použito softwarového nástroje Enterprise Miner společnosti SAS Institute Inc.
Abstract The contribution deals with possibilities of association rules using for support of managerial decision-making. These rules represent knowledges describing frequent patterns occurring in database. The possibilities of association analyze application are illustrated on a problem of an internet shop, that wants to target more precisely the offer of its goods for customers. An attention is dedicated to problem formulation, data pre-processing and preparation and last but not least to discovered knowledges interpretation too. Software tool Enterprise Miner by company of SAS Institute Inc. was used for problem solution.
Klíčová slova asociační pravidla, asociační znalostí, podpora rozhodování
analýza,
získávání
Association rules, association analysis, knowledge discovering, decision support
1
Úvod
Sledování chování zákazníků je nezbytné, pokud chce firma obstát v současném konkurenčním prostředí trhu. Podnikoví manažeři odpovědní za obchodní úspěch či neúspěch organizace proto potřebují získávat znalosti potřebné pro přijetí správného rozhodnutí. Tyto znalosti představují sofistikované informace ukryté v datech, které má podnik k dispozici. Novotný, Pour a Slánský (2005) uvádějí, že objem dat se v podniku zdvojnásobí v průměru každých pět let, což znamená, že v současné době již není problém data získat a uchovat, ale efektivně je zpracovat a využít jejich potenciál. Možností, jak zmiňované znalosti z dat získat, je využít prostředků tzv. dataminingu. Tento obor se zabývá otázkami, jak nalézt v datech souvislosti, které nejsou přímo zřejmé a které napomáhají lépe porozumět firemním procesům. Jednou z významných metod dataminingu je hledání asociací, které mohou výrazně pomoci například při plánování marketingových strategií, tvorbě produktových balíčků, při péči o zákazníky, detekci podvodů atd.
2
Asociační pravidla
Asociační pravidla patří k jedněm z nejčastěji používaných prostředků pro reprezentaci znalostí. Pravidla popisují znalosti vyjadřované obecně konstrukcí IF-THEN, nebo se lze setkat se vztahem (Berka, 2003): předpoklad ⇒ závěr
37
ISKI 2008 – Vedecko-výskumná činnosť v oblasti využívania IKT
Typické využití asociační analýzy je v souvislosti s tzv. analýzou nákupního košíku. Jejím cílem je nalezení častých vzorů, tj. zjištění, jaké druhy zboží si zákazníci často kupují společně. Asociační pravidla zde vyjadřují určitý závěr vyplývající z analýzy jednotlivých nákupů, například, že když si zákazník koupí nový počítač, kupuje si často i operační systém a antivirový program (Han, Kamber, 2006). Při vytváření pravidel jde o hledání vzájemných vazeb (asociací) mezi různými položkami, přičemž není upřednostňován žádný vztah (Berka, 2003).
2.1
Zajímavost pravidel
Skutečnost, zda je nalezené pravidlo pro uživatele analýzy zajímavé a užitečné, určují parametry pravidla, které kvantitativně na základě četností výskytu daných položek hodnotí nalezené znalosti. Základními charakteristikami jsou (Berka, 2003; Han, Kamber, 2006): • podpora (support) – absolutní, popř. relativní (častěji) počet položek splňujících předpoklad i závěr, • spolehlivost (confidence) – podmíněná pravděpodobnost závěru, pokud platí předpoklad. Podpora (v relativním vyjádření) tedy značí, jak často se v databázi vyskytuje kombinace určitých položek. Jde o hodnotu vypočtenou na základě vztahu:
P( predpoklad∧ zaver) =
a a +b +c +d
kde: a je počet položek splňujících současně předpoklad i závěr, • b je počet položek splňujících předpoklad a nesplňujících závěr, • c je počet položek nesplňujících předpoklad, ale splňujících závěr, • d je počet položek nesplňujících ani předpoklad ani závěr. V absolutním vyjádření je podpora rovna a. Spolehlivost se též nazývá platnost (validity), konzistence (consistency), nebo správnost (accuracy) a udává, jak často se objeví závěr (důsledek), pokud se vyskytl předpoklad. To vyjadřuje vztah:
•
P( predpoklad ∧ zaver) =
a a +b
podmíněná pravděpodobnost předpokladu pokud platí závěr nebo kvalita – vážený součet spolehlivosti a pokrytí. Berka (2003) se také zmiňuje o dalších pojetích asociačních pravidel, kde se, kromě výše uvedené podpory a spolehlivosti (oboje je zde s přívlastkem deskriptivní), kvantifikuje např. kauzální podpora, kauzální spolehlivost, zajímavost či závislost pravidla. Při generování pravidel se prochází prostor všech přípustných kombinací. Kombinace má svojí délku, což je počet položek, ze kterých se pravidlo skládá. Pokud je např. délka 3, pravidlo má buď dvoupoložkový předpoklad a jednopoložkový závěr nebo naopak. Tímto údajem, tzn. maximálním počtem položek pravidla, často bývá v aplikacích pro generování pravidel toto generování omezováno, neboť příliš velký počet položek pravidla jednak neúměrně zvyšuje výpočetní náročnost úlohy, a také velmi zesložiťuje interpretaci samotného pravidla.
3
Dolovací úloha
Řešený problém je zpracován z pohledu internetového obchodu, jehož zájmem je z dostupných dat získat informace o tom, které komodity zákazník prostřednictvím elektronických obchodů často nakupuje a o které by potenciálně mohl mít zájem. Například pro manažera internetového obchodu je zajímavé zjistit, jaká část zákazníků nakupujících přes internet oblečení, nakupuje také knihy nebo vyjádřila svůj zájem nakupovat další druh zboží. Nalezené asociace pak mohou napomoci při tzv. křížovém – snahy, jejichž účelem je navýšit objednávku zákazníka doporučením jiných produktů nabízených společností (Clemente, 2004) a následném – aktivity, jejichž cílem je nabídnout zákazníkovi vyšší/pokročilejší a tedy i dražší model/verzi produktu) prodeji (Parr Rud, 2001). Na následujícím obrázku je znázorněno blokové schéma řešené úlohy v nástroji Enterprise Miner společnosti SAS Institute Inc. Komponenta WORK.OMNIBUS07_INTERNETOVE_NAKUPOV ANI symbolizuje zdroj dat pro dolování a zajišťuje nahrání těchto dat do úlohy. Komponenta Association představuje algoritmus pro zpracování definovaných dat.
kde použité symboly jsou stejného významu jako ve výše uvedeném vztahu.
2.2
Další parametry pravidel
Kromě výše uvedených základních parametrů asociačních pravidel se sledují další důležité charakteristiky jako např. pokrytí (coverage) –
38
ISKI 2008 – Vedecko-výskumná činnosť v oblasti využívania IKT
Obr. 1 Blokové schéma úlohy dolování asociačních pravidel V komponentě datového zdroje jsou také nastaveny role jednotlivých proměnných v modelu (zejména jde o to, které proměnné do modelu vstupují a které jsou cílové) – v této úloze vystupují pouze dvě proměnné (o požadované struktuře dat je pojednáno dále), jako cílová je definována proměnná (atribut) vyjadřující minulé a potenciální internetové nákupy zákazníka určeného proměnnou PID, která vstupuje do modelu v roli identifikátoru. V komponentě vyhledávání asociačních pravidel jsou specifikovány tyto parametry omezující generování pravidel: minimální podpora asociace v této úloze nastavená na 10% maximální počet položek pravidla zde nastavená na 3 minimální spolehlivost pro generování pravidla v tomto případě nastavená na 20%
3.1
Zdrojová data
K realizaci dolovací úlohy byla použita data poskytnutá Ing. Ladislavem Stejskalem, partnerem a koordinátorem šetření Omnibus 2007 za Ústav marketingu a obchodu Provozně ekonomické fakulty Mendelovy zemědělské a lesnické univerzity. 3.1.1
Popis a obsah dat
Zpracovávaná data reprezentují odpovědi dotazovaných respondentů na jednotlivé otázky z Dotazníku pro občany v rámci šetření OMNIBUS 2007. Jedná se o dotazníkové šetření pořádané Vysokou školou evropských a regionálních studií, o.p.s. v Českých Budějovicích ve spolupráci s Českou zemědělskou univerzitou v Praze, Západočeskou univerzitou v Plzni, Vysokou školou polytechnickou v Jihlavě, Mendelovou zemědělskou a lesnickou univerzitou v Brně, Stredoeurópskou vysokou školou ve Skalici a Slovenskou poľnohospodárskou univerzitou v Nitre. Cílem uvedeného šetření je zjištění názorů občanů na otázky týkající se zejména problematiky investičního rozhodování, regionálního rozvoje a veřejné správy,
spotřebitelského chování, trhu cestovního ruchu a trhu potravin. Data, která jsou zpracovávána v rámci této dolovací úlohy, mají podobu jedné tabulky o necelých stopadesáti sloupcích a více než dvou tisících řádcích. Každý záznam (řádek) představuje jeden vyplněný dotazník. Jednotlivé atributy (sloupce) představují konkrétní odpověď respondenta na určitou otázku v dotazníku. Tyto atributy mohou také být pouze částí odpovědi, a to v případě, že v odpovědi bylo možné vybrat více variant nebo určit důležitost varianty – každá varianta představovala jeden atribut, který mohl nabývat více hodnot. Data byla získána pomocí několika technik sběru dat, např. papírové dotazníky, různé varianty webových formulářových dotazníků (každá instituce podílející se na výzkumu shromažďovala data do svých databází). Z této skutečnosti pak pramenila potřeba sjednotit podobu dílčích datových zdrojů. 3.1.2
Předzpracování dat
Z důvodu výše zmíněné různorodosti zdrojů a i dalších nedostatků v datech bylo nutné všechna data konsolidovat do jediného zdroje a nadále je upravit. Snahou těchto transformací bylo upravit data do jednotného formátu (struktury) vhodného pro dolování. Nežádoucím jevem v datech byly různé logické chyby, například v části dotazníku zjišťující od respondenta základní identifikační údaje docházelo k tomu, že v jedné otázce bylo zadáno státní občanství a v jedné z dalších otázek, nezávisle na výše uvedené odpovědi, vybrán region bydliště, přičemž bylo možné jako státní občanství zadat např. Českou republiku a zároveň z regionů vybrat např. Bratislavský kraj. Tento nesoulad bylo naštěstí možné ve většině případů odstranit dohledáním regionu bydliště respondenta podle uvedené obce a upravením příslušných atributů (špatně uvedeného státu nebo kraje) – jiná část šetření se totiž zabývala spokojeností s různými oblastmi života v místě bydliště respondenta a toto bydliště zde bylo také uvedeno. Tímto způsobem často byly i doplněny některé chybějící hodnoty atributů, které bylo možné odvodit z atributů jiných. Z určitých skupin dat byly odstraněny další nesrovnalosti způsobené integrací několika zmiňovaných datových zdrojů. V některých skupinách dat bylo u příslušného atributu uvedeno „ano“ nebo „ne“ (označený příslušný checkbox ve webovém formuláři), v jiných podmnožinách dat byly tyto atributy prázdné a jiný atribut obsahoval souhrnnou odpověď – řetězec obsahující označení jednotlivých položek vybraných respondentem (např. mezerami či jinak oddělená písmena a, b, c atd.). Z těchto řetězců byla tato jednotlivá označení (písmena) vyextrahována
39
ISKI 2008 – Vedecko-výskumná činnosť v oblasti využívania IKT
a do příslušného sloupce přenesena správná hodnota – např. v MS Excelu v buňkách příslušného sloupce funkcí =KDYŽ(JE.CHYBHODN(NAJÍT("a";
; 1)); ""; "ano"). Použitím nejen uvedených způsobů vedoucích k vyčištění a zhodnocení dat, se však všechna negativa odstranit nepodařilo. Pro dolování asociačních pravidel v této úloze ale byly použity atributy, jejichž negativa bylo možné odstranit. Zmiňované nedostatky se objevují v atributech, jejichž hodnoty z převážné většiny nebylo možné zařadit do několika (cca max. deseti) kategorií. Takovými jsou např. uvedení různých názorů nebo zdůvodnění spokojenosti či nespokojenosti zákazníka s produktem. 3.1.3
Příprava dat pro dolování
Před vlastním dolováním asociačních pravidel bylo nutné vybrat atributy, které budou do procesu vstupovat a upravit je do podoby zpracovatelné dataminingovým nástrojem. Požadovaná struktura dat je demonstrována následující tabulkou. Tab. 1 Ukázka struktury dat pro dolování asociačních pravidel 1 1 1 2 2 2
pivo chleba ovoce pivo čokoláda chleba První sloupec je označení (identifikační číslo) zákazníka, druhý sloupec udává zboží, které zákazník koupil. Nejsou zde uvažovány další faktory, jako je množství zakoupeného druhu výrobku nebo čas jeho zakoupení (předpokládá se, že nákupy všech uvedených položek byly provedeny současně), neboť tyto skutečnosti jednak nebylo možné z odpovědí respondentů získat, a také pro tuto úlohu nejsou důležité – pro jednoduchost postačuje informace, zda si zákazník určitý druh zboží někdy prostřednictvím internetového obchodu zakoupil. Pro transformaci zdrojových dat z podoby demonstrované následující tabulkou do požadovaného formátu bylo využito kancelářského databázového systému MS Access. První sloupec tabulky zde opět udává identifikaci zákazníka a další sloupce udávají informaci o tom, zda si zákazník příslušný druh zboží zakoupil či nikoliv.
Tab. 2 Ukázka struktury zdrojových dat PID A6_obleceni A6_knihy A6_elektro 1 ano ne ano 2 ano ano ne 3 ano ano ano Příprava dat sestávala ze dvou základních kroků: vybrání požadovaných sloupců tabulky (zdrojových dat) a nahrazení příslušných hodnot novou vhodnější hodnotou vyjadřující nákup či zájem o nákup konkrétního produktu „sesypání“ dvojic položek zákazník–nákup do jedné dvousloupcové tabulky. První krok byl realizován SQL příkazem: SELECT PID, IIF(A6_media="ano","eshop_media",NULL) AS A6_media, IIF(A6_elektro="ano","eshop_elektro",NULL) AS A6_elektro, IIF(A6_klenoty="ano","eshop_klenoty",NULL) AS A6_klenoty, IIF(A6_tisk="ano","eshop_tisk",NULL) AS A6_tisk, IIF(A6_kosmetika="ano","eshop_kosmetika", NULL) AS A6_kosmetika, IIF(A6_obleceni="ano","eshop_obleceni",NULL) AS A6_obleceni, IIF(A6_potraviny="ano","eshop_potraviny", NULL) AS A6_potraviny, IIF(A6_jine <> "ne" AND A6_jine IS NOT NULL,"eshop_" & A6_jine,NULL) AS A6_jine, IIF(A8_cerstve="spíše ano" OR A8_cerstve = "rozhodně ano","zajem_cerstve",NULL) AS A8_cerstve, IIF(A8_trvanlive="spíše ano" OR A8_trvanlive = "rozhodně ano","zajem_trvanlive",NULL) AS A8_trvanlive, IIF(A8_napoje="spíše ano" OR A8_napoje = "rozhodně ano","zajem_napoje",NULL) AS A8_napoje, IIF(A8_prumyslove="spíše ano" OR A8_prumyslove = "rozhodně ano", "zajem_kosmetika",NULL) AS A8_kosmetika FROM omnibus;
Při výběru relevantních atributů ze zdrojových dat byly rovnou funkcí IIF nahrazeny hodnoty určitých položek požadovanými hodnotami a to následujícím způsobem: U atributů týkajících se již provedených nákupů v případě, že položka obsahovala hodnotu „ano“, byla nahrazena řetězcem vyjadřujícím nákup příslušného produktu, v případě, že obsahovala jinou hodnotu („ne“) nebo neobsahovala žádnou hodnotu, byla tato položka nahrazena hodnotou NULL, tzn. hodnota byla „vymazána“. U atributů týkajících se zájmu o budoucí elektronické nakupování občanů vyjádřených úrovní tohoto zájmu byly pro jednoduchost položky obsahující hodnotu „spíše ano“ nebo „rozhodně ano“ chápány pouze jako zájem o nákup toho konkrétního produktu („vážnost“ toho zájmu nebyla zohledněna). Tyto hodnoty byly
40
ISKI 2008 – Vedecko-výskumná činnosť v oblasti využívania IKT
nahrazeny řetězcem vyjadřujícím zájem o nákup této komodity a ostatní hodnoty byly opět odstraněny. Výsledkem výše uvedeného příkazu byl nový datový zdroj použitý v následujícím příkazu implementujícím druhou fázi přípravy dat. SELECT PID, A6_elektro AS nakup FROM nakupovani WHERE A6_elektro IS NOT NULL UNION SELECT PID, A6_klenoty FROM nakupovani WHERE A6_klenoty IS NOT NULL UNION SELECT PID, A6_media FROM nakupovani WHERE A6_media IS NOT NULL UNION SELECT PID, A6_kosmetika FROM nakupovani WHERE A6_kosmetika IS NOT NULL UNION SELECT PID, A6_obleceni FROM nakupovani WHERE A6_obleceni IS NOT NULL UNION SELECT PID, A6_potraviny FROM nakupovani WHERE A6_potraviny IS NOT NULL UNION SELECT PID, A6_tisk FROM nakupovani WHERE A6_tisk IS NOT NULL UNION SELECT PID, A6_jine FROM nakupovani WHERE A6_jine IS NOT NULL UNION SELECT PID, A8_cerstve FROM nakupovani WHERE A8_cerstve IS NOT NULL UNION SELECT PID, A8_trvanlive FROM nakupovani WHERE A8_trvanlive IS NOT NULL UNION SELECT PID, A8_kosmetika FROM nakupovani WHERE A8_kosmetika IS NOT NULL UNION SELECT PID, A8_napoje FROM nakupovani WHERE A8_napoje IS NOT NULL;
V tomto druhém kroku šlo již pouze o sloučení výsledků několika dotazů obsahujících vždy dvojici „zákazník–nákup/zájem o nákup určitého druhu produktu“, kde druhá položka dvojice byla neprázdná (obsahovala řetězec vyjadřující nákup či zájem o nákup příslušného druhu produktu). Konečná tabulka sestávala ze dvou sloupců (viz tab. 1) a téměř čtyřech tisíc (přesně 3965) řádků.
3.2
Výsledky a jejich interpretace
I přes výše uvedená nastavená omezení generování pravidel, byla z dat vytvořena stovka asociačních pravidel, z nichž pouze některá pro koncového uživatele analýzy lze považovat za zajímavá. Čím vyšší je podpora a spolehlivost, tím má pravidlo větší vypovídací hodnotu a je tedy i zajímavější. Výsledkům, které mají malou podporu, nelze přikládat velkou důležitost. Seznam a význam některých nejzajímavějších pravidel následuje: zajem_napoje ⇒ zajem_kosmetika [podpora: 25.45%, spolehlivost: 78.67%] ve čtvrtině všech transakcí (druhy zboží nakoupené přes internet či zájmů o nákupy určitých druhů zboží přes internet) se vyskytují tyto dvě položky (zájem o nákup nápojů a kosmetiky) společně téměř 80% respondentů, kteří uvedli, že mají zájem o nákup nápojů přes internet, také uvedli, že mají zájem o nákup kosmetiky přes internet
eshop_tisk ⇒ zajem_napoje [podpora: 10.52%, spolehlivost: 36.94%] v cca 10% všech transakcí se vyskytuje společně nákup tiskovin a zájem o nákup nápojů přibližně v 37% všech transakcí, kde zákazník nakupuje přes internet tiskoviny, má také zájem o nákup nápojů
4
Závěr
Postupy uvedené v tomto příspěvku demonstrují možnosti využití prostředků dataminingu v řízení vztahu se zákazníky (CRM – Customer Relationship Management) – v oblasti odhalování zajímavých vzorců chování stávajících zákazníků. Asociační pravidla mohou manažerovi pomoci především ve fázi hledání řešení problému např. jak zvýšit prodej – dokážou napovědět při sestavování cílených nabídek (jaké produkty nabídnout při koupi jiných produktů). Je však nutné zdůraznit skutečnost, že aby bylo možné vzniklá pravidla použít jako podklad pro rozhodnutí o podobě nabídek, je samozřejmě nutné přihlédnout k charakteru dat. Jak bylo zmíněno v článku, v tomto případě data představují odpovědi respondentů dotazníkového šetření, kde není možné ošetřit pravdivost odpovědí nebo náhodnost toho, že někdo v dotazníku „něco rychle nakliká (či zaškrtne)“ na rozdíl například od reálných podnikových dat, které obsahují skutečné výsledky chování zákazníků (jejich skutečné nákupy, placení apod.). Ne vždy je proto možné datům (a tedy i pravidlům) plně důvěřovat a záleží výhradně na osobě manažera, do jaké míry se nechá v rozhodování výsledky analýzy ovlivnit.
Literatura [1] Berka, P. Dobývání znalostí z databází. 1. vyd. Praha: Academia, 2003, 368. s. ISBN 80-200-1062-9. [2] Clemente, M. N. Slovník marketingu. 1. vyd. Brno: Computer Press, 2004, 378 s. ISBN 80-251-0228-9. [3] Han, J., Kamber, M. Data Mining Concepts and Techniques. 2. vyd. San Francisco: Morgan Kaufmann, 2006, 800 s. ISBN 1-55860-901-6. [4] Novotný, O., Pour, J., Slánský, D. Business Intelligence Jak využít bohatství ve vašich datech. 1. vyd. Praha: Grada Publishing, 2005, 256 s. ISBN 80-247-1094-3. [5] Parr Rud, O. Data Mining Praktický průvodce dolováním dat pro efektivní prodej, cílený marketing a podporu zákazníků (CRM). 1. vyd. Praha: Computer Press, 2001, 329 s. ISBN 80-7226-577-6.
41
ISKI 2008 – Vedecko-výskumná činnosť v oblasti využívania IKT
Poděkování Článek vznikl za podpory výzkumného záměru Provozně ekonomické fakulty Mendelovy zemědělské a lesnické univerzity v Brně, MSM 6215648904/03/03/02 a projektu IG 180601 s názvem Analýza a návrh využitelnosti prostředků dataminingu při monitorování interakcí subjektů účastnících se procesu obchodování. Ing. Naděžda Chalupová Ústav informatiky PEF MZLU v Brně, Zemědělská 1, 613 00 Brno e-mail [email protected] Doc. Ing. Arnošt Motyčka, CSc. Ústav informatiky PEF MZLU v Brně, Zemědělská 1, 613 00 Brno e-mail [email protected]
42