Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
Kohonenova samoorganizující mapa a její aplikace v marketingu Mgr. Ing. David Vít,
[email protected] Alternativou klasických metod shlukové analýzy jsou biologicky inspirované algoritmy, zejména metody založené na umělých neuronových sítích. Z velké nabídky dosud popsaných modelů umělých neuronových sítí je třeba se zaměřit na ty z metod, které jsou obecně vhodné pro explorační analýzu dat. Základní model umělé neuronové sítě vhodné pro využití ve shlukové analýze představují Kohonenovy samoorganizující mapy (selforganizing map), patřící mezi modely neuronové sítě s učením bez učitele. Svým chování připomínají klasickou optimalizační metodu k-průměrů (k-means) shlukové analýzy. Cílem této práce je posoudit, zda jsou výsledky shlukového rozkladu získané pomocí Kohonenovy samoorganizující mapy porovnatelné se shlukovým rozkladem vytvořeným pomocí metody k-průměrů, a vyhodnotit relevanci a stabilitu této metody pro její případné využití v marketingové tržní segmentaci.
1. Princip Kohonenovy samoorganizující mapy Jde o jednovrstvou umělou neuronovou síť, která umožňuje vizualizovat topografii a hierarchickou strukturu multidimenzionálních dat transformací do prostoru nižší dimenze (tzv. komprese dat). Ve výkonné vrstvě existuje mřížka neuronů s danou topologií (obvykle hexagonální nebo čtvercovou), počet jejích vstupů odpovídá dimenzi vstupního počtu proměnných vstupního datového souboru, váhy vstupů neuronů vycházejí z předložených vstupních objektů a přenosová funkce představuje kvadratickou Euklidovskou vzdálenost.
Nechť x R je náhodně zvolený datový vektor, potom Kohonenova samoorganizující mapa realizuje N
nelineární projekci funkce
p(x) hustoty pravděpodobnosti x do R R , kde wi je váha neuronu s indexem i.
Tato projekce zachovává topologii původního vícerozměrného datového souboru. Pro porovnávání je použita vhodná míra vzdálenosti (nepodobnosti) D , obvykle kvadratická Euklidovská vzdálenost. Nejlepším reprezentantem daného vstupního vektoru (tzv. referenčním vektorem) je neuron s indexem
j * , pro nějž platí:
N D( x , w j * ) min ( xik wik ) 2 . i k 1 Výstupem neuronu s indexem i pro vstup x je hodnota D( x , wi ) . Laterálními inhibicemi (postranními vazbami) síť vyhodnotí neuron s nejvyšší odezvou, který se stane referenčním vektorem daného vzoru. Učení Kohonenovy samoorganizující mapy tedy představuje uspořádání vektorů v mřížce tak, aby reprezentovaly příslušná vstupní data. Inicializační hodnoty vah neuronů wi se zpravidla stanovují náhodně, během procesu učení se váhy jednotlivých neuronů adaptují podle předkládaných vzorů vstupních objektů.
2. Princip metody k-průměrů Adaptace vah neuronů mřížky je analogií postupného výpočtu nového centroidu u optimalizační shlukovací metody k-průměrů. Na začátku této metody je zvolen počet k shluků, na jehož základě je vhodným způsobem určeno k počátečních centroidů. Tyto centroidy tvoří geometrické středy výsledných k shluků. Potom se zkoumají vzdálenosti každého objektu od každého centroidu tak, že se spočte Euklidovská vzdálenost objektu od centroidu, a objekt je přiřazen k nejbližšímu centroidu. Pro každý shluk je pak spočten nový centroid (vektor průměrných hodnot jednotlivých proměnných) a znovu se opakuje přiřazení všech objektů do shluků určených nově spočtenými centroidy. Celý postup probíhá tak dlouho, dokud dochází k přesunům objektů mezi centroidy. Metoda silně závisí na pořadí objektů v datovém souboru, způsobu volby výchozích k centroidů, způsobu výpočtu polohy nového centroidu, jakož i na znalosti počtu hledaných shluků. Jde tedy o nedeterministickou metodu, která nalezne pouze lokálně optimální výsledek. Metoda k-průměrů pracuje s kvantitativními, nicméně byla navržena i její modifikace určená pro smíšená data, nazvaná metoda k-prototypů. V metodě k-prototypů je použita speciální míra nepodobnosti, která kombinuje kvadratickou Euklidovskou vzdálenost, použitou pro kvantitativní data, s mírou užívanou pro pouze kategoriální data v metodě k-modů, založené na koeficientu prostého nesouhlasu. Tento koeficient je definován jako poměr počtu proměnných, u nichž jsou u obou objektů rozdílné hodnoty, a celkového počtu proměnných. Použijeme pomocné označení
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 1 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
k
di , j [ xi , k x j , k ] , které říká, že k di , j 1 , pokud xi , k x j , k , a k di , j 0 , pokud xi , k x j , k . Koeficient
prostého nesouhlasu je definován jako m
Di , j
k 1
k
d i, j
m
.
Ačkoliv metoda k-průměrů, resp. její modifikace pro smíšená data metoda k-prototypů, neposkytují globálně optimální řešení, jsou velmi vhodné pro redukci rozsáhlých datových souborů, které není pro jejich rozsah možno zpracovat jinými shlukovacími metodami. Míra nepodobnosti použitá v metodě k-prototypů lze implementovat do modifikované Kohonenovy samoorganizující mapy, a tím ji upravit pro korektní použití pro datové soubory obsahující proměnné smíšených typů. Toto rozšíření implementace vycházející ze SOM_PAK bylo pod názvem NCSOM publikováno autory Chenem a Marquesem bez analýzy jeho chování vzhledem k interpretaci výsledků a porovnání s klasickými metodami shlukové analýzy. Programový balík implementace NCSOM není bohužel dostupný.
3. Použitá metodika Pro posouzení chování Kohonenovy samoorganizující mapy a vyloučení případných systematických chyb byl použit soubor volně dostupný balík softwarových prostředků SOM_PAK 3.1 vytvořený přímo týmem, jehož členem byl autor metody Teuvo Kohonen. Jak již bylo uvedeno, základním nedostatkem této metody pro její přímé využití ve shlukové analýze je její omezení na kvantitativní data – vnitřně využitá metrika je založena na kvadratické Euklidovské vzdálenosti. V případě, kdy se ovšem použije datový soubor omezený pouze na kvantitativní data, lze bez problému srovnávat shluky vytvořené pomocí Kohonenovy samoorganizující mapy se shluky vytvořenými pomocí vhodně implementované metody k-průměrů. Pokud by se ukázalo, že výsledky získané na kvantitativních datech pomocí neuronové sítě odpovídají výsledkům získaným metodou k-průměrů, bylo by možno algoritmus Kohonenovy samoorganizující mapy modifikovat pro aplikaci metriky užívané v metodě k-prototypů, a tak zobecnit tento model neuronové sítě pro práci se smíšenými daty obsaženými ve výstupních datech marketingových dotazníků a následně plnohodnotně aplikovat jako alternativní metodu hledání modelu tržních segmentů. Jako vhodný datový soubor byl použit vzorový soubor car_sales.sav, dodávaný s produktem IBM SPSS v19, který obsahuje kvantitativní technické parametry 157 osobních automobilů včetně neúplných objektů. Soubor obsahuje data, která obsahují přirozené shluky podle různých technických parametrů, proto je vhodný pro uvažované využití jako testovací referenční soubor. Tento soubor byl pomocí produktu IBM SPSS v19 analyzován s využitím implementované shlukovací metody k-průměrů s ohledem na počet shluků, který koresponduje požadavkům kladeným na shluky, představující modely tržních segmentů. V rámci testů byl z datového souboru vyřazen jeden odlehlý objekt, který zkresloval chování metody k-means. Pro hledání shluků byly využity následující proměnné původního souboru: cena, objem motoru, výkon, rozvor, délka, šířka, pohotovostní hmotnost, objem nádrže, spotřeba. Aby byly použité výsledky korektní, byla použita data po provedení z-scores normalizace jednotlivých proměnných. Zvolená množina proměnných by zasluhovala předchozí provedení faktorové analýzy, neboť u některých proměnných existuje pravděpodobná závislost. Nicméně pro účely tohoto porovnání to není nezbytné, jelikož možná závislost některých proměnných má vliv na interpretaci získaných shlukových rozkladů, nikoliv na chování zvolených metod. Po provedení různých shlukových rozkladů pomocí k-means byl použitý datový soubor transformován do datového formátu vstupního souboru programového balíku SOM_PAK a provedeny následná opakovaná trénování Kohonenovy samoorganizující mapy. Výsledná data pro vizualizaci natrénované Kohonenovy samoorganizující mapy byla pomocí utility napsané v programovacím jazyce Java transformována do snadno interpretovatelné podoby, obsahující seznamy objektů v jednotlivých nalezených shlucích spolu s informací o objektu, který je jeho reprezentantem, a největší odchylce objektu zařazeného do tohoto shluku. Takto získaná data jsou vhodným podkladem pro porovnání chování metody k-průměrů a Kohonenovy samoorganizující mapy.
4. Zpracování ukázkových dat Při zpracování datového souboru byl kladen důraz na požadavky kladené na tržní segment, tedy dostatečnou definovatelnost, velikost, rozlišitelnost, přístupnost a měřitelnost. Tyto požadavky implikují vymezení možného počtu shluků tvořících shlukový rozklad na maximální počet mezi 2 až 10 cílovými shluky dostatečné velikosti, přičemž za hranici dostatečné velikosti je možno brát shluky obsahující více než 10% objektů. Optimální počet nalezených shluků na základě předchozích empirických testů by se měl pohybovat zhruba mezi 3 až 6, pokud mají představovat model tržních segmentů daného cílového trhu.
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 2 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
4.1. Metoda k-průměrů Pomocí IBM SPSS v19 byly provedeny opakované shlukové rozklady pomocí metody k-průměrů s kvadratickou Euklidovskou vzdáleností pro 2 až 10 shluků. Metoda poskytuje pro daný datový soubor stabilní výsledky i při případném jiném uspořádání vstupních hodnot i při různých nastaveních na omezení počtu iterací algoritmu. Z hlediska posouzení homogennosti výsledků i vzhledem k interpretaci získaných shluků představují optimální rozklad varianty se 4, 5 a 6 cílovými shluky. Shlukové rozklady obsahují následující počty objektů:
rozklad na 6 shluků: 54, 50, 15, 14, 11 a 7 objektů, rozklad na 5 shluků: 54, 47, 24, 14 a 12 objektů, rozklad na 4 shluky: 58, 49, 24 a 20 objektů.
Vzhledem ke zmiňovaným požadavkům kladeným na tržní segmenty byl zvolen shlukový rozklad na 4 shluky, který obsahuje následující objekty vstupního datového souboru: [A4] 5, 8, 9, 21, 29, 30, 32, 37, 38, 47, 48, 58, 59, 64, 67, 68, 80, 81, 83, 85, 86, 87, 92, 96, 97, 98, 102, 108, 110, 115, 118, 119, 124, 125, 126, 127, 128, 132, 133, 134, 135, 137, 140, 143, 147, 151, 152, 153, 154 [B4] 2, 4, 6, 10, 11, 12, 13, 14, 18, 22, 23, 24, 28, 31, 33, 35, 43, 45, 49, 51, 52, 53, 55, 60, 61, 65, 66, 69, 70, 71, 72, 75, 82, 84, 88, 89, 90, 91, 93, 100, 103, 104, 105, 106, 107, 111, 112, 113, 116, 117, 120, 121, 122, 123, 138, 141, 155, 156 [C4] 1, 20, 26, 27, 36, 46, 50, 57, 62, 63, 79, 101, 114, 129, 130, 131, 136, 139, 142, 145, 146, 148, 149, 150 [D4] 7, 15, 17, 19, 25, 40, 41, 42, 44, 54, 56, 73, 74, 76, 77, 78, 94, 95, 99, 144.
Získaný shlukový rozklad bude posuzován vzhledem k výpočtům Kohonenovy samoorganizující mapy. Chování metody k-průměrů je velmi příjemné v tom, že lze předem stanovit počet hledaných shluků tak, aby odpovídal očekávané struktuře datového souboru, a na základě interpretace výsledků zvolit optimální rozklad. Iterace algoritmu implementovaného v IBM SPSS v19 jsou ukončeny v době do jedné minuty. Pro další dodatečné srovnání byl zvolen shlukový rozklad na 6 shluků, který obsahuje následující objekty datového souboru: [A6] 1, 5, 8, 9, 20, 21, 29, 30, 32, 36, 37, 38, 48, 58, 59, 63, 64, 67, 80, 81, 86, 87, 92, 96, 97, 102, 108, 110, 114, 115, 118, 119, 128, 132, 133, 134, 135, 137, 140, 143, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154 [B6] 2, 4, 6, 10, 11, 12, 13, 14, 18, 22, 23, 24, 28, 31, 33, 35, 45, 47, 49, 52, 55, 60, 65, 66, 68, 69, 70, 71, 75, 82, 83, 84, 85, 88, 90, 91, 93, 98, 100, 103, 104, 105, 106, 107, 112, 116, 120, 121, 122, 127, 138, 141, 155, 156 [C6] 40, 41, 42, 43, 51, 53, 56, 61, 89, 113, 123 [D6] 7, 15, 17, 19, 44, 54, 73, 74, 76, 77, 78, 94, 99, 111, 144 [E6] 26, 27, 46, 50, 57, 62, 79, 101, 129, 130, 131, 136, 139, 142 [F6] 25, 72, 95, 117, 124, 125, 126.
4.2. Kohonenova samoorganizující mapa Vzhledem k vlastnostem této umělé neuronové sítě jsou shluky ve vstupním datovém souboru reprezentovány jednotlivými neurony mapy. Všechny objekty datového souboru, jejichž referenční vektor je stejný, patří do do stejného shluku. Kohonenova mapa tedy faktorizuje vstupní datový soubor na třídy ekvivalence dle referenčních vektorů. V rámci programového balíku SOM_PAK 3.1 byly otestovány různé varianty nastavení parametrů, přičemž pro finální výsledky bylo v souladu s doporučeními autorů použita hexagonální mřížka s Gaussovou funkcí okolí. Pro zlepšení chování mapy vzhledem k chybnému natrénování, které je charakterizováno tzv. překroucením mapy, je namísto čtvercové topologie mapy doporučena topologie obdélníková. Pro inicializaci váhových vektorů mapy byla použita metoda náhodné inicializace.
Obrázek 1 – Sammonovo mapování překroucené mřížky
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 3 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
4.2.1.Volba vhodné velikosti mřížky Základním problémem pro použití Kohonenovy samoorganizující mapy pro výstupní data marketingového dotazování je otázka volby velikosti mapy. Smysluplné výsledky pro datový soubor velikosti 156 objektů je možno získat pro mapy do velikosti maximálně 6x7 neuronů. Pokud je například zvolena velikost mřížky 6x7 neuronů, je nalezeno 42 shluků, z nichž polovina obsahuje méně než 4 objekty a pouze jediný s velikostí 13 je větší než 10 objektů. Velikosti získaných shluků jsou následující: 1,1,1,1,1,1,1,1,1,1,2,2,2,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,5,5,5,6,6,7,8,8,13. Z podoby shlukového rozkladu je zřejmé, že není relevantní vzhledem k požadavkům na něj kladeným. Mřížka 5x6 neuronů pak poskytuje následující shlukový rozklad skládající se ze 30 shluků následujících velikostí: 1,1,1,2,2,2,2,2, 3,3,3,3,4,5,5,5,6,6,6,6,7,7,7,7,8,8,9,9,11,14. U mřížky 4x5 neuronů je získán tento shlukový rozklad skládající se ze 30 shluků následujících velikostí: 1,1,3,3,4,6,6,6,6,7,7,7,8,9,9,10,10,13,15,24. Dvanáct shluků získaných trénování mapy o velikosti mřížky 3x4 neurony má potom následující velikosti: 4,7,7,9,9,9,13,13,14,16,26,28. Využitelné výsledky bylo možno získat až při použití malých mřížek o velikostech 2x3 a 2x2 neurony. V případě mapy o velikosti 2x3 neurony bohužel docházelo při jejím trénování na použitém vstupním datovém souboru k častému překroucení mapy, zhruba 60% pokusů o natrénování mapy skončilo touto chybou. V případě, kdy nedošlo při trénování k překroucení mapy, byly opakované výsledné shlukové rozklady pro tutéž velikost mřížky identické. U každého shluku je na konci uveden jeho referenční vektor včetně jeho (x, y) souřadnic v mapě. U obdélníkové mřížky velikosti 2x3 bylo nalezeno 6 shluků o velikostech: 8,10,14,20,50,53 objektů. Jednotlivé shluky obsahují následující objekty: [A2x3] 1, 5, 8, 20, 26, 27, 32, 36, 37, 46, 48, 50, 57, 58, 59, 62, 63, 67, 79, 80, 81, 86, 87, 92, 96, 97, 101, 102, 110, 114, 115, 118, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 139, 140, 142, 145, 146, 147, 148, 149, 150, 151, 152, ref. [1 (1, 0)] [B2x3] 2, 3, 11, 22, 23, 28, 49, 65, 70, 88, 103, 107, 127, 138, ref. [2 (0, 1)] [C2x3] 4, 6, 7, 12, 13, 14, 15, 16, 17, 19, 25, 31, 33, 35, 39, 40, 41, 42, 43, 44, 51, 52, 53, 54, 56, 61, 66, 69, 72, 73, 74, 76, 77, 78, 84, 89, 90, 91, 93, 94, 95, 99, 100, 104, 111, 113, 122, 123, 141, 144, ref. [4 (0, 2)] [D2x3] 9, 47, 68, 83, 85, 98, 124, 154, ref. [9 (1, 1)] [E2x3] 10, 18, 24, 45, 60, 71, 75, 82, 105, 106, 109, 112, 116, 117, 120, 121, 125, 126, 155, 156, ref. [10 (1, 2)] [F2x3] 21, 29, 30, 38, 55, 64, 108, 119, 143, 153, ref. [21 (0, 0)].
Pro vizualizaci získaných výsledků nabízí programový balík SOM_PAK 3.1 následující možnosti. Grafická vizualizace mapy ukazuje její topologii se znázorněním vzdálenosti referenčních vektorů ve formě úrovní šedi – čím tmavší je oblast mezi dvěma neurony mřížky, tím je jejich vzdálenost větší. Bohužel není z Kohonenovy samoorganizující mapy možno zjistit vzdálenosti referenčních vektorů vyskytujících se na okrajích mapy. Vzhledem k tomu, že aplikace v tržní segmentaci vyžaduje malý počet velkých homogenních výsledných shluků, neposkytuje ani tato forma vizualizace relevantní představu o vzdálenosti jednotlivých shluků.
Obrázek 2 – Vizualizace topologie natrénované mapy velikosti 2x3
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 4 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze Vizualizace ve formě Sammonova mapování ukazuje ve dvourozměrném prostoru vzájemnou poměrnou vzdálenost jednotlivých referenčních vektorů mapy odpovídající původní Euklidovské vzdálenosti jejich vzorů ve vícerozměrném vstupním prostoru.
Obrázek 3 – Sammonova projekce natrénované mapy velikosti 2x3
U čtvercové mřížky velikosti 2x2 neuronů bylo získány 4 shluky o velikostech 14,17,59,65 objektů, jejichž podoba je následující: [A2x2] 1, 5, 8, 9, 20, 21, 26, 27, 29, 30, 32, 36, 37, 38, 46, 48, 50, 57, 58, 59, 62, 63, 64, 67, 79, 80, 81, 86, 87, 92, 96, 97, 101, 102, 108, 110, 114, 115, 118, 119, 124, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 139, 140, 142, 143, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, ref. [1 (1, 1)] [B2x2] 2, 3, 11, 22, 23, 24, 28, 45, 49, 55, 65, 88, 103, 107, 116, 120, 138, ref. [2 (0, 1)] [C2x2] 4, 6, 7, 12, 13, 14, 15, 16, 17, 18, 19, 25, 31, 33, 35, 39, 40, 41, 42, 43, 44, 51, 52, 53, 54, 56, 60, 61, 66, 69, 71, 72, 73, 74, 76, 77, 78, 82, 84, 89, 90, 91, 93, 94, 95, 99, 100, 104, 105, 109, 111, 112, 113, 121, 122, 123, 141, 144, 156, ref. [4 (0, 0)] [D2x2] 10, 47, 68, 70, 75, 83, 85, 98, 106, 117, 125, 126, 127, 155, ref. [10 (1, 0)].
Získaná vizualizovaná mřížka vypadá následovně, je vidět, že v rámci jednotlivých shluků je mezi objekty velká vzdálenost.
Obrázek 4 – Vizualizace topologie natrénované mapy velikosti 2x2
Sammonovo mapování pro takto natrénovanou Kohonenovu samoorganizující mapu vypadá následovně.
Obrázek 5 – Sammonovo mapování natrénované mapy velikosti 2x2
Pro porovnání výsledků budou použity shlukové rozklady pro velikosti mřížky 2x2 a 2x3, neboť počty a velikosti získaných shluků v těchto případech korespondují s požadavky kladenými na velikost a počet hledaných shluků.
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 5 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
5. Porovnání výsledků metod Pro srovnání chování klasické optimalizační shlukovací metody k-průměrů a Kohonenovy samoorganizující mapy vyjdeme z předpokladu, že shlukové rozklady použitého vstupního datového souboru, vytvořené klasickou metodou v nástroji IBM SPSS v19, vzhledem k interpretovatelnosti vzniklých shlukových rozkladů dobře charakterizují vstupní datový soubor vzhledem ke specifickým požadavkům kladeným na identifikované shluky při aplikaci v tržní segmentaci. Výsledky získané v rámci aplikace programového balíku SOM_PAK posoudíme z hlediska hypotézy nezávislosti na shlukovém rozkladu pomocí metody k-průměrů. Na základě výsledků obou metod pro rozklady na 4 a na 6 shluků vytvoříme kombinační tabulku, kde v řádcích budou uvedeny shluky dle jedné metody a ve sloupcích uvedeny shluky dle druhé. V polích kombinační tabulky pak budou uvedeny počty objektů vstupního datového souboru, které byly přiřazeny do dané kombinace shluků dle obou algoritmů odpovídající danému poli tabulky. Nezávislost v kombinační tabulce bude otestována pomocí
2 - testu nezávislosti v kombinační tabulce. Nulovou hypotézu o nezávislosti v kombinační tabulce dle tohoto testu zamítneme, pokud pro hodnotu testového kritéria s
r
2 i 1 j 1
n
ij
n.ri .rj
2
n.ri .rj
platí, že je větší než kritická hodnota veličiny pro stupeň volnosti f (r 1).(s 1) , kde r je počet kategorií u řádkové proměnné a s je počet kategorií u sloupcové proměnné. Hodnota n značí počet objektů ve statistickém souboru, hodnota nij označuje počet objektů dle i-té řádkové a j-té sloupcové kategorie, tedy 2
zařazených do i-tého shluku dle první metody a do j-tého shluku dle druhé metody,
ri
nj ni je relativní četnost výskytu i-té řádkové kategorie a rj je relativní četnost výskytu j-té sloupcové n n
kategorie. Testové kritérium ověříme na hladině významnosti 1%. Pro shlukové rozklady na 6 shluků je test prováděn pro 25 stupňů volnosti na dostatečně velkém datovém souboru. Kombinační tabulka pro tento případ vypadá následovně.
nij A2x3 B2x3 C2x3 D2x3 E2x3 F2x3 nj pj
A6 39 0 0 2 0 9 50 0,331
B6 0 13 19 5 16 1 54 0,358
C6 0 0 11 0 0 0 11 0,073
D6 0 0 0 15 0 0 15 0,099
E6 14 0 0 0 0 0 14 0,093
F6 0 0 3 1 3 0 7 0,046
ni 53 13 33 23 19 10 151
pi 0,351 0,086 0,219 0,152 0,126 0,066
Tabulka 1 – Kombinační tabulka pro shlukové rozklady se 6 shluky
Pro test nezávislosti shlukových rozkladů dle metody k-průměrů a Kohonenovou samoorganizující mapou s mřížkou 2x3 neurony na hladině významnosti 1 % získáváme hodnotu testového kritéria ttest = 274,3301, tato hodnota je výrazně vyšší, než kritická hladina
tkrit 2 (25) 44,3141 . Na hladině významnosti 1 % tedy
vyvracíme nulovou hypotézu a tím prokazujeme závislost shlukového rozkladu pomocí obou metod. Při bližším pohledu do kombinační tabulky je zřejmé, že byl nalezen jeden velký společný shluk s 39 objekty tvořený shluky A6 a A2x3. Shluk E6 je z hlediska Kohonenovy samoorganizující mapy odtrženou částí shluku A6. Jediný další významnější shluk společný pro oba rozklady je tvořen průnikem shluků D6 a D2x3. Pro shlukové rozklady na 4 shluky je test prováděn pro 9 stupňů volnosti na dostatečně velkém datovém souboru. Kombinační tabulka pro tento případ vypadá následovně.
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 6 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
nij A2x2 B2x2 C2x2 D2x2 nj pj
A4 41 0 0 8 49 0,325
B4 0 16 36 6 58 0,384
C4 24 0 0 0 24 0,159
D4 0 0 20 0 20 0,132
ni 65 16 56 14 151
pi 0,430 0,106 0,371 0,093
Tabulka 2 – Kombinační tabulka pro shlukové rozklady se 4 shluky
Pro test nezávislosti shlukových rozkladů dle metody k-průměrů a Kohonenovou samoorganizující mapou s mřížkou 2x2 neurony na hladině významnosti 1 % získáváme hodnotu testového kritéria ttest = 161,0666, tato hodnota je výrazně vyšší, než kritická hladina
tkrit 2 (9) 21,6660 . Na hladině významnosti 1 % tedy
vyvracíme nulovou hypotézu a tím prokazujeme závislost shlukového rozkladu pomocí obou metod. Velkým společným shlukem se 41 objekty je průnik shluků A4 a A2x2. Shluk C2x2 pokrývá celý shluk D4 a zhruba dvě třetiny shluku B4. Rozdíly mezi shlukovými rozklady dle obou metod vycházejí jednak ze způsobu určení středu shluku, kdy metoda k-průměrů počítá centroid daného shluku, kdežto v případě trénování Kohonenovy samoorganizující mapy je referenční vektor reprezentován jedním konkrétním vstupním vektorem dle implementované strategie vítěz bere vše. Dalším faktorem ovlivňujícím rozdílnost výsledků obou metod je chování funkce okolí neuronu, která je použita v algoritmu trénování Kohonenovy samoorganizující mapy.
6. Zhodnocení Aplikace umělých neuronových sítí představují velmi atraktivní oblast výzkumu v mnoha oborech včetně explorační analýzy dat. Pokud je explorační analýza dat použita v konkrétní problémové oblasti, jako je v tomto článku marketingová tržní segmentace, musí být v úvahu bráno chování jednotlivých metod, charakter a podmínky kladené na hledané shluky, aby jejich následná interpretace skutečně vyjadřovala hledané vztahy a souvislosti mezi reálnými objekty. Shluková analýza je prostředkem pro vytvoření takového zjednodušeného modelu reálného světa, který umožní efektivní využití matematických metod pro nalezení modelu jeho struktury, jejíž zpětná projekce na objekty reálného světa umožní popsat rovněž jeho strukturu. Obecně platí, že každá metoda explorativní analýzy vrátí určité výsledky a úlohou výzkumníka je posoudit jejich relevanci vzhledem k problémové oblasti. Kohonenova samoorganizující mapa nabízí velmi zajímavý aparát pro analýzu neznámého vstupního datového souboru, přičemž v literatuře zmiňované aplikace na kategorizaci webových zdrojů jsou pro tuto shlukovací metodu vhodné, neboť je hledán předem nedefinovaný větší počet shluků. V případě použití pro tržní segmentaci existuje velmi striktní omezení na maximální počet hledaných shluků, nesmí jít o více než 10 shluků. V případě, kdy se použije Kohonenova samoorganizující mapa s větším počtem neuronů než je počet očekávaných shluků, není možno transformovaná data dále agregovat do menšího počtu shluků. Získáme sice transformovaný dvojrozměrný obraz vícedimenzionálního vstupního souboru, ale ztrácíme informace o jeho struktuře. Z tohoto hlediska poskytuje tato umělá neuronová síť mnohem menší množství informací než při využití klasických hierarchických shlukovacích metod typu AGNES či MONA. Sammonovo mapování vizualizuje Euklidovskou vzdálenost mezi vzory referenčních vektorů mřížky mapy, nicméně není zřejmé, jak tyto shluky vypadají a jak se k sobě blíží. Pro jednotlivé objekty je sice k dispozici hodnota chyby vzhledem k referenčnímu vektoru, ale nelze zjistit, jaká je tato chyba vzhledem k referenčním vektorům sousedních shluků, resp. objektům sousedních shluků. Referenční vektory při trénování mapy větších rozměrů mají navíc tendenci rozmisťovat se po okraji mapy. Jak bylo zmíněno, pro využití v tržní segmentaci se podle dosavadních empirických testů nejvhodněji chovají hierarchické shlukovací metody, které poskytnou úplnou znalost struktury vstupního datového souboru. Na základě analýzy této struktury lze pomocí různých kritérií rozhodnout o optimálním shlukovém rozkladu, který
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 7 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze nejlépe reprezentuje závislosti při současném respektování požadavků kladených na efektivní tržní segmenty. Nevýhodou hierarchických metod je pak nutnost vytvoření a práce s maticí nepodobností jednotlivých objektů. Z tohoto důvodu lze tyto metody používat pouze pro datové soubory omezené velikosti. Pro zpracování velkých datových souborů je vhodná dvoukroková shluková analýza, kdy v první fázi je výrazným způsobem zmenšena velikost datového souboru některou výpočetně nenáročnou optimalizační metodou, a teprve ve druhé fázi je provedeno vlastní hierarchické shlukování, které identifikuje cílové shluky, které jsou modelem tržních segmentů. Jako velmi vhodnou metodu prvního kroku dvoukrokové shlukové analýzy lze využít zmiňovanou optimalizační metodu k-prototypů, kdy se zredukuje velikost původního datového souboru na nový datový soubor obsahující o jeden či více řádů méně objektů, které představují centroidy shluků získaných jako výsledek v prvním kroku použité metody k-prototypů. Srovná-li se centroid s referenčním vektorem, je zřejmé, že centroid podle zvolené metody výpočtu mnohem lépe vystihuje polohu shluku vzhledem k okolním shlukům. Sice by bylo možno redukovat velikost původního datového souboru pomocí Kohonenovy samoorganizující mapy větší dimenze a potom v dalším kroku dvoukrokové shlukové analýzy pracovat pouze se vzory referenčních vektorů, nicméně vzor referenčního vektoru jako reprezentanta shluku je méně přesný než centroid určený pomocí klasické optimalizační metody kprůměrů, resp. k-prototypů. Tato systematická chyba nejvíce ovlivnila rozdílnost shluků vytvořených pomocí metody k-průměrů a Kohonenovy samoorganizující mapy. Metoda k-prototypů je závislá na volbě hodnoty jedné empirické konstanty v průběhu iterací, podobně jako metoda k-průměrů není deterministická, neboť závisí na pořadí objektů ve vstupním datovém souboru, nicméně její implementace v IBM SPSS v19 se chová z hlediska nalezení shlukového rozkladu velmi stabilně. Naproti tomu Kohonenova samoorganizující mapa závisí na volbě topologie mřížky, tvaru okolí, velikosti mřížky, požadovanému učícímu kroku, způsobu inicializace vstupních vektorů a počtu iterací. Ačkoliv bylo dosaženo shodných výsledků při opakovaných pokusech, u některých tvarů mřížky a počtů iterací docházelo ke zmíněnému překroucení mřížky, které vyžadovalo opakované trénování mapy. Největší vliv na proces trénování mapy má úvodní inicializace vektorů mřížky, která vychází z náhodného nastavení a je zcela nedeterministická. Z tohoto hlediska se v případě Kohonenovy samoorganizující mapy nejedná o stabilní shlukovací metodu. Doba trénování Kohonenovy samoorganizující mapy implementované v balíku SOM_PAK 3.1 byla navíc více než řádově delší ve srovnání s výpočtem metody k-průměrů v produktu IBM SPSS v19, tedy i z tohoto hlediska se jeví méně vhodná zejména při dílčím zpracování větších datových souborů, pro které je výhodné využívat optimalizační shlukovací metody typu k-prototypů či k-průměrů. Ačkoliv tedy lze Kohonenovy samoorganizující mapy obecně využít pro shlukovou analýzu, jejich vlastnosti nejsou pro aplikaci v tržní segmentaci výhodné a nepřináší žádná pozitivní vylepšení oproti klasickým shlukovacím metodám. Lze tedy závěrem říci, že v situaci, kdy existuje specifický algoritmus pro řešení konkrétního problému, tato umělá neuronová síť neposkytuje vhodnější výpočetní aparát. Při hledání velkého počtu shluků ve velkých vstupních datových souborech se potom Kohonenova samoorganizující mapa blíží chování metody k-průměrů.
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 8 (celkem 9)
Katedra ekonomiky, manažerství a humanitních věd, Fakulta elektrotechnická ČVUT v Praze
Použitá literatura ŘEZANKOVÁ, H., HÚSEK, D., SNÁŠEL, V. – Shluková analýza dat. Praha: Professional Publishing 2007 EVERITT, B.S., LANDAU, S., LEESE , M. – Cluster analysis, 4th edition. London: Arnold, a member of the Hodder Headline Group 2001 HEBÁK, P., HUSTOPECKÝ, J., PECÁKOVÁ, I., PRŮŠA, M., ŘEZANKOVÁ, H., SVOBODOVÁ, A., VLACH, P. – Vícerozměrné statistické metody (3). Praha: Informatorium 2006 Electronic Statistics Textbook [online]. Tulsa: StatSoft 2007. Dostupný z WWW: http://www.statsoft.com/textbook/stathome.html KOHONEN, T., HYNNINEN, J., KANGAS, J., LAAKSONEN, J. – SOM_PAK The Self-Organizing Map Program Package Version 3.1 [online]. Helsinki: Helsinki University of Technology 1995. Dostupný z WWW: http://www.cis.hut.fi/research/som_lvq_pak.shtml ZHEXUE, H. – Clustering large data sets with mixed numeric and categorical values. In Lu Hongjun, Motoda Hiroshi, Liu Huan (eds), Proceedings of the 1st Pacific-Asia Konference on Knowledge Discovery & Data Mining. Singapore, World Scientific (1997) 21-34 CHEN, N., MARQUES, N.C. – An Extension of Self-Organizing Maps to Categorical Data [online]. Caparica: Universidade Nova de Lisboa. Dostupný z WWW: http://ssdi.di.fct.unl.pt/~nmm/MyPapers/NM05.pdf XU, R., WUNSCH, D.C. – Clustering. Piscataway: IEEE Press 2007 PALLANT, J. – SPSS Survival Manual, 3rd Edition. Maidenhead: Open University Press 2007 DARREN, K., MALLERY, P. – SPSS for Windows Step-by-Step: A Simple Guide and Reference, 10.0 Update (3rd Edition). Prentice Hall 2000 ŠNOREK, M. – Neuronové sítě a neuropočítače. Praha: Vydavatelství ČVUT 2004 KOHONEN, T. – Self-Organizing Maps. Berlin: Springer-Verlag 1995 VÍT, D. Využití shlukové analýzy v marketingu: master thesis. Prague: CTU FEE 2009 VÍT, D. Vliv marketingového dotazování na identifikaci tržních segmentů. Prague: Marketing & komunikace. 2009, roč. XIX, č. 4, s. 17-19. VÍT, D. Interpretation of monothetic and polythetic clustering method results for marketing questionaire processing : paper draft for Acta Polytechnica. Prague: CTU FEE 2009. Word Document. Unpublished. VÍT, D. Aplikace nástroje PASW SPSS 18.0 Base v tržní segmentaci: seminar thesis. Prague: CTU FEE 2010. Word Document. Unpublished.
Tento text vzniknul v rámci předmětu Neuronové sítě a neuropočítače (XP36NAN)
Strana 9 (celkem 9)