KLASIFIKACE TYPŮ LIDÍ Z HLEDISKA OCHOTY ZAČÍT PODNIKAT Marta Žambochová, Kamila Tišlerová
1.
Úvod
Ve výzkumu byly sledovány dvě formy podnikání, a to klasická forma vlastního podnikání a franšízing. V rámci franšízingu nabízí majitel úspěšné koncepce (franšízor) zájemcům o podnikání (franšízantům) příleţitost samostatně podnikat pod jeho obchodní značkou a v souladu s jeho koncepcí, obvykle výměnou za vstupní poplatek a podíly na budoucím zisku franšízanta. Franšízingový model podnikání je povaţován za méně rizikovou moţnost zahájení podnikání oproti klasickému způsobu. Výzkum o ochotě začít podnikat jak formou franšízingu tak klasickým způsobem podnikání byl proveden v podobě dotazníků a cílem výzkumu bylo zjistit skupiny obyvatel, u kterých je největší pravděpodobnost začít vlastní podnikání. Po definování znaků této skupiny mohou být přijata vhodná opatření pro investiční pobídky. Byly zvoleny různé metody třídění. Tento příspěvek se zabývá analýzou výsledků získaných při pouţití těchto metod.
2.
Metodika
V příspěvku bude pouţita klasifikace pomocí dvou základních způsobů učení. Jedná se jednak o učení s učitelem a jednak o učení bez učitele. V prvním případě se rozhodovací pravidla pro zařazení objektů do tříd vytváří na základě učící (trénovací) mnoţiny. Zástupcem této skupiny metod jsou rozhodovací stromy. V druhém případě pomocí minimalizace vybrané účelové funkce rozdělí objekty do tříd tak, ţe objekty patřící jedné třídě jsou si navzájem podobnější neţ data z různých tříd. Do této skupiny patří například shluková analýza.
2.1
Rozhodovací stromy
Velmi rozšířenou skupinou stromů, kterých se vyuţívá v datových modelech, jsou různé typy rozhodovacích stromů. Rozhodovací stromy jsou struktury, které rekurzivně rozdělují zkoumaná data dle určitých rozhodovacích kritérií. Kořen stromu reprezentuje celý populační soubor. Vnitřní uzly stromu reprezentují podmnoţiny populačního souboru. V listech stromu můţeme vyčíst hodnoty vysvětlované proměnné. Vyuţívají se dva typy rozhodovacích stromů, a to klasifikační stromy (v kaţdém listu je přiřazení třídy) a regresní stromy (v kaţdém listu je přiřazení konstanty – odhad hodnoty vysvětlované proměnné). Rozhodovací strom se vytváří rekurzivně dělením prostoru hodnot prediktorů (vysvětlujících proměnných) na základě hledání otázky (podmínky větvení), která nejlépe rozděluje prostor zkoumaných dat do podmnoţin, tj. maximalizuje kritérium kvality dělení (tzv. splitting criterium). Proces dělení se zastaví, pokud bude splněno kritérium pro zastavení (tzv. stopping rule). Dalším krokem algoritmů je prořezávání stromu (prunning). Je nutno určit „správnou“ velikost stromu (příliš malé stromy dostatečně nevystihují všechny zákonitosti v datech, příliš veliké stromy zahrnují do popisu i nahodilé vlastnosti dat). Vygenerují se podstromy stromu vzniklé budovacím algoritmem a porovnává se kvalita generalizace těchto podstromů (jak dobře vystihují data). Postup můţe být takový, ţe se rozhodovací stromy nejdříve vytváří na tzv. trénovacích datech a poté se jejich kvalita ověří na tzv. testovacích datech. Jiným způsobem je kříţová validace (cross validation), kdy k vytváření stromu a jeho podstromů pouţijí všechna data. Poté se data rozdělí na několik disjunktních, přibliţně stejně velkých částí a postupně se vţdy jedna část dat ze souboru vyjme. Pomocí vzniklých souborů dat se ověřuje kvalita stromu a jeho podstromů. Vybere se takový podstrom, který má nejniţší odhad skutečné chyby. Pokud existuje více podstromů se srovnatelným odhadem skutečné chyby, vybírá se ten nejmenší. Pro vytváření rozhodovacích stromů bylo vyvinuto velké mnoţství algoritmů. Nejvíce pouţívané jsou CART, ID3, C4.5, AID, CHAID a QUEST, viz např. [8]. Pro práci jsme vyuţili dva typy, jejichţ algoritmy jsou implementovány ve statistickém systému SPSS.
2.2
Algoritmus CART
Algoritmus poprvé popsali jeho autoři Breiman, Freidman, Olshen a Stone v roce 1984 ve článku „Classification and Regression trees“. Algoritmus [4], [5] je pouţitelný v případě, ţe máme jednu nebo
více vysvětlujících proměnných. Tyto proměnné mohou být buď spojité nebo kategoriální (ordinální i nominální). Dále máme jednu vysvětlovanou proměnnou, která také můţe být kategoriální (nominální i ordinální) nebo spojitá. Protoţe jsou zde přípustné pouze otázky (podmínky dělení), na které je moţno odpovědět ano/ne, jsou výsledkem algoritmu binární stromy (tj. kaţdý uzel je rozdělen na dva dětské uzly). V kaţdém kroku algoritmus prochází všechna moţná dělení pomocí všech přípustných hodnot všech vysvětlujících proměnných a hledá nejlepší z těchto dělení. Měřítkem je zvýšení čistoty dat. To znamená, ţe jedno dělení je lepší neţ druhé, pokud jeho uskutečněním obdrţíme dva homogennější (vzhledem k vysvětlované proměnné) soubory dat neţ uskutečněním druhého dělení. Algoritmus dělení je různý pro klasifikační stromy a pro stromy regresní. Homogenita uzlů-potomků je v případě klasifikačních stromů měřena pomocí tzv. funkce znečištění (impurity function) i(t). Maximální homogenita vzniklých dvou potomků je počítána jako maximální sníţení znečištění i(t).
i(t ) i(t r ) E(i(t d )) ,
(1)
kde tr je rodičovský uzel, td je uzel-potomek. Pro pravého potomka tp, pravděpodobnost pravého potomka Pp a levého potomka tl, pravděpodobnost levého potomka Pl pak dosazením do vzorce pro střední hodnotu dostáváme.
i(t ) i(t r ) Pl i(tl ) Pp i(t p )
(2)
Algoritmus CART řeší pro kaţdý uzel maximalizační problém pro funkci i(t) přes všechna moţná dělení. Funkci i(t) je moţno definovat různými způsoby. Mezi dva nejrozšířenější patří tzv. Gini index a Twoing pravidlo. Regresní stromy se pouţívají v případě, ţe závislá proměnná není kategoriální. V tomto případě algoritmus hledá nejlepší dělení na základě minimalizace součtu rozptylů v rámci jednotlivých dvou vzniklých uzlů-potomků. Algoritmus pracuje na základě algoritmu minimalizace součtu čtverců.
2.3
CHAID
Metodu CHAID (Chi-squared Automatic Interaction Detektor) vyvinul v roce 1980 G.V. Kass. Tato metoda [5] je modifikací metody AID pro kategoriální závislou proměnnou. Výsledkem jsou nebinární stromy. Metoda vyuţívá k testování 2-test. Algoritmus štěpení probíhá následovně. V rámci jednoho listového uzlu se vytvoří kontingenční tabulka (rozměrů mk) hodnot prediktoru (m kategorií) a vysvětlované proměnné (k kategorií). Dále se najde dvojice kategorií prediktoru, pro které má subtabulka rozměrů 2k nejméně významnou hodnotu 2- testu. Tyto dvě kategorie se sloučí. Tímto nám vzniká nová kontingenční tabulka o rozměrech ( m-1)k. Proces slučování opakujeme aţ do doby, kdy klesne významnost 2-testu pod předem zadanou hodnotu. Tímto je ukončen proces štěpení jednoho rodičovského uzlu na několik uzlů-potomků. Dále se pokračuje obdobně pro kaţdý listový uzel aţ do doby nevýznamného výsledku 2-testu.
2.4
Shluková analýza
Shluková analýza (Cluster analysis) [1], [3] se zabývá podobností datových objektů. Řeší dělení mnoţiny objektů do několika předem nespecifikovaných skupin (shluků, clusters) tak, aby si objekty uvnitř jednotlivých shluků byly co nejvíce podobny a objekty z různých shluků si byly podobny co nejméně. Shlukovou analýzu lze provádět mnoha různými metodami. Jednotlivé metody se od sebe liší jednak různým způsoby určování podobnosti objektů (měr podobnosti) a jednak způsoby shlukování (např. hierarchické a nehierarchické). Při výběru metody shlukové analýzy záleţí jednak na tom, zda máme k dispozici přímo zdrojová data, či agregované údaje (např. tabulku četností, či matici podobností). Pokud máme k dispozici zdrojová data, je výběr metody závislý na typu proměnných (nominální, ordinální, kvantitativní proměnné). Statistické programové systémy obvykle zahrnují jednak hierarchický algoritmus jehoţ výsledek bývá zobrazován ve formě tzv. dendogramu, jednak nehierarchický iterativní algoritmus k-means a často i dvourozměrnou shlukovou analýzu. V statistickém systému SPSS je od verze 11.5 imlementována metoda two-steps.
Pro zpracování našich dat nebyl z důvodu relativně velkého počtu objektů vhodný výběr hierarchické metody. Algoritmus k-means je určený pro shlukování objektů popsaných pomocí kvantitativních proměnných, coţ nebyl náš případ. Pro vyuţití této metody bychom museli předzpracovat data pomocí binarizace, tj. převodu kaţdé kategoriální proměnné na několik binárních proměnných (proměnná nabývající pouze hodnot 0 a 1). Nejvhodnější metodou pro zpracování dat byla two-step metoda.
2.5
Two-steps metoda
Principy dvoukrokové shlukové analýzy jsou uvedeny například v [2]. Tato metoda vyuţívá algoritmu BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies), který je blíţe popsán v [6], či [7]. Algoritmus vytváří tzv. CF-strom, do kterého zařazuje postupně přicházející data. Výhodou tohoto postupu je, ţe prochází datovým souborem pouze jedenkrát. Nevýhodou je citlivost na pořadí vstupujících datových bodů. CF-stromy vyuţívají tzv. CF (Clustering Feature) charakteristiku shluku. Údaje obsaţené v CFcharakteristice jsou dostačující k výpočtu centroidů, míry vzdálenosti shluků a míry kompaktnosti shluků. Tato charakteristika je uspořádanou trojicí CF = (N, LS, SS), kde N je počet objektů ve shluku, LS je vektorovým součtem všech objektů ve shluku a SS je součtem druhých mocnin souřadnic těchto objektů, tj. N
N
i 1
i 1
LS X i , SS X i2
(3)
CF-stromy jsou vysoce vybalancované stromy se dvěma parametry. Prvním parametrem je práh P a druhým faktor větvení (F, L). Pro kaţdý vnitřní uzel CF-stromu platí, ţe obsahuje maximálně F potomků. Úkolem vnitřních uzlů je umoţnění nalezení správného listu pro zařazení nového objektu. Kaţdý list obsahuje nejvýše L vstupů. Kaţdý listový uzel reprezentuje shluk vytvořený všemi podshluky reprezentovanými jednotlivými vstupy daného listu. Pro kaţdý vstup listu ale musí platit prahové pravidlo, ţe rozpětí (poloměr) vstupu je menší neţ práh P. Vlastní algoritmus shlukování probíhá ve třechhlavních fázích. V první fázi vytváří CF-strom, do kterého zařazuje postupně přicházející objekty. Ve druhé fázi kondenzuje vytvořený CF-strom a optimalizuje jeho velikost upravením prahové hodnoty (jeden z parametrů CF-stromu) a pomocí patřičného přestavění stromu zároveň umoţní odstranění odlehlých objektů. Ve třetí fázi se minimalizuje dopad citlivosti na pořadí vstupních dat. Algoritmus zde shlukuje listové vrcholy pomocí aglomerativního hierarchického algoritmu shlukování.
3.
Výsledky a jejich hodnocení
3.1 Počet a struktura respondentů Dotazníkové šetření bylo provedeno u 658 respondentů. Jednalo se o náhodný výběr v rámci Ústeckého kraje a tázány byly jen osoby starší 18 let. Záměrem bylo nevzdálit se příliš přirozené struktuře populace ČR, za kontrolní body byly povaţovány tyto 3 charakteristiky (věk, vzdělání, místo bydliště). Z hlediska věku a vzdělání lze povaţovat strukturu respondentů za reprezentativní, bydliště – velikost obce se strukturou populace ČR nekoresponduje, protoţe přes 4 mil. občanů ČR ţije v obcích menších neţ 10 tis. obyvatel a tato skutečnost nemohla být v náhodném vzorku zohledněna – v Ústeckém kraji ţije většina obyvatel ve městech. Aby nedošlo k narušení náhodnosti, bylo od dodrţení tohoto kritéria ustoupeno.
3.2 Vytvoření tříd respondentů majících obdobný názor na podnikání a franšízing Nejprve jsme provedli klasifikaci pomocí shlukové analýzy na základě 23 proměnných popisujících odpovědi na otázky zjišťující povědomí o franšíze, názory a postoje na franšízu, ochotu k podnikání a vztah k franšíze, konkurenci v oblasti volných finančních prostředků, či preferenci banky. Protoţe šlo o kombinaci různých typů proměnných (kvalitativních i kvantitativních), pouţili jsme twostep shlukovou analýzu a míru nepodobnosti typu distance likelihood. Procedura v systému SPSS vyhodnotila jako optimální dva shluky. Výsledek procedura vyhodnotila jako dobrý, viz obr. 1.
Obr. 1: Kvalita výsledného shlukování Přiřazení ke shluku jsme zavedli jako další proměnnou. Dále jsme vytvořili klasifikační strom pro nově vzniklou proměnnou „číslo shluku“. Jako vysvětlující proměnné jsme vybrali identifikační údaje respondenta. Klasifikační strom jsme vytvořili pomocí dvou metod, které jsou součástí systému SPSS, a to jednak metodou CHAID a jednak metodou CRT. V obou případech jsme zvolili cross validation pro ověření kvality stromu. Poněkud lepší výsledný strom vytvořila metoda CRT. Hodnota risk estimate vyšla 0,253. To znamená, ţe riziko chybného zařazení je 25,3% a naopak 74,7% případů je modelem klasifikováno správně. Ze struktury stromu lze vyčíst, ţe v názorech na podnikání a franšízing obdobně uvaţují vysokoškoláci, manaţeři, respondenti s věkem nad 35 let bydlící ve velkých městech a mladí do 35 let z obcí s počtem obyvatel větším neţ 10 000, kteří pracují na své pozici déle neţ rok a méně neţ 5 let. Druhou skupinou stejně uvaţujících osob jsou lidé bez vysokoškolského studia a jsou starší 35 let, kteří ţijí v obcích s počtem obyvatel do 50 000, a dále osoby do 35 let ţijící v malých obcích, a téţ mladí lidé ze středních a velkých měst pracujících ve své pozici 1 aţ 5 let.
3.3
Klasifikace respondentů z hlediska chuti podnikat
V dalším průzkumu jsme se zaměřili na klasifikaci respondentů z hlediska chuti začít podnikat. Vytvořili jsme klasifikační strom pro vysvětlovanou proměnnou „Chuť podnikat“, která nabývá hodnot ano-ne. Jako vysvětlující proměnné jsme opět vybrali identifikační údaje respondenta. Opět jsme vyuţily dva výše popsané způsoby vytvoření stromu. V tomto případě byl lepší výsledek při pouţití metody CHAID, viz obr. 2. Hodnota risk estimate vyšla 0,224. To znamená, ţe riziko chybného zařazení je 22,4%, a naopak 77,4% případů je modelem klasifikováno správně. Ze struktury stromu můţeme zjistit, ţe nejvíce chuti do podnikání mají nezaměstnaní, dále řadový zaměstnanci s věkem do 35 let a velký podíl těchto osob je i mezi manaţery a podnikateli. Výraznou nechuť do podnikání projevují řadový zaměstnanci s věkem nad 35 let.
3.4
Klasifikace respondentů z hlediska oblasti investic
Nakonec jsme se věnovali klasifikací respondentů z hlediska způsobu investic přebytečných finančních prostředků. V tomto případě vyšla kvalita stromů vzniklých oběma pouţitými postupy stejně, a to poněkud hůře neţ v předchozích případech. CRT strom je znázorněn na obr. 3. Hodnota risk estimate vyšla 0,332. To znamená, ţe riziko chybného zařazení je 33,2 a naopak 66,8% případů je modelem klasifikováno správně. Výsledky této klasifikace můţeme shrnout následovně. Manaţeři a řadový zaměstnanci pracující na své pozici méně neţ rok uvaţují ve věcech investic obdobně. Výrazně nadprůměrně preferují investice v oblasti franšízingu, méně výrazně pak v oblasti nákupu cenných papírů a uměleckých předmětů. Naopak jsou proti investicím v oblasti nemovitostí. Další skupinou uvaţující obdobně ve věcech investic jsou manaţeři a řadový zaměstnanci pracující na své pozici déle neţ rok. Ti preferují investice v oblasti nemovitostí a stavebního spoření. Naopak jsou proti investicím v oblasti samostatného podnikání tak franšízingu. Třetí skupinu vytvořili podnikatelé, kteří dle očekávání silně preferují samostatné podnikání a zamítají investice v oblasti nemovitostí, stavebního spoření a uměleckých předmětů. Poslední skupinou jsou nezaměstnaní, kteří výrazně upřednostňují vklady do banky. Nadprůměrně také preferují nákup cenných papírů a franšízing. Naopak jsou výrazně proti nákupu uměleckých předmětů a podprůměrně by chtěli investovat v oblasti nemovitostí a stavebního spoření.
Obr. 2: CHAID-chuť podnikat
Obr. 3: CRT-oblast investic
Použitá literatura [1] EVERIT, B.S., LANDAU, S., LEESE, M.: Cluster Analysis, 4.vydání, Hodder Arnold, London, 2001. [2] ŘEZANKOVÁ, H.: Shlukování a velké soubory dat. Lázně Bohdaneč 29.11.2004 – 01.12.2004. In: KUPKA, Karel (ed.). Analýza dat 2004/II. Pardubice : TriloByte Statistical Software, 2005, s. 7–19. [3] ŘEZANKOVÁ, H., HÚSEK, D., SNÁŠEL, V.: Shluková analýza dat. Professional Publishing, Praha 2007. [4] TIMOFEEV R.: Classification and Regression Trees (CART) Theory and Applications, CASE-Center of Applied Statistics and Economics, Humboldt University, Berlin, 2004. [5] WILKINSON, L.: Tree Structured Data Analysis: AID, CHAID and CART, Sun Valley, ID, Sawtooth/SYSTAT Joint Software Conference, 1992. [6] ZHANG, T., RAMAKRISHNAN, R., LIVNY, M.: BIRCH: An Efficient Data Clustering Method for Very Large Databases. ACM SIGMOD Record, 25(2), 1996, s. 103 –114. [7] ZHANG, T., RAMAKRISHNAN, R., LIVNY, M.: BIRCH: A New Data Clustering Algorithms and Its Applications. Journal of Data Mining and Knowledge Discovery, vol. 1, no. 2, 1997, s. 141–182. [8] ŢAMBOCHOVÁ, M.: Jak na rozhodovací stromy, Informační Bulletin, Praha, 19(3), 2008, p. 1–12.
RNDr. Marta Ţambochová Universita Jana Evangelisty Purkyně Fakulta sociálně ekonomická Katedra matematiky a statistiky e-mail:
[email protected]
Ing. Kamila Tišlerová Universita Jana Evangelisty Purkyně Fakulta sociálně ekonomická Katedra ekonomiky podniku e-mail:
[email protected]
Classification of people types willing and unwilling to start their own business Abstract. Encouragement and promotion people to establish their own enterprises is ranked among the important government measurements towards to GDP growth. It is necessary for the success of this policy to identify the types of people who are inclinable to build up their own businesses as an independent entrepreneur or to start it in the form of buying a license and to set up a business based on franchising. The research was conducted to find out the incentives, barriers, preferences and other possible influences. Also the classification rules for the people type determination were sought. The main goal of the above mentioned research on willingness to start own business was to classify the types of such people. Two independent methods were used and the comparison of the results was done. Based on the real research data this paper aims to test the homogeneity of outputs derived from these methods. The homogeny was proven and demonstrated. In terms of methods of supervised learning the decision trees, namely classification trees - CART were used. The unsupervised learning was the second method and both hierarchical clustering and k-means clustering was conducted. This paper is also focused on creating of the proper classification which can serve as a solid base for the results interpretation and for the recommendation formulization. These recommendations should be applicable immediately in assorted fields of the society. Keywords: classification, decision tree, cluster analysis, starting business.