Vysoká škola ekonomická v Praze Fakulta podnikohospodářská Hlavní specializace: Podniková ekonomika a management
Název diplomové práce: METODY SEGMENTACE NA PŘÍKLADECH AUTOMOBILOVÉHO PRŮMYSLU
Vypracovala: Dagmar Dušková Vedoucí diplomové práce: doc. Ing. Jan Koudelka, CSc.
Prohlášení Prohlašuji, že diplomovou práci na téma „Metody segmentace na příkladech automobilového průmyslu“ jsem vypracovala samostatně. Použitou literaturu a podkladové materiály uvádím v přiloženém seznamu literatury.
V Praze dne 15.1.2007
Podpis
Poděkování Ráda bych poděkovala doc. Ing. Janu Koudelkovi, CSc. za vedení mé diplomové práce, za jeho konzultace, četné připomínky, trpělivost a ochotu.
Dále bych tímto chtěla vyjádřit svoje poděkování Mgr. Jiřímu Vítkovi, řediteli mediálního plánování agentury MindShare a Ing. Jiřímu Udatnému, manažeru výzkumného oddělení mediální agentury MindShare za jejich náměty, praktické poznatky, cenné připomínky a čas, který mi ochotně věnovali. Patří jim oběma můj dík.
Obsah Úvod ...........................................................................................................................................3 1
Segmentace trhu................................................................................................................3
1.1 Proč segmentovat trhy?...............................................................................................3 1.1.1 Pravidla segmentace trhu ....................................................................................3 1.1.2 Výhody segmentace trhu ....................................................................................3 1.2 Proces segmentace trhu...............................................................................................3 1.3 Příklad marketingového přístupu k segmentaci..........................................................3 1.3.1 Fáze 1: Vytváření segmentů ...............................................................................3 1.3.2 Fáze 2: Hierarchizace a výběr segmentů ............................................................3 2 Market & Media & Lifestyle – TGI ................................................................................3 2.1 Historie Market & Media & Lifestyle - TGI ..............................................................3 2.2 Projekt Market & Media & Lifestyle – TGI ...............................................................3 2.3 Formy výzkumu a zpracování MML – TGI dat .........................................................3 3 Kategorizace proměnných ...............................................................................................3
4
3.1.1 Kategorizované proměnné ..................................................................................3 3.1.1.1 Nominální stupnice (škála) .............................................................................3 3.1.1.2 Ordinální stupnice (škála)...............................................................................3 3.1.1.3 Kardinální stupnice (škála) .............................................................................3 3.1.2 Spojité proměnné ................................................................................................3 Kategorizace statistických metod ....................................................................................3
5
Metody pro postižení významných kritérií ....................................................................3
6
5.1.1 Statistické třídění n-tého stupně a poziční mapa ................................................3 5.1.1.1 Třídění prvního stupně....................................................................................3 5.1.1.2 Třídění druhého stupně ...................................................................................3 5.1.1.3 Třídění třetího stupně, případně vyšších stupňů .............................................3 5.1.1.4 Poziční mapa...................................................................................................3 5.1.2 Statistická závislost proměnných........................................................................3 5.1.2.1 Kontingenční tabulka......................................................................................3 5.1.2.1.1 Znaménková konvence .............................................................................3 5.1.2.2 Korespondenční analýza .................................................................................3 5.1.3 Faktorová analýza a analýza rozptylu (ANOVA)...............................................3 Metody odkrytí segmentů ................................................................................................3
7
6.1.1 Popisná segmentační kritéria ..............................................................................3 6.1.2 CHAID (chí-kvadrát AID) – rozhodovací stromy..............................................3 6.1.2.1 První kriteriálně založené přístupy: Regrese a AID .......................................3 6.1.2.2 Alternativní algoritmus CHAID .....................................................................3 6.1.2.3 CHAID Modeling ...........................................................................................3 6.1.2.4 Analýza kvality modelu ..................................................................................3 6.1.3 Shluková analýza (Cluster analysis) ...................................................................3 6.1.4 Vícerozměrné škálování (MDS = MultiDimensional Scaling)...........................3 Návrhy a doporučení v rozhodování agentury...............................................................3
Závěr ..........................................................................................................................................3
Seznam obrázků........................................................................................................................3 Seznam tabulek .........................................................................................................................3 Seznam příloh............................................................................................................................3 Příloha 1 Statistická závislost proměnných: Kontingenční tabulka ....................................3 Příloha 2 Statistická závislost proměnných: Pozorované a očekávané četnosti a příspěvky do chí –kvadrát........................................................................................................3 Příloha 3 Korespondenční analýza: Subjektivní mapa .........................................................3 Příloha 4 Analýza rozptylu (ANOVA): Seznam 55 skrytých faktorů..................................3 Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů ...................3 Příloha 5 Popisná segmentační kritéria: ABCDE socioekonomická klasifikace ................3 Příloha 6 Rozhodovací stromy: Příklad – rozhodovací strom..............................................3 Příloha 7 Shluková analýza: Seznam všech značek automobilů z MML dat......................3 Příloha 8 Shluková analýza: Kategorizace značek automobilů dle modelů a kategorie „ostatní“.....................................................................................................................................3 Literatura ..................................................................................................................................3
5
Úvod
Motto: „Data mining je analýza (často rozsáhlých) observačních dat s cílem nalézt netušené vztahy a sumarizovat data novými způsoby tak, že jsou srozumitelná a užitečná pro jejich majitele.”1
1
In Bártová, H., Bárta, V., Koudelka, J.: Chování spotřebitele a výzkum trhu, Praha 2004, str.173.
6
Úvod
Úvod Cíl práce Tato diplomová práce probíhala za spolupráce s mediální agenturou MindShare s.r.o.2 s využitím dat projektu Market & Media & Lifestyle (MML-TGI) agentury MEDIAN, která jsou k dispozici studentům na Vysoké škole ekonomické v Praze. Cílem této práce je vytvořit pro firmu MindShare kategorizaci metod nejčastěji používaných touto agenturou k vymezení cílových skupin, ukázat jak jednotlivé metody fungují na příkladech automobilového průmyslu a zhodnotit, do jaké míry tyto metody splňují úlohu v marketingovém procesu segmentace. Předmětem snažení je spojení teoretických poznatků o vícerozměrných statistických metodách používaných k marketingové segmentaci s praktickými poznatky marketingového uživatele. Jedná se tedy o úkol interdisciplinární, kde jsou spojovány zdánlivě mezi sebou nesouvisející odvětví, od statistiky přes sociometrii, psychometrii a ekonometrii až po marketing. Výsledkem práce je kategorizace jednotlivých segmentačních metod používaných agenturou MindShare z hlediska postižení významných kritérií a z hlediska odkrytí segmentů, rozdělení jednotlivých metod podle vhodnosti použití statistických proměnných a obecné zhodnocení jejich výhod, případně nedostatků pro praktické použití těchto segmentačních metod agenturou MindShare. Obr. č. 1: Spojení poznatků statistické a marketingové segmentace
S
2
M
MindShare s.r.o., Rašínovo nábřeží 10, 120 00 Praha 2, www.mindshareworld.com
7
Úvod Úvod do problematiky Je obtížné najít v marketingu téma, které by bylo všudypřítomnější než tržní segmentace. Na širokém trhu, jako je například trh automobilů, nemůže firma obsluhovat všechny zákazníky. Zákazníků je příliš mnoho, jsou rozptýleni a odlišují se svými kupními požadavky. Firma tedy potřebuje identifikovat specifické tržní segmenty, které jsou z marketingové perspektivy firmy “nejlepší” a které již může firma obsluhovat mnohem efektivněji. K nalezení těchto tržních segmentů slouží právě proces segmentace. Cílem segmentace je tedy rozdělení zákazníků do homogenních skupin (nazývaných segmenty), které se mezi sebou navzájem co nejvíce odlišují (jsou heterogenní) s ohledem na dané kritérium. Ačkoliv základní problém segmentace – klasifikace zákazníků do skupin – se může jevit jako úkol poněkud jednoduchý, výzkum tržní segmentace je jednou z nejbohatších oblastí v marketingové vědě z hlediska rozvoje segmentační metodologie3. Od té doby, co se tento koncept na konci 50.tých let objevil, segmentace se stala jedním z nejzkoumanějších témat v marketingové literatuře. V poslední době se tato literatura rozvinula kolem technologií, které pomocí analýzy rozsáhlých marketingových dat pomáhají identifikovat tržní segmenty. Mnohé z těchto technologií využívají již existujících statistických metod, ale i přesto některé podstatné problémy v oblasti tržní segmentace motivovaly vědce a výzkumníky k vývoji metod nových. Tyto nové metody se postupně rozšířily i do psychometrie, sociometrie a ekonometrie. Jak jsem již naznačila, v rámci procesu segmentace trhu se využívá řady různých metod a technik. V odlišné literatuře se však setkáme s různým dělením těchto metod. Podle Koudelky4 rozdělujeme segmentační metody na metody deduktivní a metody induktivní segmentace. Mezi metody deduktivní segmentace řadíme například marketingové zpravodajství nebo obsahovou analýzu. Při obsahové analýze sledujeme například výskyt určitých prvků ve vybraných sděleních například v tištěné inzerci. Druhou skupinou metod procesu segmentace trhu jsou metody induktivní5 segmentace. A právě metody induktivní segmentace používané firmou MindShare jsou předmětem této práce. Metody a techniky induktivní segmentace, které slouží k analýze dat, můžeme rozdělit jednak na metody pro postižení významných kritérií a jednak na metody odkrytí segmentů6. 3
Wedel, M. a Kamakura, W.: Market Segmentation, Conceptual and Methodological Foundations, 2nd ed., Kluwer Academic Publishers, 2000. 4 Koudelka, J., Segmentujeme spotřební trhy, Praha: Professional Publishing, 2005. 5 Indukce = metoda zkoumání, kdy se z jedinečných výroků usuzuje na obecný závěr, postup od zvláštního k obecnému. 6 Koudelka, J., Segmentujeme spotřební trhy, Praha: Professional Publishing 2005, str.124.
8
Úvod Jednotlivé metody budou ilustrovány na příkladech, přičemž bude použito výše zmíněných MML dat z oblasti automobilového průmyslu. Z metod pro postižení významných kritérií bude zkoumáno například třídění n-tého stupně, kontingenční tabulka, znaménková konvence, korespondenční analýza, ze simultánních vícevariantních technik pak faktorová analýza pro přípravu dat s následnou aplikací jednokriteriální analýzy rozptylu (ANOVA). Z metod používaných k odkrytí segmentů bude ilustrován například postup CHAID (neboli chí-kvadrát AID) rozkládající data pomocí stromové techniky. K jeho ilustraci na konkrétním příkladě bude použit agenturou využívaný program AnswerTree, který je však pouze jedním z několika možných použitelných statistických programů. Následně bude zkoumána shluková analýza a nakonec se neméně zajímavá skupina explorativních statistických metod nazvaných vícerozměrné škálování, rovněž používaná v marketingové praxi pro odkrytí segmentů. Většina metod bude aplikována z hlediska analýzy respondentů, neboť při tržní segmentaci vycházíme z přesvědčení, že zákazníci se ve svém spotřebním chování liší. Pokud firma „pozná“ lépe své zákazníky, může pak lépe přizpůsobovat své výrobky popř. služby potřebám a přáním svých cílových zákazníků. Navíc firma bude schopna na tyto zákazníky lépe zacílit, a tudíž i volba komunikačních a distribučních cest bude mnohem snadnější a finančně efektivnější. Dá se také předpokládat, že konkurence v tržním segmentu bude menší než konkurence na celkovém trhu. Některé metody pro odkrytí segmentů např. shluková analýza a vícerozměrné škálování bude provedeno z hlediska analýzy značek (výrobců a modelů) automobilů. Jedná se o metody, pomocí kterých budou odkryty jednotlivé tržní segmenty.
9
Segmentace trhu
1 Segmentace trhu 1.1 Proč segmentovat trhy? Na úvod si řekněme, co to vlastně „segmentace trhu“ je a proč se jí v marketingové praxi věnuje taková pozornost. V širším slova smyslu může být segmentace trhu chápána z odlišných pohledů, a to buď jako stav, strategie nebo proces7. Segmentace trhu jako stav je chápána jako členitost trhu z hlediska tržních segmentů. Pokud na trhu existuje řada segmentů, hovoříme o vysoké segmentaci trhu. Z jiného pohledu můžeme segmentaci trhu chápat jako strategii, založenou na segmentaci trhu, tedy cílený marketing. Nejčastěji je však v marketingovém prostředí segmentace trhu chápána jako proces, ve kterém se snažíme odkrýt tržní segmenty, které odrážejí podstatné diference mezi spotřebiteli. Segmentace trhu jako proces probíhá v několika fázích a využívá se přitom různých segmentačních metod. Pro účely této práce bude segmentace trhu chápána jako proces, přičemž budou zkoumány jednotlivé metody segmentace trhu. Proces segmentace trhu vychází z poznatku, že zákazníci se od sebe odlišují a to ve svých potřebách a přáních, v kupní síle, geografickém umístění, ale i v kupních postojích a zvycích. Uveďme si příklad výrobce v oblasti automobilového průmyslu. Výrobce automobilů může například identifikovat následující širší tržní segmenty: zákazníky, kteří si kupují automobil pro základní přepravu; zákazníky, kteří si kupují automobil pro jeho vysokou výkonnost; zákazníky, kteří vyhledávají luxus; a ty, kteří při koupi automobilu vyhledávají především bezpečnost. Tato různorodost zákazníků vede marketingové výzkumníky a specialisty k tomu, aby se zabývali jednotlivými odlišnostmi s cílem seskupit zákazníky resp. spotřebitele do homogenních skupin tzv. tržních segmentů. Philip Kotler (2001) definuje tržní segment jako „skupinu jednotlivců, skupin nebo organizací, kteří sdílí jednu nebo více podobných vlastností, díky nimž mají podobné potřeby, co se týče výrobků nebo služeb.“8 Jelikož zákazník stojí v centru marketingového přístupu trhu,9 musíme ho nejdříve nalézt, abychom ho mohli uspokojit. Abychom našli vhodného zákazníka pro náš produkt, musíme nejdříve identifikovat jeho odlišnosti ve spotřebním chování oproti ostatním
7 8
9
Koudelka, J.: Segmentujeme spotřební trhy, Praha, Professional Publishing, 2005, str.15. In Malý, V.: Marketingový výzkum, Teorie a praxe, Nakladatelství Oeconomica, 2004, str.142.
Koudelka, J.: Segmentujeme spotřební trhy, Praha, Professional Publishing, 2005, str.9.
10
Segmentace trhu zákazníkům. A právě k tomu slouží proces segmentace trhu, který představuje úsilí firmy dosáhnout dokonalého zacílení.10
1.1.1 Pravidla segmentace trhu Dříve, než se budeme blíže zabývat procesem segmentace trhu, seznamme se s pravidly resp. podmínkami, které přímo souvisí s procesem segmentace trhu. Ve své knize Marketing uvádí Boučková (2003) dvě základní podmínky segmentace trhu:
každý segment by měl být homogenní; jedná se o nalézání takových skupin zákazníků a spotřebitelů, kteří si jsou uvnitř daného segmentu co nejvíce podobni svými tržními projevy na daném trhu,
segmenty navzájem mezi sebou by měly být naopak svými tržními projevy na daném trhu co nejvíce odlišné, tj. heterogenní11 a to tak, že každý segment má vyhraněné požadavky a můžeme na něj aplikovat stejně vyhraněnou marketingovou strategii.
1.1.2 Výhody segmentace trhu Položme si nyní otázku, proč je pro nás jako pro firmu hledání a odkrytí tržních segmentů výhodné. Existuje celá řada výhod, pokusme se však shrnout ty nejdůležitější. V první řadě, rozeznání odlišností zákazníků je klíčem k úspěšnému marketingu, jelikož firma může lépe přizpůsobit své výrobky a služby potřebám zákazníka. Tam, kde je to vhodné, může vést segmentace také k tzv. niche marketingu. Jedná se o specializovaný trh, kde může firma uspokojit potřeby zákazníků právě v tomto výklenkovém segmentu, což vede k dominanci tohoto segmentu, čehož není často možné dosáhnout na celém trhu. Další výhodou segmentace je možnost soustředění firemních zdrojů na trhy, kde má firma největší konkurenční výhodu a nejvyšší výnosy. Segmentace může být použita také ke získání konkurenční výhody tím, že umožňuje, abychom uvažovali o trhu jinými způsoby než to dělá naše konkurence. Díky prostředkům segmentace můžeme také naši firmu zviditelnit jako specialistu ve vybraném segmentu, s lepším porozuměním zákaznických potřeb, a tím získávání výhod pro naše výrobky a služby před výrobky a službami našich konkurentů. V této souvislosti je nutno poznamenat, že v marketingu nemusíme vždy využít zaměření na tržní segmenty. Existují i situace, kdy diference mezi zákazníky se víceméně neprojevují, nebo nejsou podstatné z hlediska marketingové orientace, nebo mohou být 10
11
Kotler, P.: Marketing Management, Praha, Grada Publishing, 2001,str.255. Boučková, J. a kol.: Marketing, Praha, C.H.Beck, 2003, str.123.
11
Segmentace trhu významné, ale díky převaze poptávky nad nabídkou je zákazníci nepromítají do svého tržního rozhodování.12 V tomto případě je účelné využít tzv. tržně nediferencovaného marketingu (konvergentní strategie). Setkáváme se s ním často pod pojmem hromadný neboli masový marketing. Předmětem našeho dalšího zkoumání však bude cílený marketing (divergentní strategie), který využívá právě strategie tržní segmentace.
1.2 Proces segmentace trhu Podívejme se nyní na rozdělení procesu segmentace trhu do jednotlivých fází. Některá literatura uvádí základní, jiná podrobnější dělení procesu segmentace trhu. Pro pochopení procesu segmentace trhu je velmi názorné a výstižné členění dle Koudelky13 do čtyř hlavních rovin, které znázorňuje obrázek č.2.
Obr. č. 2: Roviny procesu segmentace trhu
I. Vymezení daného trhu
II. Postižení významných kritérií
III. Odkrytí segmentů
IV. Rozvoj profilu segmentů
První fází procesu segmentace trhu je vymezení daného trhu. Jedná se o zodpovězení otázky „Co se chystáme segmentovat?“ Jinými slovy kde, tedy v jakém tržním prostředí a na jaké úrovni se chystáme segmentovat. Tato rovina nebude předmětem zkoumání naší práce. 12
13
Koudelka, J.: Segmentujeme spotřební trhy, Praha, Professional Publishing, 2005, str.9. Koudelka, J.: Segmentujeme spotřební trhy, Praha, Professional Publishing, 2005, str.24.
12
Segmentace trhu Naše bádání bude zaměřeno na druhou a třetí rovinu, čili na postižení významných segmentačních kritérií a odkrytí tržních segmentů. Budeme prověřovat, do jaké míry jsou jednotlivá kritéria účinná při nalézání významných odlišností mezi jednotlivými segmenty. Až pokud nalezneme takovou proměnnou, můžeme ji využít v procesu poznávání a zkoumání tržních segmentů pomocí různých statistikcých metod a postupů. Jedním z hlavních úkolů naší práce bude nalezení využití těchto metod v procesu poznávání a odkrývání tržních segmentů, ale i jejich kategorizace dle vhodnosti použitých proměnných. Fáze odkrytí segmentů by nám měla přinést jasnou představu o tom, kteří spotřebitelé patří do kterého konkrétního segmentu. Tímto však proces tržní segmentace nekončí. Je zapotřebí ještě rozhodnout, na které segmenty se pomocí cíleného marketingu zaměříme a jak jednotlivé segmenty „oslovíme.“ Proto je důležitá i poslední fáze, rozvoj profilu segmentů, která nám poskytne další důležité informace o jednotlivých segmentech.
1.3 Příklad marketingového přístupu k segmentaci Podívejme se nyní na konkrétní příklad toho, jak můžeme z marketingového hlediska přistupovat k tržní segmentaci. Tento přístup rozděluje proces segmentace trhu do dvou základních fází, které se dále dělí na jednotlivé etapy a kroky14:
Fáze 1
Vytváření segmentů
Fáze 2
Hierarchizace a výběr segmentů
První fáze procesu zahrnuje důležité kroky pro vytvoření segmentů pro náš trh. Tato fáze by měla být aplikována na celý trh, ve kterém naše firma operuje, ne pouze na tu část trhu, ve které je naše firma úspěšná. Proto sem spadají nejenom naši zákazníci, ale i zákazníci naší konkurence, spolu s výrobky nebo službami, které jsou koupeny těmito zákazníky. Druhá fáze procesu se potom zabývá výběrem těch segmentů, ve kterých by měla naše firma operovat. Jednotlivé fáze, etapy a kroky procesu segmentace trhu dle McDonalda a Dunbara jsou zachyceny na následujícím obrázku15.
14
15
McDonald, M. a Dunbar, I., Market Segmentation, Oxford: ElsevierButterworth-Heinemann, 2005, str.56. McDonald, M. a Dunbar, I., Market Segmentation, Oxford: ElsevierButterworth-Heinemann, 2005, str.56.
13
Segmentace trhu Obr. č. 3: Proces segmentace trhu
Fáze 1: Vytváření segmentů Etapa 1 – Trh a jeho fungování Krok 1 – Vymezení daného trhu Rozsah projektu Krok 2 – Mapování trhu Struktura a rozhodovatelé Etapa 2 – Rozhodovatelé a obchodní transakce Krok 3 – Kdo stanovuje co Rozhodovatelé a jejich nákupy Etapa 3 – Segmentování trhu Krok 4 – Proč Potřeby rozhodovatelů
Krok 5 – Utváření segmentů Spojování stejně smýšlejících rozhodovatelů
1.3.1 Fáze 1: Vytváření segmentů Krok 1 - Vymezení daného trhu Prvním krokem segmentačního procesu je vymezení daného trhu, čili určení rozsahu segmentačního projektu pomocí specifikace geografických oblastí spadajících do projektu 14
Segmentace trhu a dále jasné porozumění zákazníkových úmyslů vstoupit na trh z hlediska užití nebo záměru koupit náš výrobek nebo službu nebo výrobek či službu našeho konkurenta.
Krok 2 – Mapování trhu Druhým krokem je mapování trhu, které spočívá v prezentaci vymezeného trhu formou diagramu. Jedná se o vývojový diagram, který znázorňuje tok peněz od konečných uživatelů do naší firmy, ke konkurentům, dodavatelům, a výrobky a služby od dodavatelů proudí ke konečným uživatelům. Na mnoha trzích je však použití vývojového diagramu znázorňujícího jednoduše fyzické etapy distribučního řetězce nedostačující a to ve zobrazení role, kterou hrají „ovlivňitelé“ nákupního rozhodnutí nebo zaběhlé postupy při nákupním rozhodování, se kterými se firmy na trhu setkávají. Z pohledu dodavatelů představuje mapa trhu spíše překážkovou dráhu, kterou musí překonat, aby se dostali ke konečnému uživateli. Jakmile je mapa trhu hotova, je nutno rozhodnout, ve kterých momentech jsou dělána rozhodnutí o koupi konkurenčních výrobků nebo služeb, protože se jedná právě o tyto momenty, ve kterých by se měla segmentace uskutečnit. Mapování trhu nám také umožňuje zavést do procesu jakoukoli současnou segmentační strukturu, kterou máme pro daný trh, který hodláme segmentovat a otestovat jeho validitu.
Krok 3 – Kdo stanovuje co Třetí krok nám umožňuje podívat se na jakékoli z rozhodujících momentů na mapě trhu a vytvořit takový model trhu, který je založen na odlišných zákaznících a jejich obchodních
transakcích.
Tento
proces
vyžaduje
zaznamenání
klíčových
aspektů
vyhledávaných trhem při rozhodování mezi konkurenčními nabídkami. Klíčové aspekty jsou vybrány ze skutečně nabízených výrobků a služeb (co je koupeno) a z možností prezentovaných tím, kde tyto výrobky a služby mohou být koupeny, kdy mohou být koupeny a jak. Právě během tohoto kroku jsou zaznamenávány informace o rozhodovatelích, které mohou být použity k jejich identifikaci na trhu.
15
Segmentace trhu Krok 4 – Proč Ve třetím kroku jsme se zabývali pohledem na trh pomocí obchodních transakcí. Ve čtvrtém kroku již odhlížíme od tohoto pohledu na trh a zkoumáme nyní, proč jsou vyhledávané aspekty důležité pro rozhodovatele při rozhodování mezi alternativními nabídkami. Poté, co porozumíme skutečným potřebám rozhodovatelů a také užitku, který jim výrobky či služby přináší, můžeme posoudit relativní hodnotu každé „kolonky“ našeho modelu, který jsme vytvořili ve třetím kroku. Dále je zaznamenáno, jak důležitou roli hraje cena při každém nákupu.
Krok 5 – Utváření segmentů V pátém kroku jsou potom popisovány techniky pro seskupování těchto kolonek dohromady tak, abychom dosáhli nejlepšího vhodného seskupení. Kolonky, které jsou si navzájem podobné vzhledem k relativní důležitosti potřeb rozhodovatelů jsou pak sloučeny tak, aby vytvořili segmenty. Počet závěrečných segmentů se na většině trzích pohybuje mezi pěti až deseti. Každý segment je potom nutno podrobit konfrontaci s realitou, založené na velikosti každého segmentu, diferenciaci mezi nabídkami, které požadují, naší schopnosti identifikovat a zasáhnout odlišné zákazníky nalezené v každém segmentu, a slučitelnosti těchto segmentů s naší firmou.
1.3.2 Fáze 2: Hierarchizace a výběr segmentů Druhá fáze procesu segmentace trhu se zabývá výběrem těch segmentů, ve kterých bude naše firma operovat a pro které bude vyvíjet marketingové strategie.
Krok 6 - Stanovení hledisek hodnotících atraktivitu segmentu (ATA) V šestém kroku celkového procesu segmentace trhu nejdříve stanovíme hlediska, podle kterých by naše firma hodnotila atraktivitu jakéhokoli segmentu vzhledem k naší firmě. Poté je stanovena relativní důležitost těchto hledisek navzájem, která je následně kvantifikována u každého z nich. Potom je kalkulován celkově dosažený počet bodů atraktivnosti pro každý konečný segment, který je založen na tom, jak dobře každý z nich splňuje požadavky naší firmy.
16
Segmentace trhu V této souvislosti se někdy hovoří o tzv. všeobecných hlediscích pro hodnocení segmentů – absolutní tržní atraktivitě segmentu (ATA)16. Jedná se o taková hlediska, která jsou v některých směrech všeobecně lepší, a to víceméně bez ohledu na to, která firma hodnocení provádí. Můžeme sem zařadit ekonomickou výhodnost segmentu jako např. velikost segmentu, kupní sílu segmentu a dále pohled na stav marketingového prostředí jako např. míru konkurence nebo výskyt substitutů.
Krok 7 - Stanovení konkurenceschopnosti firmy v rámci jednotlivých segmentů (RTA) Posledním krokem segmentačního procesu je z hlediska segmentu stanovení schopnosti naší firmy splnit požadavky každého konečného segmentu v porovnání se schopností konkurence splnit tyto požadavky. Opět se v tomto smyslu hovoří o relativní tržní atraktivitě segmentu (RTA)17, která vyjadřuje postavení či možnosti firmy vůči danému segmentu.
Sloučením atraktivity segmentů (ATA) a relativní konkurenceschopnosti firmy v rámci jednotlivých segmentů (RTA) můžeme sestavit strategický obraz našeho trhu, který může být použit k výběru těch segmentů, které umožní naší firmě dosažení podnikových cílů.
Na základě výše uvedeného příkladu marketingového přístupu firmy k segmentaci můžeme rozšířit dvě základní podmínky segmentace trhu týkající se vnitřní homogenity segmentů a heterogenity mezi dvěma odlišnými segmenty ještě o několik následujících doplňujících pravidel18:
každý segment by měli tvořit takoví zákazníci, kterých se nákup bezprostředně týká a to tak, že buď provádějí samotné nákupní rozhodování nebo mohou nákupní chování ovlivnit,
každý segment by měl být dostatečně potencionálně velký, aby ospravedlnil čas a úsilí, které musí být vynaloženo na plánování dané podnikové příležitosti,
každý segment by měl být dosažitelný pro odbyt a stávající či potenciální distribuční cesty,
16 17
Koudelka, J.: Segmentujeme spotřební trhy, Praha: Professional Publishing, 2005, str.138. Koudelka, J.: Segmentujeme spotřební trhy, Praha: Professional Publishing, 2005, str.138.
18
McDonald, M. a Dunbar, I.: Market Segmentation, Oxford, Elsevier Butterworth-Heinemann, 2005, str.54.
17
Segmentace trhu
každý segment by měl být identifikovatelný souborem charakteristik tak , aby zákazníci v tomto segmentě mohli být zasaženi vyhraněnou a cenově efektivní komunikační strategií,
firma by měla být schopna provádět potřebné změny v její struktuře, informačních a rozhodovacích systémech tak, aby se tyto soustředily na nové segmenty.
18
Market & Media & Lifestyle – TGI
2 Market & Media & Lifestyle – TGI Jednotlivé statistické metody a jejich využití v procesu segmentace trhu budou prezentovány na příkladech z oblasti automobilového průmyslu s použitím MML dat z roku 2004. Důvodem je jednak dostupnost těchto dat pro studenta na VŠE v Praze a dále široká použitelnost těchto dat v mediálních agenturách. V této kapitole se tedy blíže seznámíme s projektem MML, jeho historií, formami výzkumu a zpracování těchto dat.
2.1 Historie Market & Media & Lifestyle - TGI Projekt Market & Media & Lifestyle – TGI je v České republice realizován od roku 1997 agenturou pro výzkum trhu, médií a veřejného mínění MEDIAN s.r.o. Obdobný typ výzkumu se provádí v dalších 49 zemích světa (např. USA, Francie, SRN, Ruská federace, Polsko, Maďarsko) v licenční spolupráci s britskou společností BMRB International, kde tento projekt běží pod značkou TGI (Target Group Index) od roku 1969. Od té doby je v Británii oslovováno ročně 25 000 občanů starších patnácti let za účelem účasti na tomto výzkumu.
2.2 Projekt Market & Media & Lifestyle – TGI Projekt Market & Media & Lifestyle – TGI je výzkumem prováděným kontinuálně po celý rok, s výstupem dat čtyři krát ročně, vždy za uplynulý klouzavý půlrok. Od roku 2000 je garantován minimální výběrový vzorek 15000 respondentů. Data jednotlivých vln výzkumu jsou tedy sbírána na polovině ročního garantovaného počtu respondentů, tj. minimálně 7500 lidí. Výzkum však umožňuje i spojení dat za celý rok, čehož využijeme i pro účely této práce. Při ilustraci využití jednotlivých metod analýzy dat budeme pracovat s výstupem MML dat z roku 2004, který proběhl ve čtyřech vlnách (I.- IV. kvartál) na 16133 respondentech. Cílem projektu MML-TGI je ve spolupráci se stávajícími i potenciálními klienty pružně reagovat na nové situace na trhu tak, aby mohl poskytovat marketingovým manažerům aktuální a komplexní informace o trhu a tím zvyšovat pravděpodobnost jejich správného rozhodování v oblasti cíleného marketingu, mediálního plánování a reklamních aktivit. Mezi uživatele dat patří zejména reklamní agentury, mediální agentury, média, marketingoví specialisté, výrobci, podnikatelé, poradci, distributoři, prodejci nebo obchodníci. Pomocí tohoto projektu je možné identifikovat žádanou cílovou skupinu v rámci daného trhu.
19
Market & Media & Lifestyle – TGI
2.3 Formy výzkumu a zpracování MML – TGI dat Agentura MEDIAN disponuje svou vlastní tazatelskou sítí, jejímž prostřednictvím realizátoři tohoto projektu sbírají data v terénu. Data jsou získávána z jednoho zdroje (single source), což v praxi znamená, že informace o 200 kategoriích výrobků (3000 značek) a služeb (včetně informací o finančnictví a bankovních službách), o 400 médiích (tisk, rozhlas, televize), životním stylu (700 výroků) i sociodemografii, pocházejí od stejného respondenta. Výběrový soubor tvoří obyvatelé České republiky ve věku 12-79 let. Výběr respondentů byl uskutečněn metodou náhodného výběru tak, aby svým složením odpovídal struktuře populace České republiky podle věku, pohlaví, vzdělání, místa bydliště a velikosti sídla. Minimální velikost výběrového vzorku, jak již bylo zmíněno, je 7500 respondentů. Vlastní sběr dat realizuje agentura MEDIAN jednak metodou osobních rozhovorů tazatele s respondentem (face to face) a jednak samostatným vyplněním dotazníku respondentem. Vyplněné dotazníky jsou následně osobně vyzvednuty tazatelem a odeslány na adresu realizátora projektu. Poté, co realizátoři výzkumu shromáždí data získaná z aplikace výše popsaných metod marketingového výzkumu, musí být tato data nejdříve zpracována a upravena. Vedle prověřování validity získaných údajů zjišťuje MEDIAN i možné zdroje chyb, které je nutné podchytit a upravit již v této fázi, aby nedocházelo ke zkreslení výsledků výzkumu. Mezi nejčastější chyby patří jednak chyby způsobené tazatelem, kdy tazatel klade respondentům otázky nesprávným způsobem, a jednak neadekvátní, nekonzistentní či irelevantní odpovědi v dotazníku. Data musí být proto zkontrolována z hlediska jejich úplnosti, jednoznačnosti a logičnosti a následně dočištěna. Nasbíraná a upravená data realizátoři nejdříve přepíší z dotazníků do datové matice a následně je kódují. Procesem kódování se rozumí převedení slovních výrazů do symbolů (numerických nebo písemných znaků), neboli převedení dat do elektronické podoby, což umožňuje jejich analýzu pomocí výpočetní techniky. Po úspěšném kódování dat je pak provedena jejich analýza, která slouží k vyhodnocení výsledků. K analýze zpracovaných dat se používají matematicko-statistické metody, z nichž aplikace a využití některých z nich bude předmětem našeho zkoumání.
20
Kategorizace proměnných
3 Kategorizace proměnných Dříve, než se budeme zabývat jednotlivými statistickými metodami využívanými pro analýzu marketingových dat, je důležité, abychom se seznámili s kategorizací statistických proměnných, neboť stupnice (škála), ve které jsou data měřena, rozhoduje o možnosti použít příslušnou statistickou metodu. Ze statistického hlediska jsou rozlišovány následující typy proměnných.
3.1.1 Kategorizované proměnné 3.1.1.1 Nominální stupnice (škála) Nominální neboli jmenná stupnice představuje nejjednodušší typ stupnice měření proměnných. Ze statistického hlediska jde o kvalitativní proměnné, které mohou být buď binární nebo vícestavové. Binární proměnné jsou takové proměnné, které definují přítomnost 1 nebo nepřítomnost 0 nějakého znaku. Příkladem binární proměnné může být například pohlaví (1 muž, 0 žena). Vícestavové proměnné jsou potom proměnné, které jsou kódované obvykle čísly 0, 1, 2, … . Příkladem vícestavové proměnné mohou být například regiony (1 Praha, 2 Středočeský kraj, 3 Jihočeský kraj, 4 Plzeňský kraj, 5 Karlovarský kraj atd.). Vícestavové kvalitativní proměnné se obyčejně převádějí na umělé binární proměnné19.
3.1.1.2 Ordinální stupnice (škála) Vyšším typem stupnice je stupnice ordinální neboli pořadová, která umožňuje uspořádání znaků subjektivně a lze provést logické uspořádání proměnných do stupnice od nejvýhodnějšího po nejméně výhodné. Příkladem může být například vzdělání (1 ZŠ, 2 SŠ, 3 VŠ, atd). Ze statistického hlediska jde o semikvantitativní znaky, kde jsou sice kategorie mezi sebou uspořádány, ale nemají mezi sebou měřitelné rozdíly. To znamená, že o žádné dvojici kategorií nemůžeme poskytnout informaci ve smyslu o kolik, resp. kolikrát je jedna kategorie lepší nebo horší než druhá.
19
Meloun, M., Militký, J., Hill, M., Počítačová analýza vícerozměrných dat v příkladech, 2005, str.1
21
Kategorizace proměnných
3.1.1.3 Kardinální stupnice (škála) Nejvyšším typem stupnice je stupnice kardinální. Jedná se o takovou stupnici, v níž je zavedena metrika (vzdálenost), takže lze provádět matematické operace jako je sčítání, odčítání, násobení a dělení. Je důležité si uvědomit, že tento nejvyšší typ stupnice dovoluje všechny operace jako stupnice předchozí a některé operace navíc, a že tedy přechod od vyšší stupnice k nižší není příliš žádoucí (přesto však při ztrátě informací možný). Z hlediska volby analytických postupů jsou nejvýhodnější datové soubory, které obsahují pouze nebo alespoň převážně proměnné kvantitativní. Příkladem kardinální proměnné je například příjem, který je rozdělen do kategorií (bez příjmu, 0-4000, 4001-8000, 8001-12000, 12001-16000, atd.) Kardinální stupnice může mít podobu stupnice intervalové nebo poměrové. V intervalové stupnici (škále) je možné provádět také sčítání a odčítání. Není zde však zaveden přirozený nulový bod. V poměrové škále je možné vyjádřit i poměr mezi objekty (dělení), to znamená, že je zaveden přirozený počátek.
3.1.2 Spojité proměnné Postupy při práci s proměnnými jsou dány také oborem jejich hodnot. Na základě tohoto kritéria rozlišujeme ze statistického hlediska také nespojité (diskrétní) kvantitativní proměnné nebo kvantitativní proměnné spojité. Nespojité statistické proměnné nabývají pouze některých číselných hodnot (přirozených čísel nebo celých nezáporných čísel) jako např. počet členů v domácnosti. Spojité statistické proměnné mohou nabývat v rámci určitého intervalu libovolných hodnot například čistý měsíční příjem respondenta. Pro analýzu je výhodnější, jsou-li proměnné spojité nebo nabývají-li velkého počtu hodnot20.
Na základě uvedeného základního třídění statistických proměnných bylo v rámci diplomové práce vytvořeno schéma, které na obrázku č.4 graficky znázorňuje kategorizaci jednotlivých proměnných. Růžovou barvou byly označeny slovní (kvalitativní) proměnné, modrou barvou pak číselné (kvantitativní) proměnné.
20
Hebák, P.: Vícerozměrné statistické metody [3], Praha: Informatorium, 2007, str.11.
22
Kategorizace proměnných Obr. č. 4: Schéma kategorizace proměnných
Proměnné (statistické znaky)
Kategorizované
Nominální
Ordinální
Binární
Vícestavové
slovní neboli kvalitativní proměnné
číselné neboli kvantitativní proměnné
Spojité
Kardinální
23
Kategorizace statistických metod
4 Kategorizace statistických metod V této kapitole se budeme zabývat kategorizací statistických metod používaných agenturou MindShare a jejich praktickým využitím. Z technického hlediska může analýza dat probíhat poměrně mnoha způsoby. Do jisté míry lze pohled na analytické postupy uspořádat podle jejich zapojení do určité fáze procesu segmentace trhu21. Podle tohoto zapojení rozlišujeme jednak metody pro postižení významných kritérií a jednak metody odkrytí segmentů. Statistická literatura22 uvádí poměrně velké množství obou skupin těchto metod, avšak v rámci této práce se zaměříme pouze na statistické metody používané společností MindShare. S ohledem na posloupnost jednotlivých fází procesu segmentace trhu se budeme zabývat nejdříve metodami pro postižení významných kritérií. Z metod pro postižení významných kritérií používá agentura MindShare například korespondenční analýzu, faktorovou analýzu a analýzu rozptylu. Pro doplnění, statistická literatura uvádí kromě těchto metod ještě metody další, například analýzu hlavních komponent nebo diskriminační analýzu. Z metod odkrytí tržních segmentů používá MindShare shlukovou analýzu, vícerozměrné škálování, ale i rozhodovací stromy. Použití výše uvedených metod bude ilustrováno na příkladech automobilového průmyslu. U jednotlivých příkladů budou uváděny pouze výstupy použitelné pro marketingovou praxi, které budou následně interpretovány. Ostatní statistická kritéria nebudou uváděna. V rámci diplomové práce byla pro agenturu MindShare vytvořena kategorizace metod z hlediska vhodnosti typu použité proměnné (viz. Tab.č.1). Tato tabulka představuje splnění jednoho z dílčích cílů této diplomové práce.
21 22
Koudelka, J., Segmentujeme spotřební trhy, Praha: Professional Publishing, 2005, str.126. Meloun, M., Militký, J., Hill, M., Počítačová analýza vícerozměrných dat v příkladech, Praha: Academia 2005.
24
Kategorizace statistických metod
Tab. č. 1: Metody analýzy dat z hlediska typu používaných proměnných
TYP METODY
TYP PROMĚNNÉ
1. Metody pro postižení významných kritérií Třídění n-tého stupně
Kategorizované
Poziční mapa
Číselné
Kontingenční tabulka
Kategorizované
Korespondenční analýza
Kategorizované
Faktorová analýza
Číselné
Analýza rozptylu (ANOVA)
Kategorizované a spojité
2. Metody odkrytí segmentů Popisná segmentační kritéria CHAID (chí-kvadrát) AID – rozhodovací stromy
Jakákoli proměnná a) Cílové proměnné – Kategorizované b) Prediktory – Kategorizované nebo Spojité
Shluková analýza
Číselné
Vícerozměrné škálování
Spojité
25
Metody pro postižení významných kritérií
5 Metody pro postižení významných kritérií 5.1.1 Statistické třídění n-tého stupně a poziční mapa Výsledkem statistického šetření bývá zpravidla velké množství číselných údajů, které jsou však dosti nepřehledné. Aby se údaje staly přehlednými a aby vynikly charakteristické rysy a zákonitosti analyzovaného souboru, je zapotřebí je setřídit. Tříděním tedy rozumíme rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů. Nejenže tříděním je dosaženo uspořádání údajů do přehledné formy, ale dojde také k jejich zhuštění. Získané údaje jsou uváděny v četnostech, tj. kolikrát se daný jev ve výběrovém souboru vyskytuje a vzniklou tabulku nazýváme tabulkou rozdělení četností23 (viz. Tab.č.2). Rozlišujeme jednak četnosti absolutní (n), které se vyjadřují v absolutních číslech, a jednak četnosti relativní (p), které se uvádí v procentech. Pokud chceme mezi sebou porovnávat různá rozdělení četností lišící se svým rozsahem, je vhodné převést absolutní četnosti na četnosti relativní. Relativní četnosti jsou získány jako podíl jednotlivých absolutních četností k celkovému souboru. Relativní četnosti jsou pro srovnání a interpretaci výsledků praktičtější. Kromě rozdělení absolutních a relativních četností je někdy používáno také rozdělení kumulativních absolutních a kumulativních relativních četností, které říkají, kolik jednotek souboru, resp. jaká poměrná část souboru má variantu znaku menší nebo rovnou určité dané obměně.
23
Seger J., Hindls R.: Statistické metody v tržním hospodářství, Victoria Publishing Praha, 1995, str.19.
26
Metody pro postižení významných kritérií Tab. č. 2: Tabulka rozdělení četností
Četnost
Kumulativní četnost
Varianta znaku xi
absolutní ni
relativní pi
absolutní
relativní
x1
n1
p1
n1
p1
x2
n2
p2
n1+n2
p1 + p2
….
….
….
….
xn
nk
pk
k
k
Celkem
∑ ni = n i =1
k
∑p i =1
i
∑n i =1
=1
i
=n
x
k
∑p i =1
i
=1
x
V souvislosti s používáním statistických metod je důležité zmínit tzv. výběrovou chybu (statistickou odchylku). Při volbě počtu dotazovaných respondentů vycházíme z toho, jak velká je tato výběrová chyba přijatelná. Zjednodušeně řečeno, výběrová chyba říká, jak se získané výsledky liší od skutečnosti. Čím menší bude výběrový soubor, tím větší bude výběrová chyba a tím se budou získané údaje více lišit od skutečnosti. Statistické třídění patří k nejjednodušším metodám analýzy dat, přičemž je rozlišováno několik stupňů třídění dat. Je-li prováděno třídění pouze podle obměn jedné proměnné (jednoho statistického znaku), jedná se o jednostupňové třídění. Je-li prováděno třídění podle více proměnných najednou, jde o vícestupňové třídění.
Popis ukazatelů MML - TGI dat
K tomu, abychom byli schopni v následujících příkladech statisticky interpretovat výsledky MML dat z programu Data Analyzer, je nutné, abychom se seznámili s několika nejpoužívanějšími ukazateli sloužících k interpretaci těchto dat. Prvním důležitým ukazatelem je ukazatel 000 (projekce v tisících). Tato hodnota vyjadřuje, kolik osob resp. domácností v populaci splňuje podmínku v řádku a zároveň ve sloupci. Druhým důležitým ukazatelem je tzv. řádkové procento (ř.%). Řádkové procento vyjadřuje procento z položky umístěné v řádku. Třetím důležitým ukazatelem je pak tzv. sloupcové procento (s.%), které vyjadřuje procento z položky umístěné ve sloupci. Procento z celé populace vyjadřuje tzv. bazické procento (b.%).
27
Metody pro postižení významných kritérií Kromě těchto ukazatelů je možno v Data Analyzeru pracovat s odvozenými ukazateli, mezi které patří například Index. Index říká, zda je procentuelní zastoupení skupiny osob v řádku ve skupině ve sloupci vyšší nebo nižší, než v celé populaci. Jinými slovy, index ukazuje, o kolik je více obyvatel ve vybrané cílové skupině oproti tomu, jak je zastoupena cílová skupina v celkové populaci. Počítá se jako % sloupcové v daném políčku dělené % sloupcovým, které se nachází v průniku sloupce Celkem a příslušného řádku. Vzhledem k tomu, že na smyslu získává index až při proložení jednoho jevu druhým, již do značné míry překonává rámec třídění prvního stupně.
5.1.1.1 Třídění prvního stupně Statistický popis metody Třídění prvního stupně je nejjednodušší statistickou analýzou, při které jsou zkoumány
četnosti jednotlivých kategorií u jedné proměnné. To znamená, že je porovnáván počet zastoupení každého druhu odpovědi u jednotlivých otázek. Třídění prvního stupně udává výsledky za celý výběrový soubor, to znamená jak odpovídali všichni respondenti bez dalšího členění.
Příklad Tab. č. 3: Transformace do marketingového problému
VSTUP VÝSTUP
Statistika
Marketing
Jedna proměnná
Máte ve Vaší domácnosti automobil?
Četnost jednotlivých kategorií u jedné proměnné
Skupiny lidí dle počtu automobilů v domácnosti
Tab. č. 4: Třídění prvního stupně
Máte ve Vaší domácnosti automobil (vlast./fir. pro soukr. úč./na leas.)? Celkem CS: CS Všichni Prj 000 ř.% s.% b.% ano - 1 auto 4 684 100,0 53,7 53,7 ano - 2 auta 414 100,0 4,7 4,7 ano - 3 auta a více 44 100,0 0,5 0,5 ne/žádné 3 582 100,0 41,1 41,1
Index 100,0 100,0 100,0 100,0
28
Metody pro postižení významných kritérií Popis příkladu
V tabulce č.4 je uveden příklad třídění prvního stupně. Respondenti odpovídali na otázku, zda mají ve své domácnosti automobil, a to ať už vlastní, firemní pro soukromé účely nebo na leasing. Názvy jednotlivých kategorií tvoří jedno auto, dvě auta, tři a více aut nebo žádné auto. V tabulce jsou uvedena jak procenta (řádková, sloupcová, bazická) tak absolutní čísla (počet nevážených respondentů), čehož se využívá obzvláště, jedná-li se o menší četnosti. Z tabulky je zřejmé, že ze všech respondentů má 53,7% dotazovaných jeden automobil, 4,7% dotazovaných má v domácnosti dva automobily, 0,5% dotazovaných má tři a více automobilů a 41,1% nemá ve své domácnosti automobil žádný.
Vyhodnocení metody
Výhody •
Nejjednodušší statistická analýza
Nevýhody •
Nepostihuje
žádné
vztahy
mezi
jednotlivými otázkami •
Značná přehlednost
•
Udává odpovědi všech respondentů bez dalšího podrobnějšího členění
5.1.1.2 Třídění druhého stupně Statistický popis metody Pokud je k dispozici větší objem dat, kde jednotlivé kategorie jsou více zastoupeny,
pak třídění prvního stupně již nestačí a provádí se tzv. třídění druhého stupně. V praxi bývá někdy označováno jako profilování. Třídění druhého stupně udává, jak odpovídali jednotlivé skupiny respondentů. Ve skutečnosti se porovnávají dvě proměnné mezi sebou, jinými slovy jde o dvourozměrné rozdělení četností. Třídění druhého stupně již umožňuje sledovat závislosti mezi proměnnými. Může nás například zajímat, zda si respondenti pořídili nový nebo ojetý automobil v závislosti na jejich čistém měsíčním příjmu.
29
Metody pro postižení významných kritérií Příklad Tab. č. 5: Transformace do marketingového problému
Statistika
Marketing
VSTUP
Dvě proměnné
Pořídili jste si nové nebo ojeté auto? Jaký je čistý měsíční příjem respondenta?
VÝSTUP
Dvourozměrné rozdělení četností
Počet lidí s novými nebo ojetými auty v závislosti na příjmu
Tab. č. 6: Třídění druhého stupně
Pořídili jste si toto auto nové nebo již ojeté? bez příjmu CS: CS Všichni nové auto ojeté auto neuvedeno
Prj 000 291 326 12
0 Kč - 8.000 Kč Prj 000 133,0 381 99,2 643 125,0 14
8 001 - 12.500 Kč
ř.% s.% b.% Index
ř.% s.% b.% Index
14,4 30,8 10,7 34,5 13,5 1,2
18,9 16,7 21,2 28,2 16,2 0,6
3,3 3,7 0,1
4,4 7,4 0,2
72,1 81,1 62,0
Prj 000 366 676 13
ř.% s.% b.% Index 18,1 19,4 22,3 35,9 15,3 0,7
4,2 7,7 0,2
83,8 103,3 70,7
Pořídili jste si toto auto nové nebo již ojeté? CS: CS Všichni nové auto ojeté auto neuvedeno
Prj 000 301 495 18
12.501 - 17.500 Kč ř.% s.% b.% 14,9 24,9 3,5 16,3 40,9 5,7 20,6 1,5 0,2
Index 107,3 117,6 148,4
Prj 000 156 198 10
17.501 - 25.000 Kč ř.% s.% b.% 7,7 31,2 1,8 6,5 39,6 2,3 11,2 1,9 0,1
Index 134,7 113,8 195,4
Pořídili jste si toto auto nové nebo již ojeté? CS: CS Všichni nové auto ojeté auto neuvedeno
Prj 000 65 62 2
25.001 - 40.000 Kč ř.% s.% b.% 3,2 41,9 0,8 2,0 39,7 0,7 2,3 1,3 0
Index 180,7 114,3 128,2
Prj 000 15 11 1
40.001 a více Kč ř.% s.% b.% 0,7 41,6 0,2 0,3 29,5 0,1 0,8 2,0 0
Index 179,3 84,7 205,8
Popis příkladu
Tabulka č.6 představuje názorný příklad třídění druhého stupně. Jsou zde porovnávány dvě proměnné, a to čistý měsíční příjem respondenta a zda si dotazovaný pořídil nový nebo již ojetý automobil. Čistý měsíční příjem respondenta je rozdělen do několika kategorií a to jednak kategorie bez příjmu, a dále je příjem rozdělen do několika kategorií od nuly do 40.001Kč a více. Ze sloupcového procenta je vidět, že čím se čistý měsíční příjem respondenta zvyšuje, tím se také zvyšuje procento těch, kteří si pořídili auto nové. Zajímavé však je, že zaznamenáváme nárůst ojetých automobilů pro respondenty s čistým měsíčním příjmem až do 17.500Kč. Až pro respondenty s čistým měsíčním příjmem nad 17.500Kč je zaznamenán pokles pořízení ojetých automobilů. Dalším důležitým ukazatelem je index. Respondenti s čistým měsíčním příjmem 25.000Kč a více, kteří si pořídili nový automobil,
30
Metody pro postižení významných kritérií mají nejvyšší hodnoty indexu. To znamená, že v porovnání s celkovou skupinou respondentů si pořídilo nový automobil největší podíl respondentů s čistým měsíčním příjmem nad 25.000Kč.
Vyhodnocení metody
Výhody •
•
Nevýhody
Umožňuje
zkoumat
souvislost
mezi •
Provázanost jednotlivých kritérií vede
dvěma proměnnými
k celé řadě možných linií segmentace
Možno již provádět podrobnější analýzy •
Výsledek je často nepřehledný
dat
a
sledovat
závislosti
mezi
proměnnými
5.1.1.3 Třídění třetího stupně, případně vyšších stupňů Statistický popis metody
Podobně jako třídění druhého stupně, je třídění třetího stupně, případně vyšších stupňů prováděno, máme-li k dispozici větší objem dat. Ke dvoum zkoumaným proměnným se přidává ještě třetí proměnná. Tou může být vybraná cílová skupina například muži, ženy, nebo všichni respondenti vybraného regionu. Příkladem třídění třetího stupně mohou být tedy respondenti Středočeského kraje, kteří si pořídili nový nebo ojetý automobil v závislosti na jejich čistém měsíčním příjmu. Pro vyhodnocení jsou používány dva ukazatele například čistý měsíční příjem a nové nebo ojeté auto.
V praxi je nejvíce používáno třídění prvního a druhého stupně. Třídění třetího stupně se kvůli nepřehlednosti provádí málo.
Výhody •
Nevýhody
Umožňuje hledání vnitřní závislosti mezi •
Nepřehledné
jednotlivými proměnnými •
Velice obtížné na interpretaci
31
Metody pro postižení významných kritérií
5.1.1.4 Poziční mapa Statistický popis metody
K zobrazení analýzy dat existuje několik způsobů. Jedním způsobem je tzv. poziční mapa, která slouží k vyhodnocení odlišných pozic různých cílových skupin k dvěma zadaným proměnným (otázkám). Na rozdíl od ostatních analýz je výstupem graf, obsahující body umístěné v osovém kříži z přerušovaných čar (viz. Obr.č.5 Poziční mapa). Střed tohoto osového kříže reprezentuje umístění průměrné hodnoty daných proměnných pro celou populaci, případně pro vybranou cílovou skupinu, která byla zadána jako omezující pro celou mapu. Tento kříž z přerušovaných čar je možné zaměnit za bod reprezentující jeho střed. Poziční mapu je však možné vytvořit jen u určitých otázek. Vhodné proměnné pro použití do os grafu jsou pouze takové, jejichž odpovědi jsou buď pouze dvě např. ženy a muži, ano a ne (binární proměnné) nebo ještě lépe odpovědi, které se plynule mění např. příjem, velikost bydliště, věk apod. (spojité proměnné). Nevhodné proměnné jsou např. značky automobilů, protože počítat průměrnou hodnotu u těchto proměnných by nemělo smysl.
Příklad Tab. č. 7: Transformace do marketingového problému
Statistika
Marketing
Věk respondenta? Čistý měsíční příjem domácnosti? Když jste se rozhodovali o nákupu automobilu, který z následujících faktorů jste považovali za nejdůl. faktor?
VSTUP
Tři proměnné
VÝSTUP
Graf – poziční Vyhodnocení odlišných pozic různých cílových skupin mapa k dvěma zadaným otázkám
32
Metody pro postižení významných kritérií Když jste se rozhodovali o nákupu automobilu, který z následujících faktorů jste považovali za nejdůležitější faktor? Obr. č. 5: Poziční mapa
Popis příkladu
Uvedený příklad je grafickou ukázkou toho, jak se liší důležitost jednotlivých faktorů při nákupu automobilu v závislosti na věku respondenta a na čistém měsíčním příjmu domácnosti. Průměrný věk respondentů vyjadřuje svislá čárkovaná čára. Čím více se některý bod nachází vlevo, tím je průměrný věk respondenta nižší, čím více se nachází vpravo, tím je průměrný věk respondenta vyšší. Jelikož rozmezí mezi kategoriemi věku jsou stejná, můžeme hovořit i o jisté přesnosti interpretace grafického výstupu z hlediska věku na ose vodorovné. To však neplatí pro proměnnou čistého měsíčního příjmu na ose svislé, protože velikosti rozmezí mezi jednotlivými kategoriemi této proměnné nejsou stejná. V této souvislosti narážíme na problém týkající se právě kategorizovaných proměnných, kdy vzdálenosti mezi kódy (průměry) neodpovídají stejnému rozmezí mezi jednotlivými kategoriemi příjmu. Můžeme tedy pouze obecně konstatovat, že čím více nahoře se některý bod nachází, tím je čistý měsíční příjem domácnosti v průměru vyšší, čím je více dole, tím je čistý měsíční příjem domácnosti v průměru nižší, ale nevíme přesně o kolik. Interpretace pozic jednotlivých bodů poziční mapy z hlediska svislé osy může tedy vést ke zkresleným závěrům. 33
Metody pro postižení významných kritérií Z uvedeného příkladu poziční mapy je vidět, že pro mladší respondenty s vyšším měsíčním příjmem domácnosti je důležitá výbava, vzhled, ale i bezpečnost automobilu. O něco málo starší respondenti dávají významnost pohodlí. Pro domácnosti s nižším čistým měsíčním příjmem je přirozeně nejdůležitější nízká cena, ale i pojištění. Respondenti starší 40 let kladou důraz na nízkou spotřebu, spolehlivost automobilu a při jeho výběru dají i na doporučení přátel. O něco starší a zkušenější respondenti s průměrným věkem 43 let spoléhají při nákupu na vlastní zkušenost.
Vyhodnocení metody
Výhody
Nevýhody
•
Názorná a přehledná
•
•
Pracuje se všemi číselnými proměnnými
U některých proměnných (např. příjmu) může
dojít
ke
zkreslení
výsledků
z důvodu nestejných vzdáleností mezi kategoriemi,
čímž
se
zkresluje
interpretace pozic bodů v osovém kříži
5.1.2 Statistická závislost proměnných K metodám analýzy dat, které zkoumají statistickou závislost proměnných a jsou používány agenturou patří kontingenční tabulka, znaménková konvence a korespondenční analýza.
5.1.2.1 Kontingenční tabulka Statistický popis metody
K dvourozměrné statistické analýze kategoriálních dat slouží tzv. kontingenční tabulka. Jedná se ve své podstatě o třídění druhého stupně, jelikož jsou zkoumány závislosti dvou proměnných. I v případě dvou proměnných je prvním krokem zobrazení rozdělení četností (v tabulce nebo v grafu). V případě kategoriálních proměnných jsou četnosti zjišťovány pro všechny takové dvojice kategorií, kdy jedna kategorie z dvojice přísluší první proměnné a druhá kategorie druhé proměnné. Výsledkem je dvourozměrná tabulka četností (kontingenční tabulku), z jejichž hodnot je usuzováno na závislost či nezávislost mezi dvěma kategoriálními proměnnými. V políčkách jsou uváděny buď absolutní nebo relativní četnosti, 34
Metody pro postižení významných kritérií které mohou být počítány buď jako řádková procenta (dostáváme 100 % v jednotlivých řádcích), sloupcová procenta (100 % ve sloupcích) a nebo procenta vypočítaná na základě rozsahu souboru (100 % v celé tabulce). Kontingenční tabulka slouží jako základ testování závislostí a pro výpočet měr intenzity závislostí. U dvou proměnných se obvykle zkoumá, zda mezi nimi existuje závislost. Test statistické hypotézy je pravidlo, které na základě výsledků zjištěných z náhodného výběru objektivně předepisuje rozhodnutí, má-li být ověřovaná hypotéza zamítnuta či nikoliv24. Při testování statistické hypotézy se rozlišuje testovaná nulová hypotéza Hο a alternativní hypotéza HA. O nulové hypotéze má test rozhodnout, zda se zamítne či nikoliv. Alternativní hypotéza je ta, která je přijata, zamítne-li se nulová hypotéza. Celý postup testování je vlastně zamítání alternativních hypotéz. Základním testem, který testuje závislosti kategoriálních proměnných je chí-kvadrát test o vzájemné nezávislosti v kontingenční tabulce, který testuje shodu pozorovaných a očekávaných četností. Přesněji řečeno, zda náš výběr je z takového základního souboru, kde jsou určité očekávané četnosti.
Příklad Tab. č. 8: Transformace do marketingového problému
Statistika
Marketing
VSTUP
Dvě proměnné
Stáří nejčastěji používaného automobilu? Čistý měsíční příjem domácnosti?
VÝSTUP
Hodnota χ2 statistiky
Potvrzení nebo vyvrácení závislosti mezi otázkami
24
Meloun, M. a Militký, J., Statistická analýza experimentálních dat, Praha: Academia 2004, str.212.
35
Metody pro postižení významných kritérií 25
Tab. č. 9: Kontingenční tabulka
(výsek, celá tabulka viz Příloha 1)
Jak je staré Vaše nejčastěji používané auto? 1 rok
Čistý měsíční příjem domácnosti bez příjmu do 4.000 Kč 4 001 - 6.000 Kč 6 001 - 8.000 Kč 8 001 - 10.000 Kč 10 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 - 50.000 Kč 50.001 - 75.000 Kč 75.001 - 100.000 Kč 100.001 a více Kč neuvedeno Celkem
Prj 000 0 0 1 0 1 2 5 9 10 17 26 15 9 2 0 1 36 135
2 roky
ř.%
s.%
b.% Index
0 0 0,9 0 0,2 0,4 0,7 1,3 1,2 1,6 2,9 2,5 3,3 2,3 2,5 15,1 1,7 1,5
0 0 0,7 0,1 0,4 1,4 3,8 6,7 7,7 12,8 19,3 11,3 6,4 1,5 0,2 0,9 26,7 100,0
0 0 0 0 0 0 0,1 0,1 0,1 0,2 0,3 0,2 0,1 0 0 0 0,4 1,5
0 0 58,4 2,1 10,8 29,1 42,3 86,3 80,4 101,7 184,9 159,5 215,6 147,9 162,4 980,8 110,3 100,0
Prj 000 0 1 1 1 8 7 16 15 28 54 54 60 31 11 2 0 119 406
ř.%
s.%
0 2,0 0,8 0,1 2,1 1,6 2,0 2,2 3,3 4,9 5,9 9,8 12,0 12,2 17,6 2,2 5,6 4,7
0 0,2 0,2 0,1 1,9 1,7 3,8 3,7 6,8 13,3 13,2 14,9 7,6 2,7 0,5 0 29,3 100,0
b.% Index 0 0 0 0 0,1 0,1 0,2 0,2 0,3 0,6 0,6 0,7 0,4 0,1 0 0 1,4 4,7
0 41,9 17,3 2,9 45,6 34,8 42,4 47,5 71,5 105,7 126,6 210,1 258,2 262,5 377,0 46,4 120,8 100,0
Jak je staré Vaše nejčastěji používané auto? 3 roky
Čistý měsíční příjem domácnosti bez příjmu do 4.000 Kč 4 001 - 6.000 Kč 6 001 - 8.000 Kč 8 001 - 10.000 Kč 10 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 - 50.000 Kč 50.001 - 75.000 Kč 75.001 - 100.000 Kč 100.001 a více Kč neuvedeno Celkem
25
Prj 000 0 1 2 3 4 5 26 21 29 50 70 47 32 7 2 0 133 431
ř.%
s.%
0 3,2 1,6 0,8 1,3 1,2 3,3 3,0 3,4 4,5 7,7 7,6 12,3 7,5 19,0 0 6,3 4,9
0 0,2 0,4 0,8 1,0 1,2 6,1 4,8 6,6 11,6 16,2 10,9 7,3 1,5 0,5 0 30,8 100,0
4 roky b.% Index 0 0 0 0 0,1 0,1 0,3 0,2 0,3 0,6 0,8 0,5 0,4 0,1 0 0 1,5 4,9
0 64,4 31,8 17,0 25,4 24,2 67,7 61,6 69,1 91,6 155,0 153,6 249,0 150,8 384,2 0 127,3 100,0
Prj 000 0 5 1 1 6 16 22 38 40 72 84 62 38 12 1 1 167 566
ř.%
s.%
0 14,1 1,0 0,4 1,6 3,7 2,7 5,7 4,8 6,6 9,3 10,0 14,6 13,3 8,6 10,8 7,9 6,5
0 0,8 0,2 0,3 1,0 2,8 3,8 6,8 7,0 12,8 14,9 10,9 6,7 2,1 0,2 0,1 29,6 100,0
b.% Index 0 0,1 0 0 0,1 0,2 0,2 0,4 0,5 0,8 1,0 0,7 0,4 0,1 0 0 1,9 6,5
0 217,2 16,0 5,9 24,9 56,3 42,1 87,2 73,6 101,4 142,6 154,6 225,6 205,5 133,4 166,3 122,2 100,0
Kontingenční tabulka, která je shodná s tabulkou třídění druhého stupně.
36
Metody pro postižení významných kritérií Popis příkladu
Na výše uvedeném příkladu budeme ilustrovat analýzu závislosti kategoriálních dat v kontingenční tabulce. Pro tento příklad vybereme dvě segmentační proměnné, a to stáří nejčastěji používaného automobilu dotazovaných respondentů a čistý měsíční příjem domácnosti. Tabulka č.9 je kontingenční tabulkou, ve které budeme zkoumat závislost stáří nejčastěji používaného automobilu na výši čistého měsíčního příjmu domácnosti. Červená čísla v tabulce jsou zatížena statistickou chybou, kde statistická chyba je větší než výsledný údaj. Z důvodu zajištění validity výsledků tedy nebudeme při našich analýzách brát tato červená čísla v úvahu. Při prvím pohledu na tabulku si všimneme zajímavého trendu. Vidíme, že čím je u respondentů vyšší stáří nejpoužívanějšího automobilu, tím nižší je čistý měsíční příjem domácnosti a naopak. Čím u respondentů převládá nižší stáří nejpoužívanějšího automobilu, tím vyšší je čistý měsíční příjem domácnosti. Vezměme například respondenty, jejichž nejčastěji používané auto má stáří 2 let. Z tabulky je zřejmé, že 12 % (ř.%) domácností s čistým měsíčním příjmem 40.001 až 50.000 Kč a zároveň 12 % (ř.%) domácností s čistým měsíčním příjmem 50.000 až 75.000 Kč má nejčastěji používané auto staré dvou let. O něco méně, 10 % domácností s nižším čistým měsíčním příjmem 30.001 až 40.000Kč vlastní dva roky starý automobil. 14,9 % (s.%) respondentů, jejichž nejčastěji používaný automobil má stáří dvou let, má čistý měsíční příjem domácnosti 30.001 až 40.000 Kč. O něco méně respondentů (13,3 s.%), jejichž nejčastěji používané auto je staré dva roky, má čistý měsíční příjem domácnosti 20.001 až 25.000 Kč. Bazické procento nám říká, že 0,7 % (b.%) domácností s čistým měsíčním příjmem 30.001 až 40.000 Kč vlastní dva roky staré nejčastěji používané auto. Nyní se podívejme na respondenty, jejichž nejčastěji používané auto je 11 a více let staré. Z pouhého pohledu na tabulku vidíme, že se u těchto respondentů snížil čistý měsíční příjem domácnosti a že těchto respondentů také značně přibylo oproti respondentům s nejpoužívanějším automobilem, jehož stáří je dva roky. Nejvíce domácností (21,5 ř.%) s čistým měsíčním příjmem 12.001 až 15.000 Kč vlastní automobil starý 11 a více let. Také poměrně vysoké procento domácností s čistým měsíčním příjmem pod 25.000 Kč používají nejčastěji 11 a více let starý automobil. Vysoká procenta se dále vyskytují u respondentů, jejichž nejčastěji používaný automobil je starší 11 a více let, a to u domácností s čistým měsíčním příjmem mezi 12.501 a 30.000 Kč. Nejvíce (2,6 b.%) domácností s čistým 37
Metody pro postižení významných kritérií měsíčním příjmem 20.001 až 25.000 Kč má jako nejčastěji používaný 11 a více let starý automobil. Index pak udává, o kolik je více respondentů ve vybrané cílové skupině v porovnání
se
zastoupením
cílové
skupiny
v celkové
populaci.
Respondentů
s nejpoužívanějším autem 11 a více let starým a s čistým měsíčním příjmem domácnosti 12.501 až 15.000 Kč je o 20,1% (Index) více v porovnání se zastoupením této cílové skupiny v celkové populaci. Závislost stáří automobilu na čistém měsíčním příjmu domácnosti otestujeme nyní pomocí chí-kvadrát testu o vzájemné nezávislosti v kontingenční tabulce. Z důvodu nízkých očekávaných četností v kontingenční tabulce č.9 byly sloučeny kategorie bez příjmu, do 4000 Kč, 4001 – 6000 Kč, 6001 – 8000 Kč do jedné kategorie bez příjmu – 8000 Kč (viz. Tab.č.10). Ze stejných důvodů byly sloučeny kategorie v tabulce č.9 40001 Kč – 50000 Kč, 50001 – 75000 Kč, 75000 – 100000 Kč a 100000 a více do jedné kategorie 40001 a více v tabulce č.10. Tímto bylo dosaženo vyšších četností a byly splněny předpoklady pro test nezávislosti (oček. četnosti < 5 max 20% a oček. četnosti < 1 ideálně 0%) (viz. Příloha 2).
Tab. č. 10: Příspěvky do χ2 statistiky (Pozorované a očekávané četnosti viz.Příloha 2)
Kontingenční tabulka Čistý měsíční příjem domácnosti bez příjmu - 8.000 Kč 8 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 a více Kč neuvedeno Celkem skupina
Celkem skupina
11 a více let
5-10 let
4 roky
3 roky
2 roky
1 rok
CS: CS Všichni
méně než 1 rok
Jak je staré Vaše nejčastěji používané auto?
Chí^2 Chí^2 Chí^2 Chí^2 Chí^2 Chí^2 Chí^2 Chí^2 př. př. př. př. př. př. př. př.
1.2 1.6 0.3 5.6 0.1 3.5 0.8 10.6 5.9 0.1 29.6
1.4 4.0 3.8 0 0.9 0.3 6.8 0.9 3.5 0 21.6
7.0 1.7 11.4 12.0 5.6 0.4 0 22.9 28.6 1.5 91.1
0.8 9.7 1.1 5.8 7.0 3.9 5.1 1.6 14.9 4.5 54.3
1.6 1.4 16.1 0.1 6.6 1.5 2.1 2.3 15.8 2.8 50.3
0 2.4 4.1 0.2 3.5 2.9 1.5 0.5 2.7 0.3 18.0
11.4 31.0 57.2 11.8 5.5 0.8 18.7 19.5 43.1 4.4 203.5
23.4 51.8 94.0 35.6 29.1 13.2 34.9 58.3 114.5 13.5 468.4
Na základě pozorovaných, očekávaných četností a příspěvků do chí-kvadrát statistiky provedeme test nezávislosti proměnných (stáří nejčastěji používaného auta na čistém 38
Metody pro postižení významných kritérií měsíčním příjmu domácnosti). O nulové hypotéze má test rozhodnout zda se zamítne či nikoliv. Nulová hypotéza říká, že neexistuje závislost mezi stářím automobilu a čistým měsíčním příjmem domácnosti. Pokud P-hodnota (v Tab.č.11 P-hodnota = Sig.) je menší než 0,05 (5%), potom zamítáme nulovou hypotézu nezávislosti a můžeme říci, že existuje závislost mezi stářím nejčastěji používaného automobilu a příjmem. Výsledky jsou tedy statisticky významné. Podívejme se nyní na tabulku č.11, kde jsou shrnuty výsledky testu nezávislosti znaků (proměnných). Na základě minimální hladiny významnosti (P < 0,000) lze usoudit, že existuje závislost mezi výší čistého měsíčního příjmu a stářím automobilu v domácnosti.
Tab. č. 11: Výsledky testu nezávislosti v kontingenční tabulce
Sig.
Počet
%
Počet
%
Čistý měsíční příjem domácnosti x Jak je staré Vaše nejčastěji používané auto?
Oček. četnosti < 1
DF
CS: CS Všichni
Oček. četnosti < 5
Chí^2
Chí kvadrát test
468.4
54
0
2
2.9
0
0
Podíváme-li se v Tab.č.10 na příspěvky do χ2 statistiky (jednotivé χ2 statistiky vyjadřují neshodu pozorovaných a očekávaných četností za hypotézy nezávislosti) platí, že čím větší je tento příspěvek, tím se jedná o silnější neshodu mezi očekávanými a pozorovanými četnostmi. Na základě výsledků lze usoudit, že nízkopříjmové domácnosti mají spíše starší auta a naopak vysokopříjmové domácnosti mají i nová auta. Závěrem můžeme říci, že naše první odhady o statistické závislosti dvou kategoriálních proměnných byly potvrzeny testem nezávislosti. Vyhodnocení metody
Výhody •
Pro
Nevýhody každou
kombinaci
hodnot •
Popis
jednotlivých
závislostí
bývá
proměnných dostaneme charakteristiku
většinou značně nepřehledný, protože
shody
pracujeme s velkým množstvím dat (viz. Tab.č.10 a Příloha 2)
•
Pomocí párového srovnávání umožňuje •
χ2 statistika nezohledňuje uspořádání
rychlé hodnocení vazeb
kategorií, tedy neudává směr závislosti
39
Metody pro postižení významných kritérií
5.1.2.1.1 Znaménková konvence Statistický popis metody
Znaménková analýza (znaménková konvence) představuje přehledné a do jisté míry zjednodušené znázornění vztahu mezi dvěma proměnnými pomocí kladných a záporných znamének, přičemž kladná znaménka představují pozitivní závislost dvou proměnných a záporná znaménka představují negativní závislost těchto proměnných. Příklad
Vzhledem k tomu, že závislosti jednotlivých kategorií dvou vybraných proměnných, stáří auta na čistém měsíčním příjmu domácnosti, mohou být v kontingenční tabulce poněkud nepřehledné, je často na základě kontingenční tabulky ještě vytvořena znaménková analýza. Pro ilustraci znaménkové analýzy použijeme dat z předcházejícího příkladu (viz. Tab.č.9). Výsledná tabulka znaménkové analýzy umožní rychlejší orientaci v závislostech jednotlivých kategorií obou proměnných.
Tab. č. 12: Znaménková konvence
2 roky
3 roky
4 roky
5-10 let
11 a více let
Celkem skupina
Kontingenční tabulka Čistý měsíční příjem domácnosti bez příjmu - 8.000 Kč 8 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 a více Kč neuvedeno Celkem skupina
1 rok
CS: CS Všichni
méně než 1 rok
Jak je staré Vaše nejčastěji používané auto?
+/–
+/–
+/–
+/–
+/–
+/–
+/–
+/–
0 0 0 – 0 – 0 +++ + 0 0
0 – – 0 0 0 ++ 0 0 0 0
–– 0 ––– ––– –– 0 0 +++ +++ 0 0
0 ––– 0 –– –– – + 0 +++ ++ 0
0 0 ––– 0 –– 0 0 0 +++ + 0
0 0 –– 0 + + 0 0 – 0 0
+++ +++ +++ +++ ++ 0 ––– ––– ––– –– 0
0 0 0 0 0 0 0 0 0 0 0
Popis příkladu
Tabulka č.12 představuje znaménkovou analýzu pro dvě segmentační proměnné, čistý měsíční příjem domácnosti a stáří nejčastěji používaného automobilu. Z tabulky jsou zřejmé 40
Metody pro postižení významných kritérií segmenty, zobrazené seskupeními kladných a záporných znamének. Větší počet kladných nebo záporných znamének v políčku vyjadřuje silnější závislost. Podívejme se nejprve na kladné závislosti. Domácnosti bez příjmu až s čistým měsíčním příjmem do 20.000Kč, tedy s nižšími příjmy, používají nejčastěji auto staré 11 a více let. Vidíme, že čím se čistý měsíční příjem domácnosti zvyšuje, tím se snižuje stáří nejčastěji používaného automobilu. Například domácnosti s vyšším čistým měsíčním příjmem 30.000Kč až 40.000Kč a více nejčastěji používají dva až čtyři roky staré automobily. Naopak záporná znaménka představující negativní závislost ukazují, že domácnosti s příjmy nad 25.000Kč a více nepoužívají auta 11 a více let stará. Taktéž u domácností s nižšími příjmy a nižším stářím nejčastěji používaných automobilů vidíme zápornou závislost.
Vyhodnocení metody
Výhody
Nevýhody
•
•
Rychlá orientace a přehlednost
Z tabulky
nevyplývají
četnosti
v jednotlivých polích •
Z tabulky okamžitě vidíme dvojice, kde •
Nemůže sloužit k hlubším a podrobnějším
dochází k nejmenší shodě
analýzám neboť jednotlivá čísla jsou přibližně nahrazena znaménky
•
Ukazuje směr závislosti
5.1.2.2 Korespondenční analýza Statistický popis metody
Korespondenční analýza je grafická metoda k zobrazení skryté vnitřní závislosti, asociace v tabulce četností. Pracujeme s dvojrozměrnou tabulkou četností (kontingenční tabulkou), která obsahuje n řádkových kategorií a m sloupcových kategorií. Diagramem korespondenční analýzy je subjektivní mapa, která obsahuje dvě skupiny bodů: skupinu n bodů odpovídajících řádkových kategorií a skupinu m bodů odpovídajících sloupcových kategorií26.
26
Meloun, M., Militký, J., Hill, M., Počítačová analýza vícerozměrných dat v příkladech, str.379.
41
Metody pro postižení významných kritérií Korespondenční analýza je kompoziční technika, protože subjektivní mapa je založena na asociaci mezi souborem objektů v řádcích a souborem popisných znaků ve sloupcích. Polohy bodů v subjektivní mapě pak přímo vyjadřují asociaci. Přímou aplikací korespondenční analýzy je zobrazování korespondence kategorií proměnných. Tato korespondence je potom základem pro vytváření subjektivní mapy. Řádkové body, které jsou těsně u sebe indikují řádky, které mají podobné profily v celém řádku. Sloupcové body, které se nacházejí blízko u sebe, indikují sloupce s podobnými profily směrem dolů přes všechny řádky. Konečně řádkové body, které jsou v těsné blízkosti ke sloupcovým bodům, představují kombinace, které se objeví častěji než by se očekávalo u nezávislého modelu, ve kterém řádkové kategorie nejsou vztaženy ke sloupcovým. Běžný výstup z korespondenční analýzy obsahuje „nejlepší“ dvojrozměrné zobrazení dat, ve kterém jsou souřadnice zobrazených bodů, a také míru inercie, která vyjadřuje množství informace zobrazené v každé dimenzi.
Základní principy korespondenční analýzy
Korespondenční analýza se liší od ostatních technik s vnitřní závislostí ve své schopnosti „kvantifikovat kvalitativní data“ nalezená v nominálních proměnných. Tato metoda provádí redukci dimenzí podobnou vícerozměrnému škálování typem subjektivního mapování nebo faktorové analýzy. Cílem korespondenční analýzy je zjišťovat asociace mezi řádkovými kategoriemi, mezi sloupcovými kategoriemi nebo mezi oběma současně. Typickým užitím asociace mezi řádky nebo mezi sloupci je vyšetření kategorií, jako je Likertova škála pěti kategorií, od „silně souhlasí“ až do „silně nesouhlasí.“ Předpokladem korespondenční analýzy je čtvercová matice nezáporných dat, kontingenční tabulka. Korespondenční analýza v podstatě umožňuje rozklad statistiky χ2 tak, aby bylo možné posoudit struktury v dané matici. Vypočtené hodnoty χ2 jsou standardizovány a konvertovány do metriky vzdáleností a proces vícerozměrného škálování znázorní data ve dvojrozměrné rovině. Výsledkem je prezentace kategorií řádků anebo sloupců, popř. i obou současně v jediném společném grafu. Abychom získali celkovou společnou těsnost proložení, musíme nejprve identifikovat vhodný počet dimenzí. Maximální počet dimenzí, které mohou být užity je menší číslo z počtu řádků nebo sloupců, od kterého je odečteno číslo 1. Vlastní čísla (singulární hodnota) odvozená pro každou dimenzi, indikují relativní příspěvek každé dimenze k objasnění variability v kategoriích. Jedná se o míru inercie, která měří objasněnou variabilitu a která je odvozena z vlastního čísla. Vybereme 42
Metody pro postižení významných kritérií počet dimenzí, založených na celkové úrovni objasněné variability (obvykle rozptylu), a sledujeme přírůstek v objasněné variabilitě při přidání dalších dimenzí. Klíčové pravidlo říká, že dimenze s inercií (vlastním číslem) větší než 0,2 by měla být zařazena do analýzy. Nejčastější však bývá použití dvojrozměrného zobrazení. Nakonec přistoupíme k interpretaci výsledků. Na základě blízkosti můžeme po určení dimenze identifikovat asociaci kategorie s ostatními kategoriemi. Musíme zvolit vhodný typ standardizace a určit, zda se porovnání provedou mezi řádkovými kategoriemi, mezi sloupcovými kategoriemi nebo mezi oběma27. Ukažme si nyní postup korespondenční analýzy na konkrétním příkladě.
Příklad Tab. č. 13: Transformace do marketingového problému
Statistika
Marketing
VSTUP
Dvě proměnné
Jak je staré Vaše nejčastěji používané auto? Jakou fin.částku jste zaplatili za Váš nejčastěji používaný automobil?
VÝSTUP
Subjektivní mapa
Závislosti mezi jednotlivými kategoriemi
27
Meloun, M., Militký, J., Hill, M., Počítačová analýza vícerozměrných dat v příkladech. Praha: Academia 2005, str.384.
43
Metody pro postižení významných kritérií Tab. č. 14: Kontingenční tabulka pro korespondenční analýzu
Tabulka Jak je staré Vaše nejčastěj i používan é auto? méně než 1 rok 1 rok
Četnost
Celkem
více než 1.000.000 Kč
900.001 - 1.000.000 Kč
800.001 - 900.000 Kč
700.001 - 800.000 Kč
600.001 - 700.000 Kč
500.001 - 600.000 Kč
400.001 - 500 000 Kč
300.001 - 400 000 Kč
200.001 - 300.000 Kč
100.001 - 200.000 Kč
50.001 - 100.000 Kč
CS: CS Všichni
méně než 50.000 Kč
Jakou fin. částku jste zapl. za Váš nejčastěji používaný automobil?
Četnost Četnost Četnost Četnost Četnost Četnost Četnost Četnost Četnost Četnost Četnost Četnost
7
6
5
47
49
35
19
3
1
0
3
1
177
6
12
24
65
60
26
17
9
2
1
3
3
229
2 roky
15
27
83
213
188
93
45
27
7
6
6
11
723
3 roky
16
42
110
241
176
104
47
12
5
3
9
3
768
4 roky
30
100
306
292
158
61
39
11
6
3
1
6
1 015
5-10 let 11 a více let Celkem
324
1 022
1 034
542
127
54
29
11
6
6
2
3
3 160
1 256
1 090
337
47
3
0
0
2
0
4
0
0
2 739
1 655
2 300
1 899
1 448
763
373
197
74
27
23
23
28
8 810
Popis příkladu
Tabulka č.14 představuje dvojrozměrnou tabulku četností (kontingenční tabulku), ze které vycházíme při korespondenční analýze. Řádkovou proměnnou představují spojitá data o výrobku, v našem případě stáří nejčastěji používaného automobilu. Sloupcovou proměnnou jsou data o respondentech, konkrétně finanční částka, kterou respondenti zaplatili za svůj nejčastěji používaný automobil. Data jsou v tabulce uváděna v četnostech a byla získána na 16133 respondentech. Z kontingenční tabulky je sice na první pohled zřejmé, že respondenti, kteří zaplatili za nejčastěji používaný automobil nižší finanční částky používají starší automobily (kolem 5 a více let) a naopak respondenti, kteří zaplatili za nejčastěji používaný automobil částky vyšší (nad 700.000Kč) používají automobily starší méně než čtyři roky. Pojďme však ověřit tyto závěry korespondenční analýzou. Naším cílem je tedy pomocí korespondenční analýzy (sestrojením grafu ve dvourozměrném prostoru) provést porovnání mezi řádkovými a sloupcovými kategoriemi. V prvním sloupci tabulky č.15 vidíme, že bylo vytvořeno celkem 6 dimenzí (kontingenční tabulka má celkem 7 řádků a 12 sloupců, menším číslem je počet řádků, od kterého odečteme 44
Metody pro postižení významných kritérií číslo 1). Druhý sloupec tabulky obsahuje vlastní čísla (singulární hodnoty) odvozená pro každou dimenzi, která nám indikují relativní příspěvek každé dimenze k objasnění variability v kategoriích. Třetí sloupec vyjadřuje míru inercie, která je odvozena z vlastního čísla a měří objasněnou variabilitu; čtvrtý sloupec pak relativní míru inercie v procentech. Na základě klíčového pravidla, které nám říká, že dimenze s inercií (tedy vlastním číslem) větší než 0,2 by měla být zařazena do analýzy, vybereme dimenzi 1 a dimenzi 2. Jelikož tímto korespondenční analýza promítá řádkové a sloupcové profily do sníženého počtu dimenzí, obvykle tedy do dvojrozměrné roviny, je třeba určit jak dobře se podařilo snížení dimenze provést. K tomu nám poslouží čtvrtý sloupec tabulky, který představuje kumulativní procento, tedy objem celkové informace, zobrazený daným počtem dimenzí. V našem případě první dvě dimenze pokrývají 97,8% celkové informace, což znamená, že redukce dimenzí na dvě způsobí pouze 2,2% ztracené informace. Inercie (%) a kumulativní inercie (%) počítané ze všech vlastních čísel jsou tedy citlivým indikáteorem důležitosti hledaných dimenzí. Platí pravidlo, že první dvě dimenze by měly pokrývat alespoň 90% celkové variability v datech.
% inercie
Kumul. %
Dimenze 1 2 3 4 5 6 Celkem
Inercie
CS: CS Všichni
Singulární hodnota
Tab. č. 15: Přehled výsledků koresp.analýzy
0,7 0,3 0,1 0,1 0 0 —
0,5 0,1 0 0 0 0 0,6
79,1 18,7 1,2 0,8 0,2 0,1 100,0
79,1 97,8 99,0 99,8 99,9 100,0 100,0
Na základě dvou vybraných dimenzí sestavíme nyní graf sloupcových a řádkových profilů (subjektivní mapu) (viz. Obr.č.6).
45
Metody pro postižení významných kritérií Obr. č. 6: Subjektivní mapa korespondenční analýzy (v detailu viz Příloha 4)
Subjektivní mapa je nejoblíbenějším diagnostickým korespondenčním grafem (překrývá se v něm graf řádkových profilů s grafem sloupcových profilů). Spojení dvou zcela jiných a na sobě nezávislých grafů je kritickým místem, protože vzdálenosti mezi body řádkových profilů a body sloupcových profilů zde nejsou definovány. Proto například vzdálenost mezi kategoriemi 5-10 let a 100.001Kč-200.000Kč není definována. Na základě blízkosti jednotlivých bodů však můžeme identifikovat asociaci mezi sloupcovými a řádkovými kategoriemi. Na mapě například vidíme, že respondenti, kteří zaplatili za svůj nejčastěji používaný automobil do 50.000Kč, mají 11 a více let starý automobil. Za 5 až 10 let starý automobil zaplatili respondenti mezi 100.000Kč až 200.000Kč. Naopak za nejčastěji používaný automobil, který má stáří jednoho roku, zaplatili respondenti 500.000Kč až 600.000Kč. Vpravo dole vidíme, že částku 900.000Kč až 1.000.000Kč zaplatili respondenti za nejčastěji používaný automobil starý méně než 1 rok.
46
Metody pro postižení významných kritérií Vyhodnocení metody
Výhody
Nevýhody
•
•
Schopna zpracovávat i kvalitativní data
Popisná technika, která se nehodí ke statistickému testování hypotéz
•
Zobrazení
nejenom
vztahů
mezi •
kategoriemi řádků anebo vztahů mezi
Ne vždy je možné zobrazit pouze ve dvou dimenzích
kategoriemi sloupců, ale i vztahů mezi kategoriemi řádků a sloupců současně •
Poskytnutí společného obrazu řádkových a sloupcových kategorií ve stejném počtu dimenzí
•
Názorná subjektivní mapa, která se dobře prezentuje
•
Umožňuje použití i tří proměnných
5.1.3 Faktorová analýza a analýza rozptylu (ANOVA) Na úvod této kapitoly je nutno podotknout, že jsme cíleně spojili faktorovou analýzu a analýzu rozptylu do jedné kapitoly. Důvod vyplývá z podstaty faktorové analýzy, která slouží k redukci počtu proměnných, čímž přípravuje podklady pro další analýzy jako například analýzu rozptylu nebo shlukovou analýzu. Statistický popis metod Faktorová analýza
Faktorová analýza je další statistická metoda k vyšetření vnitřních souvislostí a vztahů (korelací) a odhalení základní struktury zdrojové matice dat. Týká se analýzy struktury vnitřních vztahů mezi velkým počtem původních znaků pomocí souboru menšího počtu latentních proměnných, zvaných faktory. Nejprve jsou identifikovány faktory, a pak je každému faktoru přidělen obsahový význam, pomocí kterého je každý původní znak vysvětlen vybraným faktorem28.
28
Meloun, M., Militký, J., Hill, M., Počítačová analýza vícerozměrných dat v příkladech, Praha: Academia 2005, str. 94.
47
Metody pro postižení významných kritérií Cílem faktorové analýzy je jednak sumarizace a jednak snížení rozsahu (redukce) dat s co nejmenší ztrátou informace. V sumarizaci dat využívá faktorová analýza faktorů tak, aby data vysvětlila a usnadnila jejich pochopení daleko menším počtem latentních proměnných, než je počet původních znaků. Redukce dat je dosaženo vyčíslením skóre pro každý faktor a následnou náhradou původních znaků novými latentními proměnnými – faktory. ANOVA Analýza rozptylu, označovaná také jako ANOVA (z anglického analysis of variance), se v praxi používá buď jako samostatná technika, nebo jako postup umožňující analýzu zdrojů variability v lineárních statistických modelech29. Ze statistického hlediska lze analýzu rozptylu chápat jako speciální případ regresní analýzy, kde vysvětlující proměnné mají kategorizovaný charakter. Podstatou analýzy rozptylu je rozklad celkového rozptylu dat na složky objasněné (známé zdroje variability) a složku neobjasněnou, o níž se předpokládá, že je náhodná. Následně se testují hypotézy o významnosti jednotlivých zdrojů variability. Pokud nás zajímají pouze rozdíly mezi danými úrovněmi, jedná se o modely s pevnými efekty. Pokud jsou jednotlivé úrovně pouze výběrem z konečného či nekonečného souboru, jde o modely s náhodnými efekty. Předpoklady o složkách modelů a interpretaci výsledků ovlivňuje skutečnost, zda jde o modely s pevnými nebo náhodnými efekty. Vlastní modely však zůstávají stejné. Sledujeme-li pouze jeden faktor, jde o jednofaktorovou analýzu rozptylu (One-way ANOVA), čili třídění podle jednoho faktoru. Často se však sleduje i vliv několika faktorů, kdy jde o vícefaktorovou analýzu rozptylu (MANOVA). Pro účely této práce se budeme zabývat analýzou jednofaktorovou. Jednofaktorová analýza porovnává střední hodnoty (průměry) faktorů a analyzuje statistickou významnost rozdílů těchto středních hodnot. Následně jsou faktory rozděleny do skupin s podobnou orientací a seřazeny podle hodnoty F statistiky. Faktory s nejvyšší hodnotou F-statistiky považujeme za nejvýznamnější. Možnými výstupy jsou také komunality, které jsou přiřazeny ke každé použité otázce, která vyjadřuje, jaká část proměnné je vysvětlena. Výsledek každého respondenta u každého faktoru se nazývá faktorové skóre. Faktorovou zátěží (korelačním koeficientem) pak rozumíme korelaci mezi faktorem a danou otázkou (proměnnou) (viz. Tab.č.16 až Tab.č.20).
29
Historicky se analýza rozptylu začala rozvíjet zejména při vyhodnocování dat v zemědělství.
48
Metody pro postižení významných kritérií Příklad
Faktorová analýza vyžaduje na vstupu standardizovaná data do normovaného normálního rozdělení. Standardizace byla provedena pomocí Z-skóre. Při faktorové analýze jsme vycházeli z 550 lifestylových otázek z MML dat. Ke každému odvozenému (skrytému) faktoru bylo přiřazeno vlastní číslo, které vyjadřuje, kolik proměnných faktor vysvětluje. Pro vysvětlení používáme obvykle faktory s vlastním číslem > 1. V našem příkladě byly vybrány pouze ty faktory, jejichž vlastní číslo je > 1,5. Ostatní faktory byly vyřazeny. Počet vybraných faktorů se doporučuje takový, kdy je vysvětleno uspokojivé procento informace obsažené v původních faktorech. V našem příkladě bylo vysvětleno kolem 30% informace obsažených v původních faktorech. Provedením faktorové analýzy se původních 550 znaků nahradilo 55 novými latentními (skrytými) proměnnými – faktory (viz Příloha 4). Pomocí analýzy rozptylu byly porovnány průměry faktorů pro ty respondenty, kteří mají v domácnosti automobil s těmi, kteří v domácnosti automobil nemají. Na základě nejvyšší hodnoty F-statistiky bylo vybráno z 55 faktorů pět nejvýznamnějších. Podle typu a obsahu podobných otázek, které byly vybrány do jednotlivých skrytých faktorů byly tyto nově vytvořené faktory pojmenovány. Běžná marketingová interpretace by byla, že pomocí nově vytvořených faktorů budeme usuzovat na významných charakteristikách týkajících se životního stylu respondentů, kteří mají, případně nemají ve své domácnosti automobil. Jedná se však o nejčastější chybu v marketingových interpretacích. Ve skutečnosti se jedná o faktory, mezi kterými je největší výchylka. Vytvořené faktory tedy představují nejvýznamnější odlišnosti mezi těmi respondenty, kteří mají v domácnosti automobil a těmi, kteří automobil v domácnosti nemají. Jako nejvýznamnější faktor s nejvyšší hodnotou F-statistiky (324,009, P< 0,000, viz. Příloha 4) byl analýzou rozptylu vyhodnocen faktor 10, který je nejsilněji zkorelován s otázkami v následující tabulce č.16.
Tab. č. 16: Faktor 10 „Pozitivní vztak k cestování a cestovním kancelářím“
Číslo otázky 572 578 576 589 573 575 580
Otázka
Dovolenou si vybírám podle katalogů cestovních kanceláří. Na dovolenou jezdím většinou s cestovní kanceláří. Velmi rád(a) cestuji do zahraničí. Snažím se vždy změnit místo své následující dovolené. Plánování dovolené mě velmi baví. Velkým cestovním kancelářím důvěřuji. Cestovní kanceláře poskytují kvalitní a spolehlivé služby.
Faktorová zátěž 0,66 0,66 0,60 0,54 0,53 0,53 0,53
49
Metody pro postižení významných kritérií Číslo otázky 583 562 569 582 559 586 564
Otázka
O dovolené chci poznávat nová místa nové lidi. Je lepší jet na dovol. s cest. kancel. než sám si dovolenou organiz. Velmi rád(a) cestuji. Výběr mé dovolené ovlivňují články v novinách a časopisech. Dnes lze již cestovním kancelářím důvěřovat. Na výběr mé dovolené mají vliv doporučení mých přátel / známých. Na dovolenou u nás doma šetříme celý rok.
Faktorová zátěž 0,49 0,48 0,46 0,44 0,40 0,39 0,38
U jednotlivých otázek jsou uvedeny faktorové zátěže (korelační koeficienty), které představují míru závislosti původních proměnných a faktorů. Tyto korelační koeficienty mohou být buď kladné nebo záporné. Čím se kladný korelační koeficient více přibližuje číslu 1, tím je prokázána silnější pozitivní závislost. Naopak čím se záporný korelační koeficient více přibližuje více číslu -1, tím je prokázána silnější negativní závislost. Na základě těchto korelačních koeficientů přisuzujeme význam faktorům. Pro tabulku č.16 platí, že všechny korelační koeficienty jsou kladné, tudíž existuje pozitivní závislost uvedených proměnných a faktoru. Tento faktor můžeme interpretovat jako pozitivní vztah k cestování, zejména do zahraničí, ochota poznávat nová místa a nové lidi, důvěra v cestovní kanceláře, záliba v plánování dovolené. Nejvýznamnější odlišností, která odlišuje respondenty s automobilem v domácnosti od zbytku je tedy v jejich pozitivním vztahu k cestování, ochotě poznávat nová místa a nové lidi, důvěře v cestovní kanceláře a zálibě v plánování dovolené. Vzhledem k tomu, že střední hodnota tohoto faktoru pro respondenty s automobilem v domácnosti je vyšší (kladná) než střední hodnota pro respondenty bez automobilu v domácnosti (záporná) (viz. Příloha 4), můžeme říci, že v průměru mají respondenti s automobilem v domácnosti pozitivnější vztah k cestování, mají větší důvěru k cestovním kancelářím, jsou ochotnější poznávat nová místa a nové lidi než respondenti bez automobilu v domácnosti. Druhým nejvýznamnějším faktorem v pořadí s druhou nejvyšší hodnotou F-statistiky (315,904, P< 0,000, viz. Příloha 4) byl vyhodnocen faktor 14, který je nejsilněji zkorelován s otázkami v následující tabulce č.17.
50
Metody pro postižení významných kritérií Tab. č. 17: Faktor 14 „Pozitivní vztah k domácnosti a domácím pracem“
Číslo otázky Otázka
62 60 158 618 58 651 663 656 655 431 181 658 626 65 35
Miluji vaření. Mám dostatek času na vaření. Obvykle čtu v časopisech recepty. Baví mě různé ruční práce jako pletení šití háčkování. Při vaření často používám různé el. přístroje a speciální nádobí. Často nacházím inspiraci k výzdobě a zařízení bytu v časopisech. Rád(a) vylepšuji svůj byt. Velmi rád(a) nakupuji nové zařízení a přístroje do domácnosti. Obměňuji zařízení ve svém bytě tak často jak mohu. V televizi s oblibou sleduji seriály. Pravidelně sleduji většinu televizních seriálů. Kuchyně je nejdůležitější místností v bytě. Domácí práce jsou otrava. Když vařím musím se dívat do kuchařky. Nakupování potravin je nuda.
Faktorová zátěž
0,61 0,53 0,49 0,46 0,39 0,31 0,27 0,27 0,26 0,26 0,26 0,25 -0,41 -0,43 -0,51
Všimněme si, že pro tabulku č.17 platí, že korelační koeficienty jsou nejenom kladné, ale i záporné. Otázky se záporným korelačním koeficientem jsou interpretovány opačně, např. domácí práce nejsou otrava atd. Kladné faktorové zátěže vyjadřují kladnou závislost faktoru a příslušných proměnných, záporné faktorové zátěže pak vyjadřují zápornou závislost faktoru a příslušných proměnných. Na jejich základě můžeme interpretovat tento faktor jako pozitivní vztah k domácím pracem, pozitivní vztah k vaření, dostatek času na vaření, pozitivní vztah k ručním pracem, používání různých elektrických přístrojů a speciálního nádobí při vaření, pozitivní vztah k nakupování potravin. Na základě analýzy rozptylu jsme zjistili, že rozdíl ve středních hodnotách tohoto faktoru je druhým nejvýznamnějším s tím, že pro respondenty s automobilem dosahuje záporné hodnoty a pro respondenty bez automobilu kladné hodnoty (viz. Příloha 4). Lze tedy říci, že v průměru respondenti bez automobilu v domácnosti mají více pozitivní vztah k vaření, více času na vaření, více pozitivní vztah k ručním pracem, více používají různých elektrických přístrojů a speciálního nádobí než respondenti s automobilem v domácnosti, kteří mají naopak v průměru více negativní vztah k vaření, méně času na vaření, více negativní vztah k ručním pracem, méně používají elektrické přístroje a speciální nádobí, mají spíše negativní vztah k nakupování potravin.
51
Metody pro postižení významných kritérií V pořadí třetí nejvýznamnější hodnotu F-statistiky (356,977, P< 0,000, viz. Příloha 4) vyhodnotila analýza rozptylu u faktoru 27, který je nejsilněji zkorelován s otázkami v následující tabulce č.18.
Tab. č. 18: Fakor 27„Pozitivní vztah ke spoření“
Číslo otázky 689 702 690 700 686 688 564 662
587
Faktorová zátěž Uvažujeme o tom že se budeme muset víc uskrovnit a šetřit. 0,55 Chci šetřit ale je to velmi těžké. 0,49 Investice do akcií považuji za riskantní. 0,35 Bojím se brát si půjčky. 0,35 Když musím utratit nějaké peníze je mi to trochu líto. 0,34 Dostatek peněz je jedním z nejzákl.předpokladů šťastného života. 0,30 Na dovolenou u nás doma šetříme celý rok. 0,30 Bydlení je v současnosti velmi drahé. 0,28 Mám dostat. pen. na to abych si mohl(a) spln. své ideál. předst. o -0,26 dovol.
Otázka
V tabulce č.17 jsou rovněž kladné i záporné korelační koeficienty. Kladné faktorové zátěže vyjadřují kladnou závislost faktoru a příslušných proměnných, záporné faktorové zátěže pak vyjadřují zápornou závislost faktoru a příslušných proměnných. Tento faktor tedy můžeme interpretovat jako pozitivní vztah ke spoření, negativní vztah k investování do akcií a k braní si půjček, negativní vztah k utrácení peněz. Na základě analýzy rozptylu jsme zjistili, že rozdíl ve středních hodnotách tohoto faktoru je třetím nejvýznamnějším. Pro respondenty s automobilem dosahuje tento rozdíl záporné hodnoty a pro respondenty bez automobilu kladné hodnoty (viz. Příloha 4). Lze tedy říci, že v průměru respondenti bez automobilu v domácnosti mají více pozitivní vztah ke spoření, více negativní vztah k investování do akcií a k braní si půjček, více negativní vztah k utrácení peněz než respondenti s automobilem v domácnosti, kteří mají naopak v průměru více negativní vztah ke spoření, více pozitivní vztah k investování do akcií a k braní si půjček, více pozitivní vztah k utrácení peněz.
Dalším významným faktorem s poměrně vysokou hodnotou F-statistiky (224,259, P< 0,000, viz. Příloha 4) byl vyhodnocen faktor 5, který je nejsilněji zkorelován s otázkami v následující tabulce č.19.
52
Metody pro postižení významných kritérií Tab. č. 19: Faktor 5 „Pozitivní vztah k práci na zahradě“
Číslo otázky 605 601 616 612
607 543 603 126 600 595 618 619 591
Otázka
Rád(a) pracuji na zahradě. Práce na zahradě je moje hobby vyplňuji tím svůj volný čas. Snažíme se sami vypěstovat řadu produktů na zahradě. Pracuji na zahradě pro rekreaci zbavím se starostí a problémů. Snažíme se doma sami vyrobit opravit či vypěstovat co nejvíce věcí. Ve volném čase se často věnuji práci v domácnosti nebo na zahradě. Kupuji si časopisy a knížky o zahradě a pěstování. Naše rodina má hodně potravin z vlastních zdrojů. Mám docela dobře zařízenou dílnu. Odebírám speciální časopisy s různými návody a nápady na výrobky. Baví mě různé ruční práce jako pletení šití háčkování. Většinou si dělám hodně věcí sám jsem nezávislý a samostatný. Manuální práce mě těší.
Faktorová zátěž 0,80 0,80 0,79 0,77
0,67 0,61 0,59 0,58 0,35 0,32 0,28 0,27 0,25
V tabulce č.19, stejně jako v tabulce č.16 , jsou všechny korelační koeficienty kladné, tudíž existuje pozitivní závislost uvedených proměnných a faktoru. Tento faktor můžeme interpretovat jako pozitivní vztah k práci na zahradě, pozitivní vztah k vypěstování produktů na zahradě, pozitivní vztah k nákupu časopisů a knih o zahradě a pěstování, pozitivní vztah k ručním pracem a manuální práci. Nejvýznamnější odlišností, která odlišuje respondenty s automobilem v domácnosti od zbytku je tedy v jejich pozitivním vztahu k práci na zahradě, pozitivním vztahu k vypěstování produktů na zahradě, pozitivním vztahu k nákupu časopisů a knih o zahradě a pěstování a pozitivním vztahem k ručním pracem a manuální práci. Vzhledem k tomu, že střední hodnota tohoto faktoru pro respondenty s automobilem v domácnosti je vyšší (kladná) než střední hodnota pro respondenty bez automobilu v domácnosti (záporná) (viz. Příloha 4), můžeme říci, že v průměru mají respondenti s automobilem v domácnosti pozitivnější vztah k práci na zahradě, k vypěstování produktů na zahradě, k nákupu časopisů a knih o zahradě a pěstování a pozitivnější vztah k ručním pracem a manuální práci než respondenti bez automobilu v domácnosti. Poslední, v pořadí pátá nejvýznamnější hodnota F-statistiky (210,404, P< 0,000, viz. Příloha 4) byla vyhodnocena u faktoru 40, který je nejsilněji zkorelován s otázkami v následující tabulce č.20.
53
Metody pro postižení významných kritérií Tab. č. 20: Faktor 40 „Velké pracovní vytížení“
Číslo otázky 483 499 560 60 520 519
Otázka
Pracuji mnohem více než dříve před rokem 1989. O práci přemýšlím i doma. Nemám kdy si vybrat dovolenou mám moc práce. Mám dostatek času na vaření. Jsem spokojen s tím jak většinou prožívám volný čas. Mám dostatek volného času.
Faktorová zátěž 0,42 0,33 0,27 -0,25 -0,27 -0,48
V tabulce č.20 jsou tři kladné a tři záporné korelační koeficienty. Kladné faktorové zátěže vyjadřují kladnou závislost faktoru a příslušných proměnných, záporné faktorové zátěže pak vyjadřují zápornou závislost faktoru a příslušných proměnných. Tento faktor můžeme interpretovat jako velké pracovní vytížení, nedostatek volného času, nespokojenost s prožíváním volného času. Nejvýznamnější odlišností, která odlišuje respondenty s automobilem v domácnosti od zbytku je tedy v jejich spíše velkém pracovním vytížení, v nedostatku volného času, nespokojenosti s prožíváním volného času. Vzhledem k tomu, že střední hodnota tohoto faktoru pro respondenty s automobilem v domácnosti je vyšší (kladná) než střední hodnota pro respondenty bez automobilu v domácnosti (záporná) (viz. Příloha 4), můžeme říci, že v průměru jsou respondenti s automobilem v domácnosti pracovně více vytíženi, mají spíše málo volného času a jsou spíše nespokojeni s prožíváním volného času než respondenti bez automobilu v domácnosti., kteří jsou naopak spíše méně pracovně vytíženi, mají spíše dostatek volného času a jsou spokojeni s prožíváním volného času. Nakonec můžeme tedy shrnout, že nejvýznamnější odlišnosti, které odlišují respondenty s automobilem v domácnosti od zbytku jsou v jejich pozitivním vztahu k cestování, větší důvěře k cestovním kancelářím, větší ochotě poznávat nová místa a nové lidi, v jejich pozitivním vztah k investování do akcií a k braní si půjček, k utrácení peněz, ale i pozitivním vztahu k práci na zahradě, k vypěstování produktů na zahradě, k nákupu časopisů a knih o zahradě a pěstování, a naopak v negativním vztahu k vaření, k ručním pracem, k nakupování potravin, ke spoření, dále v jejich větším pracovním vytížení, v nedostatku volného času a v jejich nespokojeni s prožíváním svého volného času. Na druhé straně můžeme říci, že nejvýznamnější odlišnosti, které odlišují respondenty bez automobilu od zbytku spočívají v jejich spíše negativním vztahu k cestování, menší ochotě poznávat nová místa a nové lidi, v jejich spíše negativním vztahu k investování do akcií a braní si půjček, ale naopak v pozitivním vztahu k vaření a k ručním pracem, v používání elektrických přístrojů a speciálního nádobí při vaření, k nakupování potravin, 54
Metody pro postižení významných kritérií v jejich menším pracovním vytížení, dostatku volného času a spíše spokojenosti s prožíváním volného času.
Vyhodnocení metod
Faktorová analýza Výhody •
•
•
Nevýhody
Redukuje počet proměnných pro další •
Příliš velký prostor pro interpretaci, která
statistické metody
je obtížná, vyžaduje sociologické znalosti
Slouží jako příprava podkladů pro další •
Vztah významu faktorů a původních
analýzy
otázek nemusí být snadno formulovatelný
Odhalí vnitřní strukturu závislostí v •
Nelze provádět tam kde jsou vstupní
datech
proměnné nekorelované
Analýza rozptylu (ANOVA) Výhody •
Schopnost klíčových
Nevýhody velmi
rychlé
odlišností
identifikace •
Svádí k příliš jednoduchému vysvětlení
zkoumaných
segmentů na velkém množství otázek •
Faktor,
který
vyjde
jako
nejsilnější
(vyjadřující největší odlišnost), nemůže být
považován
charakteristiku,
za jelikož
nejdůležitější tato
metoda
nezohledňuje četnosti
55
Metody odkrytí segmentů
6 Metody odkrytí segmentů Poté, co jsme pomocí kontingenčních tabulek a dalších metod hledali nejvýznamnější segmentační kritéria, se nyní podíváme na využití metod, které nám pomohou odkrýt jednotlivé segmenty. V zásadě můžeme tyto metody rozdělit jednak na metody využívající sekvenčního postupu odkrytí segmentů, z nichž se podíváme zejména na postup CHAID (chíkvadrát AID) a dále simultánní vícevariantní techniky30, z nichž asi nejvyužívanější je metoda shlukové analýzy. Nutno zde poznamenat, že ačkoliv řadíme postup CHAID do metod odkrytí segmentů, spadá tato metoda částečně i do metod pro postižení významných kritérií.
6.1.1 Popisná segmentační kritéria Statistický popis metody Při poznávání tržních segmentů hledáme nejenom rozdíly mezi spotřebiteli spočívající
v jejich vztahu k dané kategorii produktu, ale snažíme se poznat další diference, které jsou s odlišným spotřebním chováním vůči daným produktům spojeny31. Odlišnosti mezi spotřebiteli, které mohou mít tyto marketingové dopady, můžeme rámcově rozdělit na tradiční a netradiční32. Mezi popisná segmentační kritéria tradiční řadíme demografická kritéria (např. věk, pohlaví, vzdělání), etnografická kritéria (např. kultura, národnost, rasa, náboženství), fyziografická kritéria (např. výška, váha, ale i zdravotní stav) a geografická kritéria (státy, regiony, ale i hustota osídlení, klima). Mezi netradiční popisná segmentační kritéria řadíme sociální třídu v širším smyslu (jedním z mnoha možných členění je ABCDE socioekonomická klasifikace33), životní styl a osobnost. Příklad Tab. č. 21: Transformace do marketingového problému
Statistika
Marketing
VSTUP
Jedno segmentační kritérium
ABCDE socioekonomická klasifikace
VÝSTUP
Tržní segmenty
Odlišné skupiny spotřebitelů podle segmentačního kritéria
30
Koudelka, Jan, Segmentujeme spotřební trhy. Praha: Professional Publishing 2005, str.127. Koudelka, J., Segmentujeme spotřební trhy. Praha: Professional Publishing 2005, str.59. 32 Yankelovich, D.: New Criteria for Market Segmentation, Harvard Business Review, Vol.42, 1964. 33 ABCDE klasifikace je klasifikace socioekonomického postavení domácností z Market&Media&Lifestyle 2004 (viz. Příloha 5) 31
56
Metody odkrytí segmentů Tab. č. 22: Popisná segmentační kritéria
CS Všichni
CS: CS Všichni ABCDE socioekonomická klasifikace A - nejvyšší B C D E - nejnižší Celkem
Máte ve Vaší domácnosti automobil (vlast./fir. pro soukr. úč./na leas.) - ANO Prj 000 s.% Index
482 494 1,645 1,239 1,282 5,142
9.4 9.6 32.0 24.1 24.9 100.0
Celkem Prj 000
s.%
Index
613 655 2,513 2,041 2,902 8,724
7.0 7.5 28.8 23.4 33.3 100.0
100.0 100.0 100.0 100.0 100.0 100.0
133.3 128.0 111.1 103.0 74.9 100.0
Popis příkladu Tabulka č.22 představuje příklad segmentace pomocí netradičního, ale v praxi
mediální agentury často používaného, popisného segmentačního kritéria – ABCDE socioekonomické klasifikace (podrobněji viz. Příloha 5). Z tabulky je zřejmé, že nejvíce domácností s automobilem spadá do kategorie C, tedy střední třídy (32 % z celkového počtu domácností), v pořadí na druhém místě se umístily domácnosti s automobilem spadající do kategorie E – nejnižší třída (24,9% z celkového počtu domácností) a hned za nimi domácnosti spadající do kategorie D (pouze o 0,8% méně než v kategorii E). Nejméně domácností, které mají automobil, spadá do kategorie B – vyšší střední třída (9,6%) a do kategorie A – nejvyšší třída (9,4%). Podívejme se nyní na indexy jednotlivých segmentů rozdělených podle ABCDE socioekonomické klasifikace. Vidíme, že index u domácností s autem spadajících do kategorie A (nejvyšší třída) je o 33,3 % vyšší oproti zastoupení domácností s touto kategorií v celkové populaci. Rovněž index u domácností s autem spadajících do kategorie B (vyšší střední třída) je o 28% vyšší oproti zastoupení domácností s touto kategorií v celkové populaci. Vyhodnocení metody Výhody
Nevýhody
•
•
Jednoduché a rychlé
Primitivní
a
neúčinné
(málokdy
sociodemografická klasifikace postačuje k vysvětlení segmentů)
57
Metody odkrytí segmentů
6.1.2 CHAID (chí-kvadrát AID) – rozhodovací stromy V této části práce se zaměříme na modelování segmentace, která je založena na postižení kritérií a s tím souvisejícím problémem interakční detekce (odhalení) – jak identifikovat a odhalit relevantní kombinace prediktorů, které definují segmenty. Konkrétně se zaměříme na řešení, které nabízí přístup CHAID (Chi-squared Automatic Interaction Detector) k interakčnímu odhalení a kriteriálně založenému modelování segmentace, které vytvořil Kass v roce 1980 a později ho v letech 1992 a 1993 rozšířil Magidson.34
6.1.2.1 První kriteriálně založené přístupy: Regrese a AID Statistický popis metody
Mezi nejpoužívanější kriteriálně založené modelovací techniky patří analýza lineární regrese. Moderní regresní teorie silně spoléhá na předpoklad, že podmíněná distribuce závislé proměnné má normální rozdělení. Tento předpoklad je však často porušen při segmentaci, kde je kritérium obvykle dichotomní35 (má pouze dvě kategorie, např. uživatel a neuživatel). Kromě toho, zatímco tradiční aplikace regrese zahrnuje hlavní efekty, ale ne interakce, definice dobrých segmentů často vyžaduje důsledky vzájemného působení. Zatímco interakce mohou být zahrnuty do regresního modelu, regresní teorie sama o sobě není užitečná při hledání a začlenění vhodných termínů a interpretace interakce vyššího řádu je často obtížná. Jako alternativa tradičního regresního přístupu byla vytvořena v roce 1963 na Institutu pro sociální výzkum v Michigenu (University of Michigan’s Institute for Social Research) ad hoc technika známá jako Automatic Interaction Detection (AID)36. AID, nazývaný někdy také “binární stromová analýza” („binary tree analysis”), používá hierarchický binární dělící algoritmus. Tento přístup předpokládá, že populace reprezentuje heterogenní seskupení s ohledem na některá spojitá nebo dichotomická závisle proměnná kritéria, a rozděluje populaci do vzájemně se vylučujících a vyčerpávajících skupin založených na vybraných kombinacích dichotomních prediktorů. Technika AID začíná s dělením populace do dvou odlišných skupin založených na kategoriích “nejlepšího” prediktoru. Dále potom dichotomizuje každou z těchto skupin a postupně úspěšně pokračuje s procesem dělení na každé výsledné podskupině až do doby,
34
Bagozzi, R., P.: Advanced Methods of Marketing Research, Blackwell Publishers, 1994, str.119. Dichotomií rozumíme dělení na dvě části, třídění do dvou skupin, nebo také dvojdílnost. 36 Bagozzi, R., P.: Advanced Methods of Marketing Research, Blackwell Publishers, 1994, str. 119. 35
58
Metody odkrytí segmentů kdy nemůže nalézt žádný prediktor, který splňuje vybranou podmínku nebo je splněno nějaké jiné, proces ukončující pravidlo. Koncem 60.tých a počátkem 70.tých let byla technika AID široce používána v marketingovém výzkumu, avšak ztratila na oblíbenosti, jelikož ignorovala fakt, že všechny proměnné nejsou brány v úvahu současně, ale sekvenčně37. Dále se ukázalo, že proces hledání využívá náhody. Výsledkem byl závěr, že rozhodovací stromy vytvořené pomocí AID jsou nestabilní; mohou se vzorek od vzorku velmi lišit a to obvzláště pro proměnné s nižší významností nebo pro malé vzorky. Algoritmus AID hledá nejvýznamnější způsob jak dichotomizovat prediktor, ale bez ohledu na skutečnost, že existuje mnoho způsobů provedení (kromě případu, kdy prediktor má původně pouze dvě kategorie např. muž a žena, tudíž existuje pouze jeden způsob jak tuto proměnnou rozdělit do dvou kategorií). Protože ignoruje skutečnost, že vybral zdánlivě statisticky nejvýznamější způsob, AID algoritmus má vlastní bias, který zveličuje pravděpodobnostní hodnotu (P-hodnotu) vícekategoriálních prediktorů (predikorů, majících více než dvě kategorie). A proto existuje větší pravděpodobnost, že proměnná s původně mnoha kategoriemi bude zvolena algoritmem AID jako nejlepší prediktor, protože má nízké P-hodnoty.
6.1.2.2 Alternativní algoritmus CHAID Statistický popis metody
V roce 1978 vynalezl Kass statistický algoritmus, nazývaný Chi-squared Automatic Interaction Detection (CHAID), který byl v mnoha hlediscích lepší než AID. CHAID sloučí ty kategorie prediktoru, které jsou homogenní s ohledem na závislou proměnnou, ale ponechá všechny kategorie, které jsou heterogenní. To znamená, že CHAID sloučí kategorie, které se od sebe výrazně neliší, ale odděluje ty, které jsou odlišné. Protože na rozdíl od AID se může od sebe několik kategorií odlišovat statisticky, výsledek slučovacího procesu CHAID nemusí být nutně dichotomní. Nakonec jsou tedy pouze statisticky významné proměnné oprávněny rozdělit skupinu. Na rozdíl od algoritmu AID je algoritmus CHAID omezen na použití nominálních a ordinálních kategorických proměnných. Využívá chi-square testu pro nezávislost ke zhodnocení statistické důležitosti. CHAID nepředpokládá normalitu. 37
Myers, H.: Segmentation and positioning for Strategic marketing decision, str. 152.
59
Metody odkrytí segmentů
6.1.2.3 CHAID Modeling Statistický popis metody
Nyní se podívejme na základní komponenty CHAID analýzy38. Patří se především: 1) kategorizovaná závislá proměnná 2) soubor kategorizovaných proměnných (prediktorů), jejichž kombinace jsou použity k definování segmentů 3) nastavení pro odlišné CHAID parametry Ve kterékoli fázi CHAID analýzy je analyzována některá z podskupin a je identifikován „nejlepší“ prediktor. Nejlepší prediktor je definován jako ta prediktivní proměnná, která má nejnižší upravenou P-hodnotu. Protože P-hodnota představuje pravděpodobnost, že pozorovaný vztah mezi prediktorem a závislou proměnnou by nastal, kdyby tyto dvě proměnné byly statisticky nezávislé, prediktor s nejnižší P-hodnotou je ten, který je nejméně pravděpodobně nesouvisející a tudíž má nejprediktivnější sílu. Metodu CHAID je možno provádět pomocí různých programů. V našem příkladě použijeme program AnswerTree, jehož výstupem jsou právě rozhodovací stromy. Rozhodovací stromy jsou nástrojem pro rychlé a snadné objevování segmentů, odhalování skrytých asociačních struktur, vzorů chování a pro vytváření pravidel rozhodování. Dělení rozhodovacího stromu lze znázornit stromovým schématem (viz. Obr.č.7). Ten se rozvětvuje do několika hierarchických úrovní, kterým říkáme kořen, větve a listy. Rozhodovací strom můžeme také nazvat dendrogramem. Obr. č. 7: Stromové schéma rozhodovacího stromu
38
Bagozzi, R., P.: Advanced Methods of Marketing Research, Blackwell Publishers, 1994, str. 122.
60
Metody odkrytí segmentů Princip rozhodovacích stromů spočívá ve snaze o vysvětlení variability zkoumané proměnné. Vysvětlující proměnné jsou nalézány v hierarchických krocích. Algoritmus CHAID prochází v každém uzlu (Node) jednotlivé prediktory a snaží se najít takový, který co nejlépe vysvětluje variabilitu cílové proměnné. Tento proces se v každé větvi opakuje. Tímto dochází k postupnému rozkladu na menší a menší podskupiny. Vytváří se koncové homogenní skupiny, na něž stačí zcela jednoduchý model. „Lezením“ po větvích vytvořeného stromu se dostaneme k cílové skupině, která nás zajímá. Variabilita v terminálních uzlech je nižší než variabilita v hierarchicky vyšších uzlech a tím i chyba predikce v terminálních uzlech je nižší. Naopak afinita se směrem k terminálním uzlům zvyšuje, avšak postupným rozkladem na menší podsoubory dochází ke ztrátě respondentů a s tím souvisejícím problémem velikosti vzorku.
Příklad Tab. č. 23: Transformace do marketingového problému
Statistika
Marketing
VSTUP
Cílová proměnná a prediktory
Máte ve Vaší domácnosti automobil? Počet osob v domácnosti Čistý měsíční příjem domácnosti
VÝSTUP
Rozhodovací strom
Odhalené segmenty
61
Metody odkrytí segmentů Obr. č. 8: Rozhodovací strom (výsek) (celý rozhodovací strom viz. Příloha 6)
Popis příkladu
Podívejme se nyní na příklad rozhodovacího stromu, kdy v první hierarchické úrovni zjišťujeme, kolik respondentů má v domácnosti automobil, ať již vlastní, firemní pro soukromé účely nebo na leasing. Z obrázku č.4 vidíme, že v prvním uzlu (Node 0) 57,92% respondentů (tedy nadpoloviční většina) mají v domácnosti automobil. V druhé
hierarchické
úrovni
je
prediktorem
počet
osob
v domácnosti.
V jednočlenných domácnostech má 25,74% respondentů automobil, což tvoří 14,31% z celkového počtu respondentů. Prediktorem, který zde byl nalezen jako nejsilnější, je věk respondenta. Z 25,74% respondentů, kteří mají v jednočlenné domácnosti automobil, jich je nejvíce (47,90%) mezi 29 až 47 lety. Druhou nejpočetnější skupinou (34,81%) jsou respondenti mladší 29 let. Menší počet (27,48%) potom tvoří skupina respondentů mezi 47 a 66 lety a přirozeně nejméně početnou skupinu (8,88%) pak tvoří respondenti 66 let a starší. Ve dvoučlenných domácnostech (Node 2) se procento respondentů s automobilem oproti jednočlenným domácnostem značně zvyšuje, a to o více než o 100% (z 25,74% na 53,69%). Čistý měsíční příjem domácnosti byl vybrán programem AnswerTree jako nejsilnější prediktor pro tento uzel. Nejvyšší procento respondentů (75,48%) z dvoučlenných domácností má čistý měsíční příjem mezi 17.501Kč a 25.000Kč, což tvoří pouze 2,88% z celkového počtu dvoučlenných domácností. Pokud nebudeme brát v úvahu poslední kategorii
(Node
13,
missing?),
tvoří
druhou
nejpočetnější
skupinu
respondentů 62
Metody odkrytí segmentů z dvoučlenných domácností respondenti s čistým měsíčním příjmem 8.001Kč až 17.500Kč. Pokud však vytvoříme z těchto dovou předcházejících kategorií čistého současného příjmu kategorii třetí, v rozmezí 12.501Kč až 25.000Kč, dostáváme 60,32% respondentů s automobilem, což tvoří 6,51% z celkového počtu respondentů z dvoučlenné domácnosti. Domácnosti se třemi členy mají automobil v 63,41% (Node 3), což je o něco více než v případě dvoučlenných domácností. V tomto uzlu byl taktéž vybrán jako nejsilnější prediktor čistý měsíční příjem. Respondenti s čistým měsíčním příjmem 25.001Kč až 30.000Kč odpověděli v 79,91%, že vlastní automobil, což však tvoří pouze 2,9% z celkového počtu respondentů z trojčlenných domácností. Druhou nejpočetnější skupinou respondentů, kteří mají automobil, jsou respondenti s čistým měsíčním příjmem mezi 20.001Kč a 30.000Kč. Domácnosti čtyř a vícečlenné mají automobil v 70,70% (Node 4). Nejsilnějším prediktorem pro tento uzel byla vybrána socioekonomická klasifikace ABCDE. Nejvíce respondentů (82,71%) z trojčlenných domácností, kteří mají automobil, spadá do socioekonomické klasifikace B a nižší. Druhou nejpočetnější skupinu tvoří respondenti se socioekonomickou klasifikací B,C (74,51%). Nejméně početnou skupinu tvoří respondenti se socioekonomickou klasifikací C,D (69,22%) a vyšší než D (58,79).
6.1.2.4 Analýza kvality modelu Pokud model slouží jako predikční model, slouží analýza kvality modelu neboli matice chyb (Misclassificaiton Matrix) k vyhodnocení kvality modelu rozhodovacího stromu. Z matice chyb vidíme, že 7855 respondentů odpovědělo, že má v domácnosti automobil a zároveň náš model je také vyhodnotil jako respondenty s automobilem. Naopak 2975 respondentů odpovědělo, že automobil v domácnosti nemá, a zároveň je náš model predikoval jako respondenty bez automobilu. Když sečteme tato dvě čísla, dostáváme číslo 10830, které následně vydělíme celkovým počtem respondentů 16133 dostáváme procento dobře zařazených respondentů.(67,13%). Na druhé straně tabulka ukazuje, že 3813 respondentů ve skutečnosti nemá v domácnosti automobil, ačkoliv náš model predikoval, že automobil v domácnosti mají. Naopak 1490 respondentů automobil v domácnosti má a náš model chybně predikoval, že automobil v domácnosti nemají. Tato dvě čísla sečteme, vydělíme celkovým počtem respondentů (16133) a výsledek představuje riziko, že se dopustíme chybného zařazení respondenta (32,87%, viz. Tab.č.24 Risk Estimate 0,328705). Závěrem tedy můžeme
63
Metody odkrytí segmentů konstatovat, že náš model zařadil dobře zhruba 2/3 respondentů a 1/3 respondentů zařadil chybně. Jedná se tedy o poměrně vysoký podíl špatně zařazených respondentů. Dalším údajem, který můžeme z matice chyb vyčíst je, s jakou přesností je určen odhad pravděpodobnosti chybného zařazení. (SE of Risk Estimate = 0,0036983).
Tab. č. 24: Matice chyb
Vyhodnocení metody
Výhody •
Nevýhody
Analytický nástroj, který rychle nalezne •
Nebezpečí malých četností u odhalených
důležité prediktory
segmentů s vysokou afinitou (řešíme dilema mezi zvýšením afinity a ztrátou četností)
•
Primární výstup je přímo použitelný pro •
Rozsah stromu bývá obvykle dosti velký,
prezentaci
a je tedy obtížně znázornitelný při přípravě prezentací (viz. Příloha 6)
•
Způsob větvení stromu dává velký prostor pro zásah analytika v procesu větvení
6.1.3 Shluková analýza (Cluster analysis) Shluková analýza je metodou, kterou řadíme mezi simultánní vícevariantní techniky. Jde o řadu různých postupů, jimž je společné to, že vyhledávají objekty (v našem případě značky automobilů), které jsou si podle daných hledisek (v našem případě segmentačních
64
Metody odkrytí segmentů kritérií) co nejpodobnější. Tyto výsledné shluky reprezentují pak v případě shlukové analýzy podle segmentačních proměnných tržní segmenty39. Pokud chceme uplatnit shlukovou analýzu pro segmentaci trhu, musíme nejdříve odpovědět na dvě následující otázky. První otázku, kterou musíme zodpovědět je „Jaká kritéria použijeme pro vstup do shlukové analýzy?“ V našem případě tvoří kritéria lifestylové profily majitelů značek automobilů, pomocí kterých budeme zjišťovat podobnost lifestylového profilu majitelů automobilů. Druhou otázkou, na kterou si musíme odpovědět je“Kolik shluků odkrýt?“ Odpověď na tuto otázku souvisí s přísností nároků marketingového manažera na podobnost značek automobilů v segmentech, tedy shlucích. Jedná se o doplňující požadavek na to, jak silná má být podobnost uvnitř segmentu, neboli jakou připouštíme heterogenitu. Výsledky shlukové analýzy nám pak řeknou, kolik segmentů (shluků) se za této podmínky objeví. Z technického hlediska rozlišujeme hierarchické a nehierarchické shlukování. Při hierarchickém shlukování se v našem případě značky automobilů postupně přiřazují podle podobnosti do nižších či vyšších úrovní, při nehierarchickém tato zásada neplatí. Mezi nehierarchické shlukování řadíme metodu shlukové analýzy K-průměrů (K-means cluster analysis) a dvoukrokovou shlukovou analýzu (two step cluster metod). Podívejme se nyní na příklad hierarchického shlukování značek automobilů.
Příklad Tab. č. 25: Transformace do marketingového problému
Statistika
VSTUP VÝSTUP
Marketing
Datová matice s průměrnými hodnotami lifestylových otázek pro jednotlivé značky automobilů
Lifestylový profil majitelů jednotlivých značek automobilů
Dendrogram
Shluky podobných značek automobilů
Při hierarchickém shlukování je proces odkrývání shluků následující. Nejdříve si musíme zadat segmentační kritéria. Segmentačními kritérii jsou v našem případě lifestylové profily majitelů značek automobilů. Seznam všech značek automobilů z MML dat najdeme v příloze 7. Z důvodu zajištění dostatečné validity získaných výstupů vybereme ze všech
39
Koudelka, Jan, Segmentujeme spotřební trhy. Praha: Professional Publishing 2005, str.128.
65
Metody odkrytí segmentů značek pouze značky automobilů s četností vyšší než 100. Přehled 22 nejčastěji se vyskytujících značek automobilů v domácnosti (s četností vyšší než 100) znázorňuje tabulka č.26.
Tab. č. 26: Značky nejčastěji používaných automobilů v domácnostech s četností nad 100
CS Všichni
CS: CS Všichni Jakou značku má Vaše nejčastěji používané auto? Škoda Favorit Škoda Felicia Š 120/125/130 Škoda Fabia Škoda Octavia Š 105 Škoda Forman Ford Escort Opel Astra Fiat - ostatní Renault ostatní Citroën - ostatní Opel - ostatní Opel Corsa Volkswagen Golf Ford Fiesta neuvedeno Peugeot 206 Peugeot 306 Ford Mondeo Škoda - ostatní Peugeot - ostatní Opel Vectra
Prj 000
672 599 570 392 253 138 135 113 108 113 85 66 66 80 72 68 60 51 52 62 53 59 48
CS Všichni Počet s.% nv. 7.7 6.9 6.5 4.5 2.9 1.6 1.5 1.3 1.2 1.3 1.0 0.8 0.8 0.9 0.8 0.8 0.7 0.6 0.6 0.7 0.6 0.7 0.6
1,224.0 1,118.0 973.0 737.0 458.0 260.0 257.0 196.0 193.0 186.0 162.0 123.0 121.0 118.0 118.0 117.0 111.0 107.0 107.0 104.0 104.0 102.0 101.0
Dalším krokem je určení metriky (měřítka), kterým se hodnotí podobnost lifestylového profilu majitelů automobilů. Pokud by nám stačila pouze základní orientace, postačí nám měřítko s větší vzdáleností, tudíž menší podobností lifestylového profilu majitelů automobilů. Pokud by však naší podmínkou byla jemnější tržní diferenciace mezi lifestylovými profily majitelů automobilů, zvolili bychom měřítko s menší vzdáleností a tudíž by byly lifestylové profily majitelů automobilů více homogenní. Měřítkem jsou tedy vzdálenosti na horizontální ose (rescaled distance), které vyjadřují podobnosti lifestylového profilu majitelů automobilů. Měřítko je stanoveno od 0 do 25. 66
Metody odkrytí segmentů Následujícím krokem procesu odkrývání shluků při hierarchickém shlukování je zadání metody shlukování. V našem případě jsme použili metodu Average Linkage (Between Groups). Jedná se o metodu průměrné vazby (Sokalova-Sneathova)40, která používá jako kritérium pro spojování shluků průměr z q možných mezishlukových vzdáleností objektu. Nyní máme tedy vše připraveno pro spuštění provedení shlukové analýzy. Jedním z grafických výstupů analýzy hierarchického shlukování je tzv. dendrogram, který je znázorněn na obr.č.9. Jak již bylo zmíněno, vzdálenosti na hierarchické ose určují míru podobnosti lifestylového profilu majitelů automobilů. Vertikálně jsou potom vyjádřeny shluky, které byly při daném měřítku odkryty. V našem případě se jedná o 11 hierarchických úrovní. Z obrázku vidíme, že při vzdálenosti 16 mezi lifestylovými profily majitelů značek automobilů se nám odkrývají dva shluky, segmenty. Mezi vzdáleností 10 a 13 existují čtyři, poměrně blízko od sebe vzdálené hierarchické úrovně, což vypovídá o větší podobnosti lifestylových profilů majitelů vybraných značek automobilů.
40
Hebák, P.: Vícerozměrné statistické metody [3], Praha: Informatorium, 2007, str.134.
67
Metody odkrytí segmentů Obr. č. 9: Hierarchická shluková analýza - dendrogram
Posledním krokem je určení počtu shluků. Při bližším pohledu na dendrogram můžeme odkrýt v podstatě čtyři shluky, segmenty lifestylových profilů majitelů automobilů. Při vzdálenosti 16 na hierarchické ose jsou odkryty dva segmenty. První segment tvoří Škoda 120/125/130, Škoda 105, a Škoda ostatní (modely patřící do kategorie „Škoda ostatní“ viz. Příloha 7). Vidíme, že lifestylové profily majitelů značek Škoda 120/125/130 a Škoda 105 jsou si navzájem vzhledem ke vzdálenosti na hierarchické ose mnohem více podobné než lifestylové profily majitelů Škoda ostatní. Druhý segment odkrytý při vzdálenosti 16 se dále dělí při vzdálenosti 13 na další dva velké segmenty. První z nich tvoří lifestylové profily značek Škoda Fabia a Škoda Octavia, které jsou si velmi podobné, a dále Opel Astra, Opel Vectra, Ford Mondeo, Opel Corsa, Peugeot 206. Přiřaďme do tohoto segmentu i lifestylový profil majitele značky Volkswagen, který se však od právě zmíněných značek trochu vzdaluje, tedy má menší podobnost. Druhým velkým odkrytým segmentem při vzdálenosti 68
Metody odkrytí segmentů 13 je segment, do nějž patří lifestylový profil majitelů značek Renault ostatní, Ford Escort, Citroën ostatní, Peugeot ostatní, Ford Fiesta, Peugeot 306 a Opel ostatní (pro kategorie „ostatní“ viz.Příloha 7). Při vzdálenosti 5 byl odkryt menší segment, do kterého patří lifestylové profily majitelů značek Škoda Favorit, Škoda Felicia, Škoda Forman, a Fiat ostatní. Nejblíže vzdálené jsou lifestylové profily majitelů značek Škoda Favorit a Škoda Felicia, tudíž se vyznačují největší podobností. Při odkrývání segmentů může být určitým vodítkem také sledování stability shluků objevujících se v průběhu shlukování. Při shlukové analýze je možné zadat počet shluků intervalově, např. 5 až 10. Pokud se již relativně velikost např. 4 větších shluků nemění a přitom tyto 4 shluky představují převážnou část vzorku (kumulovaná četnost kolem 90%), můžeme vzít počet těchto větších shluků (4) jako počet odkrytých segmentů pro segmentaci trhu. Vyhodnocení metody
Výhody •
Umožňuje
Nevýhody řídit
počet
segmentů •
v závislosti na tom jakou si určíme míru
Neexistuje
optimální
pravidlo
pro
stanovení počtu segmentů (shluků)
podobnosti •
V případě hierarchické shlukové analýzy nelze segmentovat velký počet případů (proto jsme v našem příkladě použili místo respondentů značky automobilů)
6.1.4 Vícerozměrné škálování (MDS = MultiDimensional Scaling) Statistický popis metody Vícerozměrné škálování je název pro skupinu explorativních statistických metod,
založených na redukci vícerozměrného prostoru objektů a průzkumové analýze vztahů mezi nimi. Objekty rozumíme řádky (pozorování) nebo sloupce (proměnné) datové matice. Vícerozměrné škálování pracuje s různými typy relací mezi objekty, přičemž nejčastěji jde
69
Metody odkrytí segmentů o číselně vyjádřenou vzájemnou vzdálenost (blízkost) či nepodobnost (podobnost). Jsou však možné i jinak vyjádřené vztahy, např. korelace a asociase41. Při vícerozměrném škálování hledáme na základě vzdálenosti nebo měr nepodobnosti v prostoru odpovídající souřadnice objektů. Potřeba řešit vícerozměrné úlohy tímto způsobem vznikla již koncem 30. let minulého století hlavně v oboru psychologie. V průběhu 50. let se výzkum zaměřoval na metody, které jsou dnes nazývány metrické MDS. K jejich rozvoji přispěli ve svých pracích hlavně W. Torgerson, S. Messick, R. Abelson nebo L. Tucker. V 60. letech pak MDS přechází také na nemetrické modely, které byly zavedeny R. Shepardem (1962) a dále rozvinuty J. Kruskalem (1964), a jejichž přístup je v různých modifikacích používán prakticky dodnes. Smyslem vícerozměrného škálování je optimálně snížit rozměr dat a zkoumat relace objektů v redukovaném prostoru. Ačkoliv jsou výstupy vícerozměrného škálování i číselné, jde hlavně o vizuální techniku. Objekty zobrazujeme v redukovaném prostoru, kterému říkáme mapa objektů, a který bývá základním vodítkem pro interpretaci vztahů mezi objekty. Ve své podstatě řeší vícerozměrné škálování obdobné úlohy jako jiné vícerozměrné metody, např. faktorová analýza, korespondenční analýza nebo shluková analýza. Na rozdíl od nich však nevyžaduje přímé určení matice pozorování – tu je možné určit nepřímo z matice relací mezi objekty42.
Příklad Tab. č. 27: Transformace do marketingového problému
Statistika
Marketing
VSTUP
Datová matice s průměrnými hodnotami lifestylových otázek pro jednotlivé značky automobilů
Lifestylový profil majitelů jednotlivých značek automobilů
VÝSTUP
Grafické zobrazení objektů jako bodů v dvourozměrném prostoru
Interpretace vztahů mezi objekty
Pro ilustraci vícerozměrného škálování vyjdeme stejně jako u shlukové analýzy z datové matice průměrů lifestylových otázek pro značky automobilů z tabulky č.26. Z důvodu zajištění dostatečné validity získaných výstupů použijeme opět pouze značky automobilů s četností nad 100. Vytvoříme tzv. mapu objektů v dvourozměrném prostoru, 41 42
Hebák, P.: Vícerozměrné statistické metody [3], Praha: Informatorium 2007, str.145. Hebák, P.: Vícerozměrné statistické metody [3], Praha: Informatorium 2007, str.145.
70
Metody odkrytí segmentů kterou budeme následně interpretovat. Pokud není možná přímá interpretace, můžeme výsledné řešení rotovat. Grafická reprezentace objektů ve dvourozměrném prostoru je zobrazena na následujícím obrázku (Obr.č.10).
Obr. č. 10: Mapa objektů ve dvourozměrném prostoru
Pohledem na mapu objektů ve dvourozměrném prostoru na obrázku č.10 zjistíme vzájemnou nepodobnost (podobnost) a geometrickou vzdálenost (blízkost) jednotlivých lifestylových profilů majitelů vybraných značek automobilů. Vpravo na obrázku se vytvořil segment podobných lifestylových profilů majitelů značek automobilů, do kterého patří Škoda 105, Škoda 120/125/130, Škoda Forman, Škoda Favorit a kategorie Škoda ostatní. Z obrázku je zřejmé, že lifestylové profily majitelů značek Škoda 105, Škoda 120/125/130 a Škoda ostatní jsou si geometricky bližší a tím pádem vzájemně podobnější než lifestylové profily majitelů ostatních značek tohoto segmentu. Nahoře od osového kříže vidíme další, poměrně velký segment podobných lifestylových profilů majitelů značek automobilů. Z obrázku vidíme, že Škoda Felicia a Fiat-ostatní se nacházejí nejvíce vpravo, jsou tedy geometricky bližší segmentu prvnímu. Můžeme tedy říci, že lifestylové profily majitelů těchto značek automobilů jsou podobnější lifestylovým profilům majitelů značek automobilů prvního segmentu. Dole od osového kříže vidíme třetí segment, jehož lifestylové profily majitelů automobilů těchto značek se nacházejí poměrně těsně vedle sebe, vyznačují se tedy vyšší vzájemnou podobností. Vzájemně si více podobné jsou lifestylové profily majitelů značek Ford Escort, Citroën-ostatní a Opel-ostatní. Lifestylové profily majitelů značek Peugeot 306,
71
Metody odkrytí segmentů Ford Fiesta a Peugeot ostatní jsou od lifestylových profilů majitelů těchto značek poněkud vzdálenější, tedy méně podobné. V levé části grafu jsou pak umístěny vzájemně si podobné lifestylové profily majitelů značek Ford Mondeo, Škoda Octavia, Opel Vectra a Škoda Fabia. Výsledky vícerozměrného škálování můžeme porovnat s výsledky shlukové analýzy, které jsou na obrázku č.10 vyznačeny žlutě. Vidíme, že shluková analýza vytvořila také čtyři segmenty (shluky), avšak shluková analýza sloučila lifestylové profily majitelů značek automobilů do jednotlivých shluků poněkud odlišně (viz. Obr.č.10 žlutě). Ilustrace dalšího příkladu vícerozměrného škálování je na obrázku č.11, kde jsme opět vycházeli z datové matice průměrů lifestylových otázek pro značky automobilů z tabulky č.26. Objekty je tedy 22 nejčastěji používaných značek automobilů v domácnosti s četností nad 100. Navíc jsme v tomto příkladě použili jako segmentační kritérium věk majitele automobilu a ABCDE socioekonomickou klasifikaci domácnosti43. Z obrázku je zřejmé, že věk majitele i ABCDE socioekonomická klasifikace domácnosti mají schopnost diferencovat pouze v jednom, horizontálním směru. Druhý rozměr na svislé ose je neznámý. Při pohledu na obrázek (zprava) vidíme, že domácnosti se značkou automobilu Škoda 105, Škoda 120/125/130 a Škoda ostatní mají vzájemně podobný profil - spadají do nejnižší socioekonomické třídy (E) a majitelé jsou ve věku 55 až 64 let. Vzájemně podobný profil mají i domácnosti se značkami automobilů Škoda Favorit a Škoda Forman, které spadají do nižší střední třídy (D) a jejich majitelé jsou ve věku 44 až 54 let. Další domácnosti s podobným profilem mají v domácnosti například Škodu Felicii, Fiat ostatní, Renault ostatní, Ford Escort, spadají do střední socioekonomické třídy (C) a majitelé těchto značek jsou ve věku mezi 34 a 44 lety. Dále podobný profil mají domácnosti s automobily např. Škoda Fabia, Škoda Octavia, Opel Vectra, Opel Corsa, které spadají do vyšší střední třídy (B) a nejvyšší třídy (A) a jejich majitelé jsou ve věku 34 let a méně. Závěrem můžeme říci, že domácnosti s podobným profilem, spadající např. do vyšší střední třídy (B) a nejvyšší třídy (A), mají v domácnosti auta novější, jejichž majitelé jsou mladší respondenti.
43
ABCDE klasifikace jeklasifikace socioekonomického postavení domácností z Market & Media & Lifestyle 2004 (viz. Příloha 5).
72
Metody odkrytí segmentů Obr. č. 11: Mapa objektů ve dvourozměrném prostoru
Popis příkladu Vyhodnocení metody
Výhody •
Nevyžaduje
Nevýhody přímé
matice •
určení
pozorování •
osách
V redukovaném interpretovat
Obtížná interpretace, není určeno, co je na
prostoru
vzdálenost
umožňuje • (blízkost)
a
Neschopnost bližšího určení podstaty podobnosti a nepodobnosti - jsme schopni
nepodobnost (podobnost) objektů
říct, který objekt je podobný jeden druhému, ale nevíme proč •
Vycházíme z vypočítaných průměrů na lifestylových otázkách, tudíž může dojít k nepřesné interpretaci podobnosti či nepodobnosti jednotlivých objektů
73
Návrhy a doporučení v rozhodování agentury
7 Návrhy a doporučení v rozhodování agentury V poslední kapitole této práce bych se ráda zmínila o konkrétních marketingových situacích a případech, ve kterých se jednotlivé, v této práci podrobně rozebrané, statistické metody v marketingové praxi používají. Zároveň bych ráda uvedla svá doporučení pro použití jednotlivých statistických metod, případně kdy je jejich použití nevhodné. Nakonec uvedu některé návrhy, které by agentura MindShare mohla v rámci budoucího rozhodování agentury implementovat. V marketingové praxi, konkrétně v mediální agentuře MindShare, je používána řada statistických metod, které byly podrobně popsány a ilustrovány na příkladech automobilového průmyslu v této práci. Díky pokročilým softwarovým programům je umožněno zpracování vícerozměrných dat a interpretace získaných výsledků, která však do značné míry závisí na zkušenostech a znalostech marketingového analytika. Statistické metody nejsou v agentuře využívány pouze analytiky výzkumného oddělení, kde se marketingová data zpracovávají a analyzují, avšak v odlišné míře s nimi pracují i pracovníci ostatních oddělení, například mediální planneři a nákupčí médií. Zejména ale na práci marketingového analytika v oddělení výzkumu jsou kladeny vysoké nároky na znalost práce se statistickými programy, hluboké poznatky statistiky a informatiky v kombinaci se speciálními počítačově orientovanými postupy. Při interpretaci některých metod se neobejde analytik ani bez dobrých sociologických znalostí. Při hledání možných cílových skupin v marketingové praxi jsou zkoušeny různé segmentační metody a hledají se takové výstupy, které z hlediska interpretace dávají smysl. Dá se říci, že toto hledisko v praxi rozhoduje nejvíce o použití dané statistické metody. Z teoretického hlediska je pak důležitý typ vstupní proměnné, která rozhoduje o možnosti použít příslušnou statistickou metodu. Ne každá metoda je schopna pracovat s každým typem proměnné. V rámci této práce byla vytvořena tabulka, která uvádí přehled všech metod používaných agenturou MindShare spolu s typem proměnné, která může být pro danou metodu použita. Kromě toho jsou v tabulce shrnuty i výhody a nevýhody jednotlivých metod (viz. Tab.č.28). Při výběru statistické metody do jisté míry však záleží i na tom, za jakým účelem se analýza dat provádí. Kvalita výstupu je potom ovlivněna množstvím informací obsažených v datech. Je však nutné konstatovat, že při hledání cílových skupin se v praxi často používá intuitivní marketingová segmentace, založená na intuici a zkušenostech marketingových pracovníků. 74
Návrhy a doporučení v rozhodování agentury Nejjednodušší statistickou analýzou pro kategorizované proměnné je třídění prvního stupně. Tato metoda je používána obecně při práci s daty. Je využívána nejenom analytiky výzkumného oddělení, ale i mediálními plannery a nákupčími médií. Nákupčí médií mohou třídění prvního stupně používat například ke zjištění, které tituly jsou nejvíce čtené. Můžeme říci, že práce nákupčích médií v souvislosti s používáním statistických metod končí u třídění prvního stupně. Při větším objemu dat, kdy jsou jednotlivé kategorie více zastoupeny, je vhodnější použití třídění druhého stupně, které umožňuje, na rozdíl od prvního stupně, sledovat statistickou závislost proměnných. Třídění druhého stupně je často využíváno při své práci mediálními plannery. V souvislosti s využíváním statistických metod končí práce plannerů u třídění druhého stupně. Dá se i říci, že na úrovni třídění druhého stupně končí také většina práce běžných mediálních agentur. Třídění třetího stupně se kvůli nepřehlednosti provádí jen velmi málo. Další poměrně využívanou metodou je poziční mapa, která představuje jednoduchou a názornou grafickou metodu. V praxi může být použita například pro grafické vyhodnocení postavení jednotlivých značek na trhu k dvěma zadaným proměnným. S poziční mapou pracují v praxi nejenom marketingoví analytici, ale pro její jednoduchost a názornost ji používají hlavně mediální planneři při zpracovávání prezentací pro klienta. Kontingenční tabulka je používána při segmentaci pro výběr klíčových nezávislých (vysvětlujících) proměnných v závislosti na tom, jak vysvětlují závislou (vysvětlovanou) proměnnou, tedy tu proměnnou, kterou chceme vysvětlit. Kontingenční tabulku je vhodné použít pro testování závislosti mezi dvěma kategoriálními proměnnými a pro výpočet měr intenzity závislosti pomocí příspěvků do χ2 (chí-kvadrát) statistiky. Nevýhodou χ2 statistiky u kontingenční tabulky je skutečnost, že neudává směr závislosti. Pro určení směru a zdroje závislosti je vhodné použití znaménkové konvence, která pomocí kladných a záporných znamének pomáhá interpretovat směr závislosti. Znaménková konvence tedy není používána k výběru segmentačních kritérií, ale až k určení směru závislosti na základě kontingenční tabulky. Jedná se však pouze o přibližné nahrazení jednotlivých čísel znaménky, tudíž tato metoda nemůže být doporučena k hlubším a podrobnějším analýzám. Přesto je v praxi často používána pro umožnění rychlé orientace a přehlednosti. Znaménková konvence může být také použita pro rozvoj profilu segmentů. Korespondenční analýza představuje další metodu používanou v praxi, která má oproti jiným metodám řadu předností. Vstupem pro korespondenční analýzu mohou být kromě 75
Návrhy a doporučení v rozhodování agentury kvantitativních dat i data kvalitativní. Metoda navíc umožňuje i použití více proměnných. Korespondenčí analýza je prováděna na základě zjištěných závislostí v kontingenční tabulce. Výstupem je názorná subjektivní mapa, která je nejoblíbenějším diagnostickým korespondenčním grafem zobrazujícím zjištěné závislosti v datech. Vzhledem k tomu, že se jedná o grafickou metodu, může být použita jako přesvědčivý nástroj pro přípravu prezentací. Jelikož se při marketingové analýze setkáváme často s velkým množstvím dat, je v praxi používána faktorová analýza, která je oblíbenou metodou redukce dat. Může být doporučena například pro lifestylové otázky, kde existuje velké množství vysvětlujících proměnných. Faktorová analýza provádí redukci těchto proměnných (místo původního velkého množství proměnných je použit redukovaný počet faktorů). Pro vyjádření počtu proměnných, které faktor vysvětluje, slouží vlastní číslo. Obvykle jsou používány faktory s vlastním číslem větším než jedna. Faktorová analýza může být tedy použita jako příprava podkladů pro další analýzy, jako je analýza rozptylu nebo shluková analýza. Další metodou používanou v praxi je analýza rozptylu, která je vhodná k identifikaci nejsilnějších odlišnosti zkoumaných cílových kategorií. Při odkrývání segmentů na základě analýzy rozptylu musíme brát na vědomí, že faktor, který vyjde jako nejsilnější, tedy faktor vyjadřující nejsilnější odlišnost cílových kategorií, nemůže být považován za nejdůležitější charakteristiku dané kategorie, jelikož tato metoda nezohledňuje četnosti. Stejně tak může být analýza rozptylu použita pro rozvoj profilu, ale nebudou nalezeny nejsilnější charakteristiky daných kategorií, ale jejich nejsilnější odlišnosti. Popisná segmentační kritéria jsou v praxi nejčastěji používaným způsobem pro tvorbu cílových skupin. Mezi nejčastěji používaná segmentační kritéria patří demografická kritéria jako věk, pohlaví a vzdělání, ale i ABCDE socioekonomická klasifikace. Cílovou skupinou vytvořenou pomocí popisného segmentačního kritéria mohou být například muži ve věku 15 – 29 let. Rozhodovací stromy mohou být v marketingové praxi výstupem několika různých programů. V agentuře MindShare je pro rozhodovací stromy používán program AnswerTree, nejedná se však o tak často agenturou používaný analytický nástroj. Tento postup není vhodný přímo pro segmentaci, ale agentura ho využívá pro rozvoj profilů segmentů, kdy na MML datech provádí segmentaci, pomocí které je agentura schopna následně analyzovat data z hlediska nákupu tisku a rádia, ne však internetu a televize. Tuto segmentaci je pak zapotřebí transformovat do jiných výzkumů tak, aby byly nalezeny mediální cílové skupiny například pro peoplemetry měřící sledovanost televizních stanic. Rozhodovací stromy pomohou odkrýt 76
Návrhy a doporučení v rozhodování agentury důležité proměnné z hlediska segmentu, avšak sociodemografická kritéria odpovídají špatně nákupnímu chování spotřebitelů. Pokud model slouží jako predikční model, je vhodné použití matice chyb pro ověření (procentuální vyhodnocení) kvality modelu. Hojně používanou metodou v marketingové praxi je shluková analýza, která je vhodná pro provedení vlastní segmentace. Jedná se o nalezení shluků, které reprezentují jednotlivé tržní segmenty. Při použití hierarchického shlukování je výstupem dendrogram, který znázorňuje jednotlivé shluky. Pokud je segmentačních kritérií velké množství, doporučuje se nejdříve provedení jejich redukce pomocí faktorové analýzy. Z metod pro nehierarchické shlukování je často používána jednak metoda shlukové analýzy K-průměrů (K-means cluster analysis), která již umožňuje provést segmentaci na větším množství statistických případů a dále dvoukroková shluková analýza (two step cluster metod), která umožňuje, na rozdíl od ostatních metod, stanovit si předem počet shluků. Poslední, v marketingové praxi poměrně používanou grafickou metodou, je vícerozměrné škálování, jehož výstupem je mapa objektů v dvourozměrném prostoru. Metoda je založena na redukci vícerozměrného prostoru objektů a analýze vztahů mezi nimi. Umožňuje v redukovaném prostoru interpretovat vzdálenost či blízkost a nepodobnost či podobnost objektů, například lifestylových profilů jednotlivých značek. Pokud jsou ve výsledné mapě objektů v dvourozměrném prostoru nalezeny rozdíly mezi jednotlivými objekty, slouží tato metoda v praxi pro prezentaci výsledků klientovi. V tabulce č.29 jsou pak zhodnoceny jednotlivé segmentační metody z hlediska účinnosti pro segmentaci, z hlediska použití agenturou MindShare a dostupnosti programů. Co se týče dostupnosti programů, agentura MindShare jako jedna z prvních mediálních agentur na českém trhu začala provádět hlubší statistické analýzy, které byly podmíněny vlastnictvím programu SPSS. Postupně tohoto programu začaly využívat i některé další
agentury.
Dalším
programem,
který
v současné
době
využívá
k analýzám
marketingových dat většina agentur, je DataAnalyzer. Tento program je dostupný, byť v omezené verzi, i studentům na Vysoké škole ekonomické v Praze. V závěrečné fázi, kdy jsou vstupní data zpracována pomocí vybraných metod do konečného výstupu, je velmi důležité, aby byla provedena správná interpretace výsledků výstupu. Konečnou fázi pak představuje prezentace výsledků klientovi, jimiž agentura poskytuje klientovi určitou přidanou hodnotu. Obecně můžeme říci, že výhodou všech metod s grafickým výstupem například korespondenční analýzy, rozhodovacích stromů, hierarchické shlukové analýzy, vícerozměrného škálování je jejich názornost a dobrá prezentovatelnost, 77
Návrhy a doporučení v rozhodování agentury které hrají důležitou roli právě v této poslední fázi „prodeje“ výstupu klientovi. V případě, že je určitá metoda hojně používána i jinými mediálními agenturami, hledá agentura MindShare možnosti využití jiných, méně používaných metod. Jedině tak si může zajistit budování vlastní odlišnosti od jiných mediálních agentur, a tím si zajistit konkurenční výhodu mezi ostatními agenturami.
Doporučení pro mediální agenturu MindShare
Závěrem této kapitoly bych ráda zmínila několik návrhů a doporučení pro uplatnění agenturou MindShare. Přesto, že agentura používá poměrně velké množství postupů a metod k odhalení možných cílových skupin, existuje v odborné literatuře ještě řada dalších analytických metod, které nejsou agenturou dosud využívány. Jedná se například o korelační analýzu, kanonickou korelační analýzu a diskriminační analýzu. V rámci jednotlivých fází procesu segmentace trhu se agentura soustřeďuje zejména na druhý a třetí krok, tedy postižení významných kritérií a odhalení tržních segmentů. Domnívám se, že agentura by se do budoucna mohla více zaměřit i na poslední fázi procesu segmentace trhu, rozvoj profilu segmentů, k čemuž by mohla využívat i výše zmíněných, dosud neužívaných, metod, což by jí lépe umožnilo vyhodnocení marketingových potenciálů odhalených segmentů.
78
Návrhy a doporučení v rozhodování agentury Tab. č. 28: Kategorizace metod dle typu proměnné a výhody a nevýhody metod
TYP METODY
TYP PROMĚNNÉ
VÝHODY/NEVÝHODY
1. Metody pro postižení významných kritérií Třídění prvního stupně
Kategorizované
Třídění druhého stupně
Kategorizované
Třídění třetího stupně
Kategorizované
Poziční mapa
Číselné
Kontingenční tabulka
Kategorizované
Korespondenční analýza
Kategorizované
Faktorová analýza
Analýza rozptylu (ANOVA)
Číselné
Kategorizované a spojité
Výhody: nejjednodušší statistická analýza, značná předhlednost Nevýhody: nepostihuje žádné vztahy mezi jednotl. otázkami Výhody: zkoumá souvislosti mezi dvěma proměnnými Nevýhody: nepřehledný výsledek, provázanost kritétií vede k řadě možných linií segmentace Výhody: umožňuje hledání vnitřní závislosti mezi jednotl. proměnnými Nevýhody: nepřehledné, obtížné na interpretaci Výhody: názorná a přehledná Nevýhody: může dojít ke zkreslení výsledků Výhody: pro každou kombinaci hodnot proměnných dostaneme charakteristiku shody Nevýhody: popis jednotlivých závislostí bývá většinou značně nepřehledný, χ2 neudává směr závislosti Výhody: názorná subjektivní mapa, která se dobře prezentuje; zpracovává i kvalitativní data Nevýhody: popisná technika, která se nehodí ke statistickému testování hypotéz; ne vždy je možné zobrazit pouze ve dvou dimenzích Výhody: redukuje počet proměnných, slouží jako příprava podkladů pro další analýzy, odhalí vnitřní strukturu závislostí v datech Nevýhody: příliš velký prostor pro interpretaci; vztah významu faktorů a původních otázek nemusí být snadno formulovatelný Výhody: schopnost velmi rychlé identifikace klíčových odlišností zkoumaných segmentů ve velkém množství otázek Nevýhody: svádí k příliš jednoduchému vysvětlení; faktor, který vyjde jako nejsilnější vyjadřuje největší odlišnost, ale nemůže být považován za nejdůležitější charakteristiku
79
Návrhy a doporučení v rozhodování agentury TYP METODY
TYP PROMĚNNÉ
VÝHODY/NEVÝHODY
2. Metody odkrytí segmentů Popisná segmentační kritéria
Výhody: jednoduché a rychlé Jakákoli proměnná
a) Cílové proměnné – Kategorizované CHAID (chíkvadrát) AID – rozhodovací stromy b) Prediktory – Kategorizované nebo Spojité
Shluková analýza
Číselné
Vícerozměrné škálování
Spojité
Nevýhody: primitivní a neúčinné (málokdy sociodemografická klasifikace postačuje k vysvětlení segmentů) Výhody: rychle nalezne důležité prediktory; primární výstup přímo použitelný pro prezentaci; způsob větvení stromu dává velký prostor pro zásah analytika v procesu větvení Nevýhody: Nebezpečí malých četností u odhalených segmentů s vysokou afinitou (řešíme dilema mezi zvýšením afinity a ztrátou četností); rozsah stromu bývá obvykle dosti velký a je tedy obtížně znázornitelný při přípravě prezentací Výhody: umožňuje řídit počet segmentů v závislosti na tom jakou si určíme míru podobnosti Nevýhody: neexistuje optimální pravidlo pro stanovení počtu shluků; v případě hierarchické shlukové analýzy nelze segmentovat velký počet případů Výhody: nevyžaduje přímé určení matice pozorování; v redukovaném prostoru umožňuje interpretovat vzdálenost (blízkost) a nepodobnost (podobnost) objektů Nevýhody: obtížná interpretace, není určeno, co je na osách; neschopnost bližšího určení podstaty podobnosti a nepodobnosti
80
Návrhy a doporučení v rozhodování agentury Tab. č. 29: Zhodnocení segmentačních metod
Účinnost pro segmentaci
Použití agenturou MindShare
Dostupnost programů*
Třídění prvního stupně
-
++
++
Třídění druhého stupně
-
++
++
Třídění třetího stupně
-
-
+
Poziční mapa
+/-
+
++
Kontingenční tabulka
++
+
++
Znaménková konvence
+
++
++
Korespondenční analýza
--
+/-
++
Faktorová analýza
+/-
+/-
+
Analýza rozptylu
--
+/-
+
Popisná segmentační kritéria
--
++
++
CHAID (rozhodovací stromy)
+
-
+
Shluková analýza
++
++
++
Vícerozměrné škálování
++
+
++
Metody
++ velmi dobrá + dobrá +/- střední - nízká - - velmi nízká
* Poznámka k sloupci „Dostupnost programů“: + představuje použití speciálního statistického softwaru SPSS, který je uživatelsky poměrně náročný a tudíž v mediálních agenturách méně často používaný a + + představuje použití programu DataAnalyzer, který je uživatelsky příjemnější než SPSS a tudíž v agenturách používaný častěji.
81
Závěr
Závěr Zpracování a analýza vícerozměrných dat v marketingové praxi využívá mnoha statistických metod, z nichž některé z nich byly podrobně popsány a ilustrovány na příkladech automobilového průmyslu v této práci. Předmětem diplomové práce byly pouze metody používané v praxi firmou MindShare. Zpracování, analýza a následná interpretace výstupů těchto metod byla náročná na poznatky statistiky a informatiky v kombinaci se speciálními počítačově orientovanými postupy. V průběhu celé práce byly spojovány teoretické poznatky o
vícerozměrných
statistických
metodách
používaných
k marketingové
segmentaci
s praktickými poznatky marketingového uživatele. V této práci byly splněny předem stanovené cíle. Pro agenturu MindShare byla vytvořena kategorizace metod k vymezení cílových skupin nejčastěji používaných touto agenturou. Nejdříve byly metody rozděleny do dvou hlavních skupin, a to jednak na metody pro postižení významných segmentačních kritérií a jednak na metody odkrytí segmentů. Následně byla vytvořena kategorizace metod z hlediska vhodnosti typu použité proměnné, která rozhoduje o možnosti použít příslušnou statistickou metodu. Pro některé metody jsou vhodné kategorizované proměnné, pro jiné proměnné spojité a některé metody pracují s oběma typy proměnných. Další část práce byla věnována metodám pro postižení významných kritérií. Z metod spadajících do této skupiny používá agentura MindShare statistické třídění n-tého stupně, poziční mapu, kontingenční tabulku, znaménkovou konvenci, korespondenční analýzu a faktorovou analýzu a analýzu rozptylu (ANOVA). Jednotlivé metody byly ilustrovány na příkladech s využitím MML dat, konkrétně otázek z oblasti automobilového průmyslu. U každé metody je nejdříve uveden statistický popis metody, vstup a výstup metody ze statistického i marketingového hlediska a následně je každá z metod ilustrována na příkladě. Každý příklad je provázen podrobným popisem příkladu s podrobnou interpretací výstupu. Nakonec bylo provedeno vyhodnocení jednotlivých metod z hlediska jejich výhod a nevýhod. V následující části práce byly stejným způsobem ilustrovány metody odkrytí tržních segmentů. Mezi metody, které spadají do této skupiny a zároveň jsou používány agenturou MindShare byla zařazena popisná segmentační kritéria, rozhodovací stromy, shluková analýza a vícerozměrné škálování. U jednotlivých metod byly opět nejdříve uvedeny základní statistické principy metody, vstup a výstup metody ze statistického i marketingového hlediska s následnou ilustrací metody na příkladě s podrobným popisem a interpretací výstupu. Snahou 82
Závěr bylo také zhodnotit, do jaké míry tyto metody splňují úlohu v marketingovém procesu segmentace. Na závěr bylo u každé metody provedeno vyhodnocení metody z hlediska výhod a nevýhod. Poslední kapitola byla věnována vlastním doporučením pro použití jednotlivých statistických metod, bylo uvedeno v jakých konkrétních marketingových situacích se jednotlivé metody používají, případně kdy je jejich použití nevhodné. Dále byl vytvořen přehled všech metod, ve kterém byly shrnuty jejich výhody a nevýhody a typ použité proměnné. V následující tabulce byly na škále od velmi dobrá, dobrá, střední, nízká až velmi nízká pomocí znamének zhodnoceny segmentační metody z hlediska účinnosti pro segmentaci, z hlediska použití agenturou MindShare a z hlediska dostupnosti používaných programů. Závěrem byla uvedena některá doporučení a návrhy pro uplatnění agenturou MindShare v rámci jejího budoucího rozhodování.
83
Seznam obrázků
Seznam obrázků Obr. č. 1: Spojení poznatků statistické a marketingové segmentace ..........................................3 Obr. č. 2: Roviny procesu segmentace trhu ................................................................................3 Obr. č. 3: Proces segmentace trhu...............................................................................................3 Obr. č. 4: Schéma kategorizace proměnných .............................................................................3 Obr. č. 5: Poziční mapa...............................................................................................................3 Obr. č. 6: Subjektivní mapa korespondenční analýzy (v detailu viz Příloha 4) .........................3 Obr. č. 7: Stromové schéma rozhodovacího stromu...................................................................3 Obr. č. 8: Rozhodovací strom (výsek) (celý rozhodovací strom viz. Příloha 6) ........................3 Obr. č. 9: Hierarchická shluková analýza - dendrogram ............................................................3 Obr. č. 10: Mapa objektů ve dvourozměrném prostoru..............................................................3 Obr. č. 11: Mapa objektů ve dvourozměrném prostoru..............................................................3
84
Seznam tabulek
Seznam tabulek Tab. č. 1: Metody analýzy dat z hlediska typu používaných proměnných .................................3 Tab. č. 2: Tabulka rozdělení četností..........................................................................................3 Tab. č. 3: Transformace do marketingového problému..............................................................3 Tab. č. 4: Třídění prvního stupně................................................................................................3 Tab. č. 5: Transformace do marketingového problému..............................................................3 Tab. č. 6: Třídění druhého stupně ...............................................................................................3 Tab. č. 7: Transformace do marketingového problému..............................................................3 Tab. č. 8: Transformace do marketingového problému..............................................................3 Tab. č. 9: Kontingenční tabulka (výsek, celá tabulka viz Příloha 1) ..........................................3 Tab. č. 10: Příspěvky do χ2 statistiky (Pozorované a očekávané četnosti viz.Příloha 2) ...........3 Tab. č. 11: Výsledky testu nezávislosti v kontingenční tabulce .................................................3 Tab. č. 12: Znaménková konvence .............................................................................................3 Tab. č. 13: Transformace do marketingového problému............................................................3 Tab. č. 14: Kontingenční tabulka pro korespondenční analýzu..................................................3 Tab. č. 15: Přehled výsledků koresp.analýzy..............................................................................3 Tab. č. 16: Faktor 10 „Pozitivní vztak k cestování a cestovním kancelářím“ ............................3 Tab. č. 17: Faktor 14 „Pozitivní vztah k domácnosti a domácím pracem“ ................................3 Tab. č. 18: Fakor 27„Pozitivní vztah ke spoření“.......................................................................3 Tab. č. 19: Faktor 5 „Pozitivní vztah k práci na zahradě“ ..........................................................3 Tab. č. 20: Faktor 40 „Velké pracovní vytížení“........................................................................3 Tab. č. 21: Transformace do marketingového problému............................................................3 Tab. č. 22: Popisná segmentační kritéria ....................................................................................3 Tab. č. 23: Transformace do marketingového problému............................................................3 Tab. č. 24: Matice chyb ..............................................................................................................3 Tab. č. 25: Transformace do marketingového problému............................................................3 Tab. č. 26: Značky nejčastěji používaných automobilů v domácnostech s četností nad 100.....3 Tab. č. 27: Transformace do marketingového problému............................................................3
85
Seznam příloh
Seznam příloh Příloha 1 Příloha 2 Příloha 3 Příloha 4
Příloha 5 Příloha 6 Příloha 7 Příloha 8
Statistická závislost proměnných: Kontingenční tabulka Statistická závislost proměnných: Pozorované a očekávané četnosti a příspěvky do chí-kvadrát statistiky Korespondenční analýza: Subjektivní mapa Analýza rozptylu (ANOVA): Seznam 55 latentních faktorů Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů Popisná segmentační kritéria: ABCDE socioekonomická klasifikace Rozhodovací stromy: Příklad - rozhodovací strom Shluková analýza: Seznam všech značek automobilů z MML dat Shluková analýza: Kategorizace značek automobilů dle modelů a kategorie „ostatní“
86
Příloha 1 Statistická závislost proměnných: Kontingenční tabulka
Příloha 1 Statistická závislost proměnných: Kontingenční tabulka Jak je staré Vaše nejčastěji používané auto? 1 rok
Čistý měsíční příjem domácnosti bez příjmu do 4.000 Kč 4 001 - 6.000 Kč 6 001 - 8.000 Kč 8 001 - 10.000 Kč 10 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 - 50.000 Kč 50.001 - 75.000 Kč 75.001 - 100.000 Kč 100.001 a více Kč neuvedeno Celkem
Prj 000 0 0 1 0 1 2 5 9 10 17 26 15 9 2 0 1 36 135
2 roky
ř.%
s.% b.% Index
0 0 0,9 0 0,2 0,4 0,7 1,3 1,2 1,6 2,9 2,5 3,3 2,3 2,5 15,1 1,7 1,5
0 0 0,7 0,1 0,4 1,4 3,8 6,7 7,7 12,8 19,3 11,3 6,4 1,5 0,2 0,9 26,7 100,0
0 0 0 0 0 0 0,1 0,1 0,1 0,2 0,3 0,2 0,1 0 0 0 0,4 1,5
0 0 58,4 2,1 10,8 29,1 42,3 86,3 80,4 101,7 184,9 159,5 215,6 147,9 162,4 980,8 110,3 100,0
Prj 000 0 1 1 1 8 7 16 15 28 54 54 60 31 11 2 0 119 406
ř.%
s.%
0 2,0 0,8 0,1 2,1 1,6 2,0 2,2 3,3 4,9 5,9 9,8 12,0 12,2 17,6 2,2 5,6 4,7
0 0,2 0,2 0,1 1,9 1,7 3,8 3,7 6,8 13,3 13,2 14,9 7,6 2,7 0,5 0 29,3 100,0
b.% Index 0 0 0 0 0,1 0,1 0,2 0,2 0,3 0,6 0,6 0,7 0,4 0,1 0 0 1,4 4,7
0 41,9 17,3 2,9 45,6 34,8 42,4 47,5 71,5 105,7 126,6 210,1 258,2 262,5 377,0 46,4 120,8 100,0
Jak je staré Vaše nejčastěji používané auto? 3 roky
Čistý měsíční příjem domácnosti bez příjmu do 4.000 Kč 4 001 - 6.000 Kč 6 001 - 8.000 Kč 8 001 - 10.000 Kč 10 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 - 50.000 Kč 50.001 - 75.000 Kč 75.001 - 100.000 Kč 100.001 a více Kč neuvedeno Celkem
Prj 000 0 1 2 3 4 5 26 21 29 50 70 47 32 7 2 0 133 431
ř.% 0 3,2 1,6 0,8 1,3 1,2 3,3 3,0 3,4 4,5 7,7 7,6 12,3 7,5 19,0 0 6,3 4,9
4 roky
s.% b.% Index 0 0,2 0,4 0,8 1,0 1,2 6,1 4,8 6,6 11,6 16,2 10,9 7,3 1,5 0,5 0 30,8 100,0
0 0 0 0 0,1 0,1 0,3 0,2 0,3 0,6 0,8 0,5 0,4 0,1 0 0 1,5 4,9
0 64,4 31,8 17,0 25,4 24,2 67,7 61,6 69,1 91,6 155,0 153,6 249,0 150,8 384,2 0 127,3 100,0
Prj 000 0 5 1 1 6 16 22 38 40 72 84 62 38 12 1 1 167 566
ř.%
s.%
0 14,1 1,0 0,4 1,6 3,7 2,7 5,7 4,8 6,6 9,3 10,0 14,6 13,3 8,6 10,8 7,9 6,5
0 0,8 0,2 0,3 1,0 2,8 3,8 6,8 7,0 12,8 14,9 10,9 6,7 2,1 0,2 0,1 29,6 100,0
b.% Index 0 0,1 0 0 0,1 0,2 0,2 0,4 0,5 0,8 1,0 0,7 0,4 0,1 0 0 1,9 6,5
0 217,2 16,0 5,9 24,9 56,3 42,1 87,2 73,6 101,4 142,6 154,6 225,6 205,5 133,4 166,3 122,2 100,0
87
Příloha 1 Statistická závislost proměnných: Kontingenční tabulka
Jak je staré Vaše nejčastěji používané auto? 5-10 let
Čistý měsíční příjem domácnosti bez příjmu do 4.000 Kč 4 001 - 6.000 Kč 6 001 - 8.000 Kč 8 001 - 10.000 Kč 10 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 - 50.000 Kč 50.001 - 75.000 Kč 75.001 - 100.000 Kč 100.001 a více Kč neuvedeno Celkem
Prj 000 ; 1 10 20 24 47 110 129 187 272 250 162 67 21 4 3 470 1 779
ř.%
s.%
0 0 4,4 0,1 9,8 0,5 5,1 1,1 6,9 1,4 10,9 2,7 13,9 6,2 19,0 7,3 22,4 10,5 24,8 15,3 27,4 14,1 26,3 9,1 25,8 3,7 24,1 1,2 31,1 0,2 44,3 0,2 22,3 26,4 20,4 100,0
11 a více let b.% Index 0 0 0,1 0,2 0,3 0,5 1,3 1,5 2,1 3,1 2,9 1,9 0,8 0,2 0 0 5,4 20,4
0 21,5 47,8 25,0 33,7 53,5 68,3 93,2 109,7 121,4 134,6 129,0 126,6 118,3 152,7 217,2 109,2 100,0
Prj 000 1 5 7 28 42 64 170 137 169 231 161 108 33 13 1 1 388 1 559
ř.%
s.% b.% Index
87,8 0,1 14,3 0,3 7,4 0,5 7,2 1,8 11,9 2,7 14,8 4,1 21,5 10,9 20,1 8,8 20,3 10,8 21,0 14,8 17,7 10,3 17,6 7,0 12,7 2,1 14,5 0,8 9,1 0,1 12,1 0,1 18,4 24,9 17,9 100,0
0 0,1 0,1 0,3 0,5 0,7 1,9 1,6 1,9 2,6 1,8 1,2 0,4 0,1 0 0 4,4 17,9
491,3 80,1 41,4 40,2 66,6 82,8 120,1 112,5 113,3 117,5 99,1 98,2 70,9 81,0 50,8 67,9 102,8 100,0
88
Příloha 2 Statistická závislost proměnných: Pozorované a očekávané četnosti a příspěvky do chí –kvadrát
Příloha 2 Statistická závislost proměnných: Pozorované a očekávané četnosti a příspěvky do chí –kvadrát Jak je staré Vaše nejčastěji používané auto? CS: CS Všichni Kontingenční tabulka Váženo Čistý měsíční příjem domácnosti bez příjmu 8.000 Kč 8 001 12.500 Kč 12.501 15.000 Kč 15.001 17.500 Kč 17.501 20.000 Kč 20.001 25.000 Kč 25.001 30.000 Kč 30.001 40.000 Kč 40.001 a více Kč neuvedeno Celkem skupina
méně než 1 rok
1 rok
Četnost
Oč. čet.
Chí^2 př.
1
3.4
5
2 roky
Četnost
Oč. čet.
Chí^2 př.
1.2
2
4.4
8.8
1.6
5
12
13.7
0.3
5
13.5
20
3 roky
Četnost
Oč. čet.
Chí^2 př.
Četnost
Oč. čet.
Chí^2 př.
1.4
4
13.3
7.0
11
14.2
0.8
11.5
4.0
27
34.6
1.7
18
36.7
9.7
10
17.8
3.8
29
53.6
11.4
49
56.9
1.1
5.6
17
17.6
0
28
53.0
12.0
38
56.3
5.8
18.2
0.1
19
23.7
0.9
51
71.4
5.6
53
75.8
7.0
17
27.2
3.5
32
35.3
0.3
100
106.6
0.4
92
113.1
3.9
30
25.5
0.8
48
33.1
6.8
99
99.8
0
129
105.9
5.1
32
18.2
10.6
28
23.6
0.9
112
71.3
22.9
87
75.7
1.6
20
11.6
5.9
22
15.1
3.5
82
45.5
28.6
75
48.3
14.9
50
51.6
0.1
67
67.1
0
220
202.3
1.5
246
214.7
4.5
192
191.8
29.6
249
249.1
21.6
751
751.4
91.1
798
797.5
54.3
89
Příloha 2 Statistická závislost proměnných: Pozorované a očekávané četnosti a příspěvky do chí –kvadrát
Jak je staré Vaše nejčastěji používané auto? CS: CS Všichni Kontingenční tabulka Váženo Čistý měsíční příjem domácnosti bez příjmu - 8.000 Kč 8 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 a více Kč neuvedeno Celkem skupina
4 roky Oč. Četnost čet.
13 40 40 71 74 134 156 114 95 310 1,046
18.6 48.2 74.7 73.8 99.4 148.4 138.9 99.3 63.3 281.7 1,046.3
Chí^2 př.
1.6 1.4 16.1 0.1 6.6 1.5 2.1 2.3 15.8 2.8 50.3
5-10 let Oč. Četnost čet.
57 133 204 239 346 503 462 300 176 870 3,290
Chí^2 př.
58.4 151.5 234.8 232.1 312.6 466.6 436.8 312.1 199.1 885.8 3,289.9
0 2.4 4.1 0.2 3.5 2.9 1.5 0.5 2.7 0.3 18.0
Jak je staré Vaše nejčastěji používané auto? CS: CS Všichni Kontingenční tabulka Váženo Čistý měsíční příjem domácnosti bez příjmu - 8.000 Kč 8 001 - 12.500 Kč 12.501 - 15.000 Kč 15.001 - 17.500 Kč 17.501 - 20.000 Kč 20.001 - 25.000 Kč 25.001 - 30.000 Kč 30.001 - 40.000 Kč 40.001 a více Kč neuvedeno Celkem skupina
11 a více let Oč. Chí^2 Četnost čet. př.
75 197 314 252 313 427 298 200 88 718 2,883
51.2 132.8 205.8 203.4 273.9 408.9 382.8 273.5 174.5 776.3 2,883.2
11.4 31.0 57.2 11.8 5.5 0.8 18.7 19.5 43.1 4.4 203.5
Celkem skupina Oč. Chí^2 Četnost čet. př.
163 424 657 650 875 1,306 1,223 874 557 2,480 9,209
163.4 424.0 657.3 649.8 874.9 1,306.2 1,222.8 873.6 557.4 2,479.7 9,209.3
23.4 51.8 94.0 35.6 29.1 13.2 34.9 58.3 114.5 13.5 468.4
90
Příloha 3 Korespondenční analýza: Subjektivní mapa
Příloha 3 Korespondenční analýza: Subjektivní mapa
91
Příloha 4 Analýza rozptylu (ANOVA): Seznam 55 skrytých faktorů
Příloha 4 Analýza rozptylu (ANOVA): Seznam 55 skrytých faktorů ANOVA
REGR factor score 1 for analysis 1 REGR factor score 2 for analysis 1 REGR factor score 3 for analysis 1 REGR factor score 4 for analysis 1 REGR factor score 5 for analysis 1 REGR factor score 6 for analysis 1 REGR factor score 7 for analysis 1 REGR factor score 8 for analysis 1 REGR factor score 9 for analysis 1 REGR factor score 10 for analysis 1 REGR factor score 11 for analysis 1 REGR factor score 12 for analysis 1 REGR factor score 13 for analysis 1
df
Mean Square
F
Sig.
Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups
Sum of Squares 198,179 14862,821 15061,000 163,608 14897,392 15061,000 13,750 15047,250
1 15059 15060 1 15059 15060 1 15059
198,179 ,987
200,795
,000
163,608 ,989
165,383
,000
13,750 ,999
13,761
,000
Total
15061,000
15060
Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total
14,654 15046,346 15061,000 220,997 14840,003 15061,000 45,725 15015,275 15061,000 50,076 15010,924 15061,000 7,179 15053,821 15061,000 103,455 14957,545 15061,000 317,227 14743,773 15061,000 27,651 15033,349 15061,000 11,889 15049,111 15061,000 76,525 14984,475 15061,000
1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060
14,654 ,999
14,667
,000
220,997 ,985
224,259
,000
45,725 ,997
45,858
,000
50,076 ,997
50,237
,000
7,179 1,000
7,182
,007
103,455 ,993
104,157
,000
317,227 ,979
324,009
,000
27,651 ,998
27,699
,000
11,889 ,999
11,896
,001
76,525 ,995
76,906
,000
92
Příloha 4 Analýza rozptylu (ANOVA): Seznam 55 skrytých faktorů
REGR factor score 14 for analysis 1 REGR factor score 15 for analysis 1 REGR factor score 16 for analysis 1 REGR factor score 17 for analysis 1 REGR factor score 18 for analysis 1 REGR factor score 19 for analysis 1 REGR factor score 20 for analysis 1 REGR factor score 21 for analysis 1 REGR factor score 22 for analysis 1 REGR factor score 23 for analysis 1 REGR factor score 24 for analysis 1 REGR factor score 25 for analysis 1 REGR factor score 26 for analysis 1 REGR factor score 27 for analysis 1 REGR factor score 28 for analysis 1 REGR factor score 29 for analysis 1 REGR factor score
Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups
Sum of Squares 309,454 14751,546 15061,000 37,949 15023,051 15061,000 99,530 14961,470 15061,000 27,440 15033,560 15061,000 9,709 15051,291 15061,000 136,175 14924,825 15061,000 13,911 15047,089 15061,000 ,035 15060,965 15061,000 167,084 14893,916 15061,000 146,262 14914,738 15061,000 1,335 15059,665 15061,000 54,310 15006,690 15061,000 56,703 15004,297 15061,000 252,698 14808,302 15061,000 157,500 14903,500 15061,000 ,653 15060,347 15061,000 12,684
df
Mean Square
F
Sig.
1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1
309,454 ,980
315,904
,000
37,949 ,998
38,040
,000
99,530 ,994
100,179
,000
27,440 ,998
27,486
,000
9,709 ,999
9,714
,002
136,175 ,991
137,399
,000
13,911 ,999
13,922
,000
,035 1,000
,035
,852
167,084 ,989
168,936
,000
146,262 ,990
147,677
,000
1,335 1,000
1,335
,248
54,310 ,997
54,499
,000
56,703 ,996
56,909
,000
252,698 ,983
256,977
,000
157,500 ,990
159,143
,000
,653 1,000
,653
,419
12,684
12,693
,000
93
Příloha 4 Analýza rozptylu (ANOVA): Seznam 55 skrytých faktorů
30 for analysis 1
REGR factor score 31 for analysis 1 REGR factor score 32 for analysis 1 REGR factor score 33 for analysis 1 REGR factor score 34 for analysis 1 REGR factor score 35 for analysis 1 REGR factor score 36 for analysis 1 REGR factor score 37 for analysis 1 REGR factor score 38 for analysis 1 REGR factor score 39 for analysis 1 REGR factor score 40 for analysis 1 REGR factor score 41 for analysis 1 REGR factor score 42 for analysis 1 REGR factor score 43 for analysis 1 REGR factor score 44 for analysis 1 REGR factor score 45 for analysis 1 REGR factor score 46 for analysis 1
Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups
Sum of Squares 15048,316 15061,000 4,816 15056,184 15061,000 ,517 15060,483 15061,000 62,449 14998,551 15061,000 ,263 15060,737 15061,000 8,586 15052,414 15061,000 1,754 15059,246 15061,000 10,716 15050,284 15061,000 1,392 15059,608 15061,000 7,917 15053,083 15061,000 207,533 14853,467 15061,000 64,568 14996,432 15061,000 52,407 15008,593 15061,000 ,886 15060,114 15061,000 18,311 15042,689 15061,000 17,678 15043,322 15061,000 7,293 15053,707
df
Mean Square
F
Sig.
15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059
,999 4,816 1,000
4,817
,028
,517 1,000
,517
,472
62,449 ,996
62,701
,000
,263 1,000
,263
,608
8,586 1,000
8,589
,003
1,754 1,000
1,754
,185
10,716 ,999
10,722
,001
1,392 1,000
1,392
,238
7,917 1,000
7,920
,005
207,533 ,986
210,404
,000
64,568 ,996
64,838
,000
52,407 ,997
52,583
,000
,886 1,000
,886
,347
18,311 ,999
18,331
,000
17,678 ,999
17,696
,000
7,293 1,000
7,296
,007
94
Příloha 4 Analýza rozptylu (ANOVA): Seznam 55 skrytých faktorů
REGR factor score 47 for analysis 1 REGR factor score 48 for analysis 1 REGR factor score 49 for analysis 1 REGR factor score 50 for analysis 1 REGR factor score 51 for analysis 1 REGR factor score 52 for analysis 1 REGR factor score 53 for analysis 1 REGR factor score 54 for analysis 1 REGR factor score 55 for analysis 1
Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total Between Groups Within Groups Total
Sum of Squares 15061,000 8,152 15052,848 15061,000 ,103 15060,897 15061,000 94,115 14966,885 15061,000 79,200 14981,800 15061,000 38,569 15022,431 15061,000 ,488 15060,512 15061,000 1,506 15059,494 15061,000 8,943 15052,057 15061,000 4,230 15056,770 15061,000
df 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060 1 15059 15060
Mean Square
F
Sig.
8,152 1,000
8,155
,004
,103 1,000
,103
,748
94,115 ,994
94,694
,000
79,200 ,995
79,608
,000
38,569 ,998
38,663
,000
,488 1,000
,487
,485
1,506 1,000
1,506
,220
8,943 1,000
8,948
,003
4,230 1,000
4,230
,040
95
Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů
Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů Descriptives
N
REGR factor score 1 for analysis 1
ne
REGR factor score 2 for analysis 1
5929
ano
9133
Total
15062
ne
5929
Mean ,1423667 ,0924201
Std. Deviation
Std. Error
1,11114718
,01443058
95% Confidence Interval for Mean Lower Upper Bound Bound
Minimum
Maximum
-,1706559
-,1140775
-4,29400
2,31794
,90889538
,00951054
,0737773
,1110629
-3,62366
2,04374
,0000000 ,1293547 ,0839731
1,00000000
,00814814
-,0159714
,0159714
-4,29400
2,31794
,98661679
,01281329
-,1544735
-,1042360
-3,50881
3,32332
,99972616
,01046098
,0634673
,1044790
-3,27519
3,86315
1,00000000
,00814814
-,0159714
,0159714
-3,50881
3,86315
1,03344359
,01342144
-,0638115
-,0111897
-3,35757
4,73144
,97696428
,01022280
,0043052
,0443832
-3,96387
3,56279
ano
9133
Total
15062
ne
5929
ano
9133
,0000000 ,0375006 ,0243442
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,96387
4,73144
ne
5929
,99942578
,01297965
,0132687
,0641584
-3,28901
4,51731
ano
9133
,99962496
,01045992
-,0456354
-,0046279
-3,21336
4,33597
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-3,28901
4,51731
REGR factor score 5 for analysis 1
ne
5929
,0387136 ,0251316 ,0000000 ,1503396 ,0975958
1,01638328
,01319988
-,1762162
-,1244630
-2,98564
3,18234
REGR factor score 3 for analysis 1
REGR factor score 4 for analysis 1
ano
9133
Total
15062
REGR factor score 6 for analysis 1
ne
5929
REGR factor score 7 for analysis 1
ano
9133
Total
15062
ne
5929
,97696743
,01022284
,0775568
,1176349
-2,60854
3,13038
,0000000 ,0683841 ,0443929
1,00000000
,00814814
-,0159714
,0159714
-2,98564
3,18234
1,03745518
,01347354
-,0947972
-,0419711
-5,23008
3,67999
,97240176
,01017506
,0244475
,0643383
-5,33922
3,70037
1,00000000
,00814814
-,0159714
,0159714
-5,33922
3,70037
,97036938
,01260229
-,0962694
-,0468592
-4,46852
4,70342
ano
9133
,0000000 ,0715643 ,0464574
1,01613203
,01063265
,0256150
,0672997
-4,51338
4,63443
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-4,51338
4,70342
ne
5929
,98986535
,01285548
,0018953
,0522981
-3,56350
3,82088
ano
9133
1,00618791
,01052859
-,0382288
,0030480
-3,69731
3,68824
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-3,69731
3,82088
REGR factor score 9 for analysis 1
ne
5929
,0270967 ,0175904 ,0000000 ,1028621 ,0667749
1,02448242
,01330506
-,1289449
-,0767794
-5,03247
4,32980
REGR factor score 10 for analysis 1
REGR factor score 8 for analysis 1
REGR factor score 11 for analysis 1
ano
9133
Total
15062
ne
5929
ano
9133
Total
15062
ne
5929
ano
9133
,97806292
,01023430
,0467134
,0868365
-4,86431
5,15008
,0000000 ,1801212 ,1169291
1,00000000
,00814814
-,0159714
,0159714
-5,03247
5,15008
,98818516
,01283366
-,2052798
-,1549625
-4,57550
3,13635
,99026259
,01036195
,0966174
,1372409
-4,02727
3,72300
,0000000 ,0531788 ,0345221
1,00000000
,00814814
-,0159714
,0159714
-4,57550
3,72300
1,01590049
,01319361
-,0790431
-,0273146
-3,51242
4,71857
,98806601
,01033897
,0142554
,0547888
-3,57168
4,82728
96
Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů Total
15062
REGR factor score 12 for analysis 1
ne
5929
REGR factor score 13 for analysis 1 REGR factor score 14 for analysis 1 REGR factor score 15 for analysis 1 REGR factor score 16 for analysis 1 REGR factor score 17 for analysis 1 REGR factor score 18 for analysis 1
ano
9133
Total
15062
ne
5929
,0000000 ,0348694 ,0226362
1,00000000
,00814814
-,0159714
,0159714
-3,57168
4,82728
1,00670652
,01307420
-,0604996
-,0092392
-3,77795
4,43522
,99502344
,01041177
,0022268
,0430456
-5,19420
4,94059
1,00000000
,00814814
-,0159714
,0159714
-5,19420
4,94059
1,02265068
,01328127
-,1145032
-,0624309
-3,19327
3,64438
ano
9133
,0000000 ,0884670 ,0574301
,98081097
,01026305
,0373122
,0775480
-2,99853
4,28995
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,19327
4,28995
ne
5929
1,00745771
,01308396
,1522516
,2035502
-3,32717
4,70630
ano
9133
,97801065
,01023375
-,1355482
-,0954273
-3,58654
4,13764
Total
15062
,1779009 ,1154878 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,58654
4,70630
ne
5929
1,04181971
,01353022
,0357748
,0888231
-4,16323
3,88482
ano
9133
,96980706
,01014791
-,0603348
-,0205504
-3,69706
3,86376
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-4,16323
3,88482
ne
5929
1,04896925
,01362307
-,1275983
-,0741859
-3,29283
4,07479
ano
9133
,0622990 ,0404426 ,0000000 ,1008921 ,0654961
,96129029
,01005879
,0457786
,0852136
-3,06538
3,87056
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,29283
4,07479
ne
5929
,99725877
,01295150
,0275852
,0783645
-4,01288
4,55723
ano
9133
1,00032930
,01046729
-,0549079
-,0138714
-4,11364
4,49385
Total
15062
,0529748 ,0343896 ,0000000
ne
5929
ano
9133
Total
15062
ne
5929
ano
9133
Total
15062
ne
5929
1,00000000
,00814814
-,0159714
,0159714
-4,11364
4,55723
,0315121 ,0204567 ,0000000
1,04014880
,01350852
,0050304
,0579937
-6,36112
4,24624
,97256171
,01017673
-,0404053
-,0005080
-5,79525
3,46977
1,00000000
,00814814
-,0159714
,0159714
-6,36112
4,24624
1,08512368
,01409261
,0903857
,1456391
-5,07338
4,95544
,93272794
,00975992
-,0957417
-,0574784
-4,03312
4,64345
1,00000000
,00814814
-,0159714
,0159714
-5,07338
4,95544
1,05010747
,01363786
-,0644538
-,0109835
-4,11493
3,05041
ano
9133
,1180124 ,0766100 ,0000000 ,0377187 ,0244858
,96535164
,01010129
,0046850
,0442866
-4,59784
3,22892
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-4,59784
3,22892
ne
5929
,98084677
,01273836
-,0230913
,0268523
-4,35745
3,69848
ano
9133
1,01229121
,01059246
-,0219843
,0195428
-3,98081
4,14534
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-4,35745
4,14534
REGR factor score 22 for analysis 1
ne
5929
,0018805 ,0012208 ,0000000 ,1307217 ,0848605
1,00079919
,01299748
-,1562015
-,1052419
-3,46473
3,68268
REGR factor score 19 for analysis 1 REGR factor score 20 for analysis 1 REGR factor score 21 for analysis 1
ano
9133
Total
15062
REGR factor score 23 for analysis 1
ne
5929
REGR factor score 24 for analysis 1 REGR factor score 25 for analysis 1 REGR factor
ano
9133
Total
15062
ne
5929
,99034091
,01036277
,0645471
,1051738
-3,48666
3,53242
,0000000 ,1223054 ,0793969
1,00000000
,00814814
-,0159714
,0159714
-3,48666
3,68268
1,07277658
,01393226
-,1496178
-,0949931
-5,31504
3,75482
,94136714
,00985032
,0600881
,0987058
-4,04908
3,76945
1,00000000
,00814814
-,0159714
,0159714
-5,31504
3,76945
1,01206145
,01314375
-,0374506
,0140824
-5,32716
3,50491
ano
9133
,0000000 ,0116841 ,0075850
,99207358
,01038090
-,0127639
,0279339
-6,75290
4,35164
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-6,75290
4,35164
ne
5929
1,02211461
,01327431
,0485056
,1005506
-4,24678
4,03538
ano
9133
,98241250
,01027981
-,0685321
-,0282306
-4,73304
3,86463
Total
15062
,0745281 ,0483813 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-4,73304
4,03538
ne
5929
,0761520
,99616527
,01293730
,0507901
,1015138
-4,17056
4,39136
97
Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů score 26 for analysis 1 REGR factor score 27 for analysis 1 REGR factor score 28 for analysis 1 REGR factor score 29 for analysis 1
ano
9133
Total
15062
ne
5929
ano
9133
Total
15062
ne
5929
,0494355 ,0000000
,99943448
,01045793
-,0699354
-,0289356
-4,31232
4,33074
1,00000000
,00814814
-,0159714
,0159714
-4,31232
4,39136
1,02498064
,01331153
,1346657
,1868566
-4,87682
4,20541
,96933044
,01014292
-,1242436
-,0844788
-4,22630
3,87640
1,00000000
,00814814
-,0159714
,0159714
-4,87682
4,20541
1,00855699
,01309823
-,1525942
-,1012395
-4,19182
3,82170
ano
9133
,1607611 ,1043612 ,0000000 ,1269169 ,0823905
,98575145
,01031475
,0621713
,1026097
-5,40599
3,80608
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-5,40599
3,82170
ne
5929
1,04259656
,01354031
-,0183687
,0347192
-5,02831
4,35085
ano
9133
,97136947
,01016426
-,0252313
,0146171
-4,03166
4,43341
Total
15062
,0081752 ,0053071 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-5,02831
4,43341
ne
5929
,98195149
,01275271
,0110170
,0610169
-4,39301
3,52769
ano
9133
1,01091087
,01057801
-,0441164
-,0026458
-4,12959
3,54870
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-4,39301
3,54870
ne
5929
1,00936045
,01310867
-,0478914
,0035041
-3,74916
4,01211
ano
9133
,0360170 ,0233811 ,0000000 ,0221937 ,0144074
,99366641
,01039757
-,0059741
,0347890
-3,47324
4,09633
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,74916
4,09633
ne
5929
1,04163413
,01352781
-,0192464
,0337925
-5,00763
4,73141
ano
9133
,97204715
,01017135
-,0246596
,0152167
-5,93393
4,04919
Total
15062
,0072731 ,0047215 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-5,93393
4,73141
ne
5929
1,02617313
,01332702
,0537921
,1060437
-3,34173
4,32800
ano
9133
,97920722
,01024627
-,0719652
-,0317953
-3,22296
4,23470
Total
15062
,0799179 ,0518803 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,34173
4,32800
ne
5929
1,02663332
,01333299
-,0209510
,0313240
-3,97536
4,63082
ano
9133
,98236614
,01027933
-,0235167
,0167829
-4,18848
4,42625
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-4,18848
4,63082
REGR factor score 35 for analysis 1
ne
5929
,0051865 ,0033669 ,0000000 ,0296325 ,0192365
1,05698751
,01372721
-,0565428
-,0027222
-4,48024
5,64389
,96076872
,01005333
-,0004703
,0389433
-4,41548
4,16051
,0000000 ,0133939 ,0086949
1,00000000
,00814814
-,0159714
,0159714
-4,48024
5,64389
1,02422869
,01330176
-,0394702
,0126824
-4,99116
3,63647
,98391117
,01029549
-,0114865
,0288764
-4,52110
3,49552
,0000000 ,0331053 ,0214909
1,00000000
,00814814
-,0159714
,0159714
-4,99116
3,63647
1,02530292
,01331572
-,0592089
-,0070016
-3,98842
4,12684
,98268543
,01028267
,0013346
,0416472
-3,60762
4,47004
,0000000 ,0119305 ,0077449
1,00000000
,00814814
-,0159714
,0159714
-3,98842
4,47004
1,00316161
,01302816
-,0374704
,0136095
-5,99786
4,28132
,99792085
,01044209
-,0127239
,0282137
-6,43635
4,20805
1,00000000
,00814814
-,0159714
,0159714
-6,43635
4,28132
1,02064101
,01325517
-,0544398
-,0024698
-5,46260
4,36974
,98598609
,01031721
-,0017521
,0386960
-6,24005
4,27615
1,00000000
,00814814
-,0159714
,0159714
-6,24005
4,36974
REGR factor score 30 for analysis 1 REGR factor score 31 for analysis 1 REGR factor score 32 for analysis 1 REGR factor score 33 for analysis 1 REGR factor score 34 for analysis 1
ano
9133
Total
15062
REGR factor score 36 for analysis 1
ne
5929
ano
9133
Total
15062
REGR factor score 37 for analysis 1
ne
5929
ano
9133
Total
15062
REGR factor score 38 for analysis 1
ne
5929
REGR factor score 39 for analysis 1
ano
9133
Total
15062
ne
5929
ano
9133
,0000000 ,0284548 ,0184720
Total
15062
,0000000
98
Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů REGR factor score 40 for analysis 1 REGR factor score 41 for analysis 1 REGR factor score 42 for analysis 1
REGR factor score 43 for analysis 1
REGR factor score 44 for analysis 1 REGR factor score 45 for analysis 1 REGR factor score 46 for analysis 1 REGR factor score 47 for analysis 1 REGR factor score 48 for analysis 1 REGR factor score 49 for analysis 1 REGR factor score 50 for analysis 1 REGR factor score 51 for analysis 1 REGR factor score 52 for analysis 1 REGR factor score 53 for analysis 1
ne
5929
ano
9133
,1456877 ,0945760
Total
15062
ne
5929
ano
9133
Total
15062
ne
5929
ano
9133
Total
1,03677350
,01346469
-,1720834
-,1192920
-4,43701
4,55083
,96372423
,01008426
,0748086
,1143434
-3,60497
4,69732
,0000000
1,00000000
,00814814
-,0159714
,0159714
-4,43701
4,69732
,0812623 ,0527530 ,0000000
1,02444241
,01330454
,0551805
,1073440
-4,28171
4,39882
,98026454
,01025734
-,0728596
-,0326463
-4,48794
3,59776
1,00000000
,00814814
-,0159714
,0159714
-4,48794
4,39882
,96763751
,01256681
,0485753
,0978463
-4,02045
4,12845
1,01769634
,01064902
-,0684006
-,0266517
-5,41443
4,30822
15062
,0732108 ,0475262 ,0000000
1,00000000
,00814814
-,0159714
,0159714
4,30822
ne
5929
,0095168
,48111750
,00624832
-,0027322
,0217658
ano
9133
,0061780
1,22429017
,01281078
-,0312900
,0189340
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
ne
5929
1,03470547
,01343783
,0169323
,0696183
ano
9133
,97584102
,01021105
-,0481089
-,0080770
-4,30384
5,37392
Total
15062
,0432753 ,0280930 ,0000000
-5,41443 11,42671 19,42662 19,42662 -3,61993
1,00000000
,00814814
-,0159714
,0159714
-4,30384
5,37392
ne
5929
1,02094290
,01325909
,0165272
,0685125
-4,96300
5,76296
ano
9133
,98524091
,01030941
-,0478113
-,0073938
-4,73167
3,93503
Total
15062
,0425199 ,0276026 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-4,96300
5,76296
ne
5929
1,02085045
,01325789
,0013213
,0533019
-5,22723
3,19948
ano
9133
,98587996
,01031609
-,0379517
,0024920
-5,63816
3,17757
Total
15062
,0273116 ,0177298 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-5,63816
3,19948
ne
5929
1,01576613
,01319186
,0030127
,0547344
-3,78468
4,13853
ano
9133
,98923555
,01035121
-,0390345
,0015469
-3,77572
4,63296
Total
15062
,0288735 ,0187438 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-3,78468
4,63296
ne
5929
1,07273679
,01393174
-,0240614
,0305612
-6,06398
4,53469
ano
9133
,94985920
,00993918
-,0215928
,0173733
-5,19200
4,28827
Total
15062
,0032499 ,0021097 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-6,06398
4,53469
ne
5929
1,01096074
,01312945
,0723706
,1238476
-5,53369
4,27900
ano
9133
,98767182
,01033484
-,0839480
-,0434308
-5,50071
4,23881
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-5,53369
4,27900
ne
5929
1,06665722
,01385279
-,1171564
-,0628434
-4,09242
4,01369
5,38783 7,34169 7,34169 4,94781
ano
9133
,0981091 ,0636894 ,0000000 ,0899999 ,0584252
,94974421
,00993798
,0389445
,0779058
-3,96906
4,89478
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-4,09242
4,89478
ne
5929
1,03503039
,01344205
,0364546
,0891572
-4,70080
3,98204
ano
9133
,97447978
,01019681
-,0607597
-,0207836
-5,05136
4,30084
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-5,05136
4,30084
ne
5929
1,02613596
,01332653
-,0331859
,0190638
-3,76894
4,93272
ano
9133
,0628059 ,0407716 ,0000000 ,0070611 ,0045838
,98269089
,01028273
-,0155726
,0247403
-3,93345
4,54505
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
4,93272
ne
5929
,0124102
,55408819
,00719600
-,0016966
,0265169
ano
9133
1,20406950
,01259920
-,0327535
,0166410
Total
15062
1,00000000
,00814814
-,0159714
,0159714
-3,93345 12,11118 12,70140 -
,0080563 ,0000000
8,39415 9,55358 9,55358
99
Analýza rozptylu (ANOVA): Další statistická kritéria u 55 skrytých faktorů 12,70140 REGR factor score 54 for analysis 1 REGR factor score 55 for analysis 1
ano
9133
,0302435 ,0196332
,96010983
,01004644
-,0000601
,0393264
-3,50004
4,12242
Total
15062
,0000000
1,00000000
,00814814
-,0159714
,0159714
-5,76234
4,37188
ne
5929
1,03842745
,01348617
-,0056391
,0472365
-3,64909
4,75146
ano
9133
,97406308
,01019245
-,0334814
,0064776
-5,10725
4,09562
Total
15062
,0207987 ,0135019 ,0000000
1,00000000
,00814814
-,0159714
,0159714
-5,10725
4,75146
ne
5929
1,05788091
,01373881
-,0571766
-,0033105
-5,76234
4,37188
100
Příloha 5 Popisná segmentační kritéria: ABCDE socioekonomická klasifikace
Příloha 5 Popisná segmentační kritéria: ABCDE socioekonomická klasifikace ABCDE klasifikace socioekonomického postavení je založena na následujících principech: •
Zařazení do ABCDE tříd vychází ze zařazení hlavy domácnosti.
•
Používá
se
algoritmus
odvození
ABCDE
klasifikace
založený
na
Československé variantě sociologické klasifikace zaměstnání (ISCO) a na doporučení ESOMAR. Za základ jsou brány následující proměnné: ¾ povolání hlavy domácnosti podle kódovníku ISCO, ¾ postavení v zaměstnání hlavy domácnosti, ¾ nejvyšší dokončené vzdělání hlavy domácnosti.
Výsledkem algoritmu je klasifikace domácností (a zároveň všech jednotlivců v dané domácnosti) následujícími charakteristikami: “A – nejvyšší“, „B“, „C“, „D“, „E – nejnižší.“
Slovně lze jednotlivé třídy charakterizovat jako:
A – nejvyšší – nejvýše postavená skupina ve společnosti, rodiny s nejvyššími příjmy
a zároveň s nejvyšším životním standardem, jde o rodiny generálních ředitelů velkých podniků, jejich náměstků, velkých podnikatelů, top-management, vedoucí pracovníci státní správy, státní funkcionáři (ministři, poslanci) a další vysoce odborné profese; B – vyšší střední třída – rodiny s nadprůměrnými příjmy a s nadprůměrným životním
standardem, jde o rodiny vyššího managementu, náměstků generálních ředitelů, vedoucích odborů a úseků s více jak 6 zaměstnanci, středních podnikatelů, vedoucích odborů ve státní správě, vedoucích pracovníků na okresní úrovni, vyšší management a odborníky; C – střední třída – rodiny s průměrnými příjmy a průměrným životním standardem, jde
o rodiny středního managementu, vedoucích pracovníků s méně jak 6 pracovníky, úředníků státní správy, státních zaměstnanců, malých podnikatelů a živnostníků, nižších odborníků (techniků), administrativních pracovníků a dalších THP pracovníků na vyšších postech; 101
Příloha 5 Popisná segmentační kritéria: ABCDE socioekonomická klasifikace D – nižší střední třída – rodiny s průměrnými až mírně podprůměrnými příjmy, jde o rodiny
zaměstnanců, úředníků, nižšího technického personálu, kvalifikovaných dělníků (mistrů) apod.; E – nejnižší třída – rodiny s podprůměrnými příjmy, jde o rodiny nekvalifikovaných dělníků,
nižších techniků, pomocných pracovních sil, „čerstvých“ důchodců apod., ekonomicky neaktivní – rodiny nezaměstnaných, starodůchodců apod.
102
Příloha 6 Rozhodovací stromy: Příklad – rozhodovací strom
Příloha 6 Rozhodovací stromy: Příklad – rozhodovací strom
103
Příloha 6 Rozhodovací stromy: Příklad – rozhodovací strom
104
Příloha 6 Rozhodovací stromy: Příklad – rozhodovací strom
105
Příloha 7 Shluková analýza: Seznam všech značek automobilů z MML dat
Příloha 7 Shluková analýza: Seznam všech značek automobilů z MML dat CS Všichni
CS Všichni
CS: CS Všichni Projekce na jednotlivce Jakou značku má Vaše nejčastěji používané auto? Škoda Favorit Škoda Felicia Š 120/125/130 Škoda Fabia Škoda Octavia Š 105 Škoda Forman Ford Escort Opel Astra Fiat - ostatní Renault ostatní Citroën - ostatní Opel - ostatní Opel Corsa Volkswagen Golf Ford Fiesta neuvedeno Peugeot 206 Peugeot 306 Ford Mondeo Škoda - ostatní Peugeot - ostatní Opel Vectra Ford - ostatní Jiná značka Fiat Punto Lada (Žiguli) Daewoo Matiz Volkswagen Passat Renault Megane Renault Clio Hyundai Škoda 100 Ford Focus Seat Toledo Audi ostatní Citroën Xsara Mazda 323 Citroën Saxo Mazda 626 Seat - ostatní Nissan - ostatní
Prj 000
s.%
Počet nv.
672 599 570 392 253 138 135 113 108 113 85 66 66 80 72 68 60 51 52 62 53 59 48 54 58 53 60 41 39 39 39 33 35 32 33 36 25 25 23 23 23 25
7.7 6.9 6.5 4.5 2.9 1.6 1.5 1.3 1.2 1.3 1.0 0.8 0.8 0.9 0.8 0.8 0.7 0.6 0.6 0.7 0.6 0.7 0.6 0.6 0.7 0.6 0.7 0.5 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.4 0.3 0.3 0.3 0.3 0.3 0.3
1,224.0 1,118.0 973.0 737.0 458.0 260.0 257.0 196.0 193.0 186.0 162.0 123.0 121.0 118.0 118.0 117.0 111.0 107.0 107.0 104.0 104.0 102.0 101.0 99.0 96.0 90.0 87.0 81.0 78.0 77.0 72.0 71.0 71.0 66.0 62.0 57.0 52.0 48.0 46.0 46.0 44.0 43.0
106
Příloha 7 Shluková analýza: Seznam všech značek automobilů z MML dat CS Všichni CS: CS Všichni Projekce na jednotlivce Volkswagen Polo Peugeot 406 Volkswagen - ostatní Fiat Bravo/Brava Seat Cordoba / Vario Nissan Almera Mitsubishi Audi A4 Renault Laguna Trabant Mazda - ostatní Toyota Yaris Mercedes Benz Toyota Corolla Ford Ka Peugeot 106 Honda Civic Dacia Nissan Primera Suzuki Alfa Romeo Oltcit BMW - ostatní Daewoo Nexia/Lanos Honda - ostatní Lada ostatní Toyota - ostatní BMW 3 Wartburg Audi A3 BMW 5 Lada Samara Daewoo Nubira Daewoo - ostatní Jeep KIA Subaru Renault Twingo Volvo Daihatsu Saab Chrysler Rover Š 1203 Smart Tatra 613 Tavria
Prj 000
s.%
Počet nv.
21 21 24 17 22 23 20 21 16 15 15 12 20 14 15 20 20 11 17 13 11 11 11 10 10 13 9 10 8 8 9 7 5 9 10 10 7 5 4 1 1 3 1 2 1 0 0
0.2 0.2 0.3 0.2 0.2 0.3 0.2 0.2 0.2 0.2 0.2 0.1 0.2 0.2 0.2 0.2 0.2 0.1 0.2 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0 0 0 0 0 0 0 0 0
40.0 38.0 38.0 37.0 37.0 35.0 34.0 33.0 33.0 33.0 32.0 31.0 30.0 30.0 28.0 28.0 27.0 25.0 25.0 24.0 23.0 23.0 22.0 22.0 21.0 21.0 18.0 17.0 16.0 15.0 15.0 14.0 13.0 13.0 13.0 13.0 9.0 8.0 7.0 4.0 4.0 3.0 3.0 3.0 2.0 2.0 0
8,724
100.0
16,133.0
Souhrny Celkem
107
Příloha 8 Shluková analýza: Kategorizace značek automobilů dle modelů a kategorie „ostatní“
Příloha 8 Shluková analýza: Kategorizace značek automobilů dle modelů a kategorie „ostatní“ Následující tabulka zobrazuje jednotlivé značky automobilů, u nichž se vyskytuje kategorie „ostatní.“ Z tabulky vidíme, že např. do kategorie „Škoda ostatní“ patří všechny modely značky Škoda kromě modelů v tabulce uvedených. Značka automobilu
Model
Škoda Škoda Škoda Škoda Škoda Škoda Škoda Škoda Škoda Škoda Fiat Fiat Fiat Renault Renault Renault Renault Renault Citroën Citroën Citroën Opel Opel Opel Opel Peugeot Peugeot Peugeot Peugeot Peugeot
Favorit Felicia 120/125/130 Fabia Octavia 105 Forman 100 1203 ostatní Punto Bravo/Brava ostatní Megane Clio Laguna Twingo ostatní Xsara Saxo ostatní Astra Corsa Vectra ostatní 306 206 406 106 ostatní
108
Literatura
Literatura
Bagozzi, R., P.: Advanced Methods of Marketing Research, Blackwell Publishers, 1994, ISBN 1-55786-549-3
Bártová, H., Bárta, V., Koudelka, J.: Chování spotřebitele a výzkum trhu, Praha, 2004. ISBN 80-245-0778-1
Boučková J. a kol.: Marketing, Praha, C.H.Beck, 2003. ISBN 80-7179-577-1
Hebák, P.: Vícerozměrné statistické metody [3], Praha: Informatorium, 2007. ISBN 97880-7333-001-9
Kotler, P.: Marketing Management, Praha: Grada Publishing, 2001. ISBN 80-247-0016-6
Koudelka, J.: Segmentujeme spotřební trhy, Praha: Professional Publishing, 2005, ISBN 80-86419-76-2
McDonald, M. a Dunbar, I.: Market Segmentation, Oxford: ElsevierButterworthHeinemann 2005. ISBN 0-7506-5981-5
Meloun, M. a Militký, J., Statistická analýza experimentálních dat, Praha: Academia 2004. ISBN 80-200-1254-0
Meloun, M., Militký, J., Hill, M.: Počítačová analýza vícerozměrných dat v příkladech, Praha: Academia, 2005. ISBN 80-200-1335-0
Myers, J., H.: Segmentation and Positioning for Strategic marketing decisions, American Marketing Association, Chicago, 1996.
Seger J., Hindls R.: Statistické metody v tržním hospodářství, Victoria Publishing Praha, 1995. ISBN 80-7187-058-7
Wedel, M. a Kamakura, W.: Market Segmentation, Conceptual and Methodological Foundations, 2nd ed., Kluwer Academic Publishers, 2000. ISBN 0-792386353
109