Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Katedra informačních technologií
Studijní program: Aplikovaná informatika Obor: Informatika
Použití fenoménu Big Data v lifestyle maloobchodu BAKALÁŘSKÁ PRÁCE
Student
:
Ondřej Fous
Vedoucí :
doc. Ing. Jan Pour, CSc.
Oponent :
Ing. Lukáš Příklenk
2013
Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze které jsem čerpal. V Praze dne 12.05. 2013
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Jméno a příjmení studenta
Poděkování
Rád bych poděkoval panu doc. Ing. Janu Pourovi, CSc. za vedení a rady při zpracování práce po formální i obsahové stránce.
Abstrakt Trendem posledního dese le je exponenciální nárůst objemu dat, která mohou pocházet jak z tradičních, dlouho využívaných informačních zdrojů, tak ze zdrojů nových, přinesených zejména novými technologiemi. Standardně využívaná řešení pro správu a analýzu dat jsou uzpůsobena pro data s jasně definovanou strukturou, která jsou ukládána v rámci relačních databází. Tato řešení však pomalu přestávají stačit na opravdu velké objemy dat, obzvlášť pokud jsou data nestrukturovaná a je třeba je zpracovat rychle. Úkolem této práce je seznámit čtenáře s fenoménem Big Data, definovat jej a obecně vymezit jeho použi . Přesnějšího popisu je dosaženo vysvětlením principů správy dat na konkrétním řešení Apache Hadoop. Prioritou práce je však zjištění a definice možných přínosů tohoto fenoménu pro trh lifestyle maloobchodu; toho je dosaženo poukázáním na možné prak cké aplikace tohoto trendu v rámci podnikových procesů na tomto trhu. Práce těchto cílů dosahuje ve třech částech – první je věnována teore ckému popisu Big Data, včetně vysvětlení jednotlivých používaných metod. Druhá je věnována obecnému popisu trhu maloobchodu, jeho lifestyle podobor nevyjímaje. Nejdůležitější, tře , analy cká část, definuje jednotlivé prak cké přínosy Big Data pro trh lifestyle maloobchodu a určuje metriky pro jejich změření. Přínosy práce lze spatřovat v komplexním popisu fenoménu Big Data a jeho možnostech a zejména v jeho reálných aplikacích v rámci procesů lifestyle podoboru maloobchodu. Klíčová slova
Big Data, správa dat, datová analy ka, maloobchod, lifestyle, prodej, zákazníci, sen ment analýza, všekanálový prodej
Abstract Trend of the last decade is rise in volume of data which may come either from tradi onal sources, used for long me, or from new sources, created mainly by new technologies. Commonly used systems for data management and analysis are designed for data with clearly defined structure, saved within rela onal databases. However, these solu ons are no longer capable of managing really huge volumes of data, especially if said data are unstructured and in need of fast processing. Task of this thesis is to acquaint the reader with Big Data phenomenon, to define it and show it´s use cases. Detailed defini on is accomplished with explana on of data management priciples within Apache Hadoop system. Thesis priority is to locate and to define possible benefits of this phenomenon for lifestyle retail; this is achieved with showing of possible prac cal applica ons of this trend within this market´s business processes. These goals are achieved in three parts of the thesis – first is dedicated to theore cal defini on of Big Data, including defini ons of individual used methods. Second one defines retail market and it´s subdiscipline, lifestyle retail. The most important, third analy cal part describes individual prac cal benefits of Big Data for lifestyle retail market and designates metrics to measure those. Benefits of this thesis can be seen in complex descrip on of Big Data phenomenon and it´s possibili es and mainly in it´s real applica ons within processes in lifestyle subdiscipline of retail. Keywords
Big Data, data management, data analysis, retail, lifestyle, sales, customers, sen ment analysis, omnichannel retailing
Obsah 1
2
3
4
Úvod ................................................................................................................................................ 1 1.1
Vymezení tématu a důvod výběru tématu ............................................................................. 1
1.2
Cíle práce ................................................................................................................................ 1
1.3
Způsob dosažení ..................................................................................................................... 1
1.4
Předpoklady a omezení práce................................................................................................. 2
1.5
Výstupy práce a očekávané přínosy. ....................................................................................... 2
Big Data ........................................................................................................................................... 4 2.1
Úvod kapitoly .......................................................................................................................... 4
2.2
Cesta k fenoménu Big Data ..................................................................................................... 4
2.2.1
Využití dat pro podnikové rozhodování .......................................................................... 4
2.2.2
Business Intelligence ....................................................................................................... 5
2.2.3
Nástup Big Data .............................................................................................................. 7
2.2.4
Big Data a 3V ................................................................................................................... 9
2.3
Přístup k architektuře řešení Big Data .................................................................................. 12
2.4
Obecný pohled na architekturu Big Data – Apache Hadoop ................................................ 15
2.4.1
Apache Hadoop a jeho vznik ......................................................................................... 15
2.4.2
Úložná vrstva ................................................................................................................ 16
2.4.3
Procesní vrstva .............................................................................................................. 19
2.4.4
Abstrakční vrstva .......................................................................................................... 21
Sektor maloobchodu .................................................................................................................... 23 3.1
Úvod kapitoly ........................................................................................................................ 23
3.2
Obecný popis maloobchodu ................................................................................................. 23
3.3
Dělení maloobchodu a prodejní kanály ................................................................................ 23
3.4
Maloobchod v ekonomice .................................................................................................... 24
3.5
Podobor maloobchodu – Lifestyle maloobchod ................................................................... 25
3.5.1
Cenové hladiny ............................................................................................................. 26
3.5.2
Skladové zásoby ............................................................................................................ 26
3.5.3
Umístění obchodů ......................................................................................................... 27
3.5.4
Zákaznický klub ............................................................................................................. 27
3.5.5
Zboží .............................................................................................................................. 28
Big Data v odvětví lifestyle maloobchodu ..................................................................................... 29 4.1
Současná situace správy dat v lifestyle maloobchodu .......................................................... 29
4.2
Základní metriky pro měření přínosů fenoménu Big Data .................................................... 31
4.3
Případy využití fenoménu Big Data v rámci trhu lifestyle maloobchodu .............................. 34
4.3.1
Řízení skladu a plánování zásobování ........................................................................... 34
4.3.2
Nastavení cenové hladiny ............................................................................................. 37
4.3.3
Podpora prodeje ........................................................................................................... 39
4.3.4
Řízení vztahu se zákazníky ............................................................................................ 41
5
Závěr ............................................................................................................................................. 43
6
Terminologický slovník .................................................................................................................. 44
7
Seznam literatury .......................................................................................................................... 46
8
Seznam obrázků ............................................................................................................................ 48
1
Úvod
1.1 Vymezení tématu a důvod výběru tématu
Tato práce se soustředí na zjištění možnos využi fenoménu Big Data v Life‐Style čás maloobchodního trhu a jeho potencionálních přínosů. Zaměření na trh Life‐Style retailu vychází z mé zkušenos s mto trhem, která je založena na dvouleté praxi s implementací a správou Retail management systémů právě v rámci tohoto sektoru. Pro průzkum možných přínosů Big Data pro tento trh jsem se rozhodl z důvodu velkého potenciálu, který v sobě pro toto odvětví Big Data nesporně ukrývá a který se teprve postupně začíná projevovat a přináší ze zahraniční maloobchodní oblas kladné ohlasy.
1.2 Cíle práce
Prvotním cílem práce je uvést čtenáře do fenoménu Big Data, který nabyl na důležitos v posledních dese letech a pro mnoho lidí, odborníky nevyjímaje, je stále velkou neznámou. Dále je pak vysvětlen přístup k architektuře systémů postavených na základě tohoto trendu a podrobněji je popsáno jedno z aktuálně nasazovaných řešení. Pro osvětlení všech souvislos mezi Big Data a maloobchodním trhem je definován maloobchodní trh jako celek, společně se specifiky jeho podoboru, který se zaměřuje na obchodování lifestyle zbožím. Mezi cíle prak cké čás práce patří iden fikace současných datových zdrojů v oblas life‐style maloobchodu, popis jejich využi a správy, rozpoznání teore cky přínosných nových datových zdrojů, které naplňují specifikaci Big Data a za použi vhodných metrik zjis t jejich možné přínosy.
1.3 Způsob dosažení
Zpracování teore cké čás je založeno jednak na vlastních zkušenostech s Life‐Style retail trhem, druhak na jednotlivých zdrojích, ze kterých vychází hlavně vysvětlení fenoménu Big Data jako takového. Analy cká část se pak zabývá průzkumem možnos aplikace Big Data v rámci zkoumaného trhu a na základě existujících případových studií dodavatelů a průzkumů tře ch stran zjišťuje, zda je tento fenomén pro daný sektor přínosem. 1
1.4 Předpoklady a omezení práce
Předpokladem práce je nas nění specifických podmínek trhu lifestyle maloobchodu, které je důležité pro pozdější analýzu vlivů Big Data na tento trh. Jako každý trh, i tento má své klady a zápory, na které je třeba myslet při zavádění každé technologie. Dále je nutné vymezit pojem Big Data za použi poněkud omezených informačních zdrojů, které jsou takřka výlučně zahraniční provenience, což je, vzhledem k mládí tohoto oboru, vcelku pochopitelné. Analýza je pak vystavěna rovněž hlavně na zahraničních zdrojích, ať už se jedná o rešerše různých společnos či případové studie jednotlivých dodavatelů.
1.5 Výstupy práce a očekávané přínosy.
Hlavním přínosem práce je vyjmenování možných přínosů Big Data pro trh Life‐Style maloobchodu a popis tohoto fenoménu, včetně jednoho z využívaných řešení, který pomůže odborníkům v daném sektoru osvětlit tento trend. Obchodníkům zase může pomoci vyhodno t, zda se inves ce do tohoto fenoménu vypla a jak přínosy eventuálně změřit.
1.6 Rešerše informačních zdrojů
K popisu cesty správy dat až k fenoménu Big Data jsem mohl použít velkou šíři nejen zahraničních zdrojů. Velkou nápomocí byla jistě kniha věnovaná Business Intelligence, napsaná kolek vem autorů z Vysoké školy ekonomické, v tomto úkolu však nemálo pomohla i kniha Kena MacDonalda, věnovaná datovým skladům používaným systémem SAP – jím popsaná historie správy dat byla neocenitelným zdrojem informací. Poněkud větší problém nastal při hledání zdrojů o samotném zkoumaném fenoménu – mnoho zdrojů je vágních, některé jsou dokonce pro chůdné. Jako hlavní oporu jsem se proto rozhodl použít práce společnos Gartner, jejíž analýzy, pojednávající o tomto tématu, mají ucelený směr a rela vně vysokou vypovídací hodnotu. Jedním z důvodů tohoto rozhodnu byl rovněž fakt, že analy k, který jako první tento fenomén popsal, nyní pracuje právě v Gartneru a nadále se mu věnuje – Doug Cu ng je koneckonců spoluautorem některých použitých prací. K ukázání technické stránky Big Data na řešení Apache Hadoop mi pomohly hlavně knihy od Johna Vennera a Thomase Whitea, které mi v první řadě umožnily pochopit princip paralelního zpracování dat využi metody MapReduce. Oba autoři se mto projektem 2
zabývají poměrně dlouho a informační hodnotu těchto knih je třeba označit za vynikající. Jednotlivé zkrácené popisy ostatních čás pak pocházejí hlavně ze stránek projektu Apache Hadoop a jeho čás . Popis maloobchodního trhu vychází jednak ze stránek svazu amerických maloobchodníků a druhak z mých vlastních pracovních zkušenos , nabytých v průběhu uplynulých dvou let.
3
2
Big Data
2.1 Úvod kapitoly
Cílů této kapitoly je několik – nejprve je nutné popsat využi dat pro rozhodování v podnikovém prostředí, uvést obecnou historii takového využi dat a přes popis klasické Business Intelligence, který bude důležitý ve vztahu k dalším uvedeným faktům, se dostat k popisu fenoménu Big Data, přístupu k architektuře řešení postaveného na tomto trendu a konečně detailnější rozdíl vybraného řešení, kterým je Apache Hadoop.
2.2 Cesta k fenoménu Big Data
2.2.1
Využi dat pro podnikové rozhodování
Touha po využi dat pro podporu správných rozhodnu v podnikovém prostředí se, vcelku logicky, rozhořela s nástupem prvních aplikací, které tato data generovaly. MACDONALD (2006) popisuje postup už od doby centralizovaných magne ckých pásků, které povětšinou využívalo mnoho sekvenčních aplikací, takže i když pracovník potřeboval jen střípek dat pro svůj proces, musel přistupovat k celému hlavnímu souboru. Magne cké pásky byly pro svoji poruchovost a nespolehlivost (a hlavně tendenci k oxidaci) brzy nahrazeny pevnými disky, což s sebou, spolu s nárůstem výpočetní rychlos nových procesorů, přineslo mimo jiné možnost přímého přístupu k datům a větší účinnost. Na pevných discích se z hlavních souborů postupně staly databáze, což mimo přímého přístupu umožnilo k datům přistupovat on‐line. Možnost takového přístupu přivedla na svět on‐line aplikace, které se připojovaly k centrálním databázím, počet těchto aplikací byl ovšem nezanedbatelně velký (jedna aplikace pro jeden specifický proces) a provázanost mezi nimi byla mnohdy nulová – podnik tedy většinou, ačkoli do so warové vybavenos investoval nemalý peníz, netušil ani to, který zákazník mu přináší nejvíce peněz nebo jaký je jeho bestseller.
Prvotním pokusem o ucelení korporátních dat bylo vytvoření metodiky extrahovaného
souboru. Takový soubor by byl databází vytvořen z jedné aplikace a poté přesunut do jiné aplikace, což mohlo vyvolat dojem úspěšného sdílení dat. Pravdou byl však spíše opak a vyvolání následujících problémů:
4
‐
Snížení integrity dat, neboť počet prodaných kusů jednoho výrobku mohl být na jednom místě 20 a na druhém 15 a nikdo nebyl schopen určit, jaká z hodnot je správná.
‐
Rostoucí redundance dat, neboť ta samá (i když občas s různou hodnotou) data byla na více místech najednou.
‐
Aktualita dat rovněž nebyla úplně silnou stránkou, neboť extrakční systém prostě nestačil udržet krok s aktuálním vývojem dat, takže než se data přenesla z místa na místo, v místě původu se třeba stačila změnit už třikrát a na místo určení tedy dorazila neaktuální
‐
Vytvoření mnohačetných datových sil, jež nebyla integrována s ostatními sily a jejichž řízení si s okolím rovněž nelámalo hlavu
‐
Mazání historických dat, jakmile zastarala nad určitou míru (která nebyla nijak vysoká), neboť tato zbytečně zahlcovala extrakční systém. Na užitečnost takových dat z hlediska podpory rozhodování na základě ohlédnutí se do minulosti pak snad není třeba ani poukazovat
Frustrace z těchto problémů a omezení standardních aplikací v generování a zpracovávání informací pro podporu rozhodování vyús ly v rozdělení dat na analy cké a opera vní, což následně vedlo k vytvoření datových skladů a nástupu Business Intelligence, o němž pojednává další podkapitola. 2.2.2
Business Intelligence
NOVOTNÝ (2005) opera vní informace popisuje jako takové informace, jež jsou používány v každodenních pracovních procesech podniku a je tedy záhodno, aby byly aktuální a dostupné v době dotazu a aby je bylo možno průběžně aktualizovat. Pod takovou informací je možno si představit například počet kusů daného zboží na otevřené faktuře v rámci ERP1 systému. Pro zpracování informací toho druhu se používá zkratka OLTP – On‐line Transac on Processing. Jako informaci analy ckou je pak možno brát takovou informaci, která je historickým záznamem informace operační (a to zejména z hlediska času), není třeba ji aktualizovat, nevyžaduje referenční integritu a je použita pouze pro analýzu (o tom dále).
1
Enterprise Resource Planning, podnikový informační systém
5
Analy cké informace jsou z jednotlivých aplikací přesunuty pomocí extrakční a transformační vrstvy, jež zahrnuje systém ETL2, který je určen pro jejich extrakci z databáze původní aplikace, jejich transformaci do schůdného a normalizovaného formátu a následné nahrání do datového skladu, potažmo systém EAI3, který slouží pro udržení aktuálnos dat mezi jednotlivými aplikacemi, respek ve datovými sily. Samotný datový sklad je možné popsat jako relační databázi, která slouží ke schraňování dat ze všech aplikací organizace pro jejich pozdější využi jako zdroje analýz a repor ngu. Datové sklady se dále mohou skládat z datových tržišť – tato tržiště povětšinou odpovídají jednotlivým aplikacím, kdy jedno tržiště může obsahovat data z CRM4, jiné pak z SCM5 nebo ERP. Tržiště je dále možné dělit na další, menší podřízená tržiště, například podle jednotlivých států původu, divizí společnos , etc. Informace, jež projdou mto procesem, se nakonec ocitnou v analy cké vrstvě, kdy jsou dotazovány procesem repor ngu, zpracovávány pomocí OLAP (On‐line Analy cal Processing), který využívá mul dimensionality dat a umožňuje tak příjemci pohled na skutečnost z více úhlů (kdy jednu z dimenzí vždy zastupuje čas) a možnost libovolně měnit zobrazovanou agregaci dat založenou na podřízenos nebo nadřízenos záznamů. Trochu odlišným případem je pak Data Mining (dolování dat), který pomáhá pomocí speciálních algoritmů „vydolovat“ nové a strategické informace a souvislos . Prezentační vrstva Business Intelligence je pak poslední zastávkou informací na pou za uživatelem, když slouží k výběru parametrů pro zpracování informací (tedy funguje jako jakýsi prostředník mezi uživatelem a systémem BI) a finálnímu zobrazení zpracovaných informací v prezentovatelné podobě (kon ngenční tabulka, sestava, graf) uživateli.
2
Extract‐Transform‐Load Enterprise Applica on Integra on 4 Customer Rela onship Management – systém pro správu vztahů se zákazníky 5 Supply Chain Management – systém pro správu zásobovacího řetězce 3
6
Obrázek 1 ‐ Pohled na strukturu BI očima Microso u – Úplně vespod externí aplikace, potom ETL pomocí SQL Server Integra on Services a data Warehouse a analy ka postavená na MSSQL. Obsluha je obstarávána pomocí PPS a Excelu, samotné zobrazení pak pomocí Sharepointu, který slouží zároveň jako ECM6. (Zdroj: MICROSOFT, 2013)
2.2.3
Nástup Big Data
Počátek nového sícile znamenal pro podnikovou informa ku nový problém – objem dat. Samozřejmě to neznamená, že by objem dat před m nikdy nerostl; objem dat začal růst zvlášť rychle po zavedení paměťových médií pro ukládání dat (např. výše zmíněné pásky) a nadále rostl exponenciálně. HILBERT(2011) kupříkladu uvádí, že od osmdesátých let narostl objem dat na hlavu každých čtyřicet měsíců zhruba dvojnásobně. Nicméně opravdový problém nastal právě až se začátkem nového milénia, kdy se růst objemu dat trochu „vymkl“ kontrole a začal narůstat mnohem rychleji a v daleko kratších intervalech, než čtyřicet měsíců – podle GONSOWSKI (2013) se interval zkrá l na třináct měsíců. Takový nárůst podnikových dat musí samozřejmě mít nějaký důvod – a m je hlavně otevření nových kanálů pro příchozí informace. Společně s nástupem nových technologií pro podporu podnikání (do nichž si, alespoň pro tento případ, dovolím zahrnout technologie pro podporu výroby, prodeje, etc.) přišla nová data, která byla těmito technologiemi generována. Mobilní zařízení, čtečky RFID7, 6
Enterprise Content Management – systém pro správu podnikového obsahu Radio‐frequency iden fica on, iden fikace objektu pomocí rádiových vln
7
7
GPS systémy, OT8 čidla – tyto a mnohé další zařízení začaly generovat mnohonásobně větší objem dat, než bylo do té doby obvyklé; zpočátku se přitom jednalo jen o data, která pocházela z vnitřku samotné organizace. O další masívní nárůst se postaraly zdroje externí – počínaje elektronickým obchodem, přes sociální sítě až po externí mul mediální celky. Prudký nárůst objemu dat v posledním dese le uvozuje následující graf:
Obrázek 2 ‐ grafické znázornění exponenciálního nárůstu podnikových dat v minulém dese le (v petabytech a jednotlivých souborech) (Zdroj: CHUTE, 2008)
Je ovšem nutné brát v úvahu to, že nárůst objemu dat by sám o sobě ještě neznamenal takový problém – data koneckonců průběžně přibývala za celé poslední půlstole a přizpůsobit aktuální systémy jejich zrychlenému nárůstu by jistě nebyl nepřekonatelný problém. Nárůst objemu dat s sebou však, zvláště pak ve spojení s příbytkem kanálů pro získávání dat, přinesl ještě další problémy – data z různých kanálů byla velmi různorodá a povětšinou nestrukturovaná a zvýšení objemu ukládaných dat logicky navýšilo objem přijatých dat, což nárazově zvýšilo nároky na rychlost jejich zpracování. Právě kombinace těchto prvků přivedla na svět nový fenomén nazvaný jako Big Data. BEYER (GARTNER, 2012) ve své práci uvozuje, že Big Data je, minimálně za posledních několik let, velmi populárním termínem. Základní definice Gartneru ve volném překladu pak zní následovně: „Big Data není ani technologie, ani trh s řešeními – je to fenomén, který je 8
Opera onal Technology – senzory, které zajišťují správný chod zařízení
8
založen na kombinaci rychlého nárůstu objemu dat, nových a komplexních datových typech a současně na technologickém vývoji, která přináší lidem možnost analyzovat informace novými postupy a produkuje tak užitečnější náhledy na svět kolem nich“. Gartner samotný pak během ročního měření mezi lety 2011 a 2012 iden fikoval takřka dvacet síc požadavků na vyhledání tohoto termínu na svých stránkách a trend roste i nadále, je však nutno podotknout, že okolo tohoto pojmu stále vládne jistá nevědomost, úkolem následujících kapitol proto bude jí rozptýlit. 2.2.4
Big Data a 3V
Na začátku výše uvedeného datového boomu si LANEY(2001), analy k společnos META GROUP, ve své studii všiml, že změna ekonomických podmínek, zejména pak velký nárůst zájmu o elektronické obchody, vytvořila nové výzvy na poli správy dat, které rozdělil do tří základních dimenzí. První je Objem dat, zvýšený zejména hloubkou a šířkou dat, které byly způsobeny zejména menšími náklady na kanál elektronického obchodu, což vyús lo v možnost během jedné transakce posbírat až desetkrát více dat. Autor si rovněž povšiml toho, že jakmile začnou společnos vnímat informaci jako hmotné ak vum, mají tendenci jí syslit, což v kombinaci s výše uvedenou skutečnos vedlo k obrovskému nárůstu dat spravovaných společnostmi. Druhou dimenzi, to ž Rychlost získání a zpracování dat, pak vidí jako kri ckou konkurenční výhodu společnos , což ukazuje na rychlos POI9 v uvedených příkladech, konkrétně v aktuálnos systému sledování zásilek, skladové dostupnos zboží, nebo rychlos vykonání transakce. Tře dimenzi, Různorodost dat, v podobě nekompa bilních datových formátů, neprovázaných datových struktur a nekonzistentních datových séman k Laney vnímá jako největší budoucí překážku pro efek vní správu dat. Tyto tři dimenze daly vzniknout později velmi využívané zkratce 3V, která se stala základem pro definici Big Data. 3V v sobě skrývá názvy jednotlivých dimenzí – Volume (Objem), Velocity (Rychlost) a Variety (Různorodost). Deset let po průvodní analýze 3V uvedla společnost Gartner práci, jež reviduje a rozšiřuje dimenzionální rozdělení Big Data. NEWMAN(2012) a BEYER(2011) základ 3V aktualizovali pro současné podmínky a zároveň přidali dimenzi čtvrtou. V rámci aktuálnos je jen logické, že práce bude vycházet z novějšího 9
Point of interac on – může vyjadřovat například proces nákupu zboží v elektronickém obchodě
9
rozdělení. Za kandidáta pro řešení pomocí Big Data je tedy možno označit tu společnost, která se potýká s problémy spadajícími do dvou a více následujících dimenzí: ‐
Podmínky pro dimenzi objemu jsou splněny tehdy, pakliže kapacity dosavadních systémů a procesů pro ukládání a analýzu dat začínají být nedostačující pro dodání přidané hodnoty u jednotlivých případů použití – tedy když nestačí na ukládání a analýzu dat z nových zdrojů, jejichž využití by podniku přineslo nesporné výhody. Tato dimenze bývá právem považována za nejdůležitější, nicméně občas, a to už neprávem, za jedinou směrodatnou – je nutné si uvědomit, že nastalý velký objem dat musí být něčím zapříčiněn a důvody vysokého objemu dat je proto třeba hledat v ostatních dimenzích
‐
Pod rychlost spadají požadavky na rychlé přenášení dat, vytváření strukturovaných záznamů, a dostupnost pro přístup a použití. Zahrnuje dvě části – jak rychle musí být data vyprodukována a jak rychle musí být data zpracována – kombinace těchto dvou prvků musí uspokojit poptávku po datech v daném časovém intervalu; lze vyjádřit i krátkou trvanlivostí platnosti informace a potřebou informaci využít, dokud je platná – takovou informaci je tedy třeba dostat na místo určení velmi rychle
‐
Různorodost pod sebou skrývá různost formátů dat (jako formát je zde chápáno základní dělení, tedy například audio‐video‐foto), strukturovaných a hlavně nestrukturovaných, které musí být zpracovány – databáze, hierarchická data, dokumenty, e‐maily, data z měření, multimediální data (video, audio, fotografie) a mnoho dalších; tato dimenze vychází především z různosti a množství informačních zdrojů společnosti
‐
Komplexnost, která vyjadřuje možnost existence různých datových standardů, pravidel a formátů v rámci jednoho druhu dat – komplexní jsou pak v tomto případě právě jednotlivé druhy dat
Gartner fenomén Big Data definuje jako informační ak va, která zapadají do výše zmíněných dimenzí – mají velký objem, vysoké nároky na rychlost produkce a zpracování, jsou velmi různorodá a jsou zastřešena jistou komplexnos . Taková ak va pak vyžadují
10
nákladově efek vní a inova vní přístupy ke zpracování informací, které ve výsledku přinesou vylepšený vhled do rozšířené informační základny podniku a podpoří rozhodovací procesy. 10 Tuto tezi více rozvedl BEYER(2011); nejdůležitější přínos Big Data pro podniky vidí v zaplnění informačních mezer díky doplňování původních informačních kanálů z nových zdrojů (příkladem budiž využi metrických záznamů z OT čidel doplňující záznamy o počtu zmetků ve výrobě). Tyto zdroje přitom nemusí být vždy přímo „velké“, ale jejich kombinace se zdroji původními a s těmi nově otevřenými zvyšuje nároky na objem dat, rychlost jejich zpracování a na komplexnost celého systému ‐ na různorodost vyvolanou kombinací všemožných zdrojů pak snad není třeba ani poukazovat. Další výzvu vidí v poptávce po nových a efek vních formách zpracování informací z těchto zdrojů v celém jejich životním cyklu – tedy v zahrnu nově otevřených zdrojů informací do existujících rozhodovacích procesů, přičemž tento krok musí být nákladově efek vní, což znamená, že výnosy, které otevření a zpracování nových kanálů přinese, musí být vyšší, než náklady na ně. Obecný popis Big Data potom může vypadat následovně: společnost by měla zavést řešení správy svých dat pomocí Big Data tehdy, když: ‐
Již existující informační kanály společnosti začnou vykazovat příznaky zmíněné v alespoň jedné a více výše uvedených dimenzích a je nutné udržet nebo ještě zvýšit jejich vypovídací hodnotu, pakliže to bude nákladově efektivní (do výpočtu je třeba rovněž zahrnout možnou ztrátu) – příkladem může být zvýšení různorodosti dat na kterémkoli z kanálů (například nárůstem nestrukturovaných, multimediálních dat), což může řetězově vyvolat nárůst objemu dat, etc.
‐
Má možnost otevřít nové informační kanály, které musí splňovat podmínku nákladové efektivity a zároveň buď samy o sobě nebo v kombinaci s již existujícími splňují podmínky nastíněné v jedné a více dimenzích
10
Volný překlad z práce The Importance of 'Big Data': A Defini on, Beyer, Laney (2012)
11
2.3 Přístup k architektuře řešení Big Data
Základem úspěšné architektury Big Data řešení by samozřejmě měla být schopnost řešit výzvy popsané ve výše uvedených čtyřech dimenzích; nicméně, ve stejné studii, ve které zrevidoval čtyři základní dimenze Big Data, BEYER(2011) uvedl pojem „extrémní správa informací“ (Extreme informa on management) – pojmem „extrémní“ je zde myšleno vychýlení kterékoli dimenze do extrémních hodnot (viz obrázek 2). Zde nas nil osm nových dimenzí, které zahrnují další možné problémy vyvolané úvodními 3V. Tyto, společně s původními dimenzemi, rozdělil po čtyřech do tří základních skupin – první, základní skupinou, je Kvani fikace (Quan fica on) a zahrnuje objem, rychlost, různorodost a komplexnost, tedy dimenze, jež byly vysvětleny výše. Další dvě skupiny jsou uvedeny následovně: ‐
Do skupiny Přístup a kontrola (Access enablement and Control) patří takové dimenze, které řeší zda se lidé či přístroje dokáží dostat k informacím tehdy, kdy je zrovna potřebují a zároveň zda se dostanou pouze k těm informacím, které jim náleží. Spadají sem: o Klasifikace (Classification), kdy je třeba zajistit dělení informací na citlivé a na ty, které citlivé nejsou, které informace jsou veřejné a které ne. Tato dimenze vyjadřuje otázky zabezpečení a přístupu k informacím o Kontrakty (Contracts) by měly řešit právní záležitosti týkající se informací – sdílení, možnost vystavení informací, zamýšlené použití informací, jak dlouho bude možné informace používat, etc. Příkladem pak může být obchodník zasílající svá data externímu dodavateli k obohacení o demografické údaje. O vyjádření těchto dodatečných informací by se měla postarat metadata o Všudypřítomnost (Pervasiveness) se váže na data, která se kvůli své důležitosti stala žádaná napříč celou organizací a musí tak být neustále dostupná. Řeší, jakou dobu tomu tak má být a co udělat s tzv. „osiřelými“ daty, která již nemají žádnou hodnotu (jejich potenciál byl vyčerpán) o Technologické možnosti (Technology‐Enablement) je dimenze, která zahrnuje specifikace derivované z ostatních jedenácti dimenzí a odpovídá
12
na jednoduchou otázku – jak a jaké systémy (nástroje pro integraci dat, aplikační middleware11) integrovat pro splnění nároků ostatních dimenzí ‐
Způsobilost a jistota (Qualification and Assurance) je množina dimenzí, jejímž cílem je spolehlivost a správné zpracování informací – jednoduše řeší to, jak velkou důvěru mohou uživatelé do dat vkládat o Přesnost (Fidelity) vyjadřuje schopnost nebo neschopnost organizace přijmout informační zdroj jako důvěryhodný a to na základě kontroly významu a kontextu – často pomocí přiřazení metadat informacím při jejich ukládání. Měla by existovat možnost přiřadit informacím nový význam bez zničení toho původního o Propojení (Linking) zahrnuje datové kombinace a jejich použití (zejména otázka metadat). Provázanost by rovněž měla napomáhat sdílení dat napříč aplikacemi – taková data si však musí zachovat kontext a význam tak, aby ve výsledku byla užitečná buď uživatelům, nebo přístrojům o Validace (Validation) primárně zajišťuje otázky datové kvality12 o Zaniknutelnost (Perishability) se zabývá otázkou životnosti dat – tím, zda jsou data dostupná všude, kde jsou potřeba, dokud jsou užitečná a zda jsou aktuální (Real‐time situation awareness, znalost okamžité situace), jak dlouhá je jejich úložná doba po skončení užitečnosti (jsou „osiřelá“) a jak dlouho mohou být taková data užitečná
Hlavní myšlenkou studie je upozornění na problém preference pouze jedné dimenze (zpravidla objemu, nemusí však být pravidlem) na úkor dimenzí ostatních, což ve výsledku může přinést víc škody (více nákladů), než užitku (výnosů); dle autora takto řešená architektura podnikové správy dat nutně vyvolá potřebu jí do dvou až tří let přepracovat od základu, bude‐li nasazena v roce 2011 či 2012. Rovněž je třeba nahradit standartní postup zpracování dat aplikacemi, který funguje na principu odeslání do aplikace‐zpracování aplikací‐ odeslání nazpět postupem opačným, to ž přesunu m aplikačních procesů k datům, což je vzhledem k velkým objemům dat vcelku pochopitelné; tento princip by zároveň měl urychlit analýzu a zpracování dat. Ti, jenž mají na staros řešení otázky správy dat ve firmě, by pak dle 11
So warová vrstva ležící na každé straně mezi operačním systémem a aplikací v rámci distribuované sítě Data splňují podmínku vysoké kvality, pakliže odpovídají účelu svého využi v rámci procesů, podpory rozhodování a plánování 12
13
Beyera měli pečlivě analyzovat všech dvanáct dimenzí v rámci jejich mateřské firmy a zvláště se soustředit na náhlé a nečekané výkyvy v jakékoli z těchto dimenzí; zároveň je třeba, aby prozkoumali plány podniku na pět let dopředu op kou všech dvanác dimenzí – je ovšem nutné tento pohled oboha t o vědomost toho, že dimenze se mohou nejen doplňovat (v rámci dimenze validace je například objeven u informace nedostatek – metadata, standardizovaně přidělená díky dimenzi přesnos jsou potom správci schopna vyjevit původ tohoto nedostatku a to, jak si s ním poradit), ale rovněž si odporovat (větší dostupnost dat pro více lidí zhoršuje situaci v rámci klasifikační dimenze) a to i mezi jednotlivými skupinami.
Obrázek 3 ‐ ilustrace závislos jednotlivých skupin dimenzí extrémní správy dat (všimněte si Big Data na ose objemu – jedná se o znázornění jejího vychýlení směrem k extrému) (Zdroj: BEYER, 2011)
14
2.4 Obecný pohled na architekturu Big Data – Apache Hadoop
Architektura Big Data má mnoho společného s architekturou Business Intelligence, nutně však přihlíží ke splnění základních 3V (přičemž op mální by samozřejmě bylo přihlédnu ke všem dvanác dimenzím), což se projevuje obzvlášť na té čás , která se zabývá transformací dat a jejich uložením. 2.4.1
Apache Hadoop a jeho vznik
Vhodným příkladem pro ukázku této architektury může být projekt Apache Hadoop13, který se stal takřka synonymem pro Big Data a vzhledem ke své opensourcové povaze je často přebírán velkými komerčními subjekty (BigInsights od IBM a řešení pro Big Data na Microso Azure jsou založeny právě na Hadoopu)14 a stává se tak základním kamenem dalších celků. Za vznikem projektu Hadoop je třeba dle WHITE (2012) hledat dvě práce, vydané v roce 2004 společnos Google. První se zabývala novým distribuovaným souborovým systémem GFS (Google file system)15, jenž byl vyvinut jako odpověď na rostoucí objem dat, který vyhledávač Google potřeboval ke své funkci. Druhá práce 16se pak věnovala programovací metodě MapReduce, jejímž úkolem bylo zpracovat data nasbíraná v rámci GFS. O půlroku později již byly obě metody implementovány Dougem Cu ngem v rámci projektu opensourcového vyhledávače Nutch. V roce 2006 byla kombinace metod HDFS (Hadoop Distributed File System, Cu ngem přepracované GFS) a MapReduce pojmenována jako Hadoop a byla zaš těna stejnojmenným projektem u neziskové organizace Apache So ware Founda on. K prvnímu nasazení rámce Hadoop v reálném světě pak došlo u společnos Yahoo!, kde Hadoop nahradil dosud vyvíjený a neúspěšný projekt Dreadnaught, který měl řešit stejný problém, jako měla před m společnost Google. Hadoop se od té doby osvědčil v mnoha 13
V souvislos se systémem Hadoop může být často uváděn obrázek slona – je to z toho důvodu, že jej jeho tvůrce Doug Cu ng pojmenoval podle plyšové hračky svého syna (WHITE, 2012) 14 KART (2012) 15 Původní práce je dostupná například na h p://www.cs.rochester.edu/mee ngs/sosp2003/papers/p125‐ ghemawat.pdf (15.04.2013) 16 Práce rovněž dostupná na h p://sta c.usenix.org/event/osdi04/tech/full_papers/dean/dean.pdf (15.04.2013)
15
dalších podnikových implementacích po celém světě, ať už se jedná o poskytovatele řešení elektronické pošty MailTrust, nebo výrobce telekomunikačních zařízení Nokia.
Stejně jako v případě tradiční architektury Business Intelligence je možné rozdělit
architekturu řešení Big Data, potažmo Hadoopu, na několik čás . Jak ukazuje následující ilustrace, základní část je tvořena úložným systémem, ze kterého jsou poté data extrahována a zpracována, zpracovaná data jsou poté dotazována abstrakční vrstvou, která následovně data konečně předává k výslednému zpracování pomocí ETL, zobrazení pomocí BI nástrojů nebo uložení do tradičních relačních databází.
Obrázek 4: Zjednodušená architektura systému Hadoop (Zdroj: CISCO, 2012)
2.4.2
Úložná vrstva
HDFS – Hadoop Distributed File System je jednou ze dvou kmenových součás systému Hadoop.
Nejdůležitějším aspektem tohoto souborového systému, vzhledem k dalším součástem a samotné funkci Hadoopu, je to, že je distribuovaný. Úkolem distribuovaného souborového systému je rozdělit ukládaná data na více cílových zařízení – důvod je vcelku prozaický – rychlost čtení a zápisu dat bude za použi tohoto postupu mnohem rychlejší, než kdyby byla data zapsána na jeden disk. Pro vysvětlení – disková jednotka o velikos jednoho terabytu má přenosovou rychlost kolem 100 MB/s, takže přečtení všech dat (pakliže uvažuji, že disk je bezezbytku plný) by trvalo přibližně dvě a půl hodiny. Pokud by však stejné množství bylo uloženo na jednom stu jednotek, na každé jedna se na původního objemu, a čtení dat by probíhalo paralelně, doba čtení by se zkrá la na zhruba dvě a půl minuty. Tento princip tvoří základ HDFS. 16
HDFS je tvořen jednotlivými uzly (uzel = zařízení, na kterém jsou data uložena),
komunikace mezi nimi je zajištěna pomocí síťového protokolu TCP/IP. Uzly pracují na známém principu Master‐Slave, kdy jako Master vystupuje jmenný uzel, jenž slouží jako „adresář“ (drží metadata jednotlivých datových celků a funguje tak jako klíč k jejich „složení“), který ukazuje na jednotlivé čás datových celků, jež jsou uloženy na Slave uzlech; tyto jsou popisovány jako uzly datové. Funkci HDFS z tohoto úhlu pohledu lze znázornit mto grafem:
Obrázek 5: Uzlová architektura HDFS. Jednotlivé barvy znázorňují datové celky. (Zdroj: HADOOP, 2011)
Jak vidno, pro jednu množinu zařízení v rámci HDFS (Cluster) existuje vždy jeden ak vní jmenný uzel, u novějších verzí přibyla možnost záložních jmenných uzlů. Technická specifika HDFS je možno popsat následovně: ‐
Velmi velké soubory HDFS je určen pro soubory, které velikostně odpovídají stovkám megabytů, desítkám gigabytů, případně jednotkám petabytů. Zároveň, HDFS je, stejně jako kterýkoliv jiný souborový systém, tvořen jednotlivými bloky dat. U standardních souborových systémů typu NTFS má takový blok velikost 64 KB, avšak u HDFS, vzhledem k jeho zaměření, je standardní velikost jednoho datového bloku dimenzována na 64 MB. S ohledem na velikost bloku zde zároveň neplatí pravidlo užité u typických souborových systémů – je‐li soubor, nebo jeho část, menší, než velikost datového bloku, není blok obsazen zbytečně celý; místo toho je prostor na bloku při nejbližší možné příležitosti zaplněn odpovídající částí jiného datového celku. Dochází tak k relativně velké úspoře dat. 17
‐
Přístup ke čtení dat Podobně, jako u klasického datového skladu, se i u dat, které jsou uložena v rámci HDFS, počítá s tím, že budou zapsána jednou a čtena mnohokrát. Očekává se, že čtení, potažmo analýzy, budou prováděny na větší části datového celku, za důležitější je tedy považován celkový čas strávený čtením celého datového celku, ne doba odezvy při vyhledání a čtení prvního záznamu tohoto celku. Do této problematiky zapadá i část, jež ošetřuje možnosti přístupu k datům – jako u mnoha jiných databázových nástrojů pak funguje na třech základních právech – čtení (read), zapisování (write, může se jednat o vložení, úpravu nebo mazání dat) a execute (které, ač to z názvu může vyplývat, neslouží ke spuštění souboru – soubory, uložené v rámci HDFS, již ze své podstaty spouštět nejdou. Execute v tomto případě vázáno na složku aby ten, kdo toto právo má, mohl přistupovat k jejímu obsahu). Další pravidla jsou potom shodná s většinou podobných systémů ‐ práva se mohou vázat na uživatele, potažmo na skupiny uživatelů, etc.
‐
Běžný hardware Jednou ze základních premis Hadoopu je, že ke své funkci nepotřebuje drahá a specializovaná zařízení. Naopak, je schopen běžet na relativně levném a dostupném HW, mnohdy i od různých výrobců, přičemž se počítá s poruchou na kterémkoli z uzlů. Tato možnost je ošetřena podobně, jako je tomu u diskových polí RAID17, kde jsou data zrcadlena. V rámci HDFS je tento proces znám spíše jako replikace, kdy jednotlivé části datového celku nejsou drženy pouze v jednom datovém uzlu, ale minimálně ve dvou, někdy i ve více, pročež jako primární funguje jenom jeden. Pokud dojde k výpadku uzlu, který hostuje datovou sekvenci označenou jako primární, jmenný uzel v reakci na nastalou situaci odkáže proces na jiný datový uzel, který hostuje sekundární datovou sekvenci. Velkým problémem u starších verzí Hadoopu (před verzemi 2.x) však byl výpadek jmenného uzlu, který byl v množině (Cluster) jen jeden. Jeho porucha způsobila ochromení celého systému a standardním postupem pak bylo vytvoření nového jmenného uzlu načtením adresních dat ze zálohy, což zabralo v ideální situaci minimálně třicet minut. Novější verze ovšem přišly s řešením ne nepodobným replikaci u datových uzlů – mimo hlavního jmenného uzlu v záloze běží jeden a
17
Redundant array of independent disks, technologie kombinující několik disků do jedné logické jednotky
18
více dalších jmenných uzlů a průběžně snímkují adresář primárního uzlu k sobě. V případě výpadku primárního uzlu pak převezme jeho úlohu uzel záložní a k celkovému výpadku nedojde vůbec, neboť celý proces se odehraje v rámci několika desítek vteřin. 2.4.3
Procesní vrstva
MapReduce Jak už z názvu funkce vyplývá, MapReduce je programový model složený ze dvou metod – Map a Reduce – který slouží ke zpracování dat v rámci systému Hadoop (a velkého množství systémů jiných). Základním principem této funkce je možnost jejího paralelního průběhu na větším počtu koncových zařízení, výhoda tohoto přístupu byla vysvětlena v předchozí podkapitole. Funkci je možno vysvětlit na následujícím příkladu analýzy dat o počasí, kdy je úkolem zjis t nejvyšší naměřenou teplotu na celé planetě za daný rok: senzory napříč planetou měří každou hodinu teplotu, naměřené hodnoty zapisují do logu a jednotlivé logy jsou pak shromažďovány na jednom místě v rámci HDFS. Data jsou v logu vždy uložena jako jeden řádek, který mimo datum, umístění senzoru a teploty obsahuje velký počet dalších údajů. HDFS data ukládá do složek označených rokem, každá složka (rok) obsahuje výsledky měření jednotlivých stanic zabalené do archivu .gz. HDFS v přípravné fázi sloučí všechny archivy podle jednotlivých let do větších datových celků, neboť pro funkci MapReduce je snazší analyzovat menší počet byť větších souborů. Nyní je třeba připravit data ke zpracování pomocí metody Map – data před zpracováním mohou vypadat takto:
Obrázek 6: Text před zpracováním metodou Map (Zdroj: WHITE, 2012)
19
Tečky značí dodatečné záznamy, které nejsou k prováděné analýze zapotřebí (směr větru, vlhkost, viditelnost...), za mco tučně označený text symbolizuje rok a naměřenou teplotu, v tomto případě klíčový pár pro datovou analýzu. Hlavním úkolem metody Map je tedy, alespoň v uvedeném příkladu, vynechat chybové či prázdné záznamy, vyextrahovat klíčové páry pro analýzu a převést je ke zpracování metodou Reduce, což mimo jiné znamená jejich seskupení (stejné teploty za jeden rok). Data, která jsou předána metodě Reduce pak mohou být v následujícím formátu:
Obrázek 7: Text po zpracování metodou Map (Zdroj: WHITE, 2012)
Jediné, co musí funkce Reduce nyní udělat, je projít roztříděná data a u každého roku vybrat nejvyšší naměřenou teplotu, takže v tomto případě to znamená, že u roku 1949 určí teplotu 111 a u roku 1950 teplotu 22, tedy nejvyšší teploty za daný rok. Na níže umístěné ilustraci si lze spolupráci těchto metod ukázat graficky:
Obrázek 8: Grafické znázornění funkce MapReduce (Zdroj: VENNER, 2009)
V levé čás je dobře vidět paralelnost funkce, kdy je datový celek rozdělen ke zpracování mezi jednotlivá zařízení, tuto část však pokrývá HDFS již při ukládání dat. Data jsou poté zpracována funkcí Map, která určí klíčové páry složené z klíče a přiřazené hodnoty, seskupí a seřadí je. Funkce Reduce pak upravené páry zpracuje na základě zadání.
20
WHITE (2012) ve své knize uvádí, že metodu MapReduce lze v jistých ohledech brát jako doplněk správy dat pomocí relačních databází (RDBMS). Za mco RDBMS je výborné pro zpracování rela vně malých objemů dat, které jsou normalizované a strukturované (a v ideálním případě indexované), MapReduce je určeno ke zpracování velkých objemů denormalizovaných semistrukturovaných a nestrukturovaných dat. Pod semistrukturovanými daty si čtenář může představit tabulku, která je sice rozdělená do jednotlivých buněk, avšak obsah těchto buněk je velmi různorodý, nestrukturovaná data pak odpovídají například fotografii. Denormalizovaný datový tok může představovat například výše uvedený příklad logu senzoru nebo čidla, kdy se stejné údaje objevují vícekrát (například roky), což odporuje požadované úrovni redundance dat v normalizovaném modelu. Z tohoto je tedy jasné, že MapReduce není jedinou cestou pro budoucnost, autor knihy spíše předpokládá, že postupem času se budou rozdíly mezi MapReduce a RDBMS smazávat, až nakonec splynou. 2.4.4
Abstrakční vrstva
Prvky abstrakční vrstvy podle VENNER (2009) slouží povětšinou ke správě dat uložených v rámci HDFS, potažmo k usnadnění jejich analýzy metodou MapReduce. ‐
Hbase18 slouží jako distribuovaná databáze běžící nad HDFS, přičemž zde uložené tabulky mohou sloužit jako vstupy nebo výstupy metody MapReduce. Na rozdíl od typických relačních databází však neukládá data v posloupnosti řádků, ale sloupců, čímž urychluje zpracování velkého množství (často redundantních) dat
‐
Nad Hbase může fungovat Hive19, což je datový sklad zastřešující všechna data nasbíraná v rámci systému HDFS, mezi jehož hlavní výhody patří možnost ukládání různých datových formátů, mimo jiné právě tabulek Hbase a relativně snadná správa dat pomocí dotazování jazykem HiveQL, který je velmi podobný jazyku SQL. Hive byl původně vyvinut společností Facebook pro správu dat ze stejnojmenné sociální sítě a později poskytnut projektu Apache Hadoop
‐
Sqoop20 je převodním můstkem mezi systémem Hadoop a externími relačními databázemi. Využít jde obousměrně, jak k exportu z relační databáze například do
18
Pro Hadoop, Venne (2011) Tamtéž 20 Zdroj: h ps://blogs.apache.org/sqoop/entry/apache_sqoop_graduates_from_incubator (cit. 16.04.13) 19
21
prostředí Hive nebo Hbase (pakliže Hive není přítomen), tak k přenosu dat z Hadoopu do externí relační databáze. ‐
Pig21 slouží právě k usnadnění psaní funkcí typu MapReduce tím, že dovoluje vývojářům psát tyto funkce v jazyku Pig Latin obsahujícím prvky jazyka SQL a poté je převede do jazyka Java. Pig, stejně jako Hadoop, byl vytvořen v roce 2006 v rámci společnosti Yahoo!.
21
Zdroj: h p://developer.yahoo.com/blogs/hadoop/posts/2008/10/pig_‐_the_road_to_an_efficient_high‐ level_language_for_hadoop/ (cit. 16.04.13)
22
3
Sektor maloobchodu
3.1 Úvod kapitoly
Tato kapitola je určena jako úvod čtenáře do specifik a problema ky sektoru maloobchodu, neboť právě tato specifika, v kombinaci s výše uvedenými fakty o fenoménu Big Data, čtenáři pomohou pochopit přínosy Big Data do sektoru Lifestyle maloobchodu v plné šíři.
3.2 Obecný popis maloobchodu
FARFAN (2011) ve svém článku vysvětluje, že odvětví retailu, v češ ně maloobchodu, se skládá z jedinců a firem, kteří nakupují zboží, materiál, či polotovary a dokončené produkty prodávají koncovým zákazníkům. Počítá se tedy s m, že kupci již nebudou nakoupené produkty prodávat dál a použijí je pro svoji vlastní potřebu, z čehož vyplývá, že se tento sektor soustředí výlučně na B2C transakce a B2B transakce přenechává odvětví tzv. Wholesalu, tedy velkoobchodu – koneckonců, slovo „retail“ vychází z francouzského slova označující „drobný nákup“. V podstatě jakýkoli obchod, který se řídí výše zmíněnými pravidly, může být za maloobchod považován, avšak v některých studiích, měřeních a zprávách se od tohoto jádra oddělují restaurační zařízení a automobilový průmysl, které pak mají vlastní sekce, ovšem dle definice je lze jako součást maloobchodního sektoru jistě brát. Prostředí maloobchodu je už ze své podstaty prostředím velmi konkurenčním – boj o zákazníka je alfou a omegou každého obchodníka. Hlavní používanou zbraní jsou samozřejmě ceny produktů, mezi další, ne však nevýznamné, patří kvalita prodávaného zboží, jeho výjimečnost a v neposlední řadě pak zážitek zákazníka, který si odnese z nákupu a jeho iden fikace s obchodníkem či značkou.
3.3 Dělení maloobchodu a prodejní kanály
Maloobchody lze rozdělit na dvě základní skupiny: první skupina využívá k prodeji zboží míst s fyzickou podstatou, tedy obchodů, kiosků, nákupních center a podobných zařízení – jednoduše řečeno takových míst, kterých se lze dotknout. Druhá skupina pak využívá prodejních kanálů, které nejsou postaveny na existenci nějaké fyzické prostory – může se jednat o zásilkový prodej založený na různých katalozích, televizní prodej, prodej po telefonu,
23
prodejní automaty a v neposlední řadě také v dnešní době nejvíce používaný prodej pomocí elektronických obchodů. Toto dělení dnes již úplně nepla , neboť čím dál více obchodníků se na základě úspěchů jejich předchůdců snaží prosadit i na jiných kanálech, než na kterých původně začínali – jde o to, že správné využi těch správných kanálů, respek ve jejich vhodná kombinace, může přinést nejen dodatečné zisky, ale hlavně přivést nové zákazníky, kteří by obchod na původním, samostatném kanálu třeba vůbec nenašli nebo by se do něj neobtěžovali. Maloobchod je dále možné dělit podle specifik jím prodávaného zboží, takovou skupinou by pak byl například trh, na který je soustředěna tato práce, tedy maloobchodní trh s lifestyle produkty.
3.4 Maloobchod v ekonomice
FARFAN (2011) tvrdí, že sektor maloobchodu tradičně mívá významný podíl na HDP dané země, 54 největších světových společnos se koneckonců maloobchodem buď přímo živí, nebo je alespoň součás jejich činnos , nemusí být však nutně závislý na jeho růstu. V průběhu krize začínající v roce 2007 odpovídala ve většině zemí křivka poklesu HDP křivce poklesu maloobchodních prodejů, avšak našly se takové země, jako například Spojené Království nebo Nizozemí, kde prodeje zůstaly rela vně stabilní nebo dokonce nadále rostly – tento poněkud nezvyklý trend je přisuzován nárůstu elektronických prodejů, který dokázal vyvážit ztráty z kamenných obchodů. Co je však možné říci s jistotou, je to, že maloobchodní prodeje závisí na koncovém zákazníkovi a jeho nákupních návycích, které se se zhoršenou ekonomickou situací jeho mateřské země mohou prudce změnit. Pla to pak zejména pro lifestyle obor maloobchodního sektoru, který bude zmíněn níže – obecně: zákazník si, za horších ekonomických podmínek, tedy když čelí snížení platu nebo hrozbě ztráty zaměstnání, dvakrát rozmyslí nákupy tzv. „velkých věcí“, ať už jde o auto, nábytek, či domácí spotřebiče, může přestat dbát na „značkovost“ produktů a raději se rozhodnout pro levnější produkt a smířit se se ztrátou módnos , kterou by přinesl produkt dražší. Obchodník by tedy měl náladu a „jistotu“ zákazníka znát a hlavně se jí přizpůsobit – jeho jistota by se měla rovnat jistotě zákazníka, neboť zákazníkovi výdaje jsou zároveň prodejcovi příjmy. Na níže vyobrazeném grafu je vidět, že od počátku krize se obchodníci poněkud zdráhali přijmout nejistotu svých zákazníků, kterou mohli vhodnými prostředky využít ve svůj prospěch. Rovněž
24
lze vidět, že objem prodejů nezávisel ani tolik na velké sebejistotě obchodníků na začátku krize, jako spíš na rostoucí nejistotě jejich zákazníků:
Obrázek 9: Závislost celkových maloobchodních prodejů na jistotě koncových zákazníků a maloobchodníků (Zdroj: EUROSTAT, 2010)
3.5 Podobor maloobchodu – Lifestyle maloobchod
Maloobchod v oblas lifestyle se opro maloobchodu jako takovému vyznačuje jistými specifiky. V první řadě se jednoznačně jedná o prodávaný sor ment – už ze samotného názvu podoboru vyplývá, že je prodáváno takové zboží, pomocí kterého chce zákazník vyjádřit či podpořit svůj životní styl. Nespadají sem tedy typické supermarkety, samoobsluhy a podobné řetězce; neznamená to ovšem, že z nabídky obchodů zaměřených na lifestyle vyškrtneme například potraviny nebo potravinové doplňky a léky. Produkty těchto obchodníků mají to ž jednu společnou vlastnost – svoji výjimečnost, něco, co zákazníkovi pomůže s jejich iden fikací a co je odlišuje od nabídky výše zmíněných řetězců. Je‐li řeč o potravinách, pak potravinami v oblas lifestyle mohou být například takové produkty, které jsou prodávány v obchodě s biopotravinami nebo specializované pekárně s francouzským pečivem. Mezi další produkty může patřit sportovní zboží, obleky a jiné módní zboží, šperky a hodinky, domácí a bytové doplňky a mnoho jiných. Ostatní specifika lze vyjádřit následovně:
25
3.5.1
Cenové hladiny
Ceny v lifestyle retailu jsou ve srovnání s cenami v obecném maloobchodu většinou vyšší a proměnlivější. Časté jsou cenové fluktuace, reagující buď na nezájem o daný produkt, nebo vysoký stav zboží, které má po sezóně či vyšlo z módy. Zároveň je op mální dynamicky reagovat na ceny konkurence, neboť jak bylo zmíněno výše, správné nastavení cen je jednou z hlavních zbraní používaných při boji o zákazníka. Prodejce, který zjis , že jeho ceny za vybrané zboží jsou příliš vysoké až někdy v polovině sezóny poté, co má pro malý zájem zboží stále skladem, jej do konce sezóny už asi těžko vyprodá a pokud ano, bude jej muset prodat za velmi nízkou cenu, daleko nižší, než kdyby se přizpůsobil cenám konkurence již na začátku období. Stejně jako při op malizaci skladových zásob, i při určování cen je důležité řídit se trendy – pakliže obchodník ví, že poptávka bude vysoká, může si dovolit nastavit o něco vyšší cenovou hladinu. Celkově, určení konečné ceny by mělo být průnikem všech výše zmíněných metod, který by měl ve výsledku přispívat k pokud možno co největším maržím obchodníka. 3.5.2
Skladové zásoby
Problema ka op malizace skladových zásob samozřejmě není vlastní jen oboru lifestyle retailu, ale maloobchodu a vlastně i mnoha jiným sektorům ekonomiky obecně. Minimalizace skladových zásob je cílem každého obchodníka, jednak z důvodu snížení nákladů na skladování, druhak jsou pobočky řetězců leckdy limitovány omezeným skladovacím prostorem a zároveň nad prodejci stále visí Damoklův meč v podobě vyprodání aktuálně nejpožadovanějšího zboží, u kterého nebylo cílem jej vyprodat (nejednalo se tedy např. o akční zboží z minulé sezony, jehož zásob se chtěl obchodník zbavit co nejdříve), což může znamenat přechod zákazníka ke konkurenci, která takové zboží, nebo alespoň jeho subs tut, skladem má. Již delší dobu se pro op malizaci zásob používají tzv. „Doporučené stavy skladu“, které vycházejí z různých výpočtů založených na uskutečněných prodejích daného zboží např. v minulé sezóně, uplynulých dvou týdnech, atp. Tyto výpočty standardně bývají součás větších Retail Management systémů, které pak na základě výsledků vystavují 26
nákupní objednávky směrem k dodavateli a snaží se tak držet stav skladu v op mální rovině. Nevýhoda takového systému je nasnadě – pro výpočet potřebuje data z pokladen, tedy provedené prodeje, což může být u velmi sezónního a módního zboží problém, protože než prodejce nasbírá dostatek dat, zájem opadne a systém mezi m objedná velké množství zboží, které pak ale nenajde odby ště. Specifikem lifestyle retailu v této čás problema ky je rovněž potřeba určit, kolik zboží půjde na odbyt m kterým kanálem – tedy určit, kolik zboží se prodá v kamenném obchodě a kolik v elektronickém obchodě a na základě toho zajis t různá opatření – akce při nákupu přes e‐shop, či větší propagace daného zboží na určitém kanále, op malizace zásob různých skladů, atd. 3.5.3
Umístění obchodů
Obchody bývají většinou umístěny v rámci buď přirozených, nebo umělých center měst, ať už se jedná o náměs , lefestylová obchodní centra, nebo outlety jednotlivých výrobců. Tato centra však nemusí být využívána jen k nákupům, ale i k rekreaci a odpočinku a je na obchodnících, aby využili každou šanci k oslovení zákazníka, který třeba původně ani nakupovat nechtěl. Zde pla poučka, že obchodník, který je pasivní toho příliš nevydělá, za mco obchodník agilní, který vyjde zákazníkovi i bez oslovení vstříc, má většinou štěs více. Samozřejmě to neznamená, že by se prodejce musel jakkoli vnucovat, nicméně znal‐li by zákazníkovu aktuální polohu a věděl tak, že je v nákupním centru nedaleko jeho obchodu, mohl by mu dát buď pomocí textové zprávy nebo emailem na věděnou, že pořídí‐li u něj v obchodě právě dnes nákup, dostane například poukaz na zmrzlinu do nedaleké kavárny. 3.5.4
Zákaznický klub
Vztah zákazníka a obchodníka je zde silnější, než kdekoli jinde – cílem obchodníka je iden fikace zákazníka se značkou jím prodávaného zboží. Jednoduše jde o to, aby zákazník přijal životní styl nabízený obchodníkem, respek ve přizpůsobil ten svůj nabízenému, iden fikoval se s ním. Ve výsledku to znamená, že obchodníci mívají velkou zákaznickou základnu, o které nemusí vždy mít všechny informace, které by mít měli a neumí je využít tak, 27
jak by je využít mohli – na náladě, potřebách a tužbách zákazníka stojí velká část tohoto odvětví a znát alespoň některou z uvedených informací znamená mít náskok opro ostatním, například v podobě zvýšení personalizace v komunikaci mezi obchodníkem a zákazníkem, nebo v odhadu nákupních zvyklos zákazníka či znalos jeho nejoblíbenějšího nákupního kanálu, potažmo ve schopnos sledovat díky svým zákazníkům aktuální trendy. 3.5.5
Zboží
Trh se řídí sezónnos a aktuálními módními a technickými trendy. Jiné oblečení a obuv se budou prodávat v průběhu letní a jiné v průběhu zimní sezóny. Špatné počasí v létě může snížit prodeje plavek a lehkého oblečení, nástup nové technologie zase může při vhodném využi přinést vyšší obraty obchodníkovi s telefony, počítači a podobným sor mentem. Obchodník na začátku sezóny zpravidla od dodavatelů dostane aktuální vzorkovník, který většinou obsahuje síce až dese
síce položek a rozhodnu , jaké zboží vybrat, tedy jaké
zboží se bude prodávat nejlépe, záleží právě na něm – je třeba, aby byl schopný držet krok s aktuálními trendy a zboží vybíral v souladu s nimi a to co nejdříve neboť tyto trendy mívají tendenci být pomíjivými a jsou rychle střídány novějšími a aktuálnějšími.
28
4
Big Data v odvětví lifestyle maloobchodu
Cílem této kapitoly je uvést vztah mezi lifestyle maloobchodním trhem a fenoménem Big Data. Úvodem kapitoly je uvozen vztah mezi maloobchodem a daty, stěžejními částmi jsou pak určení metrik pro změření eventuálních přínosů Big Data pro maloobchod a popis vybraných možnos využi tohoto fenoménu v rámci zkoumaného segmentu trhu.
4.1 Současná situace správy dat v lifestyle maloobchodu
Před m, než budou probrány prak cké přínosy fenoménu Big Data pro lifestyle sektor maloobchodního trhu, které jsou definovány hlavně objevením a otevřením nových informačních zdrojů a kanálů a efek vnějším využi m těch stávajících, nebude od věci uvést dosavadní situaci na poli správy dat v tomto prostředí.
Podle KART (2012) jsou hlavním informačním zdrojem data z prodejů zaznamenaná
v rámci POS22 aplikací, s čímž se nedá než souhlasit, neboť většina peněz v maloobchodě proteče právě tudy. Tato data odpovídají na několik klíčových otázek – co společnost prodala, kolik toho prodala, za kolik to prodala, kde to prodala, komu to prodala (v ideálním případě) a kdo to prodal. Kombinace těchto dimenzí pak v rámci analýzy dat přináší zajímavé náhledy – pobočky s nejvyšším obratem (potažmo marží), celkovou částku poskytnutých slev, zákazníky s největší útratou, nejlépe/nejhůře prodávané zboží, nejúspěšnější pokladní, etc. Pakliže jsou tyto vhledy využity správně, tvoří základ pro podporu rozhodování a plánování v rámci maloobchodu.
22
Point of Sale – pokladní systémy, ekvivalent registračních pokladen
29
Obrázek 10 ‐ jedna z možnos využi pokladních dat (Zdroj: Autor, 2013)
Dalším zdrojem jsou Retail Management
23systémy,
fungující v rámci kanceláří
maloobchodních společnos , jejichž funkcionalita je ne nepodobná běžným ERP systémům a které jsou standardně s POS spojeny, netvoří‐li dohromady rovnou jeden celek. Tyto slouží jako datová centrála a starají se o standardní dokladový koloběh (Prodejní objednávka, Nákupní objednávka, Příjemka, Dodací list, Faktura – zboží prodané přes fakturu přitom v rámci kamenného maloobchodu většinou tvoří menší část z celkových prodejů, jinak je tomu ovšem u elektronického prodeje), spojený se správou skladu, správu karet zboží (jejich vytváření a úpravy), kategorizací zboží, správou zákaznického klubu, etc. Zde stojí za pozornost hlavně část zabývající se správou skladu, neboť mnohé ze systémů využívají výše zmíněná pokladní data (hlavně výši prodejů) pro výpočet množství objednávaného zboží a jeho automa cké a včasné objednání – je však třeba podotknout, že ke správnému výpočtu je třeba většího množství historických prodejních dat, což u velmi sezonního zboží může být z důvodu jeho krátké životnos docela problém. Z informačního i funkčního hlediska je neméně zajímavá správa zákaznického klubu, která povětšinou obsahuje základní osobní a 23
Systémy pro správu maloobchodu
30
kontaktní informace o zákazníkovi, jeho obrat, eventuálně poskytovanou slevu. Tyto informace bývají používány pro reklamní korespondenci, poskytování výhod na základě objemu prodejů a velmi omezené určení návyků zákazníka. Celkově se však jedná jen o základní data, které při sebelepší snaze nelze použít pro hlubší pochopení zákaznických návyků a myšlení zákazníka nebo k dosažení větších úspěchů na poli marke ngu. Tato část je mnohdy nahrazena oddělenými CRM systémy, je však nutno mít na pamě , že i tyto systémy využívají stejných informačních kanálů, jako kmenové RM systémy.
4.2 Základní metriky pro měření přínosů fenoménu Big Data
Jak už bylo řečeno výše, alfou a omegou maloobchodu je zákazník, z pohledu Big Data hlavně z toho důvodu, že dr vá většina dat, ze kterých vychází jakákoli užitečná analýza, pochází právě od zákazníka. V roce 2011 vyjmenovala společnost McMillian Dooli le24, zabývající se konzultacemi v rámci maloobchodu, takzvaných „8c“ zákaznických služeb, což je prak cky rámec, podle kterého by se měli obchodníci řídit, chtějí‐li vytěžit více ze vztahu se svými zákazníky. Tento rámec byl vytvořen na základě „best prac ces25“ napříč celým odvětvím. „8c“ je možno interpretovat následovně: ‐
Sebeurčení (Clarity) – se dá definovat jako upevnění pozice značky. Obchodník si musí uvědomit svoji pozici na trhu, do čehož spadá i soustředění se na specifické zákazníky
‐
Příhodnost (Convenience) – provozování kamenných obchodů na správném místě a ve správném počtu. Druhou důležitou částí tohoto „c“ je provozování správných prodejních kanálů a jejich provázání a zásobovanost
‐
Výběr (Choice) – úzce souvisí se sebeurčením společnsoti – jde o to mít výběr těch správných produktů pro cílové zákazníky, respektive umožnit jim dostatečný výběr odpovídající jejich vkusu a omezit tak jejich přechod ke konkurenci
‐
Komunikace (Communication) – odpovídá komunikaci se zákazníky na všech prodejních kanálech a zařízeních (tedy včetně kiosků, mobilních telefonů, tabletů...)
24
Zdroj: h p://www.retailwire.com/discussion/14992/nrf‐the‐8‐cs‐of‐customer‐service (cit. 23.04.2013) Doslovný překlad se dá vyjádřit jako „Nejlepší postupy/přístupy“
25
31
‐
Tým (Cast) – vytvoření správného a dobře vyškoleného týmu. Cílem je, aby společnost zaměstnávala takové lidi, kteří vyznávají životní styl, jenž propaguje
‐
Kontrola (Controls) – flexibilní procesy prodeje zaměřené na uskutečnění zakázky a její sledování – platí to jak v kamenných obchodech (například příprava jídla, pečení pečiva,...), tak při elektronických nákupech (on‐line sledování vyřizování objednávky, pozice balíku, atp.)
‐
Konzistence (Consistency) – odpovídá ideovému sjednocení (jak v designu, tak v myšlence) společnosti na všech prodejních kanálech
‐
Spojení (Connection) – vyjadřuje potřebu rozvoje hlubšího vztahu se zákazníkem za rámec provedení obchodní transakce
Na první pohled je vidět, že datová analy ka nevyřeší všechny tyto úkoly. Nicméně, ve většině případů z tohoto rámce může přinejmenším velmi pomoci – to činí z „8c“ ideální základ pro vystavění metrik, pomocí kterých lze změřit přínosy fenoménu Big Data do oboru maloobchodu. Na metriky by se samozřejmě šlo dívat i z pohledu informačních technologií, kdy by byla uvedena například rychlost transakce, počet zpracovávaných dat, počet datových formátů, atd. – problém tohoto přístupu však tkví v tom, že je velmi obecný a bere v potaz jen aktuální situaci společnos na poli správy dat – tedy že bude velmi podobný pro různá odvětví a nebere v úvahu možné nové informační zdroje a jejich přínosy. Metriky jsem určil následovně: ‐
Provozní marže – jsou ekvivalentem k měření obratu. Je to z jednoho prostého důvodu; zboží sice může jít na dračku a doslova létat z regálů, ale jsou‐li vysoké provozní, pořizovací a jiné náklady, nemá metrika obratu nijak velkou vypovídající hodnotu. Navíc je třeba neustále mít na vědomí, že jakékoliv využití Big Data musí být nákladově efektivní.
‐
Objem zboží prodaného v rámci jednotlivých kanálů – v potaz jsou brány zejména dva hlavní kanály – kamenné obchody a elektronické obchody.
‐
Skladová obratovost zboží – metrika vyjádřená v kusech a časové jednotce, která měří minimalizaci skladových zásob a to, zda jsou skladem ty správné položky – tedy ty, které nebudou na skladě „překážet“ dlouhou dobu 32
‐
Nedostupnost zboží – Tato metrika je úzce provázána s předchozí KPI. Vyjadřuje počet případů, kdy je zboží nedostupné buď z důvodu nečekaného vyprodání zásob na pobočce, nebo zboží nebylo vůbec zahrnuto v nabídce společnosti. Dostupnost produktů je třeba brát i z pohledu více prodejních kanálů (kdy metrika vypovídá o vhodné/nevhodné distribuci zboží mezi jednotlivé kanály).
‐
Počet přímých konkurentů s nižší cenovou hladinou – ideálním stavem je minimalizace takovýchto případů
‐
Počet transakcí na zákazníka – cílem společnosti ve velmi konkurenčním maloobchodním prostředí je maximalizace počtu loajálních („jistých“) zákazníků, kteří se budou vracet. Podle počtu transakcí se zákazníci mohou dělit na:
o Loajální o Občasné o Nové ‐
Cílem je samozřejmě co nevyšší procento zákazníků loajálních a zvýšení celkového počtu zákazníků
‐
Poměr návštěvníků a zákazníků – tato metrika je vyjádřena podílem zákazníků, osob, které opravdu něco koupili, a návštěvníků, což je číslo vyjadřující počet všech, kteří navštívili obchod nebo elektronický obchod (ale nemuseli přitom provést žádný nákup). Toto KPI by mělo obchodníkovi dát představu o tom, jak velká je ve skutečnosti jeho zákaznická základna (tedy jak velký je počet lidí, které nějak dokázal oslovit do té míry, aby vůbec navštívili prodejní místo) a procento jejího využití
‐
Spokojenost zákazníků – jednoduchá, dotazníkem zjistitelná metrika. Základem jsou tři stupně – Nespokojený, Neutrální a Spokojený. Vypovídá o tom, nakolik obchod, zboží nebo služby odpovídají představám zákazníků
33
4.3 Případy využi fenoménu Big Data v rámci trhu lifestyle maloobchodu
Pozi vní přínosy Big Data do maloobchodu je nutné brát z perspek vy kooperace tohoto fenoménu s jinými novými technologiemi – právě ty produkují tolik potřebná a ceněná data, která jsou pomocí Big Data uložena, zpracována a analyzována. Jsou to technologie jako Web 2.0 a s ním spojené sociální sítě, boom mobilních zařízení, ať už chytrých telefonů, nebo tabletů, hromadné zavádění chytrých senzorů nové generace, RFID zařízení a podobných záležitos – kombinace všech těchto prvků znamenala novou generaci dat, která s sebou přinesla potřebu nových nástrojů k jejich správnému, přínosnému a úplnému využi . Další odstavce proto budou popisovat využi těchto kombinací pro měřitelné přínosy do jednotlivých oblas maloobchodního prodeje. 4.3.1
Řízení skladu a plánování zásobování
Jak už bylo řečeno výše, postupy pro predikci budoucích prodejů jednotlivých druhů zboží existují již dnes – vycházejí však jen z historických prodejních dat a jejich výsledek mnohdy nemusí mít očekávanou vypovídající hodnotu. Navíc dat je někdy (obzvláště jedná‐li se o integrované obchodní řetězce s obrovským počtem denních transakcí na několika prodejních kanálech) tolik, že je problém je jen uskladnit, natož z nich pak rychle dostat užitečné závěry (na obrázku 10 jde velmi dobře vidět, že pokud něco maloobchod pálí, je to právě „Velocity“ – potřeba rychlého zpracování dat – viz POI). Obchodníci proto tato data často hromadí, přičemž využívají jen ta aktuální z několika málo posledních měsíců – a ta stará nechávají nevyužitě „ležet“ tam, kde jsou – nemažou je z toho důvodu, že by se „někdy mohla na něco využít“ a nezpracovávají je proto, že zpracování takového množství dat klasickým důvodem by nebylo nákladově efek vní – tedy že přínosy z takové analýzy by nepřevýšili náklady. Analy cká společnost Gartner si těchto případů všimla i v mnoha jiných odvětvích a souhrnně je pojmenovala jako „Dark data“ (KART, 2012). Právě zpracování těchto dat v kombinaci s daty z nových zdrojů vidí jeden z největších přínosů Big Data pro jakékoli odvětví ekonomiky. Na níže umístěné ilustraci je zobrazena ma ce vyjadřující „horkost“ jednotlivých problémů týkajících se Big Data v rámci jednotlivých odvětví. U maloobchodu (Retail) vidíme, že „Dark data“ tak horká nejsou – jejich samostatné využi a analýza by tedy 34
mnoho užitku nepřinesly – tento, možná trochu překvapivý, aspekt, je dán m, že valná většina maloobchodníků (hlavně těch menších) svá historická data využívat umí. Problémem je však to, že to nestačí, neboť i při plném využi a analýze historických dat se v mnohých případech predikce poptávky míjí účinkem (nový produkt, velmi sezonní zboží...). V rámci výše zmíněné potřeby kombinace jednotlivých informačních zdrojů je třeba tento zdroj zkombinovat s dalším zdrojem ‐ a jelikož původcem poptávky je koncový zákazník, určující trendy, je velmi důležité znát jeho názor.
Obrázek 11 – „Žhavost“ jednotlivých problémů navázaných na Big Data v rámci jednotlivých odvětví ekonomiky (Zdroj: GARTNER, 2012)
Touto otázkou se zabývá obor, nazvaný Sen ment analýza. Ta je úzce propojena
s technologií Web 2.0, v tomto případě zosobněnou sociálními sítěmi, blogy, komunitními projekty a stránkami pro sdílení mul mediálních formátů, zejména videa a audia. Správa a analýza těchto dat plně odpovídá definici Big Data, neboť se jedná o velké objemy dat, často redundantních a v případě mul mediálních dat rovněž nestrukturovaných. Sen ment analýza v té nejjednodušší formě se dá popsat jako analýza textu, zveřejněného v rámci těchto sí ; 35
prak cky jde o to analyzovat texty z různých zdrojů týkající se vybraného tématu – například produktu nově uváděného na trh, kdy je cílem zjis t názor přispěvatelů na tento produkt. V samotném základu jde o zjištění, zda je postoj celkově nega vní, neutrální, nebo pozi vní, i to má však svá úskalí. Ve své práci TAN (2011) tyto problémy uvozuje – nosným sloupem každé sen ment analýzy je průchod textem a spočtení pozi vních a nega vních výrazů týkajících se předmětu analýzy – první takto stavěné analýzy však měly zásadní problém s určením kontextu těchto slov; pro představu, vypovídací hodnota článku, který byl plný pozi v, ale jednalo se o celkový sarkasmus, byla minimálně zavádějící. Další generace této techniky se již snažily podobných chyb vyvarovat, zejména m, že články a příspěvky uváděly do širšího kontextu – v souvislos s autorem a jeho ostatními texty, stránkou nebo skupinou původu a za použi postupně vyvíjeného rámce obecně užívané řeči. Dalším krokem pak bylo prohloubení analýzy na úrovni „Jaká barva produktu je nejzmiňovanější, potažmo nejžádanější?“ a využi jednoho specifika sociálních sí a to provázanos uživatelů. Premisa této vlastnos (nejvíce zřejmá asi na sociální/mikroblogové sí Twi er) je, že uživatelé, kteří jsou na sebe nějak napojení, budou velmi pravděpodobně sdílet stejné názory a vyznávat stejný životní styl, což je, bráno z pohledu lifestyle maloobchodu, velmi důležité zjištění. Řečeno trochu jinotajnými slovy samotného autora: „Hejno nejčastěji tvoří ptáci stejného peří“
Využi takovýchto analýz v plánování zásobování maloobchodu je pak nasnadě; dobře
provedená sen ment analýza pomůže obchodníkovi určit trendy a u zboží nově uváděného do prodeje mu odpoví na otázku zmíněnou v podkapitole věnované specifikům trhu s lifestyle zbožím – to ž jaké zboží má nakoupit od dodavatele, aby nezůstalo stát nepovšimnuté na skladě a kolik a kam by ho měl zaskladnit. Kam se netýká jen pevných, kamenných poboček, ale i prodejních kanálů – mnohdy je jedno zboží požadováno více v rámci fyzických obchodů než na těch elektronických.
Závěrem: analýza dat v rámci fenoménu Big Data může obchodníkovi pomoci při
op malizaci skladových zásob. Přínosem je zrychlená analýza všech historických dat (pakliže to nezvládal pomocí klasických přístupů ke správě dat), kterou je třeba zkombinovat se Sen ment analýzou pro prohloubení výpovědní hodnoty predikce poptávky po zboží. Pro změření teore ckých přínosů zavedení takového přístupu je možné použít metriky obratovos zboží, nedostupnos zboží a spokojenos zákazníka. 36
Obrázek 12 ‐ Přínosy Sen ment analýzy pro plánování prodejů v době státního svátku podle IBM (Zdroj: GIGAOM, 2012)
4.3.2
Nastavení cenové hladiny
Úvodem je třeba popsat problém obchodníků provozujících kamenné obchody, který vyvstal v posledním dese le s nástupem nových prodejních kanálů, zejména pak elektronického obchodu. FOEGE (2012) vidí počátek těchto maloobchodních trablů ve službách společnos Google nebo eBay sloužících pro porovnání cen zboží na internetových obchodech. V České Republice na podobném principu funguje například Heuréka. Tyto servery podní ly už tak silnou touhu člověka najít co nejvýhodnější nabídku a nakoupit od toho prodejce, který ji má. Kamenné obchody nejdříve ztrátu podle KALAKATA (2012) příliš nepociťovaly, neboť opro elektronickým obchodům stále nabízeli něco navíc – zejména možnost vyzkoušet a „ohmatat“ si vybrané zboží před samotným nákupem. Zákazníci si však brzy navykli využívat to nejlepší z každého kanálu – cenu z elektronického obchodu a služby obchodu kamenného – pro tento postup se vžil pojem „Showrooming“, neboť zákazníci mají z kamenného obchodu showroom e‐shopu, kde si zboží prohlédnou, vyzkouší, vezmou si bonbon a nákup nakonec provedou přes internet u jiného obchodníka.
Úkolem, před kterým stojí maloobchodníci, je adoptování postupů při cenové
op malizaci, které využívají elektronič marketéři a jejich cílem by mělo být dosahovat stejných, nebo dokonce lepších výsledků, než jejich elektronič konkuren právě na službách
37
užívaných ke srovnávání cen. Klíčem k jeho dosažení je kombinace dvou následujících faktorů: ‐
Ceny nižší, než má konkurence, a to jak v elektronickém obchodě, tak v tom s fyzickou podstatou. V rámci POI srovnatelného s e‐shopy je nutné, aby tyto ceny byly neustále aktuální a měnily se na základě všech podnětů – a to jak vnitropodnikových, tak těch zvenčí. Vnitropodniková data představují data tradiční cenotvorby – ceny nákupů zboží od dodavatele, předchozí množství prodejů v dané ceně a další data produkovaná podnikovými a prodejními systémy. Vnější data jsou symbolizována zejména veřejně dostupnými ceníky konkurence, kdy se může jednat až o miliony řádků dat
‐
Individuální cenotvorba pro jednotlivé zákazníky, založená na demografických datech místa, kde je pobočka lokalizována, datech o zákazníkovi ze zákaznického klubu a jiných datech místního charakteru. Cena stejného produktu se pak na různých místech a kanálech může lišit, kdy jednak nepřekračuje ceny konkurence a zároveň v rámci možností maximalizuje marže
Je vidět, že tento problém opět splňuje podmínky pro použi Big Data analy ky – dat je velké množství a to hned z několika zdrojů a navíc je potřeba je zpracovávat často a rychle, pokud možno každou hodinu, u některých může dojít i ke splnění podmínky různorodos . Analýza těchto informací pomocí Big Data je podle TERADATA (2012) navíc schopna zobrazit vlivy změn cenových hladin na ostatní položky zboží v rámci jedné společnos – například křížovou elas citu nebo produktovou kanibalizaci. Kombinace vnitropodnikových dat a cen konkurence pak dovoluje takovou cenovou op malizaci, která umožňuje cenové hladině držet krok s konkurencí za zachování co nejvyšších marží. V závěru je třeba ještě poukázat na to, že dynamické a individuální určování cen má větší přínos pro obchodníky s nehomogenní a demograficky nestejnou zákaznickou základnou, kteří jsou lokalizováni v urbanizovaných obchodních centrech, což z větší čás odpovídá lifestyle maloobchodu. Hodnotu přínosů je možné definovat pomocí počtu konkurentů s nižší cenovou hladinou a spokojenos zákazníků. Samozřejmě by se mohla nabízet i metrika prodejního zisku, ovšem dle aktuální studie společnos PWC (2013), zaměřené právě na průzkum maloobchodního trhu, není cena na základě průzkumu velkého vzorku respondentů z celého světa pro zákazníka natolik směrodatná, aby se kvůli ní rozhodl utrácet více. To však nijak nesnižuje přínosy tohoto 38
použi zkoumaného fenoménu – obchodníkům má posloužit jako prostředek pro udržení zákazníků a vedení úspěšné konkurenční války na poli všekanálového prodeje. 4.3.3
Podpora prodeje
Jedním z obecných příkladů použi Big Data je analýza logů různých zařízení, čidel, či webových stránek. Využi této metody pro maloobchod se přímo nabízí v analýze chování zákazníků v rámci elektronického obchodu. Vědění, co zákazník v obchodě dělá, jaké zboží si vybral, nebo jak dlouhou dobu výběrem strávil, je pro obchodníky velmi cenné. Mezi nejcennějšími je ovšem znalost uniklých prodejů ‐ jedná se o případy, kdy zákazník zboží „okukoval“ velmi dlouhou dobu, ale nakonec si jej nekoupil. Analýza pomocí Big Data v tomto případě samozřejmě neslouží jako univerzální odpověď na všechno – nedokáže zodpovědět proč nebyl produkt zákazníkem zakoupen, to ani není technicky proveditelné – funguje spíše jako diagnos ka v automobilu; dokáže lokalizovat problém, agregovat jednotlivé případy u zboží s mto symptomem a ukázat na něj, zjištění jeho příčiny a náprava jsou ale už na obchodníkovi, stejně jako vyřešení problémů v případě automobilu na mechanikovi. Produkt může mít například příliš vysokou cenu a je proto třeba upravit model cenotvorby, skladem jsou jen produkty se špatnou velikos a barvou a odpověď je třeba zkusit najít pomocí sen ment analýzy – problémů tohoto druhu může být mnoho.
Novinkou je možnost použi tohoto nástroje i pro obchodníky v rámci kamenných
obchodů. Díky tomu, že Big Data dokáže efek vně zpracovávat i nestrukturovaná, zejména mul mediální data, se začínají využívat systémy pro sledování pohybů zákazníků uvnitř obchodů. Princip je prak cky stejný jako u elektronických obchodů; zákazníci jsou sledováni specializovaným kamerovým systémem, který vyhodnocuje každý jejich krok. Stránku s produktem na e‐shopu zde symbolizuje oddělení regálu se specifickým produktem – pakliže zde zákazník stráví delší dobu, aniž by si odsud cokoli vzal, bude opět někde chyba. Na stejném, ale trochu jednodušším principu potom funguje „stopování“ zákazníků pomocí wi‐fi signálu jejich chytrých telefonů nebo čidel zabudovaných v jejich nákupních košících.
Velkou výhodou elektronických obchodů jsou z hlediska podpory prodejů jistě
automa zované systémy, které doporučují zákazníkovi další produkty na základě toho, co má
39
zrovna v nákupním košíku. Vzhledem k tomu, co bylo uvedeno ke vztahu mezi fyzickým a elektronickými kanály výše, není překvapením, že se podobné pomůcky začínají objevovat i v kamenných obchodech. Společnost Kra
26
začala do jednotlivých amerických obchodů
umisťovat automa zované kiosky – jejich úkolem je, ve spolupráci s chytrým telefonem uživatele, doporučit zákazníkovi recept na večeři či oběd a nahrát mu seznam potřebných položek do telefonu. To je však jen začátek; kiosek recepty doporučuje na základě mnoha údajů – stěžejním údajem je ovšem rozpoznání zákazníka na základě uložených biometrických údajů. To systému umožňuje analyzovat předchozí nákupy, z nichž vychází předpoklad stravovacích návyků analyzované osoby a z celého koloběhu zákaznického klubu tak vypadávají dříve tolik potřebné zákaznické karty. Na základě těchto informací je pak zákazníkovi nabídnuto deset receptů s nejvyšším předpokládaným úspěchem. Jako bonus (po stažení receptu a seznamu zboží do telefonu) je nakonec nabídnuta ochutnávka v podobě součás navrženého chodu, například krekrů. Podobnou cestou se vydal německý obchodník s oblečením METRO27, když ve spolupráci s IBM28 začal provozovat inteligentní převlékací kabinky, které na základě dat ze senzorů a kamer detekují aktuální výběr oblečení zákazníka a doporučují vhodné doplňky nebo subs tuty vybraného šatstva.
Podpora prodejů pomocí Big Data, alespoň v kamenných obchodech, za m může
vypadat spíše jako soubor hraček, než jako vážně míněný přínos. Pravdou však je, že tato zařízení a přístupy jsou odpovědí na postupy elektronických obchodů, které svou úspěšnost již v minulos dokázaly a dokazují dodnes. Je to jedna z dalších podob sbližování všech prodejních kanálů – a jak už bylo uvedeno v čás věnované maloobchodu ‐ obchodníci, kteří jako první dosáhnou rovnováhy mezi všemi kanály, budou nejúspěšnější. Eventuální přínosy lze každopádně změřit na provozních ziscích a hlavně (z hlediska výše zmíněného problému s vícekanálovými prodeji) objemem prodejů na jednotlivých kanálech. 26
Zdroj: h p://www.fastcompany.com/1716684/kra ‐store‐kiosk‐scans‐your‐face‐then‐knows‐what‐feed‐it‐ video (cit. 27.04.2013) 27 Zdroj: h p://www‐05.ibm.com/innova on/nl/outcomes/documents/pdf/Outcomes_retail_nlnl.pdf (cit. 26.04.2013) 28 IBM tvrdí, že mto krokem se spokojenost zákazníků společnos METRO zvedla o 18%
40
4.3.4
Řízení vztahu se zákazníky
Dobrý vztah se zákazníkem je páteří každého maloobchodu – dobré vztahy znamenají více věrných zákazníků ochotných utra t více peněz. Nejsnazším postupem k dosažení takového stavu je individuální přístup ke každému zákazníkovi; Gartner takový přístup nazval „Návratem do budoucnos “29, neboť právě individuální přístup byl kdysi vlastní každému obchodníkovi – všichni znali své zákazníky, jejich návyky a oblíbené zboží. Problémem moderního maloobchodu (a čím větší pobočková síť, m větší problém) jsou však velmi početné zákaznické základny, často se zákazníky, kteří přijdou jen jednou, nebo chodí s velkými časovými odstupy. Tento problém generuje potřebu získání co největšího počtu informací o zákaznících a mechanismů pro správu, analýzu a využi těchto informací. Řešení se nabízí v podobě zákaznických klubů, které ovšem ve své základní podobě nabízejí jen velmi obecný rámec pro získání a využi dat o zákazníkovi. Je příjemné mít zákazníkovu adresu a na tu mu posílat marke ngové materiály, znát datum jeho narozenin a e‐mailem mu poblahopřát. Ale všechna tato data obchodníka k zákazníkovi příliš nepřiblíží – i když schraňuje jeho jméno a příjmení, obsluha obchodu jej stejně většinou nepozná dříve, než použije svoji zákaznickou kartu a generická reklamní sdělení dnes většinou končí v koši nebo nevyžádané poště. Úkolem, před kterým obchodníci nyní stojí, je tedy prohloubení vztahů s jejich zákazníky; k tomu, aby něčeho takového dosáhli, potřebují další, nové informace o lidech, kteří u nich nakupují. Jednou z možnos , které se nabízí, je otevření nových informačních kanálů, symbolizovaných technologiemi nové generace – data produkovaná těmito zařízeními bylo tradičním způsobem velmi ob žné a nákladné zpracovat, Big Data tuto situaci však mění. V první řadě je třeba zmínit biometrická data, která byla uvažována již v předchozím příkladu využi – možnost rozpoznání zákazníka při vstupu do obchodu na základě snímku bezpečnostní kamery je neocenitelná; personál okamžitě ví, kdo právě navš vil obchod, zná jeho jméno, před m zakoupené zboží, kolik utra l. Program dokáže definovat zákazníkův nejoblíbenější styl a doporučit obsluze, jaké produkty mu má nabídnout. Nejedná se přitom o vzdálenou budoucnost – společnost Almax30, zabývající se výrobou figurín pro vystavování oblečení, již do svých produktů zabudovala systémy, které na základě videozáznamu pozorující osoby vyhodnocují její věk, pohlaví, etnickou příslušnost, 29
„Back to the future“ ‐ Zdroj: Market Trends: Big Data Opportuni es in Ver cal Industries, Kart (2012) Zdroj: h p://www.almax‐italy.com/en‐US/Proge Speciali/EyeSeeMannequin.aspx (cit. 30.05.2013)
30
41
dobu pozorování a další charakteris ky – na základě těchto údajů pak obchodník může vyhodno t, které skupiny zákazníků se o jeho zboží zajímají nejvíce a přizpůsobit tomu zaměření svých marke ngových akcí nebo vystavované zboží. Mezi dalšími lze uvést například společnost NEC, která schraňování a vyhodnocování visuálních biometrických údajů adresovala systémem NeoFace31.
Díky všekanálovému prodejnímu prostředí lze mezi nové informační zdroje zařadit i
mobilní zařízení, zejména pak chytré telefony a tablety. Data z těchto přístrojů se povětšinou získávají pomocí specializovaných aplikací obchodníka, které zákazník do zařízení nainstaluje na základě nějakých výhod, plynoucích z jejich používání. Tyto aplikace jednak mohou obchodníka informovat o které zboží (zjištění ceny a dostupnos pomocí QR kódu32) se zákazník zajímá a druhak o tom, kde se momentálně vyskytuje – valná většina podobných aplikací dnes to ž využívá GPS modul telefonů k určení aktuální polohy zařízení. IBM vidí hlavní výhodu takového použi zejména v možnos zjištění toho, zda se zákazník zrovna nevyskytuje někde poblíž obchodu; v takovém případě je pak možné poslat mu slevový voucher mailem nebo právě pomocí výše zmíněné aplikace, či jej upozornit na probíhající výprodej jeho oblíbeného zboží a nalákat jej tak k nákupu.
Jako další, neméně důležitý, informační zdroj pro prohloubení znalos o zákazníkovi je
třeba uvést již zmíněnou sen ment analýzu na sociálních sí ch. Možným příkladem budiž průzkum profilů na facebooku jednotlivých zákazníků, kterým se „líbí“ obchodníkova stránka, nebo určitý produkt. Tento přístup umožňuje ještě hlubší personifikaci zákazníků – ze zákaznických karet, na které dříve byly navázány jen prodeje, se stávají opravdoví lidé se zálibami, oblíbenými knihami a jistým životním stylem. Netřeba snad poukazovat na hodnotu analýzy takových informací pro lifestyle podobor maloobchodu.
Nové informační zdroje tedy mohou o zákaznících přinést velmi obsáhlé informace.
Jelikož se mnohdy jedná o velké objemy dat z většího množství zdrojů, často redundantních a v některých případech nestrukturovaných, jež musí navíc být velmi rychle uložena a zpracována, jedná se o ideální příklad přeměny nových zdrojů v přínosy za pomoci fenoménu
31
Zdroj: h p://www.dvice.com/archives/2012/11/facial‐recognit‐2.php (cit. 30.04.2013) Quick Response Code – typ čárového kódu. Narozdíl od standardního kódu v sobě dokáže nést větší množství informací, například webovou adresu. 32
42
Big Data. Tohoto případu použi se týkají hlavně zákaznické metriky – ať už spokojenost zákazníků, podíl zákazníků na počtu návštěvníků nebo počet loajálních zákazníků.
5
Závěr
Big Data je jistě fenoménem dle slovníkové definice tohoto slova – bezpochyby se jedná o významnou záležitost, která svým způsobem přináší menší revoluci do oboru správy podnikových dat. Možnost efek vního využi nových datových zdrojů, které za m využít nešlo, ať už z důvodu neexistující technologie, nebo nákladové nevýhodnos , znamená mnohem kvalitnější vhledy do reality každodenního fungování společnos a dává tak základ pro ještě lepší rozhodování a plánování. Big Data rovněž nelze brát jako nahrazení tradičních BI přístupů a relačních databází – spíše jako jejich doplněk, kdy se tyto technologie budou navzájem doplňovat a postupem času splynou v jednu, majíc ty nejlepší vlastnos z každého přístupu. V práci jsem poukázal na možné přínosy tohoto fenoménu a vyjmenoval metriky, pomocí kterých lze tyto přínosy změřit; při správném přístupu obchodníkům dovoluje efek vně řídit logis ku podniku a dostat tak správné zboží na správné místo ve správný čas. Zvyšuje jejich konkurenceschopnost na stále konkurenčnějším všekanálovém maloobchodním trhu, neboť jim dovoluje použít přístupy dostupné za m jen obchodníkům v elektronické sféře maloobchodu. Otevírá tak dveře k postupnému sjednocení všech prodejních kanálů, což by mělo být cílem každého obchodníka. A konečně: umožňuje prohloubení vztahu se zákazníky a iden fikaci nových na základě nově získaných informací s velkou vypovídací hodnotou a jejich následné analýzy. Pohled na tuto práci jistě bude zajímavější za několik let, kdy výše uvedené postupy postupně adoptuje většina velkých lifestyle maloobchodníků, včetně těch v České Republice. Do té doby se jistě objeví nové technologie a nové možnos využi a bude zajímavé sledovat, jak si s využi m Big Data poradí menší obchodníci – již nyní se začínají profilovat společnos , které se specializují na prodej analýz lokálním prodejcům. Jednu věc však mohu řici s jistotou; fenomén Big Data se již na trhu prosadil a postavil se na úroveň uznávaným postupům na poli BI a správy dat. Do budoucna s ním tedy lze určitě počítat.
43
6
Terminologický slovník
Termín Enterprise Resource Planning
Zkratka ERP
Extrac on, Transforma on and Loading
ETL
Enterprise applica on integra on Customer Rela onship Management
EAI
Supply Chain Management
SCM
Enterprise Content Management
ECM
Radio‐frequency iden fica on
RFID
Opera onal Technology
OT
Point of Interac on
POI
Middleware
Datová kvalita
DQ
Redundant array of independent disks
RAID
Význam [zdroj] Podnikový informační systém [vlastní definice autora] Výraz je rovněž znám jako datová pumpa. Slouží k extrakci dat ze zdrojových systémů, jejich vyčištění a přeměna do žádané formy a nahrání do datového skladu [NOVOTNÝ, 2005] Systémy pro integraci aplikací [NOVOTNÝ, 2005] Systémy určené pro podporu vztahů se zákazníky či prodejů jako takových [vlastní definice autora] Systémy sloužící jako podpora zásobovacícho řetězce [vlastní definice autora] Systémy pro správu podnikového obsahu (například dokumentace) [vlastní definice autora] Takové zařízení je například vysílač na paltě v kamionu, díky kterému je možné sledovat cestu zboží [vlastní definice autora] Senzory používané pro správnou práci (mimojiné) výrobních zařízení [vlastní definice autora] Interakce mezi zákazníkem a prodejcem [LANEY, 2001] V dis buovaném systému je middleware definován jako vrstva, která leží mezi operačním systémem a aplikacemi na každé straně [KRAKOWIAK, 2003] Data splňují podmínku vysoké kvality, pakliže odpovídají účelu svého využi v rámci procesů, podpory rozhodování a plánování [JURAN, 1964] Technologie, která kombinuje několik disků do jedné logické jednotky, některé ze stupňů
CRM
44
Point of Sale System
POS
Quick Response Code
QR
Retail Management System
RM
(RAID1) využívají k zabezpečení pro ztrátě dat zrcadlení [vlastní definice autora] Pokladní systém. Tyto aplikace slouží jako novodobý ekvivalent registračních pokladen [vlastní definice autora] Druh čárového kódu, který je schopný nést větší objem dat, například webovou adresu [WAVE, 2013] Systém pro správu maloobchodu. Maloobchodní ekvivalent ERP systému [vlastní definice autora]
45
7
Seznam literatury
[1]
MACDONALD, K. Mastering the SAP Business Informa on Warehouse. Indianapolis: Wiley, 2006. ISBN 0‐7645‐9637‐3
[2]
NOVOTNÝ, O., POUR, J., SLÁNSKÝ, D. Business intelligence: jak využít bohatství ve vašich datech. 1. vyd. Praha: Grada, 2005. ISBN 80‐247‐1094‐3
[3]
HILBERT, M., LOPÉZ, P. The World’s Technological Capacity to Store, Communicate, and Compute Informa on. [online]. 2011 [cit. 2013‐09‐04]. Dostupné z: h p://www.sciencemag.org/content/332/6025/60
[4]
GONSOWSKI, D. Judge Peck does it Again! 2013 Proclaimed the “Year of Informa on Governance”. [online]. 2013 [cit. 2013‐10‐04]. Dostupné z: h p://blog.recommind.com/judge‐peck‐does‐it‐again‐2013‐proclaimed‐the‐year‐of‐ informa on‐governance/
[5]
BEYER, M., LANEY, D. The Importance of 'Big Data': A Defini on. Gartner, 2012
[6]
LANEY, D. 3D Data Management: Controlling Data Volume, Velocity, and Variety. [online]. 2001 [cit. 2013‐10‐04]. Dostupné z: h p://blogs.gartner.com/doug‐laney/files/2012/01/ad949‐3D‐Data‐Management‐ Controlling‐Data‐Volume‐Velocity‐and‐Variety.pdf
[7]
NEWMAN, D., BEYER, M. Spotlight on Big Data: Separa ng Fact From Fic on. Gartner, 2012 BEYER, M. a kol. 'Big Data' Is Only the Beginning of Extreme Informa on Management. Gartner, 2011
[8] [9] [10] [11] [12] [13]
KART, L. Market Trends: Big Data Opportuni es in Ver cal Industries. Gartner, 2012 WHITE, T. Hadoop: The Defini ve Guide. Sebastopol: O´Reilly Media, 2012 ISBN 978‐1‐449‐31152‐0 VENNER, J. Pro Hadoop. New York: Apress, 2009 ISBN 978‐1‐4302‐1942‐2 Sqoop Project [online], 2012 [cit. 2013‐16‐04]. Dostupné z h ps://blogs.apache.org/sqoop/entry/apache_sqoop_graduates_from_incubator Pig Project [online], 2008 [cit. 2013‐16‐04]. Dostupné z h p://developer.yahoo.com/blogs/hadoop/posts/2008/10/pig_‐ _the_road_to_an_efficient_high‐level_language_for_hadoop/
[14] FARFAN, B. Retail Industry Informa on: Overview of Facts, Research, Data & Trivia 2011 [online], 2012 [cit. 2013‐08‐04]. Dostupné z h p://retailindustry.about.com/od/sta s csresearch/p/retailindustry.htm
46
[15] RYAN, T. NRF: The 8 C’s of Customer Service [online], 2011 [cit. 2013‐24‐04]. Dostupné z h p://www.retailwire.com/discussion/14992/nrf‐the‐8‐cs‐of‐customer‐service [16] TAN, T. a kol. User‐Level Sen ment Analysis Incorpora ng Social Networks [online], 2012 [cit. 2013‐25‐04]. Dostupné z h p://keg.cs.tsinghua.edu.cn/jietang/publica ons/KDD11‐Tan‐et‐al‐social‐user‐sen ment‐ analysis.pdf [17] FOEGE, A. Price Op miza on Firms Bring Dynamic Pricing to Retail Aisles [online], 2012 [cit. 2013‐26‐04]. Dostupné z h p://data‐informed.com/price‐op miza on‐firms‐bring‐dynamic‐pricing‐to‐retail‐aisles/ [18] KALAKATA, R. Mul ‐Channel to Omni‐Channel Retail Analy cs: A Big Data Use Case [online], 2012 [cit. 2013‐26‐04]. Dostupné z h p://prac calanaly cs.wordpress.com/2012/01/19/omni‐channel‐retail‐analy cs‐a‐big‐ data‐use‐case/ [19] Teradata Advanced Analy cs for Price Op miza on [online], 2012 [cit. 2013‐27‐04]. Dostupné z h p://www.teradata.com/resources/brochures/Teradata‐Advanced‐Analy cs‐for‐Price‐ Op miza on‐eb4772/ [20] MAXWELL, J. a kol. Demys fying the Online Shopper: 10 Myths of Mul channel Retailing [online], 2012 [cit. 2013‐28‐04]. Dostupné z h p://www.pwc.se/sv_SE/se/detaljhandel/assets/demys fying‐the‐online‐shopper‐10‐ myths‐of‐mul channel‐retailing.pdf [21] TISCHLER, L. Kra store kiosk scans your face then knows what to feed it [online], 2012 [cit. 2013‐28‐04]. Dostupné z h p://www.fastcompany.com/1716684/kra ‐store‐kiosk‐scans‐your‐face‐then‐knows‐what‐ feed‐it‐video [22] Shirts can pick a e for you [online], 2012 [cit. 2013‐29‐04]. Dostupné z h p://www‐05.ibm.com/innova on/nl/outcomes/documents/pdf/Outcomes_retail_nlnl.pdf [23] EyeSee Mannequin [online], 2013 [cit. 2013‐29‐04]. Dostupné z h p://www.almax‐italy.com/en‐US/Proge Speciali/EyeSeeMannequin.aspx [24] TREI, M. Facial recogni on tech lets stores remember big spenders, idlers [online], 2012 [cit. 2013‐29‐04]. Dostupné z h p://www.dvice.com/archives/2012/11/facial‐recognit‐2.php
47
8
Seznam obrázků
Obrázek 1 Pohled na strukturu BI (Zdroj: MICROSOFT, 2013) .............................................................. 6 Obrázek 2 Grafické znázornění exponencionálního nárůstu dat (Zdroj: CHUTE, 2008) ........................ 7 Obrázek 3 Ilustrace závislos jednotlivých skupin dimenzí extrémní správy dat [8] ............................ 13 Obrázek 4 Zjednodušená architektura systému Hadoop (Zdroj: CISCO, 2012) ................................... 15 Obrázek 5 Uzlová architektura HDFS (Zdroj: HADOOP, 2011) .............................................................. 16 Obrázek 6 Text před zpracováním metodou Map [10] ......................................................................... 18 Obrázek 7 Text po zpracování metodou Map [10] ............................................................................... 19 Obrázek 8 Grafické znázornění funkce MapReduce [11] ..................................................................... 19
Obrázek 9 Závislost celkových maloobchodních prodejů na jistotě koncových zákazníků a maloobchodníků (Zdroj: EUROSTAT, 2010) .......................................................................................... 23 Obrázek 10 Jedna z možnos využi pokladních dat (Zdroj: Autor, 2013) .......................................... 28 Obrázek 11 „Žhavost“ problémů Big Data na jednotlivých trzích (Zdroj: GARTNER, 2012) ................. 33 Obrázek 12 Přínosy sen ment analýzy (Zdroj: GIGAOM, 2012) ........................................................... 35
48