Z VL Á ŠTNÍ NEPRODE JNÁ PŘÍLOHA | ČERVEN 2014
Bigdata 2 0 1 4
pro efektivnější byznys
Získejte z big dat hodnotné informace Vybíráme nejvhodnější úložiště Deset častých mýtů
S I LV E R PA R T N E R
Bez názvu-21 15 Bigdata_2014_235x297.indd 6
23.06.14 13:43 6/23/14 1:13 PM
BIG DATA | GOVERNANCE
Získejte z big dat hodnotné informace V současnosti je běžnou součástí naší kultury zdravý životní styl. Většina lidí se více či méně snaží žít zdravě a být v kondici, protože se pak cítí lépe, dokáže snadněji vykonávat každodenní činnosti a ví, že se v budoucnu vyhne mnohým problémům. A s big daty je to podobné. I zde totiž platí, že větší neznamená lepší a silnější. Samotný fakt, že lze pomocí různých technologií a nástrojů pracovat s velkými objemy dat, není jistotou, že díky tomu lidé, komerční společnosti či jiné instituce získají více informací nebo jakoukoli jinou užitnou hodnotu, kterou budou schopny využít pro plnění svých cílů. M I C H AL GÜRT NER
C
ílem big data governance je zavést jistá pravidla, principy, technologie a lidské činnosti, které budou směřovat k efektivní správě a vytěNáklady žování velkých objemů údajů Zisk s cílem vytvořit hodnotné inRizika Strategie formace pro své vlastníky a uživatele. Renomé Procesy Jinými slovy lze říci, že big Big data data governance je specifická kultura pro práci s big daty. Majetek Pokud se správně definuje Projekty a dodržuje, odrazí se to nejen ve Růst Analytika všech aktivitách, které komerční i nekomerční instituce vykonávají, ale bude to znamenat i lepší výhled do budoucnosti a eliminaci možných problémů. Pojetí big data governance Nicméně aby se podařilo vytvořit onu „správně definovanou kulturu“ pro práci s big daty a onu big data governance zavést, je poPráce a integrace třeba si odpovědět na řadu otázek a přizpůsobit Aby bylo možné big data využívat, je nutné je jednotlivé oblasti tak, aby se jejich dodržování přenést ze zdrojových systémů a všech možných nebo rozsah samotný nestaly problémem. zařízení, která je generují do cílových úložišť. Příkladem otázek, na které je nutné znát odV rámci tohoto přenosu nebo kdykoli později se povědi, mohou být: musejí vykonat různé transformační úlohy včet■ V jakém stavu je aktuálně kultura pro práci ně integrace s daty z jiných systémů a zařízení. s daty, existuje vůbec, je formalizovaná a dodrŘešení na bázi Hadoopu, která existují, nežuje se? jsou pro datové integrace vhodná ani použitelná. ■ Do jakého cílového stavu se chceme dostat, Toto tvrzení pochází z analýzy „Hadoop is not jaké oblasti big data governance chceme řešit Data Integration Solution“, kterou uveřejnil a jaké jsou priority? Gartner. ■ Existují dostatečné zdroje a kapacity na imHlavním důvodem je fakt, že vlastnosti plementaci a dosažení stanovených cílů, lze jich a funkcionalita běžně dostupných ETL (ELT) náreálně dosáhnout v rámci požadovaného časostrojů žádná jiná řešení zatím neposkytují, vého plánu? a také kvůli tomu, že integrační úlohy nejsou ■ Co implementace big data governance přiizolované, je potřeba je řešit v kontextu a se znanese, lze její přínosy objektivně měřit a jakým lostí okolí a účelu, pro jaký se údaje integrují. způsobem? Na druhé straně však stojí specifické úlohy, Konkrétní oblasti, které big data governance které naopak vyžadují „součinnost“ hadoopopokrývá, popisuje následující text. Definování, implementace a dodržování big data governance vých řešení a mnohdy je vhodné udělat transformační úlohy s big daty právě prostřednictvím lze považovat za klíč k získání hodnotných inHadoopu (procesů Map & Reduce). formací z velkých objemů údajů, protože právě Vzhledem k výše uvedeným faktům je nety pomáhají plnit cíle a stávají se ceněným mazbytné mít k dispozici vhodnou integrační platjetkem firem a institucí.
II
formu, která bude dostatečně flexibilní a robustní. Existuje mnoho způsobů, jakými lze data zachytávat a předávat je k dalšímu zpracování. Svět big dat znamená práci s velkými objemy údajů z různých zdrojů, a proto jsou dalšími důležitými vlastnostmi konektivita, škálovatelnost a rychlost, s jakou dokáže integrační platforma data zpracovávat. Integrační úlohy se v tomto případě nesmí stát úzkým hrdlem a musejí zajistit poskytování dat v podobě, která se nedefinuje, a v kvalitě a čase, jenž splňuje očekávání uživatelů. Pouze v takovém případě lze následně získat požadované výstupy, které pomohou firmám a organizacím plnit jejich cíle.
Porozumění, kvalita a důvěryhodnost Pokud se má z big dat vytěžit maximum, je nutné jim porozumět. Objem, různorodost a rychlost, s jakými se údaje generují, jsou příliš vysoké na to, aby bylo možné big datům porozumět jen na základě jejich manuálního prozkoumávání – ať už ve smyslu prohlížení jejich struktur či hodnot (tedy dat samotných). Kvůli tomu existuje řada softwarových nástrojů, které tyto činnosti dokážou automatizovat. Pokud jsou nástroje dostatečně škálovatelné a dovedou vykonávat analýzu velkého objemu dat během akceptovatelné doby či dokonce v reálném čase, lze jejich výstupem řídit datové toky a v případě zjištění nekonzistencí nebo nevyhovující datové kvality spustit procesy čištění dat či párování záznamů – a to i ve světě big dat. Datová kvalita však není jen otázkou párování a odstraňování duplicitních údajů, ale i jejich standardizací a obohacením. Týká se to širokého spektra dat – nejen názvů firem, jmen lidí, adresních údajů, ale i názvů produktů, nejrůznějších kvantifikačních údajů, metrik nebo prostých textů, které mohou být zdrojem dat například pro analýzu sentimentu. Jakýkoli výstup softwarového nástroje má však omezenou vypovídající hodnotu, pokud se datům neporozumí. Klíčové je proto datům i jejich strukturám přiřadit význam a znát jejich kontext, souvislosti a vztah k činnostem a aktivitám, které firmy a instituce vykonávají. Kvůli tomu je vhodné používat nástroje, jež tuto problematiku pokrývají a poskytují svým uživatelům komfortní uživatelské prostředí. Takové prostředí je rychle přístupné a umožní například zobrazit definici určitého termínu. Následně lze zjistit, jaký je vztah konkrétního termínu k datům, kde se nacházejí, jak vznikla a jakou mají strukturu.
CO M P U T E RWO R L D 12 | 2014
CW12-bd2-3.indd II
20.06.14 14:04
GOVERNANCE | BIG DATA
Transakční aplikace
Analytické aplikace
Analýza
Integrace
Big data
Správa
Kostky
e ac gr te In
Rovněž je potřeba znát informace o tom, jestli jsou data aktuální a zda prošla nějakým procesem obohacování nebo čištění. S tím souvisí správa metadat nejrůznějších IT objektů (např. databázových objektů, struktur Hadoop, ETL, aplikací apod.), jež jsou nedílnou součástí big data governance. Oblast správy terminologie a metadat lze považovat za jednu z náročnějších z pohledu lidských zdrojů. Vyžaduje vysokou míru součinnosti mnoha lidí, kteří se podílejí na definování termínů, jejich vztahů a vazeb do okolí. Lidé zabývající se výhradně IT technologiemi spolupracují s koncovými uživateli, kterým informační technologie nic neříkají – a přesto spolu musí tito pracovníci komunikovat (například při zadávání a specifikaci požadavků na novou funkcionalitu či analýzu využívající technologii big dat). Právě pro zlepšení komunikace a omezení vzniku nedorozumění mezi těmito skupinami lidí je klíčové využití vhodných nástrojů, které usnadňují spolupráci mezi lidmi, jež mluví řečí IT a byznysu. Představit si lze situaci, kdy na základě reportu, který poukazuje na procentuální meziroční nárůst zisku, se rozhodlo o prorůstovém opatření, třeba stavbě nové pobočky firmy. V případě, že nejsou k dispozici přesné informace o tom, co vlastně termín zisk znamená a jaká vstupní data se pro tvorbu reportu použila, by se mohlo stát, že report vykazoval informaci o zisku, který nebyl očištěn od kurzových rozdílů a vytvořil se na základě neúplných údajů – třeba jen za určitý segment či region. Je tedy docela možné, že reálně zisk firmy neroste, a není tedy důvod ke stavbě nové prodejní pobočky. Výše popsané oblasti big data governance pomáhají zvýšit důvěryhodnost i kvalitu dat a informací, na jejichž základě dochází k mnoha rozhodnutím, která ovlivňují chod firem či institucí.
Streamy Datové sklady
Data Změny Kvalita
Životní cyklus
Bezpečnost
Zdroje, zařízení
Součásti big data governance
Životní cyklus a bezpečnost Životní cyklus dat a zajištění jejich bezpečnosti je významnou úlohou, která přímo ovlivňuje náklady a reputaci všech firem a institucí. Včasná archivace dat může například pozitivně ovlivnit výkonnost některých databázových systémů, protože pracují s menším množstvím dat a není nutné je posilovat. Cena za jednotku dat uložených v transakčním systému či v klasickém datovém skladu je vyšší než u údajů ukládaných v Hadoopu či na zálohovacím médiu. Vliv na tuto hodnotu mají také použitý hardware, software a náklady na administraci. Nejen z tohoto důvodu se dnes big data a distribuce Hadoopu používají k tzv. augmentaci tradičních datových skladů – tedy jejich rozšíření o struktury vhodné právě pro ukládání a práci s big daty. Za rozumnou cenu lze tímto způsobem dosáhnout zvýšení kapacity datových skladů a vykonávat pokročilé analýzy velkého množství strukturovaných i nestrukturovaných dat. Další oblastí, kterou je nutné zvládnout a automatizovat, je příprava vhodného vzorku testovacích dat, a tím výrazné zkrácení času testování a nasazení nové aplikace. Zásadně tím lze snížit cenu celého projektu a mít dříve benefity plynoucí z nasazení nové aplikace či procesu. Na bezpečnost dat se dnes kladou vysoké nároky – existuje celá řada regulatorních požadavků a zákonů, které
upravují způsob uchovávání, manipulaci a distribuci citlivých dat. Nejen klasické databázové systémy, ale i distribuce Hadoopu, které slouží k uchování a práci s big daty, je nezbytné sledovat, zajistit jejich bezpečnost a zamezit přístupu neoprávněných uživatelů. Softwarová řešení, která dokážou sledovat a řídit aktivity nejen v distribucích Hadoopu, by měla být součástí majetku organizací – tak se nevystaví nebezpečí ztráty dat a nechtěné publicity nebo vysoké pokuty za porušení zákona.
Zpřístupnění a analýza Big data lze uživatelům zpřístupnit mnoha způsoby, například v podobě reportů s agregovanými údaji, vizualizacemi, smysluplnými pohledy na samotná data či dynamickými obrazovkami s mnoha stále se měnícími informacemi. Jinou možností jsou nástroje založené na principu vyhledávání a indexace obsahu různých datových zdrojů, které však dokážou zobrazovat i relevantní informace, specifické a potřebné pro danou organizaci. Výstupy z analytických, statistických a modelovacích nástrojů jsou jen dalším příkladem prostředí, které propojuje uživatele s big daty. Rozhodující však je, že hodnota jakéhokoli výstupu, obrazovky, reportu či analýzy roste anebo naopak klesá úměrně s tím, jak úplné, kvalitní a důvěryhodné jsou podkladové údaje. V případě, že firmy a instituce budou respektovat výše popsané principy big data governance, dokážou pomocí svých velkých objemů údajů generovat nejen hodnotné informace, které zlepší jejich rozhodování. Zároveň i optimalizují svoje náklady a eliminují možná rizika. A díky tomu budou disponovat solidním základem pro svůj ■ budoucí rozvoj a prosperitu. Autor pracuje jako technický konzultant pro IT
CO M P U T E RWO R L D.C Z
CW12-bd2-3.indd III
III 20.06.14 14:04
BIG DATA | STORAGE
Vyberte si vhodné úložiště V éře big dat firmy shromažďují informace příslovečně nadsvětelnou rychlostí. Tradiční strategie ukládání dat ale s tímto trendem nedokáže udržet krok. Jak se tedy můžete vyhnout potížím s úložišti pro velké objemy údajů?
Společnost Quicken Loans již měla stanovenou strategii pro škálování úložišť, která využívala centralizovanou síť SAN. Pro ukládání big dat však potřebovala více než jen škálovatelný úložný prostor, ale také výpočetní výkon umístěný blízko k uloženým datům. Řešením pro ni byly uzly s Hadoopem. „Můžeme využívat jednotlivé uzly, servery, procesory, úložnou kapacitu a operační paměť, takže je to pro výpočty velmi rychlé,“ pochvaluje si Heová. „Z hlediska nákladů, výkonu i růstu to pro nás má mnohem větší vliv.“ Navíc takové řešení umocňuje a vytváří cestu pro nové paradigma v oblasti podnikových big dat, kde je úložiště levnější a neoddělitelně spojené s výpočetním a úložným výkonem.
Použití levnějších úložišť
STAC Y CO L L E T TOV Á
P
okud jde o big data, úložiště se již nepovažuje za monolitické silo, které by bylo svou povahou proprietární a uzavřené, tvrdí Ashish Nadkarni, analytik IDC. Velké množství těchto systémů se podle něj v současné době nasazuje s využitím interních disků – je to podobné modelům použitým firmami jako Facebook nebo Google, kde je úložiště tvořeno právě interními disky v serverech. Ty přitom mívají v sobě až 48 HDD a samotná platforma ukládání se řídí softwarem. Používají se k tomu univerzální operační systémy, na kterých běží softwarové jádro. Uložená data rostou ročně o zhruba třetinu, uvádí Aberdeen Group. To znamená, že oddělení IT musí zdvojnásobit svou úložnou kapacitu každých 24 až 30 měsíců. „Dnes se na ukládání dat vydává průměrně 13 % z rozpočtů IT,“ popisuje Dick Csaplar, analytik Aberdeenu, a dodává: „Za dva roky by to mohlo být 26 % a potom i 52 %. Velmi brzy se to vymkne kontrole, takže nemůžete dělat stále totéž znovu a znovu.“ Přestože je faktem, že náklady na úložiště klesají, nesnižují se podle něj dostatečně rychle, aby vyrovnaly potřebu dalších výdajů na úložiště, jak objem dat roste. Záplava nestrukturovaných dat také stále stoupá. „Těžkým úkolem, který se každý snaží vyřešit, jsou nestrukturovaná data pocházející z doku-
IV
mentů, u nichž byste nečekali, že z nich budete dolovat informace,“ prohlašuje Vince Campisi, ředitel IT z GE Software, která propojuje počítače, big data a lidi s cílem usnadnit analýzu údajů. „Tradiční principy BI v koncepci a podobě stále platí, ale množství přicházejících informací je mnohem větší, než postačí pro transakce v systémech využívaných pro provoz běžného podnikání.“ Jak tedy vytvořit strategii ukládání dat v éře big dat, škálovat architekturu ukládání dat, aby dokázala udržet krok s daty a růstem podniku, a udržet přitom náklady na ukládání dat pod kontrolou? Poučte se u některých pokročilých uživatelů. Big data nejsou pro společnost Quicken Loans nic nového. Tento on-line poskytovatel hypoték je zvyklý na ukládání a analýzu dat od více než 1,5 milionu klientů a úvěrů na bydlení v hodnotě desítek miliard dolarů. Před třemi lety však s nimi společnost teprve začínala. „Začali jsme se zaměřovat na big data získaná ze sociálních sítí – Twitteru, Facebooku, ze sledování pohybu uživatelů na webu a z webového chatu,“ což je obrovské množství nestrukturovaných dat, vysvětluje tamější ředitelka IT Linglong Heová. „Způsob uchovávání dat je důležitý, protože má dopad na strategii, a to nejen ohledně ukládání, ale také synchronizace se strukturovanými daty či zvyšování vlivu na firmu,“ vysvětluje Heová.
V těsných politických závodech mohou informace způsobit rozdíl. Zeptejte se lidí z poradenské společnosti Catalist. Ta získává údaje od milionů voličů doplněné o obrovské množství „pozorování“ založených na dalších veřejných záznamech, jako jsou třeba transakce v oblasti nemovitostí nebo žádosti o úvěrovou historii dotyčného subjektu. Informace produkované jejími analytickými nástroji sdělují organizátorům kampaně, jaké lidi oslovit, a mohou dokonce doporučit kandidátům, aby přes noc změnili svou volební strategii. „Měli jsme velké úložiště EMC, které jsme vyřadili, protože bylo příliš drahé a spotřebovávalo mnoho energie,“ vzpomíná Jeff Crigler, technologický ředitel Catalistu, a poznamenává, že systému EMC docházela i kapacita. Firma tedy vybudovala cluster serverů NAS, z nichž každý zvládne uložit petabajt dat. „Je to v podstatě velká krabice disků s procesorem, který je dostatečně inteligentní, aby mohl fungovat podobně jako řešení od EMC.“ Disky mají vysokou kapacitu, software nabízí luxusní konfiguraci a funkce zajišťuje nenáročný procesor. Csaplar z Aberdeenu vidí rostoucí trend ústupu od drahých úložišť, která stojí více než dva miliony korun, směrem k levnějším serverům, jež nyní zvládnou udělat více práce. „Výkon těchto zařízení roste a přebírá funkce, které dříve vykonávala specializovaná řešení. Je to podobné, jako když se sítě vyvinuly z rozbočovačů a síťových karet připojených do sítě do funkce umístěné přímo v procesoru,“ dodává Csaplar. Jsem přesvědčený, že se ukládání dat také ubírá tímto směrem, myslí si Csaplar. Namísto nákupu velkých a drahých diskových polí firmy používají přístup JBOD (skupina disků) – nasazují neinteligentní zařízení pro ukládání dat a výpočetní kapacitu serverů k jejich správě. „To snižuje celkové náklady na úložiště a nepřijdete o žádnou funkcionalitu – nebo možná dostanete 80 % výsledků za 20 % nákladů,“ poznamenává Csaplar. Catalist nahradil svá zařízení s cenami více než dva miliony korun za čtyři úložné jednotky
CO M P U T E RWO R L D 12 | 2014
CW12-bd4-5.indd IV
20.06.14 14:05
STORAGE | BIG DATA NAS za tři čtvrtě milionu. „To bylo před rokem a půl,“ a náklady na ukládání dat nadále klesaly. Csaplar očekává, že se na trhu objeví obyčejné levné systémy ve větší míře, až více organizací zjistí, že splňují jejich potřeby. Velcí dodavatelé, jako je EMC, vidí hrozbu, a proto kupují firmy, které dodávají menší úložiště.
Mezera mezi ukládáním a zpracováním Současný software umožňuje ukládání dat ještě blíže k analytickým nástrojům a komprese souborů udržuje nároky na úložiště pod kontrolou. Dodavatelé, jako je HP, respektive její divize Vertica, mají přímo uvnitř databáze k dispozici analytické funkce, které podnikům dovolují dělat analytické výpočty bez nutnosti extrahovat informace do odděleného prostředí kvůli zpracování. Také Greenplum (součást EMC) nabízí podobné funkce. Obě řešení jsou součástí nové generace sloupcových databází, které jsou navrženy tak, aby pokud jde o analytické pracovní zátěže, nabídly výrazně lepší výkon, menší nároky na úložiště a lepší efektivitu než databáze založené na řádcích. Greenplum se nedávno stala součástí firmy Pivotal Labs, nabízející podnikovou platformu PaaS a jež je součástí EMC. Například firma Catalist si vybrala databázi Vertica speciálně kvůli výše zmíněným funkcím, uvádí Crigler. Protože je databáze sloupcová namísto řádková, hledá kardinalitu dat ve sloupci a na základě toho může dělat kompresi. Kardinalita popisuje vztah jedné tabulky dat k jiné na rozdíl od vztahů jeden vůči mnoha nebo mnoho vůči mnoha. V databázi máme sloupec nazývaný „Stav“ pro záznam každé osoby. V souboru o velikosti 300 milionů registrovaných voličů se ale objevuje jen padesátkrát, popisuje Crigler. „V řádkově založených relačních open source databázových systémech, jako jsou například Postgres nebo MySQL, by se objevoval 300milionkrát. Pokud použijete takovou úroveň komprese na všechno – od názvů ulic po příjmení Novák, pak to (a další kompresní algoritmy) přinese z hlediska úložného prostoru obrovské úspory.“ Volba databázové technologie tedy výrazně ovlivní množství potřebného úložného místa. Na straně úložiště pomáhají deduplikace, komprese a virtualizace snižovat velikost souborů a množství dat ukládaných pro pozdější analýzu. A tiering dat je dobře známá možnost rychlého předání nejdůležitějších dat analytickým nástrojům. SSD jsou dalším populárním médiem pro ukládání dat v případě, že musí být rychle dostupná. Tyto systémy udržují údaje v režimu velmi rychlé odezvy, vysvětluje Csaplar. Uchovávají data v těsné blízkosti procesorů, aby tak serverům umožnily rychlou analýzu dat. Původně byly pro mnoho podniků příliš drahé, ale ceny už klesly na úroveň, kdy si vrstvy vytvořené z SSD mohou dovolit i středně velké společnosti, dodává Csaplar.
Vzestup cloudů Cloudové úložiště hraje ve strategiích ukládání big dat stále významnější roli. V oborech, kde organizace působí po celém světě, jako jsou ropný průmysl nebo těžaři zemního plynu, se údaje ze senzorů posílají přímo do cloudu – a v mnoha případech se tam dělá i analýza. „Pokud sbíráte data z deseti nebo více zdrojů, nebudete je pravděpodobně ukládat do svého datového centra, protože to není u tak velkého množství dat nákladově efektivní,“ uvádí Nadkarni z IDC. Například firma GE mnoho let analyzovala data senzorů strojů pomocí technologie big dat kvůli plánování údržby letadel. Campisi říká, že množství údajů shromážděných z listu plynové turbíny elektrárny jen za několik hodin běhu může převyšovat množství dat, která se v sociálních sítích sbírají celý den. Firmy využívají cloud ke shromažďování dat i jejich analýze v něm, takže odpadá potřeba je přenášet do datového centra. „Společnosti jako Amazon vám poskytnou výpočetní vrstvu pro analýzu těchto údajů přímo v cloudu. Když jejich rozbor dokončíte, můžete je vždy přesunout, řekněme z vrstvy typu S3 na vrstvu typu Glacier (Ledovec),“ dodává Nadkarni. Glacier představuje extrémně levnou možnost uložení dat, kterou oznámil Amazon Web Services v loňském roce. Je určená pro uchovávání dat „u ledu“ po celá desetiletí. Další dodavatelé mají podobné služby cloudové archivace, uvádí Csaplar a poznamenává, že tyto nabídky se profesionálně spravují za velmi dostupnou cenu a mohly by například sloužit jako konečné místo uložení starých pásek. Při velmi nízkých cenách za gigabajt je hodně těžké takové nabídce odolat. „Jakmile dojde k pročištění údajů a nebudou obsahovat žádné citlivé informace, můžete je do takovéhoto archivu dát, a snížit si tak nároky na vlastní datové centrum,“ radí Nadkarni.
I běžné podniky se už zajímají o použití cloudu pro ukládání a analýzu dat. Asi 20 % šéfů IT dotázaných analytiky IDC uvádí, že se zaměřili na cloud jako na způsob rozšíření analytických schopností, i když mají k dělání analýz vlastní datová centra. „Je to hlavně ze dvou důvodů,“ vysvětluje Nadkarni. „Zaprvé tyto projekty často neřídí IT oddělení. Zadruhé vzhledem k času na nasazení a zprovoznění považuje mnoho podnikových oddělení za jednodušší spustit několik instancí v cloudu, což zabere od pár týdnů po pouhých několik dní.“ Campisi z GE Software tvrdí, že většina zákazníků, které podporují, zatím pořád ukládá a analyzuje data ve svém prostředí. „Přecházíme ale na stále větší využívání cloudové technologie a schopnosti podporovat tuto strategii,“ popisuje Campisi. Také Crigler se snaží přijít na to, jak přenést všechna data Catalistu do cloudu. Tato firma již replikuje do tohoto prostředí své databáze, jež odpovídají identitám voličů, „protože je to velké množství dat, které se používá v době, kdy dochází ke špičkám“. „Ke špičkám dochází čtyři až pět měsíců před volbami. Schopnost rozšířit kapacitu zpracování a využít více disků i procesorů je skutečně důležitá,“ vysvětluje Crigler. Také se snaží najít strategii, která přinese nejlepší výkon za vynaložené investice při využití tohoto typu dat a potřebě dělat analytické dotazy vůči historickým údajům. „Je to velká výzva,“ říká Crigler. Například podle něj je služba Amazon Elastic Block pomalá a S3 ještě pomalejší. Nejlepší možností je nejdražší alternativa – připojené vyhrazené úložiště ve velmi velkých boxech Amazonu, ale to je opravdu drahé. „Musíte tedy najít způsob, jak svá data analyzovat a vypočítat křivku cena/výkon pro různé druhy a stáří dat, a optimalizovat úložiště na základě svých skutečných potřeb,“ dodává Crigler. Mnoho firem se stále potýká s ranými fázemi svých strategií ukládání big dat, ale zanedlouho budou běžnější hyperškálovatelná výpočetní prostředí, jako využívají třeba firmy Google nebo Facebook. „Děje se to,“ prohlašuje Nadkarni. „Celý tento návrh úložiště založený na levných serverech s mnoha disky je přímým důsledkem zvyků oddělení, které Amazon, Facebook, Google a další následovaly.“ V Silicon Valley některé startupy nabízejí úložné systémy big dat založené na principech právě od výše zmíněných gigantů. Na nedávné konferenci VMworld „bylo minimálně deset firem se zakladateli, kteří dříve pracovali ve společnostech Google nebo Facebook,“ popisuje Nadkarni. „Z právních důvodů nemohou startupy přesně okopírovat magické řešení využívané jejich dřívějším zaměstnavatelem, ale principy jsou tam už dobře zavedené,“ vysvětluje Nadkarni. „Za pár let uvidíte, jak si tento princip hyperškálovatelnosti nachází cestu do běžných podniků, protože nebude ■ existovat jiný způsob, jak to efektivně udělat.“ CO M P U T E RWO R L D.C Z
CW12-bd4-5.indd V
V
20.06.14 14:05
Big data nejsou jen chiméra. Zrychlí auto i vylepší přihrávku Jenson Button řadí první rychlostní stupeň, červená světla zhasínají a formule týmu McLaren-Mercedes vyráží do dalšího závodu. Ve stejnou chvíli začnou do datového centra týmu plynout informace z desítek senzorů umístěných v automobilu.
S
oučasné závody Formule 1 jsou sportem, který je extrémně závislý na rychlosti. Už dávno ale ne jen na rychlosti pilotů jednotlivých monopostů, ale také na tom, jakou rychlostí dovedou technici týmu vyhodnocovat informace tekoucí z vozu přímo do jejich počítačů. Analyzovat je po závodě a připravovat se na ten další rozhodně nestačí – změny v nastavení auta se musí provést ještě během závodu.
A nemusí to pochopitelně platit jen o týmu Formule 1. Velkými objemy dat dnes disponuje celá řada firem, schopnost je využít může být nejdůležitějším faktorem rozhodujícím o úspěchu či neúspěchu.
Zažijte fotbal jinak
Big data v realitě Již několik let můžeme ve světě informačních technologií sledovat dva zřejmě nejdůležitější trendy – big data a cloud. I když o nich mluví snad každý, představit si pod nimi něco reálného neumí úplně všichni. Snad i proto řada firem stále váhá, nakolik jsou tyto trendy pro ně důležité a co jim mohou přinést. V podstatě se tak samy brání vlastnímu úspěchu. Firma, která dnes nemá dostatek informací o svém podnikání včas, je totiž odsouzena k neúspěchu. Spojení obou těchto trendů, které přinesla společnost SAP v podobě SAP HANA Enterprise Cloud, umožňuje firmám analyzovat v reálném čase skutečně obrovské množství dat a tyto informace okamžitě využít k řízení svého byznysu. Podle odhadů IDC překročil celkový objem dat umístěných v databázích v roce 2013 6 bilionů terabajtů (1 TB = 1 099 511 627 776 bajtů). Velká část může zůstat ležet bez užitku. Ale nemusí. Příkladem mohou být právě závody Formule 1 a tým McLaren-Mercedes, který ve své centrále ve Velké Británii implementoval právě platformu SAP HANA Enterprise Cloud. Propojení in-memory technologie s cloudem umožňuje přímo v centrále společnosti analyzovat telemetrická data obou automobilů v reálném čase. I když se jede třeba Velká cena Koreje či Singapuru na opačné straně zeměkoule, mohou technici ve Wokingu nedaleko Londýna jít až do takového detailu, že upraví funkci turbodmychadla ve voze některého z jezdců týmu, případně mohou, ve spolupráci s týmem na okruhu, upravovat závodní strategii. Přitom právě v letošním roce prochází Formule 1 zřejmě největší proměnou za poslední roky. Mění se auta i pravidla. Tým McLaren-Mercedes F1 je ale na tyto novinky díky spolupráci se SAP připraven. Schopnosti in-memory platformy SAP HANA umožňují proměnit informace ve znalosti rychleji než kdykoli předtím.
VI
Nejde ale jen o tréninky hráčů jednoho týmu. SAP spolupracuje také s německou fotbalovou reprezentací. Ta využívá možnosti analýzy obrovského množství dat, kterou nabízí SAP HANA, ke zpětné analýze zápasů. Obrázky z kamer umístěných kolem hrací plochy jsou ukládány na servery a analyzovány po jednotlivých políčkách. Díky tomu je možné získat detailní informace o pohybu každého hráče po hřišti, ale také třeba identifikovat, jaké chyby vedly k obdržené brance. Často se říká, že hráč během utkání nemá čas přemýšlet, že může jen reagovat. Big data ale mohou pomoci proniknout do našich myšlenkových procesů – právě díky nim lze zpětně analyzovat chování toho kterého hráče v konkrétní situaci a zjistit, kterou vyhodnotil dobře a kdy se naopak rozhodl špatně. Téměř by se dalo říci, že big data nás znají lépe než my sami sebe.
Technologie vylepší trénink Big data mohou proměnit i mnohem méně technologické sporty, než je právě Formule 1. Na první pohled by se mohlo zdát, že jedinou technikou, která pomáhá fotbalistům, je ta kopací. Bundesligový tým TSG Hoffenheim se rozhodl, že při získávání informací o tréninku a výkonnosti svých hráčů nebude spoléhat jen na to, co vidí trenér a jeho asistenti. A tak se spolehli na SAP HANA. Senzory, které jsou umístěné v míči a které mají jednotliví hráči na těle, ale také v holenních chráničích či v oblečení, umožňují získávat v reálném čase informace o pohybu jednotlivých hráčů po hřišti, jejich zrychlení či třeba o práci s míčem. Během jediného zápasu posbírají tyto senzory až 60 milionů pozičních informací, které se v reálném čase ukládají na servery SAP HANA a mohou se okamžitě analyzovat a zobrazovat. Trenéři mají k dispozici data i z fyzické přípravy, mohou zjistit, kde jsou slabiny toho kterého hráče, a zaměřit se na ně. Stejně tak samotní fotbalisté mohou třeba při tréninku v posilovně okamžitě sledovat na obrazovkách, jak si stojí ve srovnání se zbytkem týmu. Že to je pro sportovce velmi motivační prvek, je asi zbytečné zdůrazňovat.
Právě tyto informace mohou zcela změnit pohled, jaký máme dnes na sledování sportovních utkání. Až dosud si musel fanoušek vybrat mezi komfortem televizního přenosu a atmosférou na tribuně. Brzy to možná bude jinak. Právě díky úžasným schopnostem, které nabízí SAP HANA Enterprise Cloud, bude moci každý fanoušek přímo na stadionu sledovat detailní informace o hře na svém telefonu či tabletu. Bude se moci kdykoli podívat, jak si ten který hráč stojí. Na rozdíl od některých českých klubů týmy v Bundeslize si uvědomují, jak důležití pro ně fanoušci jsou. I proto se s nimi chtějí podělit o celou řadu zákulisních informací, třeba na sociálních sítích. Profesionální tým musí mít profesionální komunikaci. S aplikací SAP Social Media Analytics by NetBase mohou lidé zodpovědní za komunikaci identifikovat důležité příspěvky na sociálních sítích, zachytit případné stížnosti fanoušků v diskuzi nebo třeba poznat, co je za■ jímá.
Big data na vlastní oči Analýzu hráčů německé reprezentace můžete vidět na vlastní oči. A dokonce v kamiónu, který jinak převáží vozy Formule 1. Do Česka totiž dorazí SAP Big Data Truck. K vidění v něm bude samozřejmě i celá řada dalších příkladů, jak mohou big data posloužit právě vašemu byznysu. Vice informací získáte na adrese: www.sap.com/ms/sap-big-data-tour.html
CO M P U T E RWO R L D 12 | 2014
CW12-bd6.indd VI
20.06.14 14:18
PRAXE | BIG DATA
Deset rozšířených mýtů: Jaká je skutečnost? V poslední době se technologii big dat věnuje velká pozornost. Nabízela se jako možné řešení pro všechno – od detekce narušení přes předcházení podvodům až po léčbu rakoviny či stanovení optimálních cen produktů. Big data však nejsou všelékem na každý problém.
„Nehledě na velikost vaší organizace je lepší, abyste se rozhodovali na základě dat a nespoléhali se jen na intuici či pocity,“ radí Darin Bartik, výkonný ředitel produktového managementu divize Information Management Solutions ve společnosti Dell. Menší podniky mohou dělat rozhodnutí na základě dat méně často než ty velké, ale zase mohou svůj směr korigovat rychleji. „Menší společnosti mohou využívat osvědčené postupy, aby lépe využily data k rozhodování a překonaly či takticky porazily větší a pomalejší konkurenci,“ vysvětluje Bartik. MÝTUS
MARIA KO ROLOVOV Á
P
okud firmy věří v některé mýty, které big data obklopují, mohly by se kvůli tomu vydat špatným směrem, ztratit mnoho času a peněz a mohlo by je to stát jejich konkurenční postavení na trhu nebo poškodit jejich pověst. Zde jsou některé z největších mýtů, které se okolo big dat stále točí.
„Víme, že tam někde uvnitř se skrývá poklad, a konečně máme výpočetní výkon, abychom se k němu dostali,“ říká Farrell a dodává, že kombinace analýzy dat s odbornými lékařskými znalostmi otevírá zcela novou oblast prediktivního zdravotnictví. MÝTUS
MÝTUS
1
Big data zvládnou jen datoví vědci
Ve skutečnosti samotní datoví vědci nestačí. „Samotní tito lidé nedokážou z big dat informace získávat, pokud v první řadě nevědí, co hledají,“ upozorňuje Pat Farrell, šéf pro analýzy dat ve zdravotnickém ekosystému Penn Medicine. „Potřebujete specializované pracovníky, kteří oboru rozumějí, mají znalosti z dotyčné oblasti, chápou možné otázky a pohledy, které by pro váš konkrétní obor byly cenné.“ Zmíněný Penn Medicine zahrnuje jak samotný systém zdravotní péče, tak lékařskou univerzitu. Prvně jmenovaná divize po dlouhou dobu shromažďuje klinická data ve svém datovém skladu, na její univerzitě zase nová technologie umožňuje dekódování lidského genomu, které s sebou nese obrovské množství dat.
2
Čím více dat, tím větší hodnota
Shromažďování dat, jejich ukládání a katalogizace vyžadují čas a zdroje, připomíná Farrell. Bezhlavý sběr velkého množství údajů ale může vytížit zdroje, které byste jinak použili na důležitější projekty. Farrell proto doporučuje, aby společnosti měly dříve, než začnou data sbírat, jasnou představu konkrétní metriky nebo klíčového ukazatele výkonu, které požadují. „Chcete se dostat do bodu, kdy máte hrst plnou zlatých valounů – moudrosti, jež je pro vás cenná,“ vysvětluje Farrell. „Samotná uložená data nestačí.“ MÝTUS
3
Big data jsou jen pro velké společnosti
Větší firmy mohou mít více vnitřních zdrojů dat, ale i malé organizace mohou efektivně využít data pocházející ze sociálních sítí, od vládních úřadů a dodavatelů dat.
4
Všechna data se vytvořila stejně
Státní úřad ve Virginii posledních 20 let shromažďuje data o zapsaných studentech, stipendiích a diplomech. Neznamená to ale, že údaje shromážděné před 20 lety a uložené ve stejném datovém poli nutně obsahují stejná data. „Největším problémem je chápání dat – protože jde o encyklopedická data, výzkumníci si myslí, že se získala podle stejných pravidel,“ vysvětluje Tod Massa, ředitel datových skladů a výzkumu pravidel tamější Rady vysokých škol. Například data o výsledcích standardních studentských testů se původně sbírala jen za místní studenty, potom došlo k pauze a nakonec se shromažďují i za ty, kteří pocházejí ze zahraničí. Podobně se rozdílně sledují údaje o etnické příslušnosti. Ve skutečnosti se mohou libovolná data nahlásit odlišně – z důvodu existence jiné instituce, jiného období nebo v důsledku změn personálu v těchto organizacích. „Domnívám se, že se smysl dat v průběhu času mění,“ upozorňuje Massa. V důsledku toho je potřeba, aby analytici měli nejen statistické schopnosti, ale také znalosti dat a trendů v oboru jako celku. „Nemůžete všechny tyto záležitosti naprogramovat do datového skladu,“ dodává Massa. Totéž platí i pro externí zdroje dat. „Údaje shromažďované v průběhu například posledních 50 let se mohou dramaticky změnit. Pochopení kontextu je pro dobré využití dat skutečně nezbytné,“ upozorňuje Massa. MÝTUS
5
Nasbírejte teď a přeberte později
Úložiště jsou stále levnější, ale nejsou úplně zadarmo. Mnoha firmám však roste chuť na data rychleji, než jak klesají ceny úložišť, prohlašuje Brad Peters, výkonný ředitel společnosti Birst, která je dodavatelem cloudového řešení business intelligence. Firmy si myslí, že budou sbírat data a teprve později přijdou na to, co s nimi budou moci dě- ▶ CO M P U T E RWO R L D.C Z
CW12-bd7-8.indd VII
VII 20.06.14 14:06
BIG DATA | PRAXE
Význam pojmu big data se pravděpodobně změní stejně, jako je tomu u cloud computingu, a nijak se to neliší od toho, co se stalo s webem či samotným internetem. Pojem se může změnit, ale smysl big dat zůstane. BRYAN HILL, TECHNOLOGICKÝ ŘEDITEL, CADIENT GROUP
lat, popisuje Peters a dodává: „Vidím řadu velkých korporací shromažďujících kvanta údajů, jejichž náklady pro tuto činnost stále rostou, a přitom jim to nepřináší žádnou hodnotu.“ Ve skutečnosti podle Peterse u některých množin dat začíná platit zákon klesajících výnosů. Řekněme například, že děláte průzkum, abyste dokázali odhadnout výsledek voleb. Potřebujete pro reprezentativní vzorek získat určitý počet lidí. Po dosažení tohoto bodu ale už přidávání dalších lidí statistickou odchylku významně neovlivní. „Ukládáte spoustu dat s nadějí, že vám poskytnou o něco vyšší přesnost?“ ptá se Peters. „Nebo pořizujete více personálu? Zabezpečujete lépe své sítě? Nepostupujete moc rychle z důvodu nedostatečného růstu ekonomiky a rozpočtů.“ Nejsou to ale jen náklady na úložiště, jak upozorňuje Dean Gonsowski, ředitel pro správu informací a big data z firmy Recommind, která se specializuje na analýzy nestrukturovaných dat. Například únik dat může podle něj společnost značně poškodit. Data uložená v datových skladech mohou být navíc předmětem různých důkazů na základě rozličných soudních sporů. A konečně – čím více dat máte, tím déle trvá jejich přebrání. „Když jsou v archivu miliardy záznamů, trvá vyhledávání odpovídajících informací hodiny nebo i týdny,“ popisuje Gonsowski a dodává: „Velké množství informací skutečně začíná blokovat činnost systémů, které se nikdy nevytvářely pro zvládání takových objemů.“ MÝTUS
6
Čím konkrétnější prognóza, tím lépe
Je lidská přirozenost myslet si, že když je něco konkrétnější, je to také přesnější. Časový údaj 15 h 12 min. je přesnější než „někdy odpoledne“. Meteorolog, který předpovídá, že v neděli ráno bude určitě pršet, je přesnější než ten, který předpovídá „padesátiprocentní šanci na přeháňky o víkendu“. Ve skutečnosti je ale pravdou opak. V mnoha situacích platí, že přesnější předpověď je méně pravděpodobná. Řekněme například, že zákazník koupí zcela konkrétní notebook s jasnou konfigurací. A jediný další klient, který si produkt s naprosto stejnou konfigurací koupil v minulosti, si přibral k nákupu také pár růžových lodiček na jehlovém podpatku. „Doporučení pro prodejce růžových lodiček na jehlách může být velmi konkrétní, ale může mít velkou statistickou odchylku,“ upozorňuje Jerry Jao, výkonný ředitel v marketingové organizaci Retention Science. Obchodní a marketingoví manažeři se ale podle něj s tímto stavem setkávají zcela běžně.
VIII
MÝTUS
7
Big data jsou totéž jako Hadoop
Hadoop, populární open source databáze pro nestrukturovaná data, poutá velkou pozornost. Jsou zde ale také i jiné možnosti. „Existuje celé hnutí NoSQL,“ popisuje Irfan Khan, šéf a viceprezident divize Big Data ve společnosti SAP. „Jsou zde technologie jako MongoDB, Cassandra a řada dalších.“ Některé z nich se mohou pro konkrétní projekt big dat hodit lépe než ostatní. Konkrétně Hadoop funguje tak, že rozdělí data na části a pracuje na více úsecích současně. Tento přístup řeší mnoho problémů big dat, ale ne všechny. „Někdy musíte záležitost zvládnout způsobem, pro který Hadoop není ideální,“ upozorňuje Grant Ingersoll, technologický ředitel společnosti LucidWorks, která poskytuje poradenství pro big data. „Lidé potřebují zachovat rozvahu a vybrat pro sebe nejlepší řešení, ne se nechat zlákat popularitou toho, co používají ostatní,“ dodává Ingersoll. MÝTUS
8
Big data se hodí jen na velké problémy
Ředitel IT ve velké bance nedávno hovořil o technologii pro big data a dostal otázku na možnost samoobslužného využití koncovými uživateli. „Uvedl, že mu to nepřipadá možné,“ vzpomíná Peters ze společnosti Birst. Je zcela běžné, že si někteří manažeři myslí, že technologie pro big data dokáže odpovědět jen na určité typy otázek. Takový přístup lze shrnout následujícími slovy: „Naším cílem využití big dat je vyřešit jen několik málo problémů s velmi vysokou hodnotou s využitím práce datových vědců. Nechceme datový chaos, kde přístup k těmto informacím mají i běžní lidé, protože si nemyslíme, že to potřebují.“ Peters ale s tímto přístupem nesouhlasí a dodává, že je přitom v mnoha oborech běžný. „Je to rozbujelý mýtus uvnitř hlavně velkých pojišťovacích společností, že podnikoví uživatelé prý nejsou dost chytří, aby to zvládli.“ MÝTUS
9
Koncoví uživatelé nepotřebují přímý přístup k technologii big dat
Rychlý přísun big dat z různých zdrojů a ve velkých objemech může vytvářet dojem, že je to příliš složité na to, aby s touto technologií mohl pracovat i běžný zaměstnanec. Nemusí to však nutně být pravda. Vezměte si například všechny údaje získané z přístrojů na jednotce intenzivní péče. Srdeční frekvence, údaje o dýchání a výsledky EKG. Lékaři a zdravotní sestry mohou příliš často vidět jen aktuální naměřené hodnoty pacienta.
„Nemohou se podívat a vidět, jaké to bylo před deseti minutami, nebo pomocí grafu odhadnout to, co bude za hodinu,“ popisuje Anthony Jones, marketingový ředitel společnosti Philips Healthcare. Možnost vidět historická data pacienta může být pro lékaře při rozhodování velmi cenná. „Lpění na týmu datových vědců může v tomto případě způsobit ztrátu velké příležitosti,“ varuje Jones. V současné době je potřeba zajistit, aby všechna ta různá zařízení generující data spolu komunikovala, přestože k tomu původně nebyla navržená, a používají se různé platformy, operační systémy a programovací jazyky. Jakmile se vám to podaří, musíte data dostat do použitelné podoby a zpřístupnit je například zmíněným lékařům a zdravotním sestrám v okamžiku, když je potřebují. MÝTUS
10
Bublina big dat nakonec praskne
Humbuk v podobě různých módních technologií se v cyklech objevuje a zase mizí, ale transformační změny zůstávají. Internetová bublina praskla – ale neznamenalo to přece konec samotného internetu. A i když humbuk časem utichne, podniky budou i dále big data využívat. Ve skutečnosti budou v důsledku exponenciálního růstu využívat big data ve větší míře, než kdy předpokládaly – například IDC předpovídá, že celkové množství shromažďovaných údajů se do roku 2020 každé dva roky zdvojnásobí. Nejde ale jen o to, že firmy budou shromažďovat více údajů, než sbírají v současné době. Objeví se pravděpodobně nové typy dat, která budou vyžadovat obrovské množství úložného prostoru. „Dostaneme se do bodu, kdy se například u každé osoby přijímané do nemocnice bude mapovat její genom,“ tvrdí Anthony Jones z Philips Healthcare. „To umožní detailní přizpůsobení péče o pacienta. Když mluvíme o big datech, jde o obrovské množství dat. Nemyslím, že si mnoho šéfů IT opravdu uvědomuje, o kolik se zhorší situace okolo úložišť.“ Tím, že firmy budou považovat big data za pouhou fázi, mohou ztratit příležitost zachytit údaje, které by mohly mít na jejich podnikání vliv v budoucnu, varuje Bryan Hill, technologický ředitel společnosti Cadient Group, která se specializuje na interaktivní marketing. „Význam pojmu big data se pravděpodobně změní, stejně jako je tomu u cloud computingu, a nijak se to neliší od toho, co se stalo s webem či samotným internetem,“ vysvětluje Hill. „Pojem se může změnit, ale smysl big dat zůstane.“ ■
CO M P U T E RWO R L D 12 | 2014
CW12-bd7-8.indd VIII
20.06.14 14:06