Bigdata
pro začátečníky
Bez názvu-31 ob1 Bigdata_def.indd 7
a pokročilé
21.6.12 16:12 6/21/12 3:25 PM
Všechny firmy bojují s nekončícím nárůstem objemu dat, vyvolávajícím tlak na jejich efektivní správu a zabezpečení. Tento boj zpravidla nemá vítěze. Řešení nespočívá v nákupu novějších, větších, efektivnějších či výkonnějších serverů a úložišť dat pro IT, které se „o TO přece postará“. GTS Data Storage je na míru vytvořené řešení pro ukládání dat, které je vysoce efektivní, bezpečné a škálovatelné. Využívá mimo jiné prověřenou infrastrukturu datových center a spolehlivou datovou konektivitu. GTS nabízí v garantované kvalitě komplexní portfolio telco a ICT služeb zákazníkům z oblasti firem a veřejné správy.
Více o službách a referencích najdete na GTS.cz a GTSworkingworld.com Vyberte si seminář zdarma
BigData-2012-obalka.indd ob2
21.6.12 8:22
EDITORIAL
Sázka na jistotu
B RADAN DOLEJŠ, ŠÉFREDAKTOR COMPUTERWORLDU
ig data nejsou žádným prázdným marketinkovým slovem. Jde o funkční a existující technologii, která si zaslouží vaši pozornost.
Téměř 70 procent společností používá, nebo alespoň zvažuje či plánuje používání big dat. Toliko podle průzkumu softwarového integrátora Informatica Corporation. Největším důvodem pro zpracovávání big dat je nezvladatelně rychle rostoucí objem zpracovávaných dat. Roste také potřeba analyzovat události v sociálních sítích, zpracovávat komunikaci prostřednictvím mobilních telefonů a také řídit komunikaci mezi přístroji (machine-to-machine). K největším problémům, které respondenti u big dat vidí, patří zejména stále ještě nevyspělé nástroje pro zpracování velkých objemů dat, absence podpory při práci s daty v reálném čase, nevyjasněné otázky ohledně bezpečnosti a soukromí a nedostatek zkušených vývojářů pro práci s big daty. Průzkumu se zúčastnilo na 600 odborníků z celého světa. Výsledky takového průzkumu tedy nelze hodit za hlavu. To nechceme udělat ani my ve vydavatelství IDG. Proto jsme v redakcích Computerworldu a CIO – BusinessWorldu připravili pro vás speciální letní přílohu Big data pro začátečníky a pokročilé. Kromě redakčních článků, které by vás měly do problematiky zasvětit, přinášíme také pohledy firem, které mají k tématu co říci. Věřím, že vám tento průvodce big daty bude nápomocný. Přeji vám příjemné čtení. ■
W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 3
3 21.6.12 8:43
Obsah 6
18
Otevřené úložné systémy se ZFS
Big data majestátně vstupují do firem
20
Posuňte byznys
22
Správné informace ve správný čas
23
Data jsou důležitější než virtualizace!
24
Big data – jedinou cestou je komplexní řešení
26
Velká data jsou výzvou
27
Abeceda velkých dat
28
In-memory computing, bič na spoutání big data
30
S patřičným výkonem přeměníte big data ve znalosti
32
Big data budou časem norma
34
Big data (nejen) v marketingu
36
Velká data vyžadují špičková datová centra
37
Výkonná datová infrastruktura pro nejnáročnější prostředí
38
Příležitost pro IT profesionály
9 Zamezí big data i atakům hackerů?
10 Připravte se na big data
12 Open source a big data
14 Hadoop: Velká příležitost pro korporátní data
4
B I G DATA 2 0 1 2
BigData-2012.indd 4
21.6.12 8:30
IT & Business Regatta – C I O B U S I N E S S W O R L D C U P 2012 12 0 2 í ř á z . 15.–19 o k s t a v r o h Kaštela, C
Nově 2 kategorie lodí: FIRST 45 a FIRST 35
Až 20 lodí na startu!
www.itregatta.cz
BigData-2012.indd 5
21.6.12 8:31
Big data majestátně vstupují do firem Nová sada technologií pro dolování informací slibuje navždy změnit způsob, jakým využíváme obrovská úložiště dat – zvýší se rychlost a zároveň se i sníží cena. STAC Y CO L L E T TOV Á
P
ředpovědi jsme slyšeli všichni: Do roku 2020 se množství elektronicky uložených dat zvýší na 35 bilionů gigabajtů, což je 44násobek od roku 2009. Pro šiřitele poplašných zpráv je to zlověstná předpověď soudného dne pro úložiště. Pro oportunisty informace o zlatém dole, jehož bohatost bude odkrývána s rozvojem pokročilých technologií. Vstupte do světa označovaného pojmem „big data“ (rozsáhlá data). Vzniká skupina technologií dolování dat, která více než kdy předtím zrychluje a zlevňuje
Vytvoření etapy pro rozsáhlá data Big data určená pro běžné korporátní zákazníky se v této době objevila do jisté míry i díky nižší ceně vztažené k výpočetnímu výkonu a díky tomu, že jsou počítače schopny zpracovávat více úloh najednou. Ceny operačních pamětí také poklesly a společnosti mohou na rozdíl od minulosti zpracovávat řadu dat přímo v nich. A co více, je snadnější propojovat počítače do serverových clusterů. „Kombinace těchto tří faktorů způsobila vznik pojmu big data,“ prohlašuje Carl Olofson, analytik správy databází v IDC.
Ale ne každá společnost s obrovskými datovými sklady může říci, že využívá technologii big data. Aby vznikl nárok označovat technologii právě tímto pojmem, musí podle IDC splňovat alespoň dvě ze tří kritérií, která IBM definovala jako tři „V“: variety (různorodost), volume (objem) a velocity (rychlost). „Různorodost“ znamená, že se data nacházejí ve strukturovaných i nestrukturovaných podobách. „Objem“ představuje to, že je množství shromažďovaných a analyzovaných dat opravdu velmi velké. A konečně „rychlost“ se vztahuje k tomu, že data musejí být zpracovávána rychle. „Nejde vždy o stovky terabajtů,“ vysvětluje Olofson. „V závislosti na případu použití může být několik set gigabajtů docela velké množství z důvodu důrazu na další parametr, kterým je rychlost nebo čas. Pokud lze provést analytický proces na datech o objemu 300 GB v řádu sekund, zatímco dříve to trvalo hodinu, tak to významně mění možnosti práce s daty či toho, co lze dělat s výsledky – takže tím vzniká další hodnota. Big data je tedy již dostupná aplikace, která splňuje alespoň dvě ze tří uvedených kritérií.“
Souvislost s open source
ukládání, manipulaci i analýzu velkých objemů dat. Technologie big dat se stávají díky využití prostředí superpočítačů dostupné pro velké množství organizací, a to změní způsob, jakým podnikají. Stejně jako cloud byl také pojem „big data“ předmětem velkého humbuku a velké míry nejasnosti. Požádali jsme analytiky a nadšence z oboru, aby vysvětlili, o co jde a o co naopak nikoli, a také aby odhadli, co mohou big data přinést do budoucnosti dolování dat.
6
„Nemůžeme tyto věci jen dělat správně, ale musíme je také provádět za cenu dostupnou pro většinu,“ vysvětluje. „Některé z velkých superpočítačů v minulosti nabízely silný multiprocesing systémů, které byly propojeny dohromady v rámci těsně provázaných clusterů. Jejich cena ale šla do stovek tisíc dolarů nebo více, protože šlo o specializovaný hardware. Nyní si lze pořídit tento druh konfigurací s využitím levných komoditních řešení. To dovolilo zpracovat více dat rychleji a levněji.“
„Mnoho lidí považuje platformu Hadoop a big data za synonyma. To je omyl,“ vysvětluje Olofson. Některé implementace Teradata, MySQL či „chytrých clusterových technologií“, které nevyužívají Hadoop, lze také za big data považovat. Platforma Hadoop, aplikační prostředí pro big data, získala v nedávné minulosti většinu pozornosti, protože je založena na principu MapReduce, což je přístup běžný v oblasti supercomputingu, který byl zjednodušen a v elegantní podobě vytvořen v rámci projektu z velké části placeného společností Google. Hadoop je převažující implementací kombinace úzce souvisejících projektů Apache včetně databáze HBase, která je použita právě v prostředí MapReduce. Softwaroví vývojáři zareagovali přípravou mnoha různých technik, jejichž cílem je optimální využití platformy Hadoop a podobných pokročilých technologií – mnoho z nich přitom bylo vyvinuto v komunitách open source. „Vytvořili závratnou rozmanitost takzvaných NoSQL databází, které jsou většinou založeny na párování klíčových hodnot a jež pomocí různých technik optimalizují propustnost, různorodost nebo velikost,“ uvádí Olofson. Technologie open source ale nejsou komerčně podporovány, takže se budou tyto
B I G DATA 2 0 1 2
BigData-2012.indd 6
21.6.12 8:43
věci muset chvíli vyvíjet a tříbit, což může trvat několik let. To je rodící se aspekt big dat, který ještě chvíli neponese ovoce pro obecný trh, dodává Olofson.
Modernizované RDBMS Oboroví pozorovatelé se neshodnou, zda upgradované systémy správy relačních databází lze také považovat za technologii big dat. „Myslím si, že vyhovují kritériím rychlejší, větší a levnější,“ tvrdí Olofson. Podle něho například Teradata zajistila vyšší dostupnost svého systému, který je škálovatelným clusterovým prostředím. Ostatní však nesouhlasí. „Zpracování, které běžně děláte pomocí RDBMS s využitím standardních nástrojů BI, to skutečně nejsou big data,“ prohlašuje Marcus Collins, analytik správy dat v agentuře Gartner. „Takové zpracování tady je dlouho.“ Takže kdo tedy skutečně analyzuje big data? Ještě před rokem byly primárními uživateli technologie big dat velké webové společnosti jako například Facebook nebo Yahoo, které chtěly analyzovat data ohledně klikání svých uživatelů. „Dnes však dochází k přesunu směrem k libovolným firmám, které pracují s velkými objemy informací,“ tvrdí Collins. Banky, služby, zpravodajské komunity – všichni se přidávají k trendu big dat. Některé z technologií jsou aktivně využívány těmi, kdo jsou v problematické situaci, protože je již nyní potřebují – například jsou závislí na tvorbě webových služeb řízených sociálními médii. Proto také k rozvoji těchto projektů intenzivně přispívají. Také v ostatních oborech si firmy uvědomují, že pro ně mají informace větší
hodnotu, než dosud předpokládaly, takže se pravděpodobně brzy také stanou významnými uživateli technologií big dat. Spojte si to s dostupným výkonným hardwarem i softwarem – a je tu záplava příležitostí pro transformaci podnikání. Například společnost TRA pomáhá organizacím měřit hodnotu televizní reklamy srovnáváním odvysílané inzerce s nákupním chováním u maloobchodních pokladen. Pro zjištění těchto souvislostí sbírá uvedená firma data z digitálních videorekordérů poskytovatele kabelové televize a programů věrnostních karet potravinových obchodů.
my z digitálních videorekordérů, integrovat je s podrobnými daty z prodejen a následně vytvářet zakázkové reporty. „Kognitio využívá technologii in-memory, takže v operační paměti může být polovina naší současné databáze. To znamená, že čas odezvy na dotazy našich zákazníků může být v řádu sekund namísto nedávných hodin či dnů,“ pochvaluje si výkonný ředitel TRA Mark Lieberman. Databáze běží na komoditním hardwaru, přičemž TRA užívá svoji vlastní aplikaci, která zprostředkovává data uživatelům a je naprogramována na platformě Visual Studio.Net. Greg Belkin, analytik společnosti Aberdeen Group, potvrzuje, že nástroje používané firmou Existuje velké množství zmatku ohledně definice rozsáhlých dat TRA i dalšími mají požaa jejich použitelnosti. Uvádíme tři mýty o rozsáhlých datech: dovanou rychlost, objem 1. Relační databáze nemohou růst do velmi velkých objemů, a různorodost, aby je bylo a proto je nelze považovat za technologii pro big data. (Není možno označovat za big to pravda.) data. „To všechno je v malo2. Hadoop nebo rozšířeně libovolné prostředí s MapReduce je obchodě velmi důležité, pronejlepší volbou pro big data, a to nezávisle na pracovní zátěži tože existuje mnoho prudce nebo případu použití. (Také to není pravda.) rostoucích zdrojů dat, které 3. Éra schématických systémů správy databází je u konce. Vývoj nebylo tradičním způsobem schématu při nasazení big dat jen překáží. (Absurdní nemožné zkoumat, jako jsou pravda.) například weby sociálních Zdroj: IDC, „The Big Deal About Big Data,“ únor 2011 médií, digitální videorekordéry či data z věrnostních karet potravinových obSystém big dat, s nímž pracuje TRA, chodů,“ prohlašuje Belkin. zpracovává obrovské množství dat, která „Tato data jsou tak komplexní a je jich toreprezentují přesné zachycení zvyků slelik, že je nelze analyzovat tradičními databádování televize u 1,7 milionu domácností. zovými metodami, takže se prodejci obracejí U TRA je nasazena databáze Kognitio k platformám big dat.“ WX2, která společnosti umožňuje rychle Podobně proměnila technologie big dat načítat, profilovat a analyzovat informace, i podnikání firmy Catalina Marketing. Ta sbírat podrobné údaje o zobrazení reklaprovozuje obrovskou databázi informací
Tři mýty o rozsáhlých datech
Inzerce
COMPUTERWORLD
na papíru, v počítači, mobilu i tabletu za jednu cenu! Roční předplatné tištěné a elektronické verze Computerworldu nyní jen za 429 korun. Jako bonus navíc i roční předplatné tištěné verze CIO Business Buss Bu CIO World a SecurityWorld.
nyní jen za
429 Kč! PPřečtěte si svůj vůůj Computerworld opravdu kdekoliv. ZZa jedno e no zvýhodněné zv odněnéé předplatné nyní získáte Computerworld nejen v tištěné variantě, ale také jeho elektron elektronickou verzi vhodnou pro stolní počítače, mobily i tablety.
+
Máte mobily pod kontrolou?
ČTVRTLETNÍK O INFORMAČNÍ BEZPEČNOSTI 49 Kč y 1,96 € | ZÁŘÍ 3/2011
Přeehlled bezpečnostního Přehled bezpečnosstního o so softwaru oftwaru u p pro ro o smartphony sm martphony
Kam kráčí šifrování
Je standard Je stan ndard AESS sstále tálle ještě jeeště dostatečný? dosta atečn ný?
Podniková SOA
SSouhrn ouhrn h hrozeb, rozeeb, jjež ež jíjí h hrozí rozí
Přitažlivá správa zranitelností Zabraňte nebezpečným situacím hned v zárodku
Zvýhodněné předplatné objednávejte na adrese http://cw.idg.cz W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 7
7 21.6.12 8:31
NoSQL zastiňuje starší RDBMS IT oddělení se obracejí na moderní architektury NoSQL a NewSQL namísto tradičních relačních databází. Ty sice zřejmě v dohledné době neskončí, ale dny jejich slávy jsou zřejmě u konce.
vztahujících se k zákaznické věrnosti. Má velikost 2,5 petabajtu a obsahuje údaje o několikaleté historii nakupování u více než 190 milionů prodejců potravin. Její největší databáze má neuvěřitelných 425 miliard řádků a každý den přibývá dalších 625 milionů řádků. Prostřednictvím analýzy dat pomáhá Catalina hlavním výrobcům spotřebitelského zboží a řetězcům supermarketů předpovídat, co budou zákazníci pravděpodobně kupovat a kdo se bude zajímat o nové produkty. „Chtěli jsme přinést technologii pro data, a nikoli data pro technologii,“ prohlašuje Eric Williams, viceprezident a ředitel IT společnosti Catalina. „Nyní už existuje řešení, které společnostem jako SAS umožní přesunout své analytické technologie přímo do databáze. To exponenciálně změnilo celou naši korporaci. Tyto věci jsme samozřejmě dříve také dělali, ale s výraznými limity, které nám nedovolily dosáhnout vytoužených cílů. Museli jsme využívat nástroje vyvinuté svépomocí, které byly ve svých možnostech skutečně velmi omezené. Přínos technologie big dat změnil celou naši organizaci.“ Kromě určitého open source softwaru v proprietárních systémech využívá Catalina řešení SAS Analytics na platformě appliance datového skladu Netezza. „Korporace vyvíjejí technologii tak, aby fungovala na obecném hardwaru založeném na procesorech Intelu – to dovoluje využívat funkce sekundárních či terciárních produktů (například skórovacích řešení SAS Analytics) přímo na platformě Netezza, která provozuje příslušnou databázi,“ vysvětluje Williams. „Možnost vzít tuto technologii a použít ji rovněž k operacím nad databází přinesla společnosti Catalina zrychlení dolování dat z původního časového rámce týdnů na nynější hodiny.“ Big data od základu mění také způsob, jakým funguje Bank of America, tvrdí Abhishek Mehta, nedávný šéf divize pro big data a analytiku této banky. „Pohlížím na platformu Hadoop jako na Linux před 20 lety. Všichni jsme viděli, co Linux udělal ve sféře podnikového softwaru. Přinesl masivní změny existujícího podnikového IT prostředí. Hadoop udělá totéž.“ Kromě analýzy transakcí a dat o kliknutích umožňuje Hadoop bance Bank of America rychle vyřešit podnikatelské problémy. „Nyní můžeme jako banka vážně přemýšlet o efektivní eliminaci podvodů,“ tvrdí Mehta. „Můžeme vytvořit model sledující každý výskyt možného podvodu pět let dozadu pro každého klienta – namísto současného vzorkování, vytváření modelů a zjišťování výjimek z nich vybočujících. Takové dny jsou u konce.“ Odvětví služeb teprve začíná chápat velká množství dostupných dat a jimi ne-
8
PAUL KRILL Relační databáze, dlouho kritizovaná část nasazení podnikového softwaru, jsou nyní nuceny sdílet trh s technologiemi lépe vybavenými pro ukládání nových datových struktur a pro práci s moderními hardwarovými systémy. Spolehlivé RDBMS od dodavatelů softwaru, jako IBM, Microsoft nebo Oracle, jsou stále masivně využívány a všechny budou nadále ovládat základní funkce, jako jsou například finanční transakce. Databáze NoSQL a technologie rozsáhlých dat jako Apache Hadoop a MapReduce ale mají místo na scéně, kde se něco děje. „NoSQL představuje databáze, které jsou nerelační, horizontálně škálovatelné, distribuované a open source. Mohou sloužit jako záložní úložiště pro servery webových aplikací, systémy správy obsahu, strukturovaný záznam událostí, úložiště mobilních aplikací na straně serveru a úložiště dokumentů,“ tvrdí Dwight Merriman, spoluautor NoSQL databáze MongoDB. Průkopník databází Michael Stonebraker, hlavní architekt Ingres RDBMS a současný technologický ředitel VoltDB, rovněž kritizuje zastaralé SQL systémy RDBMS a podporuje řešení označované jako „NewSQL“, které podle něho zachovává SQL a relační model stejně jako ACID (atomicita, konzistentnost, izolace a odolnost) a nabízí přitom výkon a škálovatelnost. NewSQL eliminuje díky běhu databáze v operační paměti potřebu vyrovnávací paměti, která spotřebovává IT prostředky. Odstraňuje také nutnost zámků při spouštění jediného vlákna na serveru.
senou hodnotu. Jedna z organizací využívá Hadoop na analýzu dat ze svých „inteligentních měřičů“, které jsou primárně využívány k automatizaci platebního procesu, ale sbírají také informace o výkyvech odběru elektrického proudu příslušným zákazníkem. „Pokud tyto informace shromáždíte a podíváte se na vzory, můžete identifikovat blížící se selhání místního infrastrukturního modulu, jako je třeba transformátor, ještě předtím než k němu skutečně dojde,“ vysvětluje Olofson z IDC. „Nebo pokud dojde k výpadku dodávky energie, způsobí to výkyvy, které pomohou poruchu detekovat.“ Časem podle něho budou dodavatelé energie využívat rozsáhlá data ke zlepšování služeb zákazníkům a ke snížení provozních nákladů díky detailnímu monitoringu elektrické sítě, detekcí problémů a schopnosti upravovat sítě. Bude to ale vyžadovat významné investice do obnovy stárnoucí infrastruktury. Marketingoví specialisté na obchodní značky zase experimentují s platformou Hadoop v oblasti analýzy sentimentu na základě dat ze sociálních médií. Objevují se už i poskytovatelé služby, která využívá Hadoop k „prosévání“ Twitteru podle požadavků svých klientů. Přitom například zjišťují, co přispěvatelé říkají a co si myslí o konkrétních produktech.
Obezřetné zavádění Technologie big dat se rychle vyvíjí. Společnosti, jež ji využívají, mají IT personál, který je výjimečně schopný a dokáže zajistit přizpůsobení změnám technologie i požadavkům vlastní firmy. „Pokud se situace u vás liší, raději využívejte poskytovatele služby – možná cloudové služby – nebo vyčkejte, než dojde k dosažení bodu, kdy bude k dispozici dostatek ověřených softwarových produktů a služeb, které je budou podporovat,“ doporučuje Olofson.
„Budete mít něco, čemu budou lidé ve vaší firmě rozumět.“ Dolování dat se bezpochyby navždy změnilo. Analytici však tvrdí, že technologie rozsáhlých dat zcela nenahradí současné nástroje datových skladů. „Současný datamaining je založen na vytváření relativně důmyslných modelů s nepříliš velkými objemy dat,“ prohlašuje Collins z Gartneru. „Big data ale nyní pracují s obrovským množstvím dat, takže by se mohlo stát, že by již nebyly ony důmyslné modely natolik potřebné. To může znamenat posun ve způsobu dolování dat.“ „Podle mého názoru se ve skutečnosti rozšíří trh datových skladů,“ prohlašuje Olofson. „Budou využívat technologii jako MapReduce (ať už s rozšířením Hadoop nebo nějakým jiným na komerční bázi) k vytváření zajímavých dat postavených na produktech business intelligence, která dříve nemohla být získána. Potom budou kvůli opětovnému využití a sledování historických vzorů tato data ukládat do datových skladů a rozšiřovat tak jejich využití.“ Collins uvádí, že rozsah představuje další výzvu spolu se skutečností, že neexistují ustanovené architektonické vzory pro nasazování a využívání big dat. Některé problémy samy vymizí s příchodem nových nástrojů, ale technologie big dat jsou stále z velké části programovým rozhraním – což je pro BI krokem zpět, vysvětluje Collins. „Například Hadoop je spíše systém pro nadšence. Úsilí v oblasti BI bylo zaměřeno na zavedení užitečných ukazatelů na desktopy patřičných pracovníků, a to s využitím uživatelsky velmi přívětivého rozhraní. S platformou Hadoop jsme se dostali o krok zpět. Noví dodavatelé ale určitě pomohou situaci napravit.“ „Technologie rozsáhlých dat musí vykročit ze sféry IT a musíme dát nástroje do rukou uživatelů z řad firemních oddělení,“ ■ dodává Collins. „To se ještě nestalo.“
B I G DATA 2 0 1 2
BigData-2012.indd 8
21.6.12 8:31
Zamezí big data i atakům hackerů? Rozvoj technologií pro big data podle všeho dá vzniknout datovým specialistům zaměřeným na bezpečnost, kteří budou mít nástroje a potřebné znalosti k odhalování útoků skrytých vetřelců, jejichž záměrem je krást vysoce citlivá data. ELLEN MESSMEROVÁ
C
hytání počítačových zlodějů při činu ve stále rostoucích sítích se ukazuje jako velmi obtížné a big data pro tuto činnost přinášejí novou naději. Je však opodstatněná? Scott Crawford, badatel firmy Enterprise Management Associates, je o tom přesvědčen. „Analytici pracující se statistikami budou schopni identifikovat anomálie, ale nerozumějí bezpečnosti,“ poznamenal během nedávné konference firmy RSA zaměřené na téma big dat. Crawford předpovídá, že se v blízké době objeví řešení využívající bezpečnostní algoritmy pro big data. Všiml si, že už dnes organizace jako Red Lambda a Palantir to jsou schopny dělat pomocí náročné matematické analýzy zaměřené na hledání anomálií. Někteří analytici uvádějí, že záměr útočníka skrývat se je vlastně anomálií v obecně „dobrém“ chování síťových uživatelů uvnitř sítě, kde se útočník často schovává. „V současné době dokážou skrytí útočníci projít tradiční obranou, jako jsou systémy IPS, firewally a antiviry,“ poukazuje Neil MacDonald, analytik Gartneru. Tyto ničivé útoky mající za cíl infiltraci a krádež velmi citlivých dat jsou někdy označovány jako sofistikované ataky typu APT (Advanced Persistent Threats) a jsou prováděny osobami schopnými účinně skrývat svou přítomnost uvnitř podnikových sítí. MacDonald je přesvědčen, že v současné době prostě nelze rozlišit dobré a zlé síťové aktivity. Abyste dokázali zaznamenat odchylky od tzv. klasických aktivit, musíte nejdřív vědět, jak vypadají.
Inovované nástroje SIEM Big data nabízejí nové možnosti pro bezpečnostní analýzy, což by mohlo znamenat, že jeden typ dnes využívaných bezpečnostních nástrojů – SIEM (Security Information and Event Management) a podobné nástroje, nemusí být pro tyto účely dostatečně vhodný, takže bude nutný vývoj jiného produktu. „Do určité míry již tento proces započal,“ tvrdí MacDonald a poukazuje mj. na produkt RSA NetWitness pro detekci hrozeb
nebo na HP ArcSight SIM. Některé začínající firmy, jako třeba CrowdStrike, prohlašují, že problém APT budou schopny řešit zcela inovátorskými způsoby. Budou se však produkty SIEM vyvíjet tak, aby byly schopné zpracovat big data související s podnikáním, nebo nikoli? A není celá myšlenka, že budou rozsáhlá firemní data přidána k tradičnějším datům SIEM z různých firewallů, serverů, systémů IPS apod., aby jim poskytla smysluplnou inteligenci v souvislosti s hledáním útočníků, jen krásnou iluzí? „Lidé nemohou požadované odpovědi dostat od současných nástrojů SIEM,“ tvrdí analytik John Kindervag ze společnosti Forrester. Podle něho se bude muset objevit něco nového, kde budou mít nástroje SIEM roli pouhé komponenty. Jon Oltsik se skupinou Enterprise Strategy Group jsou ale nejskeptičtější, že by technologie big data byla odpovědí na problém útoků APT. „Obávám se, že budeme ukládat větší množství dat a nebudeme vědět, co s nimi dělat,“ tvrdí Oltsik. Šéfové zabezpečení v současných podnicích podle něho nejsou nijak výrazně nakloněni myšlence, že by byla technologie big data nějakým zvláštním přínosem pro zabezpečení jejich infrastruktury. „Když mluvím s CSO a zeptám se jich na big data, doslova se smějí,“ popisuje Oltsik současnou situaci. Přesto jsou však výsledky některých raných osvojitelů použití big dat pro bezpečnostní účely nadějné. Například bankovní holding Zions Bancorporation vytvořil obrovské úložiště pro aktivní analýzy kombinace dat ze zabezpečení v reálném čase a firemních dat. Cílem je zjišťovat phishingové útoky, předcházet podvodům a odrážet pokusy hackerů o vniknutí. Tvoří ho datový sklad Zettaset využívající Hadoop pro distribuované aplikace s vysokými nároky na práci s daty.
Dodavatelé produktů SIEM ale prohlašují, že rozruch okolo big dat a zabezpečení teprve začíná. „Je to cesta, kudy se musejí produkty SIEM do budoucna vydat,“ říká Matt Ulmer, ředitel produktového managementu společnosti NetIQ, která je výrobcem produktu SIEM s názvem Sentinel. Ulmer tvrdí, že bezpečnostní odvětví je teprve na počátku cesty k nalezení modelu SIEM se začleněnou firemní inteligencí. „Big data mohou odhalit to, co se vymyká běžnému modelu,“ tvrdí Ulmer. Ulmer však zdůrazňuje, že není snadné definovat to, co je dobré. Upozorňuje, že útočník může „převzít účet, takže je otázka, zda jde o zaměstnance nebo o útočníka“. Tajné útoky podle něho probíhají jen pár sekund každý den, takže cílem je definovat důvěryhodného zaměstnance tak, aby byl odlišen od útočníka. Big data k tomu mohou poskytnout velkou pomoc.
Překážky v cestě Ulmer však dodává, že koncept zabezpečení s využitím big dat bude z mnoha praktických důvodů čelit překážkám. Jedním z praktických omezení pro dosažení živatoschopných produktů je současný obecný tlak na přesunutí podnikových dat do cloudu, kde je tradiční použití SIEM obtížnější než při jejich nasazení v rámci infrastruktury podnikové sítě. Další překážkou je, že CSO věřící v možnosti technologie big data budou muset vytvářet nové strategie a doporučení. V době, kdy jsou s vedením firem řešeny další podnikové problémy, například zda povolit používání osobních mobilních zařízení pro firemní účely (BYOD), může být zavedení technologie big dat do oblasti bezpečnosti obtížně prosaditelné. ■ W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 9
9 21.6.12 8:31
Připravte se na big data diktivní inteligence v reálném čase musejí techničtí manažeři své podnikové architektury pro správu informací vyvíjet tak, aby podporovaly pokročilé analýzy datových skladů, které mají velikost terabajtů či dokonce petabajtů (a s potenciálem rozšíření na exabajty a zettabajty).
Téměř každá organizace má přístup ke stabilnímu toku nestrukturovaných dat – ať už pocházejí například ze sociálních sítí nebo ze senzorů sledujících výrobní prostory. Jen proto, že produkuje tento silný tok informací, však ještě neznamená, že je potřeba ukládat a zkoumat každý bajt. „S počáteční vlnou očekávání kolem big dat cítí lidé umělou potřebu pochopit všechna data pocházející z webových protokolů nebo senzorů,“ tvrdí Neil Raden, analytik společnosti Constellation Research. Část této touhy může mít počátek v enormní snaze dodavatelů i konzultantů, kteří dychtí po příležitosti nasadit
„Lidé z IT vždy říkají, že chtějí najít způsob, jak se dostat blíže potřebám podniku – a big data nabízejí příležitost udělat přesně to,“ prohlašuje Williams. Chytří IT lídři by neměli čekat, že se mozaika poskládá sama, a měli by začít připravovat sebe a své organizace na prosazení transformace, radí Mark Beyer ze společnosti Gartner. Uvádíme pět hlavních akcí, které by měli techničtí manažeři nyní provést, aby vytvořili správné základy pro budoucí éru podnikových big dat.
v podnicích platformy pro big data. „Existuje určitý tlak od lidí, kteří tuto technologii komercionalizují,“ poznamenává Raden. Inteligentní IT manažeři by měli místo toho vytvořit určitý filtr, který jim pomůže zjistit, jaké údaje jsou a jaké nejsou pro organizaci důležité. „Prvním dobrým krokem je udělat si podrobný přehled, jaká data jsou vytvářena interně, a určit i externí zdroje dat, pokud existují, aby se zaplnily mezery ve znalostech a získal se další pohled na firmu,“ prohlašuje Raden.
Už máte svůj plán pro big data? Pokud ne, možná budete chtít o nějakém přemýšlet. B E T H STAC K PO LEOV Á
T
echnologie big dat je oslavována (nebo medializována, záleží na úhlu pohledu) jako klíčový strategický projekt podniku budoucnosti. To znamená, že je jen otázkou času, než firemní manažeři budou chtít vědět, co si o tom myslí jejich oddělení IT. Co jim říci? Aby bylo jasno, zvládání velkých objemů dat není pro většinu IT oddělení nic neznámého, ale jak analytici říkají, big data se od technologií datových skladů, dolování dat a business intelligence, které přišly dříve, skutečně liší. Data jsou generována s větší rychlostí a variabilitou než kdykoli dříve a na rozdíl od údajů v minulosti je většina z nich v nestrukturované a surové podobě (někdy se pro ně používá název „gray data“). Blogy, sociální sítě, senzory strojů a nástroje využívající údaje o poloze vytvářejí zcela nový vesmír nestrukturovaných dat, která – když jsou rychle zachytávána, spravována a analyzována – mohou pomoci společnostem odhalit fakta a vzory, které v minulosti nebylo možné spolehlivě rozpoznat. „Dlouhou dobu jsme shromažďovali data, ale bylo to velmi limitované – produkce byla hojná, ale nikdo s tím nebyl schopen něco významnějšího udělat,“ říká Paul Gustafson, ředitel technologických programů Leading Edge Forum společnosti Computer Sciences. „Docházelo k archivaci dat a k modelování v souvislosti s podnikovými procesy, ale ne k modelování v rámci širšího souboru základních znalostí o podniku. Mantrou je posun od sběru k souvislostem.“ Jak tvrdí Eric Williams, ředitel IT společnosti Catalina Marketing, je to příležitost vstoupit do kanceláře výkonného ředitele a prohlásit: „Mohu změnit firmu a poskytovat znalosti na dosah ruky během několika sekund za cenu, která nebyla před několika lety vůbec dosažitelná.“ Williams by to měl vědět – Catalina udržuje 2,5petabajtovou věrnostní databázi zákazníků, která obsahuje údaje o více než 190 milionech klientů největších maloobchodních potravinářských řetězců v USA. Tyto informace jsou používány k výrobě pokladních kuponů podle historie nákupů. Williams i další pozorovatelé říkají, že při přechodu organizací do éry pre-
10
1
Proveďte inventuru dat
B I G DATA 2 012
BigData-2012.indd 10
21.6.12 8:31
Jakmile se rozběhne zjišťování rozsahu dat, IT oddělení by se mělo zaměřit na velmi dobře zaměřené projekty, které mohou být použity k prezentaci výsledků – na rozdíl od monstrózních projektů big dat. „Nemusíte utratit několik milionů dolarů na zahájení projektu, abyste zjistili, zda se vůbec vyplatí,“ připomíná Raden.
2
Nechte převládnout podnikatelské potřeby
Možná jste to už slyšeli dříve – přizpůsobení IT samotnému podnikání je pro tuto iniciativu rozhodující, stejně jako jsou big data potřebná pro rozsah a rozmanitost informací. Řada prvních příležitostí pro big data se totiž objevila v oblastech mimo IT segment – například oddělení marketingu se snažilo analyzovat komunikaci sociálních sítí, aby získalo lepší představu o požadavcích zákazníků a nákupních trendech. Zatímco specialisté v konkrétních oborech na podnikatelské straně mohou rozeznat příležitosti pro vydělávání peněz, je povinností oddělení IT postarat se o sdílení informací a koncepci sdružování dat, které jsou nedílnou součástí strategie pro big data. „To není něco, co mohou udělat oddělení IT samostatně,“ upozorňuje Dave Patton, hlavní analytik pro správu informací ve společnosti PricewaterhouseCoopers. „Pokud není iniciativa přizpůsobena podnikatelským cílům firmy, bude těžké dosáhnout úspěchu.“ Na počátku iniciativy big dat ve společnosti Catalina Marketing sezval Williams dohromady firemní manažery a skupinu pro plánování a analýzy, aby společně vytvořili podnikatelský záměr. Tento pohled identifikoval oblasti, kde by mohly nové poznatky přinést hodnotu – například při určování následných nákupů podle položek v nákupním košíku nebo pomocí analýz dalších nákupů na základě produktových nabídek. Tým plánování a analýz použil čísla ke kvantifikaci, které výsledky by znamenaly některé kroky, pokud jde například o zvýšení prodejů.
3
Znovu posuďte infrastrukturu
Beyer z Gartneru i další experti jsou přesvědčeni, že ve většině společností budou iniciativy spojené s big daty vyžadovat zásadní změny v infrastruktuře serverů, úložišť a architektuře správy informací. IT manažeři musejí být připraveni rozšířit své systémy, aby zvládli neustále rostoucí sklady strukturovaných a nestrukturovaných dat. To vyžaduje zjistit nejlepší přístup pro vytváření rozšiřitelných a škálovatelných systémů a vyvinout plán pro integraci
všech dílčích systémů, které budou do analýzy big dat zapojeny. „V současné době má většina podniků různorodé oddělené systémy pro mzdy, pro správu zákazníků či pro marketing,“ tvrdí Anjul Bhambhri, viceprezident produktů big data společnosti IBM. „CIO potřebují strategii pro integraci těchto separátních řešení a k vybudování ,systému systémů‘. Chcete přece klást otázky, na které budou odpovědi získány vyhodnocením dat ze všech odpovídajících zdrojů.“
4
Naučte se tuto technologii
5
Připravte personál
Svět big dat přichází s dlouhým seznamem nových zkratek a technologií, se kterými se pravděpodobně ředitel IT dosud nikdy nesetkal. Největší pozornost je věnována nástrojům open source. Technologie jako Hadoop, MapReduce či NoSQL získávají dobrou pověst díky jejich implementaci webovými giganty, jako jsou Google a Facebook, kteří díky ní spravují své studnice informací. Mnohé z těchto technologií jsou ale stále poměrně nezralé a vyžadují personál s velmi specifickými schopnostmi, přestože už nyní existují i v komerčně dostupných podobách. Další technologie, které jsou důležité pro svět big dat, zahrnují analytiku v rámci databází, sloupcové databáze a appliance datových skladů. IT manažeři a jejich týmy budou muset tyto nové nástroje pochopit, aby byli schopni přijímat správná rozhodnutí.
Většina podnikových IT oddělení výrazně postrádá talenty potřebné k provádění kroků spojených s big daty – chybějí jim experti na Hadoop i takzvaní
datoví vědci. Analytické schopnosti jsou v tomto směru zřejmě nejdůležitější a je to oblast, kde má většina IT personálu největší mezery. Společnost McKinsey očekává, že jen v samotných Spojených státech bude do roku 2018 potřeba dalších 140 tisíc až 190 tisíc odborníků v oblasti statistických metod a technologií pro analýzu dat. McKinsey navíc předpokládá buď v oblasti podnikání, nebo techniky potřebu dalších 1,5 milionu datově gramotných manažerů, kteří budou mít oficiální výcvik v prediktivní analýze a statistice. U některých firem tedy bude personalistika pravděpodobně jedním z nejproblematičtějších aspektů iniciativ big dat. „Technologie big data rozhodně vyžaduje jiný způsob myšlení a dovedností v řadě oblastí,“ připomíná Rick Cowan, ředitel IT společnosti True Textiles. „Jako u středně velké firmy bylo pro nás obtížné získat pracovníky a zajistit, aby udrželi krok s neustále se měnícím prostředím,“ říká Cowan. Kvůli vyřešení svých potřeb začal s rekvalifikací programátorů a databázových analytiků, aby zvládli pokročilé analýzy. Vedoucí IT oddělení se budou muset sami změnit, aby v novém světě vynikli. Zatímco nejlepší techničtí manažeři minulosti byli částečně knihovníkem informací a zčásti inženýrem infrastruktury, budoucí manažeři IT budou kombinací datového vědce a inženýra podnikových procesů, jak tvrdí Beyer z Gartneru. „Ředitelé IT kdysi spravovali infrastrukturu podle daných firemních pokynů, což je protiklad k těm současným, kteří jsou schopni identifikovat příležitosti a prosazovat inovativní využití informací. To je trans■ formace, která musí nastat.“ W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 11
11 21.6.12 8:31
Open source a big data Náklady, flexibilita a dostupnost kvalifikovaných pracovníků jsou hlavními důvody pro boom softwaru open source. Hadoop, R a NoSQL jsou nyní nosné sloupy mnoha velkých podniků v oblasti strategií big dat, ať už jde o správu nestrukturovaných dat nebo o složité statistické analýzy. B R I AN B LO O M
S
polečnost SAP nedávno vydala nový produkt, BusinessObjects Predictive Analysis, software integrující algoritmy z open source jazyka R, který je značně používán v akademické obci pro pokročilé statistické modelování. Několik týdnů předtím společnost Teradata oznámila, že její nové portfolio integrovaných analýz by mělo zahrnovat funkcionalitu R a stejně tak připojení ke GeoServeru, což je geolokační open source platforma založená na jazyce Java. Bezpočet dalších společností se snaží rychle začlenit podporu Hadoopu do svého portfolia.
profesionální služby a systémovou integraci, aby pomohli zákazníkům v jejich cestě směrem k open source a cloudově orientované analýze. Mnoho z nich se zaměří na Hadoop a jazyk R. „Forrester například považuje Hadoop za jádro nové generace EDW (Enterprise Datawarehouse) v cloudu a jazyk R za klíčovou programovací základnu přicházející vlny in-
Všeobecné přijetí a horečnatá inovace James Kobielus, dřívější analytik Forresteru Research a nyní ředitel programu pro produktový marketing řešení analýz big dat v IBM, tvrdí, že „open source přístupy mají potenciál nejrozšířenějšího přijetí a nejrychlejších inovací“. Za prvé Kobielus vysvětluje, že stejně jako notoricky známé open source produkty – od Mozilly až po Android – získaly široké přijetí v IT komunitě po překonání některých porodních bolestí, open source software pro ukládání dat a analýzy dat je už dostatečně vyzrálý a nehrozí riziko, které zde existovalo před rokem. Za druhé Kobielus tvrdí, že platformy jako Hadoop, R či NoSQL mají oproti proprietárnímu softwaru výhodu, protože se dokázaly vyvinout rychleji. Jsou také mnoha různými stranami neustále rozvíjeny a zdokonalovány. Kobielus předpovídá, že ve světě big dat začne open source velmi brzy dominovat. „Protože se v mnoha datových a analytických prostředích zmenšuje rozšířenost softwaru s uzavřeným kódem, budou mnozí zavedení dodavatelé rozvíjet své obchodní modely právě směrem k přístupům open source,“ říká Kobielus, A také prý rozjedou
12
tegrovaných nástrojů pro vývoj ve sféře big dat. Očekávám také, že se různé open source NoSQL databáze a nástroje spojí do bohatých alternativ k obsahu analytických nabídek s proprietárním kódem,“ dodává Kobielus.
Model Red Hatu Různé podniky přistupují k integraci softwaru open source různými způsoby. Někteří, jako SAP, se rozhodli využívat svou vlastní interní odbornost pro vývoj produktů s funkcionalitou Hadoop nebo R, zatímco jiní (například Teradata) delegují velkou část práce na firmy jako Revolution Analytics, která je jakýmsi ekvivalentem „Red Hatu v oblasti big dat“.
Tato společnost nabízí komerční verzi jazyka R zaměřenou na podniky, stejně jako to Red Hat dělá s Linuxem. „Je to relativně malá společnost stojící vedle gigantů big dat a specializující se na úpravy jazyka R pro různé obchodní procesy,“ vysvětluje David Smith, viceprezident pro marketing a komunitu v Revolution Analytics. „Zabýváme se zejména použitím pro opravdu velké objemy dat.“ „Použití open source řešení ve svých vlastních produktech je způsob, jak se mohou firmy na trhu odlišit,“ říká Smith. „Znamená to, že neděláte totéž co vaše konkurence.“ Smith uvádí, že pro organizace, které používají pokrokový vědecký přístup k analýzám big dat, jsou technologie open source přirozenou volbou. „Tyto společnosti mívají alespoň částečné znalosti z oblasti datové vědy, průzkumu a zvláštností dat a skutečně tíhnou k open source technologiím, protože jsou díky nim flexibilní a poskytují možnosti různých způsobů pojetí práce s daty a zkoumání různých věcí, které s informacemi mohou dělat.“ Scott Gnau, prezident společnosti Teradata Labs, která spolupracuje s firmou Revolution Analytics, je přesvědčen, že velké podniky budou mít největší prospěch z komerčních balíčků technologií open source, které jim pomohou udržet koncentraci na svou vlastní podnikatelskou činnost. „Je potřebné vytvořit velkou hodnotu přijetím některých novějších technologií, které jsou vyvíjeny v prostředí Hadoop a MapReduce, a nasazovat je jako software podnikové třídy, kde existuje spolehlivá správa verzí, škálovatelnost a dostupná podpora,“ vysvětluje Gnau. „Výsledek musí být spolehlivý a ve formě balíčků, aby mohlo docházet k jednoduchému nasazení, protože hlavní proud potenciálních uživatelů nemá zájem suplovat práci vývojových firem.“ Will Davis, manažer produktového marketingu v EMC Greenplum, s tímto tvrzením souhlasí. Větší společnosti potřebují stabilnější a spolehlivou podobu open source platforem pro big data – ať už si zajistí tuto dokonalost samy, nebo to pro ně udělá někdo jiný. „Mnoho tradičních zákazníků EMC – velkých společností ze seznamu Fortune 500 –
B I G DATA 2 012
BigData-2012.indd 12
21.6.12 8:31
skutečně potřebuje při nasazení této technologie využít její připravenost pro velké podniky, aby splňovala přísné smlouvy SLA a byla vždy k dispozici,“ popisuje Davis. Někteří raní osvojitelé open source technologií měli či získali vlastní znalosti, takže si mohli tyto systémy nasadit svépomocí, ale „druhá vlna“ firem si přeje rychlou implementaci bez nutnosti mít vlastní talentovaný personál.
Angažujte datové vědce V oblasti big dat je v současné době opravdu velká sháňka po talentovaných odbornících. Společnosti si uvědomují, že při provozu open source platforem budou v nejlepší pozici, aby přitáhly vyškolené pracovníky. Otevřené technologie, zejména jazyk R, jsou široce využívány v akademické sféře. Tito datoví vědci navíc s platformami open source lépe pracují. Například Imran Ahmad je badatelem, který vyvinul svůj vlastní algoritmus grid computingu – jde o konkurenci technologie Hadoop s názvem Bileg a je založen na open source sadě nástrojů Globus Toolkit (GT4). Tento člověk, který je dnes prezidentem firmy Cloudanum, která vyvíjí technologie analýzy dat pro cloudová prostředí, prohlašuje, že zásadní výhodou platforem open source je, že lidé jako on mohou vidět i jejich matematický základ. „Pokud je to open source, můžete se v tom vrtat a uvidíte, proč dostáváte tyto výsledky a proč jsou optimální,“ uvádí Ahmad. „Proprietární software pro analýzy dat bude fungovat po většinu času docela dobře. Když však nastane neobvyklý scénář, nemusejí být vaše výsledky důvěryhodné. Mohou být na hony vzdáleny tomu, co hledáte,“ prohlašuje Ahmad. „A to je děsivá situace.“
Není divu, že nejchytřejší hlavy se znalostmi statistického modelování jsou také vysoce žádané, zejména proto, že je nabírají organizace v odvětvích, jako jsou finanční instituce. „Najali spoustu lidí ze školy do oddělení datové vědy, oddělení výzkumu a vývoje a do oddělení modelování,“ uvádí Smith, „a zjistili, že všichni z nich byli vyškoleni v oblasti jazyka R a ne třeba pro platformu SAS.“ „Poskytujeme konzultační služby Greenplumu,“ říká Davis, „což je náš tým datové vědy tvořený personálem s doktorátem. Tito lidé mají znalosti z různých oborů a úrovní a spolupracují se zákazníky, aby jim umožnili správně využívat vlastní data.“ Jason Kuo, marketingový manažer skupiny ve společnosti SAP, potvrzuje, že firmy požadující provádění složitých úloh, jako je prediktivní analýza, loví své pracovní síly na univerzitách. Uvádí, že jejich nový produkt, který obsahuje uživatelsky přívětivé rozhraní, usnadní datovým vědcům přechod do korporátního světa. „Tito lidé přinášejí své znalosti jazyka R a další zkušenosti a ptají se na nástroje pro tento jazyk,“ vysvětluje. „Je zajímavé, že v akademickém prostředí, ať už je to z jakéhokoli důvodu – rozpočet nebo znalost –, budou mnohem pravděpodobněji pracovat s jazykem R bez grafického uživatelského rozhraní. A nyní vkročí do firemního světa, kde jsou vyšší nároky, časový rámec projektů je kratší, dochází ke sledování návratnosti investic atd.“ Firmy jim mohou říci: Co potřebujete, abyste byli úspěšnější? Jak můžeme zvýšit vaši produktivitu? A mají pro tyto statistické specialisty rozpočet, se kterým se oni nikdy v minulosti nesetkali.
Pokud je nemůžete porazit… Paul Kent je viceprezidentem rozvoje analytické platformy společnosti SAS Institute. Tato firma leží na opačné straně oblasti big dat a vyvíjí proprietární algoritmy pro analýzu dat, které jsou alternativami k těm, jež se používají v open source jazycích, jako je třeba zmíněný R. Kent uvádí, že SAS do určité míry považuje open source komunitu za svého soupeře, se kterým musí udržet krok. V open source prostředích mohou být vyvinuty nové techniky velmi rychle, zatímco jeho firma může potřebovat více času na jejich studium, než k nim pak může vytvořit odpovídající funkci v komerčním produktu. „Trvá nám trochu déle, než zareagujeme na takovou techniku a než otestujeme všechny způsoby a obměny, jakými může být použita. Máme trochu pomalejší reakci.“ Uvádí však, že má SAS výhodu velké technické podpory segmentu a odborné znalosti, které umožňují zajistit použitelnost některých technik pro různé organizace, ať už jde o maloobchodní podniky, banky nebo zdravotnická zařízení. „Síla SAS spočívá v použití matematiky pro jednotlivé oblasti,“ prohlašuje Kent. SAS však zároveň drží krok s trendy a rozhodl se dát svým zákazníkům stejné možnosti jako open source. Kent prohlašuje, že SAS „postavil most k jazyku R“ stejně jako k platformě Hadoop. Když přichází open source komunita s dobrým nápadem, Kent tvrdí, že tomu SAS věnuje dostatečnou pozornost. „Z dlouhodobé perspektivy je užitečnější vystavět most nebo rozhraní k takové myšlence, než se pokoušet předstírat, že vlastně ■ neexistuje.“
Inzerce
Redakce časopisu Computerworld vyhlašuje 3. kolo soutěže
IT produkt 2012 Cílem je vyzdvihnout produkty s takovými vlastnostmi, které přinášejí významné pozitivní odlišení od konkurenčních produktů stejné k ategorie. Může přitom jít o celkově inovativní pojetí produktu, pozoruhodné funkční zdokonalení, výr azně zjednodušené ovládání nebo třeba o výjimečně příznivou cenu.
Podrobná pr avidla soutěže i další doplňující informace naleznete na adrese
cw.cz/it-produkt Uzávěrk a 3. kola přihlášek je 14. 9. 2012. O možnosti přihlásit produkty uvedené na trh po tomto datu se prosím informujte na
[email protected]
W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 13
13 21.6.12 8:31
Hadoop: Velká příležitost pro korporátní data Jedním z nesprávně chápaných aspektů big dat je, jak lze využívat existující databáze s enginy pro ukládání dat, které jsou ve své podstatě nerelační. Co je nutné udělat při přenášení dat ze systému správy relační databáze (RDBMS) do distribuovaných řešení? A jak nejlépe využit big data ve firmě?
BRIAN PROFFITT
Z
řejmě nejpopulárnějším příkladem systému správy nerelační databáze (NDBMS, Non-Relational Database Management System) je Hadoop, distribuovaný datový framework, který se ukazuje jako hlavní tvář pro big data a tzv. NoSQL databáze. Ale i tyto definice zakrývají skutečnou povahu Hadoopu a způsobu fungování. Co tedy Hadoop skutečně je a jak mohou firmy a IT personál začít s jeho využíváním? Pro jaké organizace je Hadoop vhodný a kde můžete najít zdroje pro jeho implementaci?
Co Hadoop není Existují dva aspekty, které je nutné v souvislosti s řešením Hadoop vyjasnit hned na začátku: Není to určitě systém, který by byl exkluzivně svázán s technologií big data, a není to ani nástroj NoSQL. I když je pravda, že Hadoop patří k nerelační třídě systémů správy dat, nebrání
14
to jeho využití pro jazyk SQL. Není to ani NoSQL. Je to jen způsob, jak popsat databáze, kde SQL není nutně jediným systémem kladení dotazů, který lze užít. Ve skutečnosti lze dotazy jako SQL používat se systémem Hadoop poměrně snadno. Mnoho lidí spojuje Hadoop se správou skutečně obrovského množství dat. A to z dobrého důvodu: Úložiště Hadoopu je využíváno společnostmi Facebook či Yahoo, které si mnoho lidí správně spojuje s obrovskými objemy dat. Použití Hadoopu však sahá daleko za hranice big dat. Jednou z nejsilnějších schopností Hadoopu je škálování, které dovoluje její nasazení v nejvyšší kategorii firem jako zmíněný Facebook, ale také umožňuje škálování směrem dolů pro libovolně velkou společnost, která potřebuje levné úložiště a správu dat. Pro pochopení těchto širokých možností škálování a souvisejících důsledků je důležité porozumět, jak Hadoop pracuje.
Co tedy Hadoop je Arun Murthy je muž, který Hadoop zná opravdu podrobně. Jako viceprezident je současným lídrem projektu Hadoop v organizaci Apache Software Foundation. A nejen to – Murthy se zabýval technologií Hadoop od jejích počátků, kdy Yahoo pro své potřeby adaptovala datový open source framework společnosti Google poté, co byl Hadoop definován Dougem Cuttingem kvůli získání výhod z datového programovacího frameworku MapReduce. Cutting je nyní zaměstnán ve společnosti Cloudera, která je komerčním dodavatelem řešení Hadoop, Murthy se stal v červnu 2011 spoluzakladatelem firmy Hortonworks s několika dalšími z týmu Hadoop společnosti Yahoo, a to včetně Erica Baldeschwielera, který je nyní výkonným ředitelem společnosti Hortonworks. „Hadoop lze složit z několika součástí, ale největší dvě jsou framework MapReduce pro zpracování dat a distribuovaný souborový systém pro ukládání dat – Hadoop Distributed Filesystem (HDFS),“ vysvětluje Murthy. HDFS je v mnoha směrech nejjednodušší součástí Hadoopu, co se týče samotného pochopení (i když ne vždy nejjednodušší pro správu). Přesně podle názvu „distribuovaný souborový systém“ uloží data na jakékoli zařízení připojené k síti Hadoop. Samozřejmě že je v tom systém a není to jen nahodilé, ale ve srovnání s přísně řízenou infrastrukturou úložiště databází typu RDBMS se tomu dá říkat doslova chlívek. Ve skutečnosti je to právě ona flexibilita, která přináší Hadoopu vysokou hodnotu. Zatímco RDBMS často potřebuje skvěle vyladěné a zpravidla vyhrazené stroje, systém Hadoop může využívat výhody běžně prodávaných klasických serverů s několika dobrými pevnými disky. Namísto potýkání se s velkou režií správy související s ukládáním dat do tabulek relačních databází využívá Hadoop k ukládání dat více strojů a disků HDFS a automaticky vytváří redundanci dat ve víceuzlových systémech. Pokud jeden uzel selže nebo zpomalí, jsou data jinde stále dostupná. Tento přístup přináší významné úspory nákladů na úrovni hardwaru a správy. Je ale třeba poznamenat, že i když je HDFS obvyklým souborovým systémem používaným s technologií Hadoop, není v žádném případě jediným. Například Amazon pro svá řešení EC2 (Elastic Compute Cloud) adaptoval svůj vlastní file systém S3 pro Hadoop. DataStax Brisk je zase distribuce Hadoopu, ve které je HDFS nahrazen souborovým systémem Apache CassandraFS. Pro oblast datových dotazů a analýz navíc využívá
B I G DATA 2 012
BigData-2012.indd 14
21.6.12 8:31
HBase
(Sloupcové úložiště NoSQL)
Zookeeper
(Koordinace)
(Správa)
Ambari
datový sklad Hive – tak dokáže zajistit sjednocení funkcí ukládání a analýz dat v reálném čase. Takové úpravy a přizpůsobení jsou díky open source podstatě technologie Hadoop značně zjednodušeny. Pochopení frameworku MapReduce je poněkud obtížnější. Murthy ho popisuje jako programovací model pro zpracování dat. Co to ale přesně znamená? Pro ilustraci – na MapReduce je dobré pohlížet analogicky jako na databázový stroj, podobně jako je Jet strojem pro Microsoft Access (mnoho lidí si na to už ani nevzpomene). Když přijde žádost o informace, použije MapReduce dvě součásti: JobTracker, který je umístěn v takzvaném master uzlu Hadoopu, a komponenty TaskTracker, které jsou dostupné v každém uzlu Hadoopu. MapReduce rozdělí datové požadavky na oddělené sady úloh a poté použije JobTracker k zaslání úloh MapReduce jednotlivým TaskTrackerům. Kvůli eliminaci síťové latence jsou úlohy přiřazeny tomu uzlu, kde jsou data, nebo alespoň k uzlu ve stejném racku. Na obrázku můžete vidět, že Hadoop není jen distribuovaný souborový systém doplněný o MapReduce. Schéma reprezentuje framework Hadoop od Hortonworks a ukazuje další komponenty, které lze pro Hadoop využívat:
Pig
Hive
(Datové toky)
(SQL)
MapReduce (Distribuovaný programovací framework)
HCatalog (Správa schématu a tabulek)
HDFS (Distribuovaný souborový systém Hadoop)
Základní Apache Hadoop
Nezbytné projekty Hadoop
Otevřená API pro: • Integrace dat • Správa aplikačních úloh • Přesuny dat
• Správa systému
Podoba frameworku Hadoop od Hortonworks
HCatalog – služba správy úložiště a tabulky pro data Hadoopu. Pig – programové rozhraní a rozhraní datových toků pro MapReduce. Hive – řešení datového skladu, které umožňuje použití jazyka podobného SQL (HiveQL) k vytváření dotazů vůči datům Hadoopu. Murthy uvádí, že právě Hive usnadňuje použití řešení Hadoop více, než by se dalo čekat od tzv. databáze NoSQL. Pomocí HiveQL mohou datoví analytici získávat z databáze Hadoop informace stejným způsobem, jako to jsou zvyklí dělat při používání RDBMS. Přechod na Hadoop ale samozřejmě bude předpokládat přivyknutí určitým změnám, protože mezi SQL a HiveQL určité rozdíly existují, ale nejsou až tak moc velké.
Všem datům stejná hodnota Úložiště dat bývala drahá, vysvětluje Murthy. Přibližně před pěti lety se velké podniky i malé a střední firmy ocitly v situaci, kdy sledovaly rostoucí řadu zdrojů dat: e-maily, výsledky vyhledávání, údaje o prodejích, skladové informace, data o zákaznících, o klikání na webu atd… A to všechno se pokoušely zvládnout pomocí relační databáze, což ale bylo finančně velmi nákladné. Všechny tyto události a související okolnosti vedly organizace ke snaze snižovat náklady. Rozumná správa dat z tohoto pohledu obvykle zahrnovala snižování jejich objemu pomocí zmenšování vzorků. Tyto údaje vzniklé omezením vzorku, které Murthy nazývá jako „historické“, by měly být automaticky klasifikovány podle určitých předpokladů – prvním z nich je,
Inzerce
BigData-2012.indd 15
21.6.12 8:31
Kdy byste Hadoop neměli použít? že některé údaje budou vždy důležitější než ostatní. Například priority u elektronického obchodování by byly založeny na předpokladu, že data o kreditních kartách jsou vždy důležitější než ta o produktech – a ta zase důležitější než údaje o kliknutích na webu. Pokud jste se snažili provozovat obchodní model na nějaké dané množině předpokladů, nemělo by být těžké takové informace extrahovat a používat je pro obchodní rozhodování. Tyto informace by však vždy vycházely z těchto předpokladů – co by se ale stalo, pokud by se změnily? Protože došlo k omezení vzorku dat, využíval by každý nový obchodní scénář převzorkovaná data, jež by na úložišti zbyla. Všechna původní surová data přitom již byla dříve ztracena. Z důvodu nákladů na úložiště založená na technologii RDBMS by tyto údaje byly často v rámci organizace silážovány. Svá specifická data by mělo obchodní oddělení, marketing, účetní oddělení atd. Rozhodování podle obchodního modelu by bylo omezeno na jednotlivé zkoumané části organizace – nešlo by tedy o celek. „Díky řešení Hadoop nejsou žádné předpoklady potřebné, protože uchováváte všechna data,“ prohlašuje Murthy. A to je možná největší přínos technologie Hadoop, přestože je často ukryt v pozadí za představou snížení finančních nákladů, které Hadoop umožní. „Omezení vzorku je založeno na předpokladu, že některá data budou rozsáhlejší a důležitější než ostatní,“ vysvětluje Murthy a dodává: „V rámci ekosystému Hadoop je všem datům přisuzována stejná hodnota.“ Protože ale v Hadoopu mají všechny údaje stejnou hodnotu a jsou stejně dostupné, mohou být obchodní modely kdykoli zkoumány pomocí surových dat, a to bez omezení. Navíc je možné stejně přistupovat k již dříve silážovaným datům a lze je shodně sdílet kvůli získání ucelenější analýzy podnikání organizace. Tento posun ve způsobu vnímání informací je obrovský, protože nyní ztrácí smysl původní pojem „historická data“. Protože mohou být údaje ukládány ve své surové podobě, bude docházet ke snížení velké části režie na správu, která je spojena s extrahováním, transformacemi a operacemi načítání (ETL, Extract, Transform and Load).
Kolik zaplatíte? Není asi třeba příliš diskutovat, že nejvíce propagovaným přínosem Hadoop je jeho příznivá cena. Protože je celý framework tvořený open source softwarem pod licencí Apache Software, neexistují zde žádné licenční poplatky za základní software.
16
Existují určitá omezení, která byste měli mít na paměti, pokud vaše firma o přechodu na Hadoop uvažuje. Pokud potřebujete interaktivní reporty s dobou odezvy menší než jedna sekunda nebo pokud využíváte data ve vícekrokových složitých transakcích, může být řešení RDBMS stále nejlepší volbou, protože Hadoop není v těchto oblastech příliš silný. Pokud jsou vaše údaje aktualizovány a měněny pomocí vkládání a mazání, je to další důvod, proč se řešení Hadoop vyhnout.
Společnost Cloudera, která dodává komerční platformu Hadoop, využívá tzv. model open core – základní software Hadoop je zdarma, ale za rozšíření od firmy Cloudera se platí licenční poplatky. Hortonworks, kterou Murthy spoluzakládal s několika členy týmu Hadoop z firmy Yahoo v první polovině roku 2011, udržuje všechen software bezplatný jako open source a generuje svůj obrat prostřednictvím školení a programů podpory. Zdroje dalších úspor: Na rozdíl od RDBMS nevyžaduje Hadoop drahý hardware ani špičkové procesory. Stačí jakýkoli běžně prodávaný server. To znamená, že příslušný uzel Hadoop potřebuje jen procesor, síťovou kartu a několik pevných disků, takže bude stát kolem čtyř tisíc dolarů, zatímco specifický systém pro provozování RDBMS by mohl stát asi deset až 14 tisíc dolarů za každý terabajt. Tak velký rozdíl jasně vysvětluje, proč Hadoop získává velkou pozornost. Je však třeba opatrnosti. Všechny tyto úspory nejsou alarmem, který by firmy nutil hromadně a okamžitě vytvářet migrační plány na Hadoop. Jak již bylo zmíněno na začátku, je potřeba mít techniky a administrátory, kteří mají specifický druh zkušeností, takže organizace mající zájem o nasazení Hadoopu pravděpodobně budou muset na začátku investovat hodně peněz do zaměstnanců bez ohledu na to, zda nasadí komerční nebo bezplatnou verzi Hadoopu. Ve skutečnosti se stali kvalifikovaní inženýři zvládající Hadoop na trhu tak žádaní, že se dva největší aktéři ekosystému Hadoop – Google a Facebook – dostali do války nabídek ve výši několika milionů dolarů za odpovídající kvalifikované inženýry. Nezávisle na druhu vámi nasazeného softwaru tak můžete očekávat v tomto směru velké výdaje za kvalifikovaný personál. V závislosti na potřebách a lokalitě to mohou být ročně i miliony korun (nepočítaje v to další benefity pro zvýšení atraktivity nabídky). Neznehodnotí to úspory vzniklé v oblasti levnějšího hardwaru a softwaru?
Pokud se pokusíme zanalyzovat nasazení systému Hadoop s využitím zcela bezplatného softwaru a budeme předpokládat 100 uzlů za čtyři tisíce dolarů amortizovaných za tři roky a inženýra placeného ročně částkou 150 tisíc dolarů, dostáváme toto: Hodinové náklady na hardware (za tři roky): 15,21 dolaru. Hodinové náklady na údržbu: 17,11 dolaru. To vytváří provozní náklady asi 32 dolarů za hodinu pro celý systém, což je přibližně 283 320 dolarů celkem ročně (nepočítaje v to elektrickou energii). Nyní se podívejme na podobně velký systém RDBMS – v roce 2008 počítala společnost Oracle za databázový stroj se 168 TB úložného prostoru 650 tisíc dolarů za hardware a 1,68 milionu dolarů za software, což je cena systému na horní hranici (14 tisíc dolarů za terabajt). Při předpokladu ročního platu správce databáze Oracle asi 95 tisíc dolarů vycházejí provozní náklady takto: Hodinové náklady na hardware (za tři roky): 88,60 dolaru. Hodinové náklady na údržbu: 10,27 dolaru. I při nižším platu administrátora Oraclu vůči luxusní výplatě inženýra pro Hadoop tedy dostáváme provozní náklady za systém Oraclu 98,87 dolaru za hodinu, což je přibližně 866 694 dolarů ročně. To je ale ve srovnání s podobně velkým nasazením Hadoopu opravdu velký rozdíl – více než trojnásobné roční výdaje. Ani předpoklad nejnižší hranice nákladů za RDBMS (tj. 10 tisíc dolarů za terabajt) tuto situaci o moc nezlepší. Při použití takového čísla jsou roční náklady 644 827 dolarů, což je stále 1,8× více než náklady na distribuovaný systém Hadoop. Jde samozřejmě o provozní náklady a nejsou v nich zohledněny výdaje na migraci ani žádné náklady na průběžnou podporu Hadoopu, kterou byste mohli využívat od externího dodavatele. Dramatický rozdíl ve výdajích však znamená, že i při placení vysoce nadprůměrného platu správci systému Hadoop firmy stále ušetří z dlouhodobého hlediska obrovské množství financí. Pokud se pro vaši organizaci zdá být Hadoop dobrou volbou, můžete si stáhnout open source software, který zahrnuje datový framework, a relativně snadno jej vyzkoušejte.
Implementace Hadoopu Stejně jako mnoho dalších nadějných technologií, zejména ze světa open source, i platforma Hadoop těží z výhod „kutilského přístupu“ IT oddělení, které ji chtějí vyzkoušet.
B I G DATA 2 012
BigData-2012.indd 16
21.6.12 8:31
V současnosti Hadoop získává mnoho pozornosti v technologických médiích i na konferencích, takže se o tuto technologii začínají zajímat i vrcholoví firemní manažeři a chtějí vědět, kolik by Hadoop mohl jejich společnostem ušetřit. Existují dva samostatné vektory přijetí – zdola nahoru a od exekutivy.
posoudil hodnotu navrženého projektu. Tento formální proces je podobný tomu, co nabízejí další dodavatelé ekosystému Hadoop, jako jsou Cloudera či MapR. Tak má zákazník ohledně konzultací a podpory pro Hadoop velké možnosti výběru.
Shora dolů: Podle příkazu šéfů Další běžný způsob nasazení Hadoopu je na základě pokynu vrcholového vedení. Firemní manažeři sledující trendy si všimnou informací o velmi nízkých nákladech na ukládání dat v systému Hadoop a začnou formálně zkoumat, zda je toto řešení vhodné i pro jejich společnost. To je prostor pro dodavatele, jako je Hortonworks. Tato firma obvykle spolupracuje s potenciálním novým klientem a vytvoří pro něho malou sadu doporučení založenou na jeho potřebách. Také nasadí malý cluster pro lokální ověření konceptu Hadoop, který má mezi 20 až 100 uzly, a nechá zákazníka, aby sám
Prozkoumejte Hive
Ať už si to budete zajišťovat svépomocí nebo si na to někoho najmete, v určitý moment budete potřebovat provést migraci svých dat z existujícího úložiště do systému Hadoop.
Jak bylo již popsáno na začátku – Hive je součást frameworku Hadoop, která analytikům umožňuje vytvářet strukturu dat a dotazy v HDFS. Data lze sumarizovat, vytvářet dotazy a analyzovat pomocí jazyka HiveQL (Hive Query Language), který je velmi
Pravděpodobně nejlepším nástrojem pro tento úkon, zejména pro migraci z RDBMS, je produkt Sqoop („SQL-to-Hadoop“) společnosti Cloudera. Sqoop je aplikace, jež využívá příkazovou řádku a dokáže importovat jednotlivé tabulky nebo celé databáze do distribuovaného souborového systému Hadoop (HDFS). Sqoop využívá Java konektor DBInputFormat, který umožňuje MapReduce získat data z relační databáze přes rozhraní JDBC, které se nachází v databázích MySQL, Postgresql, Oracle a většině dalších populárních klasických databází. Sqoop také vygeneruje třídy Java potřebné pro MapReduce ke komunikaci s daty a takzvaně deserializuje řádky záznamů do oddělených polí informací. Sqoop můžete použít rovněž pro importování dat RDBMS přímo do datového skladu Hive.
podobný SQL, takže pro analytiky není obtížné tento jazyk pro takové operace používat. Hive také umožňuje programátorům MapReduce přímo připojit své vlastní datové funkce Map a Reduce pro případ, že by jazyk HiveQL nebyl schopen poskytnout potřebné informace. Při posuzování vhodnosti Hive je nutná opatrnost, protože Hadoop je systémem dávkového zpracování a jeho úlohy mají vysokou latenci, která se nakonec projevuje u dotazů Hive (v minutách, nikoli sekundách). Hive proto není dobrým systémem pro zpracování dat v reálném čase. Pokud potřebujete tento typ úlohy, zvažte použití řešení Apache Cassandra, které je open source DDMS (distributed database management system) a je pro splnění potřeb ■ v reálném čase mnohem lepší.
Použijte Sqoop Zdola nahoru: Plíživé experimentální nasazení Takzvaná stínová IT mohou být pro firmu požehnáním, anebo prokletím. Častokrát se stalo, že experimentální či testovací konfigurace se nakonec firmě neuvěřitelným způsobem vyplatila a přinesla jí celkově velký užitek. Například Linux byl jednou z takových přínosných stínových IT technologií na přelomu století. „Nyní takovým řešením může být Hadoop,“ tvrdí Arun Murthy. „Při plíživé metodě nasazení se obvykle objeví pár techniků, kteří stáhnou a nasadí Hadoop na jeden uzel nebo možná na malý cluster se čtyřmi či pěti uzly.“ Potom se obvykle stává to, co Murthy viděl ve své praxi již mnohokrát – IT personál využívající cluster Hadoop si začne uvědomovat hodnotu této sady nástrojů. Často si i ostatní divize ve společnosti vytvoří vlastní clustery Hadoop. Nakonec se hodnota Hadoopu významně zvýší (díky škálovatelnosti nosného distribuovaného souborového systému) a oddělené clustery Hadoop jsou propojeny do jednoho velkého clusteru třeba s asi 50 uzly. Murthy tvrdí, že přesně toto se stalo, když společnosti Yahoo a Facebook poprvé zaváděly Hadoop. Jakmile se hodnota Hadoopu stala pro všechny oddělené týmy a aplikace zřejmou, bylo zjevné, že ideální by bylo vše zkombinovat do jedné velké sítě s Hadoopem. Samozřejmě že ne všechny společnosti potřebují škálování systému až tisíců uzlů, jako to udělaly Facebook a Yahoo, ale obecný princip je stále stejný.
Díky této funkci nemusíte pro přípravu svých dat na migraci do systému Hadoop udělat o moc více než jen rozumné úkony, jako je vedle klasické údržby RDBMS třeba deduplikace dat.
W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 17
17 21.6.12 8:31
Otevřené úložné systémy se ZFS od Abacusu Unified Nexenta Storage (UNS) společnosti Abacus představuje otevřené řešení, které kombinuje standardizovaný hardware Supermicro s operačním systémem NexentaStor a je využitelný nejen pro big data. Hlavní výhody Unified Nexenta Storage
pro čtecí cache. Spolehlivější SLC SSD pak pro vyrovnávací paměť pro zápis.
Otevřenost Systém je založený na open source produktu NexentaCore. Data uložená na discích nejsou „uzamčena“ pod proprietárním operačním systémem. Jakýkoli server či PC s podporou ZFS data zpřístupní. Upgrade hardware není vázaný na jednoho dodavatele – šasi je vybaveno hotswap rámečky ve všech diskových pozicích. Uživatele tedy nečeká žádné nepříjemné překvapení v podobě předražených disků ve „značkových“ hotswap rámečcích. Stejně tak jsou používány běžné paměti a procesory. Díky použití standardizovaných serverových komponent je nízká nejen pořizovací cena, ale i pozdější upgrade.
Škálovatelnost a robustnost: 128bitová architektura umožňuje takřka neomezenou škálovatelnost. Velikost jednoho souboru, počet a hloubka adresářů i celková kapacita jsou prakticky bez omezení. Pokud budete dělat každou vteřinu milion snapshotů(!), jedinečná 128bitová architektura vám je umožní generovat tímto šíleným tempem po dobu 600 tisíc let! Řada konkurenčních řešení pro ukládání dat je rozšiřitelná pouze pomocí proprietární diskových polic. Výjimečnou vlastností Unified Nexenta Storage je možnost zvýšit kapacitu připojením SAS2 JBOD police. Stejně jednoduše lze zvýšit šířku pásma a/nebo IOPS výkon prostým doplněním běžných Ethernet nebo FC portů. Díky originální, vícevrstvé architektuře čtecí (ARC, L2ARC) a zápisové (ZIL) cache lze využít libovolnou kapacitu RAM a SSD pro zvýšení výkonu. RAM a MLC SSD je vhodné využít
Univerzálnost Jeden unifikovaný systém pro všechny požadavky – UNS funguje souběžně jako: SAN úložiště s protokoly iSCSI a FC, NAS úložiště s podporou CIFS, NFSv3, NFSv4, HTTP a FTP server. Nejenže maximální kapacita není omezena, ale máte k dispozici vlastnosti, za které se u tradičních storage řešení hodně připlácí – prohledávatelné snapshoty, HA (aktiv-aktiv) clustering, NFS single name space, deduplikace, několik úrovní synchronní a asynchronní replikace, SSD cache. UNS je plně připraveno pro cloud a virtualizaci – Unified Nexenta Storage si rozumí s VMware, MS Hyper-V i Xenem.
Bezpečí pro uložená data Díky Copy-On-Write (COW) transakčnímu způsobu práce jsou data na UNS vždy bezpečně uložena. Výjimečný 128bitový souborový systém ZFS automaticky dohledává a opravuje chyby na „spících“ datech.
Jednoduchá správa a údržba, dosažitelná odkudkoli UNS je vybaveno komfortním webovým rozhraním i příkazovou řádkou. Samozřejmostí je podpora SNMP protokolu. K dispozici je také plnohodnotný IPMI modul včetně KVM-over-Ethernet a Virtual Media over LAN, které vám zaručí plnou kontrolu nad systémem od okamžiku zapnutí.
Co je SAS2 JBOD? V případě, že potřebujete vytvořit úložiště s kapacitou větší, než kolik vám umožní šasi serveru, nebo potřebujete zvětšit diskovou kapacitu serveru, jehož všechny hotswapy jsou plné, představuje pro vás SAS2 technologie ideální levné a výkonné řešení. Výhodami SAS2 JBOD boxů jsou jejich nízká cena a snadná škálovatelnost kapacity. Celé SAS2 úložiště funguje tak, že na začátku je jeden výkonný SAS2 RAID nebo HBA řadič (v serveru či SAN poli) a za něj se postupně připojují jednotlivé SAS2 JBOD. SAS2 JBOD je prakticky šasi pro mnoho disků s tzv. SAS2 expandérem, který zajišťuje distribuci dat, která do JBOD přišla jedním SAS2 kabelem mezi jednotlivé SAS/SATA disky. Pro SAS2 JBOD se používá také někdy označení disková police. Pro zajištění vysoké dostupnosti je nutné umožnit přístup k jednomu disku ze dvou řadičů či řídicích serverů souběžně (active-active) – SAS2 JBOD tedy musí být dvoucestný stejně jako SAS disky, které jsou vybaveny dvěma IO porty. V nabídce výrobce Supermicro je řada SAS2 JBOD boxů pro 3,5" i 2,5" disky. Použití oboustranných JBOD šasi Supermicro umožňuje osadit do jednoho 45U racku téměř 1 PB kapacity ve 2 TB discích.
18
B I G DATA 2 012
BigData-2012.indd 18
21.6.12 8:31
Unified Nexenta Storage společnosti Abacus je dostupný v několika variantách, které se liší maximální kapacitou, rozšiřitelností a využitím prvků vysoké dostupnosti. UNS1 – základní storage box v několika rackmount provedeních od 2U pro 12 hotswap disků 3,5" po 4U pro 36 hotswap disků 3,5". Všechny varianty jsou vybaveny redundantními zdroji s vysokou účinností a dostatkem rozšiřujících pozic pro I/O porty. UNS1 je ideální pro zálohování. UNS HA box – unikátní HA storage box obsahující dvojici HA aktiv-aktiv uzlů v kompaktním 3U šasi pro 16 hotswap disků 3,5". Vhodné pro instalace do kapacity 32 TB s požadavkem na vysokou dostupnost.
O společnosti Abacus electric, s. r. o. (www.abacus.cz) Abacus electric, s. r. o., je největším lokálním výrobcem serverů s certifikací ISO9001 a dvacetiletou tradicí na trhu. Dodává široký sortiment serverů a storage zařízení pro webhosting, virtualizaci, privátní i veřejný cloud, HPC, ukládání dat a další aplikace. Díky partnerství s klíčovými výrobci (Supermicro, AMD, Intel, 3Ware/LSI, Areca, Asus, Mellanox, Nexenta, Promise, QLogic, WD) je sortiment serverů a storage řešení výjimečné svou šíří a vlastnostmi (nabídka sahá od 1 U s hloubkou 25 cm po 8procesorové stroje s 80 fyzickými jádry).
UNS HA Head – výkonný řídicí box určený pro nasazení ve dvojici v rámci HA Nexenta Clusteru se sdílenými SAS2 JBOD boxy. Výhodou je rozšiřitelnost paměti RAM, kterou lze využít jako čtecí cache až do kapacity 768 MB, a šest volných slotů PCI Express třetí generace, každý s prostupností 16 GB/s. Samozřejmostí jsou redundantní zdroje s vysokou účinností. Vhodným doplňkem rozsáhlejších instalací s více SAS2 JBOD boxy je 16portový SAS2 switch.
Co je LSI SAS2 switch? Doposud byla SAS úložiště považována za typický Direct-Attached-Storage (DAS), tedy za zařízení, které lze připojit pouze k jednomu či dvěma serverům. Uvedením SAS2 switche firmou LSI se z levného a velmi výkonného SAS konceptu stává základ SAN struktury. LSI6160 je první 16portový 1U SAS2 switch s rychlostí každého portu 24 Gbs (2krát více než 10GbE iSCSI a 3krát více než FC 8Gbs). Porty switche jsou plně konfigurovatelné, lze nastavit tzv. zoning v souladu se standardem T10 (SCSI). Hlavní předností proti starší FC technologii je, kromě trojnásobné rychlosti, také výrazně nižší cena a spotřeba.
Jak funguje ZFS a Copy-on-Write? Data v ZFS jsou organizována ve stromové struktuře. Kořen stromu se nazývá Uberblock a z něho vede odkaz na první dvojici podřízených ukazatelů. Každý ukazatel ve stromu obsahuje kontrolní součet dvou podřízených bloků. Tento kontrolní součet je opakovaně verifikován při každém čtení některého z podřízených bloků. Blok obsahující data není nikdy přepsán, namísto toho je vytvořen nový, do kterého jsou modifikovaná data zapsána (obrázek 2). Po té, co jsou vlastní data zapsána, dochází obdobným způsobem k postupné modifikaci metadat, tedy nadřízených ukazatelů, a to směrem zdola nahoru (obrázek 3). Na závěr je vytvořen nový Uberblock. Předchozí Uberblock tak ukazuje na původní verzi dat a lze ho použít jako odkaz na snapshot či zahodit (obrázek 4).
1. Všechna data jsou zapsaná
O společnosti Supermicro (www.supermicro.com)
Super Micro Computer, Inc. (NASDAQ: SMCI), vyvíjí, vyrábí a dodává energeticky efektivní, optimalizované servery architektury x86. Firma vyrábí široké portfolio serverů, high-endových pracovních stanic, storage systémů a dalších serverových komponent souhrnně nazývaných Server Building Blocks Solutions®.
O společnosti Nexenta Systems (www.nexenta.com) 2. Nový požadavek na zápis
3. COW nadřízených ukazatelů
Nexenta Systems je lídrem trhu v oblasti podnikových open storage řešení. Hlavní produkt – NexentaStor je založen na OpenSolaris /open storage ZFS technologiích.
Servery Supermicro a Hadoop (www.supermicro.com/hadoop/) 4. Vytvoření nového Uberblocku a m i snapshotu
Serverové řešení Supermicro představuje díky své univerzálnosti a škálovatelnosti ideální platformu nejen pro NexentaStor, ale pro všechny otevřené, neproprietární implementace v oblasti big dat. Společností Cloudera, lídrem trhu v oblasti implementace Apache Hadoop, jsou certifikovány servery Supermicro pro Hadoop/Cloudera cluster.
W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 19
19 21.6.12 8:31
Posuňte byznys IT oddělení nemusí čekat, až bude požádáno o analýzu dat, o které se dosud staralo pouze ve smyslu jejich ukládání. Může aktivně přicházet s inspirativními nápady, co všechno je v datech ukryto za informace a jak je předvést a použít ve vhodné formě, říkají Vladimír Kyša, BRS partner territory representative společnosti EMC, a Luděk Šafář, manager tech consultant společnosti EMC. LUK ÁŠ E R B E N V minulém roce EMC začalo mluvit o definitivním konci páskových systémů. Jaká je realita například v Česku? Jak rychle zákazníci tuto technologii skutečně „odstavují“?
EMC na trend odklonu od páskových technologií směrem k diskově orientovaným úložištím v oblasti zálohování poukazuje již několik let a snaží se jej spoluvytvářet. Výrazně vyšší dynamiku tento trend získal právě uvedením deduplikačních diskových technologií v oblasti zálohování (DataDomain/Avamar). Provozní finanční úspory těchto řešení oproti klasickým páskám jsou zřejmé i pro většinou konzervativní středoevropské zákazníky. Pokud firmy nenahradí páskové zařízení úplně, snaží se jej úspěšně minimalizovat využitím deduplikačních zařízení alespoň pro operativní zálohy s možností rychlé a elegantní obnovy v kombinaci s dlouhodobou zálohou na pásku. První zákazník, který kompletně vyměnil páskovou technologii za zálohu na deduplikační zařízení, se v Česku objevil již v roce 2007 a každým rokem přibývají desítky dalších. Jak mohou nové technologie úložišť pomoci při zvyšování efektivity či škálování virtualizace v datových centrech a jaké mají v tomto směru zpravidla rezervy čeští zákazníci?
Nastavený technologický trend spěje k plné virtualizaci nejen ve světě aplikačních serverů, ale i úložiště jako takového. Už existující možnosti tzv. federated storage, které dovolují použít zařízení jiných výrobců jako samostatnou úložnou vrstvu, čímž dochází ke sjednocení rozhraní pro správu a obecně pokročilé funkce úložiště, jsou významným krokem k dalšímu zvýšení efektivity v oblasti správy dat. Naši zákazníci na lokálním trhu jsou většinou velmi konzervativní a nevyuží-
20
vají plně možnosti, které jim nabízejí zejména high-end řady diskových polí, jako je thin provisioning umožňující nabídnout uživatelům více kapacity, než je fyzicky v diskovém poli osazená, nebo FAST-Cache, která poskytuje cílené využití speciálních technologií EFD disků pro nejnáročnější aplikace. Nicméně tlak na snižování nákladů společně s rostoucí důvěrou v tyto pokročilé technologie neustále posouvá hranice jejich využití směrem ke standardnímu nasazení. EMC pokračuje ve významných akvizicích, jako byly Isilon, RSA, Greenplum a nově například Pivotal Labs. Který z těchto přírůstků má pro váš tuzemský byznys největší význam?
Krátkodobý dopad na trh v České republice je velmi těžké odhadnout. Akviziční strategie EMC dává smysl v celistvosti, nikoliv v jednotlivých nákupech. Každá ze zmíněných investic, a stejně tak další jako specializovaný koncept diskového pole XtremeIO, nám umožňuje poskytovat zákazníkům koncepční a ucelený přístup k poskytování infrastruktury a služeb při přechodu na cloud. Na letošním EMC Worldu bylo představeno 42 novinek – od nejvýkonnějších a největších systémů VMAX 40K přes škálovatelné NAS OS Isilon OneFS podporující nestrukturovaná data, úložiště VNX, novinky Data Domain a Avamar, virtuální storage EMC VPLEX až po cloudová řešení, jako jsou Atmos či DataBridge. Které z těchto nebo jiných novinek jsou podle vás nejdůležitější či nejrelevantnější pro tuzemský trh?
Nejdůležitější zprávou pro lokální trh je zejména masivní investice do zkvalitnění celého portfolia EMC, které je mezi našimi zákazníky zastoupené. Každé z uvedených oznámení si svého adresáta v ČR najde – klienti využívají téměř všechny naše produkty a samozřejmě vítají další posun v nabídce jejich funkčností.
Vladimír Kyša, BRS partner territory representative společnosti EMC
Velká data a menší zákazníci Řada firem dnes chápe nejen oblast big dat, ale též pokročilých datových úložišť jako cosi, co se jich netýká. Můžete nabídnout nějaké příklady toho, co nasazení kvalitnějších technologií pro ukládání a zejména další využívání dat může přinést středně velkým podnikům?
Otázka v sobě kombinuje dva možné přístupy ke zpracování dat. Prvním z nich je maximalizace úspor při ukládání dat. K tomu pomáhají nejen pokročilé technologie úložišť umožňující využívání různých vrstev (tierů) s rozličnou kvalitativní charakteristikou, jako doba přístupu, rychlost přenosu dat, typ a architektura použitých disků, a cenou, ale důležitý je i způsob, jakým jsou technologie obecně nakupovány. Zde pozorujeme přechod od investičních nákupů k modelům „jako služba“. Ve stejném duchu pomáhají změněné koncepční přístupy v oblastech ochrany dat, jako jsou deduplikace a archivace. Naproti tomu klíčovým přínosem big dat je hodnota vyplývající přímo z obchodních procesů v podnicích, kdy informace v datech obsažené mohou významně přispět ke kvalitě služeb nabízených zákazníkům a obchodní efektivitě. Klasickými případy z této oblasti jsou analýzy nákupního chování, korelační mechanizmy, skoring klientů apod. Popsané přístupy umožňují významně ovlivnit přesnost odhadu budoucích trendů a dovolují podnikům mnohem lépe plnit přání svých klientů. Můžete zhodnotit aktuální stav v oblasti „storage jako služba“ na českém trhu? Jak
B I G DATA 2 012
BigData-2012.indd 20
21.6.12 8:31
se daří vašim partnerům tuto sféru rozvíjet a na co se případně můžeme těšit v příštím roce?
lýze dat a modelování scénářů (prediktivní analýza) – velmi podobné. Myslíte, že se podobného vývoje dočkáme i v ČR?
Vnímáme trend prosazovat způsob konzumace úložiště jako službu zejména interně, to znamená přímo v prostředí našich zákazníků. S přístupem, kdy by tuto službu poskytoval externí subjekt, se setkáváme velmi ojediněle, zatím převažují zejména vnímání případných bezpečnostních rizik a obecně psychologické překážky „vzdání se“ dat třetí straně. Nicméně především naši partneři v kategorii cloud service provider se na tuto oblast soustřeďují a vytvářejí nabídky služeb pro zákazníky, které komponentu ukládání dat obsahují. V ročním horizontu se dá předpokládat další posun v této oblasti, kdy bude služba ukládání dat mnohem častější, než je dnes.
Myslíme si, že ano a nebude to tak dlouho trvat. Mnoho společností, které na lokálním trhu fungují, je součástí mezinárodních skupin, které na globální úrovni budou tyto služby využívat. Sociální sítě, které z definice fungují mezinárodně, zatím nejsou dostatečně využívány při plánování a měření efektivity marketingových aktivit – to bude v blízké budoucnosti určitě jeden z prvních „produktů“ firem nabízejících služby popsané v otázce.
Luděk Šafář, manager tech consultant společnosti EMC
Datová věda a specialisté Práce s nestrukturovanými či „velkými“ daty bude nejspíše vyžadovat nové typy datových expertů, lidí, kteří pokrývají oblasti technologií, statistiky a matematiky i byznysu zároveň. Jak snadné je bude v českém prostředí najít a vychovat? Odkud se budou podle vás nejčastěji rekrutovat?
Z pohledu EMC opravdu jde o samostatnou odbornost, kterou shrnujeme pod termín „data scientist“ – datový vědec. Lidé s touto kvalifikací už existují, zejména v BI a datawarehouse prostředí velkých společností poskytujících služby individuálním klientům, jako jsou banky či pojišťovny. Obecně jde o odborníky na obchodní model společnosti jako takový, kteří nicméně zároveň disponují dostatečnou znalostí problematiky zpracování dat,
tedy s jakými datovými zdroji společnost pracuje, jaké externí datové zdroje lze použít, jaké jsou v datech dostupné informace. Nepředpokládáme, že by v dohledné době v ČR vznikly speciální vzdělávací obory nebo cílené kurzy, které by připravovaly pracovníky v této oblasti, a tak bude těžiště ve vytváření potřebné pracovní síly nejspíš přímo ve společnostech, které budou tento typ práce poptávat. Na velkých trzích se již dnes hovoří o tom, že „datová věda“ bude natolik obsáhlým oborem, že budou vznikat společnosti zaměřené jen na tuto oblast či dokonce určité vertikály, v nichž budou postupy u jednotlivých zákazníků – například při ana-
EMC hovoří o zásadním posunu v oblasti IT – o novém „centru gravitace“, kterým jsou data, a nikoliv technologie. Jak se podle vás dokážou IT oddělení vyrovnat s přechodem od T (technologií) k I (informacím, datům)? Jakou strategii byste doporučili pro úspěšné zvládnutí této zásadní změny?
Pro IT oddělení je složitý nejen přechod od technologií k datům, ale i od dat k informacím. Základní obecnou strategií je zaměřit se na přerod z nákladové položky na element schopný přinášet reálnou hodnotu (ať ve formě zkvalitňování existujícího IT nebo nových nápadů, kam obchodní aktivity posunout). A data jsou ideálním prostředkem, jak toho dosáhnout. IT oddělení nemusí čekat, až bude požádáno o analýzu dat, o které se dosud staralo pouze ve smyslu jejich ukládání. Může aktivně přicházet s inspirativními nápady, co všechno je v datech ukryto za informace a jak je předvést a použít ve vhodné formě. A nám bude samozřejmě ctí být u toho!
PRAHA, 20. ZÁŘÍ 2012, HOTEL DIPLOMAT Podrobnosti najdete na www.emc.com W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 21
21 21.6.12 8:31
Big data a Fujitsu: Správné informace ve správný čas
node configuration“ variant Fujitsu připravilo pro zákazníky také vlajkovou loď pro rozsáhlé implementace – „multi node configuration“, která je určena pro rozDokážete si představit pocit, že vás na dálnici předjede sáhlé implementace. nejrychlejší automobil světa Bloodhound SSC uhánějící rychlostí Zde lze využít velkou rozšiřitelnost ceaž 1 600 km/h? Tak podobně budete vnímat rozdíl odezvy na váš lého systému pro pokrytí ohromných požadavků na systém, kladených v reálném dotaz do systému ERP provozovaného na standardní platformě čase. Základním stavebním kamenem této vůči platformě SAP Hana na infrastruktuře od Fujitsu. varianty je tzv. Block – server Fujitsu Primergy RX600 a diskové pole FAS 3240. LUB O M Í R ŠT E F EK mitovaných IT rozpočtů. Nová aplikace V iniciální konfiguraci jsou implementoSAP Business One s analýzami prováděeustále rostoucí množství dat z růzvány dva takovéto bloky, které lze poných zdrojů je nejen skvělou příleži- nými na platformě SAP Hana je dodávána stupně rozšiřovat až na zatím konečný popředinstalovaná a připravená ke spuštění tostí pro vytváření složitých analýz, čet 16 bloků pro jeden systém. Tím dosáhna výkonném serveru Fujitsu Primergy ale současně i velkou výzvou. Big data neme na kapacitu 8 TB operační paměti jsou základem pro hluboké analýzy, bohu- TX300. A tak i tyto společnosti mají mož- využitelné pro řešení in memory compužel zpracovávání takto rozsáhlých dat nost využít okamžitý přehled nad daty, ting. často způsobuje nepřijatelné odezvy. a tím i rychlé a především správné rozhoUvedeným „multi node“ řešením Řešení SAP Hana je speciální propojení dování. kromě vysokého výkonu a škálovatelnosti softwarových a hardwarových prostředků, Fujitsu, které nedávno získalo ohodno- dosáhneme také: které využívá inovativní technologie In cení 2012 SAP Pinnacle award v kategorii efektivního řešení vysoké dostupnosti memory computing. SAP Hana pomáhá Technologický inovátor roku, je nyní jedi- snadné integrace řešení zálohování/obpřekonat právě takovéto překážky, když ným dodavatelem poskytujícím zařízení novy do zákaznického prostředí obrovská množství dat mohou být zpraco- pro SAP Business One podporované SAP umístěním do dvou lokalit získáme zována v hlavní paměti serveru v reálném Hana. Certifikovaná infrastruktura od Fu- tavení z katastrofy „Disaster Resilience“ čase, což výrazně urychluje přístup k daFujitsu bylo prvním parttům pro analýzu. Z obchodního hlediska nerem, který od SAP obdržel tak umožňuje rychleji se rozhodovat na certifikaci pro „multi node“ NetApp_1 (FAS 3240) NetApp_2 NetApp_n základě důkladné analýzy dat. SAP Hana infrastrukturu Výhody in memory computing infras možností škálovatelnosti až 10 gbps Network (redundant 10GBit Switches) struktury od Fujitsu a řešení SAP jsme do 8 TB operační paměti. znásobili jejich využitím při vývoji společŘešení na klíč, které spoHANA HANA HANA ného produktu SAP Hana. Fujitsu zajišlečnost SAP zvolila, umožní Block 1 Block n Block 2 ťuje optimalizovanou infrastrukturu a naoddělením IT dosáhnout nejPY RX600 S6 PY RX600 S6 512 GB RAM 512 GB RAM bídku kvalitních komplexních služeb. vyšších výkonů, které od Fujitsu řešení infrastruktury jsou zalonich jejich společnosti očežena na výkonných serverech Primergy kávají. Koncept Hana byl vyDalší rozšiřitelnost 1 TB RAM certifikovaných od SAP. Nabídky začínají vinut jako zařízení v úzké na ekonomicky výhodných konfiguracích, spolupráci SAP a technolokteré mohou být postupně rozšiřovány, jitsu postavená na standardních kompogických partnerů, jako je Fujitsu. v současné době až na „multi node“ pronentech, jako jsou x86 servery a operační Fujitsu je však prvním z dodavatelů, středí s až 8 TB operační paměti. Takováto systém Suse Linux, spolu s nabídkou příjenž nabízí svá Hana zařízení s end-to -end řešení spojují atributy velmi výkonného slušných služeb otevírá přístup k výkondodávkou s měřením, konzultacemi a vysoce dostupného prostředí s optimálným technologiím in memory computing a službami, tak aby společnosti mohly vyními celkovými náklady na vlastnictví od SAP a nabízí velmi vysoké výkony užívat tuto technologii pro podporu svých v přijatelných cenových hladinách. (TCO). obchodních procesů v co nejkratším čase Ekonomicky výhodné systémy pro pod- od rozhodnutí po investici. Zajímavé je, že Rychlá a exkluzivní Hana niková prostředí jsou implementovány na rychlejší uvedení do produkce je téměř Pro zákazníky, kteří chtějí začít s předdeserverech Fujitsu Primergy RX600 ve nezávislé na specifických požadavcích záfinovanými aplikacemi pro nejdůležitější třech variantách – M, S a XS, lišících se kazníka. obchodní procesy, nabízí Fujitsu Smartnavzájem počtem osazených procesorů Pro zájemce, kteří by chtěli vidět SAP Start end-to -end nabídku kombinující výa kapacitou operační paměti. Hana pozitiva v praxi, připravilo Fujitsu hody rychlého nasazení SAP řešení pro Tyto T-shirt konfigurace jsou vhodné vzdálený přístup do Fujitsu SAP Hana Hana s infrastrukturou, odbornými znaprávě pro: Global Demo Centra. Nabízíme lepší polostmi a službami od Fujitsu. prokázání hodnoty projektu a správrozumění přínosu řešení SAP Hana s vyAč to tak na první pohled nevypadá, nosti využití řešení SAP Hana užitím „ready-to-use“ prostředí SAP Hana malé a střední firmy se ve skutečnosti počáteční SAP Hana implementaci zahrnující i typické SAP Hana scénáře potaké potýkají s problémy velkých objemů s omezeným rozsahem užití jako CO -PA a Obchodní Analýzy. dat. prostředí SAP Hana pro vývoj, test, Naštěstí přístup k datům v reálném Autor je product group manager, Fujitsu Technology školení a řízení kvality čase je nyní dosažitelný i v rámci jejich lisolutions Kromě ekonomicky výhodných „single
N
22
B I G DATA 2 012
BigData-2012.indd 22
21.6.12 8:43
Data jsou důležitější než virtualizace! V souvislosti s technologickým rozvojem a fenoménem cloud computingu jsme zvyklí číst o různých výhodách virtualizace výpočetního výkonu a trochu zapomínáme, že servery jsou jen nástroje na operaci s daty, o která by mělo jít v první řadě. R I C H AR D NOVÁ K a M I L AN PE T R Á S EK
D
ata a znalosti představují pro podnikání v dnešní době stejně hodnotná aktiva, jako jsou peníze. Stejně jako dříve v historii vznikly finanční instituce, kam lidé ukládali své peníze, aby je měli v bezpečí a kdekoliv přístupné, dnes vznikají ICT operátoři, ke kterým ukládáme svá data. Sdílíme názor, že pro firmy s důležitými daty nejsou poskytovatelé obsahu jako např. Google to správné místo pro uložení citlivých dat. Naopak se zdá, že operátor, který zároveň poskytuje služby fixní konektivity, datových center a cloud computingu, může být pro poskytování služeb uložení firemních dat ta správná volba. V následujících odstavcích přiblížíme službu uložení dat (GTS Data Storage) a zálohování (GTS Backup).
Virtuální hosting (cloud) Služba je zákazníkovi poskytována s následujícími parametry: Úložný prostor – organizovaný do jednoho nebo několika LUN. Třída úložiště – je popsána typy disků v závislosti na požadovaném výkonu: Tier 1 – nejvyšší parametry výkonu díky použití SSD disků Tier 2 – vysoký výkon poskytovaný SAS disky (15k rpm) Tier 3 – nízkonákladový prostor tvořený SATA disky (7,2k rpm) Konektivita SAN – definuje, jak jsou zákaznické servery připojeny ke službě: iSCSI 1 a 10Gbps FibreChannel FC4
nou nebo vyhrazenou SAN v závislosti na požadavcích zákazníka.
GTS Backup Poskytuje funkce provedení zálohy či obnovy veškerých zákaznických dat bezpečně uložených v této službě. Zálohování může být využíváno prostředky umístěnými uvnitř datových center GTS nebo ze vzdálených lokalit. Službu nabízíme ve dvou variantách: Standard – správa je prováděna zákazníkem pomocí uživatelsky přívětivého zákaznického portálu. Managed – správa je prováděna specialisty GTS. Bez ohledu na zvolenou variantu mohou zákazníci: Nastavit/zvolit vlastní zálohovací schémata a vybrat data k zálohování. Iniciovat plnou nebo částečnou obnovu zálohovaných dat ve vybrané periodě.
Rodina produktů GTS Data Storage Zahrnuje standardní služby úložiště a zálohování v GTS datových centrech nebo ve vzdálených lokalitách. Služby jsou poskytovány pomocí L2 nebo L3 sítě, buď použitím vyhrazené SAN sítě v datových centrech (Storage Area Network), nebo pomocí konektivních služeb GTS „Datová a Internetová řešení“ (DIA, MPLS nebo EVPL). Rodina produktů GTS Data Storage patřící do skupiny ICT řešení nabízí následující služby: Standard Storage Dedicated Storage Backup Všechny vyjmenované služby používají technologie předních světových výrobců Cisco, NetApp, Dell, Commvault. Společnými jmenovateli jsou garantovaná úroveň služeb SLA a přístup přes zákaznický portál spolu s professional services zahrnující správu, optimalizaci atd.
GTS Standard Storage Je úložné řešení vhodné pro zákazníky hledající outsourcing úložiště pro servery, aplikace a data. Služba vhodně doplňuje další služby z portfolia GTS: Housing v datových centrech
GTS Dedicated Storage Je řešení plně vyhrazeného úložného systému. Jde o obdobu Standard Storage s tím, že celé úložiště je vyhrazené pro jednoho zákazníka. Toto řešení může být požadováno z různých důvodů: bezpečnost – interní firemní pravidla nedovolují umístění dat na sdílené prostředky výkon – v případě požadavků na vysoce výkonné garantované parametry specifické parametry nedostupné ve standardním produktu – např. přístup přes FCoE, FC8 apod. požadavky na metro/geo cluster atd. U tohoto řešení je možné použít sdíle-
Služba nabízí formou měsíčního poplatku za zálohovaný prostor veškeré zálohovací agenty pro on-line zálohování zahrnuté v ceně. GTS Backup podporuje různé souborové systémy (Unix/Linux, Windows, Apple MacOS) a databáze (Oracle, MS SQL, IBM DB2…) či aplikace (MS Exchange, Lotus Domino, MS SharePoint…) a také celé virtuální stroje (VMware…). Výše uvedené produkty je možné nasazovat jako stavební kameny komplexních outsourcingových projektů, tak jak to GTS dělá např. pro rozsáhlá řešení BCM/DR. Autoři jsou ředitel pro strategii a produktový manažer společnosti GTS Czech W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 23
23 21.6.12 8:44
Big data – jedinou cestou je komplexní řešení Důvod, proč jsou big data, tedy velká data, často prezentována jako problém, vychází už přímo z jejich běžné definice. Jde o data, která díky povaze – objemu, rychlosti růstu či obrovské variabilitě – nemohou být zpracovávána či analyzována s využitím tradičních technologií a nástrojů. Objem dat kolem nás neustále roste, přestože schopnost jejich analýzy a dalšího vytěžení postupně klesá – a to nemluvíme pouze o velkých podnicích, ale i o menších a středních firmách. Jak s daty efektivně pracovat, radí manažerka softwarové divize IBM Česká republika Lucia Belková. IB M
Hardware je tedy podle vás pro big data také klíčový?
Proč se velká data často prezentují jako problém?
S mírnou nadsázkou se dá říci, že „kdo neměří, ten neřídí“. Data nestačí pouze sbírat, ale je nutné je umět i vyhodnotit, aby bylo možné monitorovaným procesům lépe porozumět. Za obrovským nárůstem objemu zpracovávaných dat dnes velkou měrou stojí moderní podnikové informační systémy, rychlé datové sítě a mobilní technologie schopné monitorovat a sbírat data takřka z čehokoliv. Problém tedy není ve shánění dat, ale v jejich analýze?
Ano, data, ačkoli často pouze v nestrukturované podobě, k dispozici máme. Otázkou tak zůstává, jakým způsobem s nimi pracovat. Cílem je přeměna na hodnotné informace a ideální je, pokud se to daří v reálném čase. Podle studie vypracované IBM Institute for Business Value, mají podniky, které využívají nad svými daty sofistikované analytické nástroje, téměř třikrát větší pravděpodobnost, že se zařadí mezi nejlepší firmy ve svém oboru. Kde začít s řešením big dat?
Velká data jsou na začátku malá, což si bohužel řada firem ne zcela uvědomuje. Data, se kterými pracujete, musí být stoprocentně správná, aktuální a jednoznačná. Na základě špatných dat neudělá ani s nejlepšími nástroji dobré rozhodnutí vůbec nikdo. I proto řada projektů IBM zaměřených na big data začíná konzultační činností a také racionalizací dat, která je opravdu nutné pro chod firmy sledovat. Druhým krokem je pak způsob jejich sběru.
Bez infrastruktury to nejde Co považujete za naprostý základ potřebný pro zvládnutí velkých dat?
Výrobci UPS s velkou oblibou uvádějí, že pravou hodnotu UPS si firma uvědomí až v okamžiku, kdy ji nemá a kvůli výpadku napájení přijde o data a třeba i o zákazníky. Problém je v tom, že o serverech a datových úložištích tohle tak úplně říci nejde. Pro velkou řadu firem a organizací je totiž jejich serverová infrastruktura natolik kritická, že nevhodně načasovaný výpadek může firmu i zlikvidovat.
24
Je to druhá významná kapitola při komplexním přístupu k řešení problému s velkými daty. Řada firem zde přitom dělá chybu. Buď hardware zcela ignorují, což se promítne do toho, že nejsou schopny vůbec nasadit potřebné softwarové nástroje a jejich byznys začne stagnovat, anebo naopak do IT infrastruktury investují raději více, což vede ke zbytečně velkým investičním a provozním nákladům, které pak firmu neúměrně finančně zatěžují. I proto například IBM nabízí nejrůznější formy veřejného a privátního cloudu šité přímo na míru anebo nástroje schopné automatizovat správu a údržbu již zakoupené infrastruktury. Nejnovější evoluční krok v oblasti korporátních IT řešení jsou expertní integrované systémy – IBM PureSystems – slučující veškerý potřebný hardware a software, který dostane firma ve formě připraveného racku. Ten je navíc možné uvést do provozu během pouhých hodin. Jak byste popsala přínos analytických nástrojů a databází?
Analytické nástroje a databáze existovaly dlouho před tím, než pojem velká data spatřil světlo světa. Práce s big daty na analytických nástrojích doslova stojí. Dodávají totiž velkým objemům dat nejen smysl, ale také nevyčíslitelnou hodnotu. Díky těmto nástrojům lze identifikovat nejúspěšnější produkty a služby, nejvýznamnější zákazníky a především na první pohled nezřejmé trendy na trhu. Nezřídka nás pak tyto nástroje mohou dostatečně včas varovat před blížícími se problémy. Odpovídající softwarové nástroje však mohou šetřit i peníze za hardware. Kupříkladu jeden z našich zákazníků v Česku nasadil databázovou platformu IBM DB2. Podařilo se mu tak obrovské množství zpracovávaných dat zkomprimovat až o 66 % a následně výrazně ušetřit na hardwaru. Velice podstatné také je, jak rychle si softwarová platforma dokáže s daty poradit. Nejde o to, že když manažer čeká na přípravu reportu den, musí nutně být vždy pozdě. Libovolné zdlouhavé čekání na analytické výstupy automaticky zvyšuje psychologickou bariéru k jejich opětovnému a častějšímu používání, a tím vlastně znehodnocuje příslušné analytické nástroje i zpracovávaná data. V případě zmiňovaného zákazníka přitom IBM DB2 zrychlila výkon datového skladu o celých 40 % a systému SAP o 34 %.
B I G DATA 2 012
BigData-2012.indd 24
21.6.12 8:32
Chytřejší podnikání pro Chytřejší planetu:
Většinu lodí pohání lodní šroub. Tato loď se dala do pohybu díky inteligentnímu systému. Existují tisíce různých typů lodí. Jejich prodejci ovšem rozlišují pouze dva: prodané a neprodané. Společnost MarineMax, největší maloobchodní prodejce lodí na světě, používá systém Cognos – software určený k firemní analýze a optimalizaci. Díky němu tak ví, o které lodě budou mít zákazníci zájem a které již nechtějí. Správným rozhodováním o produktech na skladě podle poptávky zákazníků společnost MarineMax zkrátila cyklus plánování dodávek ze tří měsíců na tři týdny, snížila náklady o 48 % a v konečném důsledku prodala více lodí. Chytřejší planeta vychází z chytřejšího softwaru, systémů a služeb. Pojďme vytvářet chytřejší planetu.
Vizualizace dat týkající se očekávaných příjmů uvádějí měsíční objem prodeje lodí. IBM, logo IBM, ibm.com, Cognos, Chytrejší planeta a ikona planety jsou ochrannými známkami společnosti International Business Machines Corp. registrované v řade zemí světa. MarineMax a MarineMax logo jsou ochrannými známkami společnosti MarineMax Inc. Ostatní názvy produktu a služeb mohou být ochrannými známkami společnosti IBM nebo jiných firem. Aktuální seznam ochranných známek společnosti IBM naleznete na webových stránkách www.ibm.com/legal/copytrade.shtml. © International Business Machines Corporation 2012.
BigData-2012.indd 25
21.6.12 8:32
Velká data jsou výzvou Každých pět let se objem zpracovávaných dat zvyšuje přibližně desetkrát. Data, se kterými firmy pracují, přitom obsahují velké množství důležitých informací, z nichž lze získat konkurenční výhodu, odhalit nové trendy na trhu i ochránit firmu před krizí. K tomu je však nutné s nimi umět pracovat. ROBERT HAVRÁNEK
P
ři rostoucích objemech dat obvykle z několika různých zdrojů – samostatných souborů, účetních systémů, ERP a CRM systémů, e-shopů atd. – je zcela nezbytné, aby i nestrukturovaná data umožňovala rychlé vyhledávání, třídění, automatizované zpracování i sdílení napříč týmem. Tato data totiž obsahují důležité informace nejen pro samotný provoz, ale také pro rozvoj a budoucnost firmy. To, co je pro jedny zdrojem informací o spokojenosti zákazníků, je pro druhé zdrojem informací o přáních zákazníků a pro další zase zdrojem informací o složení zákaznické báze a jak se v čase a jednotlivých regionech mění. Právě proto třeba Microsoft dlouhodobě prosazuje politiku propojení databázového Microsoft SQL Serveru, případně i podnikových informačních systémů Microsoft Dynamics, s portálovým řešením Microsoft SharePoint, který slouží jako společná, jednoduchá a srozumitelná prezentační vrstva pro podniková data ze všech zdrojů, včetně třeba samostatných souborů.
Příklad analýzy velkých dat pro Twitter pomocí nástroje Microsoft Business Intelligence platformy, PowerPivotu
Data jsou až na prvním místě SharePoint je tak velice efektivním nástrojem pro sdílení informací napříč firmou doplněný o rychlé vyhledávání napříč datovými zdroji. Důležitou roli ve světě zpracování, třídění a segmentace dat hraje ve světě technologií Microsoftu také Microsoft Excel, jehož funkce dnes dokáže ovládat dlouhá řada zaměstnanců. Pro ten existují třeba i bezplatné rozšiřující moduly, jako je například PowerPi-
26
stavových ukazatelů a trendových křivek k dynamické rovině, kdy lze prakticky v reálném čase aktivně hledat v takřka libovolném objemu dat nové trendy a souvislosti, a to dokonce i v týmu, který už díky dnešním komunikačním technologiím jako třeba Microsoft Lync nemusí ani sedět v jedné zasedací místnosti či zemi.
Pro zpracování velkých dat je potřeba jiná infrastruktura
Aby bylo možné data podrobovat statické či dokonce dynamické analýze a získat tak ze zpracovávaných dat skutečnou přidanou hodnotu a informace pro podporu rozhodování managementu, je nezbytné, aby všechny analýzy byly rychlé. Report, na který musí manažer čekat čtyři hodiny, sice může fungovat a může managementu dát potřebné informace k rozhodování, ale rozhodně nemůže plnit roli nástroje motivujícího management, aby v datech, která má firma k dispozici, zkoušel aktivně hledat nové trendy a souvislosti. Proto Microsoft SQL Server 2012 i cloudový SQL Azure nabízí systémovou architekturu od začátku připravenou na zpracování velkých objemů dat. Nechybí zde přitom ani podpora pro populární open-source Microsoft nabízí komplexní řešení pro práci s velkými daty knihovnu Apache Hadoop, která umožňuje efektivní paralelní mohou obrátit i na cloudové alternativy zpracovávání nestrukturovaných dat na těchto nástrojů, a soustředit se tak skuvíce serverech spojených do clusteru. tečně jen na data samotná. Ukázkou, s jak velkým objemem dat muVelkou výhodou současných technosejí některé firmy pracovat, je například logií Microsoftu také je, že od nástupu společnost Yahoo!, která sbírá data řadu nástrojů pro automatizovanou správu let. S využitím SQL serveru dnes pracuje IT infrastruktury Microsoft System Cens databází, jejíž velikost přesahuje 24 TB. ter 2012 už lze plynule přesouvat celé Data i výstupy snadno začleníte aplikace mezi vlastní IT infrastrukturou a cloudovou infrastrukturou Windows do svých aplikací Azure. Tím se do popředí dostává samotná Zpracovávání dat ve firmách má však ještě jeden aspekt – propojení dat a analyticaplikace a nikoliv IT infrastruktura, ktekých výstupů s dalšími aplikacemi a prorou momentálně využívá. cesy ve firmě. Proto Microsoft nabízí Interaktivní analytické nástroje možnost snadného vývoje aplikací využívajících knihovny Hadoop i všech dostupjako cesta k přidané hodnotě Skutečnou přidanou hodnotu dat však ných nástrojů SQL Serveru 2012 nebo tvoří až analytické nástroje, které z nich SQL Azure na platformě .NET. Stejně tak dokážou jednoduše vytáhnout důležité je možné zpracovávat jednotlivé výstupy trendy a informace a případně, s využitím ve vývojovém prostředí pro SharePoint, regresních funkcí a dalšího matematickde jsou pro řadu systémů už předpřiprakého aparátu, připravit také možné scévené interaktivní funkční celky webparts. náře budoucího vývoje. A s daty zpracovávanými prostřednicV letošním roce navíc prostřednictvím tvím knihovny Hadoop i analytických náMicrosoft SQL Server 2012 i jeho cloustrojů Microsoft SQL Serveru lze stejně dové alternativě Microsoft SQL Azure tak jednoduše pracovat i ve vlastních monastupuje trend plně interaktivních anadulech vyvinutých pro podnikové inforlýz, které lze navíc prostřednictvím mační systémy Microsoft Dynamics. SharePointu jednoduše sdílet napříč firmou. To posouvá analytické zpracování Autor je produktový manažer serverové divize, dat z dosavadní statické roviny reportů, Microsoft vot, které umožňují rychle a efektivně zpracovávat nejrůznější analýzy využívající všechny uživatelům důvěrně známé nástroje, které Excel nabízí, a to nad daty přímo z databáze v SQL Serveru. Důležitým novodobým trendem také je, že firmy, které potřebují s daty pracovat na globální úrovni nebo nechtějí investovat do nákupu a správy vlastní infrastruktury, se
B I G DATA 2 012
BigData-2012.indd 26
21.6.12 8:32
Abeceda velkých dat O „velkých datech“, tedy o big datech, se hovoří již delší dobu. Z počátku to byl termín, jako kdysi býval „cloud“, a stejně jako cloud ani tento pojem nebyl dodnes jasně definován. JA N PAVL Í Č E K
T
z mnoha bezpečnostních kamer. V době, kdy termín big data vznikl, si možná nikdo neuměl představit, že data mohou přibývat rychlostí 1 TB/s, dnes taková prostředí existují.
Analytika
Big Data ABCs
o je samozřejmě záměr – název byl vytvořen už v roce 2010 a byl to primárně marketingový termín používaný k popisu velkého množství dat, tj. nelehce představitelného množství dat jako (tehdy) např. petabajt. Vágnost tohoto názvu znamenala, že mohl být používán více skupinami odborníků, a to s různými cíli a v rozdílných souvislostech. Jinak řečeno trh pro tento „termín“ zůstal otevřený a každý získal dojem, že je součástí big data světa. Z toho samozřejmě měly prospěch firmy prodávající infrastrukturu, ale přineslo to i nečekaná pozitiva a termín big data se stal mnohem diskutovanějším, než se čekalo. Pro většinu lidí v oboru znamenají big data jeden typ dat a tento pojem tak pro ně má jeden význam. Termín big data ale můžeme v zásadě použít pro tři kategorie řešení. Ve společnosti NetApp tak hovoříme o „ABC's of big data“. A co se za těmito třemi písmeny skrývá? Pro nás jsou tyto kategorie definovány způsobem využití uložených informací. V této oblasti jsou zpracovávány i po redukci velmi velké soubory dat. Charakteristické je, že po „systematizaci dat“ se zpracovávají mnohem větší objemy dat, než bylo možné u existujících systémů, a to nejlépe při mnohonásobném urychlení. Data obvykle pocházejí z vědecké oblasti nebo finančních institucí a kontinuálně přibývají. Často je potřeba zpracovávat data opakovaně při třeba jen malé úpravě algoritmů. Data jsou primárně čtena, a nikdy ne přepisována. Cílem takových analýz bývají např. zrychlení chování firmy na trhu, identifikování budoucí příležitosti, a to vše co nejrychleji a na základě co nejvíce dostupných zdrojů informací. V této oblasti dnes dominují řešení založená na systémech MapReduce a open source platformě Hadoop.
Bandwidth (propustnost) Tato oblast se samozřejmě také týká velkého množství dat, ale charakteristické pro ně je, že se spíše jen přesouvají z jednoho místa na druhé. Příklady mohou být zpracování dat o počasí z mnoha senzorů a satelitů s potřebou dostat data do centrální lokality či prosté ukládání videa
Content (obsah) To je oblast, kde je požadováno ukládání velkého množství záznamů za účelem vygenerování přidané hodnoty. Je to jedna z nejčastějších forem podoby „velkých dat“ a oblast, kam se zařazuje většina tradičních dodavatelů v oboru, kteří se nespecializují na výše uvedené formy ukládání dat. Na rozdíl od analýzy zde není vyžadován paralelní přístup k velkým souborům dat v jeden okamžik. Jednotlivé záznamy mohou být i velmi malé, ale vždy patří do obrovského fondu informací, který bývá potřeba uchovat velmi dlouho. Na rozdíl od Bandwith kategorie zde není důležitá schopnost pojmout nové informace rychle. Dobrým příkladem je ukládání lékařských snímků. Uživatel bude mít u každé kategorie zcela jiné požadavky. Zákazník A se bude zajímat, kolik záznamů může vzít při analýze v úvahu, a bude se ptát, jak rychle dostane výsledky. Zákazník B se bude obávat, jestli řešení stihne pojmout všechny informace, a konečně zákazník C se bude zajímat o otázky spojené s dobou existence dat,
jako jsou neomezená velikost, migrace během života, compliance… Nejen pro odborníky na ukládání dat je zřejmé, že každé řešení představuje zcela odlišné nároky na diskové úložiště. Zdá se, že přichází doba, která mění pravidla hry v oblasti diskových úložišť. Společnosti si dnes pokládají otázky jako: Jsou nějaké možnosti jak na základě informací získat konkurenční výhodu? Co kdybychom spojili trendy v nákupech s lokalitou, kde se zákazníci aktuálně nacházejí? Jaké přístupy pomohou našim obchodním výsledkům?
Výčet takovýchto otázek je neomezený, ale odpověď je vždy stejná – tyto společnosti potřebují partnera, který jim umožní z „velkých dat“ získat výhodu a transformovat ji na obchodní hodnotu. Společnost NetApp nabízí pro všechny oblasti prověřená řešení založená na professional services a na diskových úložištích řady E-Series, která mají špičkové parametry z hlediska datové propustnosti. Mezi tato řešení patří např. NetApp Open Solution For Hadoop, NetApp High Performance Lustre Solution, NetApp StorageGRID Healthcare Solution, NetApp Solution for Archive as a Service a další. Pokud začínáte přemýšlet o řešení, které spadá do jedné z kategorií, a zatím nevíte, kolik petabajtů nebo milionů IO operací musíte umístit do jednoho racku, ale už tušíte, že diskové úložiště bude velké až těžko představitelné, doporučujeme vám využít zkušenosti z našich instalací a hledat cestu společně s námi. Autor je pre-sales konzultant, NetApp W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 27
27 21.6.12 8:32
In-memory computing, bič na spoutání Big Data Téměř každý proces, činnost nebo aktivita, které se uskuteční, za sebou nechávají datovou stopu. Množství dat přibývá nezadržitelným tempem a firmy si s nimi přestávají vědět rady. Existuje však mnoho způsobů jakými je možné Big Data zhodnotit a výsledné informace využít pro další růst a vznik inovací. In-memory computing představuje ten nejsnazší a zároveň nejefektivnější způsob. MI C H AL B E ZÁK
D
at je moc a bude jich ještě víc. Dají se z nich získat zajímavé informace, ale musíme s nimi umět pracovat. Čím více jich je, tím je zpracování obtížnější a náročnější, a to jak na IT infrastrukturu, tak hlavně na čas a v konečném důsledku i na z toho plynoucí náklady. Přínos dat se tak minimalizoval. Přitom možnost získat z nich informace, a to ideálně v reálném čase, představuje pro společnost a její řízení významný přínos.
a to také nejde, když na výsledek čekají několik hodin. Zákazník nemůže čekat a „pomalá“ data zpomalují i byznys.
Přínosy in-memory computingu Společnosti všech velikostí ze všech průmyslových odvětví mohou těžit z výhod in-memory computingu, jako jsou úspory nákladů nebo jednoduchost a efektivnost řešení. Náklady na správu databází v současné době představují více než čtvrtinu většiny IT rozpočtů. Avšak databáze zalo-
žené na in-memory technologii využívají hardware, který je méně energeticky náročný než tradiční technologie pevných disků, čímž se dramaticky snižují náklady na provoz a údržbu hardwaru. In-memory databáze, jako je SAP HANA, zjednodušují IT prostředí, přičemž uvolňují pracovní zdroje, které byly dedikované pro práci s analytickými nástroji a pro tvorbu reportů. Díky osvědčené a vyspělé technologii nezpůsobují implementace přerušení provozu a umožňují společnostem rychlý návrat k běžnému stavu. Migrace na in-memory databázi umožňuje odstranění celé technologické vrstvy z firemní IT architektury, přičemž se snižují komplexita a požadavky na infrastrukturu, které vyžadují tradiční systémy. Snížená úroveň komplexity přináší zvýšenou efektivitu pracovních týmů kvůli lepší dostupnosti dat v čase. Vyšší výkonnost zase umožňuje firemním uživatelům získat po-
Spása jménem SAP HANA Technologický pokrok nám naštěstí přinesl in-memory computing. Vývojem in-memory principu se již více než jedno desetiletí zabývá Hasso Plattner Institut. Ten založil Hasso Plattner, spoluzakladatel a současný předseda představenstva společnosti SAP. To je také důvod, proč je SAP lídrem v oblasti in-memory computingu. Jednoduše má dekádu náskok. Na bázi in-memory vyvinula společnost SAP databázovou platformu SAP HANA, která oproti současným databázovým technologiím nabízí až 100 000násobné zrychlení výpočtů. Jak je to možné? Zejména díky tomu, že veškerá transakční data jsou uchovávána v operační paměti, která je už z principu o několik řádů rychlejší než v současnosti využívané pevné disky. Sloupcovité uspořádání navíc redukuje potřebua vytváření indexů a agregátů a dochází tak k výraznému zmenšení samotné databáze. Než se řešení SAP HANA objevilo na trhu, nemohly společnosti některá data vůbec analyzovat. Buďto by musely investovat příliš do rozšíření kapacit své IT infrastruktury, nebo to i tak trvalo příliš dlouho. Když potřebujete informace do hodiny, aby to pro vás mělo smysl, ale analýza trvá například den a půl, tak ji zkrátka nebudete dělat, protože je to jen plýtvání vašimi zdroji. Lidé ve firmách chtějí mít informace k dispozici hned a nechtějí s každou žádostí chodit za IT oddělením. Chtějí mít možnost upravovat zadání svých analýz,
28
SAP HANA
www.experiencesaphana.com
B I G DATA 2 012
BigData-2012.indd 28
21.6.12 8:32
třebné informace prostřednictvím mobilních zařízení a v reálném čase. To platí nejen pro databáze, ale i jiné technologie. S podporou in-memory přístupu lze na bázi SAP HANA vyvíjet i jednotlivé aplikace a SAP tuto iniciativu podporuje. In-memory technologie usnadňuje organizacím sestavení uceleného přehledu o obchodních datech a není omezována množstvím analyzovaných dat, které se shromažďují v datovém skladu. In-memory technologie navíc nabízí zvýšenou dostupnost informací, které umožňují obchodní rozhodování v reálném čase. Neustálé technologické pokroky, jako jsou chytré telefony a tablety nebo vyhledávače a sociální sítě, změnily způsob, jakým lidé technologie vnímají a jakým způsobem je využívají. Poptávka po aktuálních informacích se neustále zvyšuje a s tím souvisejí zvýšené požadavky na zpracování neustále narůstajících objemů dat. SAP HANA nabízí nejlepší možnou alternativu k pomalým a nákladným databázovým systémům založeným na pevných discích. Společnosti, které adoptují in-memory technologii, získávají skutečnou konkurenční výhodu v podobě zvýšené efektivity, snížení nákladů na IT a zvýšení schopnosti porozumět obchodním datům. Dva hlavní trendy, kterými jsou klesající pořizovací náklady paměťových médií a masivní systémové architektury s multijádrovými procesory, mění svět podnikového softwaru tak zásadním způsobem, že se dá svým významem srovnat snad jen s konceptem klient-server architektury. Tak jak tomu bylo v případě přechodu na klient-server architekturu na začátku devadesátých let, způsob tvorby softwarových řešení se musí zásadně změnit, tak aby bylo možné využít tyto inovace. Přidaná hodnota in-memory technologie spočívá i v tom, že umožňuje vznik nového přístupu, jakým se dodávají služby zákazníkům. Součástí podnikového datového skladu je proces kopírování, transformace a agregace dat, který začíná zpracováním dat z transakčních aplikací, jako je ERP, a končí analýzou dat v analytických aplikacích. Jendou z klíčových vlastností tohoto procesu je optimalizování výkonu. V případě změn typů nebo množství analyzovaných dat je IT nuceno provést změny, které mohou trvat několik týdnů. Vysoce výkonná a flexibilní podniková řešení založená na in-memory technologii umožňují provést změny tohoto typu v mnohem kratší době. In-memory computing zvyšuje rychlost a efektivnost existujících řešení a umožňuje vznik zcela nových procesů a byznys modelů.
Úspěch SAP HANA v praxi SAP HANA je špičkovým řešením a platformou pro práci s rozsáhlými daty v reálném čase. Jeho úspěch a kvalitu dokládá i to, že se stal nejrychleji prodávaným řešením v celé čtyřicetileté historii SAP. Jeden příklad z praxe za všechny.
Společnost Nongfu Spring s použitím SAP HANA dokázala snížit čas potřebný na zprocesování postupů a funkcí potřebných pro výpočet dopravného z 24 hodin na 37 sekund, což umožnilo zkrátit proces harmonizace účtů o jeden den. Kromě toho platforma SAP HANA umožnila
Změna technologického paradigmatu byla českému publiku představena i v rámci In-memory Summitu pořádaném v květnu předními IT dodavateli
Nongfu Spring, největší výrobce balených vod v Číně, má obchodní majetek ve výši zhruba 10 miliard jenů a vlastní desítky závodů. Pro další růst, zvýšení efektivity a snížení nákladů však společnost potřebovala mít k dispozici přístup k aktuálním datům v reálném čase. Vzhledem k velkému objemu dat trvala Nongfu Spring práce s daty a vytváření reportů z prodejních míst déle než jeden den. Vedení Nongfu Spring si však uvědomilo výhody plynoucí z použití in-memory technologie v podobě snížení času potřebného na zpracování a dotazování dat a zvolilo si jako databázové řešení SAP HANA. A s výsledkem byla společnost nadmíru spokojena. Patrick Hoo, CIO Nongfu Spring, doslova řekl: „SAP HANA je komplexní a sofistikovaná in-memory databázová platforma, která vysoce předčila naše existující řešení založené na Oracle 11g. Se SAP HANA jsme dosáhli tří cílů: extrémně rychlého zobrazení dat, vysoce efektivního provádění operací a synchronizace dat v reálném čase. Například provedení jednoho skriptu je se SAP HANA 200× až 300× rychlejší než při použití PL/SQL skriptu v původním řešení.“
Nongfu Spring usnadnit tradiční údržbu IT a problémy s odezvou pomocí průběžné synchronizace dat ze SAP systémů a dalších heterogenních datových zdrojů.
Jsou zde ale i další příklady. Společnost Red Bull, která vyrábí známý energetický nápoj, nasadila Business Warehouse na bázi SAP HANA, a v důsledku toho se jí kromě enormního zvýšení rychlosti práce s daty a reportingu podařilo dosáhnout komprese databáze o 80 procent, z 1,5 TB na 250–300 GB. Společnost Lenovo zase plánuje pomocí SAP HANA zpracovávat 1,8 milionu záznamů, každý s několika atributy, za méně než jednu sekundu. Dnes je společnost SAP díky databázové platformě SAP HANA schopna u svých zákazníků v reálném čase analyzovat data v databázích o rozsahu desítek terabajtů. Ale ve spolupráci s IBM už se připravuje řešení schopné adresovat petabajtové pole, a to je teprve začátek. To je také jeden z důvodů, proč je SAP nejrychleji rostoucí společností na světovém databázovém trhu. Autor je Presales Consultant pro SAP HANA W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 29
29 21.6.12 8:32
S patřičným výkonem přeměníte big data ve znalosti Moderní společnosti v oblasti Web 2.0, bioinformatiky, výroby, financí a mnoha dalších odvětví musí zachytit, uložit a analyzovat obrovské množství dat a stále častěji nestrukturovaných dat. Porozumění vlastním datům dává organizacím možnost odhalit významné trendy na základě vlastních dat, která jim pomohou zvýšit konkurenceschopnost, inovovat a dosáhnout důležitých rozvojových cílů. MI C H AL K L I M E Š
R
ozsáhlá data jsou součástí high-performance computing (HPC) trhu po celá desetiletí. Co se v poslední době změnilo, je množství dat generovaných i mimo obor HPC. Jedním z nejvýznamnějších zdrojů jsou internet a v poslední době aplikace sociálních sítí. Dalším zajímavým příkladem je výzkum klimatu, který může využívat heterogenní historické údaje za posledních 100 let pro jednu simulační analýzu. Cílem práce s velkými daty je obvykle maximalizovat porozumění a inovace za použití jak zavedených, tak i novějších metod na stejné vědecké nebo průmyslové problémy. Narůstá i počet impleSGI UV 10 mentace systému pro specializované využití k řešení jediného kritického problému, jako je například odhalování extrémního rozsahu podvodů za použití jedné nebo více novějších analytických metod. Právě pro tyto souvislosti a podobnosti je dnes oblast big dat vnímána na rozhraní HPC a transakčního zpracování.
SGI ICE 8400
30
Jedním ze současných přístupů je Hadoop framework pro vytváření datových systémů a pro analýzu dat pomocí rozsáhlých distribuovaných clusterů. Hadoop je ideální pro velké objemy dat, které lze snadno rozložit do mnoha menších objemů. Společnost SGI již nasadila tisíce
Hadoop serverů na několika svých systémových architekturách včetně serverů řady Rackable, CloudRack C2, SGI ICE a 8400.
Hadoop Hadoop implementuje výpočetní přístup nazvaný MapReduce, v němž je aplikace rozčleněna do mnoha malých fragmentů úloh, z nichž každá může být vykonána nebo znovu spuštěna na jakémkoli uzlu daného clusteru. Hadoop framework transparentně zajišťuje aplikacím jak spolehlivost, tak přístup k datům. Kromě toho nabízí také distribuovaný souborový systém, který ukládá data na výpočetních uzlech, což zajišťuje velmi vysokou celkovou propustnost napříč clusterem. MapReduce přímo umožňuje distribuované zpracování. Pokud je každá mapovací operace nezávislá na ostatních, mohou být všechny mapovací operace prováděny najednou, i když v praxi jsou limitovány
počtem jednotlivých datových zdrojů a/nebo počtem CPU v blízkosti každého zdroje. MapReduce může být aplikován na výrazně větší datové soubory, než jaké dokážou zvládnout standardní servery. Velký cluster umí využít MapReduce k roztřídění dat o velikosti petabajtu i více během několika málo hodin. Souběžnost také zajišťuje obnovu dat po částečných výpadcích serverů nebo úložišť během operace. Pokud jeden mapovací či redukční krok selže, úloha může být přeplánována za předpokladu, že vstupní data jsou stále dostupná. Jak MapReduce, tak distribuovaný souborový systém jsou vytvořeny tak, aby výpadky uzlů byly automaticky řešeny
clusterovou infrastrukturou. Díky velkému počtu serverů v Hadoop clusteru se očekává, že může dojít k výpadku jednotlivých uzlů. Infrastruktura Hadoop toto dokáže rozpoznat a je navržena tak, že zabraňuje selhání celého clusteru při selhání dílčích uzlů.
Clusterové systémy SGI pro Hadoop Aplikace Hadoopu se mohou lišit v závislosti na potřebách I/O, paměti a CPU zdrojů. Ideální serverové konfigurace pro clusterové uzly Hadoopu se velmi liší, ale obecně se doporučuje, aby bylo nasazeno nejméně šest, a pokud možno více jednotek s PCI HBA pro dosažení výkonu. Například různé velikosti a kapacity SATA disků mohou být různě namíchány pro dosažení ideální kombinace výkonu, kapacity, nákladů a úspory energie. Pokud jsou lokální disky umístěny na každém uzlu, jako je tomu u Hadoop in-
B I G DATA 2 012
BigData-2012.indd 30
21.6.12 8:32
Datové centrum HLRN v Berlíně
objemy dat v tabulkových reportech. SGI spolupracuje také s firmou Pentaho a nabízí Pentaho Business Analytics, jež využívá grafické ETL prostředí pro vytváření a správu Hadoop MapReduce úloh. Tento software snadno integruje data z jiných zdrojů a poskytuje end-to -end byznys analýzu pro Hadoop včetně reportingu, ad hoc vyhledávání, interaktivních analýz a datové integrace. Spolu s firmou Quantum4D nabízí SGI pro Hadoop datové modelování a interaktivní vizualizaci dat pro smysluplné využití nabitých poznatků.
SGI řešení pro business intelligence
stalací řady Rackable nebo CloudRack, pak Gigabit Ethernet poskytuje dostatečnou síťovou propustnost i latenci. Jsou-li na jednom matherboardu k dispozici dvě síťové karty, mohou být propojeny s cílem zvýšit propustnost. Pro některé instalace bylo zvoleno síťové propojení 10GigE kvůli větší propustnosti oproti GigE. U instalací systémů řady SGI ICE je dostatečná propustnost zajištěna přes páteřní Infiniband. Testy, které společnost SGI prováděla, prokázaly, že podobných výsledků bylo dosaženo u aplikací, jež přistupují k vysoce výkonným diskům přes síť Infiniband ve srovnání s disky s nižším výkonem, které jsou k dispozici na lokálním uzlu. Administrativní provoz je oddělen od aplikačního provozu dodatečnou administrativní sítí založenou na GigE. Hadoop je k dispozici jako sada open sourcových softwarových komponent, které je možné stáhnout na webové stránce www.hadoop.apache.org. Doporučovaná je verze Hadoopu 0.21.0 či novější, která obsahuje funkční vylepšení a kde jsou opravené chyby z předchozích verzí. Na základě vztahů SGI s klíčovými poskytovateli business intelligence (BI) softwaru přináší SGI Hadoop Cluster referenční, implementací prověřený, optima-
lizovaný, ready-to-run Hadoop systém spolu s ekosystémem analytických řešení, která umožňují vývojářům jednodušeji vytvářet nejvhodnější BI řešení. SGI spolupracuje s partnery Kitenga, Datameer, Pentaho a Quantum4D a poskytuje tyto diferencované analytické možnosti zákazníkům z oblasti vládního a finančního sektoru, ze sociálních médií, telekomunikací a z další klíčových oborů. SGI a Kitenga nabízí novou generaci Big Data Insight Engine s integrovaným vyhledáváním, informačním modelováním a vizualizačními funkcemi. Partnerství SGI a Datameer nabízí business intelligence platformu pro Hadoop s integrací dat, tabulkovým rozhraním pro analýzu a vizualizaci dat. Díky tomu je podnikovým uživatelům umožněno přistupovat, analyzovat a zobrazovat obrovské SGI® UV 1000
Hadoop je ideální pro velké objemy dat, které lze snadno rozložit. Pokud data nelze snadno rozložit, je vhodné použít ke zkopírování všech dat do paměti najednou velký server se sdílenou pamětí jako SGI UV jako součást výpočetního komplexu Hadoop. Díky velmi nízké latenci propojení může systém SGI UV pracovat na objemných datových souborech v reálném čase a je používán pro typy aplikace, jako jsou například odhalování podvodů a bezpečnostní analýzy. Systémová paměť standardních uzlů má omezenou velikost a není logicky sdílena. Neexistence jednoho paměťového, dostatečně velkého prostoru pro všechny údaje je pro značnou část big data úloh problém. Místo toho musí být údaje rozděleny do menších pamětí jednotlivých uzlů. To funguje docela dobře pro výpočetně náročné problémy, které vykazují pravidelné (tj. snadno členitelné) datové struktury, ale některé výpočetně náročné nebo rozsáhlé datově náročné problémy zahrnují nepravidelné struktury a neumožňují rozdělení na jednoduché datové celky. Proto absence velké, globálně sdílené paměti může u některých náročných big data problémů omezit jejich řešitelnost, případně výrazně omezit výkon z důvodu komunikačních limitů paměťových subsystémů. Z těchto důvodů se instituce s nutností spouštět i nejnáročnější big data problémy už snaží využívat systémy se sdílenou pamětí, vysoce převyšující paměťové možnosti standardních clusterů. Autor je managing director Eastern Europe, SGI W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 31
31 21.6.12 8:32
Big data budou časem norma Datové potřeby každého z nás budou dál narůstat a ze správy dat se stane klíčové odvětví s očekávaným desetinásobným nárůstem výkonnosti, říká generální manažer společnosti Terracota Gary Nakamura.
zpracováváme hodně dat, ale znovu, takové velikosti dat budou za pět let normou. Rychlost, se kterou budeme schopni pracovat s big daty, bude pro zákazníky to podstatné a to, co budou očekávat od řešení pro správu dat v budoucnu. Za druhé, pro implementaci BigMemory není potřeba žádný speciální hardware. Používá se běžně dostupný hardware, třeba HP, Dellu nebo jiných komoditních dodavatelů.
Spolupráce se Software AG S O FT WAR E AG Můžete v krátkosti vysvětlit, jak se díváte na dnes ve všech pádech skloňovaný buzzword big data, a podělit se o odhad vývoje trhu s big daty během příštích pěti let?
Kromě toho, že jde o buzzword, je to reálný problém dneška. Množství dat zákazníků a partnerů roste exponenciální řadou, že s tím dnes používané technologie nemohou držet krok – nelze škálovat a zároveň zvyšovat výkonnost. Co se týče predikcí trhu – z big, tedy z množství se stane norma pro každého, je jen otázkou času kdy. Datové potřeby každého z nás dále porostou a ze správy dat se stane klíčové odvětví s očekávaným desetinásobným nárůstem výkonnosti.
Terracotta byla minulý rok koupena integrační společností Software AG, ale stále působí, na rozdíl od jiných akvizicí Software AG, nezávisle. Existují nějaké plány na integraci Terracotta do Software AG?
Máme v plánu integrovat produktovou řadu Terracotta mezi nástroje Software AG. Dneska fungujeme jako nezávislá společnost, protože se zaměřujeme na in-memory správu dat. Společně s ko-
Společnost SAP tvrdí, že v budoucnu hodlá hrát vyznamnou roli na databázovém trhu. Vy jste, na rozdíl od nabídky SAP Hana, zaměřeni pouze na velké java zákazníky. Máte v plánu zúčastnit se iniciativ a posunů směrem od OLTP k OLAP?
Máme strategii pro vícekanálové přístupy a využívání naNaši zákazníci běžně implementují BigMemory jeden až dva týdny, říká generální manažer spol. Terracota Gary Nakamura šich technologií. Java je dnes jedním ze způsobů, jak využít náš nástroj BigMemory. Ale naše legy ze Software AG hledáme příležitosti, jak využívat technolomateřská společnost Software AG nedávno koupila MyChannels, gie pro in-memory computing v kmenových produktech jako což představuje další možnost (kanály), jakým lze data ukládat jsou například řada pro process intelligence, nástroje pro koma přistupovat k nim z našeho BigMemory řešení. SAP sice říká, plexní zpracovávání událostí (CEP), integrační servery a další. že chce v budoucnu hrát významnou roli na databázovém trhu, ale já to v současnosti chápu tak, že SAP funguje pouze s jinými Na jaře na CeBITu 2012 Software AG oznámila svou strategii pro in-memory správu dat. Můžete nám přiblížit, jakou úlohu v ní SAP aplikacemi. Samozřejmě, že se mohou snažit to změnit, ale představují technologie Terracotta? mají před sebou řadu nelehkých úkolů. Na databázovém trhu je Oracle, se kterým se budou potýkat. Data Management 2.0 je společná strategie pro Terracottu i SoftCo se týká OLTP versus OLAP iniciativ, myslíme si, že Bigware AG. Cítíme obrovský potenciál, jak posouvat dál společMemory může oboje spojit. Takže namísto nutnosti extrahovat nosti, které budou schopny využívat data ze společně přístupz OLTP do OLAP budete mít jednu společnou vrstvu, ve které ného paměťového úložiště a které využijí hodnoty, které se skrýbudete mít data v paměti a budete schopni analyzovat, tak dělat vají ve velkých objemech dat, ve svých strategiích, podobně jako transakce z jednoho společného datového uložiště. A právě tam při využití Hadoop frameworku. vidíme v budoucnu místo pro BigMemory.
BigMemory Když vezmete v úvahu ostatní dodavatele v oblasti big dat, co považujete za největší konkurenční výhodu řešení, jako je BigMemory?
Je BigMemory jediný produkt, který budete nabízet pro big data? Jak vlastně spolu souvisejí?
BigMemory má dvě zásadní konkurenční výhody. Za prvé, potřebnou výkonnost můžete škálovat. Hodně lidi si myslí, že dnes
Dnes je BigMemory naší vlajkovým produktem, ale v budoucnu svou roli vidíme v analytice. S využitím komplexního zpracová-
32
B I G DATA 2 012
BigData-2012.indd 32
21.6.12 8:32
vání událostí (CEP) a zmíněným vícekanálovým přístupem budou moci zákazníci rychle analyzovat jak v reálném čase, tak dávkově z dat, jejichž velké objemy budou uloženy v paměti (in-memory). Takže odpověď zní: Ne, není to jediný produkt pro big data, který budeme nabízet. Můžete popsat obvyklý postup při nasazení BigMemory? Kolik času potřebujete na typickou implementaci?
10 důvodů, proč pracovat s daty v in-memory IT experti souhlasí: operační paměť RAM je nový disk. Stále více společností přesouvá svá data do operační paměti – mimo disková úložiště a vzdálené relační databáze. Data jsou přesně tam, kde se s nimi pracuje a kde běží aplikace. Nabízíme 10 hlavních důvodů, proč začít s in-memory technologiemi.
Naši zákaznici běžně implementují jeden až dva týdny a průměrná doba pro finální nasazení je kratší než 90 dní od samotné implementace do produkce. Samozřejmě, složitější projekty mohou trvat trochu déle, ale tohle je obvyklý časový rámec, který umožňuje poměrně rychlou návratnost investic.
1
Část Terracotta technologií se vyvíjí v open source modelu. Jak je to vlastně s verzováním BigMemory, máte v plánu další verze? Můžete se vyjádřit k vašemu přístupu k open source v budoucnosti?
2
Některé komponenty nástroje BigMemory jsou opensourcové, jako například Ehcache a Quartz, zatímco jiné jsou proprietární a jsou vyvinuty kompletně u nás. Ještě pro tento rok, počínaje podzimem, představíme několik významných novinek, které budou velmi zajímavé pro trh s big data a pro kohokoli, kdo se snaží řešit s problémy datovou výkonností. Hodláme v budoucnu dál investovat do komunit kolem Quartz a Ehcache a budeme přidávat nové funkcionality a chceme být prospěšní ve světě open source. Je to velikost společnosti, co určuje vaše in-memory zákazníky? Jaké jsou jiné faktory, kterými byste popsal zákazníky společnosti Terracotta?
Ne, není to velikost nebo odvětví, co je podstatné. Naši zákazníci jsou třeba z oblastí financí, ale i ze zábavního průmyslu nebo herního odvětví. Je to kdokoli, kdo má datově náročné aplikace a jednoznačné požadavky na celkovou výkonnost, které musejí být plněny okamžitě. Vlastně zákazníkem může být ten, kdo se potřebuje spolehnout na řešení, které ho podpoří při jeho růstu. Na vašich webových stránkách uvádíte zákazníky jako Adobe, BBC, JP Morgan, takže trochu velké ryby. Hodí se vaše řešení také pro menší či střední firmy? Můžete zmínit nějaká jména?
Určitě – našimi zákazníky jsou třeba AltEgo, Omnifone nebo Oil Deck… Mohl bych pokračovat dál, ale problémy s výkonností a škálováním nejsou vyhrazené pouze pro největší z největších společností. Pro přežití jakékoli společnosti, bez ohledu na velikost, je potřeba dosahovat výkonnosti a škálovat stejnými způsoby, jako to dělají ony velké ryby – a naše řešení je i pro ně. Myslíte si, že nedostatek standardů v oblasti big dat a cloud technologií může být překážkou, při integracích, které zákazníci potřebují?
Nemyslím si to. Pro big data existuje pár de facto standardů. Pro analytiku s big daty byste se měli poohlédnout po Hadoop frameworku a jeho standardním rozhraní. V případě databázových technologií lidé mají tendenci zůstat u SQL. Pro ukládání v prostoru big dat se pravděpodobně uchytí NFS. Pravděpodobně se příliš „nevykročí z řady“, co se týká přístupu k datům. Nenazval bych to „nedostatek standardů“, protože tu nějaké standardy jsou a není to žádný divoký západ. V cloudech je to ovšem jiná hra, tam se nedá opřít o žádné z „legacy“ řešení pro správu dat, jako jsou rozhraní nebo NFS, takže to pravděpodobně v oblasti cloudu bude trochu komplikovanější než v oblasti big data.
Ohromující rychlosti Přístup do paměti je realizován v mikrosekundách. To znamená, že důležitá data máte dostupná v reálném čase, 100× rychleji než při přístupu k datům na diskovém úložišti, které je dostupné přes síť. Vyšší propustnost Výrazně nižší latence vede k výrazně vyšší propustnosti. Organizace, které pracují s velkým množstvím transakcí, mohou při využití in-memory zvětšit množství zpracovávaných dat bez navyšování výpočetního výkonu.
3
Zpracovávání v reálném čase Pro některé aplikace, jako jsou například detekce zneužívání (fraud), online obchodování nebo monitorování sítě, mohou mít zpoždění v řádu sekund či milisekund nedozírné následky. Pro tyto aplikace je akceptovatelný pouze okamžitý přístup k datům, která mohou být zpracována při obrovské rychlosti.
4
Rychlejší analýzy Proč čekat hodiny na reporty, které jsou sestaveny ze starých dat? S in-memory daty můžete analyzovat v reálném čase. Rozhodovat se pak budete rychleji a na základě aktuálních informací.
5
Padající ceny pamětí Během několika let jsme zaznamenali výrazný pokles cen operačních pamětí RAM. Dnes můžete koupit server pracující s 96 GB paměti za méně než sto tisíc korun, in-memory práce s daty tak dává smysl po technické i obchodní stránce.
6
Servery s množstvím paměti Výrobci hardware přidávají stále více paměti. Dnešní terabajtové servery jsou stavěné na zpracovávání obrovských toků dat, v in-memory samozřejmě, které generují mobilní zařízení, webové stránky, různé senzory a jiné zdroje.
7
In-memory datový sklad In-memory datový sklad může hrát ústřední roli ve správě, agregaci, distribuci a neustálé dostupnosti BIG dat (data, se kterými obtížně pracují tradiční databáze) a to při rychlosti, kterou poskytují dnešní paměti.
8
Snadné pro vývojáře Neexistuje snadnější způsob jak ukládat data než v jejich nativní podobě v paměti. Nejsou potřeba žádná komplexní API, knihovny nebo rozhraní a mizí i strasti způsobené konverzí do relačního nebo sloupcového formátu.
9
Očekáváno zákazníky In-memory data uspokojí potřeby „nutně a hned teď“ všech zákazníků nebo lidí z byznysu. Ať už žádají rychlejší hledání, rychlejší webové služby nebo okamžitý přístup k více relevantním informacím.
10
Změny podnikání In-memory data vytvářejí další příležitosti pro inovaci byznysu. Společnosti mohou změnit přístup, analýzu a reakci na zpracování dat. Mohou vybudovat něco, co přináší výhody ze všech stran.
W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 33
33 21.6.12 8:32
Big data v (nejen) marketingu Společnost Teradata rozšiřuje portfolio řešení o Asterdata MapReduce platformu. LUB O Š M USI L
J
iž dlouhou dobu je normální součástí obecného povědomí fakt, že „data jsou bohatství společnosti“. Integrace strukturovaných dat v řadě organizací vedla před mnoha lety k datovým úložištím s objemem dat od jednotek terabajtů až po desítky petabajtů, přesto jsme tato úložiště neoznačovali pojmem „big data“. Proč? Důvodem bylo a je to, že jde o vysoce strukturovaná relační data, kdy každý detailní záznam a jeho části měly a mají svoji jasně určitelnou informační hodnotu. Objem dat, řádově v petabajtech, je zpravidla dán růstem velikosti těchto společností v globálním ekonomickém prostoru, kde není neobvyklé mít desítky až stovky milionů zákazníků, navíc s velice složitým předmětem obchodní činnosti. Oproti tomu informační hodnota nestrukturovaných a semistrukturovaných dat není v každém jednotlivém znaku či slově datového záznamu, ale je jen v některých záznamech nebo ve vybraných částech některých záznamů. Navíc se pohled na to, co pro mě hodnotu má nebo nemá, v čase mění. To vede k ukládání mnohem většího množství dat s nižší informační hodnotou na jednotku objemu. Jinými slovy, musím ukládat i data, u kterých dopředu vůbec není zřejmé, zda je vůbec bude možné využít. Tento přístup k řešení spadá do kategorie „big data“. Potřeba rozboru takto velkých objemů dat tohoto typu se opírá o požadavky na analýzy nových datových zdrojů (např. clickstream data, web logy, senzorová data, mikrotransakční data, social media data atd.), nové typy analýz (pattern matching, grafová analýza, textová analýza atd.) a nové vlastnosti úložiště (filosofie data scientist, interaktivní analýzy). Povaha nestrukturovaných a semistrukturovaných dat má za následek nejenom jiné způsoby zpracování, ale i rostoucí tlak na úsporu nákladů spojených s ukládáním těchto enormních objemů. Je zřejmé, že nelze tato data ukládat způso-
34
bem analogickým s relačními databázemi. Podívejme se ilustrativně, jak vypadá datový záznam ve weblogu jednoho kliknutí na e -shop (obrázek dole vlevo). Jaké informace lze z tohoto záznamu získat? Známe všechny požadavky na vytěžení informací v tomto okamžiku? Mají všechny znaky datového záznamu informační hodnotu? Kdo a jak informace v záJava Custom Java Presentation Applications Logic
středí umožňující práci analytikům (neexistovalo SQL rozhraní), podpora interaktivní práce s rychlou odezvou a integrace na desítky analytických nástrojů. Existuje zřetelná mezera mezi možnostmi využití obou světů. Částečnou odpovědí na tuto mezeru byl vznik nadstavby Hive nad Hadoop řešením. Úplnou odpovědí byl až v roce 2008 vznik řešení Asterdata s patentovaným rozhraním MapReduce/SQL. Poté, co se řešení Asterdata stalo v roce 2011 součástí ekosystému „Purpose built“ platforem Teradata, vzniklo integrované analytické prostředí pokrývající kompletní množinu dnes známých analytických řešení přes všechny obvyklé typy dat.
Packaged Packaged App Analytics Presentation Applications Logic
.NET Custom .NET Presentation Applications Logic
Other Presentation Applications
(R,C,C++,Python,…) Logic
BI Tool Business Presentation Intelligence Logic Tools
6
Aster Data nCluster Unified Interface
SQL
SQL-MapReduce
5
High Volume, Fast Querying 4
Dynamic Workload Manager (WLM) Massively-Parallel Data Store
App App
App App
App App
App App
3
Data
Data
Data
Data
2
1
Základní komponenty Asterdata řešení
znamech vyhledá? Jaké jsou s tím spojené náklady? Jak budou zabezpečeny funkčnost a výkon řešení? Odpovědí na uvedené požadavky a otázky byl již v roce v roce 2001 vznik nové koncepce masivně paralelního řešení – technologie MapReduce. V roce 2006 vznikla první open source implementace MapReduce pod označením Hadoop. Reálné využití MapReduce předpokládá velké množství kvalitních programátorů, dávkové zpracování ohromných objemů dat a nízký počet současně přistupujících uživatelů (dáno technologickými omezeními). Oproti relačním databázím chybějí pro-
Aster data Oproti jiným MapReduce realizacím analytická platforma Asterdata poskytuje: Podporu pro správu a analýzu nových typů a zdrojů dat. Aster data kombinuje relační data, semistrukturovaná data, jako jsou web logy (viz příklad), události, síťové vazby, hybridní řádky a sloupce. Patentovaný SQL-MapReduce framework pro podporu zabudovaného paralelního processingu jednotlivých analytických aplikací napsaných v různých programovacích jazycích dostupných ze standardního SQL rozhraní. Zabudované MapReduce paralelní prostředí s integrovanou správou a podporou procesů data governance. Integrovanou množinu nástrojů pro rychlý vývoj, testování a přesun do produkce včetně grafického vývojového prostředí, knihovny předpřipravených analytických modulů pro programátory a analytiky. Zákazníci mohou jednoduše a paralelně použít existující analytické funkce vytvořené v rozdílných progra-
B I G DATA 2 012
BigData-2012.indd 34
21.6.12 8:32
ANSWER THE SQL GAP
ANSWER
ANSWER SQL/MR
SQL/MR
THE SQL GAP
THE SQL GAP
Jak zpřístupnit byznys uživatelům analýzy nestrukturovaných dat v big data platformě?
movacích jazycích v jedné Asterdata instanci. Schéma ilustruje koncepci Asterdata řešení a jeho základní komponenty. Řešení je instalovatelné na vybrané servery komoditního hardwaru (viz body 1 a 2) (existuje i varianta kompaktního Asterdata appliance řešení). Na vybraných serverech je instalován MapReduce framework včetně analytických aplikací vyvinutých v Java, .Net, C++ apod. (viz bod 3). Paralelní framework má integrovanou dynamickou správu systémových zdrojů (viz bod 4). Uživatelské rozhraní a aplikace jsou ve schématu označeny čísly 5 a 6. Asterdata se může pochlubit některými jedinečnými vlastnostmi: Podpora nových typů analýz: přináší framework podporující analýzy, jako jsou vzorová „pattern“ analýza a grafová analýza, které jsou obtížně proveditelné v SQL relační databáze. Tyto analýzy podporují nové typy aplikací přinášející zcela nové užitné hodnoty. Zrychlení vývoje analýz: analytická architektura kombinuje předdefinovanou knihovnu analytických modulů, grafické vývojové prostředí s podporou testování. Podpora široké množiny programovacích jazyků včetně C, C++, C#, Java, Python, Perl a R zjednodušuje a zrychluje vývoj pokročilých analytických funkcí. Vysoký výkon a rozšiřitelnost: systém je navržen jako paralelní a rozšiřitelný s výkonným jádrem pro řešení složitých analýz, umožňuje výzkum dat současně s jejich zpracováním a umí identifikovat nové a měnící se vzory chování. Nákladově-efektivní big data analýzy: užívá komoditní hardware poskytující nižší náklady než jiné alternativy. V rámci „Purpose build“ rodiny Teradata platforem je Asterdata chápána jako platforma pro analýzy nových datových zdrojů a datových typů. Výstupy analýz jsou užívány samostatně nebo se integrují do datového skladu, kde obohacují pohled na obchodní procesy společnosti.
Hlavní oblasti použití Sociální sítě a analýza vztahů: Identifikace sociálních vztahů a vazeb. Výstupy podporují především aplikace pro marketing, risk a fraud. Detekce podvodů a prevence: On-line analýzy transakcí, komunikačních
interakcí a dalších souvisejících dat pro detekci a prevenci podvodného jednání. Optimalizace digitálního marketingu: Analýza událostí vznikajících v různých typech komunikačních kanálů. Cílem je zpřesnění pochopení chování zákazníků, na základě kterého jsou optimalizovány procesy personalizovaného marketingu a obchodu. Analýzy nestrukturovaných a semistrukturovaných dat přinášejí právě v této oblasti největší užitek, jak bude ukázáno v následujících odstavcích podrobněji.
Díky podpoře semistrukturovaných dat jsou ukládána a analyzována i data ze sociálních sítí, tj. textové řetězce z vyhledavačů, blogů či tweetů a URL adresy. To vše s definovaným SLA, které se u on-line kanálů blíží real-time. Koncepce eliminuje potřebu předzpracování dat, což umožňuje analytikům identifikovat přirozené klíče a vazby pro provázání různorodých dat.
Charakteristika řešení Identifikace a analýza kompletní komunikační cesty se zákazníkem napříč veškerými komunikačními kanály z jednoho uložení dat. Schopnost získávání informací z dat on-line a off-line kanálů v definovaných časech vede k eliminaci ztráty obchodně důležitých informací, což přináší vyšší efektivitu podpory marketingových a obchodních procesů.
Digitální marketing – koncepce řešení
Řešení pro digitální marketing Jednou z klíčových výzev dnešního marketingu je schopnost synchronní práce napříč všemi komunikačními kanály společnosti. Jednotlivé kanály generují velké množství rozmanitých datových záznamů s odlišnou strukturou a datovými typy. Mnoho existujících řešení se obvykle zaměřuje pouze na jeden komunikační kanál nebo na více kanálů odlišně. Oddělená analýza dat jednotlivých kanálů zvyšuje složitost řešení a způsobuje zpoždění, které snižuje efektivitu marketingových a obchodních procesů. Vlastní koncepce řešení sestává z analytické datového platformy Asterdata, nástrojů pro analýzu dat a nástrojů podporujících komunikaci v jednotlivých kanálech. Asterdata jako analytická platforma umožňuje uložení a analýzy rozdílných typů dat z on-line a off-line kanálů v jednom úložišti.
Rychlé a výkonné analýzy s limitovanou potřebou předpočítání dat a s využitím Asterdata Unpack a Parse funkcí. Řešení pro digitalní marketing je jedno z prvních, které ukazuje byznys hodnotu řešení obohaceného o informace z analýzy nestrukturovaných dat. Výsledkem je přesnější a efektivnější komunikace s klientem přinášející jeho vyšší loajalitu a rozvoj obchodní spolupráce. V tomto roce vzniká řada nových řešení v kategorii Big data. Důvodem začlenění do této kategorie je charakter řešení, nikoliv velikost dat. Stále platí, že největší dnes existující datové sklady o velikostech řádu desítek petabajtů řadíme do kategorie strukturovaných datových skladů. Popis řešení Asterdata, reference, případové studie a další informace najdete na www.asterdata.com Autor je business development, Teradata W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 35
35 21.6.12 8:32
Velká data vyžadují špičková datová centra
Certifikace
Svěřit data a procesy do rukou jiné společnosti vyžaduje jistě důvěru. Každého asi nejprve napadnou otázky jako budou má data opravdu v bezpečí? Budu k nim mít vždy zajištěný přístup? A co se kolem nich vlastně celý rok děje? MART I N SO UČ EK
D
atová centra společnosti Telefónica Czech Republic jsou vysoce bezpečná, sofistikovaná prostředí speciálně vybudovaná pro provoz síťových a informačních infrastruktur. Jsou založena na kvalitních a robustních mezinárodních standardech. Využívají špičkové technologie umožňující nabídnout prostor pro umístění i těch nejkritičtějších aplikací s vysokou dostupností. Data jsou chráněna proti útoku zvenčí, budovy jsou střeženy, prostory monitorovány. Datová centra společnosti Telefónica Czech Republic dnes nabízejí mnohem více než jen prosté umístění a provoz vlastních serverů – stále větším hitem se stávají tzv. řízené služby. Telefónica Czech Republic má v poskytování řízených ICT služeb velmi dlouhou tradici. Housingové služby poskytuje už déle než deset let, řízený hosting, přesněji řečeno služby ICT infrastruktury, již čtvrtým rokem a nyní jsou součástí nabídky např. služby virtualizace serverů. Kvalita a vlastnosti řízených služeb, které Telefónica poskytuje, je již dnes v souladu s požadavky kladenými na cloud computing. V nedávné době byl kupříkladu uveden do provozu portál virtuálního datového centra O2 Cloud, který klientům umožňuje on-line vytvářet vlastní virtuální servery včetně propojení do sítí a v širokých mezích nastavovat jejich výpočetní výkon, použitou paměť a diskový prostor. Billingový systém umožňuje sledovat a účtovat množství parametrů virtuálních strojů třeba i včetně jejich podílu na celkové spotřebě energie. Doba zřízení služby se neustále zkracuje. Vybudování virtuálního datového centra pro zákazníka může být díky němu otázkou jen několika desítek minut. Jednodušší řešení může konfigurovat specialista O2 přímo u klienta. Celkově dnes Telefónica nabízí řízené služby, které jsou na špici světových trendů. Již tři z nich, O2 Cloud, O2 Důvěryhodný archiv a O2 Virtuální desktop, získaly prestižní ocenění časopisu Computerworld IT produkt roku. K zákazníky nejvyužívanějším patří zejména:
36
řízené datové úložiště (O2 Managed Data Storage), řízené zálohování a obnovení dat (O2 Managed Backup and Restore), řízené hostovaní důvěryhodného archivu (O2 Hosted Trusted Archive). Služby řízeného datového úložiště poskytují technické zázemí a zařízení pro ukládání zákaznických dat. Disková kapacita, rychlost, stupeň zabezpečení a ostatní parametry jsou navrženy přesně na míru podle požadavků zákazníka. Pro zvýšení bezpečnosti dat lze využít doplňující služby zrcadlení dat na záložní disky.
Dosud byla centra Telefóniky označována jako „vyhovující standardu Tier 3+“ podle metodiky Uptime Institute. V průběhu letošního roku společnost hodlá jako první v České republice oficiální certifikaci získat. Datová centra jsou na ni plně připravena. Jinou důležitou certifikací, k níž v blízké době Telefónica směřuje, je certifikace PCI DSS. Jde o certifikaci, kterou vyžadují instituce nakládající s bankovními informacemi a daty, zejména poskytovateli služeb platebních karet. Současně probíhají přípravy na další certifikace, které jsou nezbytnou podmínkou pro poskytování služeb zákazníkům pracujícím s velmi citlivými informacemi. Vlastní certifikační procesy jsou plánovány na druhou polovinu roku.
Základem je spolehlivý dodavatel řízených služeb Telefónica historicky poskytuje vysoce kvalitní telekomunikační i datové služby, disponuje kvalitní komunikační infrastrukturou, špičkovými datovými centry
O2 Exc Exclusive a ICT Služby kompletního řízeného zálohování, obnovy a archivace dat zahrnují poskytování diskové kapacity, zálohovacího softwaru, služeb kvalifikovaného personálu, administrace diskových systémů a dalších nezbytných prostředků se zárukou dostupnosti, ochrany a zabezpečení úložišť. Důvěryhodný archiv poskytuje služby dlouhodobého uchovávání dokumentů se zachováním validity v souladu s požadavky stávající legislativy. Vydáním certifikátu 1100949 potvrdil Státní elektrotechnický zkušební ústav, že důvěryhodné úložiště O2 splňuje požadavky norem ISO z hlediska zabezpečení a šifrování dat a současně odpovídá platným legislativním požadavkům kladeným na archivaci dokumentů.
a týmy vysoce kvalifikovaných a erudovaných špičkových odborníků s rozsáhlými zkušenostmi, kteří zajistí optimalizaci i provoz telekomunikačních i ICT systémů. Patří mezi Fortune Top 30 firem a několikrát byla zařazena mezi Top 10 největších systémových integrátorů v České republice. Roční investice skupiny do výzkumu a vývoje činí 588 milionů eur. Jen v České republice zaměstnává přes 200 špičkových odborníků. Jako prime partner poskytuje jedinou platformu zajišťující vzájemnou kompatibilitu všech komponent řešení, jednu výslednou cenu, jednotnou zákaznickou péči. Autor je produktový manažer pro cloudové služby společnosti Telefónica
B I G DATA 2 012
BigData-2012.indd 36
21.6.12 14:21
Výkonná datová infrastruktura pro nejnáročnější prostředí
tržitě v provozu bez ohledu na to, kolik koncových uživatelů je právě využívá. GemFire je ideálním řešením pro moderní aplikace, které vyžadují přístup k datům v reálném čase a schopnost řešit nejsložitější výzvy v oblasti dat.
Prostředí s vysokými datovými požadavky vyžadují moderní systém správy a pokročilá řešení, která zajistí rychlý, bezpečný a spolehlivý přístup k datům. Ideální řešení pro moderní aplikace, které vyžadují přístup k datům v reálném čase a schopnost řešit nejsložitější výzvy v oblasti dat, představuje datová infrastruktura VMware vFabric GemFire.
Moderní správa dat
M I C H AL STAC H N ÍK
V
ývoj IT prostředí postupuje neustále kupředu a moderní aplikace se stále více orientují na web, jsou datově náročnější a ze své podstaty dynamičtější. Výsledkem výše zmíněných proměn je potřeba moderního přístupu ke správě dat. Zatímco první generace webových aplikací tolerovala časově náročný proces ukládání a opětovného načtení dat z databází, moderní aplikace vyžadují zcela odlišný přístup, který je pro novou generaci aplikací nejen nejvhodnější, ale zároveň bere v úvahu nasazení v rámci nejvyspělejších virtuálních infrastruktur. Pokud firmy chtějí spravovat pokročilé systémy s velkými datovými nároky efektivně a s přiměřenými náklady na provoz, musí se spolehnout na skutečně profesionální řešení, které se plně přizpůsobí požadavkům daného systému. To potvrzuje i Jerry Chen, viceprezident pro cloud a služby aplikací ve společnosti VMware: „Éra cloudu urychluje proměnu aplikací. V dnešní době má většina aplikací open source vývojové rámce, běží na virtuální infrastruktuře a je datově náročná. Proto naši zákazníci mění technologie pro vybudování, zprovoznění a správu těchto nových aplikací.“
Společnost VMware nabízí svým zákazníkům řešení VMware vFabric GemFire, výkonnou datovou infrastrukturu, která byla původně navržena pro nejnáročnější prostředí s vysokými datovými požadavky,
jako jsou finanční služby. Řešení zajistí rychlý, bezpečný, spolehlivý a škálovatelný přístup k datům s podporou moderních podnikových a cloudových aplikací. GemFire je jednou z hlavních součástí cloudové platformy pro aplikace VMware vFabric a jejím úkolem je umožnit doručení vysoce výkonných aplikací, které obsahují obrovské množství dat a jsou nepře-
Klíčové vlastnosti Extrémně rychlý, vysoce dostupný a škálovatelný přístup k datům pro moderní aplikace Souběžné transakce pro nadstandardně rychlou propustnost dat Nízká latence Replikace dat v rámci uzlů a clusterů pro vysokou dostupnost Spolehlivá upozornění na probíhající procesy – při změně dat se aplikace automaticky aktualizují „Shared nothing“ systém pro zamezení ztráty dat v případě selhání disku v jednom uzlu Podpora sdílení dat mezi Java, C++ a C# aplikacemi WAN škálování při zachování výkonu, spolehlivosti a konzistence Nepřetržité dotazování aktualizuje výsledky s nízkou latencí
Řešení VMware vFabric GemFire nabízí celou řadu funkcí a vlastností, které zajistí snadnou a efektivní správu i velmi datově náročných prostředí. Možnost souběžných transakcí napříč datovou texturou pro nadstandardně rychlou propustnost dat a speciální konstrukce pro zajištění nízké latence vedou k vyšší výkonnosti a spolehlivosti dat v paměti. Pro přehlednost a snadnou kontrolu prostředí je řešení GemFire vybaveno pokročilým systémem oznámení, které rychle a spolehlivě upozorní na změny v datech a probíhající události. Aplikace jsou nepřetržitě a automaticky aktualizovány daty z paměti, takže není nutné zdržovat proces načítáním dat z databází. Replikace dat v rámci uzlů a clusterů zajistí vysokou dostupnost a díky tzv. shared nothing architektuře – nulovému sdílení jakékoliv součásti systému – nemůže selhání disku v jednom uzlu vyústit ve ztrátu dat. Díky integraci s rámcem Java Spring mohou vývojáři rychle vytvářet aplikace, které využívají správu distribuovaných dat GemFire. Tato integrace velmi zjednodušuje programování aplikací využívajících moderní architektury, které jsou v cloudových prostředích stále běžnější.
Škálovatelnost a provozní efektivita K důležitým vlastnostem řešení patří vysoká škálovatelnost. Ta je umožněna dynamickým rozdělením dat v rámci celého sytému, které vyrovnává zátěž. Škálování v rámci vzdálených míst při zachování výkonu, spolehlivosti a konzistence zajišťuje WAN technologie (Wide Area Networking). Pro správu datové infrastruktury vFabric GemFire lze využít více různých způsobů – příkazový řádek, Java Management Extensions (JMX) Agent nebo GFMon, monitorovací nástroj ve formě grafického uživatelského rozhraní. Autor je country manager společnosti VMware pro Českou republiku a Slovensko W W W.C I O.C Z | W W W.C W.C Z
BigData-2012.indd 37
37 21.6.12 8:32
SEZNAM INZERUJÍCÍCH FIREM ABACUS ELECTRIC ...............................................................................18, 19 www.abacus.cz
Příležitost pro IT profesionály Nové pojetí práce s velkými objemy dat přináší i nové velké pracovní příležitosti pro IT pracovníky. PAVEL LOUDA , BRIAN PROFFITT
P
ozice datového vědce (data scientist), o které se v souvislosti s big daty hovoří nejčastěji, má vesměs základ v počítačové vědě nebo matematické analýze. Datoví vědci jsou ze své podstaty lidé, kteří jsou přirozeně zvědaví, kteří jsou schopni hledat v datech nějaké souvislosti, mohou objevit případné trendy, a proto pro své zaměstnavatele představují klíčovou postavu. Datoví vědci díky zkušenostem nemají s přivykáním na platformu jako Hadoop příliš velké problémy. To se však nedá říci o klasickém správci databází, pro kterého může být přechod na řešení pro big data náročnější. Je to především kvůli tomu, že distribuovaný souborový systém se od tradičního způsobu ukládání databázové tabulky v RDBMS zásadně liší. Pozice datového vědce stala velmi populární i ve vyhledávačích Googlu – například v prvním čtvrtletí tohoto roku byl výskyt tohoto dotazu až dvacetinásobný oproti předchozím obdobím. Složitost řešení Hadoop v tomto směru je určitě velkou překážkou pro potenciální správce. Složení frameworku z různých komponent Hadoopu totiž s sebou přináší nutnost zvládnout spoustu různých prvků najednou. Uživatelé nesmějí čekat žádné nablýskané uživatelské rozhraní. Hadoop, Hive, Sqoop a další nástroje ekosystému Hadoop se ovládají z příkazové řádky a vzhledem k tomu, že Hadoop je založen na jazyku Java a MapReduce využívá třídy Java, pro spoustu interakcí se velmi hodí vývojářské zkušenosti (zejména pokud je odborníkem na platformu Java). Většina pracovních pozic souvisejících s platformou Hadoop typicky vyžaduje zkušenost s velkými distribuovanými systémy či jasné chápání návrhu a vývoje systému s ohledem na škálování, výkon a plánování. Kromě zkušeností v Javě by měli být programátoři pro novou éru big dat praktičtí a měli by mít dobré zkušenosti v oblasti datových struktur a paralelních programovacích technik. Zkušenost s cloudem libovolného druhu je rovněž velkým plusem.
Možnosti vzdělávání To je relativně hodně požadavků, takže systémoví inženýři a administrátoři, kteří chtějí naskočit na palubu Hadoopu či jiných nových platforem, budou nutné projít intenzivním školením. Například Hortonworks nabízí třídenní školení s názvem Administering Apache Hadoop. Cloudera zase poskytuje kurz aktivní správy jako součást svého studijního plánu Cloudera University. K dispozici jsou také další školení pro Hive, Pig a podobně. Další školení lze najít na wiki stránkách podpory Hadoopu umístěných přímo na webu organizace Apache. IBM zase nedávno zveřejnila svůj e-learningový projekt Big Data University, jež je cílen na vzdělávání začínajících i pokročilých uživatelů v oblasti big dat a Hadoopu. Zaregistrovaly se do ní už desetitisíce lidí - k dispozici je jim velké množství on-line studijních programů. Hadoop je levný – ale vyžaduje mít ve firmě někoho, kdo tomu rozumí. A právě proto big data představují pro talentované IT pracovníky velkou příležitost. ■
38
Citrix Systems .......................................................................................... 15 www.citrix.cz EMC Czech Republic ............................................................................20, 21 www.emc.com Fujitsu Technology Solutions ................................................................... 22 www.fujitsu.com/cz GTS Czech ................................................................................ 23, 2. obálka www.gts.cz IBM Česká republika........................................................................... 24, 25 www.ibm.com/cz MICROSOFT ..............................................................................................26 www.microsoft.cz NetApp .................................................................................................... 27 www.netapp.com SAP ČR ............................................................................................... 28, 29 www.sap.com/cz SILICON GRAPHICS ..............................................................................30, 31 www.sgi.cz SOFTWARE AG .....................................................................................32, 33 www.softwareag.com/cz Telefónica Czech Republic ........................................................................36 www.o2.cz Teradata Česká republika ................................................................... 34, 35 www.asterdata.com VMware .................................................................................................... 37 www.vmware.com/cz YFA............................................................................................................. 5 www.itregatta.cz
UCELENÝ INFORMAČNÍ ZDROJ PRO IT PROFESIONÁLY
Vydává: IDG Czech Republic, a. s., Seydlerova 2451, 158 00 Praha 5 Tel. ústředna s aut. provolbou: 257 088 + linka; fax: 235 520 812 Recepce: 257 088 111 Výkonný ředitel: RNDr. Jana Pelikánová Šéfredaktor: Radan Dolejš Tajemnice redakce: Růžena Holíková, tel.: 257 088 143 Vedoucí inzertního odd.: Ing. Jitka Vyhlídková, tel.: 257 088 181 Vedoucí projektu: Radan Dolejš, tel.: 257 088 142 Jazyková úprava: Dana Štropová, Vladimíra Bezecná Obálka: Petr Kubát Adresa redakce: CW, Seydlerova 2451, 158 00 Praha 5 Internet:
[email protected] Zlom a pre-press: TypoText, s. r. o., Praha Tisk: Libertas, a. s. Předplatné a reklamace: IDG Czech Republic, a. s., Seydlerova 2451, 158 00 Praha 5, tel.: 257 088 163, fax 235 520 812; e-mail:
[email protected] Doručuje Česká pošta, s. p., v systému D + 1 Předplatné pro Slovensko: Magnet-Press Slovakia, s. r. o., P.O.BOX 169, 830 00 Bratislava, tel.: +421 267 201 910, 20, 30, e-mail:
[email protected] Copyright: © 2012 IDG Czech Republic, a. s.
Člen asociace FIPP
B I G DATA 2 012
BigData-2012.indd 38
21.6.12 14:21
NAHLÉDNĚTE POD POKLIČKU BUSINESS TECHNOLOGIÍ Díky globálním informačním zdrojům celosvětové sítě IDG a možnosti využívat analýz sesterské společnosti IDC přinášíme: kvalitní informace o nových technologiích a efektivním řízení podnikové informatiky nejnovější ekonomické trendy a analýzy
ÚNOR 2012 | ČÍSLO 2 WWW.BW.CZ | WWW.CIO.CZ 100 Kč | 4,32
Stuxnet do každé továrny Zabezpečení systémů pro řízení výroby má vážné slabiny
Trendy ve výrobě
praktické informace z oblasti podnikového IT se zaměřením na obchodní a podnikatelské přínosy
Kam směřují informační systémy ve výrobních podnicích
Jako když BIčem mrská Business intelligence ve vysokoškolském vzdělávání
České IT v roce 2012: CIO je publikován ve 21 zemích světa
(Ne)jisté vyhlídky
Pohled na aktuální stav ICT infrastruktury v českých podnicích
Objednejte si roční předplatné za cenu 570 Kč.
12_01_bw1202_obal_def.indd 1
ISSN 1803-7321
02
9 771803 732009
13.1.2012 19:17:57
Obdržíte: 11 × CIO Business World a navíc jako bonus 5 × HD World (atraktivní magazín o moderní spotřební elektronice a trendech s ní souvisejících) + Prestižní příloha TOP 100 ICT
Předplatné si můžete objednat e-mailem na adrese
[email protected] nebo prostřednictvím on-line formuláře http://idg.cz/tituly/businessworld/predplatne, případně též telefonicky na čísle +420 257 088 163.
WWW.BUSINESSWORLD.CZ IT strategie pro manažery
I D G C Z E CH R E P U B L I C A . S ., S E Y D L E R O VA 24 51, 15 8 0 0 P R A H A 5; T E L .: + 4 2 0 2 5 7 0 8 8 111; FA X : + 4 2 0 2 5 7 0 8 8 174 ; E-MAIL:
[email protected]; WEB: www.businessworld.cz
BigData-2012-obalka.indd ob3
21.6.12 8:22
ICT ve zdravotnictví 2012 6. ročník odborné konference a výstavy o elektronickém zdravotnictví, informačních a komunikačních technologiích jako nástrojích pro efektivní organizaci zdravotnictví, prevenci, diagnostiku a léčbu, monitorování zdravotního stavu a minimalizaci zdravotních hendikepů pacienta
RECEPT EPT REC EC R EPT
Kód Kód pojišťovny Kód pojišťovny pojišťovny
č. ř. č. poř.po
poř. č.
adná péče, atd.) ná a neodkl Údaje platné pro celý recept (výpis, ání, nut ná péče, atd.) tem opakov a neodklad í, nutná s poč opakován tur počtem s poho eta repetatur st, tovo rep pohotovo t, st, (výpis, repe vos receptrec tatur oto s počt poh Údaje platné pro celý em opakování, nutná a neodkladná péče ept (výpis, , atd.) Údaje platné pro celý
í 20 12 tv2012 tn ra ictví zdra ICve T zd ICT T vevotn zdvo ICve ra voictn ictví 20 12 0 1 2 f. 9 2 1 81 81 80 09 0 9 20 21 02 1 f. 2 ha c, Pra pac,lá ý ký sk palá anra nský Moalo stra str Malo st ns Mal paPrah lác, aPraha
Název konference rence Název konfe Název konference Datum konání í Datum konán Datum konání
Místo (adresa) a) Místo (adres Místo (adresa)
Popl. Diagnóza *) Diagnóza *) óza *) Sk. Popl. Diagn Popl.
Sk. Sk.
Kód KódKód
f.
Úhrada poč. dopl.Úhrada Zadopl. Započ. Započ. dopl. Úhrada
Rp. • Stát, legg islativa, láván vání ání a, ivvzdɛ láíláv lativ dɛdɛ , legis Rp. • .Stát a, vzvz at sl gi le t, Rp • •S tá Zd Z drraa vo votn tní men do d tißka, ce, oku kutace enkace me ment n,tcac aident e, ce, eidiß
, ide ident doku níotn ntiß avot ißka • Zdr kace ce, í dokumenta av dr • Z pla p l a te t e bn b n í sy s y st s t ém é m y syst bní plate ystém y sémy ní eb atdr •plZ Zd ní sí, ʋɛ, ra r a ɑ vo tn ka íinrma ninik inf info síʋɛ for uaɑní o rma mmu m unik a ko ɑn ɑ kom a n í a ɑní a ko k ní o info m ní u avot aɑ n i k • Zdr aɑ a rm ɑ níí s n sít ítɛɛ,, í tn avonikace drmu • Zko a te ch e gie no gi nolo lo l lo unik komko a techno gie kaacetech ni uace mkt • Ele ro nic ké re báze try,y, da data try, data regis tabá báze ické tron ze str • Elek gigis re ké c ni o tr ek •• El Zd nost ra ɑ vo tn leeɑ ict ool st a in eɑno inf níí sp or ɑní aɑspol rma ma info atvví ɑn rm ví nict sp fo avot • Zdr a nost í ic tn o av dr • Z • Te leC ar e í – tn as ist vo í ov ra votn zdra ná zd tova ra votní náá zd – easis vaan Care • Tele isto – as ar eCciá elso • T a lní péɑe iální a soc e lní péɑ ciápéɑe a so
Popl. Popl. P
Rp.
Diagnóza *) Diagnóza *) óza *) Sk. Diagn Popl. Rp .
Rp.
Organizátor: or: Organizát Organizátor:
Sk. Sk.
Kód Kód Kód
Úhrada Započ. dopl. dopl. Započ.Zap oč. dopl.Úhrada Úhrada
IDGIDG CzeCze ic ubl ch Rep Rch IDG epRep Cze u ubl ic b li c Seydlerova 2451ch 5 Praha , Lípa, ika Po Poliklin liklinika 2451, rova Seydle Seydlerova ikaLípa, 2451, Poliklin Lípa,Praha Praha55 dr. Vra Vdr. ratisla tiVra slatisla v Pav dr. Pavvlík líPav k lík
wwdg.cz w.idg.cz www.i www.idg.cz ww w.e ventwotw czld.cz www.eventw evenrld.or www.orld.cz Razítko poskytovatele, , vatele, o poskyt Razítk skyto jme novka, koovatele pod zítpis Ra apotele fon lékaʼne lékaʼne telefon a jmenovka, podpis , podpis a telefon lékaʼne ka ov en jm ) * Vyplňuje se povinně v případě zvýš ené úhra
primář konfere nce ko konfere primář nferen primář ce nce
: Pʼnipravil: Vydal: Vydal Pʼniprav Pʼnipil:ravi l: Vydal:
dy. případě zvýšené *) Vyplňuje) se povinně vpo zvýšené úhrady. paděúhrady. * Vyplňuje se vinně v pří
BigData-2012-obalka.indd ob4 ICT_konference_210x295_inzerat.indd 1
21.6.12 8:22 6/19/12 8:52 PM