BI a Big Data
Ukočírujte svá velká data
Firmy a úřady jsou zaplaveny daty. Požadavky na skladovací kapacity stále rostou. Přinášíme několik doporučení, jak se se záplavou velkých dat vyrovnat. Stacy Collett, Čestmír Žák 32
CIO – Business World | Duben 2013
BI a Big Data
Dříve se toto téma dotýkalo pouze vědců, internetových gigantů a obrovských sociálních médií, jako jsou třeba Amazon, Twitter, Facebook nebo Shutterfly. Nyní však stále více podniků – napříč různými odvětvími ekonomiky – doufá, že získá větší konkurenceschopnost, když zabrousí do vod velkých dat, ze kterých vytěží cenné informace. Některé firmy se pouštějí do analýzy, aby byly schopné rychleji reagovat na požadavky zákazníků, případně lépe sledovat zpětnou reakci klientů nebo prostě dostat na trh nové produkty rychleji. „Týká se to jakéhokoliv podniku v dnešní éře internetu – pokud to neuděláte vy, udělá to vaše konkurence,“ varuje Ashish Nadkarni, analytik úložišť ve společnosti IDC. Organizace všech velikostí jsou zaplavovány daty, a to jak z interních, tak z externích zdrojů. Většina těchto informací přitéká do firem a úřadů v reálném čase – a velké množství z nich
zastará v řádu minut, hodin či dní. Výsledný růst potřeby ukládacích kapacit je zvláště palčivý pro velké podniky. V nich totiž počet strukturovaných a nestrukturovaných dat vyžadujících úložiště vzrostl podle analýzy Aberdeen Group jen mezi lety 2010 a 2011 v průměru o 44 procent. Ve společnostech všech velikostí se požadavky na velikost úložiště dat zdvojnásobují každého půldruhého roku. Navíc je nutné používat různé nástroje pro optimalizaci při ukládání videí, tabulek, formátovaných databází a zcela nestrukturovaných dat. „Výzvu představuje snaha o zpomalení trendu lineárně rostoucích nákladů na ukládání dat,“ říká Dick Csaplar, analytik pro oblast virtualizace a úložišť společnosti Aberdeen Group. Mezi technologie, které mohou hlavnímu proudu uživatelů velkých dat pomoci vyhnout se tomuto osudu, patří virtualizace úložišť, jejich vrstvení a deduplikace. Pro náročné obory, jako jsou věda, sociální média nebo vývoj, představují nejlepší možnost objektově orientovaná a relační databázová úložiště.
Jaký typ ukládacích nástrojů funguje nejlépe? Firmám, jež se teprve začínají potýkat s ukládáním a analýzou velkých dat, doporučují analytici virtualizaci úložišť pro zastřešení všech uložených dat, deduplikaci pro kompresi dat a vrstvení úložišť pro zajištění toho, aby byla nejcennější data ukládána v nejsnáze dostupných systémech. Virtualizace úložišť poskytuje abstraktní vrstvu softwaru, která před uživatelem skrývá fyzická zařízení a umožňuje, aby byla všechna spravována jako jediné úložiště. Zatímco virtualizace serverů je v dnešním IT světě zavedenou a plně etablovanou součástí oboru, virtualizace úložišť má ještě co dohánět. V průzkumu Aberdeen Group z jara loňského roku, který zahrnoval 106 velkých společností, uvedlo pouze 20 procent respondentů, že disponují jedinou unifikovanou aplikací pro správu úložišť. V průměru šlo o tři aplikace pro správu připadající na 3,2 ukládacího zařízení. Spousta výrobců úložišť však odmítá, aby byla jejich zařízení spravována produktem jiného výrobce. „Virtualizace úložišť
Na minutu, nebo na týden? Požadovaný druh úložiště závisí na druhu a množství dat, která analyzujete. Různá data mají hodnotu, jež se výrazně mění v průběhu času. Například odhad ceny na burze je relevantní pouze minutu předtím, než se cena změní. Výsledek ve fotbale vyhledávají lidé každý den 24 hodin, ale jen do dalšího zápasu. Tato data se musejí v době, kdy je po nich největší poptávka, nacházet na primárním úložišti, později mohou být přesunuta na levnější. Pohled na trendy posledních několika let navozuje myšlenku, že data ukládaná na delší časová období zpravidla nemusejí být umístěna na jednoduše dostupných primárních discích. www.cio.cz | www.bw.cz
33
BI a Big Data
Deduplikace a komprese Administrátoři mohou snížit nárok na kapacitu úložiště deduplikací, jež eliminuje nadbytečná data, a to pomocí nástrojů datové komprese. Ty identifikují krátké opakované řetězce v jednotlivých souborech a uloží pouze jejich jedinou kopii. Jak moc mohou být sníženy nároky na úložiště? V průzkumu Aberdeenu sdělilo 13 procent dotazovaných, že zmenšili objem dat o 50 procent, ale podle Csaplara je pro většinu podniků pravděpodobnější hodnota úspor v kapacitách mezi 30 a 50 procenty.
se bude zlepšovat síťová konektivita, se budou snižovat náklady a také zdokonalovat schopnosti šifrovat a dešifrovat data za pochodu. „S cloudem dostanete každý měsíc účet hrazený z operačního rozpočtu, ne z odděleného kapitálového rozpočtu,“ říká.
Vrstvení úložišť
Jakmile se firma rozhodne, jaká data chce analyzovat, mohou administrátoři úložišť umístit nejnovější a nejdůležitější data na nejrychlejší a nejspolehlivější ukládací médium. Jak data stárnou, mohou být přesunuta na pomalejší a levnější úložiště. Systémy, které tento proces vrstvení automatizují, si získávají své příznivce, stále však nejsou příliš rozšířené. je mnohem komplexnější a zabírá také více času, takže se zatím neuchytila tolik jako virtualizace serverů,“ říká Csaplar. NaPři vývoji úrovní úložišť musejí vzít administrátoři v úvahu místo toho spousta administrátorů úložišť zvažuje implementaukládací technologii, rychlost zařízení a formu řazení RAID nutnou k ochraně dat. Standardní odpovědí na výpadky je rece cloudového typu pro úložiště třetí nebo čtvrté úrovně, aby mohli snáze přesunovat mezi různými infrastrukturami a snižoplikace, většinou ve formě RAID polí. „V masivním rozsahu vat náklady na skladování dat. „Některé však může RAID nadělat více škody než společnosti to tak udělaly a dočkaly se užitku,“ říká Neil Day, viceprezident dobrých výsledků, ale není to žádné tera technický ředitel Shutterfly, on-line fono,“ dodává Csaplar. to služby, která umožňuje uživatelům Také očekává, že se v brzké budoucukládat neomezené množství obrázků v originálním rozlišení. Velikost jejich úlonosti dočkáme využití cloudových úloCelosvětový objem dat se žišť a výpočetních zdrojů. Spolu s tím, jak žiště již přesáhla 30 petabajtů dat. Jen pro zdvojnásobuje každých 18 měsíců.
Exponenciální nárůst:
INZERCE
Revoluce v informačních systémech: Nový SAP Business Suite na platformě SAP HANA Společnost SAP nabízí nově svým zákazníkům sadu aplikací SAP Business Suite na platformě SAP HANA. SAP se tímto krokem stává jediným poskytovatelem integrované sady podnikových aplikací, které mohou přistupovat k transakčním datům a analyzovat je v reálném čase a na jednotné platformě pracující v režimu in-memory.
Big data zpracovaná ve vteřině SAP Business Suite na platformě SAP HANA dává firmám dosud nereálnou možnost zpracovat a analyzovat nejaktuálnější data a na jejich základě činit potřebná obchodní rozhodnutí. Podniky tak mohou přehodnotit své procesy a obchodní modely, protože mají k dispozici nástroj, který jim umožňuje to, co dříve nebylo možné. Například získat výsledky analýzy za pár vteřin namísto hodin, a to i nad opravdu velkými soubory dat. Široká sada podnikového softwaru zahrnující řešení pro marketingové analýzy, tvorbu účetních závěrek, správu objednávek, plánování požadavků nebo analýzy chování spotřebitelů či sentimentu na sociálních sítích je optimalizována tak, aby firmám v kontextu oboru jejich podnikání přinášela co nejvyšší hodnotu. 34
CIO – Business World | Duben 2013
In-memory firma Dnes lidé požadují i u byznys technologií takový uživatelský komfort, na který jsou zvyklí z aplikací ze svého soukromého života. Jde zejména o rychlost realizace jejich záměrů – zvláště u mobilních aplikací nechtějí uživatelé čekat. SAP Business Suite na platformě SAP HANA nyní tento komfort přináší i do podnikového prostředí. A není to jen ERP systém, který SAP na in-memory platformě SAP HANA nabízí. K dispozici je dále kromě samotného databázového řešení také CRM systém SAP 360 Customer nebo komplexní podnikový systém pro nejmenší firmy SAP Business One. Na SAP HANA bude brzy k dispozici také řešení SAP Business All-in-One, což umožní využívat výhody platformy inmemory technologie firmám všech velikostí. Řešení postavená na in-memory platformě využívají například Lenovo, Red Bull nebo Coca Cola. Proč se o SAP HANA zajímat? Nabízí až 100 000krát rychlejší výpočty Zvládá zpracovat big data během extrémně krátkých časů Na SAP HANA je k dispozici široké portfolio řešení
Vaše data se stále nafukují... 1DEt]tPHķHĿHQt6$3+$1$SURRSWLPDOL]DFL D]U\FKOHQtSķtVWXSXNGDWʼnPYHYDĿHP(53V\VWpPX
ZZZWV\VWHPVF]
BI a Big Data
Hadoop už není jedinou alternativou Koncept pojmu „big data“ se rozšířil. Kdysi se tento obrat týkal výhradně složitých dat, která musela být ihned dostupná pro často se opakující dotazy ze strany uživatelů vyžadujících výkon, jako jsou vědci a sociální média. Nyní již zahrnuje petabajty strukturovaných i nestrukturovaných dat, která musí většina podniků ukládat. Mezi nejčastěji používané alternativy pro správu velkých dat patří open source systémy Hadoop a Cassandra. Počet komerčních výrobců, kteří neustále zlepšují své ukládací systémy, tak aby zvládaly několik petabajtů dat, a nabízejí rychlé a jednoduché způsoby jejich analýzy, však neustále roste. „Big data bývala nástrojem, který mohly využívat pouze největší podniky. Nyní je již těžké najít někoho, kdo pro získání přehledu pramenícího z datových analýz nepoužívá vůbec nic,“ říká Ed Walsh, viceprezident pro marketingovou strategii ve společnosti IBM. Musíte mít efektivní úložiště, jinak se vám budou neustále zvyšovat náklady,“ říká. „Je nutné také mít pro tyto aplikace, které jsou velmi dynamické, připraven slušný výkon. A samozřejmě byste měli být schopni zálohovat.“ Co se firmy IBM týče, buduje již několik let portfolio vysoce výkonných ukládacích a analytických produktů a technologií včetně Hadoopu. V červnu však oznámila formalizaci své nabídky ukládacích a analytických produktů, souhrnně nazvaných IBM Smarter Storage. Společnost také ohlásila dostupnost části portfolia, které zahrnuje software získaný nedávnou akvizicí firmy Platform Computing.
řit různé kopie dat; jediná instance může zaručit jejich integritu a dostupnost. Protože jde o řešení založené na softwaru, může být technologie používána s běžně dostupným hardwarem, což ještě dále snižuje cenu. Jedním z prvních výrobců podobného softwaru je Cleversafe. Tato společnost k výše popisovanému systému navíc přidala informace o lokaci, v níž se daný fragment dat nachází. Tento postup pak slouží pro tvorbu něčeho, co sama firma nazývá rozptylovací kódování (dispersal coding). Díky němu lze jednotlivé kousíčky – neboli plátky, jak jim samotná organizace říká – pro docílení vyšší bezpečnosti ukládat v geograficky oddělených místech, jako jsou datová centra umístěná v nejrůznějších částech světa.
Stačí méně administrátorů Stejně jako Shutterfly se podniky s potřebou masivního úložiště nesmějí omezovat na bloková úložiště. „Pokud hovoříme o obřích souborech dat v řádu petabajtů, musíte zvážit buďto objektová úložiště, či distribuovaný souborový systém,“ říká Nadkarni. „Přemýšlejte o úložištích škálujících směrem ven, jako jsou Isilon od EMC či Fluid File System od Dellu. Uvažujte také o open source řešeních. Jsou pro ukládání dat mnohem levnější a z pohledu výkonu mohou nabídnout mnohem lepší poměr cena/výkon. A nakonec jsou i škálovatelná.“ Když jsou technologie virtualizace úložišť, deduplikace, vrstvení úložiště a fragmentace kódu správně implementovány, měly by snížit nároky firem a úřadů na administrátory, protože tyto nástroje umožňují spravovat data v podstatě skrze jednu „tabulku“. V případě Shutterfly umožnila automatizovaná infrastruktura úložišť zpomalení růstu počtu zaměstnanců IT. Potřeba denní údržby se výrazně snížila, a i díky tomu mohou administrátoři trávit mnohem více času jinými činnostmi.
ilustraci: jeden petabajt odpovídá 1 024 terabajtům digitálních informací. V tradičním RAID schématu ukládání dat jsou kopie každého Nejhodnotnější je čas kousku dat zrcadleny a uloženy na různých discích, což zajišťuje Dalším trendem, který podle Nadkarniho nastupuje, je přeintegritu a dostupnost. Znamená to ale, že se každý takto uložesun výpočetní vrstvy směrem k datům. „Podívejte se na řešený a zkopírovaný kousek dat může nafouknout do objemu, který ní od Cleversafe a dalších poskytovatelů úložišť, kteří vkládavyžaduje úložiště pětkrát větší, než je jeho původní velikost. Jak jí výpočetní schopnosti do vrstvy úložiště,“ vysvětluje se disky používané v RAID sestavách zvětšují – 3terabajtové disNadkarni. „Už není uskutečnitelný přesun dat tam, kde je umísky jsou velmi atraktivní z perspektivy hustoty a spotřeby energie – těna výpočetní vrstva. Pokud máte jen pár minut na analýzu narůstá i čas, který je nutný pro nahrazení poškozeného disku dat, je prakticky nemožné přesunovat je do výpočetní vrstvy. a obnovení plné rovnováhy. Tak proč to neobrátit a výpočetní vrstvu umístit k datům,“ ptá Provozovatelé Shutterfly nakonec přijali technologii, kde můse Nadkarni. že být kousek dat rozložen do ještě menších kousků, z nichž Dodává, že big data jsou způsobem, jakým mohou lidé každý je sám o sobě nepoužitelný, a roza firmy zvýšit svou konkurenceschopptýlen na různé diskové jednotky a servenost. „K tomu, aby ze svých informací dory. Data mohou být kdykoliv opět složena stali co nejvíce, budou muset změnit pros pouhým zlomkem kousíčků, a to dokoncesy a způsob, jakým fungují jako ce i když bylo více drobných částí ztracespolečnost – budou muset být velmi no, například kvůli poškození diskových mohou být přesunuta na pomalejší rychlí, aby mohli z těchto dat získávat jednotek. Jinými slovy – nemusíte už tvoa levnější úložiště. hodnotu,“ uzavírá.
Jak data stárnou,
36
CIO – Business World | Duben 2013
BI a Big Data
Chytrá data aneb Cesta, jak poznat svého zákazníka Styl prodeje se za poslední desítky let proměnil a role obchodníků, kteří osobně znali všechny své klienty, se postupně vytratila. Přitom poznat svého zákazníka je i v dnešní době naprosto klíčové. Co vlastně znamená „poznat klienta“? V současné době o nich existuje velké množství dat, více či méně dobře konsolidovaných v datových skladech. Stále se ale objevují nové typy dat, které umí doslova odkrýt duši zákazníka. Jako příklad lze uvést internetové stránky, na kterých klient rád nakupuje, jaký druh zboží preferuje, jaká služba ho zaujala v internetovém bankovnictví anebo už jen to, co píše na Facebooku. A stejný požadavek na zpracování nových dat je stále častěji i v jiných oblastech, například ve sféře fraudu. Jde o typově nová data, která nemusí být nutně v řádech petabajtů. Podle všech současných zkušeností z českého trhu by bylo jejich zpracovávání v datovém skladu, což je tradiční úvodní krok, čirý nerozum. V drtivé většině jsou datové sklady o „maličko“ dražší, než se jejich vlastníkům líbí, a každý terabajt navíc znamená útok na peněženku. Tato data navíc nejsou určena mase uživatelů, ale analytikům, které bychom mohli
spočítat na prstech jedné ruky. Ti se s využitím vyšší matematiky pokoušejí vdechnout datům schopnost říkat o zákazníkovi stále víc a předpovídat i jeho budoucí chování. Schopnosti těchto „data analyst“ by měly být vpravdě renesanční, počínaje zpracováním dat přes znalost dané byznys problematiky až k vyšší matematice. Oprávněně je tedy toto „povolání“ označováno jako jedno z nejvíce sexy budoucího desetiletí. Nejnáročnějším krokem v analýze dat je jejich samotná příprava. Hlavním zdrojem bývá datový sklad. Bohužel často tyto informace k analýze nepostačují. Doplnění dat z jiných zdrojů se většinou děje ad hoc přístupem, který je náročný na čas i zdroje. Ideálním stavem by bylo shromáždit všechna data na jedno místo a jejich zpracování začínat zde, bez zbytečných časových i finančních ztrát.
Hadoop: Extrémně levné uložení dat Na trhu jsou komerční řešení, která umějí zpracovat obrovské objemy dat, nebo technologie umožňující komplexní analýzy. Většinou ale znamenají velmi zásadní investici. Rozhodnutí o takovém nákupu připomíná filozofickou otázku s tématem drůbeže a jejího produktu (slepice a vejce) zhruba v duchu: jak zjistit, zda lze monetizovat data bez nákupu analytické platformy (tedy bez investic) a kde zároveň vzít jistotu, že jde o dobrý vklad? Vhodným řešením je analytická platforma, která „poroste“ s požadavky zákazníka a nebude vyžadovat za dobu své existence významnou investici. Může jí být populární Hadoop, který dovoluje extrémně levné uložení všech dat, a stává
se tak přitažlivým pro širší spektrum analytických nástrojů. Jako příklad kvalitních open source analytických nástrojů, které umějí analýzu nad Hadoopem, lze uvést Radoop (vzniklý klonem nástroje RapidMiner). K přípravě dat jsou k dispozici také ETL nástroje, jež využívají pro transformaci přímo Hadoop. Pro tuto platformu existuje i mnoho databází. Hadoop je vysoce škálovatelný. Může existovat jako jediný počítač – kde analytik například na vzorku zjišťuje potenciál skrytý v datech – ale i jako cluster s mnoha jádry, kde se cena například za 20 jader (tedy asi 40 TB) a za další hardware i software odhadem pohybuje kolem 300 tisíc korun. Lze si jej pronajmout i formou cloudu pro potřeby specifického výpočtu. Hadoop není všelékem na problémy současného IT světa, ale je pro určité problémy vhodnou platformou, u jiných stojí alespoň za sledování. Takovou oblastí může být například schopnost zpracování velkého objemu dat v real-time módu, kde vznikají řešení jako HStream nebo Storm. Dnes již lze s jistotou říct, že exploze dat okolo nás hned tak neustane, naopak. Platforma Hadoop doplněná o analytické nástroje může být komplexním a překvapivě levným řešením současných (i budoucích) potřeb na efektivní zpracování dat. Autor působí jako principal consultant ve společnosti Profinit
Pavel Janča, www.cio.cz | www.bw.cz
37
cover BI a Big story Data | new business
Ukočírujte svá velká data
Firmy a úřady jsou zaplaveny daty. Požadavky na skladovací kapacity stále rostou. Přinášíme několik doporučení, jak se se záplavou velkých dat vyrovnat. Stacy Collett, Čestmír Žák 58
CIO – Business World | Duben 2013
new businessBI| a Big cover Data story
Dříve se toto téma dotýkalo pouze vědců, internetových gigantů a obrovských sociálních médií, jako jsou třeba Amazon, Twitter, Facebook nebo Shutterfly. Nyní však stále více podniků – napříč různými odvětvími ekonomiky – doufá, že získá větší konkurenceschopnost, když zabrousí do vod velkých dat, ze kterých vytěží cenné informace. Některé firmy se pouštějí do analýzy, aby byly schopné rychleji reagovat na požadavky zákazníků, případně lépe sledovat zpětnou reakci klientů nebo prostě dostat na trh nové produkty rychleji. „Týká se to jakéhokoliv podniku v dnešní éře internetu – pokud to neuděláte vy, udělá to vaše konkurence,“ varuje Ashish Nadkarni, analytik úložišť ve společnosti IDC. Organizace všech velikostí jsou zaplavovány daty, a to jak z interních, tak z externích zdrojů. Většina těchto informací přitéká do firem a úřadů v reálném čase – a velké množství z nich
zastará v řádu minut, hodin či dní. Výsledný růst potřeby ukládacích kapacit je zvláště palčivý pro velké podniky. V nich totiž počet strukturovaných a nestrukturovaných dat vyžadujících úložiště vzrostl podle analýzy Aberdeen Group jen mezi lety 2010 a 2011 v průměru o 44 procent. Ve společnostech všech velikostí se požadavky na velikost úložiště dat zdvojnásobují každého půldruhého roku. Navíc je nutné používat různé nástroje pro optimalizaci při ukládání videí, tabulek, formátovaných databází a zcela nestrukturovaných dat. „Výzvu představuje snaha o zpomalení trendu lineárně rostoucích nákladů na ukládání dat,“ říká Dick Csaplar, analytik pro oblast virtualizace a úložišť společnosti Aberdeen Group. Mezi technologie, které mohou hlavnímu proudu uživatelů velkých dat pomoci vyhnout se tomuto osudu, patří virtualizace úložišť, jejich vrstvení a deduplikace. Pro náročné obory, jako jsou věda, sociální média nebo vývoj, představují nejlepší možnost objektově orientovaná a relační databázová úložiště.
Jaký typ ukládacích nástrojů funguje nejlépe? Firmám, jež se teprve začínají potýkat s ukládáním a analýzou velkých dat, doporučují analytici virtualizaci úložišť pro zastřešení všech uložených dat, deduplikaci pro kompresi dat a vrstvení úložišť pro zajištění toho, aby byla nejcennější data ukládána v nejsnáze dostupných systémech. Virtualizace úložišť poskytuje abstraktní vrstvu softwaru, která před uživatelem skrývá fyzická zařízení a umožňuje, aby byla všechna spravována jako jediné úložiště. Zatímco virtualizace serverů je v dnešním IT světě zavedenou a plně etablovanou součástí oboru, virtualizace úložišť má ještě co dohánět. V průzkumu Aberdeen Group z jara loňského roku, který zahrnoval 106 velkých společností, uvedlo pouze 20 procent respondentů, že disponují jedinou unifikovanou aplikací pro správu úložišť. V průměru šlo o tři aplikace pro správu připadající na 3,2 ukládacího zařízení. Spousta výrobců úložišť však odmítá, aby byla jejich zařízení spravována produktem jiného výrobce. „Virtualizace úložišť
Na minutu, nebo na týden? Požadovaný druh úložiště závisí na druhu a množství dat, která analyzujete. Různá data mají hodnotu, jež se výrazně mění v průběhu času. Například odhad ceny na burze je relevantní pouze minutu předtím, než se cena změní. Výsledek ve fotbale vyhledávají lidé každý den 24 hodin, ale jen do dalšího zápasu. Tato data se musejí v době, kdy je po nich největší poptávka, nacházet na primárním úložišti, později mohou být přesunuta na levnější. Pohled na trendy posledních několika let navozuje myšlenku, že data ukládaná na delší časová období zpravidla nemusejí být umístěna na jednoduše dostupných primárních discích. www.cio.cz | www.bw.cz
59
cover BI a Big story Data | new business
Ukočírujte svá velká data Firmy a úřady jsou zaplaveny daty. Požadavky na skladovací kapacity stále rostou. Přinášíme několik doporučení, jak se se záplavou velkých dat vyrovnat. Stacy Collett, Čestmír Žák 60
CIO – Business World | Duben 2013
new businessBI| a Big cover Data story
Dříve se toto téma dotýkalo pouze vědců, internetových gigantů a obrovských sociálních médií, jako jsou třeba Amazon, Twitter, Facebook nebo Shutterfly. Nyní však stále více podniků – napříč různými odvětvími ekonomiky – doufá, že získá větší konkurenceschopnost, když zabrousí do vod velkých dat, ze kterých vytěží cenné informace. Některé firmy se pouštějí do analýzy, aby byly schopné rychleji reagovat na požadavky zákazníků, případně lépe sledovat zpětnou reakci klientů nebo prostě dostat na trh nové produkty rychleji. „Týká se to jakéhokoliv podniku v dnešní éře internetu – pokud to neuděláte vy, udělá to vaše konkurence,“ varuje Ashish Nadkarni, analytik úložišť ve společnosti IDC. Organizace všech velikostí jsou zaplavovány daty, a to jak z interních, tak z externích zdrojů. Většina těchto informací přitéká do firem a úřadů v reálném čase – a velké množství z nich
zastará v řádu minut, hodin či dní. Výsledný růst potřeby ukládacích kapacit je zvláště palčivý pro velké podniky. V nich totiž počet strukturovaných a nestrukturovaných dat vyžadujících úložiště vzrostl podle analýzy Aberdeen Group jen mezi lety 2010 a 2011 v průměru o 44 procent. Ve společnostech všech velikostí se požadavky na velikost úložiště dat zdvojnásobují každého půldruhého roku. Navíc je nutné používat různé nástroje pro optimalizaci při ukládání videí, tabulek, formátovaných databází a zcela nestrukturovaných dat. „Výzvu představuje snaha o zpomalení trendu lineárně rostoucích nákladů na ukládání dat,“ říká Dick Csaplar, analytik pro oblast virtualizace a úložišť společnosti Aberdeen Group. Mezi technologie, které mohou hlavnímu proudu uživatelů velkých dat pomoci vyhnout se tomuto osudu, patří virtualizace úložišť, jejich vrstvení a deduplikace. Pro náročné obory, jako jsou věda, sociální média nebo vývoj, představují nejlepší možnost objektově orientovaná a relační databázová úložiště.
Jaký typ ukládacích nástrojů funguje nejlépe? Firmám, jež se teprve začínají potýkat s ukládáním a analýzou velkých dat, doporučují analytici virtualizaci úložišť pro zastřešení všech uložených dat, deduplikaci pro kompresi dat a vrstvení úložišť pro zajištění toho, aby byla nejcennější data ukládána v nejsnáze dostupných systémech. Virtualizace úložišť poskytuje abstraktní vrstvu softwaru, která před uživatelem skrývá fyzická zařízení a umožňuje, aby byla všechna spravována jako jediné úložiště. Zatímco virtualizace serverů je v dnešním IT světě zavedenou a plně etablovanou součástí oboru, virtualizace úložišť má ještě co dohánět. V průzkumu Aberdeen Group z jara loňského roku, který zahrnoval 106 velkých společností, uvedlo pouze 20 procent respondentů, že disponují jedinou unifikovanou aplikací pro správu úložišť. V průměru šlo o tři aplikace pro správu připadající na 3,2 ukládacího zařízení. Spousta výrobců úložišť však odmítá, aby byla jejich zařízení spravována produktem jiného výrobce. „Virtualizace úložišť
Na minutu, nebo na týden? Požadovaný druh úložiště závisí na druhu a množství dat, která analyzujete. Různá data mají hodnotu, jež se výrazně mění v průběhu času. Například odhad ceny na burze je relevantní pouze minutu předtím, než se cena změní. Výsledek ve fotbale vyhledávají lidé každý den 24 hodin, ale jen do dalšího zápasu. Tato data se musejí v době, kdy je po nich největší poptávka, nacházet na primárním úložišti, později mohou být přesunuta na levnější. Pohled na trendy posledních několika let navozuje myšlenku, že data ukládaná na delší časová období zpravidla nemusejí být umístěna na jednoduše dostupných primárních discích. www.cio.cz | www.bw.cz
61
cover BI a Big story Data | new business
Ukočírujte svá velká data Firmy a úřady jsou zaplaveny daty. Požadavky na skladovací kapacity stále rostou. Přinášíme několik doporučení, jak se se záplavou velkých dat vyrovnat. Stacy Collett, Čestmír Žák 62
CIO – Business World | Duben 2013
new businessBI| a Big cover Data story
Dříve se toto téma dotýkalo pouze vědců, internetových gigantů a obrovských sociálních médií, jako jsou třeba Amazon, Twitter, Facebook nebo Shutterfly. Nyní však stále více podniků – napříč různými odvětvími ekonomiky – doufá, že získá větší konkurenceschopnost, když zabrousí do vod velkých dat, ze kterých vytěží cenné informace. Některé firmy se pouštějí do analýzy, aby byly schopné rychleji reagovat na požadavky zákazníků, případně lépe sledovat zpětnou reakci klientů nebo prostě dostat na trh nové produkty rychleji. „Týká se to jakéhokoliv podniku v dnešní éře internetu – pokud to neuděláte vy, udělá to vaše konkurence,“ varuje Ashish Nadkarni, analytik úložišť ve společnosti IDC. Organizace všech velikostí jsou zaplavovány daty, a to jak z interních, tak z externích zdrojů. Většina těchto informací přitéká do firem a úřadů v reálném čase – a velké množství z nich
zastará v řádu minut, hodin či dní. Výsledný růst potřeby ukládacích kapacit je zvláště palčivý pro velké podniky. V nich totiž počet strukturovaných a nestrukturovaných dat vyžadujících úložiště vzrostl podle analýzy Aberdeen Group jen mezi lety 2010 a 2011 v průměru o 44 procent. Ve společnostech všech velikostí se požadavky na velikost úložiště dat zdvojnásobují každého půldruhého roku. Navíc je nutné používat různé nástroje pro optimalizaci při ukládání videí, tabulek, formátovaných databází a zcela nestrukturovaných dat. „Výzvu představuje snaha o zpomalení trendu lineárně rostoucích nákladů na ukládání dat,“ říká Dick Csaplar, analytik pro oblast virtualizace a úložišť společnosti Aberdeen Group. Mezi technologie, které mohou hlavnímu proudu uživatelů velkých dat pomoci vyhnout se tomuto osudu, patří virtualizace úložišť, jejich vrstvení a deduplikace. Pro náročné obory, jako jsou věda, sociální média nebo vývoj, představují nejlepší možnost objektově orientovaná a relační databázová úložiště.
Jaký typ ukládacích nástrojů funguje nejlépe? Firmám, jež se teprve začínají potýkat s ukládáním a analýzou velkých dat, doporučují analytici virtualizaci úložišť pro zastřešení všech uložených dat, deduplikaci pro kompresi dat a vrstvení úložišť pro zajištění toho, aby byla nejcennější data ukládána v nejsnáze dostupných systémech. Virtualizace úložišť poskytuje abstraktní vrstvu softwaru, která před uživatelem skrývá fyzická zařízení a umožňuje, aby byla všechna spravována jako jediné úložiště. Zatímco virtualizace serverů je v dnešním IT světě zavedenou a plně etablovanou součástí oboru, virtualizace úložišť má ještě co dohánět. V průzkumu Aberdeen Group z jara loňského roku, který zahrnoval 106 velkých společností, uvedlo pouze 20 procent respondentů, že disponují jedinou unifikovanou aplikací pro správu úložišť. V průměru šlo o tři aplikace pro správu připadající na 3,2 ukládacího zařízení. Spousta výrobců úložišť však odmítá, aby byla jejich zařízení spravována produktem jiného výrobce. „Virtualizace úložišť
Na minutu, nebo na týden? Požadovaný druh úložiště závisí na druhu a množství dat, která analyzujete. Různá data mají hodnotu, jež se výrazně mění v průběhu času. Například odhad ceny na burze je relevantní pouze minutu předtím, než se cena změní. Výsledek ve fotbale vyhledávají lidé každý den 24 hodin, ale jen do dalšího zápasu. Tato data se musejí v době, kdy je po nich největší poptávka, nacházet na primárním úložišti, později mohou být přesunuta na levnější. Pohled na trendy posledních několika let navozuje myšlenku, že data ukládaná na delší časová období zpravidla nemusejí být umístěna na jednoduše dostupných primárních discích. www.cio.cz | www.bw.cz
63