Big Data – od velkých očekávání k praktickému využití
DSW, Praha, 23.9.2014
Gartner: Hype Cycle for Emerging Technologies Zdroj: Gartner
3D scanners?
NFC “předběhlo” cloud compu3ng?
“Internet of things” zrychlil tempo
Kolik najdete rozdílů? Kde jsou na křivce Big Data? 2 / 13
Agenda
• • • • •
Opravdu máme velká data? Nástroje pro zpracovávání velkých objemů dat Opravdová big data – příklad architektury, vlastnosti, možnosti nasazení Big Data inovační projekt Závěr
3 / 13
Big Data, Business Intelligence nebo vlastně ... analýza dat? Big Data – zájem o téma mezi širší veřejností prudce narůstá od roku 2011.
USA
V České republice až v loňském roce (2013). Naproti tomu téma Business Intelligence má od roku 2011 klesající tendenci.
Česká Republika
Nicméně BI je doplňováno rostoucím obecnějším tématem „analýza dat/data analytics“. Zdroj: Google Trends 4 / 13
Opravdová Big Data vs. „velké množství dat“ Big Data • Nejsou strukturovaná • Jsou různorodá • Mají velký objem • Rychle se mění
Příklady • Detekce fraudu na kreditních kartách • Wikipedia • Analýza sportovních utkání
Náročnost zpracování
Big Data
Analýza velkého množství dat Velikost firmy
Velké množství dat • Jsou strukturovaná • Změny je možné popsat • Mají velký objem • Pevná struktura Příklady • Prodeje v eshopu • Aktivované SW licence • CDR – záznamy o telefonních hovorech 5 / 13
Nástroje pro zpracovávání velkých objemů dat Pro zpracování velkých objemů dat tradičními způsoby existuje celá řada ověřených nástrojů od výrobců jako Oracle, SAP, Microsoft.... Při zpracovávání můžeme s výhodou použít SW specializovaný na vizualizace a i zjednodušit přípravu dat: • QlikView • Tableau • Panorama SW • PowerPivot Nové možnosti v oblasti cloudových řešení • GoodData, PowerBI, .... 6 / 13
Příklad architektury pro Big Data projekt Parametry – MS APS • Až 6 petaBytů relačních dat při použití SQL Server PDW pro potřeby velkých objemů dat • Redundantní pro hlavní uzly a Hadoop Distributed File System (HDFS) úložiště • Schopnost přidávat HW pro téměř lineární škálovatelnost • Jedna jednotka (minimální krok) je schopna importu až 480 GB za hodinu • Primární engine úložiště pracuje na přepisovatelné verzi inmemory sloupcového úložiště
Analy3cs PlaOorm System (APS) 7 / 13
Příklad architektury pro Big Data projekt Výhody řešení: • Zkombinování Hadoop a SQL • Práce s big daty • Dobře známé BI nástroje • Robustní platforma
Možné aplikace: • Bankovní sektor, pojišťovny • Telekomunikační operátoři
8 / 13
Náš výzkum • •
Projekt ve spolupráci s Mendelovou univerzitou v Brně Získali jsme inovační voucher – podpora spolupráce komerčního sektoru a univerzit – Jihomoravské inovační centrum a město Brno
Cíl projektu: • Systematické prohledávání webových stránek se statisticky významným provozem a jejich kategorizace • Vytvoření kategorií, které slouží jako reference o obsahu stránky • Automatické přiřazování stránek ke kategoriím • Vyhodnocení možností automatizace a správnosti zařazování obsahu 9 / 13
Definice kategorií
Vlivy jazykových verzí
Výsledek?
Procento správné kategorizace, efektivita
Geografické rozdíly Podíl neúspěšnosti Metody a technologie výběru stránek
Alaýza obsahu stránekHadoop
Ověření správnosti přiřazení
Zpracovávání a kategorizace
10 / 13
Závěr ČAS Správné rozhodnutí o jaký typ zpracování dat se jedná. Výběr adekvátního nástroje pro zpracování. Zbytečná složitost = vícenáklady, prodloužení času dodání výsledku. Big Data stále ještě na začátku.
NÁKLADY 11 / 13
Praha
Brno
Brno
12 / 13
Kontakty Petr Skokan obchodní ředitel
[email protected] Telefon: +420 608 200 301
Vývojové centrum: Intelligent Technologies s.r.o. Vlhká 194/25 602 00 Brno Česká republika
[email protected] Telefon: +420 511 116 188
Sídlo firmy: Intelligent Technologies s.r.o. Vysoká 532/8 639 00 Brno Česká republika IČ: 27749240 DIČ: CZ27749240 Zápis do obchodního rejstříku Rejstříkový soud v Brně, spisová značka C 56441
hXp://www.intecs.cz
13 / 13