Big Data adattárházas szemmel Arató Bence ügyvezető, BI Consulting
1
Bemutatkozás 15 éves szakmai tapasztalat az üzleti
intelligencia és adattárházak területén A BI Consulting szakmai igazgatója A BI.hu portál és a BI Évkönyv periodika
főszerkesztője Az Adattárház Fórum és Open Source BI
Fórum konferenciák szervezője
2
Big Data 3
A Big Data sztori
4
Big Data Volume - Velocity – Variety - Variability 5
Mekkora?
Big Data a szokásos módon és
eszközökkel nem kezelhető, mert Vagy túl nagy a mennyiség Vagy túlságosan gyorsan változik Vagy nem kellőképpen strukturált
Felmerülő problémák
Skálázhatóság Rugalmasság Költségek (HW és SW)
6
Mire használható? Hogyan hasznos?
Ügyfélviselkedés jobb megértése Akciók és tevékenységek személyre szabása Működés optimalizálása (árazás, logisztika) Élettudományok (orvosi adatok, genetika)
Kinek hasznos ez?
Akinek vannak ügyfelei vagy látogatói, termékei, eladásai, mérési adatai, szenzorai… és így tovább 7
8
Hadoop: A Big Data emelkedő csillaga 9
Hadoop: A Big Data emelkedő csillaga
A Hadoop lényege Nyílt forráskódú, könnyen használható keretrendszer párhuzamos feldolgozások futtatására olcsó hardveren A Google és a Yahoo belső projektjeként indult, a cél egy nagyméretű adattömegek feldolgozására alkalmas platform kifejlesztése volt Néhány év alatt hatalmas karriert futott be, mára kiemelt Apache projekt és a meghatározó BigData platform 10
HADOOP
11
HADOOP 12
Hadoop – megéri?
The hardware and software combined will sell for $450,000. That's highly competitive, working out to less than $700 per terabyte and being in line with the low costs big data practitioners expect from deployments built on commodity hardware.
13
Mire használható?
Alkalmazási réteg
Adattárolás ETL és ELT Analitika és elemzések
Alkalmazási terület
Adatok előfeldolgozása webes viselkedés elemzése Adatbányászati modellek futtatása
14
Példák
Cég
Hadoop környezet Alkalmazási környezet
Caree.rs
15 node
Állásajánlatok elemzése
Beebler
14 node, 56 core
Társkeresők párosítása
Cooliris
15 node, 120 core
Online fotómegosztási adatok elemzése
Enormo
4 node, 32 cores
Ingatlanhirdetések feldolgozása
Pronux
4 node, 32 core
Könyvelési tételek elemzése
PokerTableStats
2 node, 16 core
Pókerstatisztikák számítása
wiki.apache.org/hadoop/PoweredBy
15
Szállítók Big Data stratégiái 16
Céges stratégiák
17
Céges stratégiák
Oracle Bejelentés
2011. ősz
Partnercég Saját disztribúció
Cloudera Igen
Termékek
Oracle Big Data Appliance
Érdekességek
Oracle integráció, R integráció
Elérhetőség
Appliance, ODI, Analytics Option
18
Céges stratégiák
19
Big Data Connectors
Oracle Direct Connector for HDFS
Hadoop által kezelt adatok elérése SQL-ből
Oracle Loader for Hadoop
Hadoop adatok betöltése Oracle adatbázisba
Oracle Data Integrator Application Adapter
Hadoop programok generálása ODI felületről
Oracle R Connector for Hadoop
Hadoop által kezelt adatok elérése R nyelvből
20
Céges stratégiák
21
Céges stratégiák
IBM Bejelentés
2010. tavasz
Partnercég Saját disztribúció
Igen
Termékek
IBM InfoSphere BigInsights
Érdekességek
DB konnektorok, tanácsadási háttér, Watson, BigSheets Többféle változatban is elérhető, a Basic ingyenes
Elérhetőség
22
Céges stratégiák
23
Céges stratégiák
24
Céges stratégiák
Microsoft Bejelentés Partnercég Saját disztribúció Termékek Érdekességek Elérhetőség
2011. ősz HortonWorks
Igen SQL Server 2012, Windows Server, Azure HIVE ODBC driver, Javascript programozási felület Jelenleg bétateszt, várhatóan 2012 közepén
25
Céges stratégiák
26
Céges stratégiák
27
Céges stratégiák
SAP Bejelentés Partnercég Saját disztribúció Termékek Érdekességek Elérhetőség
2011. ősz Cloudera HANA, Sybase IQ MapReduce, R, PMML támogatás, Hadoop interfészek Elérhető
28
Céges stratégiák
29