IBM Big Data Portfólió Áttekintés
Baranyi Szabolcs +36 20 823 5619
[email protected]
September 9, 2013
© 2012 IBM Corporation
Tartalom
Big Data Platform Big Insight InfoSphere BigInsights Quick Start Edition Streams InfoSphere Streams Quick Start Edition Data explorer PureData for Analytics (Appliance)
2
© 2012 IBM Corporation
Big Data A technológia ami lehetővé teszi hogy minden adatot elemezünk Költséghatékony menedzsmentje és elemzése Struktúrált, struktúrálatlan és adatfolyamban natív formában elérhető adatnak
BigData Stratégia már most fontos
Social Media
Website
Billing ERP 3
CRM
RFID
Network Switches © 2012 IBM Corporation
BIG DATA több mint HADOOP
4
Megtalálni, megérteni és navigálni az adathalmazban
Elosztott keresés és navigáció
Nagy mennyiségű adatkezelés
Hadoop elosztott file rendszer MapReduce: elosztott feladatok
Struktúrált adatok
Adattárház, Célhardverek
Adatfolyam, streaming média
Stream Computing: Adatfolyam feldolgozás
Nem struktúrált elemzés
Text Analytics Engine
Adatintegráció és követés sokféle adatforrásból
Integráció, Adatminőség, Biztonság, Életciklus © 2012 IBM Corporation
Big Data Platform funkciócsoportok Folytonos real-Time analitika Ingest Filter, Transform
Analitika és riporting Zone
Correlate, Classify Adattárház Zone
Query Engines Cubes
Data Sinks Connectors
Enterprise Warehouse
Extract, Annotate
Adattárolás és analitika (landing zone) Hive/HBase Col Stores
Analytics MapReduce
Ingest
5
Descriptive, Predictive Models
Documents In Variety of Formats
Data Marts
Widgets Discovery, Visualizer Search
Indexes, facets Models
Metaadatkezelés Zone Repository, Workbench
© 2012 IBM Corporation
BigData Platform elemei 1 – Adatvisszanyerés, felfedezés InfoSphere Data Explorer
Analytic:
Analitikai Alkalmazások BI / Exploration / Functional Industry Predictive Content BI / Reporting Visualization App App Analytics Analytics Reportin g
IBM Big Data Platform Visualization & Discovery
Application Development
Systems Management
Text, Geospatial, Time series,Data mining
Applications Financial, Machine Data, Social, Telco 2 – Natív analízis 3 – Költséghatékony adattárolás
IBM Warehouse Solutions
Accelerators Hadoop System
Stream Computing
Data Warehouse
5 – Adatfolyam feldolgozás, gyors válasz
InfoSphere BigInsights Integráció és követés (governance)
6
4 – Egyszerű, hatékony adattárház (célhardverek)
InfoSphere Streams
© 2012 IBM Corporation
IBM InfoSphere BigInsights Volumen és Variancia
September 9, 2013
© 2012 IBM Corporation
IBM InfoSphere BigInsights v2.1 Enterprise Edition Administration
Applications & Development
Visualization & Discovery
Big SQL BigSheets Dashboard & Visualization
Apps
Text Analytics
Workflow
Pig & Jaql
Integration JDBC
MapReduce Hive
Admin Console Netezza Monitoring DB2
Streams
Advanced Analytic Engines R
Text Processing Engine & Extractor Library)
Adaptive Algorithms
DataStage
Workload Optimization
Runtime
Guardium
Integrated Installer
Enhanced Security
Splittable Text Compression
Adaptive MapReduce
ZooKeeper
Oozie
Jaql
Flexible Scheduler
Lucene
Pig
H Catalog
Index
High Availability Platform Computing Cognos
Management
MapReduce
Flume
Security
Data Store
Hive
HBase
Audit & History
Sqoop
Lineage
File System
HDFS
GPFS Open Source
8
IBM
© 2012 IBM Corporation
BigInsights és az adattárház
Tradícionális analitika
Big Data analytic applications
Adattárház
BigInsights
Filter 9
Transform
Aggregate © 2012 IBM Corporation
Táblázatos Analízis Webes analízis és vizualizáció
Táblázat alapú felület – Táblázatos formában jobokat definiálunk – Visszaadott értékeket diagramokat elemezzük módosítjuk
(Nagy excel)
JAQL: Speciális hierarchikus lekérdező nyelv hadoop környezethez 10
© 2012 IBM Corporation
SQL interface . . . . SQL lekérdezési lehetőség
Application
– SQL '92 és 2011 opciók – Korellált subquery – Windowed aggregates
SQL Language JDBC / ODBC Driver
SQL elérés minden Big Insight beli strukturált adathoz
JDBC / ODBC Server
SQL interface Engine
JDBC/ODBC support
MapReduce párhuzamosságának kihasználása
BigSQL supports: create table ;data types including varchar, decimals, etc. 11
Data Sources
HiveTables
HBase tables
CSV Files
InfoSphere BigInsights © 2012 IBM Corporation
Cluster komponensek és monitorozásuk: • Cluster:CPU/Disk/Memory/Netk ihasználtság, node életjel • HDFS: File rendszer állapota, NameNode JVM, írás / olvasás statisztika • Mapreduce: Jobok státusa, Mapper, Reducer, JobTracker • HBase: lekérdezések állapota • Hive: metadata store hívások gyakorisága • Oozie: statistics • Zookeeper: késleltetlés ,lekérdezések • Flume: adatforrások, nyelők állapota
12
EXT E N S I B L E !! Build your own Monitoring Dashboards, with the key KPI that are of your interest!
© 2012 IBM Corporation © 2013 IBM Corporation
Enterprise class
Kezdetektől a nagyvállalatig
13
PureData for Hadoop Célhardver Enterprise Edition funkcionalitásával (vas)
Enterprise Edition Terabyte alapú árazás Quick Start PLUS: Quick Start Edition Accelerators Ingyenes Nem Produktív célra Enterprise Integration Big Sheets Production support Text Analytics Production-ready features Big SQL Basic Edition Workload ingyenes optimization/ Web-based Query support mgmt console Dev tools Jaql Apache Install program Connectors Hadoop Mgmt tools IBM Hadoop Core
New
© 2012 IBM Corporation
BigInsights Quick Start Edition contains most of the same features as the Enterprise Edition Available • Big Sheets • Text Analytics • Big SQL • All Workload optimization/Query support • Development tools • Connectors • Management tools • IBM Hadoop Core
14
Unavailable • Production support • Production-ready features: • High Availability • GPFS
• Accelerators: • Machine Data • Social Data
• Limited use licenses: • Data Explorer • Cognos • Streams
© 2012 IBM Corporation
IBM InfoSphere Streams 3.0 Agilitás, Gyorsaság
15
© 2012 IBM Corporation
InfoSphere Streams
Valós idejű analititka BIG Data felett Valós idejű feldolgozás
Fókuszban a sebesség ICU Monitoring Algorithmic Trading
Volumen
Terabytes / sec Petabytes / nap
sokféle adat Variancia sokféle elemzés
Cyber Security
Millió esemény másodperc enként
Kiértékelés Sebesség másodperc tört része alatt
Environment Monitoring
Powerful Analytics Government / Law enforcement
Telco Churn Prediction Smart Grid
Mikro szekundumos késleltetés
Tradícionális és újfajta adtforrás
16 16
© 2012 IBM Corporation
Streams Működése Streams infrastruktúra
Filter / Sample Annotate
Transform
Correlate Classify
Egyedi gondolkodásmód Folyam feldolgozó egységek 17
© 2012 IBM Corporation
Grafikus szerkesztő és monitorozó Vizuális programozás
SPL nyelv Hierarchikus vizuális monitoring
18
© 2012 IBM Corporation
SPSS és Streams speciális kapcsolata
SPSS modellek használata valós idejű döntéshozatalban SPSS Modeler generálta modellek közvetlen használata SPSS Modelek frissítése cseréje a Stream megállítása nélkül IBM InfoSphere Streams
S S S S
SPSS Scoring Operator
R R
SPSS Repository Operator
PP R R
P P
SPSS Publish Operator SPSS Model
File System Change Notification
IBM SPSS Modeler Solution Publisher
IBM SPSS Collaboration & Deployment Services
Model Refresh
19
Repository
© 2012 IBM Corporation
IBM InfoSphere DataStage Integráció
Valós idejű feldolgozás és klasszikus ETL eszköz ötvözete – Az adatáttöltés során „röptében” is tudunk elemezni – Adattárházat tudja analitikailag tehermentesíteni, – több napi riport
Streams ETL toolkit
– Streams and DataStage adatcsere adapterek – Integrációs kód
20
© 2012 IBM Corporation
Streams Quick Start Quick Start –ban elérhető – fejlesztőeszközök teljes készlete
• Grafikus editor, SPL nyelv • Adatvizualizáció • Vizuális monitoring – Skálázható architektúra
• Elosztott platform – Analitikai kiegészítések
• Time series analysis • Mining scoring
Nem elérhetők – IBM InfoSphere BigInsights™ Enterprise Edition integráció – IBM DB2® – IBM Accelerator for Machine Data Analytics – IBM Accelerator for Social Data Analytics – IBM Accelerator for Telecommunications Event Data Analytics
– using PMML, R or SPSS
• Complex Event Processing • Geospatial analysis • SPSS integráció 2121
© 2012 IBM Corporation © 2013 IBM Corporation
Streams és BigInsights Interált folytonos feldolgozás és tárolás Visualization of realtime and historical insights
Data Integration, data mining, machine learning, statistical modeling
InfoSphere Streams
1. Data Ingest Data
2. Bootstrap/Enrich Data ingest, preparation, online analysis, model validation
Control flow
InfoSphere BigInsights, Database & Warehouse
3. Adaptive Analytics Model
22
© 2012 IBM Corporation
Data Explorer Vizualizáció
September 9, 2013
© 2012 IBM Corporation
Data Explorer
Keresés, indexálás Adat vizualizáció
BigInsights, Streams, Adattárház, keimeneti adatainak webes fúziója A teljes képet mutatja minden kontextusban
Sokféle adatforrásból származó adat egységes megjelenése Adatvagyon katalógus (glossary) szerinti csoportosítás Big Data Stratégi akezdő lépése
24
© 2012 IBM Corporation
InfoSphere Data Explorer Architektúra Big Data application
Big Data application
Big Data application
Application framework Query routing
User profiles
Subscriptions
Authentication/Authorization Business Rules Personalization Display
Text analytics
CM, RM, DM
Feeds Web Results
Metadata extraction
Indexing and search engine
BigInsights RDBMS
Feeds Web 2.0
Email
Web
CRM, ERP
Streams
File Systems
Integration zone – Connectors and APIs 25
© 2012 IBM Corporation
Data ExplorerMegjelenítés Adaforrások
Dinamikus kategorizálás llokáció
Személyre szabott eredmény
Struktúrált és nem struktúrált tartalom
kollaboráció
Rendezés, Virtuális mappák
26
© 2012 IBM Corporation
Egyedi értékek Iparági megoldások
September 9, 2013
© 2012 IBM Corporation
Geospatial Toolkit
Nagyteljesítményű Térinformatikai modul Elosztott, rendszer, LoadBalance – Smarter Transport
Térinformatikai adattípusok (Geospatial) – e.g. Point, LineString, Polygon
Térinformatikai függvények – e.g. Distance, Map point to LineString, isContained etc.
28
© 2012 IBM Corporation
Time Series Toolkit
Idősoros adatok elemzésére tervezve Gazdag funkciókészlet – Adatsor generáció: függvény generátor – Feldolgozás : szűrés, aggregáció, mintavételezés (e.g. ReSample, Interpolate) – Analísis : korellációk anomáliák keresése – Modellezés : prediction, regression (e.g. Holt-Winters, GAMLearner)
29
© 2012 IBM Corporation
Telco Accelerator
Dashboards Real Time Monitoring
Master Script Config Files
Rules Compiler
De-Dup Bloom Filter
Checkpoint Controller
Rules: Lookups and Transforms
File parsing and error handling
CDRs xDRs
Parallel Write
Streams DB2 BigInsights
HDFS
CDR Repository
External Data
30
CDR statistics and data rate
Output Files
© 2012 IBM Corporation
Social Media Accelerator Entity Integration, Profile build
Extraction
Indexing
Reports Ingest
HDFS
CXO
Index (Velocity)
Üzleti lehetőségek feltárása Brand Management Mikroszegmentáció
Integrated end user view
– Személyes adatok – Érdeklődés,szokások, szosiális aktivitás, barátok,
Kimenet
– Sentiment analízis
31
© 2012 IBM Corporation
Célhardverek Pure Data for analytics Pure data for hadoop
September 9, 2013
© 2012 IBM Corporation
In October 2012
Adattárház Célgép IBM Netezza átnevezve IBM PureData System for Analytics
September 9, 2013
© 2012 IBM Corporation
Adattárház Célgép Igény ami életrehívta • Adattárház teljesítmény igény • DWH adminisztrációs költség csökkentés
Value statement • • • •
Speed: 10 – 100x gyorsabb (mint alap tárház) Simplicity: Alig igényel adminisztrációt ( 75% csökkentés) Scalability Smart system • Adatbázison belüli párhuzamos analitika • Teljes SPSS integráció
Megoldás • IBM Netezza immáron: • PureData System for Analytics
34
© 2012 IBM Corporation
• IBM big data • IBM big data
• IBM big data IBM big data
35
IBM big data
• IBM big data
THINK
IBM big data
IBM big data
• IBM big data • IBM big data © 2012 IBM Corporation
1 – Unlock Big Data Customer need • Understand existing data sources • Search and navigate data within existing systems • No copying of data Value statement • Get up and running quickly
• Discover and retrieve big data • Work even with big data sources – by business users Solution • Vivisimo Velocity renamed to • IBM InfoSphere DataDiscovery
36
© 2012 IBM Corporation