Realtime prostředí a telco Jakub Reschke
Praha, 13.11.2013
Obsah o Profinit a telco operátoři
o Realtime a telco
o Technologie a architektura
o Realtime use case – Monitoring interních byznys procesů – Operativní reporting pro customer care – Dotazy do externích registrů – Konsolidace zákaznických dat
o Shrnutí 2
1
Profinit a telco operátoři
Profinit a telco operátoři o Patnáct let zkušeností s vývojem software, integrací a BI
o Spolupráce se všemi třemi velkými telco operátory – Datové sklady – Integrace
– Testování – Specializované data marty
4
2
Realtime v telco segmentu
Realtime v telco segmentu o eTOM – Publikovaný organizací TM Forum
o Referenční model podnikových procesů, klíčových prvků a jejich interakcí
o Cíl: společné chápání podnikových procesů typických nejen pro telekomunikační prostředí
o Přínosy – Revize stávajících procesů
– Optimalizace stávajících procesů – Dohoda mezi poskytovateli tel. technologií
6
eTOM
Realtime požadavky
Real time požadavky
Real time řešení
8
Realtime požadavky
• Real time řešení z podstaty telco byznysu • Doba odezvy v milisekundách • Řešení založeno na technologických standardech • Dává telco operátorům vysokou zkušenost s real time problematikou
9
Realtime požadavky
• Doba odezvy ve vteřinách až minutách • Často dávkové zpracování
• Založeno na aplikacích dodavatelů a typu procesů • Aktivace a provisioning • Billing • Obchodní procesy
10
Realtime požadavky
• Data zpracovávána převážně dávkově • Řízeno požadavky zákazníků
• CRM • eShop, webový portál
11
3
Technologie a architektura
Enterprise application integration o Sada technologií a služeb tvořících middleware – Integrace systémů a aplikací
o N aplikací, n * (n – 1)/2 interakcí
o Přístup top-down (byznys) – Byznysově orientovaná analýza – Byznys architektura, BPM
o Přístup bottom-up (IT) – IT přístup, vývojově orientované technické týmy
13
Integrační vzory o Mediation (intra-komunikace) – EAI systémy v roli propagátorů informací do dalších systémů – Duplikace, synchronizace dat
o Federation (inter-komunikace) – EAI v roli zastřešující fasády
– EAI systém vystaví relevantní informace a rozhraní, služby – Konzumenti (‘venkovní’ svět) komunikují přes fasádu
o Oba vzory často existují souběžně
14
Dělba zodpovědností o Byznys – Definice požadavků (např. funkční, výkonové)
o Architektura – Existují vzory, pro jednotlivé typy řešení – Existuje infrastruktura pro jednotlivé typy řešení
– Definuje vzory pro jednotlivé požadavky
o IT – Zajišťuje implementaci
– Odpovídá za přijatelnou cenu
15
4
Realtime use case
Real time use case o Monitoring interních byznys procesů – Kompletní vyhodnocení do 30 minut – Sledování aplikací společně s integračními systémy – Cíl: • Zajistit sledování komplikovaných byznys procesů • Zajistit proaktivní monitoring
– Řešení • Specializovaný data mart a konektory pro aplikace
– Přínosy • Schopnost sledovat a vyhodnocovat byznys procesy • Nahrazení funkcionality BPM systémů
17
Real time use case o Operativní reporting pro customer care – Doba odezvy v řádu minut – Dotazy na mnoho interních systémů – Cíl: • Získání real time pohledů do provozních systémů
– Řešení • Využití EAI jako zastřešující fasády
– Přínosy • Odpadá nutnost uchovávání a integrace všech dat v ODS • Levná modifikace reportů (přidání zdrojů dat)
18
Real time use case o Dotazy do externích registrů – Doba odezvy jednotky vteřin – Standardní rozhraní externích registrů – Cíl: • Minimalizace nákladů – dotazy jsou finančně drahé
– Řešení: • Kešování odpovědí
– Přínosy • Rychlejší opakované dotazy • Snížení nákladů
19
Real time use case o Konsolidace zákaznických dat – Odezva v řádu milisekund – Integrace dat z více systémů – Cíl: • Podpora mikrosegmentace zákazníků
– Řešení • Specializovaný data mart • Specializované publikační konektory
– Přínosy • Podpora marketingových aktivit
20
5
Shrnutí
Shrnutí o Požadavky jsou tak rozdílné, že neexistuje „Silver bullet“ technologie ani řešení
o Z pohledu firmy je „Silver bullet“ fungující propojení Byznys – Architektura – IT – Zaručuje • Jednotný dohled • Jednotný popis • Jednotný monitoring
o Vždy se musí zvažovat cena versus požadavky – Požadavek 1 sekunda nebo 3 sekundy může být rozdíl v řádu milionů
o Je potřeba mít vybudovanou technologickou základnu a používat ji podle potřeby 22
Near Real-time Operational Data Store
Filip Miarka
Agenda
Co máme Kdy to nestačí
Proč to nestačí Jak to vyřešíme Co nám to přinese
Na co si dát pozor
24
Co máme
*
25
Kdy a proč to nestačí Zpřístupnění auditních a transakčních dat do 15 minut od jejich vzniku Event driven marketing Transakční a kontaktní historie
Operational reporting Operační data do RT procesů Konsolidace klientských dat Společná Staging Area pro operational využití i pro DWH ODS je zásobována dávkově – s denní a delší periodou
26
Jak to řešíme
*
27
Co nám to přinese Operational Data Store s nízkou latencí Zvýšenou flexibilitu Lepší Time-to-market
Otevřenou cestu k Centrálnímu operativnímu reportingu Complex Event Processingu
28
Na co si dát pozor Provozní dopady Demand Management Transformace v replikačním datovém proudu
Komplexní transformace Data != Informace, Změna dat != Událost
29
Real - time Pavel Janča
13. 11. 2013
O čem to bude o Co je Real-time o Real-Time a architektura
31
1
Co je Real-time
Co je Real-time - latence
Doba dodání informací
Počet transakcí
Použití
Setiny sekundy
Tisíce za sekundu
Algoritmic trading
Sekundy (1-30)
Stovky za sekundu
Podpora uživatelského rozhraní
1 minuta
Desítky za sekundu
Finanční a obchodní služby
10 minut
Desítky za minutu
Podpora operativního rozhodování
1 hodina
Bez omezení
Byznys procesy, logistické procesy
1 den
Bez omezení
Reporting
Co je Real-time - Technologie
Doba dodání informací
Specializované technologie
Setiny sekundy
Unikátní, geografický lokalizovaná prostředí
Sekundy (1-30)
Geografické clustery, Enterprise hardware
1 minuta
Clustery
10 minut
Hot standby
1 hodina
Cold standby
1 den
Ne, dávkové zpracování, perzistentní uložení
o Závislost mezi latencí a cenou
34
Co to je Real-time o Oblasti ovlivňující rychlosti poskytnutí dat – Získání dat ze zdroje – Zpracování dat – Materializace (pokud materializujeme) – Vlastní poskytnutí dat
o Oblasti mohou být nezávislé a nezávisí pouze na technologiích – Nelze poskytnout real-time data uzávěrky pokud uzávěrka běží 5 hodin
o Důležitá otázka je s jakou množinou dat pracujeme – Data o zákazníkovi – RT ODS – Všechna (fraud) - SODS
Co to je Real-time o Získání dat ze zdroje – Vytváření extraktů s požadovanou latencí – Čtení zdroje dat s požadovanou latencí • Zamykání, zátěž zdrojového systému
– Úprava aplikace • Drahé, náročné na údržbu, nerealizovatelné
– Navázání na transakce v DB (technologie CDC) • Viz. další prezetnace
o Zpracování dat – Nástroj nepodporující RT (max. jednotky minut) – Nástroj podporující RT – Zpracování v DB (latence omezená schopností dodat data ze zdroje)
o Materializace a poskytnutí dat – Materializujeme – Nematerializujeme (Federace)
2
Možnosti přístupu
Replikace – výhody a nevýhody o Výhody – Ověřené technologie a postupy – Vyšší propustnost – Možnost manuální intervence nad daty (unifikace, oprava chyb)
o Nevýhody – Nutnost implementace nové technologie na zdrojové systémy
38
Federace - výhody a nevýhody o Výhody – Žádný přenos dat (ETL) – Přenášena jen požadovaná data – Real-time data – Kratší čas vývoje – možno vyvíjet po částech – Minimalizace zdrojů pro uložení a přenosu dat
o Nevýhody – Nepredikovatelné zatěžování zdrojových systémů – K dispozici jsou data pouze ve zdrojových systémech • historie
– Nižší propustnost • Nevhodné pro velké objemy dat (caching)
– Část zátěže přenesena z databáze do nástroje pro federaci • Aplikační server
– V případě výpadku jednoho systému domino efekt – Většinou nutnost nových licencí 39
3
RT a současná architektura
Architektura – RT DWH
DWH mart
Zdrojové systémy
DWH core
Integrace
41
Architektura – RT DWH o Data se poskytují z DWH (Data Mart s rychlým přístupem) o Výhody – Není nutné budovat novou komponentu architektury – Kompletní historie dat
o Nevýhody – Více kroků ve zpracování (větší latence) – Svázání real-time dat pro business s DWH • Time-to-market
– Velký dopad na existující datový sklad (cena implementace) – Vysoká cena (SSD disky) – Nevyzkoušené řešení
o Poznámky – Může nastat závislost na jiných datamartech (MDM) – Neumožňuje (nebo problematicky) manuální intervenci • Nutno řešit jak DQ tak MDM před DWH 42
Architektura – RT ODS
DWH mart
Zdrojové systémy
ODS DQ
DWH core
Integrace
43
Architektura – RT ODS o Data se poskytují z ODS o Nevýhody – Nutné budovat novou komponentu architektury – Dotýká se DWH (konsolidační komponenta a zdroj pro DWH) – Většinou nemá historizovaná data
o Výhody – Méně kroků ve zpracování (nižší latence) – Samostatná komponenta architektury (Time-to-market) – Vyzkoušené řešení
o Poznámky – Umožňuje manuální intervenci • Může být řešením DQ i MDM
44
Informatica Real - time Pavel Janča
13. 11. 2013
Obsah o Informatica Power Center Real-Time Edition (IPC RTE) o Architektura Change Data Capture (CDC) o Doplňky okolo RT integrace o Další možnosti nástroje
46
1
Informatica Power Center
Popis nástroje
48
IPC RTE versus IPC o Zdroje – Change Data Capture – Enterprise service bus • • • •
JMS (i.e., Informatica, Oracle, Sun, TIBCO, IBM, JBoss) webMethods X-Broker IBM WebSphere MQ Microsoft MQ
o Cíle – Enterprise service bus
o Chování – Vystavení logiky jako Web service – Vystavení logiky jako Data service (detailněji dále v prezentaci) – Schopnost obsluhovat požadavky paralelně
49
2
CDC architektura
Komponenty o Zdroj dat – MS SQL, Oracle, DB2 – Více způsobů získání dat (přímé čtení, log shipping) – Oracle RAC, ASM
o Listener – Může běžet v architektuře kdekoliv – Více způsobů pro typ DB (logminer, přímé čtení logů) – Definuje registrací (jaké sloupce, kdo je změnil, jaká hodnota se změnila)
o Logger – Může běžet v architektuře kdekoliv – Požaduje a shromažďuje data z listeneru – Volitelná část architektury – Ukládá data do condense file
o Vyvážení latence a zátěže zdroje
51
CDC architektura
52
CDC – konfigurace listeneru
o Indikátor změny o Before / after image
53
CDC mapování
54
CDC architektura - HA o Nezbytná součást pokud business požaduje data „rychle“
55
3
Praktické poznatky
Praktické poznatky o Iniciální load – – – –
Replikace sama o sobě nestačí Předchází ji inicializační load, který je potřeba s CDC synchronizovat Různé databáze / různé přístupy Sada tabulek z cca 3,5 Mio záznamů za 3:50 minut (partitioning)
o Automatizace – – – –
Velký počet entit a úkonů Automatická instalace Automatické vytváření replikací a iniciálních session Mapping Architect for Visio
o Jmenné konvence – Jednotné úložiště „metadat“
o Koexistence ETL a RT – – – –
Oddělené domény Oddělení služby Schopnost omezit službě konzumaci zdrojů serveru Operating System Profiles 57
ETL & RT
58
ETL & RT
59
4
Data federation
Data federation
61
Popis nástroje
62
Informatica Data federation 1
2 Customer Name Address Category Orders
7
Virtual Table
3
Accounts
CRM
Virtual Table
ACCESS & MERGE
MODEL
Business Manager
Optimizations & Caching CRM
Virtual Table
Analyst, Steward
Developer, Architect
Common Metadata Accounts
Virtual Table
SCALE & PERFORM
PROFILE IN RT Business
4
6
IT
5 Virtual Table
DW
Batch
Web Services
Virtual Table
Virtual Table
Call Center
Accounts
Query Engine
WS Server
Advanced Transformations, Data Quality, Data Masking
TRANSFORM IN RT
MOVE OR FEDERATE REUSE INSTANTLY
63
Informatica Data federation
Import datového modelu Logický datový model
Informatica Proprietary/Confidential. Informational Purposes Only. No Representation, Warranty or Commitment regarding Future Functionality. Not to be Relied Upon in Making Purchasing Decision.
Profinit RT Framework používající Oracle AQ Ondřej Zýka
13. 11. 2013
? Co se stane, když DWH dostane požadavky na rychlou dodávku informací?
66
Prostředí datového skladu
Stage
Jádro
Data mart
Data mart
67
Od ETL k Real time o ETL – Extract – Transform – Load – Miliony záznamů za hodinu – Denní dávkové zpracování řízené plánovačem – Optimalizace zpracování velikých dávek – Využití podpory hardware • Teradata, Oracle, Sybae IQ, Netezza
– Využití sofistikovaných nástrojů • Informatica, Oracle DI, AbInitio, MS SSIS
68
Snižování doby odezvy
Stage
Jádro
Data mart
Data mart
69
Real time integrace dat MDM, Integrace
Stage
Jádro
Data mart
Data mart
70
Od ETL k Real time o Zkracování doby zpracování – Zkracování intervalů loadů – Vymýšlení zkratek a výjimek ve zpracování – Posílení hardware • Teradata Active Enterprise Data Warehouse with Hybrid Storage
– Využití real-time možností ETL nástrojů • Informatica CDC, Oracle Golden Gate, SAP/Sybase Replication server
71
Proč a jak vznikl Profinit RT framework o Požadavky zákazníků – Řešení s extrémně rychlou odezvou – Využití technologické znalosti a zkušenosti lidí – Kompatibilita s ostatními systémy • Dávkové i real-time zpracování
– Cena – Komplikované integrační algoritmy
o První implementace – Proprietární řešení
o Druhá implementace – Standardní „levná“ technologie Oracle Advance Queue – Znovupoužitelné řešení – Oddělení procesní a věcné stránky řešení 72
Změna paradigmatu
Zpracování na úrovni záznamu
ETL
73
Změna paradigmatu o Zpracování na úrovni záznamu – Datová struktura se nemění – Procedura transformující jeden záznam
o Vstup – Identifikace záznamu
o Výstup – Identifikace změněných záznamů
o Co je potřeba vyřešit – Paralelní zpracování – Spouštění jednotlivých transformací
74
RT framework
Stage
Jádro
Data mart
Data mart
75
Profinit RT framework o Oracle Advance Queue – Messaging systém implementovaný přímo v databázi – Umnožňuje libovoně mnoho paralelních zápisů a čtení front (enqueuing a dequeuing procesů) – Persistentní/Nepersistentní fronty – Umožňuje definovat libovolnou strukturu zpráv
o Použití v RT Frameworku – Pouze k řízení zpracování • data jsou v relačních strukturách
– Fronty mají jednoduchou uniformní strukturu – obsahují pouze identifikátory pro zpracování – Řízení paralelismu zpracování pomocí počtu procesů zpracovávající transformace
o Stávající relační model – Využití stávajících znalostí a kompetencí – Kompatibilita se současným stavem 76
Zapojení do architektury
Stávající řešení - DWH
RT ODS RealTime Framework 77
Přínosy Profinit RT Frameworku o Snadná implementace – Oddělení technické a věcné stránky řešení • Jádro osahuje 1500 řádek kódu včetně logování, posílání emailů a dalších funkcionalit • Integrační a byznys logika 2500
– Návrh transformací nemusí brát v úvahu výkonnostní specifika datového skladu • Supervize je nutná
– Snadný vývoj na malém vzorku dat
o Snadné řízení paralelizace zpracování – Masivně spouštíme jednoduché transformace
o Veliká kompatibilita se stávajícími řešeními o Extrémně krátká latence zpracování o Vysoká propustnost oproti řešením založeným na SOA 78
Nevýhody o Nižší propustnost než ETL o Příklad – SUN procesor, 6 jader – Tři hlavní transformace • DQ – 3 paralelní procesy • Integrace (MDM) – 5 • Přepočet data martů – 2
– Zpracování jednoho záznamu < 3 sec – Zpracování 5 mil záznamů < 2 hod
o Omezení na Oracle technologii – Nutnost psát transformace v PL/SQL
o Neřeší vstup dat – řešení pouze pro RealTime zpracování – Použili jsme jak dávky, tak SOA, tak ruční vstupy. 79
Několik slov závěrem o Požadavky na snížení latence (rychlosti zpracování) je lepší řešit změnou architektury a přístupu než nákupem silnějšího hardware
o Pro nové požadavky je dobré uvažovat o nových řešení o Ověřená řešení již existují jak pro – RealTime dodání dat
– RealTime zpracování dat – RealTime prezentaci dat
80
Děkujeme za pozornost Profinit, s.r.o., Tychonova 2, 160 00 Praha 6 Tel: +420 224 316 016, www.profinit.eu