Zaostřeno na MDM ...aneb stopařův průvodce po MDM Připraveno pro Centrum znalostního managementu ČVUT FEL Roman Tobišek, MBA Information Architect 15.4.2015
Agenda • • • • • • • • • •
Představení Úvod do MDM Vzorová architektura MDM řešení MDM – širší pohled Architektura MDM MDM naostro Budování Programu MDM Disciplíny Vyzrálost MDM a dodavatelé nástrojů + veselé příhody z natáčení
KB = leader bankovního trhu Čistý konsolidovaný zisk Skupiny KB 12,5 mld./2013 8 600 zaměstnanců ve Skupině KB / 7 811 zaměstnanců KB 2,5 mil. klientů ve Skupině KB / 1,6 mil. klientů KB 398 obchodních míst 693 bankomatů 2 telefonní centra Hradec Králové
Praha Ostrava
Plzeň
Brno
Société Générale ve světě Skupina SG působí v 83 zemích, 157.000 zaměstnanců Oslo Helsinki Amsterdam Stockholm Praha Bratislava Bruxelles Luxembourg
Québec Toronto Chicago BostonMontreal New York
San Francisco Los Angeles
Warszawa Moscou Kiev Varna Dublin Berlin Istanb Bucarest London Paris Ljubljana Tachkent ul Wien Genève Athena AlmaAta Madrid MonacoMilanoBelegrad Lisboa Téhéran Baku Gibraltar Islammabad Alger Nicosie BeyrouthAmman Lahore Tunis Cairo Bahrein New Delhi Sharjah Cassablanca
Dallas Houston
Nassau
Dubai
Pointe-à-Pitre Fort-de-France
Mexico Guatemala City
Panama Bogota
Caracas
Dakar
Ouagadougou N ’Djamena Cotonou Conakry Douala Abidjan Malabo
Tianjin Pékin
Séoul
Tokyo
Osaka Shanghai Wuhan Shenzhen Taipeh Canton Hong Kong Karachi Hanoï Manilla Bombay Pune Bangkok Ho Chi Minh Bangalore Labuan Kuala Lumpur Singapore Jakarta
Antananarivo
Lima
Brisban Nouméa e
Rio de Janeiro Sao Paulo Papeete
Santiago
Buenos Aires
Johannesburg Cape Town
Sydney Melbourne
Skupina KB/SG dceřiné a přidružené společnosti
ÚVOD DO MDM
CO je to vlastně MDM? • • • •
Mechanicaly Deboned Meat? Medical Decision Making? Melodic Death Metal? Mezinárodní Den Mužů?
• Master Data Management 7
Master Data Management (MDM) • Geneze:
– Posledních 20 let se soustředíme na sběr dat – Data jsou všude – Organizace jsou orientovány na produkty > existuje mnoho produktových systémů (izolovaná sila) – Každé silo je soběstačné (To jsou přeci naše data!)
• Kontrolní otázka: Kolik má naše firma zákazníků? – – – – – 8
Kolika systémů se na to musíme zeptat? Kdo je vlastně náš zákazník? Jakou má pro nás hodnotu? Které produkty už má a které ještě ne? ...
MDM – Co to je?
• Master Data Management – Co jsou Master Data? • • • •
Podstatná jména businessu (např. Zákazník kupuje produkty) Nejpoužívanější data, nejvíce sdílená v rámci organizace také kmenová, referenční, v DWH obvykle dimenze Typicky 3 hlavní oblasti: • Party (CDI) • Product (PIM) • Location
• Master Data Management
Party Product Location
– Master Data nevzniknou samy o sobě, musíme je: • • • • • 9
Extrahovat z primárních systémů Vyčistit a Konsolidovat Popsat (metadata, definice, business slovník, use cases atd.) Uložit (MDM Hub, ODS, atd.) Poskytovat (replikace, SOA atd.)
MDM definition by Gartner •
•
Master data is the consistent and uniform set of identifiers and extended attributes that describes the core entities of the enterprise including customers, prospects, citizens, suppliers, sites, hierarchies and chart of accounts. Master data management (MDM) is a technology-enabled discipline in which business and IT work together to ensure the uniformity, accuracy, stewardship, semantic consistency and accountability of the enterprise’s official shared master data assets.
MDM – Co to je?
• Gartner: Master data management (MDM) is a technologyenabled discipline in which business and IT must work together to ensure the uniformity, accuracy, stewardship, semantic consistency and accountability of the enterprise's official, shared master data assets. ID 1 2 3 4 5 6 7 8 9 10 11 12 13
Titul1 ing. ing.
Jmeno
Leoš Leoš Mráček Leos ing. Leoš Mráček Leoš Mráček, MBA ing. Leo3 Mráček ing, Leoš ing. Leoš Mra4ek, MBA ing. MBA Leoš Mrácek Jana Karel
Prijmeni Mráček Mracek MBA Mr8ček Leoš Mraeek
ing. Leoš Mráček, MBA Votavová Novák
Kde je ta pravda? 11
Titul 2 MBA MBA
MBA
RČ 691117/3457 6911173457 11.17.1969 NULL 691117/3457 999999/9999 691117/3455 691117/3475 0 6911173457 6910174375 6910174376 999999/9999
MDM – ŠIRŠÍ POHLED
12
New business requirements • Be able to leverage the investment and use the data in order to support decision making process • Have the same numbers (single version of the truth) • Be able to have “360-degree” view of reality – – – –
Customers Partners Key business processes Etc.
• Have the correct information for decision making process • See the information at the time when it’s needed
MDM – why?
14
MDM – building blocks
15
What forms Master Data? • Data – Usually reference data
• Etalons, code tables, dimension tables,… – Transaction data
• Verified values, best values,…
• Metadata - definitions, structures, relations – – – –
Business and technical definitions Synonyms Hierarchies Associations
Master Data origin • Master Data does NOT exist in its pure form • We have to get it – Extract from primary systems – Consolidate it
• Clean • Unify, deduplicate
– Describe it
• • • • •
Definitions Ownership Lineage Access rights Usage and its limits
– Store it
• Master Database • ODS • Metadata repository
Master Data Care • Storing the data is not sufficient – it has to be managed and provided • Organization – – – – –
Governance structures (RACI matrix) Realisation team Architecture team Guidelines, rules, methodologies Business processes
• Technical solution supporting governance process
Four pillars • Data Architecture – To efficiently manage Master Data – To improve Master Data quality and availability by positioning it correctly into the Enterprise Data Architecture
• Data Integration – To provide users with single and complete view of Master Data – To ensure Master Data is integrated / consolidated in correct and efficient fashion
• Metadata – To have the same Master Data / information understanding across the enterprise (to have all Master Data and information described) – To have all relevant systems and processes described – To have all relevant business requirements described
Data architecture
Data Integration
Metadata
Data Quality
• Data Quality – To support business goals by correct, timely and reliable data / information – To correct incorrect data and prevent the errors from appearing
• Processes
Five aspects
– Business & IT processes
• Organization – Organization structure supporting the program
• Documents Processes
– Guidelines – Standards – Templates
• Metrics & measurement – – – –
Program metrics Process metrics Solution metrics Data Quality metrics
Me
tric
s
Or
Data Governance
n atio z i gan
Do cu m
s ol to
Data storage Metadata storage Integration framework Data Quality tools Front end
T /IC IS
– – – – –
en ts
• IS/ICT solution
MDM ARCHITEKTURA
Architektura
Architecture (from Latin, architectura and ultimately from Greek, "a master builder", from αρχι- "chiefs, leader" , "builder, carpenter") is the art and science of designing buildings and structures. Wikipedia.org
Chamurapiho zákoník
• 1750 př. n. l. • If a builder constructed a house, but did not make his work strong,… that builder shall be put to death.
Information Management Platform Business Initiatives
IT Initiatives
Regulatory Compliance
Implement Fin. Reporting App.
Rationalize IT Investments
Migrate Legacy Finance App.
Consolidate Risk Systems
Increase Customer Cross-sell & Loyalty
Integrate Customer Analytics Data
Integrate New Merger
Consolidate Customer Systems
Outsource HR
Upgrade Internal ERP System
Standardize Credit Check Processes
Enterprise Data Services Engine
Requirements for Accessing, Integrating & Moving Data
Architecture
Technology
Approach
Service Oriented Data Services Architecture (SOA)
Universal Data Integration and Data Quality Hub
Business Intelligence Competency Centre (BICC)
Enterprise Data Applications Databases
Messages
Flat files
XML
Unstructured Data
Mainframe
MDM & DWH MDI UI
DWH UI Aggs
MDI DB
Master data
R-T Interface
Source system 1
DWH
Batch Interface
Source system 2
Source system n
MDM & Data Warehousing Master Data Management
Data Warehousing
Supporting all relevant systems and users by quality, reliable and timely master data
Single data foundation for all analytical activities
Consolidation of Master Data in right time
Uses consolidated Master Data from MDM solution, consolidates the other data (if relevant)
Business departments inseparable part of the solution
Supporting business requirements
Bidirectional right-time data transfers
Unidirectional batch load data transfers; unidirectional interface to end users
Data Quality inseparable part - semantics driven
Data Quality may be part of the solution; syntactic (metadata) driven
Metadata inseparable part – definitions approved and valid for the whole enterprise and source systems
DW metadata inseparable part, does not affect primary systems usually
MDM & Transactional System Master Data Management
Transactional System
Supporting all relevant systems and users by quality, reliable and timely master data
Supporting single business process, primary data acquisition
Consolidates the master data in right time
No consolidation done
Business departments inseparable part of the solution
Business is an user of the solution
Bidirectional right-time data transfers
Bidirectional right-time data transfers
Data Quality inseparable part - semantics driven
Data Quality usually not enforced
Metadata inseparable part – definitions approved and valid for whole enterprise and source systems
Metadata usually not enforced
Implementation Styles of MDM Registry
Consolidation • • • • •
Ideal for reporting or analytics that reside in a BI/data warehouse Nonintrusive to the business BI is the business platform Any Industry Benefits dependent on success of BI strategy
• • • • •
Coexistence • • • • • •
Large-scale distributed model Largest change to information infrastructure Greatest need to mirror data Global and local governance Greatest risk over control, security Focused on shared services
Low control, autonomous environments Nonintrusive of edge applications Emphasis is on remote data and application to application integration (lots of real time network access) Distributed governance Faster to implement then coexistence and centralized
Centralized • • • • • •
High-control, top-down environments Largest change to application infrastructure Hugely invasive to the business Centralized governance Greatest control over access, security Focus on common services
Implementation Styles of MDM - detail Consolidate
Registry
Coexistence
Transaction
Authoring Source
Source is remote
Source is remote
Sources are distributed
Source is centralized
Persistence/ Storage
N/A — read only
Master data is in remote systems
Master data is distributed across systems
Master data is centralized
Validation Source
System of reference
System of reference
Mixed system of record/ reference
System of record
Primary Consumer
Downstream analytics and reporting
Both operational and analytical
Upstream operations
Upstream operations
Data Latency Batch to real-
Batch to eventdriven
Event-driven, pub/sub
Real-time
time
No explicit desire to clean data
Explicit desire to clean source data
Architektura a organizace Cíle / Strategie Business Procesy
Aplikace (funcionalita) Data Infrastruktura
IT
Okolní svět
Enterprise
Organizace
Database layers Layer
Description
External data
Data as coming from source systems
Cleansed data
Cleansed data enhanced by cleansing scores and unification groups suggestion
(Cleansed) deduplicated data
Master client records together with links to Cleansed data layer data
MDI Database Cleansed deduplicated layer
Cleansed data
External data
DISCIPLÍNY MDM
32
Technické disciplíny MDM • Automatické čištění – Rozpoznání (parsing) obsahu datových položek – Opravy (překlepy, nesprávné zápisy, formáty …)
• Standardisace – Převod na jednotný formát
• Obohacení – Doplnění chybějících položek, je-li to možné
• Unifikace – Určení záznamů, představující jeden konkrétní subjekt (osoba, adresa, produkt, vozidlo, odběrné místo …)
• (Householding) – Logické seskupení entit se společnými charakteristikami
• Deduplikace (Mastering) – Stanovení nejlepšího representanta
• Identifikace – Pro nové záznamy – nalezení (unifikovaného) subjektu, kterému záznam patří
Čištění • Parsing na základě vzorů <pattern <pattern <pattern <pattern
definition='{FIRST_NAME} {LAST_NAME} MLADSI' name='F L mladsi' /> definition='{FIRST_NAME} {LAST_NAME} ML.' name='F L ml.' /> definition='{FIRST_NAME} ML. {LAST_NAME}' name='F ml. L' /> definition='{LETTER}.{LAST_NAME} ML' name='C.L ml' />
• Ověřování na číselníky – Tituly, jména, příjmení, obecné
• Sada čisticích algoritmů – RČ, IČO, textové řetězce, výrazy… – Skórování
• Náhrady (replacementy)
Unifikace • Seskupení záznamů do skupin, které patří ke konkrétnímu subjektu (člověk Josef Novák, RČ 760110/0123, …)
cli_id
can_id
Obec
PSČ
RČ
Příjmení
Jméno
• Výběr nejlepšího záznamu (master) • Přidělení (nového) jednoznačného identifikátoru
KAMIL VELEBNÝ
5411084123
25703 JANKOV
25
26
KAMIL VELEBNÝ
5411084123
25703 JANKOV
25
26
25703 JANKOV
25
27
KAMIL VELEBNÝ
-
Unifikace • Pravidla unifikace – Praktická pravidla pro provedení slučování – Definují, které záznamy patří k sobě • S ohledem na shodu/podobnost v různých atributech • S větší nebo menší pravděpodobností
• Obecný unifikační klíč • Inkrementální zpracování • Business pravidla – z nich vyplývají pravidla unifikace
Unification – seeking the truth J Smith null
J Smith 420347213
Records
Union key - SSN Jane Smith 420347213 John Smith 095252433 John Smith 095252433
John Smith 095242434 John Smith 095242434
Janette Smith null 37
Jane Watson 420347213
?
Jane Watson 420347213 John Smith null John Smith null
Union key - Name Candidate groups
Co je householding • Seskupení klientů, kteří mají něco společného • Slovo „household“ je zástupný termín
– Může jít o • • • •
Domácnost Rodinu Zájmovou skupinu Profesní skupinu
Vztahy mezi lidmi
– Ale i • Komerční subjekty, které mají mezi sebou vztahy
– Vlastnické – Partnerské (dodavatelský řetězec …)
– A též vztahy mezi lidmi a komerčními subjekty • Zaměstnanci • Členové statutárních orgánů • Vlastníci
– Atd.
Co je Deduplikace (Mastering) • Deduplikované databáze obsahují (právě) jeden záznam pro každého konkrétního jedince – reprezentant • Mělo by jich být méně • Reprezentant nemusí (ale může) být master – Záleží na metodě jeho tvorby - např. Nejlepší z nejlepších (BoB) - nebo ten Master z unifikace - nebo některý ze závazného číselníku
Mastering - příklady
40
Co je Identifikace • Nalezení unifikované skupiny a nebo Mastera a nebo Reprezentanta a nebo Unikátního ID (přiděleného skupině) • Použití: Hlavně pro nově ověřované záznamy vstupující do systému
MDM NAOSTRO
Registr osob
Customer: Czech Statistical Office (ČSÚ) Segment: Government Project: Registry of Persons Reference timing: 05/2010 – 11/2012 Short description: Registry of Persons contains data about all persons,
i.e. economic units or entities of business and non-business nature. It is defined by law and its usage is enforced among all governmental and public agencies. The solution consisted of analysis, design, implementation and integration with other registers, data cleansing and initial load. It has been awarded „The IT project of the year 2012“ together with other projects within the Basic registers.
Largest MDM project in the Czech Republic
82 source systems 2000+ target systems 10.000+ users 80% coverage of public administration agencies 100.000.000 transactions in 9 months
Party Referential Solution (KB) Key
features Performs data standardisation, cleansing, consolidation, mastering and tailored presentation (in context of authorisation and consents) Offers referential data (the single version of the truth over party data) Provides business services SZKU Search Identify Data Quality Firewall Whisperer Matching
44
PRS outcomes – overview and next steps
Party Referential Solution (KB)
PRS - Consents & Authorizations Motivation
Objectives
Benefits
PRS konsoliduje data z různých zdrojů a společností a umožňuje je zpřístupnit v rámci celé skupiny SG CZ Díky tomu se na něj vztahuje celá řada legislativních/obchodních a vnitřních pravidel limitujících využití dat Navrhnout a implementovat mechanismy v PRS, které efektivně promítnou tato pravidla do způsobu, jakým poskytuje data odběratelům Minimalizace rizik/nákladů plynoucích z porušení pravidel limitujících využití dat ve společnostech a mezi společnostmi ze skupiny SG CZ Transparentní promítnutí těchto pravidel do procesů
Nechceme omezovat přístup k informacím, ale nalézt cesty, jak maximálně využít dostupné informace v rámci definovaných pravidel
PRS - Consents & Authorizations Consents
Excplicit consents
Contract Distribution contract
Entitlements
Signed documents
Usage purpose
Legislative
Data
Authorization for data usage
(co smím s daty dělat)
(which records) Entia, atribut
Processing
Validity
Consumers (sharing in SG CZ)
Expiration
47
Consumer group
TOP 10 most common names in PRS: Jiří Novák Petr Novák Jiří Svoboda Pavel Novák Marie Nováková Josef Novák Jana Nováková Jiří Novotný Jan Novák Jaroslav Novák
1 497 1 385 1 110 1 099 1 087 1 060 1 047 1 045 974 967
MOST COMMON CLIENT ADDRESS IS:
Husova 165/5 Brno (Permanent residence of 1474 persons)
49
BUDOVÁNÍ MDM
• •
•
• •
MDM Solution development Analysis – –
Define business requirements in detail. Identify source data and assess primary systems (data profiling).
Design – – – – – – – – –
Collect and approve business definitions (metadata). Design changes to MDI Logical Data Model. Specify transformations. Specify business rules for data validation and cleansing. Specify requirements for front-end / end-user interface. Analyze and specify impact on business processes. Define Detail IS/ICT Architecture / Assess impacts. Specify HW / SW requirements. Design & deploy changes to physical data model.
Implementation – – – –
Establish business changes. Develop and unit test integration processes (ETL jobs, EAI messages, etc.) – both input and output. Develop and unit test data quality processes. Develop and unit test front-end / end-user interface.
Testing – –
Run Integration Tests. Run User Acceptance Tests.
Deployment – – –
Communicate & educate. Deploy IS/ICT part of the solution. Support solution.
Where to start MDI project?
Supplier Employees Partners Products Assets Other reference data
Unification
Data quality
Usually 1st MDM increment
Data governance
MDM
Customer
Application and data integration
CDI
Master entities
Data model
PI M
IT disciplines
MDM MATURITY & VENDORS
MDM Maturity Model Increasing Maturity of MDM
Optimizing Defined Initial Unaware Problem? What problem?
0
No vision, but, yes, we do have a problem …
1
Developing No vision. Firefighting is the answer. Isolated, bottom-up initiatives.
OK, let's do something (at the silo level). Silo-oriented solutions.
2 3 Level of MDM Maturity
Managed A unifying vision emerges (with highlevel sponsorship). Enterprise- wide MDM program.
4
MDM is the way we do things around here. Managing master data as an asset. Continuing to learn and improve.
5
Perform an MDM Capability Assessment to Determine Current State, "to Be" State and Gaps Level 1 Initial
Level 2 Developing
Level 3 Defined
Level 4 Managed
Level 5 Optimizing
Vision
None
Bottom-up initiatives only
Top down, but limited in vision
Unifying vision for cross-enterprise MDM
Key enabler of business success
Strategy
None
No enterprisewide strategy
Focus on domains or use cases
Consistent and integrated approach
Ongoing investment and improvement
Governance
No one has responsibility
IT led. Lacking business involvement
Domain-level governance
Cross-enterprise multidomain governance
Well-established cross-enterprise governance
Organization
No data stewards
Developing the culture of data stewardship
Potentially strong team, but limited in scope
Centralization or federation of data steward groups
Well-established cross-enterprise stewardship
Processes
Silo based — applications or functions
Starting to think in terms of the data life cycle
Focus on data life cycle at domain level
Best practice shared across the enterprise
Continue to optimize the life cycle
Technology
Few or no data quality tools
Data quality tools, but no MDM solutions
One or more disconnected MDM solutions
Integrated and consistent set of capabilities
Integrated and consistent set of capabilities
No metrics scheme for master data
Starting to develop DQ metrics
Successful use of metrics at the domain level
Using metrics to measure success cross-domain
Basis of management and investment
Metrics
Jaké jsou MDM nástroje?
Diskuse
Případné dotazy –
[email protected]
Diplomové práce a stáže Nabízíme Vám spolupráci v těchto oblastech: • Marketingu • Risku • Finance • Distribuční sítě • Obchod • Lidské zdroje • Audit • IT • Investiční bankovnictví
Soutěž pro studenty – inovace www.kb.cz/dejtehlavydohromady
Komerční banka
Informace • Vytvořte tým 2 – 5 studentů • Přes interaktivní formulář podáte přihlášku do 30. 4. s kreativním představením týmu • Prezentaci v rozsahu 15 – 20 normostran přiložíte v období od 1. 5. do 31. 5. 2015 • Rozsah 15 – 20 normostran (finální verze PowerPoint v AJ)
Děkuji za pozornost
[email protected]
Kariéra v KB i v celé skupině Société Généralé http://careers.socgen.com