1
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
„Nem csak tiszta forrásból” Adattisztaság, adatintegráció Enterprise Data Quality Fekete Zoltán Principal sales consultant https://blogs.oracle.com/zfekete 2
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Agenda • Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás • Enterprise Data Quality
• Oracle Data Integrator • Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei
3
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Agenda • Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás • Enterprise Data Quality
• Oracle Data Integrator • Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei
4
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Az adattisztaság üzleti hatása Rossz adatokkal • Kisebb ROI • Nagyobb projekt kockázat, idő, költség • Drágább, következmények – rossz számla, rossz kiszállítás, rossz alkatrészek,…
„BI/DW implementációk 30%-a teljesen sikeres. Miért? Pénz és adattisztaság”
5
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Jó adatokkal • • • • •
Nagyobb ROI Nagyobb agilitás Nagyobb hatékonyság Nagyobb ügyfél elégedettség Nagyobb skálázhatóság
„#1 ok, ami miatt a CRM projektek elbuknak: adattisztaság?
„Az adatintegráció és adattisztaság az alkalmazás bevezetés sikerének alapja, pl. CRM, SCM és ERP.”
#OracleDataIntegration
Adatok áradata Elemzők: növekvő mennyiség, komplexitás
“External data sources are proliferating On average, organizations are integrating 14 external data sources, up from 11 a year ago. - Aberdeen Group
“40% projected growth in global data generated per year vs 5% growth in global IT spending.” - McKinsey Global Institute
“New data stored by enterprises
“As data growth and complexity
exceeded 7 exabytes of data globally in 2010 and new data stored by consumers exceeded an additional 6 exabytes..”
accelerates, companies should focus on quality assured data exchange (ensure data consistency and accuracy from the point of entry.”
- McKinsey Global Institute
- Aberdeen Group
Az adatok folyton változnak... Cégek 1 óra alatt… • 240 cég címe változik • 150 üzleti telefonszám változik meg vagy szűnik meg • 112 C-változás (CEO, CFO, stb.) • 20 cég bukik meg • 12 új cég jön létre • 4 cég nevet változtat
a DQ romlik?
Személyek 1 óra alatt… • 5 769 személy változtat állást az USA-ban • 2 748 személy címe változik • 515 személy házasodik meg • 263 személy válik el • 186 személy jelent be magáncsődöt
Termékek 1 év alatt… • Termékek: 20% duplikátum • 90% termék bevezetés rossz • Kisker.: 40 milliárd $ vagy 3,5% értékesítés veszteség, termék infó gondok • 60% számla hiba • Global Data Sync: 30% IT költség csökkenés
Törzsadatok,master data: 2% változás havonta 2% monthly change is 27% évente, 61% 2 évente, 104% 3 év alatt!!! Source: D&B, US Census Bureau, US Department of Health and Human Services, Administrative Office of the US Courts, Bureau of Labor Statistics, Gartner, A.T Kearney, GMA Invoice Accuracy Study
7
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Adatok: hibák és konzisztencia gondok Eltérés vagy hiba
Példa
Eltérés vagy hiba
Példa
Sorrend
• Mark Douglas or Douglas Mark
Olvasási hiba
• Hannah, Hamah
Véletlen „javítás”
• Browne – Brown
Hiányzó vagy extra részek
• George W Smith, George Smith, Smith
Összefűzés
• Mary Anne, Maryanne
Más nyelvi adatok
• Khader AL Ghamdi, Khadir A. AlGamdey
Becenév, alias
• Chris – Christine, Christopher, Tina
Kezdőbetűk zavara
• John Alan Smith, J A Smith
Zaj
• Vessző, perjel, idézőjel, gondolatjel,...
Betűcserék
• Johnson, Jhonson
Rövidítés
• Wlm/William, Mfg/Manufacturing
Lokalizáció
• Stanislav Milosovich – Stan Milo
Csonkítás
• Credit Suisse First Bost
Téves dátumok
• 12/10/1915, 21/10/1951, 10121951, 00001951
Előtag variációk
• MacDonald/McDonald/Donald
Átírási különbségek
• Gang, Kang, Kwang
Elírás, elütés
• P0rter, Beht
Hangzó hibák
• Graeme – Graham
8
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
#OracleDataIntegration
Agenda • Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás • Enterprise Data Quality
• Oracle Data Integrator • Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei
9
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Data Quality – „Illik az adat a célhoz”?
• Honnan lehet megtudni? • Mi a hatása az üzletre? • Mit tegyünk?
10
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Ellenőrzés – adatok „megfelelnek a célnak”? Irányítás
Business & data standards
Your Data
Védelem Javítás
Megismerés 11
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Your Experts
• Understand current data ‘fitness for purpose’ • Estimate DQ impacts & ROI • Identify critical issues & quick wins
Current issues, gaps, errors
Adatok javítása, alkalmazás telj. javítása Parse/ extract
Irányítás
Match/ merge
Enrich Standardize
Verify
‘Gold’ data
Fit for purpose data
Védelem Metrics, KPIs
Javítás
Megismerés 12
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Apply data standards • Improve ROI and performance of existing applications • Engage users and executives • Bring data to a known, baseline quality – ready to rollout new applications and initiatives
„DQ Firewall” – információ vagyon folyamatos védelme Irányítás
External sources/ feeds Oracle Data Integrator E-LT/ETL Process
Non-DQ/MDMaware Apps
Hub
Védelem DQ/MDMaware Apps
Javítás
Web service call
Apply data standards/validate
Megismerés 13
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
• Continuous, consistent enforcement of standards • High quality data drives ROI • No more DQ projects!
DQ irányítás – folyamatos folyamat javítás Source system DQ metrics
Irányítás ‘Gold’ data
Protect Improve
Understand 14
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Apply data standards
• Monitor ongoing effectiveness • Track and resolve issues • Improve overall effectiveness
DQ process metrics Target system DQ metrics
Agenda • Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás • Enterprise Data Quality
• Oracle Data Integrator • Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei
15
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Enterprise Data Quality – Datanomic, 2011.
16
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Enterprise Data Quality Integrált DQ megoldás Témakörspecifikus Könnyen használható
• Integrált DQ megoldás – profiling, cleansing, classification, repurposing, matching & reporting • Üzleti felhasználóknak • Egyszerű konfiguráció és integráció „DQ Services” • Integrált csoportmunka és menedzsment • Specializált fő területekre: Parner és Termék • Előre felépített folyamatok és tudás • Megfelelő eszközt a feladathoz • Kiterjeszthető tetszőleges területre, feladatra, folyamathoz • Független: adatkör, piac, alkalmazás, ... • DQ nem csak a háttérmunkához • Felhasználók monitorozhatják a fontos adatokat – Testreszabott dashboard – Tartalom és elrendezés kiválasztása
• Üzleti kontextus: megértés és egyetértés 17
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
17
EDQ Console, a felhasználóra fókuszálva
Fő terület Projekt böngésző Eredmények
18
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Eszközpaletta
Teljes DQ folyamat felépítése • Teljes DQ funkcionalitás: egyetlen egységes felület és repository
„Egyszerű” vagy „komplex” folyamat 19
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Folyamat áttekintő nézet: navigáció
Rögtön bevethető kész feldolgozók: Processor
20
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Fontos: nyelv-specifikus, régió-specifikus és ország-specifikus képességek • Processorok: országokra, régiókra
• Teljes unicode megfelelés
21
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Fontos: nyelv-specifikus, régió-specifikus és ország-specifikus képességek
22
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Profiling – adatok megértése, megismerése
Interaktív felfedezés, eloszlások vizsgálata, kugró értékek lefúrással. Jellemzők: megismerés és mérés
23
|
© 2011 Oracle Corporation
Adatok javítása és tisztítása • Teljesen alakítható transzformációs szabályok • Batch és Real-Time is • Adatváltoztatás esetén is teljes kontroll • Az eredeti adat is megőrződik (minden köztes lépés is) • Forrás adatok: állomásoztatva, feldolgozva vagy „stream”-elve a folyamatban
Profiling eredmények: saját adatjavítási szabályok kialakítása
24
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Gyári processorok a szokásos feladatokhoz, például: cím standardizálás
Nevek tisztítása Name: Dr Ellen Van Der Heijde
Title: Dr First: Ellen Last: Van Der Heijde Gender: Female
Name: Mr RJ & Mrs FB MacDonald
Title: Mr First: R Middle: J Last: MacDonald Gender: Male
Name: Jalila Abdul-Alim (Do Not Call)
Title: Mrs First: F Middle: B Last: MacDonald Gender: Female
First: Jalila Last: Abdul-Alim Gender: Female Note: Do Not Call
Name: Ms April James DBA AJ Designs
• • • •
Parse, standardizálás, transzformálás Részekre bontás Egyének, cégek azonosítása További attribútumok kitöltése
25
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Title: Ms First: April Last: James Gender: Female
Company: AJ Designs
Nem csupán neveket: címek, dátumok, telefonszámok, stb. 25
Matching – ismétlődés kezelés, megelőzés • Üzleti felhasználóknak • Rugalmas matching motor bármely adathoz, összehasonlító algoritmusok • Template match processorok: személy, egyed, cím egyezőség vizsgálathoz • Konfigurált match processorok újra felhasználása • Konfigurálható kimenetek (linkek, csoportok, Master and Slaves, legjobb record) • Batch és Real-Time is
Kész szabályok: bekapcsolás, kikapcsolás, testreszabás
26
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Parsing – Improve & Review data
Passed Review color
Parse & classify Megfelelő és vizsgálandó rekordok
27
|
© 2011 Oracle Corporation
Big Data felhasználási eset {"OC_Name": "at_ns:.oc.ERoss3g1","Identifier": "1546863","Target_Entity": "RCROOT at_ns:.oss.3g1RCROOT SNW NISTE05 RNC NISTE05","Event_Type": "QualityofServiceAlarm","Managed_Object": "RCROOT at_ns:.oss.3g1RCROOT SNW NISTE05 RNC NISTE05","Probable_Cause": "ThresholdCrossed","Severity": "Warning","Event_Time": "18/12/2012 19:10:16","State": "Outstanding","Additional_Text": "UtranCell_RrcEarlyReject\n\nstart_nms_tags\n@AlarmId=38444174\n@ManagedObj ect=kalkan,SubNetwork=ONRM_ROOT_MO,SubNetwork=NISTE05,MeContext=NIST E05,ManagedElement=1,RncFunction=1,UtranCell=WIS04296\n@SpecificProblem=Ut ranCell_RrcEarlyReject\n@ProposedRepairAction=\n@Class=RCROOT\nend_nms_ta gs \n\nSource:OSSRC_FM","Notification_ID": "3589640175"}
Big Data Operatív valós idejű riporting
OC_Name Identifier Target_Entity Event_Type
Parse & classify: komplex nemstrukturált, félig strukturált adatokat strukturált adatokká alakítja
Managed_Object Probable_Cause Severity Event_Time State Notification_ID NmsTags.AlarmId NmsTags.ProposedRepair
NmsTags.ManagedObject NmsTags.SpecificProblem NmsTags.Class
28
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
at_ns:.oc.ERoss3g1 1546863 RCROOT at_ns:.oss.3g1RCROOT SNW NISTE05 RNC NISTE05 QualityofServiceAlarm RCROOT at_ns:.oss.3g1RCROOT SNW NISTE05 RNC NISTE05 ThresholdCrossed Warning 18/12/2012 19:10:16 Outstanding 3589640175" 38444174\n \n kalkan,SubNetwork=ONRM_ROOT_MO,SubNetwork= NISTE05,MeContext=NISTE05,ManagedElement=1,R ncFunction=1,UtranCell=WIS04296\n UtranCell_RrcEarlyReject\n RCROOT\n
#OracleDataIntegration
EDQ Address Verification – cím kezelés EDQ Match and Merge EDQ Parse and Standardize EDQ Profile and Audit
• Parse • Transliterate • Validate • Format
Add latitude/longitude coordinates
Verify
Geocode
Global Knowledge Repository Data Packs EDQ Address Verification Server
• Verify – cím kijavítása, pontosítása • •
Worldwide address cleansing – over 240 countries – all populated countries on earth The most advanced error-tolerant parsing algorithms
• Geocode – a címhez a megfelelő koordináták hozzákapcsolása • • 29
Generates a latitude/longitude coordinate for any address worldwide Leverages the most comprehensive multi-source geographical reference data
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Felhasználói csoportok a folyamatban Vezetők, tulajdonosok Üzleti elemzők Adatelemzők
Director felhasználók Director felülbírálók
30
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Director Data Stewards
Director vezetők
#OracleDataIntegration
Az üzleti felhasználónak • Rövid betanulás, hamar kamatozik
• Az üzleti probléma gazdáinak • Integrált csapatmunka, együttműködés
31
|
© 2011 Oracle Corporation
Match áttekintés Independent End User Review of Matches Egyező rekordok megtekintése
Áttekintés
Manuális döntések • Konfigurálható: Decision Workflow • Full Audit Trail és megjegyzések • Match / No Match döntésekre emlékezik 32
|
© 2011 Oracle Corporation
Döntés és megjegyzés: történet adatok
Agenda • Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás • Enterprise Data Quality
• Oracle Data Integrator • Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei
33
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Oracle Data Integrator 12c Fastest ETL/E-LT, Simpler Time-to-Value, Lowest TCO Oracle Data Integrator Enterprise Edition Legacy Sources
Application Sources
Best in class performance, scalability Lowered TCO, lightweight deployment Improved usability and manageability Heterogeneous
OLTP DB Sources
34
Copyright © 2011, Oracle and/or its affiliates. All rights reserved.
Any Data Warehouse
Open, standards-based
Any Planning System
Introduction Oracle Data Integrator is the strategic go-forward ETL platform from Oracle Existing OWB customers are NOT being forced to migrate to ODI Oracle offers “Lifetime Support” option for Sustaining Support on all OWB features
Oracle Data Integrator 12c supports a phased migration approach Execute and monitor existing OWB 11gR2 jobs from ODI 12c Use the migration utility to convert existing OWB 11gR2 objects into their ODI equivalents Start new developments using ODI 12c
35
Copyright © 2011, Oracle and/or its affiliates. All rights reserved.
OWB – ODI Migration Utility Overview Versions supported OWB 11.2.0.4 to ODI 12c
Design-time metadata migration only Data Objects Mappings
Separate command line utility uses OWB SDK and ODI SDK 3 different running modes: Run/Dry Run/Fast Check log and report files are available
36
Copyright © 2011, Oracle and/or its affiliates. All rights reserved.
Agenda • Adattisztaság, miért is kellesz ó nagyon?
• „Illik az adat a célhoz?” – DQ mérés és biztosítás • Enterprise Data Quality
• Oracle Data Integrator • Oracle Data Integrator és Oracle Enterprise Data Quality együttes előnyei
37
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
EDQ felhasználás az ODI-val együtt • Csökkenti: ODI bevezetés idejét és kockázatot – 50% DW/BI projektek: rossz elfogadottság, sikertelenség: nem figyeltek az adattisztaságra – ETL mappingek: a specifikáción túl is kell valami – Data Profiling: hibák, minták, formátumok időben felismerése az ETL folyamatban – EDQ Profiling: adatok megismerése, megértése, szükséges mappingek megértése
• Adattárház töltése tiszta adatokkal – – – –
38
Rossz döntések elkerülése: rossz adatok alapján (garbage-in, garbage-out) Folyamatos adatjavítás: Data Governance/Data Stewardship Üzleti felhasználók bevonása az üzleti szabályok létrehozásába EDQ Batch Processing: pontos, konzisztens, teljes adatok
Copyright © 2011, Oracle and/or its affiliates. All rights reserved.
Confidential – Oracle Restricted
EDQ és Oracle Data Integrator: felhasználás Források
Célok
Oracle Data Integrator
Data Profiling
Enterprise Data Quality
Analyze and understand data to build ODI mappings
Automated Processes De-duplication, complex cleansing and parsing invoked in ODI workflow
39
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Pl. adattárház, Exadata
Measure Ongoing Data Quality Assess quality of data in target system. How well is ETL working?
EDQ and ODI: teljes Data Quality folyamat 1 Profile Data
4 - Continuous Quality Monitoring - Quality Alerts
2 Create new Data Quality Rules Oracle Data Integrator E-LT/ETL Process Sources
Targets
3 - Add Data Quality to E-LT/ETL Flow Oracle Enterprise Data Quality
Parsing
40
Copyright © 2011, Oracle and/or its affiliates. All rights reserved.
Confidential – Oracle Restricted
Standardization
Cleansing
Matching
Merging
Information Management infrastruktúra ODI & EDQ megosztott architektúra Desktop
WebLogic 11g / Application Server ODI Studio
FMW Console
JVM
Designer
Topology
Java EE Application
Operator
Security
ODI Plug-in
ODI Server Mgmt
EDQ Server Mgmt
Service Bus Servlet Container
ODI SDK
Match Review
Console
Web Service Container
Runtime WS
EDQ Launchpad Director
ODI Console Java EE Application
Java EE Agent
Case Mgmt
Administration
…
EM Monitoring
ODI Public WS
EDQ Match Review
ODI SDK
Data Services
EDQ WS
EDQ Engine EDQ Case Mgmt
Data Sources Connection Pool
Repositories
ODI Work Repository #1
ODI Master Repository
ODI Work Repository #n
EDQ Repository
EDQ Result Schema
Sources and Targets
JVM Runtime WS Standalone Agent
Legacy
Files / XML
DBMS
Applications
DW / BI / EPM
ERP/CRM/PLM/SCM
41
ODI és EDQ együttműködése Példa: Slowly Changing Dimension betöltése E-LT Sources
Staging
Target ODI
Stg_Valid_Customers
3 loads DIM_Customers
Customers
EDQ 2 Standardize, Parse & Match w reference data
Prospects
ODI
2
Stg_Customers
1 extracts
42
Q&A
43
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
Hasznos linkek Oracle Enterprise Data Quality
• http://www.oracle.com/us/products/middleware/data-integration/enterprisedata-quality/overview/index.html
• http://www.oracle.com/technetwork/middleware/oedq/overview/index.html
44
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.
45
Copyright © 2012, Oracle and/or its affiliates. All rights reserved.