Sikerünk kulcsa: az információ – De honnan lesz adatunk? Palaczk Péter
Bevezető az Oracle9i adattárházas újdonságaihoz y Elemzési és vezetői információs igények y 80:20 az adatgyűjtés javára! y Adattárházak kínálta megoldás y Az Oracle válasza a kihívásokra
A vezetők előtt álló feladatok y Elemzések –
Értékesítési csatornák, szolgáltatások
–
Üzletkötői teljesítmények
–
Ügyfél- és partner-jövedelmezőség y Tárgyalási pozíciók alátámasztása y Termék-, szolgáltatás-jövedelmezőség mérése
–
Vállalatirányítás költségei
y Fedezeti elemzés, tervezés y Eredmény-előrejelzés y Tulajdonosi és menedzsment jelentések
A megoldás klasszikus feladatelemei
1. Adatok előállítása 2. Tárolás, 3. Elemzés, lekérdezés, prezentáció
A megoldások evolúciója y Excel: általános eszköz korlátokkal y Elemző eszközök, adatpiacok y További hangsúlyok: –
Nagyobb volumenű adatgyűjtés
–
Több adatforrás integrációja
–
Nagy mennyiségű adat tárolása, elemzése
–
Hatványozódik az adatminőségi probléma
80% - 20% szabály
Az adattárház építésére fordított erőforrások 80%-át az adatok összegyűjtése, konszolidációja és az adatminőség biztosítása emészti fel.
A forrásadatok mindig összetettek!
y Számos adatforrást integrálunk y Ismétlődő nyilvántartások y Kódegyeztetések, kódkonszolidáció y Párhuzamos rendszerek
Az adatok minősége: a forrás adatok hibái
Metaadatok
Alkalmazások Adat beviteli hibák
Anomáliák
Többszörösen kiosztott kulcsok Hiányos adatok Kitöltetlen mezők
Szabad formátumú mezők
Az adatminőség ellenőrzéséhez nem csak az adat definíciókat kell vizsgálni, hanem magukat az adatokat is.
Adatminőség: meglepetések CUSNUM NAME
ADDRESS
90328574
Digital Equipment
187 N. PARK St. Salem NH 01458
OEM
90328575
DEC
187 N. Pk. St. Sarem NH 01458
OEM
90238475
Digital
187 N. Park StSalem NH 01458
$#%
90233479
Digital Corp
187 N. Park Ave. Salem NH 01458
Comp
90233489
Digital Consulting
15 Main Street Andover MA 02341
Consult
90234889
Digital Info Services
PO Box 9 Boston MA 02210
Mail List
90345672
Digital Integration
Park Blvd. Boston MA 04106
SYS INT
Nem egyedi kulcs
TYPE
Szabványok hiánya Anomáliák Melléütés
Szemét az üres mezõkben
Hogyan lehet észrevenni és kijavítani a hibákat több millió rekordban?
Példák az ETL komplexitására
y Adatellenőrzés számtalan szabálya y Rengeteg betöltő program y Soklépcsős adatátalakítás y Komplex konzisztencia-ellenőrzések
Tradícionális ETL megoldások (Extract Æ Transform Æ Load) y
y
Jellemzők –
Batch orientált
–
Szekvenciális
–
Komplex transzformációk - gyakorta láncolva
Technológia –
Speciális szerverek: transzformáció majd betöltés
–
DWn belül: betöltés majd transzformáció
–
Párhuzamos betöltést bonyolult megvalósítani
–
Skálázási problémák a nagy adatmennyiségre
–
Gyakorta 3. Generációs nyelveket használ
Az Oracle válasza az adattárházak adta kihívásokra y 9i-ben alkalmazott robosztus ETL motor: – – – –
Speciális adatfeltöltési, tárolási, indexelési, menedzselési technikák
y Komfortos, gyors, átlátható ETL munka –
OWB 3i: ETL front-end eszköz
y Server konszolidáció: – – –
ETL OLAP Adatbányász motor
Adatgyűjtési architektúra az Oracle Serverben Target
Források Adat Adat kivonatolás kivonatolás
Transzport mechanizmus
Transzformációs Transzformációs motor motor
Cél Cél Táblák Táblák
Oracle Oracle Server Server
•Skálázható adatbetöltés •Nagy teljesítményű transzformációs motor
Klasszikus ETL folyamat Szöveg file-ok Betöltés köztes táblákba
Adatellenőrzés
Köztes tábla 3
Köztes tábla 1
Köztes tábla 2
Adatátalakítás
Beemelés az adattárház táblákba
Adattárház táblák
INSERT and UPDATE
Pipeline típusú adatbetöltés az Oracle9iben Külső táblák Külső tábla
Szöveg file-ok
Táblafüggvények Adatellenőrzés
Adatátalakítás
Adattárház táblák
Beemelés az adattárház táblákba MERGE
Rövid fejlesztési idő y Grafikus tervezés – – –
Grafikus felület ( GUI ) Varázslók Metaadat alapú tervezési folyamat
y Kód generálás – –
Érvényesség ellenőrzés Hibamentes kód
2001.: Szerver konszolidáció az adattárház piacon Elemző szerver
ETL Szerver motor
Relációs adattárolás Adatbányászati szerver
Forrásrendszerek
• Specializált többszerveres környezet • Többféle tudást igényel • Adat duplikálás, interfacek • Integrációs szabványok hiánya
Üzleti elemző és jelentéskészítő alkalmazások
Új üzleti intelligencia alapvetés Oracle 9i az E-üzleti intelligencia alapja
E-Business Intelligencia csomag Reports Operatív adat
Web adat
Warehouse Builder
Oracle9i ETL Infrastructure and OLAP Services and Data Mining
Discoverer 9i Application Server
BI Beans
Portal
Külső adat
CWM Metadata
A megoldandó feladatok tehát változatlanok: 1. Adatok előállítása 2. Tárolás, 3. Elemzés, lekérdezés, prezentáció