Adattárházak
Fekete Zoltán BI&W termékmenedzser Oracle Hungary
Adattárházak ?Bevezetés ?Oracle infrastruktúra ?A betöltési oldal - ETL ?Jelentések ?OLAP ?Adatbányászat
Üzleti környezet
A kihívások... Dereguláció Technológiai lehetoségek
Globalizáció
Piac ismeret Az üzletmenet megértése Verseny Rövid ideig fennálló versenyelonyök
Ügyfél lojalitás változása
Adattárház ?Az ‘üzlet’ a vállalat versenyképességének növeléséhez kéri az informatika hozzájárulását ?Több információt igényel az ügyfelekrol, piacokról és ugyanakkor a belso muködésrol is ?Integráltságot követel meg, egy alapvetoen funcionalitás és üzletágak szerint széttagolt informatikai környezetben
Rakjuk össze az adatokat Adat és tudás INTEGRÁCIÓ • sok adat • egy forrás mindenkinek • Ido! • Infrastruktúra • BI alap
Adattárház elemzésre optimalizált, nem tranzakciókra ?Terület orientált – témákra koncentrál ?Integrált – sok forrás, konzisztens formátum ?Nem változékony – ami bekerült, nem változik ?Idoben változó – hosszú idon át gyujtött adatok
Adattárház, elemzésre optimalizált OLTP
Adattárház
Komplex adatstr., 3NF
Többdimenziós adatstr.
Kevés
Indexek
Sok
Sok
Join-ok
Néhány
Normalizált
Duplikált adat
Ritka
Származtatott, aggregált adat
Denormalizált Gyakori
OLTP
Adattárház Terhelés
Ad-hoc, rugalmas
Adat módosítás
Betöltés ütem. Felh. nem mód.
Normalizált
Séma
Nem / részben normalizált
Bevitel, kis keresések
Muveletek
Nagy keresések
Hetek, hónapok
Történeti adatok
Jól tervezheto Gyakori módosítás
Idosorok, trendek
Csillag séma
Az Oracle infrastruktúra
Új üzleti intelligencia irányvonal Oracle 9i az E-üzleti intelligencia alapja E-Business Intelligencia csomag Reports Operatív adat
Web adat
Warehouse Builder
Oracle9i ETL Infrastructure and OLAP Services and Data Mining
Discoverer 9i Application Server
BI Beans
Portal
Külso adat
CWM Metadata
Oracle9i az e-üzleti intelligencia platformja
Oracle9i Database egyetlen üzleti intelligencia adatszerver Relációs
ETL
OLAP
Adatbányászat
M e t a d a t a
Oracle9i Alkalmazás szerver Futtatja az összes üzleti intelligencia lakalmazást
Portál
M e t a d a t a
Lekérdezés és Jelentéskészítés
BI komponensek
Webhely elemzés
ETL Extraction, Transformation, Load
Oracle Warehouse Builder 2 Tervezés és alkalmazás automatizálás
A cél DW tervezése
3
Forrás és cél összekapcsolása
4 Kód generálás 1 Forrás def.
• • • •
5 Warehouse létrehozása
Relational Files Legacy Applications
Oracle9i 6
Adatkinyerés Adatkinyerés és és transzformáció transzformáció
Oracle Warehouse Builder 3i Kiterjesztett tervezési környezet ? Fejlesztett mappelés –
Többlépcsos
–
Több cél tábla
? Kifejezés építo (Expression Builder) Transzformációs elemkészlet ? Komplex text források feldolgozása ? PL/SQL visszafejtés
ETL Infrastruktúra 9i egy eroteljes transzformációs motorrá válik
?Adat változás érzékelés ?Külso táblák ?Tábla függvények ?Multi-tábla insert ?Upsert ?Felfüggesztett parancsvégrehajtás ?Párhuzamos adat pipeline
Oracle9i ETL Infrastruktúra
Külso táblák ?Külso adatok mint adatbázis táblák jelennek meg – – – –
metaadat definiálás DDL utasításokkal adatbázisból közvetlenül elérheto SQL, PL/SQL, Java nyelveken nincs szükség ideiglenes tárolásra (staging) állományok párhuzamos feldolgozása szükségtelenné teszi az állományok felszabdalását
?Csak olvasásra alkalmasak, nem indexelhetok
Tábla függvények
stage 1
forrás
T1
stage 2
T2
Transzformáció köztes tárolókkal
cél
… Helyette ...
forrás
T1
T2
T1
T2
T1
T2
cél Adatcsövezett, párhuzamos transzformáció
Lekérdezési teljesítmény • The best approach for every query • •
integrált átfogó
Materialized Views
Parallel Operations
Query Optimizer Partitioning
Index & Join Methods
Application
Mi a Particionálás Tulajdonságok …
SQL Sales
• Táblák és indexek kisebb, jobban
menedzselheto részekre bonthatóak.
Haszon …
Mar
Jan Feb
• Menedzselhetoség oszd meg Menedzselhetoség:: ‘‘oszd és uralkodj ika a nagy uralkodj’’ techn technika objektumok kezeléséhez • Teljesítmény íció Teljesítmény:: part partíció kihagyás
• Elérhetoség íció Elérhetoség:: part partíció függetlenség • Trans zparen s az Transzparens alkalmazásoknak
CREATE TABLE sales (sales sales__id NUMBER, time__id time DATE, customer__id customer NUMBER, product__id product NUMBER, sales__amount sales NUMBER) PARTITION BY RANGE (time ( time__id id)) (PARTITION jan00 VALUES LESS THAN '01'01-FEB FEB--2000', PARTITION feb00 VALUES LESS THAN ‘01 01--MAR MAR--2000', PARTITION mar00 VALUES LESS THAN '01'01-APR APR--2000');
Jelentések, adatelemzés
Az adattárház felhasználása Eltolódás a magasabb hozzáadott érték felé
Stratégiai
Üzleti intelligencia Elemzés
Menedzselt
Ad Hoc lekérdezés Kivételkeresés
Reaktív
Jelentéskészítés
Önkiszolgáló adatpublikálás Lekérdezett adatok átadása az Expressnek Lefúrás a Discovererbe
Discoverer Lekérdezés definiciók átadása a Reportsnak
Express Jelentések Adatb ányászat Adatbányászat készitése az Express adataiból
Reports
Standard és ad-hoc jelentések ?Melyik a 10 legnyereségesebb vásárlónk 2001. szeptemberben? ?Melyek azok a területek, ahol a legmagasabb a terv-tény eltérés? ?Mi volt az értékesítés megoszlása csatornák szerint? ?Kik azok a szállítók, akik idoben szállítottak és nem merült fel minoségi probléma? ?Hogyan alakultak a mérési veszteségek az elmúlt évben és mi volt a megoszlásuk? ?...
Oracle 9i AS Üzleti Intelligencia Lekérdezés és jelentéskészítés Portál
Jelentéskészítés és lekérdezés
BI komponensek
Web Lap elemzés
Oracle9 i AS
Discoverer Egyszeruen használható lekérdezo és elemzo eszköz nagy teljesítmény igényekre
Reports Hatékony vállalati jelentéskészíto megoldás internetes és hagyományos adatpublikálásra
Oracle9iAS Reports Alkalmazás szerver alapú jelentéskészítés ?Kiterjedt információ publikálás – – –
Browser Email Wireless
?A jelentések dinamikusan készülnek a szerveren ?Batch idozítés ?Kimeneti cache ?Futásideju tesreszabás (XML)
Web Listener 9iAS Reports Multi Tiered Server Engine Engine Engine
Engine
Discoverer Ad-hoc lekérdezés és elemzés az IAS-ban ? 9iAS Internetes kliensek: – Discoverer Viewer:
Discoverer Plus
?HTML kliens támogatás ?Szélesköru felhasználásra –
Discoverer Plus: ?Pure Java, Firewall támogatás ?Power User számára
? Admininisztrátor – –
EUL metaadat elokészítés az IDS része
Discoverer Viewer
On-line Analytical Processing OLAP
OLAP követelmények ?Hagyományos elemzo alkalmazások – – –
Komplex analitikus lekérdezések és tervezés „Azonnali válaszok” Nagy számú konkurens felhasználó
?On-line üzleti intelligencia követelmények – – –
Nagymértékben skálázható Nyílt elérés Menedzselhetoség
Többdimenziós adatbázis - Az adatelemzési és tervezési szempontok, azaz dimenziók: projektek,termékek, alapanyagok, szervezeti felépítés, kategória (fokönyvi sorok), ido - A dimenziók elemei hierarchiákba csoportosíthatók (pl. év-negyedév-hónap). - A dimenziókra adatkockák és üzleti modellek épülnek. Szervezet Termék - Származtatott értékek. termelési - Riport, grafikon, munkalap. terv Idoszak
Termék
Multidimenziós tárolás A végfelhasználók saját logikai nézete
Szervezet Telep 3
Termék
Telep 2 Telep 1
Termék1 Termék2
Termék manager nézete
Termék3
Telephely igazgató nézete
Termék4 ...
Q1
Q2
Q3
Q4
Idoszak
ügyintézo nézete
Pénzügyi igazgató nézete
Az adatok egyszeru lépésekkel választhatók ki ?Több hierarchia ?Lefúrási lehetoség ?Kiválasztás szint, tulajdonság, család alapján ?Kivételkeresés ?Legjobb n, legrosszabb n ?Egyezéses kiválasztás
Felhasználói infrastruktúra ?Biztonság ?Elérési jogok ?Adatelosztás ?Elore definiált jelentések ?Ad-hoc elemzések ?Web, adatbevitel is
Oracle Financial Analyzer
Oracle Financial Analyzer: szélesköru kontrolling funkciók • Elemzés – Döntési forgatókönyvek (‘Mi lenne ha elemzés’) – Idosoros elemzés, trend felállítás, mutatók
• Tervezés – – – –
Null és bázis tervezés Fentrol le, lentrol fel tervezés Gördülo tervezés Terv változatok, összehasonlítás
• Ellenorzés – Egyszeru terv-tény-elorejelzés összehasonlítás – Kivétel keresés
• OFA-Fokönyv kapcsolat
Az OLAP alap:
Express Server
Express Server Az Oracle Express a világ legskálázhatóbb és leggyorsabb OLAP szervere. Az Express APB-1 OLAP világcsúcsot meg sem közelítik más szállítók. Lekérdezés, számítás, aggregálás...
OLAP hátrányok ma
Multidimenziós adatbázis
Replikált adat Többlet adminisztráció Elérhetetlen az SQL kliensek számára Korlátozott skálázhatóság
Relációs adatbázis
Részbeni OLAP megoldás
OLAP Services Mi ez, és mit csinál? ? Elemzo függvényeket és kalkulációkat ad az adatbázishoz –
Multimenzionális moldell biztosít
–
Túlmutat az SQL lehetoségein
? Fejlesztési platformot biztosít az elemzo alkalmazások számára –
Adat kezelést, API felületet és fejleszto eszközöket biztosít
–
Nem csak egy back end adatbázis szolgáltatás
Analitikus alkalmazás platform Oracle Business Intelligence Beans
Gyors alkalmazás fejlesztés Elemzésre kész
Oracle9i OLAP Services
Java OLAP API Predictive analysis functions
Oracle9i
Skálázható adattár Integrált meta adatok Summary management SQL elemzo függvények
Oracle9i OLAP Services Business Intelligence Beans OLAP Services Java OLAP API
Metadata Provider
SQL Generator
Metadata
Data
Query Processor
Multidimensional Engine
Metadata Provider
Data
Metadata
Oracle Relational Database
Analytic Workspace
Data Warehouse - Query and Reporting
Forecasts · Models · Allocations Consolidations · Scenarios · Custom Functions
Adatbányászat
Mi az adatbányászat? “Röviden, az adatbányászat rejtett minták és kapcsolatok feltárása az adattömegben, a jobb üzleti döntések elosegítésére” -- Robert Small, Two Crows
Adatbányászati feladatok ?Az ügyfél viselkedés megértése ?Sok adat gyors vizsgálata ?Jobb modellek építése ?BI létrehozás ?CRM adatok elemzése ?Az ügyfél kapcsolatok javítása
Adatbányászattal integrált megoldások ?Az adatokban rejtett információ gyors felszínre hozása ?Az Oracle adatbányászat prediktív és klasztering komponensei a részletes adatokból adnak információt ?Teljessé teszi az adattárház megoldásokat ?Növeli az IT infrastruktúra értékét és csökkenti a megtérülés idejét
Egy példa - tanuljunk a múltból ?Az adattárházból: –
válogassuk le az összes (leíró és viselkedési) részlet adatot az elozo évben elvándorolt ügyfelekrol
?Használjunk adatbányászatot: –
milyen közös jellemzokkel rendelkeznek ezek az (volt) ügyfelek és súlyozzuk az egyes jellemzoket az elvándorlás szempontjából
?Használjunk kampány menedzsment eszközöket: –
válogassuk le jelenlegi ügyfeleink közül azokat, akik megfelelnek a felismert (elvándorló) tulajdonsághalmaznak - hiszen ok esélyesek az elvándorlásra - és indítsunk akciót ezen ügyfelek lojalitásának növelésére
Döntési fák ? Fák (gráf) az adatösszefüggéseket szemléltetik ? Statisztikai módszerek alapján épülnek fel ? Tipikus alkalmazások –
Vásárlók / válaszolók
–
Hibázók / csalók / elvándorlók Jövedelem > 80,000 Ft/h ó Nem
Igen
A k t . munkahely > 5 év Igen
Nem
A l a c s o n y k.
N a g y k.
Magas tartozás Igen
Nem
N a g y k.
A l a c s o n y k.
Hiteligénylési kockázat becslése
Neurális hálózatok ? Az idegrendszer biológiai komplexitását az idegsejtek kapcsolatait hivatott modellezni ? “Fekete doboz”, A modellek nehezen szemléltethetoek ? Lineáris és nem lineáris problémákat is képes modellezni ? Kezelni kell a túltanulást W13 1 W14 W15
3
W36
W23 4
W46
6
W24
2 W25
W56 5
Modell típusok ?Klasszifikációs és regressziós fák (C&RT) – – – – –
Klasszifikáció és predikció bináris, többosztályú és folytonos változókra Csökkenés függvények: gini és entropy Nyeso függvények: cost és gini Maximum csúcs szám és suruség függvények a fa méret szabályozáshoz Eloszlás és költség opciók
?Neurális hálózatok – – – – – –
– –
–
(Memória alapú
Tanítható k-legközelebbi szonszédok Klasszifikáció és predikció bináris, többosztályú és folytonos változókra Szomszédok száma és bias opciók
?Klasztering – – –
Neural Nets Net + - + + + + ? + - + + - -
Egyszeru tanítás, tanítás és tesztelés, kereszt -validálás Tanítás és teszteléshez automatikus megállás Klasszifikáció és predikció bináris, többosztályú és folytonos változókra Aktivációs függvények: sigmoid, hypertangent és linear k-Nearest Neighbors Tanítási algoritmusok: conjugate gradient, modified Newton, steepest Match descent, backpropagation és genetikus algoritmus neurális hálózatok optimizálásához + - + Cost függvények: square, pnorm és information divergence + +
?k-legközelebbi szomszédok –
Induction Tree Tree + - + + + + ? + - + + - -
k-közép módszer, centroidok Input mezokre felhasználó által definiált súlyok Interaktív grafikus elemzés Szabályok
+ ? - - + + - dönt.)+
Clustering Cluster ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
OMO Data Mining eredmények - Lift ábra
LIFT
Data Mining az Oracle9i Database-be ágyazva ?Több algoritmus –
Naïve Bayes (osztályozás) - supervised
–
Association Rules (asszociáció) - unsupervised
–
Fejlodés: C&RT, neurális hálózatok, SOM...
?Alapértelmezett és részletes paraméterezés ?Több féle predikció –
Adott esemény valószínusége
–
A legvalószínubb esemény
Data Mining
Predikció és klasszifikáció Korábban rejtett információk a hívóközpont kezelonek. Predikció és valószínuség.
Oracle9i Perszonalizáció “Valós ideju ajánlási motor” ?Valós ideju ajánlási motor, 1:1 marketing kapcsolatok eléréséhez az Interneten –
Cross-selling és up-selling
–
Web lap tartalom testreszabás, pl. hirdetések
Tradicionális adatbányászat
+
Valós ideju Session környezet
Oracle9i Personalization architektúra Javaslat kérés
Web Web Application Application
Recommendation Engine Farms
Mobile Mobile Application Application Hello! We have Recommendations recommendations for you.
Predictív modellek
Call Call Center Center Application Application
Campaign Campaign Management Management Historikus adatok
Ismét a rejtett összefüggések... ... az elemzok szerepe
Integráció a BI Portál segítségével Vállalati jelentéskészítés
Ad-Hoc Lekérdezés és elemzés
Weblap elemzés
Sokoldalú elemzés