„Data Vault” adatmodellezés
[email protected]
Data Vault „Új” adattárház adatmodellezési módszer Dan Linstedt nevéhez fűződik Ismérvei Részletes, tételes adatok Történetiség kezelése Üzleti területek köré csoportosított táblák kapcsolata 3NF és csillag séma hibrid megközelítése
Bővíthető, skálázható, konzisztens Alternatív név: Common Foundational Integration Modelling Architecture 1990-ben kezdődött, 2000-ben publikálva
Poén gyilkolás Előnyök Optimális helyigény, normalizált, redundancia mentes Egyszerű tölthetőség (realtime töltés !) Elemtípustól függő három lépésű függőség Masszívan párhuzamosítható Minimális migrációval, rugalmasan bővíthető Alapadat betöltésre kiváló!
Hátrányok Legalább kétszer több tábla, sok join. Komplex számításokat, adattisztítást nem támogatja.
Koncepció Hub (csomópont) Üzleti kulcsok + helyettesítő kulcsok
Link (kapcsoló) Több üzleti entitás közötti N:M kapcsolatot megtestesítő összefüggés
Satellite (leíró) A Hub vagy Link leíró attribútumai vagy története HUB_SAT és LINK_SAT
3NF modell Ügyfél Termék Ügyfél történet
Számla Termék történet
Értékesítő
Számla tétel
7 tábla – ebből 2 táblát nem feltétlenül kell fizikailag tárolni
Csillagséma Ügyfél Dimenzió
Dátum dimenzió
Számla Számlatétel
Termék Dimenzió
Értékesítő Dimenzió
5 tábla
Data Vault modell Ügyfél
Számla
Termék
Ügyfél történet
Számla tulajdonságok
Termék történet
10 tábla
Értékesítő
Számla tétel
Értékesítő történet
Számla tétel tulajdonságok
HUB HUB
HUB_SAT
Mezők:
Mezők
Helyettesítő kulcs (RK)
HUB kulcs (RK)
Üzleti kulcsok (ID) – valódi, egyedi, forrásrendszeri kulcs
Érvényesség kezdete-vége
Első töltés időpontja, forrása Egyszer töltjük mikor létrejön Nem időfüggő – „volt, valaha egy üzleti kulcs”
Ügyfél
Attribútumok
Historikusan töltjük (SCD2) Több SAT-ot felvehetünk Eltérő időfüggőség Forrásonkénti attribútumoknak (pl.: eltérő székhelycímek)
Ügyfél történet
LINK LINK_SAT
LINK
Mezők
Mezők: Helyettesítő kulcs (SK)
Link kulcs (SK)
HUB vagy LINK kulcsok
Érvényesség kezdete-vége
Első töltés időpontja, forrása
Attribútumok
Egyszer töltjük mikor létrejön
Historikusan töltjük (SCD2)
Nem időfüggő – „volt, valaha több üzleti kulcs között összefüggés”
LINK időfüggését is megmutatja
Számla tétel
Számla tétel tulajdonságok
Számla
Termék Értékesítő
ETL függőség HUBok töltése
HUB_SAT és LINK töltése
Ügyfél
Ügyfél történet
Termék
Termék történet
Értékesítő
Értékesítő történet
LINK_SAT töltése
Számla
Számla tulajdonságok
Számla tétel
Számla tétel tulajdonságok
Teljes ETL Adatpiac csillagséma Komplex számítások
Adattisztítás
Data Vault betöltés
MAP betöltés Integrációs lépések Stage betöltés
Business Rule, KPI, Aggregation Quality - Cleansing
DW
Integráció
Adattisztítás Ne a DW rétegben végezzük el a tisztítást, ETL betöltés közben ! Tisztitott adatokat külön HUB_SAT-ba tölthetjük Hozzunk létre dimenzió hierarchiát a tisztított adatokra Normalizált cím
Ügyfél Forrás cím1
Forrás cím2
Forrás 1 attribútumok története
Forrás 2 attribútumok története
Tiszta Attribútumok története
„Vadhajtások” Data Vault
3NF Szülő-gyerek kapcsolat (1-N)
Ügyfél
=
Ügyfél kapcs.
Ügyfél
Ügyfél kapcs. történet
Ügyfél történet
Projekt Ügyfél Személy
Projekt
=
Projekt link
Szervezet
Ügyfél Személy Szervezet
Projekt link történet
Összefoglaló Alkalmazás független Részletes, tételes adatok Strukturális változásra és gyors betöltésre optimalizált Nehezen implementálható Alapadat betöltésre kiváló! Komplex számításokat, integrációt, adattisztítást direktben nem támogatja – külön megoldandó feladat További info: http://datavaultacademy.com http://danlinstedt.com/about/data-vault-basics/ http://www.tdan.com http://geneseeacademy.com