Thema Business Intelligence Centennium ontwikkelt methodiek voor generatie van DWH
Toekomstvast datawarehouse Erik Fransen en Antoine Stelma
Sinds de jaren negentig van de vorige eeuw is het datawarehouse niet meer weg te denken uit de dagelijkse praktijk van managementinformatievoorziening. Het boek ‘Building the Datawarehouse’ van Bill Inmon uit 1991 gaf het startschot voor de wereldwijde adaptatie van datawarehousing, gevolgd door Ralph Kimball met de klassieker ‘The Datawarehouse Toolkit’ uit 1996. Rapportages en analyses worden vanaf dat moment steeds vaker ontwikkeld op basis van een datawarehouse.
Het datawarehouse moest daarbij zorgen voor centrale histori-
beide cruciaal voor het succes van BI. Anno 2010 spreken we
sche opslag en, waar nodig, integratie van bedrijfsgegevens. De
over DW 2.0, onder aanvoering van wederom Bill Inmon. Hierin
argumenten voor inzet van een datawarehouse waren destijds
hebben de genoemde kenmerken van het Inmon datawarehouse,
sterk technisch gedreven: ‘the query that dims the light’ moest
maar ook de kenmerken van het Kimball datawarehouse een
hoe dan ook voorkomen worden, vandaar een strikte technische
plek gekregen. DW 2.0 wordt derhalve ook wel een hybride
scheiding tussen brondata enerzijds en data in het dataware-
datawarehouse-architectuur genoemd.
house anderzijds. Inmon richtte zich met zijn visie sterk op de ‘achterkant’ van het datawarehouse: een centraal genormaliseerd
Lessons learned
datamodel voor historische opslag van data en bijbehorende
Centennium heeft zich door de oorspronkelijke concepten van
ETL-processen om brondata te ontsluiten en integreren. Kimball
Inmon, Kimball en DW 2.0 laten inspireren. Deze inspiratie is
verlegde de aandacht echter naar de ‘voorkant’, voor velen een
gecombineerd met de eigen ervaringen die zijn opgedaan in het
zwak punt van het Inmon gedachtegoed: via dimensionele
verleden met implementaties van datawarehouses. Uiteindelijk is
modellen, opgebouwd uit feiten en dimensies, werden de bron-
dit vertaald naar vijf ‘lessons learned’ die de basis vormen voor
data omgevormd naar een structuur waar de eindgebruiker zich
het toekomstvaste datawarehouse anno 2010:
direct in herkende. Kimball’s aanpak, ook wel bottom-up data-
1. De datawarehouse-architectuur faciliteert de integratie en
warehousing genoemd, had echter als nadeel dat data-integratie
opslag van (historische) brondata en geeft de BI-gebruiker
en data-opslagvraagstukken pas laat in het ontwikkeltraject
zonder drempels toegang tot deze data. Een hybride architec-
zichtbaar werden. Inmon’s aanpak, ook wel top-down datawarehousing genoemd, kenmerkte zich door de grote aandacht voor
tuur sluit hierbij aan; 2. Data worden volledig, correct en waar nodig geïntegreerd
het ontsluiten van brongegevens en het gebrek aan aandacht
opgeslagen en zijn langdurig toegankelijk voor wetgever en
voor de informatiebehoefte van de eindgebruikers.
eindgebruikers. Het datawarehouse waarborgt dat aan deze eisen wordt voldaan;
In het nieuwe millennium werd de noodzaak voor een gebruikersorganisatie om snel en eenvoudig brongegevens samen te voegen en te aggregeren steeds groter, bijvoorbeeld omdat een
3. Data zijn traceerbaar naar de originele databron voor controle. Het datawarehouse waarborgt dat aan deze eis wordt voldaan; 4. Het datawarehouse is adaptief: zowel aan de achterkant (aan-
integraal klantbeeld noodzakelijk werd geacht. Daarnaast werd
sluiting van nieuwe bronnen) en voorkant (nieuwe dimensio-
eenvoudige en eenduidige toegankelijkheid van historische
nele modellen) kan snel en eenvoudig gereageerd worden op
gegevens omwille van wetgeving en data-analyse belangrijker. Als gevolg groeide het datawarehouse steeds harder qua
veranderingen; 5. De eindgebruikerorganisatie ontwikkelt, indien gewenst, gro-
omvang. Niet alleen in de diepte door behoefte aan detaildata,
tendeels zelfstandig het datawarehouse. Dit is mogelijk omdat
maar vooral in de breedte; nieuwe databronnen gekoppeld aan
de hedendaagse structuur van datawarehouses een aantal
en geïntegreerd met het datawarehouse. Met andere woorden:
standaardpatronen kent, waardoor datawarehouses groten-
de ‘achterkant’ en de ‘voorkant’ van het datawarehouse werden
deels geautomatiseerd worden gegenereerd.
20
Database Magazine – Nummer 5 – september 2010
CDM
voor moderne datawarehouses combineert praktijkervaring met
Deze vijf ‘lessons learned’ zijn aanleiding geweest om een
bewezen methoden uit het vakgebied. De BI-referentie-
methodiek te ontwikkelen, waarmee organisaties in staat zijn om
architectuur kenmerkt zich door gelaagdheid, waarbij elke indi-
in korte tijd een bedrijfsbreed datawarehouse te realiseren en
viduele laag een duidelijk afgebakende toegevoegde waarde
vervolgens te onderhouden. Met de komst van Data Vault, als de
biedt. Deze gelaagdheid draagt tevens zorg voor ontkoppeling
facto standaard voor het intelligent en eenduidig opslaan van
van het registreren van gegevens en het gebruik ervan. Hiermee
data, heeft Centennium het missende stukje van de puzzel kun-
voldoet de BI-referentiearchitectuur aan het paradigma ‘loosely
nen invullen. De Centennium Datawarehouse Methodiek richt
coupling & high coherence’ en past daarmee naadloos in alle
zich niet op het uiteindelijk gebruik van informatie uit het data-
moderne IT-architecturen;
warehouse, maar is daarentegen wel onderdeel van het overkoe-
Modelleren met Data Vault. De datamodelleringstechniek Data
pelend proces van het organiseren van Business Intelligence.
Vault, bedacht en ontwikkeld door Dan Linstedt, is ontworpen
Organiseren van BI valt buiten de scope van dit artikel.
vanuit de gedachte dat het moderne datawarehouse flexibel, eenvoudig uitbreidbaar, volledig traceerbaar en auditeerbaar
De vijf ‘lessen’ hebben geleid tot de Centennium Datawarehouse
moet zijn. Data Vault wordt reeds jaren met veel succes toege-
Methodiek (CDM), met de volgende kenmerken:
past en ontwikkelt zich langzaam maar zeker tot wereldwijde
– Volledig automatische generatie van het datawarehouse en
industriestandaard; Genereren via Template Based Development. Door slim gebruik te
dimensionele datamarts op basis van beschrijvende metadata; – Volledig modulaire opzet waardoor aanpassingen en uitbrei-
maken van de onderliggende database worden, met Template
dingen snel en eenvoudig realiseerbaar zijn, zonder gebruik te
Based Development (TBD), het datawarehouse en de datamarts
maken van complexe datawarehouse- en BI-tools;
volledig transparant gegenereerd. Hierdoor wordt het ontwikkel-
– Eenduidige registratie van alle bedrijfsgegevens in het data-
traject drastisch verkort, dalen ontwikkel- en beheerkosten en is
warehouse, waardoor volledige transparantie en herleidbaar-
de foutgevoeligheid klein. TBD kenmerkt zich door een incre-
heid van gegevens is gewaarborgd;
mentele ontwerp- en ontwikkelaanpak en maakt technische rea-
– CDM is geen tool, maar een methodiek en dus toolonafhanke-
lisatie en beheer mogelijk in hoog tempo, foutloos en in korte,
lijk;
snel opeenvolgende cycli.
– De eindgebruikerorganisatie is in staat snel en zelfstandig het
Structureren
datawarehouse te ontwikkelen en beheren.
Een flexibele en schaalbare datawarehouse-architectuur (binnen CDM is opgebouwd uit drie pijlers die tezamen het fundament
CDM noemen we dit de BI-referentiearchitectuur) maakt bij
van de methodiek vormen. De drie pijlers kennen ieder hun
voorkeur onderdeel uit van de bedrijfsarchitectuur. Een datawa-
eigen voordelen, maar juist de combinatie maakt de methodiek
rehouse wordt daarbij vaak gepositioneerd aan het einde van de
uniek en van grote toegevoegde waarde:
keten, maar dient op haar beurt steeds vaker ook als gegevens-
Structureren met BI-referentiearchitectuur. Deze gedegen basis
leverancier. Hierdoor ontstaat een zogenaamd dataverkeersplein:
CDM
Klant
Artikel
Process Management Laag Beheer Datakwaliteit
hub
hub
link
Order
BI producten
Beheer Business Rules
Voorportaal
Registratielaag
Publicatielaag
Semantische laag
Distrtibutielaag
Staging Area Ontkoppelvlak
Data Vault ODS CDW EDW
Datamart Informatielaag Sterschema’s Snowflakes Kubus
Business layer Catalog Universe Framework Information Map UDM
Functionele laag Rapportages en analyses Content en collaboration tools
(Master) Data Laag Metadata Laag
hub
Data Vault
BI Referentie Architectuur
Template Based Development
Afbeelding 1: Drie pijlers van CDM.
Database Magazine – Nummer 5 – september 2010
21
Thema Business Intelligence het datawarehouse verwerkt op een consistente en eenduidige
Registratielaag. De data worden opgeslagen voor historisch en
wijze grote hoeveelheden data. Het is dus van absoluut belang
actueel gebruik. De de facto standaard is Data Vault, maar alter-
dat er goed wordt nagedacht over de gewenste architectuur die
natieven zijn mogelijk. Bij gebruik van Data Vault worden slechts
moet worden ingezet. De architectuur bepaalt voor een groot
de feiten uit de bronnen geregistreerd. De data worden dus nog
deel de structuur waarin de gegevens worden opgevangen, ver-
niet verrijkt met business rules. Alle data worden inclusief historie
werkt en gepresenteerd.
100 procent auditeerbaar naar de bron toe opgeslagen;
Uiteraard is een parallel te trekken met de toekomstige onder-
Publicatielaag. De data uit de registratielaag worden verrijkt met
houdskosten van het systeem. Hoe eenduidiger de verwerking
business rules en opgeslagen voor raadpleging door eindgebrui-
wordt opgezet hoe minder kosten er worden gemaakt bij de
kers. Deze laag is geoptimaliseerd voor het snel bevragen van
exploitatie van het systeem. Er dient uiteraard wel een balans te
data in een structuur die eenvoudig is te begrijpen. Voorbeelden
worden gevonden tussen eenduidigheid, uitbreidbaarheid en
hiervan zijn sterschema’s.
flexibiliteit. Nadat de in- en uitgangspunten van een architectuur
Semantische en distributielaag. Deze maakt deel uit van de
zijn bepaald, worden de koppelvlakken gedefinieerd. De koppel-
BI-functie en valt derhalve buiten de scope van dit artikel;
vlakken beschrijven de interactie van het datawarehouse met de
Metadata management. Dit draagt zorg voor de beschrijving van
‘buitenwereld’. Wij onderscheiden hierbij drie soorten koppel-
alle metadata in het datawarehouse. Het geeft context aan de
vlakken:
data die aan de gebruikers worden gepresenteerd. De metadata
Functioneel: de BI-omgeving houdt zich aan afspraken met IT,
worden bijvoorbeeld gebruikt om de Data Vault en data marts
gebruikers en aan SLA’s;
(opnieuw) te genereren, maar bieden ook de mogelijkheid om
Applicatief: de interactie tussen de bronapplicaties en het data-
audit-trails uit te voeren (van rapport tot bron);
warehouse en de interactie tussen datawarehouse en de BI-tools;
Masterdata management. Integratie van brondata vindt plaats via
Infrastructureel: de interactie met het besturingssysteem, services,
masterdata management: in deze laag wordt gedefinieerd hoe
connectivity, interoperabiliteit, standaarden (XML, SOAP enzo-
integratie van data uit verschillende bronnen moet plaatsvinden:
voort).
op basis van deze regels wordt het datawarehouse automatisch
Daarnaast dienen ook de ontkoppelvlakken benoemd te worden.
Process management. De process managementlaag draagt zorg
Een BI-architectuur bestaat uit een aantal lagen. Elke laag heeft
voor een ongestoorde afhandeling van de processtappen bij het
een eigen functie en dient derhalve bij voorkeur ontkoppeld te
genereren van het datawarehouse. Indien een stap eventueel
zijn van de vorige en/of de volgende laag. Hoewel het aantal
niet doorlopen dan wel afgerond kan worden, wordt dit automa-
lagen in principe eindeloos kan en mag zijn, is er een aantal
tisch gemeld aan de procesverantwoordelijke via uitgebreide en
lagen te onderkennen die als uitgangspunt dienen binnen CDM,
gebruikersvriendelijke logging;
gevuld met geïntegreerde brondata;
zie afbeelding 2:
Datakwaliteit. Het succes van het datawarehouse staat of valt met
Staginglaag. De data worden ontkoppeld van de bronsystemen,
de kwaliteit van de gebruikte data. Door de vergaande integratie
verzameld en eventueel gecontroleerd op vooraf gestelde ken-
en samenkomst van data op een centraal punt worden proble-
merken;
men, zowel de bekende en vooruitgeschoven als de voorheen
Process Management Laag Beheer Datakwaliteit
Beheer Business Rules
BI producten
Voorportaal
Registratielaag
Publicatielaag
Semantische laag
Distrtibutielaag
Staging Area Ontkoppelvlak
Data Vault ODS CDW EDW
Datamart Informatielaag Sterschema’s Snowflakes Kubus
Business layer Catalog Universe Framework Information Map UDM
Functionele laag Rapportages en analyses Content en collaboration tools
(Master) Data Laag Metadata Laag Afbeelding 2: BI-referentiearchitectuur.
22
Database Magazine – Nummer 5 – september 2010
onbekende problemen zichtbaar. In de analyse van de data moet
basis. Met de komst van modelleringtechnieken als Data Vault
rekening worden gehouden met de bruikbaarheid en waarde van
en al eerder Kimball’s sterschema zijn er eigenlijk enkele vaste
data op korte en lange termijn;
patronen te herkennen in het ETL-proces. In Data Vault zijn de
Business rules. Om de feiten uit het datawarehouse in context te
regels voor het vullen van de tabellen (hubs, satellieten en links)
plaatsen dienen de data te worden verrijkt met aanvullende
eenduidig. Doordat Data Vault zich richt op het registreren van
berekeningen, filteringen, cumulaties enzovoort. Een business
feiten kan men de regels strak hanteren. In de wereld van
rule kan een beperkte levensduur hebben. Om een consistent
Kimball, die zich richt op presenteren ligt dit iets complexer.
beeld te houden met de data is het van belang dat business rules
Maar het vullen van dimensies, feiten en aggregaten gebeurt
historisch worden opgeslagen. Business rules dienen separaat te
weer op een eenduidige manier. Maar hoe lossen we dit op in de
worden beheerd.
ETL? We zouden een aantal voorbeelden kunnen maken en deze telkens kopiëren en aanpassen. Als we teruggaan naar de code
Modelleren
op database niveau kunnen we vrij eenvoudig een aantal tem-
Data Vault is in 2002 geïntroduceerd door Dan Linstedt. De kern
plates definiëren. Deze templates zijn eerst geoptimaliseerd voor
van Data Vault is eigenlijk niet het model zelf maar de manier
de taak die ze uitvoeren. Daarna kunnen we ze eindeloos aan-
hoe het met data omgaat. Gedreven door de Amerikaanse wet-
roepen op basis van metadata. Immers, als we de patronen her-
geving heeft Linstedt een model ontwikkeld waarbij data op een
kennen is dit repeteerbaar.
vaststaande manier worden geregistreerd in een kluis. De kluis is niet toegankelijk voor eindgebruikers, maar alleen voor Data
Als voorbeeld noemen we hier het laden van een hub-tabel in
Vault ontwikkelaars. De primaire taak is om de brondata feitelijk
Data Vault:
te registreren.
Eis: laad alleen niet bestaande aangeleverde business keys;
De Data Vault wordt gepositioneerd in de registratielaag.
Voorwaarde: controleer of business key bestaat;
Rapportages, kubussen enzovoort worden gegenereerd vanuit de
Actie: voldoet aan voorwaarde: doe niets;
Data Vault. Alle eindgebruikers hebben dus initieel dezelfde
Actie: voldoet niet aan voorwaarde: voeg business key toe, geef
data als vertrekpunt. Interpretaties van de data vinden pas plaats
een uniek id af als primaire sleutel, voeg gegevens over de bron
na de registratielaag.
en de laaddatum toe.
De belangrijkste kenmerken van Data Vault zijn:
Om de templates aan te roepen wordt gebruik gemaakt van
– een Data Vault bevat data op het laagst mogelijke detail-
metadata. Deze metadata beschrijven eenvoudig de route tussen
niveau;
een aanleverbestand en de hub. De code die vervolgens gegene-
– een Data Vault bevat historische data;
reerd wordt op basis van de metadata is 100 procent in de pro-
– een Data Vault is een uniek gelinkte verzameling van genor-
grammeertaal van de database, eenvoudig en doordacht gericht
maliseerde tabellen;
op de taak en transparant in de opbouw. Immers, zonder kans
– een Data Vault is eenvoudig uitbreidbaar.
op verschillen wordt de code nu eenduidig gegenereerd. CDM is geheel template-gebaseerd, wat inhoudt dat het gehele data-
Een Data Vault is dus eigenlijk een soort bibliotheek voor data.
warehouse te genereren is.
Alle binnenkomende data worden geregistreerd en kenmerken worden toegekend. De regel is dat niets mag worden verwijderd
Conclusie
en hooguit door middel van een start- en einddatum door de tijd
Duidelijk is dat de Centennium Datawarehouse Methodiek een
heen aangepast. Er wordt geregistreerd door wie en wanneer de
weldoordachte methodiek is die voor een toekomstvast data-
data zijn aangeleverd. Hierdoor is het te allen tijde mogelijk om
warehouse het fundament legt. Optimaal gebruik makend van
in de tijd terug te herleiden naar een bepaalde status van de
bestaande methoden uit de markt in combinatie met onze eigen
data.
ervaring leidt dit tot een pragmatische aanpak voor het realiseren van een datawarehouse. Nu het technische pijnpunt uit een
Genereren
gemiddeld datawarehouse-project kan worden gehaald, is er
In de wereld van datawarehouses speelt ETL een grote rol, ooit
meer ruimte om na te denken over de succesroute voor de toe-
bedoeld om grafisch de ETL-stromen te modelleren. Door alge-
komst. Een datawarehouse is vaak verre van statisch en levert
mene generieke code te generen zijn plotseling veel mensen in
optimale toegevoegde waarde als het gecontroleerd kan
staat om ETL toe te passen. De tools hebben hun kracht bewezen
meegroeien met de eindgebruikersorganisatie. Een belangrijk
maar tegelijkertijd leverde dit een scala aan extra problemen op.
aspect is dat een organisatie zelfstandig het datawarehouse
De ETL-tool werd een wereld op zich en menige organisatie ver-
kan aanpassen, beheren en verder uitbreiden. Samen met een
slikte zich in de overgang naar andere tools. Ook het ‘patchen &
BI-kennispartner kan dan optimaal rendement worden behaald.
upgraden’ levert de nodige hoofdbrekens op. Niet zelden raakt goed werkende code beschadigd of werkt het anders na een der-
Erik Fransen is senior business consultant en Antoine Stelma is
gelijke actie. Eigenlijk is het weer tijd om terug te keren naar de
Lead BI Architect bij Centennium BI Expertisehuis.
Database Magazine – Nummer 5 – september 2010
23
SAS® Business Analytics Software Data Management | Analytics | Reporting | Bedrijfs- en branchespecifieke oplossingen
Wat als u uw omzet fors kunt verhogen door met relevante informatie de juiste beslissingen te nemen?
Dat kan. SAS levert u The Power to Know.® SAS Business Analytics software helpt organisaties in elke branche op een innovatieve manier de winst te vergroten, risico’s te reduceren, trends te voorspellen en de beschikbare informatie om te zetten in concurrentievoordeel.
www.sas.com/nl/ba
SAS en alle andere SAS Institute Inc. producten- of dienstennamen zijn geregistreerde handelsmerken of handelsmerken van SAS Institute Inc in de Verenigde Staten van Amerika en andere landen. ® geeft een registratie in de Verenigde Staten van Amerika aan. Andere merken en productnamen zijn handelsmerken van de respectievelijke bedrijven. Auteursrecht © SAS Institute Inc Alle rechten voorbehouden. SAS Institute B.V., Postbus 3053, 1270 EB Huizen