Versnelling in BI-ambitie
58
|
KEYNOTES – 01
VERSNELLING IN BI -AMBITIE
Veel organisaties hebben problemen met het op orde krijgen en houden van hun Business Intelligence (BI)-organisatie en -architectuur. De vraag vanuit de business is vaak zo groot dat er weinig gelegenheid is oplossingen conform de gewenste architectuur aan te dragen. Als gevolg hiervan is ict vaak onevenredig druk met het in de lucht houden van bestaande rapportagemiddelen. Daardoor ontstaat de neiging om per project haar eigen gang te gaan en wordt een bronsysteem voor de zoveelste keer leeg getrokken. Gevolg: een onoverzichtelijke wirwar van Extractie, Transformatie een Laad code (ETL). Voor elk individueel businessproject loont het vaak niet om naar een nette en onder architectuur gebouwde situatie te gaan. BI is en blijft zo een individuele aangelegenheid. DOOR: MARTIJN IMRICH EN JOS KUIPER
Lang is gezocht naar datamodellen die één versie van ‘de waarheid’ konden beschrijven. De heersende gedachte was dat deze waarheid gespecificeerd en gerealiseerd kon worden en men zich hier bedrijfsbreed aan zou houden. In de praktijk is deze gedachte echter onhoudbaar gebleken. Vele mislukte datawarehouseprojecten getuigen daarvan. Deze waren in de ogen van de business al snel verouderd, foutief of onbruikbaar. Vaak wordt vergeten dat datamodellen slechts vereenvoudigde weergaven van de werkelijkheid zijn. Hoe kan van de BI-omgeving één versie van de waarheid verwacht worden als de voedende bronsystemen ook maar vereenvoudigde en vaak al weer achterhaalde versies van de lokale businesswaarheid bevatten? De verwachting dat de BI-omgeving dit wel even zal rechtzetten richting het eerder genoemde bedrijfsbrede model is een illusie gebleken. Maar hoe dan wel een duurzame datawarehouse op te zetten? Dan Linstedt heeft een oplossing aangereikt middels de door hem bedachte datamodelleringtechniek: Data Vault. Deze datamodellering richt zich op het registreren van de feiten zoals die zich voordoen in de bronsystemen. Deze feiten kunnen vervolgens door elke businessfunctie worden geïnterpreteerd in de voor haar geldende wereld en waarheden.
VERSNELLING IN BI -AMBITIE
Door het scheiden van registratie en interpretatie ontstaat een historisch feitelijk correcte en tevens flexibel toepasbare gegevensverzameling. Deze ontkoppeling maakt datavoorraadvorming mogelijk: gegevens kunnen alvast worden opgeslagen, nog voordat het toekomstige gebruik bekend is. Dit stelt ict in staat om, net als in een logistiek proces, alvast een gegevensvoorraad aan te leggen anticiperend op de toekomstige vraag. Laten we Data Vault eens positioneren in een BI-gegevensarchitectuur. Een raamwerk als in figuur 1 helpt om keuzes te maken en te onderbouwen. Staginglaag. Allereerst wordt de data van de bronsystemen overgedragen aan de BI-omgeving. De staging laag fungeert als ontvangsthal of voorportaal. Hier vinden logistieke procescontroles plaats als: zijn de verwachte data binnengekomen en bevatten deze data de verwachte volumes, velden en formaten? Registratielaag. Vervolgens worden alle aangeboden gegevens geregistreerd in de Data Vault , zonder deze te interpreteren. Hierdoor biedt de oplossing zoals Dan Linstedt het noemt: One Version of the Facts. Publicatielaag. Vanaf de Data Vault worden business rules toegepast op de feiten en worden deze geïnterpreteerd en gepubliceerd voor de verschil-
KEYNOTES – 01
|
59
Figuur 1: Een raamwerk om Data Vault te kunnen positioneren in een BI-gegevensarchitectuur.
lende doelgroepen. Deze interpretatie bestaat uit het toepassen van zogeheten business rules in het transformatieproces van feiten naar interpretatie. Deze feiten worden geïntegreerd (koppelen op basis van de primaire sleutels uit de bronsystemen) dan wel geassocieerd (we nemen aan dat J. Jansen = Jansen J.). Bij het interpreteren is het dimensioneel modelleren al vele jaren gangbaar, zoals vormgegeven door Kimball (Kimball, 2002 Second Edition). Dimensionele modellen bevatten voor de business herkenbare dimensies als klant, product, regio, tijdvak, etc. Deze dimensies worden voor BI Tooling ter beschikking gesteld in de presentatielaag in de vorm van een ster of kubus. Het dimensioneel model volgt kortom de vraagstelling van de business (wat gebeurde wanneer, waar, hoeveel, etc). Belangrijk hier is dat de modellen van Linstedt en Kimball complementair zijn. Het op deze wijze positioneren en toepassen van deze twee modellen in een BI-gegevensarchitectuur lijkt het beste van beide werelden te bieden. Voor de (historische) vastlegging wordt Data Vault gebruikt, voor het interpreteren wordt een dimensioneel model gecreëerd uitgaande van de in Data Vault opgeslagen gegevens.
60
|
KEYNOTES – 01
Een datawarehouse dat via deze architectuur is opgezet, is in de praktijk goed onderhoudbaar en zelfs deels te genereren. Een en ander is nader uitgewerkt in het artikel Toekomstvast Datawarehouse (Fransen & Stelma, september 2010). Daar waar de registratie niet aansluit bij de gevraagde interpretatie, is waarschijnlijk sprake van incomplete data of vervuiling. Deze valt goed zichtbaar te maken met het model. Immers, als vervuiling te definiëren is als data die niet voldoen aan business rules, kan hierover gerapporteerd worden. Doordat in het datawarehouse tevens de bron vermeldt wordt van de opgeslagen data, kunnen trends in vervuiling per bron worden weergegeven. Daarmee wordt een goed handvat geboden voor de verbetering van datakwaliteit. De duidelijke scheiding tussen registreren en interpreteren biedt veel voordelen. In business termen uitgedrukt zijn dat met name voorraadvorming, duurzaamheid en verduidelijking van organisatorische verantwoordelijkheden. Voorraadkluis De datamodelleringmethode biedt de mogelijkheid om de kostbare bedrijfsdata alvast in een kluis klaar te leggen. Door de unieke eigenschappen van het model is het mogelijk een voorraadpunt in het proces van vraag en aanbod aan te brengen.
VERSNELLING IN BI -AMBITIE
Registreren versus interpreteren Een moderne BI-architectuur maakt onderscheid tussen het registreren en interpreteren van gegevens. Registreren is gericht op het vastleggen van gegevens op een eenduidige, geïntegreerde wijze waardoor de complexiteit van de gegevens wordt gereduceerd. Reductie van complexiteit kenmerkt zich door eenduidig en eenmalig vastlegging van (historische) gegevens, eenduidige beschrijving van betekenis en samenhang van (historische) gegevens en snel kunnen inspelen op veranderingen in de bronsystemen.
Hierdoor levert Data Vault zoals Dan Linstedt het noemt ‘One Version of the Facts’. Het gegevensmodel van Data Vault kent drie elementen of soorten tabellen: t Hub: Bevat een Entiteiten van een organisatie als ‘Klant’ of ‘Artikel’. t Satelliet: Bevat de attributen van deze Entiteit. t Link: Beschrijft de relatie tussen Hubs zoals deze ontstaan door bedrijfsactiviteiten, bijvoorbeeld een ‘Verkoop’ of ‘Klantcontact’.
Interpreteren richt zich op het ontsluiten van de geregistreerde gegevens naar de diverse eindgebruikers. Interpreteren kenmerkt zich, in tegenstelling tot registreren, juist wel tot diversiteit. Diversiteit in aandachtsgebieden (inkoop, verkoop, HRM), diversiteit in eindgebruikers (strategisch, tactisch, operationeel) en diversiteit in BI-toepassingen (van eenvoudige rapportage tot complexe statistische analyse). Diversiteit uit zich in het toepassen van specifieke bedrijfsregels in de aandachtsgebieden: een klant voor de verkoopafdeling is wellicht een andere dan voor de financiële administratie.
De Links vormen de enige koppeling tussen Hubs. Ze worden als laatste toegevoegd en voorzien in flexibiliteit van het model. Bijkomend voordeel is dat de Hubs los van elkaar kunnen worden gevuld, hierdoor worden de laadprocessen minder complex. Data Vault is tevens een uitbreidbaar model waar telkens nieuwe bronnen aan kunnen worden toegevoegd, zonder de bestaande structuur te veranderen. Dimensioneel modelleren is een modelleringmethode die de vraagstelling van de business volgt, bedacht door Ralph Kimball. Dimensies zijn daarbij de invalshoeken waarmee naar business gebeurtenissen gekeken wordt. De vraag: geef mij de omzet over 2010 per productgroep en per regio, bevat de dimensies productgroep en regio, maar ook tijd. Omzet kan beschouwd worden als de som van een aantal business gebeurtenissen (verkopen) met een hoeveelheid en prijs. Daarbij is er een diversiteit van definities van omzet mogelijk (geprognotiseerd, geoffreerd, gefactureerd, geïncasseerd), met of zonder verleende kortingen. Dit naar gelang de informatiebehoefte van de doelgroep. De dimensies tijd en productgroep bevatten weer hiërarchieën die gedefinieerd kunnen worden conform de wijze waarop de doelgroep naar de business feiten wil kijken. Zo kan de verkoopafdeling de geoffreerde omzet willen zien van zijn regio over de afgelopen vier kwartalen, terwijl de boekhouding naar de geïncasseerde omzet wil kijken, verdeeld over de dertien vierwekelijkse perioden waarin het boekingsjaar ingedeeld is. Het dimensioneel model geeft invulling aan de diversiteit waarmee naar de businessfeiten gekeken kan worden.
Eenmalig registreren, meermalig interpreteren lijkt dus een ideaal uitgangspunt voor een BI-architectuur. De de facto standaarden daarvoor zijn respectievelijk de modellen van Linstedt en Kimball. Voor de (historische) vastlegging is Data Vault (Linstedt) te gebruiken, voor het interpreteren is er het dimensioneel model (Kimball), uitgaande van de in Data Vault opgeslagen gegevens. Daarmee kunnen beide modellen als complementair worden beschouwd. Hieronder zullen de karakteristieken van beide modelleringsmethoden worden toegelicht. Data Vault is een datamodelleringmethode, ontworpen voor het registreren van de feiten. Data worden opgeslagen zoals deze zich aandienen, er worden hierbij geen eisen gesteld aan de kwaliteit van de data of de consistentie van data van verschillende bronnen. Deze feitelijke registratie maakt het mogelijk de interpretatie uit te stellen tot een later moment.
VERSNELLING IN BI -AMBITIE
KEYNOTES – 01
|
61
Doordat wordt afgezien van interpretatie ontstaat een halffabricaat dat voor veel toepassingen, lees interpretaties, bruikbaar is. BI-projecten kunnen versneld worden door gebruik te maken van dit halffabricaat. Daarbij is het van belang dat ontbrekende gegevens aan de Data Vault worden toegevoegd en niet buitenom door het project worden geregeld. Alleen als het model centraal gevoed wordt, kunnen schaalvoordelen in ontwikkeling behaald worden, de voorraad optimaal benut worden als ‘One Version of the Facts’ en is de bijbehorende auditeerbaarheid optimaal. Duurzame investering De Data Vault wordt gedicteerd door de bedrijfsprocessen en de bronsystemen die deze processen
ondersteunen. Beide zijn duurzamer dan menig BI-informatieproduct. De duurzaamheid komt ook tot uiting in de modelleringtechniek zelf. Alle feiten (records) die worden aangeboden, worden vastgelegd. Het model is eenvoudig uitbreidbaar en er worden geen data weggegooid. Er is dus geen verspilling van gegevens of verlies van historie. Als een businessproces verandert, zullen in het algemeen ook de ondersteunende systemen mee moeten veranderen. Deze wijzigingen in de bronsystemen zullen via in te richten wijzigingsprocedures in de BI-architectuur moeten worden doorgevoerd. De gelaagde architectuur biedt ontkoppelingspunten waardoor deze wijziging beheerst kan worden doorgevoerd. Het gebruik van de complementaire modellen maakt duidelijk
Het altijd lastige specificeren en implementeren van business rules blijft noodzakelijk
62
|
KEYNOTES – 01
VERSNELLING IN BI -AMBITIE
OVER DE AUTEURS:
waar de registratie moet worden aangepast en waar de interpretatie; een hanteerbare scheiding tussen technisch en functioneel beheer. Verantwoordelijkheden Technisch beheer in control voor het vullen van de Data Vault. Het laden van een Data Vault kent nagenoeg geen business rules, is robuust en leent zich goed voor het snel en gestructureerd verwerken van grote hoeveelheden data. Het zijn zaken die uitbesteed kunnen worden aan de partij die toch al het ict-beheer doet van bestaande bronsystemen. Waar het om gaat is dat er door introductie van de methodiek een duidelijke scheiding van verantwoordelijkheden ontstaat. Het is de verantwoordelijkheid van de ict-organisatie de Data Vault te vullen, die zelf al bekend is met mogelijke toegangstijden van de aanleverende systemen. Ook als deze systemen wijzigen, zal dit via de ITIL-principes opgemerkt worden en via de change processen moeten leiden tot aanpassing van de Data Vault. Het vullen van de Vault is een taak die kan worden belegd binnen de ict-organisatie. Business in control voor het genereren van de business value. Vanaf de Data Vault komt de business in de lead. Nu moeten immers business rules worden toegepast en pas nu worden de data uit de Vault geïnterpreteerd. Daarbij hebben de verschillende businessfuncties de vrijheid om eigen definities te hanteren en de mate van detail te kiezen. Zo kan de marketingafdeling beschikken over de letterlijke gegevens uit de Data Vault, inclusief vervuiling. Finance echter kan beschikken over gegevens die na de Data Vault nog extra en zware controleslagen hebben ondergaan. Kortom, alle businessfuncties worden in staat gesteld zelf de afweging tussen kwaliteit en snelheid te maken. Daarbij putten ze uit dezelfde bron, de (centrale) Data Vault. Overigens laat de business zich vaak vertegenwoordigen door business- en informatie-analisten, waarbij met name de laatste bedreven zijn in het specificeren van de business rules en het ontwerpen van dimensionele modellen. Nadelen Zijn er nadelen? Het altijd lastige specificeren en implementeren van business rules blijft noodzakelijk.
VERSNELLING IN BI -AMBITIE
Martijn Imrich is business consultant bij Centennium BI expertisehuis. Jos Kuiper is informatie-architect bij KAS BANK N.V. te Amsterdam.
Met het inzetten van Data Vault verschuift deze naar de vraagkant van de organisatie. Maar dat is wel de plek waar deze regels thuishoren. Hier ontstaat een kans voor BI-tools die zich kunnen onderscheiden op het gebied van expliciteren en toepassen van business rules. De verwachting is dat steeds meer slimme, Do-It-Yourself BI-tools de business in staat stellen zelfstandig zijn business rules te definiëren en rapportages genereren. Conclusie Het Data Vault model, mits goed gepositioneerd in een BI-architectuur, biedt een aantal nieuwe mogelijk heden: t Het biedt een helder ontkoppelpunt tussen de data supply en intelligence demand functies in een organisatie. t Duurzame voorraadvorming is mogelijk. t Het model leent zich voor het registreren van gegevens, data supply. Het dimensionele model van Kimball blijft de standaard voor het interpreteren van gegevens. Goed gepositioneerd in een BI-architectuur doen beide modellen waar ze het beste in zijn.
Literatuur: t
Kimball, R. (2002 Second Edition). The Data Warehouse Toolkit. The Complete Guide to Dimensional Modeling. USA: Wiley.
t
Linstedt, D. (2009). Data Vault Model and Methodology Awareness Session. Genesee Academy.
t
Toekomstvast Datawarehouseseptember 2010Database Magazine – Nummer 5 20-23
KEYNOTES – 01
|
63