WHITEPAPER | 04
Refining the new oil – Turning data into value Een aanpak voor meer waarde uit data
Refining the new oil – Turning data into value | Anderson MacGyver
Inhoud Voorwoord Introductie en onze definitie van big data Deel 1: meer waarde uit data Deel 2: data-analyse - meer dan alleen BI Samenvatting en conclusie
2 | WHITEPAPER 04
3 6 9 19 23
Anderson MacGyver | Voorwoord
Refining the new oil - Turning data into value Vaak wordt big data omschreven als de olie van de 21ste eeuw. Bedrijven en individuen leggen steeds meer gegevens vast, bewaren en analyseren ze. Google rapporteert vol trots over zijn enorme hoeveelheden data en wat het daarmee kan. Daarnaast hebben we te maken met de algehele explosie van data op socialemediaplatformen als Facebook, YouTube, Twitter en Instagram. Bedrijven en consumenten verwachten 24 uur per dag realtime toegang tot voor hun relevante informatie. Een belangrijke driver in de groei van data is het internet of things. Dit verwijst naar het verschijnsel dat we in machines en zelfs in ons lichaam sensoren hebben die continu veel data produceren. De fysieke en virtuele werkelijkheid overlappen elkaar steeds meer. Het is een grote verandering in de maatschappij, vergelijkbaar met de industriële revolutie aan het eind van de 18de eeuw en de ontwikkeling van het digitale tijdperk eind 20ste eeuw. En dit is nog maar het begin. Maar wat doen we met deze data? Big data krijgt pas waarde op het moment dat organisaties en mensen door een veranderd inzicht anders gaan handelen. Er bestaat een ingewikkeld proces van verrijken en veredelen om tot waardevolle inzichten uit data te komen. Welke gegevens mogelijk waardevol zijn, ontdekken we pas als we weten wat we willen bereiken en op welk gebied we precies beter willen presteren. Het gaat om een goede balans tussen de behoefte en strategie van de business enerzijds, en het verzamelen van data en de inzet van de juiste analysemogelijkheden anderzijds. In dit whitepaper beschrijven we hoe organisaties uit de veelheid van data waardevolle kennis kunnen destilleren die kan zorgen voor meer inzicht in hun klanten, diensten en bedrijfsprocessen. We vertellen hoe waarde toegevoegd kan worden aan diensten en producten voor klanten, en hoe organisaties hun capabilities kunnen ontwikkelen om slimmer om te gaan met data. Rik Bijmholt en Gerard Wijers Oprichters Anderson MacGyver
WHITEPAPER 04 | 3
Refining the new oil – Turning data into value | Anderson MacGyver
4 | WHITEPAPER 04
Anderson MacGyver | Introductie en onze definitie van big data
Een aanpak voor meer waarde uit data JOHN OTTERSBACH Auteur John Ottersbach is een ervaren wetenschapper en adviseur op het gebied van (big) data vraagstukken. Tijdens zijn wetenschappelijke carrière bij het CERN heeft hij veel ervaring opgedaan met complexe data analyses gebaseerd op grote hoeveelheden data.
BOR VAN DIJK Auteur Bor van Dijk heeft vanuit verschillende rollen veranderingen geleid op het snijvlak van business en IT in zowel commerciële omgevingen als ook bij de semi-overheid. Hij heeft zich de laatste jaren gespecialiseerd in innovatie en duurzame organisatieontwikkeling.
DAVID JONGSTE Auteur David Jongste heeft ruim 15 jaar ervaring met vraagstukken op het snijvlak van bedrijfsvoering en ICT. Hij heeft veel bestuurlijke en hands-on ervaring met vraagstukken op het terrein van ICT governance, informatiemanagement, business intelligence, organisatie van ICT en (informatie) architectuur.
I
n de afgelopen jaren zijn er talloze business studies over big data gepubliceerd, steeds met eenzelfde kernconclusie: bedrijven die zich met big data bezighouden en big data-oplossingen hanteren, hebben een significant competitief voordeel. Het kan bijvoorbeeld grote impact hebben op producten en productontwikkeling, op bedrijfsprocessen en op klantrelaties (Wallmart, 2012) (Rajpathak, 2013) (Schroeck, 2012). Dit zorgt ervoor dat big data al
jaren bovenaan in de lijsten van impactvolle ontwikkelingen staat (Bughin, 2013) (Gartner, 2014). De artikelen, verhalen en blogs gaan echter zelden in op belangrijke vragen als: hoe maak ik gebruik van de mogelijkheden die big data mij biedt, over welke data – binnen en buiten mijn organisatie – beschik ik eigenlijk, welke waarde ligt daarin besloten en hoe krijg ik toegang tot deze waarde? De misvatting bestaat dat zeer grote datasets, waar bedrijven als Google en Facebook over beschikken, een randvoorwaarde zijn om waarde te genereren en big data op de agenda te zetten. Maar ook kleine datasets kunnen waardevolle inzichten creëren. Bovendien zijn er vaak meer bruikbare gegevens voorhanden dan men denkt en neemt de hoeveelheid beschikbare data alleen maar toe (Hubbard, 2011). Dit whitepaper gaat in op bovenstaande vragen en introduceert een generieke aanpak om de waarde in data beschikbaar te maken. Uitgangspunt van deze aanpak is een veelbelovende businessvraag die door een passende data-analyse beantwoord kan worden. Net als bij aardolie moet eerst gericht worden gezocht en vervolgens zorgvuldig worden geraffineerd. Op deze manier ontstaan waardevolle producten voor bedrijven en particulieren. WHITEPAPER 04 | 5
Refining the new oil – Turning data into value | Anderson MacGyver
BIG DATA: SIZE DOESN’T MATTER – VALUE DOES! Big data is een containerbegrip dat mensen op allerlei manieren interpreteren. Ondanks dat het een veelgebruikt begrip is, is het nog steeds wel wat vaag wat er precies mee wordt bedoeld. Het wordt gebruikt als een synoniem voor grote hoeveelheden data, voor analysetechnieken, maar ook voor ontwikkelingen in organisaties en de maatschappij rond digitale data. Gartner ontwikkelde als eerste een breed gedragen definitie van big data. In 2001 publiceerde de META Group (nu Gartner) de 3D Data Management whitepaper met de drie kernaspecten data volume, data velocity en data variety (Laney, 2001). Deze drie V’s zouden later de definitie van big data worden (Laney, 2012). Vaak wordt nog een vierde V toegevoegd (IBM, 2013): data veracity. Deze V’s zijn technische kenmerken van big data. Volgens ons ontbreekt er echter nog eentje, namelijk de V waar alles om draait: value (zie figuur 1). De hoeveelheid, volledigheid en snelheid van data is voor een businessoplossing volledig nutteloos als er geen toegevoegde waarde wordt gerealiseerd. Zelfs in kleine statische datasets zitten vaak waardevolle inzichten verstopt. Dus: size doesn‘t matter - value does! 6 | WHITEPAPER 04
VELOCITY
VALU€ V RAC TY VARI ETY
Figuur 1: de visie van Anderson MacGyver op big data. De waarde staat centraal! In onze benadering staat big data voor datasets die zich in vergelijking met traditionele bestanden kenmerken door een toename in volume, velocity, variety en veracity waardoor nieuwe kansen ontstaan tot het creëren van waarde (value).
Anderson MacGyver | Introductie en onze definitie van big data
De vijf dimensies van big data zijn vervolgens de 5 V’s: Volume De hoeveelheid data. Het gaat meestal om grote datasets. ‘Groot’ is echter een relatief begrip en sterk afhankelijk van de context. Voor sommige bedrijven zijn datasets in de grootte van gigabytes moeilijk te hanteren, voor andere zijn honderden terabytes nog steeds niet bijzonder veel. Voorbeeld: YouTube met 357 petabyte opslagcapaciteit (stand in mei 2014). Velocity De snelheid waarmee data wordt geproduceerd en verwerkt. Data is meestal niet meer statisch. Het gaat om het realtime analyseren van gestreamde data en de resultaten moeten vaak binnen seconden beschikbaar zijn. Voorbeeld: de high-frequency trading in de financiële sector; hier moeten beslissingen vaak al in microseconden worden genomen. Variety De verschillende dataformaten en databronnen waaruit big data meestal bestaat. Voorbeeld: voor het optimaliseren van hun omzet gebruiken retailers voorspellende algoritmen waar commerciële en logistieke data gecombineerd worden met externe
bronnen zoals sociale media (Facebook likes, Twitter-berichten, et cetera) of weer- en verkeersinformatie. Veracity De vervuiling en onzuiverheid van big data. Vaak zijn bestanden niet volledig, niet consistent, ‘gebiased’ en vertroebeld. Voorbeeld: NAW (Naam-Adres-Woonplaats) bestanden zijn berucht om het feit dat de gegevens snel verouderen, doublures en fouten bevatten doordat de initiële invoer vaak handmatig is gebeurd. Een toename van 10 procent per jaar van het aantal fouten in dergelijke bestanden is eerder regel dan uitzondering. Value De waarde die in de data verstopt zit. Deze V beschrijft niet zoals de andere vier V’s een technische eigenschap van big data. In data zit echter bijna altijd verstopte waarde in de vorm van waardevolle inzichten. De value wordt in onze definitie hierdoor wel een karakteriserende eigenschap van big data. ‘Big’ verwijst volgens ons dus niet naar de hoeveelheid, maar vooral naar de waarde. Hoe deze waarde kan worden gedestilleerd, lichten we toe in Deel 1: meer waarde uit data (pagina 9) .
WHITEPAPER 04 | 7
business
missing foundation
missing skills
value analysis
missing focus
data
Figuur 2: model voor meer waarde uit data.
Anderson MacGyver | Deel 1: meer waarde uit data
Deel 1: meer waarde uit data Waar zit de waarde in big data? Het beschikken over de data alleen is niet voldoende om de waarde te bereiken. Pas met een concrete vraagstelling vanuit de business en met het juiste analytische vermogen wordt deze waarde volledig ontsloten, zoals het model in figuur 2 schetst. Op het snijvlak tussen ‘analyse’ en ‘business’ (cyaan) ontbreekt de data en daarmee de mogelijkheid om tot onderbouwde inzichten te komen. Op het snijvlak tussen ‘business’ en ‘data’ (paars) ontbreekt ‘analyse’ en dus de nodige vaardigheden en tools om de waarde uit de data te ontginnen. Vanuit het snijvlak tussen ‘data’ en ‘analyse’ (geel) kunnen we onderbouwde inzichten creëren, maar ontbreekt het aan de focus vanuit de ‘business’ om tot een doelgerichte analyse te komen. Het belang van een businessvraag met de juiste focus wordt verder toegelicht in sectie ‘A. Identificeren van data opportunity’ (pagina 10). Pas als de drie kleuren in balans overlappen, ontstaat er een helder zicht op de waarde.
ANDERSON MACGYVER DATA ANALYTICS FOR VALUE CREATION De Data Analytics for Value Creation-methode van Anderson MacGyver is een generieke aanpak om businesswaarde te realiseren op basis van het hiervoor beschreven
model, geschetst in figuur 2. Door de introductie van een systematische aanpak wordt de complexiteit van big data-trajecten gereduceerd, de kans op succes vergroot en het lerend vermogen en de opbouw van capabilities gestimuleerd. De aanpak is opgebouwd uit drie fasen: • A Identificeren van data opportunity: Het doel van deze fase is om te komen tot een impactvolle businessvraag, die in fase B kan worden beantwoord. Het gaat om het vinden van interessante casussen waar door middel van data-analyse concrete businessimpact en dus waarde gerealiseerd kan worden. • B Toepassen van data analytics: Fase B geeft antwoord op de vraagstelling uit fase A. Door een data-analyse wordt onderzocht of en hoe het idee achter de vraagstelling gerealiseerd kan worden. • C Realiseren van business value: Wanneer op basis van de conclusies uit de data-analyse een positieve business case volgt, wordt een implementatieontwerp opgesteld en de businesswaarde gerealiseerd. Het heuristische karakter van een big data-traject vereist iteratieve processen en directe terugkoppelingen in de aanpak. In kleine, opeenvolgende stappen ontstaat vanuit WHITEPAPER 04 | 9
Refining the new oil – Turning data into value | Anderson MacGyver
een vaag idee een steeds concreter concept of model. De stappen worden met name bepaald door de inzichten die voortkomen uit de analyse in fase B. De iteratieve aanpak en een intensieve samenwerking tussen stakeholders zijn essentieel voor een effectief verloop van het traject. Bovendien wordt hierdoor het collectieve leerproces en de opbouw van nieuwe capabilities gestimuleerd.
ANDERSON MACGYVER DATA ANALYTICS FOR VALUE CREATION
A
IDENTIFICEREN VAN DATA OPPORTUNITY
B
TOEPASSEN VAN DATA ANALYTICS
C
REALISEREN VAN BUSINESS VALUE
4. ANALYSEREN
A. Identificeren van data opportunity Waarde vinden is een zoektocht. Net als bij de zoektocht naar olie is op voorhand niet bekend waar het zich bevindt. De olie-industrie doet allerlei analyses, simulaties en berekeningen om te bepalen waar de grondstof zich kan bevinden. Dit vergroot de kans op een succesvolle proefboring aanzienlijk. Ook big data-trajecten beginnen met het ontdekken en verkennen van veelbelovende ideeën voordat de echte waarde kan worden ontgonnen. Impactvolle vraagstellingen ontketenen de innovatie met big data. Het begint met de volgende vraagstelling binnen de organisatie: wat zijn de belangrijke vragen waarop het antwoord ons de waarde oplevert die ons helpt om onszelf van de concurrentie te onderscheiden? Dit is vaak het moeilijkste en 10 | WHITEPAPER 04
meest uitdagende deel van een big data-traject. Het vereist creativiteit, out of the box denken en een diepgaande kennis van de markt en de organisatie met haar producten, diensten en processen. Een multidisciplinair team binnen de organisatie garandeert de meest effectieve
Figuur 3: in 3 stappen naar meer waarde uit data.
Anderson MacGyver | Deel 1: meer waarde uit data
aanpak, maar ook externe adviseurs kunnen een waardevolle bijdrage leveren door hun ervaring en waarneming van de markt. Het resultaat levert vragen op zoals: zouden we onze aanvoerprognose kunnen verbeteren door de inzet van zelflerende algoritmen? En wat zou dit opleveren (vraagstelling van een handelsplatform)? Of: zouden we op adresniveau consumentenprofielen kunnen genereren met eigen en openbare data (vraagstelling van een logistiek dienstverlener)? Achter vragen als deze zit de innovatie die leidt tot nieuwe business, geoptimaliseerde processen en een slimme omgang met de steeds toenemende hoeveelheden data. Om in deze fase de meest waardevolle data opportunities te identificeren, is, naast de betrokkenheid van de juiste personen, een heldere aanpak van belang. Door op zoek te gaan naar verbinding tussen concrete businessvraagstukken en beschikbare data, worden data opportunities geïdentificeerd. Dit kan vanuit de vier verschillende perspectieven: • Klantgedreven • Contextgedreven • Bedrijfsactiviteitengedreven • Datagedreven.
Klantgedreven De focus ligt op toegevoegde waarde voor de klant. De centrale vraag is: hoe zou data gebruikt kunnen worden om producten of de service voor de klant te verbeteren? Hoe kan er waarde voor de klant ontstaan? Hoe wordt hij geholpen? Voorbeeld: Booking.com gebruikt slimme algoritmen op basis van zijn data om gepersonaliseerde aanbiedingen te plaatsen. De klant vindt daardoor sneller bestemmingen en hotels die hij leuk vindt. Dit verhoogt de waarde voor de klant. Contextgedreven In een contextgedreven benadering wordt gekeken naar de omgeving van de organisatie, zoals beschreven in onze whitepaper over agility (Simons, 2014). Het gaat bijvoorbeeld om technologische en sociale ontwikkelingen. Bovendien is het nuttig naar de marktleiders in verschillende sectoren te kijken. Welke data en analyses gebruiken zij om waarde te creëren? Welke innovatieve producten ontstaan hierdoor of hoe worden de bedrijfsprocessen efficiënter? Voorbeelden zijn vaak aansprekend en inspirerend en stimuleren de nodige creativiteit.
WHITEPAPER 04 | 11
Refining the new oil – Turning data into value | Anderson MacGyver
Bedrijfsactiviteitgedreven Een andere benadering is om te werken vanuit de bedrijfsactiviteiten. Welke processen zouden door een slimme inzet van data kunnen worden geoptimaliseerd? De focus ligt op omzetverhoging, kostenreductie of hogere kwaliteit en betere service voor de klant. Om de waarde van en de samenhang tussen bedrijfsactiviteiten te concretiseren kan het Anderson MacGyver Waardemodel (Wieringa, 2014) of het Anderson MacGyver Operating Model Canvas (Haijenga, 2014) worden ingezet. Voorbeeld: de politie van Los Angeles bepaalt op basis van data en zelflerende algoritmen op welke plekken de kans op een misdrijf het grootste is en past haar inzet hierop aan. Door verbeterde preventieactiviteiten voorkomt zij misdrijven en zet ze de capaciteit efficiënter in. Datagedreven Hier wordt de beschikbare data als uitgangspunt genomen. Vanuit deze data wordt gezocht naar inzichten waarmee waarde gecreëerd kan worden. Een Operating Model Canvas met daarop een visualisatie van de bestaande gegevens en datastromen vormt een effectieve tool. Hiermee ontstaat bewustwording omtrent de beschikbare data en het stimuleert de creativiteit. 12 | WHITEPAPER 04
Voorbeeld: door de opbouw van DNA databases in de gezondheidszorg ontstaan nieuwe mogelijkheden rond preventie en efficiënte behandeling van patiënten. Een combinatie van deze vier benaderingen samen met ervaringen uit lopende datatrajecten blijkt in de praktijk de beste aanpak. De uitkomst van deze fase is een vraagstelling met potentie voor een significante businessimpact. De vraagstelling levert een startpunt voor de analysefase B van onze Data Analytics for Value Creation-methode. Het is een open vraag die de vrijheid en creativiteit van de analyse niet beperkt, maar juist stimuleert. Een goed voorbeeld is de al genoemde vraagstelling van een handelsplatform: zouden we onze aanvoerprognose door de inzet van zelflerende algoritmen kunnen verbeteren? Hier wordt voldoende ruimte gelaten om in fase B met verschillende databronnen en algoritmen te experimenteren. Zo kan bijvoorbeeld blijken dat het toevoegen van weer- en verkeersinformatie aan de eigen data in verband met een neuraal netwerk de meest nauwkeurige voorspelling oplevert.
Anderson MacGyver | Deel 1: meer waarde uit data
B. Toepassen van data analytics De titel van dit whitepaper geeft het aan: de waarde wordt tijdens de raffinage gedestilleerd. Met ruwe olie kun je niet veel. Pas na de raffinage ontstaan waardevolle producten zoals brandstoffen voor auto’s, vliegtuigen en schepen. Ook de chemische en farmaceutische industrie profiteren van het raffinageproces, waar grondstoffen ontstaan voor kunststoffen en medicijnen. De data-analyse is te vergelijken met het raffinageproces. Uit de ruwe data worden waardevolle inzichten gecreëerd. In deze fase worden de mogelijkheden tot beantwoording van de vraagstelling uit fase A onderzocht middels een data-analyse. Maar hoe ziet een data-analyse eruit die antwoord geeft op een heel specifieke vraag en die gebaseerd is op een dataset die het unieke karakter van de organisatie weerspiegelt? De echt waardevolle inzichten ontstaan alleen vanuit een data-analyse die rekening houdt met zowel de individuele eigenschappen van onderliggende data alsook de specifieke vraagstelling. Een effectieve en waardevolle data-analyse zal dus altijd maatwerk zijn. Verantwoordelijk voor dit maatwerk is de data scientist die de analyse opzet en uitvoert. Alhoewel de data-analyse maatwerk is, kan het door een generieke aanpak transparant en planbaar worden gemaakt. WHITEPAPER 04 | 13
Refining the new oil – Turning data into value | Anderson MacGyver
ANDERSON MACGYVER DATA ANALYTICS FOR VALUE CREATION
A
IDENTIFICEREN VAN DATA OPPORTUNITY
B
C
TOEPASSEN VAN DATA ANALYTICS
REALISEREN VAN BUSINESS VALUE
4. ANALYSEREN
3. Datavalidatie
4. Dataanalyse
1. Aanpak van het onderzoek
5. Conclusies
2. Dataselectie
Figuur 4: de Anderson MacGyver-aanpak voor data analytics.
14 | WHITEPAPER 04
Anderson MacGyver | Deel 1: meer waarde uit data
Fase B bestaat uit vijf stappen (zie figuur 4): Stap 1: Aanpak van het onderzoek Hoe zou de vraagstelling uit fase A kunnen worden beantwoord? Wat zijn de nodige tools en technieken? Welke data zijn ervoor nodig? Dit zijn de vragen die tot een plan van aanpak voor de data-analyse leiden. Stap 2: Dataselectie De benodigde data wordt verzameld en beschikbaar gesteld. Vaak gaat het niet alleen om interne bedrijfsdata, maar ook om externe data. Stap 3: Datavalidatie Voor een analyse moet de data zorgvuldig op consistentie, fouten, ‘biases’, ontbrekende variabelen en dergelijke kenmerken van veracity worden getest (zie ‘Big data: size doesn’t matter – value does!’ op pagina 6). Hier worden statistische methoden voor verificatie en validatie gebruikt. De data scientist maakt zich vertrouwd met de gegevens en checkt de mogelijkheden voor de analyse op basis van de data. Stap 4: Data-analyse De data-analyse is de sleutel tot het vinden en beschik-
baar maken van de waarde in data. Het is een dynamisch, heuristisch proces. Van tevoren is niet bekend welke inzichten en obstakels de data scientist zal tegenkomen. Een efficiënte en effectieve data-analyse is om die reden een iteratief proces waar opgedane inzichten kortcyclisch (typisch na 1 tot 3 weken) worden teruggekoppeld aan de stakeholders om vervolgstappen te bepalen. In sommige gevallen vereisen de vervolgstappen dat de dataset wordt vergroot of dat er additionele databronnen worden toegevoegd. Typisch wordt bij de eerste en tweede iteratie de grootste voortgang geboekt. Als bijvoorbeeld voor het beantwoorden van de vraagstelling de ontwikkeling van een neuraal netwerk nodig zou zijn, dan wordt tijdens de eerste en tweede iteratie de grootste toename in prestatie van het netwerk bereikt. Meer voorbeelden van en uitleg over gebruikte tools en technieken alsook een gedetailleerde discussie over de verschillende typen data-analyses volgen in ‘Deel 2 – Data Analysis op pagina 19’. Stap 5: Conclusies Vaak zijn analyses en de uitkomsten hiervan complex. Het is aan de data scientist om de uitkomsten te vertalen in resultaten die voor alle betrokkenen inzichtelijk zijn. Het gebruik van visualisatie is hierbij een bewezen middel. WHITEPAPER 04 | 15
Refining the new oil – Turning data into value | Anderson MacGyver
16 | WHITEPAPER 04
Anderson MacGyver | Deel 1: meer waarde uit data
C. Realiseren van business value
Leerproces en capabilities
Als in fase B inzichtelijk is gemaakt welke waarde kan worden gerealiseerd, is de waarde nog niet daadwerkelijk gecreëerd. De brandstof die de raffinaderij in tankauto’s verlaat, wordt gedistribueerd naar tankstations. De waarde voor de oliemaatschappij ontstaat door de verkoop van de brandstof, terwijl de waarde voor de consument uit zijn mobiliteit bestaat. Iets heeft pas echt waarde als het waarde heeft voor de klant, zie hiervoor ons whitepaper (Wieringa, 2014).
Big data is nog vaak onbekend of ongemakkelijk terrein. Er zal geleerd moeten worden om het eigen te maken. Het leerproces is een fundamenteel onderdeel van de hiervoor beschreven aanpak. Met kleine, iteratieve stappen en de terugkoppelingen binnen en tussen de verschillende fasen wordt kennis en ervaring opgebouwd en capabilities ontwikkelen zich. De twee feedback loops in de aanpak (figuur 3, 4) zijn uitermate belangrijk voor dit proces. De ervaringen met de implementatie en de gerealiseerde business impact zijn belangrijke input voor navolgende trajecten. Maar ook wanneer inzichten niet implementeerbaar zijn, kunnen ze nog steeds toegevoegde waarde voor toekomstige trajecten leveren en zo bijdragen aan de ontwikkeling van de gewenste capabilities.
In deze laatste fase wordt de waarde gerealiseerd. Hier wordt gekeken hoe de uitkomsten van fase B te vertalen zijn naar een positieve businesscase voor de organisatie. Vervolgens worden de benodigde aanpassingen aan processen, systemen en organisatie uitgewerkt. Aspecten als opschaalbaarheid, continuïteit, betrouwbaarheid en overdraagbaarheid van de uitkomsten van fase B spelen een rol bij de ontwerpkeuzes die gemaakt moeten worden. Na het opstellen van het ontwerp wordt een plan van aanpak opgesteld. Door de uitvoering van dit plan wordt de waarde daadwerkelijk gerealiseerd.
Net zoals bij elke leerproces is het bij het opbouwen van capabilities zinvol om met kleine trajecten te beginnen. Gedreven door technologische innovaties ontwikkelt de wereld van big data zich heel snel. Met big data bezig zijn, betekent dus continu leren en ontwikkelen.
WHITEPAPER 04 | 17
Anderson MacGyver | Deel 2: data-analyse - meer dan alleen BI
Deel 2: data-analyse – meer dan alleen BI Na de uiteenzetting van onze visie op big data en een onderbouwde aanpak voor een big data-traject, gaat dit hoofdstuk in op het onderdeel data-analyse: het belangrijke raffinageproces van een big data-traject. De term data-analyse wordt vaak gebruikt, meestal in het kader van Business Intelligence (BI), marketing of businessstudies. De term is net zo vaag als big data zelf. Wat eronder wordt verstaan, hangt sterk af van de individuele context en de mensen die de term gebruiken. Volgens ons omvat data-analyse veel meer tools en technieken dan in het BI-domein worden ingezet. Er zijn twee belangrijke factoren die een data-analyse classificeren: focus en diepgang. Ze worden bepaald door de doelstelling die ten grondslag ligt aan de analyse. Zoals in figuur 5 is aangetoond, maakt het BI-domein gebruik van analyses met minder diepgang die zich in de meeste gevallen op het verleden richten. Hiertegenover staan data mining-technieken die meer diepgang hebben en vaak voor voorspellingen gebruikt worden. In de sectie ‘Tools en technieken’ gaan we gedetailleerder in op de verschillende methoden. In dit whitepaper omvat de term data-analyse alle beschikbare methoden, dus meer dan alleen BI!
Focus De focus van een data-analyse kan op verschillende plekken in de tijd liggen. Afhankelijk van de doelstelling van de data-analyse, kan deze op het verleden, het heden of de toekomst gericht zijn. Vaak worden de volgende op elkaar voortbouwende categorieën benoemd voor de focus van een analyse: • Descriptive analytics • Diagnostic analytics • Predictive analytics • Prescriptive analytics. Met name de laatste twee categorieën krijgen veel aandacht in de media in relatie tot big data. Ze zijn de enabler voor een veranderende bedrijfssturing: van retrospectief naar prospectief. Soms kan de indruk ontstaan dat hiermee de retrospectieve analyse overbodig wordt. Maar predictive en prescriptive analytics moeten niet als vervanger van descriptive en diagnostic analytics worden gezien. Zoals uit de focus duidelijk wordt leveren ze complementaire inzichten op. Uit dezelfde data kan dus meer informatie en kennis worden gedestilleerd wanneer alle focuspunten worden gebruikt.
WHITEPAPER 04 | 19
Refining the new oil – Turning data into value | Anderson MacGyver
DESCRIPTIVE
DIAGNOSTIC
PREDICTIVE
PRESCRIPTIVE
Centrale vraag
Wat is er gebeurd?
Waarom is het gebeurd?
Wat gaat er gebeuren?
Wat zou ik moeten doen, gegeven wat er gaat gebeuren?
Focus
Het verleden
Het verleden
De toekomst
De toekomst
Omschrijving
Hier worden meestal elementaire statistische methoden ingezet om de data te beschrijven. De meeste BIvraagstukken vallen in deze categorie, het uitrekenen van KPI’s en trends bijvoorbeeld. De doelstelling ligt op het beschrijven van wat er in het verleden is gebeurd of nu gebeurt. De focus ligt daarmee op de tijdstip van de creatie van de data, het verleden of het heden. Laatstgenoemde in het kader van realtime analyses.
Op zoek naar de oorzaak van de bevindingen uit de beschrijvende analyse wordt meer onderzoek gedaan met meestal elementaire statistische methoden. Net als bij de descriptieve analyse ligt de focus op het tijdstip van de datacreatie.
Hier ligt de focus op de toekomst. De geschiedenis wordt gebruikt om modellen te ontwikkelen op basis waarvan voorspellingen voor toekomstige ontwikkelingen worden gemaakt. Het is duidelijk complexer dan het ‘doortrekken van een lijn’ zoals in het BI-domein vaak gebeurt. De technische basis voor de analyse bestaat meestal uit geavanceerde statistische methoden en tools uit het data mining-domein, zoals zelflerende algoritmen.
Dit is de consequente vervolgstap vanuit de voorspellende analyse. Is er al een voorspellend model ontwikkeld, dan is het een logische vervolgstap om voorspellingen voor verschillende scenario’s te berekenen. Hierna kan het scenario met de beste uitkomsten worden gekozen. Het algoritme levert dus niet alleen een voorspelling volgens het model, maar geeft ook aan wat er moet gebeuren om zo goed mogelijk te anticiperen op een ontwikkeling. Het algoritme kan dus als een soort van adviseur voor een beslisser worden gezien. Maar hier stopt het nog niet. Aan het eind van deze ontwikkeling staat een volledig geautomatiseerde proces, automated decision making, dat beslissingen neemt die het meest voordelig zouden zijn volgens het algoritme.
Voorbeeld
Een bedrijf in de logistieke sector: uit de descriptieve analyse van de opbrengsten blijkt dat de opbrengst per verwerkte eenheid in de afgelopen jaren elk jaar met 5 procent is gedaald.
De diagnostische analyse toont aan dat de oorzaken van de dalende opbrengsten een krimpende markt, een constant marktaandeel en hoge vaste kosten zijn.
Een voorspellend model dat op basis van een neuraal netwerk wordt ontwikkeld, geeft inzicht in het te verwerken volume in de aanstaande maand. Hierdoor kan de capaciteit efficiënter worden gepland en kunnen kosten worden bespaard.
Op basis van het voorspellend model wordt in de prescriptieve analyse de meest efficiënte verwerkingswijze benoemd, met het tijdstip van verwerking en geplande inzet van mensen en machines, et cetera.
20 | WHITEPAPER 04
geavanceerde methoden
Anderson MacGyver | Deel 2: data-analyse - meer dan alleen BI
elementaire methoden
diepgang
Datamining & advanced statistics
Business Intelligence verleden
toekomst
focus Figuur 5: data-analyse omvat het gehele kwadrant en dus meer dan alleen BI.
Diepgang Data-analyses kunnen met verschillende diepgang worden uitgevoerd. De meeste BI-analyses zijn gebaseerd op elementaire statistische methoden die helpen directe en klaarblijkelijke verbanden in de data aan te tonen. Deze methoden aggregeren data om de hoofdstructuren te
herkennen. Ze blijven daarmee vrij oppervlakkig. Een voorbeeld zijn fundamentele statistische variabelen zoals, gemiddelden, varianties of correlaties. Ook het creëren van inzichten door de juiste selecties van variabelen valt in deze categorie. Omdat de grootste waarde in big data vaak diep in de data verborgen is, zijn er voor big data-trajecten meestal geavanceerdere statistische methoden of datamining-technieken nodig. Deze gaan de diepte in en kijken naar niet-geaggregeerde data. Resultaten zijn meestal complexe modellen die de data beschrijven. Elke data-analyse begint met een validatieproces waarbij elementaire statistische methoden worden ingezet. Afhankelijk van de vraag- of doelstelling wordt hierna de benodigde diepte ingegaan. In analogie met de aardoliewinning betekent dit: soms is één schep voldoende om de olie uit de grond te laten spuiten. In andere gevallen heb je geavanceerde technieken nodig om kilometers diep door verschillende lagen gesteente te boren. Meer diepgang betekent niet noodzakelijk meer waarde. De vereiste diepgang is afhankelijk van de individuele vraagstelling en de dataset, oftewel de ligging van de aardolievoorraad. Een ervaren data scientist is net als een ervaren aardoliewinner: Hij beschikt over alle WHITEPAPER 04 | 21
Refining the new oil – Turning data into value | Anderson MacGyver
tools, maar investeert in de meest effectieve oplossing en vermijdt onnodige complexiteit, risico’s en kosten.
Tools en technieken Om uit data inzichten te creëren, is een veelheid aan methoden ontwikkeld. De oorsprong van het genereren van inzichten uit data is het vakgebied statistiek. Statistische methoden leveren bewezen resultaten die begrijpelijk, verifieerbaar en goed te onderbouwen zijn. Hiertegenover staat een veelheid, soms vrij recent ontwikkelde algoritmen en technieken, zoals random forests, of support vector machines die onderdeel van het datamining-domein zijn (Witten, 2011). Datamining-technieken worden ingezet om patronen te ontdekken of gebeurtenissen te classificeren. Sterke patronen maken voorspellingen mogelijk, wat een van de mogelijke toepassingen van datamining is. De basis voor deze technieken is de rekenkracht van huidige computers. De algoritmen worden meestal geïnitieerd vanuit een willekeurig getal, zoals bij een neuraal netwerk. In een iteratief proces ontwikkelen deze zelflerende algoritmen een model dat de data beschrijft. Het individuele leerproces is hierbij nauwelijks inzichtelijk of begrijpelijk. Dit zorgt ervoor dat de uitkomsten van zelflerende algoritmen moeilijk of niet te verifiëren 22 | WHITEPAPER 04
of te onderbouwen zijn. De manier om vertrouwen in de resultaten te krijgen, is een gedegen begrip van de data en het testen van de uitkomsten. Bij de inzet van datamining-technieken wordt dus datavalidatie, stap B.3 in de Data Analytics for Value Creation-methode (pagina 15) nog belangrijker. Door het belang van BI is er een grote markt ontstaan voor data-analyse tools. Ook het volume van big data is door lineair schaalbare file-systemen als Hadoop beheersbaar geworden (Vaughan, 2013). De data-analyse pakketten van Tableau, Pentaho, SAS en anderen zijn ontworpen om op basis van elementaire statistische methoden (en in sommige gevallen ook elementaire datamining-technieken) snel en makkelijk inzichten te creëren. De tools voor de geavanceerde statistische methoden en datamining-technieken worden grotendeels in de wetenschap ontwikkeld en ingezet. Ze zijn dus open source, bijvoorbeeld ROOT (ROOT) en WEKA (WEKA), maar vereisen diepgaande kennis om toegepast te kunnen worden. Er zijn voldoende tools en technieken om big data te analyseren. Op basis van de vereiste focus en diepgang kan een data scientist de juiste analyse technieken en tools inzetten. Zodoende wordt op een effectieve en efficiënte manier de waarde uit data ontgonnen.
Anderson MacGyver | Samenvatting en conclusie
Samenvatting en conclusie Big data is de olie van de 21ste eeuw! We staan aan het begin van het datatijdperk. Big data is nieuw, anders, verrassend, dynamisch en heeft een groot potentieel voor waardecreatie, maar soms lijkt het ook moeilijk tastbaar en te doorgronden. Het vereist nieuwe denkbeelden, werkwijzen en capabilities om tot meerwaarde voor bedrijven te leiden. Deel 1 van dit whitepaper introduceert en onderbouwt een generieke aanpak voor big data-trajecten. Een evenwichtige inzet van een richtinggevende businessvraag, de benodigde data en de juiste data-analyse staat hierbij centraal. In drie fasen komen we van het identificeren van een data opportunity tot de gerealiseerde businesswaarde. Kern van deze aanpak is de data-analyse. Deel 2 gaat hier in detail op in en classificeert data-analyses over de twee assen focus en diepgang. De voorgestelde iteratieve aanpak leidt niet alleen tot een efficiënt en doelgericht verloop van een big data-traject, maar faciliteert ook de opbouw van de benodigde nieuwe capabilities in de organisatie. Het succesvol exploiteren van de olie van de 21e eeuw is niet eenvoudig. Maar met een goede en heldere aanpak alsook de juiste expertise en hulpmiddelen is het mogelijk om volop van de nieuwe olie te profiteren. Een pleidooi voor ‘refining the new oil and turning data into value’. WHITEPAPER 04 | 23
Refining the new oil – Turning data into value | Anderson MacGyver
Anderson MacGyver: Meer business waarde met IT en informatie “Anderson MacGyver bekijkt IT vanuit het business perspectief en helpt klanten om meer business waarde te verkrijgen met IT en informatie. Dit is mogelijk door de waarde van IT voor de bedrijfsprocessen en diensten van een organisatie expliciet te maken en in balans te brengen met de IT-kosten. We dagen organisaties graag uit om een duidelijke visie te realiseren op de innovatieve mogelijkheden van IT en de waarde van de bestaande IT- en informatiediensten.”
“We create value for our customers by stimulating them to innovate, by improving the way they operate and by enabling the change they need.”
MEER WAARDE MET IT
SAMEN MET DE BUSINESS
De druk op IT-kosten heeft de laatste jaren bij veel organisaties geleid tot verouderde IT-omgevingen en een ontevreden business management over haar interne IT-organisatie. Tegelijkertijd veranderen de marktomstandigheden komen en er nieuwe business modellen op (bijvoorbeeld het product Toon van Eneco of de Bank van Morgen). IT en slim gebruik van informatie blijkt steeds vaker een enabler van nieuwe business modellen. Het is dus hoog tijd om te praten over de waarde van IT en informatie!
Anderson MacGyver vindt dat IT-organisaties zich vooral als business partners moeten opstellen en voortdurend vanuit de toegevoegde waarde voor de business leren denken en handelen. Hierdoor zullen marktmogelijkheden beter worden benut. Wij helpen IT-organisaties graag met het doorvoeren van deze attitudeverandering, net zoals we het business management graag helpen om bewuster met IT en informatie als belangrijke bedrijfsmiddellen om te gaan.
24 | WHITEPAPER 04
Anderson MacGyver | Refining the new oil – Turning data into value
INNOVATIE, BEDRIJFSVOERING EN VERANDERVERMOGEN Alle diensten van Anderson MacGyver zijn vormgegeven vanuit het begrip Waarde: IT en informatie maakt nieuwe diensten en markten mogelijk. Omgekeerd kan veel ongebruikte informatie de bedrijfsvoering substantieel verbeteren. Zowel vanuit innovatieperspectief als vanuit bedrijfsvoeringsperspectief zijn er veel mogelijkheden tot waardecreatie met behulp van IT en informatie zijn. Maar ideeën en inzicht zijn niet voldoende; de verandering moet
ook gerealiseerd worden. Anderson MacGyver wil daarom helpen om het verandervermogen van organisaties te vergroten. Dat doen we door managementverantwoordelijkheid te nemen bij onze klanten.
HET ANDERSON MACGYVER TEAM Het Anderson MacGyver team kenmerkt zich door senioriteit en ervaring, resultaatgerichtheid en commitment, eigentijdse werkwijzen en vooral een grote passie voor vakinhoud en de vernieuwing ervan. WHITEPAPER 04 | 25
Refining the new oil – Turning data into value | Anderson MacGyver
BRONVERMELDING Bughin, J., Chui, M., Manyika, J., Ten IT-Enabled Business Trends for the Decade Ahead, McKinsey Quarterly, mei 2013 Gartner, Top 10 Strategic Technology Trends of 2015, oktober 2014 Haijenga, F., Boersen, H., De brug slaan tussen bedrijfsvoering en IT, FD/Boardroom IT, 10 september 2014 Hubbard, D.W., How to Measure Anything, Tantor Media Inc., september 2011 IBM, The FOUR V’s of Big Data, http://www.ibmbigdatahub.com/sites/default/files/infographic_file/4-Vs-of-big-data.jpg, 2013 Laney, D., 3D Data Management: Controlling Data Volume, Velocity and Variety, META Group, 2001 Laney, D., The Importance of Big Data: A Definition, Gartner, 2012 Rajpathak, T., Narsingpurkar, A., Managing Knowledge from Big Data Analytics in Product Development, Tata Consultancy Services, 2013 Schroeck, M., Shockley, R., Smart, J., Romero-Morales, D., Tufano, P., Big Data, IBM Global Business Services, New York, oktober 2012 Simons, J., Van den Hoven, C., De Mari, G., Wendbaarheid op maat, een voorwaarde voor succes!, Anderson MacGyver whitepaper 03, 2014 Vaughan, J., Big Data Systems Shine Light on Neglected ‘Dark Data’, augustus 2013 Wallmart, Walmart Announces Search Engine to Power, Walmart.com, augustus 2012 Witten, I.H., Frank, E., Hall, M.A., Data Mining, Morgan Kaumann, 2011 Wieringa, E., Beekman K., Sprokholt, A., Alles van waarde is weerloos, Anderson MacGyver whitepaper 02, 2014 ROOT https://root.cern.ch WEKA https://weka.waikato.ac.nz
COLOFON Productie: Anderson MacGyver B.V. Fotografie: istock images Vormgeving: Martin Wolber Druk: Repro Utrecht Uitgave: Anderson MacGyver B.V. | www.andersonmacgyver.nl |
[email protected] | @andersonmacgyver op Twitter
© Anderson MacGyver, april 2015 Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij electronisch, mechanisch, door fotokopieën, opnamen of enige andere manier, zonder voorafgaande schriftelijke toestemming van uitgever.
26 | WHITEPAPER 04