APRIL 2015
Ontdek het HOE, WAT en WAAROM van BIG DATA Door Geert VROMMAN & Peter RAKERS
Size doesn’t matter Wanneer managers data gebruiken in de strategische beslissingen van de dagdagelijkse bedrijfsvoering, dan kunnen zij 5 tot 6% productiever en winstgevender worden. Big Data analyses dagen met andere woorden het buikgevoel van de manager uit voor wat betreft het nemen van strategische beslissingen; ze resulteren dan ook in herkenbare resultaten zoals een beter klanteninzicht (profilering, loyaliteit, segmentatie, etc.), nieuwe diensten of producten, een hogere effectiviteit, meer winst, slimmere en geautomatiseerde processen, … Een van de moeilijkste elementen van Big Data is dat men bij aanvang van een analyse vertrouwen dient te leggen in de uitkomst, zonder deze al te kennen. De uitdaging start om uit de talloze gegevens de relevante informatie te filteren en op zoek te gaan naar nieuwe inzichten. Deze oefening hoeft niet altijd ‘big’ te zijn; Big Data wordt vandaag nog steeds gehypet, maar we zien wel de eerste stappen bij vele bedrijven. Hoe dan ook, de rijkdom aan data, de technologische evolutie en de geavanceerde analysemethoden zijn daar en ze gaan niet meer weg. Zoals bij elke verandering is een duidelijke interne communicatie en realistische mindset over de mogelijkheden van Big Data noodzakelijk. De intentie om meer te doen met data dient gecommuniceerd worden doorheen het bedrijf zodat alle belanghebbenden goed kunnen inschatten waar data het verschil gaat maken, nu dan wel in de toekomst. Big Data projecten vergen bovendien een unieke combinatie van databank technische skills, van statistische skills en van zakelijk strategische skills om de algoritmes te kunnen vertalen naar conclusies en deze te implementeren binnen de organisatie. Het beroep van data wetenschapper is nog in volle ontwikkeling, waardoor organisaties vaak een mix maken van de interne competenties in samenwerking met een externe strategische data partner, die de meest recente analytische mogelijkheden al onder de knie hebben. Graag geeft Cropland meer uitleg over het hoe, wat en waarom van Big Data in het volgende witboek over data analyse anno 2015.
2
Over het hoe, wat en waarom Dit witboek is alles behalve een grap, en toch lenen we er eentje van Fred Kofman (Kofman 2014): Twee rugzaktoeristen komen een beer tegen in het midden van het bos. De ene toerist begint onmiddellijk zijn wandelschoenen om te wisselen voor loopschoenen. “Wat doe je nu”, zegt de andere, “je kan nooit sneller lopen dan een beer!” “Geen nood”, zegt de eerste, “ik hoef alleen sneller te lopen dan jij.”
Inderdaad, wanneer bedrijven data en analyses tot in de kern van hun organisatie brengen, dan kunnen zij 5 tot 6% productiever en winstgevender worden. (Barton en Court October 2012) En dit maakt dat je sneller uit het bos bent dan alle anderen. Deze paper gaat over Big Data, het waarom, het hoe en het wat. En we starten met goed nieuws: “size doesn’t matter”.
WAAROM spreken we over Big Data? DATAFICATIE In het boek Big Data (Mayer-Schönberger en Cukier 2013) lezen we het ware verhaal van Commander Matthew Fontaine Maury, een jonge U.S. Navy officier uit de 19de eeuw. Hij werd vanwege een verwonding in 1839 uit de actieve zeevaart gehaald en hij werd hoofd van het centrale depot van kaarten en instrumenten. Hij begon alle beschikbare logboeken van de Navy kapiteins en degene die hij wist te verzamelen van koopvaardijschepen te onderzoeken en vergelijken. Hij vond er historische gegevens over wind, water en weer op specifieke tijdstippen en op specifieke plekken op aarde. Nadien vroeg hij aan kapiteins om flessen in zee te gooien met datum en locatie zodat anderen ze elders konden oppikken. Vanaf dat moment, beschouwde hij elk schip als een drijvend observatorium, een burcht van wetenschap. Nadat hij
de verzamelde informatie
verwerkt
had in
nieuw ontwikkelde
navigatietabellen, zorgde hij er bijvoorbeeld voor dat de reistijd van trans-Atlantische tochten met 1/3e werd ingekort. Met deze werkwijze werd Maury één van de pioniers van wat vandaag ‘dataficatie’ wordt genoemd: het winnen van informatie uit een materie die ogenschijnlijk geen enkele waarde (meer) heeft voor iets of iemand. Het komt er op neer om iets in een kwantificeerbaar formaat te zetten zodat het kan berekend en geanalyseerd worden. Daarmee is er een verschil met de term ‘digitalisatie’ als zijnde een proces om analoge informatie te converteren in een binaire code van eentjes en nullen zodat computers deze kunnen verwerken.
3
Later voegde Kenneth Cukier, de coauteur van Big Data (Mayer-Schönberger en Cukier 2013) nog een citaat toe dat ondertussen één van onze favoriete uitspraken is geworden:
“Meer data laat ons niet meer zien. Meer data laten ons nieuw, beter en anders zien.”
NIEUWE TECHNOLOGIE De wet van Moore geldt als leidraad voor de technologische evolutie. In 1965 stelde Gordon Moore dat de rekenkracht van computers elk twee jaar zou verdubbelen. Door die continue verbetering zijn computers steeds sneller geworden en zijn werkgeheugens enorm uitgebreid. Ook de algoritmes die gedraaid worden op die snellere computers evolueren mee. Hierbij komt nog de iets recentere evolutie van het “Internet of Things” (IoT) waarbij alledaagse dingen zoals smartphones, tablets, wearables, huishoudapparaten, professionele machines, sensoren etc. met het Internet verbonden zijn en continu gegevens beschikbaar maken. Het IoT kent veel toepassingen voor de consument, maar ook bedrijven merken de toegevoegde waarde op om hun producten en productieprocessen met het internet te verbinden. Snellere computers, grote(re) hoeveelheid aan diverse gegevens en verbeterde algoritmes zorgen voor een krachtige cocktail die we vandaag gemakkelijkheid halve samenvatten onder de term Big Data. De uitdaging bestaat er nu in om uit deze talloze gegevens de relevante informatie te filteren en op zoek te gaan naar nieuwe inzichten. Het daagt daarnaast het buikgevoel van de manager uit om strategische beslissingen te nemen, die starten vanuit een doorgedreven analyse.
TROP IS TEVEEL EN TEVEEL IS TROP Informatietechnologie heeft ervoor gezorgd dat nagenoeg alle afdelingen in een bedrijf
een
(eigen)
software
ondersteuning
hebben.
Als
je
op
al
deze
softwarepakketten de mogelijkheden van de internet technologie loslaat en daarnaast het IoT plaats, dan ontstaat er stilaan een probleem: een explosie van gegevens. Daar waar managers vroeger beslissingen moesten kunnen nemen in situaties met weinig informatie, is het vandaag cruciaal om door het bos de bomen te zien en te kunnen werken in een wereld van gegevensovervloed. Op die manier geraken bedrijven bevangen door hun eigen data silo’s, waardoor ze een belangrijk deel van de strategisch intrinsieke waarde in de data uit het oog verliezen. Sterker nog, wat schijnbaar transactionele data is voor de ene afdeling, kan van grote strategische waarde zijn voor een andere, zonder dat het door beide partijen geweten is. Big Data projecten helpen bij het afbreken van deze data silo’s en tonen het ware potentieel van cross-functionele gegevens.
4
VERSTORING Big Data brengt niet voor iedereen goed nieuws. Een kritische kijk op dit fenomeen krijgen we van Jaron Lanier. Hij bedacht de term Siren Servers voor een netwerk van bedrijven die data vergaren van eindgebruikers, zonder dat die voor hun bijdrage aan de data pool worden vergoed; ze analyseren deze informatie met de meest geavanceerde computers, bediend door de beste technici van de wereld. De resultaten van deze analyses blijven geheim en worden door de Siren Servers gebruikt om de rest van de wereld te manipuleren (Lanier 2013). Recent nog maakte de Europese Commissie opmerkingen over de praktijken van Google bij zoekopdrachten naar producten en diensten via hun zoekmotor. Het moet gezegd zijn dat voor Belgische bedrijven de eerste confrontatie met Big Data eerder verstorend – disruptief – is. Vanwege dataficatie en de wereldwijde toegang van open databronnen kan een complete sector verstoord worden door een nieuwe speler die niet noodzakelijk de gevestigde regeltjes van het spel volgt. Het is een grote vergissing om er van uit te gaan dat Big Data alleen maar toegepast wordt door Siren Servers zoals Google, Facebook of Amazon. Uber taxi was de eerste verstoorder die nationale media aandacht kreeg in België. Maar ondertussen hebben we ook Netflix en bhaalu (die momenteel sterk onder vuur liggen van de gevestigde TV zenders), 3D-printen voor de producerende bedrijven en alle soorten draagbare gezondheidstoestellen (Quantified Self) die een impact zullen hebben op het huidig (eerstelijns) gezondheidssysteem. Het gebeurt dus blijkbaar in alle sectoren, alhoewel nog vaak onder de waterlijn. Maar de rode draad doorheen al deze verstoring is “het slim omgaan met data”. Peter Hinssen stelde daarbij de vraag van 1 miljoen: “Is het netwerk van oude jongens die als raad van bestuur alle risico’s mijden de beste bescherming in het tijdperk van verstoring of moeten we het misschien anders aanpakken vooraleer het te laat is?” (Hinssen 2014) Recent combineerden we gegevens uit onze Big Data survey met een vergelijkend onderzoek in Data News om de adoptie positie van een bedrijf in te schatten op gebied van Big Data. We stelden daarbij twee eenvoudige vragen: a.
Hoe snel wordt data geadopteerd in uw organisatie?
b.
Waar in uw bedrijf ziet u de impact van Big Data?
Op basis van deze 2 vragen hebben we 4 scenario’s beschreven waar Big Data een rol kan spelen binnen uw bedrijf. Voor meer informatie rond deze scenario-oefening, neem contact op met Peter Rakers op
[email protected]. Op het einde van de rit is de
5
vraag over ‘waarom’ u zou starten met Big Data eerder eenvoudig: Wat kan er gebeuren als u het niet doet?
HOE starten met Big Data? DENK GROOT, BEGIN KLEIN Het lijkt een logische eerste stap, maar zonder gegevens wordt het moeilijk. Start dus met het samenbrengen van de beschikbare gegevens en indien nodig met het verzamelen van nieuwe data. Een belangrijke vraag die hierbij opkomt, betreft de soort gegevens die verzameld moeten worden. Om hierop eenduidig te kunnen antwoorden, moeten de strategie of de doelstellingen van de organisatie duidelijk zijn. Misschien nog niet 100%, maar er moet toch wel een idee of aanvoelen zijn die aangeeft in welke richting het zal gaan. Om die eerste richting te bepalen, werkt men best met plausibele toekomstscenario’s. Dit zijn verhalen van mogelijke toekomsten voor de organisatie, gestoeld op factoren die het succes van morgen (of het uitblijven daarvan) gaan bepalen. Het is een ontdekkingstocht waarbij men de organisatie tegen het licht van de toekomst houdt en identificeert waar Big Data plausibel toegevoegde waarde kan creëren. Het resultaat van deze oefening is een lijst van opportuniteiten waar gegevens verzameld dienen te worden.
THE PROOF OF THE PUDDING IS IN THE EATING Een veel voorkomend probleem is dat bedrijven identificeren waar er gegevens verzameld moeten worden en dan te lang wachten om er daadwerkelijk mee aan de slag te gaan. Het gevaar sluipt erin dat er ook nog lessen getrokken moeten worden in het proces of de wijze waarop gegevens verzameld worden. Als men dan 6 maanden of langer wacht om de eerste conclusies te trekken, dan bestaat de kans dat men opnieuw moet starten. Het gaat snel in de Big Data wereld van vandaag. Dankzij de huidige technologische vooruitgang is het makkelijker dan ooit om experimenten op te zetten en daaruit lessen te trekken. Wacht dus niet te lang om echt met de analyse te starten. Pilootprojecten dienen om gegevens te isoleren, om “oorzaak-gevolg” te onderzoeken in “data labs” en om zo nieuwe kennis te verwerven. De “proof of concept” of pilootprojecten zullen helpen bij de belangrijkste stap, namelijk het uitwerken van een echte data strategie. Cruciaal hierbij is dat de conclusies en de algoritmes vertaald worden naar de dagelijkse praktijk van de operationele managers; zij zullen hiermee aan de slag (moeten) gaan en data echt gaan adopteren als een grondstof en/of bron van succes. Big Data is, anno 2015, nog altijd een hype en sommigen vragen zich zelfs af of het misschien maar een mode
6
trend is of niet. Hoe dan ook, zoals bij elke verandering, is een duidelijke interne communicatie en realistische mind-set over de mogelijkheden van Big Data noodzakelijk; er moet gecommuniceerd worden zodat iedereen in het bedrijf kan inschatten waar data realistisch het verschil zal kunnen maken.
DATA CORRELATIE In de jaren ’90 zijn verschillende bedrijven gestart met “Business Intelligence”, het bouwen van data warehouses en het gebruiken van rapportering tools. Het oorspronkelijke doel van een data warehouse was om binnen organisaties een centrale opslagplaats van geïntegreerde heterogene gegevens te bouwen waarin historische gegevens worden bijgehouden om trends te detecteren en management analyses mogelijk te maken. Uiteindelijk blijkt dat de integratie van de gegevens en het heterogene karakter in vele gevallen een struikelblok zijn geworden. Heel veel systemen zijn opgezet binnen de organisatorische (data) silo’s, veeleer dan over de verschillende functionele domeinen van organisaties. Er doen ondertussen voldoende definities van Big Data de ronde; één van de veel aangehaalde “V’s” staat voor variëteit of de spanwijdte van verschillende soorten gegevens en data types. Wanneer er Big Data pilootprojecten worden opgezet is het noodzakelijk dat de bestaande data silo’s in vraag worden gesteld en dat de correlatie analyses gebeuren over de ganse waaier aan beschikbare informatie. Men dient ervoor te waken om op voorhand gegevens of parameters uit te sluiten; beter is om de correlatie analyse breed en onbevooroordeeld in te steken.
3 DATANIVEAUS Naast de interne correlaties zijn er ook externe gegevens die mogelijks nuttig kunnen zijn. Onderzoek dus of externe bronnen, die vandaag nog niet gecorreleerd worden of die op het eerste zicht niet nuttig zijn, kunnen helpen bij het blootleggen van de unieke waarde van data. In de nabije toekomst zullen er zelfs data pools of data ecosystemen ontstaan waarin organisaties data delen om vervolgens elk individueel betere inzichten te verwerven in de verrijkte gegevens die in de data pool aanwezig zijn. Cropland onderzoekt momenteel de haalbaarheid van data pooling, meer informatie hierover op de website www.cropland.be.
7
HET DATA TEAM Big Data projecten vergen een unieke combinatie van databank technische skills, voor het extraheren en voorbereiden van gegevens uit systemen; van statistische skills, voor het ontwikkelen van voorspellende modellen en het herkennen van patronen; en van zakelijk strategische skills om de algoritmes te kunnen vertalen naar conclusies en deze te implementeren binnen de organisatie. Men verzamelt al deze aspecten in het concept “data scientist” of datawetenschapper, maar in de praktijk blijkt dat een samenwerking van een meer technisch persoon en een meer zakelijk persoon tot een unieke combinatie leidt. Het beroep van data wetenschapper is nog in volle ontwikkeling, waardoor organisaties vandaag een mix maken van interne mensen met een externe strategische data partner.
WAT kan je verwachten van Big Data? “LIFE IS LIKE A BOX OF CHOCOLATES” De vraag die iedereen op voorhand beantwoord wenst te zien is: “Wat levert het op?”. Een van de moeilijkste elementen is dat men vertrouwen dient te leggen in de uitkomst, zonder deze al te kennen. Regelmatig resulteren Big Data oefeningen in nieuwe inzichten en conclusies die men niet verwacht had. Dit betekent niet dat er een tijdloos blindelings vertrouwen moet zijn vooraleer te kunnen starten, maar een gezonde ondernemersspirit voor het exploratieve karakter is een voordeel.
4 TOEPASSINGSGEBIEDEN Aangezien Big Data analyses de strategie van een organisatie dienen te ondersteunen, resulteren de meeste projecten in herkenbare resultaten zoals nieuwe diensten en producten, hogere doeltreffendheid, meer winst, slimmere processen, … Bij Cropland hebben we data science gestructureerd in vier toepassingsgebieden om zo meer betekenis te geven aan de verschillende soorten data:
BEHAVIBILITY
TRACEABILITY
CONNECTABILITY
READABILITY
In de BEHAVIBILITY projecten onderzoeken we gedrag van mensen en organisaties. Loyaliteit, koopgedrag of –intenties, kruisbestuivingen en profilering zijn enkele van de onderwerpen die hier aan bod komen. Wanneer gegevens verzameld worden waarbij het tijdsaspect, de locatie of de afstand belangrijk zijn, dan spreken we over
TRACEABILITY; dit kan worden ingezet om interessante winkelpunten te lokaliseren,
8
om extra inzichten uit een logistieke vloot te halen enz. Meer en meer worden “dingen” met het Internet verbonden, de data, die dit “Internet of Things” met zich meebrengt, passen we toe in CONNECTABILITY. Hier gaat het voornamelijk over voorspellende inzichten, detectie en preventie. Tot slot, onderzoeken we de toegevoegde waarde van digitale tekst in READABILITY; hier wordt data wetenschap ingezet om workflows te optimaliseren, data kwaliteit te verhogen en documenten automatisch(er) te verwerken.
Over Cropland Cropland werd in 2013 opgericht door Geert VROMMAN en Peter RAKERS, vanuit het geloof dat organisaties die DATA DRIVEN DECISIONS verankeren in de dagdagelijkse bedrijfsvoering een duurzame en competitieve toekomst tegemoet gaan. Vanuit deze visie, cultiveren we data en zorgen we ervoor dat de bedrijfsleiders de doeltreffendheid van hun organisatie kunnen optimaliseren. Cropland is een uniek team dat strategische consultancy combineert met data wetenschappers; tezamen gaan wij op zoek naar de vruchtbare grond voor uw organisatie, uw cropland.
Referenties Barton, Dominic, en David Court. October 2012. „Making Advanced Analytics Work For You.” Harvard Business Review 90 (10). Hinssen, Peter. 2014. „Should You Disrupt Your Board?” LinkedIn Blog. Kofman, Fred. 2014. Doing your job may be hazardous to your career. LinkedIn Speaker Series on YouTube. Lanier, Jaron. 2013. Who Owns The Future. New York: Simon & Schuster. Mayer-Schönberger, Viktor, en Kenneth Cukier. 2013. Big Data. New York: Houghton Mifflin Harcourt Publishing Company.
Copyright © 2015 CROPLAND. All rights reserved.