EXECUTIVE BRIEFING BETERE BESLISSINGEN NEMEN MET BIG DATA Om op tijd en snel de juiste zakelijke beslissingen te kunnen nemen, moeten tegenwoordig grote hoeveelheden gestructureerde en ongestructureerde gegevens worden geëvalueerd. Analyses met Big Datatechnologieën helpen om hierbij de juiste antwoorden te vinden. Vroeger was een winkelier klantvriendelijk als hij naast het bier en de ketchup ook houtskool in het schap legde. En daarbij profiteerde hij dan ook nog van het meeneemeffect. Tegenwoordig moet hij heel wat meer doen om de strijd om de gunst van de klant te winnen. In de e-business is het tegenwoordig normaal dat een winkelier op de hoogte is van de voorkeuren, bestelgeschiedenis, kortingsvoorkeuren en zo mogelijk ook de woonplaats van zijn klanten. Maar alleen wie dergelijke gegevens ook kan interpreteren of op een intelligente manier aan elkaar kan koppelen, is in staat om klanten aanbiedingen op maat te presenteren en de klant aan te spreken waar hij op dat moment is, online, thuis op de bank of in een winkelgebied. Daarvoor hebben winkeliers de juiste analyse-instrumenten nodig, maar ook de gegevens die relevant of noodzakelijk zijn voor het doel. In tijden van wereldwijde concurrentie en volatiele markten zijn deze onmisbaar. Ze ondersteunen beleidsmakers bij het optimaliseren van hun bedrijf. Voor winkeliers bieden gegevens bijvoorbeeld duidelijke informatie over het koopgedrag van hun klanten. Bedrijven begrijpen dankzij gegevens de marktverbanden beter, kunnen trends opsporen en herkennen op tijd nieuwe zakelijke kansen. Zo kunnen snellere en betere beslissingen worden genomen – en dat alles met het doel om dichter bij de klant te staan en beter te kunnen voldoen aan de eisen van de klant. Door gegevens te analyseren kunnen marketing- afdelingen bijvoorbeeld fijnmazige bevolkings- en
klantsegmenten maken, en producten en diensten toesnijden op de behoeften van die segmenten. Meteen gedetailleerde segmentering van doelgroepen kunnen de doelgroepen gemakkelijker worden geïdentificeerd, ontstaat minder distributieverlies en worden de kosten voor marketingcampagnes lager. Een telecomaanbieder kan bijvoorbeeld via gegevensanalyse uitzoeken waarom klanten ver trekken, en zo met gerichte maatregelen tegenwicht bieden. De rol van gegevens Veel beleidsmakers en managers erkennen inmiddels de strategische waarde van gegevens. Ze gebruiken relevante gegevensbronnen met informatie over hun producten en klanten en analyseren met Business Intelligence-tools bijvoorbeeld de frequentie waarmee producten worden gekocht of de verandering in de voorraden. Volgens een onderzoek van de softwareleverancier Artegic gaat 75 procent van de ondervraagde bedrijven er vanuit dat het succes van een onderneming alleen aanzienlijk kan worden vergroot door het gebruik van persoonsgegevens uit de online marketing. Met Business Intelligence-tools kan het bedrijf gericht worden aangepast en gestuurd. Het management profiteert duidelijk van de informatie die dit oplevert en kan deze gebruiken als strategisch kompas, om veranderingen in de markt en in het gedrag van klanten te herkennen en daar proactief op te reageren. 1
Gegevens worden Big Data Maar ondanks dashboards, grafieken en tabellen kunnen managers niet ontspannen achterover leunen. Want de afgelopen jaren is de Business Intelligence-wereld behoorlijk omgegooid. De oorzaak hiervan is de enorme hoeveelheid gegevens. Waar de informatie die relevant was voor zakelijke beslissingen tot voor kort nog re latief overzichtelijk was, is die de afgelopen jaren geëxplodeerd. Ondertussen wordt vrijwel alles gedigitaliseerd en ontstaan er nieuwe soorten realtime transactiegegevens. En ook machines en computers produceren enorme gegevenshoeveelheden, die kunnen worden gebruikt op hardware die steeds goedkoper en dynamischer wordt. Alleen al een modern vliegtuig genereert in 30 minuten vliegen tot aan 10 terabyte aan gegevens. Bij 25.000 vluchten per dag ontstaan zo petabytes aan gegevens data. De transformatie naar digitale bedrijfsmodellen en nieuwe toepassingen versterkt de gegevensaanwas ook. Technologieën zoals cloudcomputing, RFID, transactionele systemen, datawarehouses en systemen voor documentenbeheer en Enterprise Content Management zijn belangrijke ontwikkelingen in de context van Big Data. Veel van deze systemen genereren voortdurend nieuwe gegevensstromen. Het beslissende aandeel in de gegevensexplosie komt echter van internet, het toenemende gebruik van mobiele apparaten en vooral de social media zoals Facebook, Twitter, YouTube en dergelijke. Alleen al Facebook produceert bijvoorbeeld dagelijks 2,7 miljard “likes” en 300 miljoen foto’s, en het scant elk half uur 105 TB aan gegevens.
Daar komt bij dat gegevenshoeveelheden tegenwoordig niet alleen groot zijn, maar ook aanzienlijk minder gestructureerd dan de vroegere typische bedrijfsgegevens in ERP-systemen. Gegevens uit social media, zoals teksten, afbeeldingen, audio-bestanden en video’s, kunnen niet meer in overzichtelijke rijen en kolommen worden gedwongen, zoals vereist is in het relationele databasemodel. Ze zijn ongestructureerd. Volgens het IDC-onderzoek “Storage in Deutschland 2013” valt inmiddels al 90 procent van de gegevens onder dit ongestructureerde type, wat betekent dat ze met nieuwe technieken moeten worden verzameld en beoordeeld. (Bron: IDC Storage*) In feite betekent dit dat bedrijven nu te maken hebben met een ongeordende opkomst van grote hoeveelheden gestructureerde, semigestructureerde en ongestructureerde gegevens uit een groot aantal zeer verschillende bronnen. Tegenwoordig kunnen bedrijven juist ongestruc tureerde gegevens uit sociale netwerken niet meer negeren. Uit e-mails, feedbackformulieren, commentaren en evaluaties in sociale netwerken en discussies in forums kan veel worden geleerd. Het enorme aantal tweets dat elke dag wordt gegenereerd – op dit moment ongeveer 12 terabyte – is bijvoorbeeld een stevige basis voor trendonderzoek en productontwikkeling. Welke branches profiteren van Big Data? Bedrijven hebben, afhankelijk van hun technische uitrusting, relatief eenvoudig toegang tot grote hoeveelheden bruikbare markt- en klantgegevens – en willen de waarde van deze gegevens ook benut-
Typische gegevenssoorten van dit moment Gestructureerde gegevens Gegevens die worden weergegeven in tabellen en structuren van relationele databases Semigestructureerde gegevens Gegevens die vaak worden gegenereerd door het gebruik van gegevensuitwisselingsprogramma’s tussen bedrijven en die daarom vaak op XML zijn gebaseerd Ongestructureerde gegevens Gegevens uit tekstbestanden, speech-to-text-toepassingen, PDF’s, gescande post, presentaties, afbeeldingen, video’s, audiobestanden
2
ten. Volgens een internationaal IDC-onderzoek in opdracht van T-Systems zijn bij een op de twee bedrijven al Big Data-projecten geïmplementeerd of concreet gepland. Drie van de vier bedrijven die Big Data-projecten hebben ingevoerd, noemen in een SAS-enquête daarbij Business Analytics effectief in de beslissingsfase (bron: SAS Decision Making*). Ze profiteren volgens het onderzoek vooral van een verhoogde rentabiliteit, gereduceerde kosten, gerichter risicobeheer, procesoptimalisatie, snellere besluitvorming en prestatieverbeteringen. De aan Big Data verbonden kosten worden volgens McKinsey ook terugverdiend in harde cash. Als Big Data goed en tijdig worden geanalyseerd, kunnen handelsondernemingen bijvoorbeeld hun marge tot 60 procent verbeteren, en Europese overheden kunnen door efficiëntere processen 250 miljoen euro per jaar besparen, volgens de consultants. Als bedrijven meer zouden weten over de locaties van hun klanten, zouden ze zelfs extra producten met een waarde van 600 miljoen dollar kunnen afzetten. (Bron: McKinsey Big Data*) Tot voor kort hielden alleen typische gebruikers van datawarehousing en Business Intelligence, zoals banken, financiële dienstverleners en sommige grote concerns, zich bezig met geautomatiseerde besluitvormingsprocessen. Maar volgens Experton Group zien nu ook handelsondernemingen, nutsbedrijven en aanbieders op het gebied van life sciences, medicijnen en vele andere markten in toenemende mate in dat gegevens bij het maatschappelijk kapitaal horen, en dus een belangrijke grondstof vormen. (Bron: Experton Big Data) Uitgesplitst op bedrijfsafdeling profiteren met name onderzoek en ontwikkeling, marketing en verkoop, productie, distributie en logistiek, en financiële controle en risicobeheer van Big Data. Op deze vijf gebieden blijken de economische voordelen van Big Data bijzonder indrukwekkend te zijn. Big Data analyseren Ondanks het onomstreden nut is het voor veel bedrijven een uitdaging om de verzamelde gegevens om te zetten in bruikbare informatie. Volgens marktonderzoeksbureau Gartner is in 2015 meer dan 85 procent van de Fortune 500-bedrijven niet in staat Big Data effectief te gebruiken om concurrentievoordeel te behalen. “De meeste bedrijven zijn slecht voorbereid op de uitdagingen op het gebied
van techniek en beheer die met Big Data gepaard gaan”, zeggen de analisten van Gartner. “Daarom zullen maar weinig bedrijven in staat zijn deze trend effectief te benutten en concurrentievoordeel te behalen.” (Bron: Gartner PI*) De drie factoren – gegevenshoeveelheid, gegevensverscheidenheid en verwerkingssnelheid – vormen een grote uitdaging voor de conventionele gegevensverwerking en -analyse. Relationele databases zijn van oorsprong en door hun architectuur alleen efficiënt te gebruiken als ze worden ingezet voor frequente transacties op gegevenssetniveau of voor scenario’s met kleine tot middelgrote gegevens volumes. Op het verwerken en analyseren van teraof zelfs exabytes aan gegevens zijn ze niet berekend. Vooral ongestructureerde gegevens kunnen niet of alleen met veel moeite worden opgeslagen in tabelgeoriënteerde, relationele database systemen. “Omdat er steeds meer gegevens ter evaluatie beschikbaar zijn, hebben bedrijven nieuwe benaderingen en technologieën nodig”, volgens het Gartneronderzoek “Big Data Opportunities, New Answers and New Questions” (Bron: Gartner Big Data*). Nieuwe “Big Data-systemen” moeten niet alleen de grote hoeveelheden gegevens verwerken, maar ook ongestructureerde gegevens op een betrouwbare manier analyseren – en zo snel mogelijk. Voor deze realtime-analyses zijn systemen nodig met extreem snelle databasetoegang en efficiënte parallellisering, om taken over veel computers te verdelen – een benadering die in het verleden bekend stond als grid computing. De voorloper op het gebied van dergelijke Big Datatools voor het analyseren van ongestructureerde gegevens was Google. Met het programmeermodel MapReduce heeft het concern de verwerking van grote hoeveelheden gegevens zodanig opgedeeld dat de infrastructuur flexibel kan worden aangepast aan de gegevensomvang. Daaruit ontstond het populaire Open Source-project Hadoop, dat tegenwoordig naast in-memory en NoSQL-databases voor ongestructureerde gegevens de standaard is voor de Big Data-technologie. Op het gebied van bedrijfstoepassingen zette SAP de ontwikkeling in gang met de op in-memory technologie gebaseerde SAP-HANA-database (High Performance Analytic Appliance). Het hart van de Big Data-analyse wordt gevormd door modellen en algoritmen die erop ingericht 3
zijn om samenhangen in de gegevensbergen te lokaliseren en patronen en overeenkomsten te herkennen. Deze predictive of Business Analysisoplossingen helpen niet alleen om snel en exact een beeld van het heden te schetsen, maar ook om voorspellingen te doen en zo prognoses voor
toekomstige ontwikkelingen te geven. Dat gebeurt op basis van statistische en stochastische methoden, gegevensmodellen en simulaties met best case- en worst case-scenario’s, waarbij nieuwe beroepen ontstaan zoals data scientist.
Business goals related to decision-making capabilities and agility/speed are significantly connected to a majority of respondents’ big data strategies and initiatives. (5) To a significant extent
(4)
(3) To a moderate extent
(2)
Increasing speed of decision-making Increasing business agility
New customer acquisition/retention Using immediate market feedback to improve customer satisfaction Building new business partnerships Improving internal communication Developing new products/services and revenue streams Bron: How Organisations are approaching Big Data, IDG, September 2013 (200 respondenten uit ondernemingen met meer dan 100 medewerkers in Brazilië, Nederland, Oostenrijk, de VS, Zuid-Afrika en Zwitserland)
Strengthening existing business partnerships Improving finance/accounting and procurement processes Reducing CAPEX Reducing OPEX
34
23
53
35
32
26
53
37
31
Improving the speed of response to IT security issues Meeting regulatory/compliance requirements
35
31
Improving the quality of decision-making Improving planning and forecasting capabilities
(1) To a limited extent
28
31
29
22
29
35
6 3
28
26
33
30
26
33
27
4 3 8 3 8
5
26
32
32
6 4
25
34
32
6 4
25
32
35
5 3
25
32
34
6 3
25
29
23
30
19
23
18
28
35 33 41 41
6 4 9
5
12
5
8 5
To what extent is your organization’s big data strategy/big data initiatives connected to each of the following business goals? Base: 155 qualified respondents who have implemented or have plans to implement big data projects (figures in per cent)
About half of all respondents have either already deployed or are in the process of implementing big data projects at their organizations.
Already deployed/implemented big data initiatives In the process of implementing big data projects
23
25
Planning to implement big data projects over the next 12 months Planning to implement big data projects within the next 13 – 24 months We have no immediate plans to implement big data projects Bron: How Organisations are approaching Big Data, IDG, September 2013
10 23 21
At what stage is your organization currently with the planning and rollout of big data projects? Base: 200 qualified respondents (figures in per cent)
4
Data to decisions: de zes stappen Hoe ontstaat zinvolle informatie uit de grote hoeveelheid ongestructureerde tekst-, video- en verbruiksgegevens van Twitter en Facebook? Er ligt een technisch complexe weg tussen de gegevens die binnenkomen bij het bedrijf en de verwerkte informatie die managers gebruiken als basis voor het nemen van beslissingen. Er vinden talloze selectie-, verwerkings- en analyseprocessen plaats. Analytics-expert Ken McLaughlin geeft, na evaluatie van meerdere casestudy’s, in zijn blog “Data to Decisions” zes concrete stappen voor het genereren van beslissingen op basis van Business Analytics-databases. Stap 1: Een doel definiëren Een duidelijk gedefinieerd doel moet aan twee eisen voldoen: het moet bereikbaar en meetbaar zijn. “De verzendkosten voor producten met 15 procent verlagen” is bijvoorbeeld een duidelijk geformuleerd doel. Stap 2: Alternatieven modelleren Het doel bepaalt de richting, geeft de alternatieven en wijst de weg naar het bereiken van het
doel. Voorbeeld: “Kosten voor een goedkope verlader” versus “Kosten voor een geautoma tiseerd afwikkelingsproces” zijn mogelijke alternatieven. Stap 3: Vereiste gegevens bepalen Vaststellen van de gegevens en statistieken die nodig zijn voor de verschillende alternatieven. In het voorbeeld: eerdere verzendkosten en software- en hardwarekosten voor geautomatiseerde processen. Stap 4: Gegevens verzamelen en organiseren Om de modellen te kunnen evalueren, moeten eerst gegevens worden verzameld en georganiseerd. Stap 5: Gegevens analyseren Voor de daadwerkelijke evaluatie moeten de juiste analysetechniek en vervolgens het beste modelalternatief worden gekozen. Stap 6: Beslissen en uitvoeren Ten slotte moet de actie worden uitgevoerd die de beste resultaten opleverde en moeten de werkelijke resultaten worden gemeten en geregistreerd.
Welke risico’s zijn er? Een centrale vraag met betrekking tot Big Data is de vraag naar de gegevenskwaliteit: zijn er gegevens die meerdere keren voorkomen, bevatten de gegevens fouten of zijn ze inconsistent, ontbreken er hele gegevenssets? De gebruiker is zich in het algemeen bewust van de betekenis van deze vraag, blijkt uit een onderzoek van Omikron Data Quality. Volgens dat onderzoek gaat 39 procent van de ondervraagden er vanuit dat Big Data-benaderingen tot mislukken gedoemd zijn als de gegevens van slechte kwaliteit zijn. “Het is duidelijk dat met een grotere hoeveelheid gegevens de statistische significantie stijgt en men ook beter kan vertrouwen op de resultaten van BIanalyses”, volgens het onderzoek. “Maar als de uitgangsgegevens al niet kloppen, dubbel of inconsis-
tent zijn, wordt die significantie bedrieglijk: in het ergste geval heb je dan wel wiskundig consistente en schijnbaar duidelijke resultaten, maar ze zijn feitelijk onjuist. Als er dan uit de analyseresultaten ook nog acties worden afgeleid, wat uiteindelijk het doel van BI is, zijn negatieve gevolgen onvermijdelijk.” (Bron: Omikron Data Quality*) Voor juiste analyses en prognoses moet de basis, de gegevens, dus kloppen. Binnen het kader van het zogenaamde ETL-proces (Extract, Transform, Load) van de klassieke BI zijn er beproefde ma nieren en methodes voor het opschonen van vervuilde gegevens voordat de informatie in het data- warehouse terechtkomt. Daarbij horen profiling, cleansing en verrijken en afstemmen met referentiegegevens. 5
De uitdaging van datasilo’s Een andere essentiële uitdaging (of verdere kernvraag) bij het omgaan met Big Data is de verdeling van de gegevens over parallelle systemen. Enerzijds beheersen, om historische redenen, gegevenssilo’s uit bijvoorbeeld CRM-, ERP- en andere systemen nog altijd de architectuur van het gegevensonderhoud, en steeds vaker moeten ze ook de archivering van oude gegevens overnemen. Anderzijds wijzen veel bedrijven door de steeds groter wordende gegevensvolumes de resulterende gegevensstroom alleen nog toe aan verschillende opslaglocaties, zonder ze eerst te verwerken en transformeren.
In 2003 benoemde Capital One de eerste CDO in de branche.
Deze verdeelde en heterogene gegevensverwerkings- en -opslagstructuren zijn niet economisch en niet effectief voor potentiële gegevensanalyses. Ze verhinderen de uitwisseling en integratie van gegevens en maken een holistische benadering van gegevensbeheer moeilijker.
Wel dringend nodig zijn echter Big Data-experts, die feitelijk met de gegevens werken. Deze IT-experts moeten andere vaardigheden hebben dan de vakmensen voor conventionele IT-systemen. Naast de technische eisen moeten deze specialisten kunnen omgaan met statistische en stochastische methodes en analytische modellen, en beschikken over een stevige knowhow van de branche.
Een oplossing kan hier komen van moderne integratietechnologieën, waarmee de gestructureerde, ongestructureerde en semigestructureerde gegevens uit de verschillende bronnen tot één integraal bestanddeel van de bedrijfsbrede gegevens-beheerstrategie worden gemaakt. Hierbij boren softwareoplossingen de gegevensbronnen binnen het hele bedrijf aan. De gegevens worden gelezen en geëxtraheerd en in het daarvoor bestemde opslagsysteem geladen. Bij de volgende stap worden deze gegevens in gegevensmodellen geïmporteerd, met andere gegevens uit andere bronnen verrijkt en vervolgens geëvalueerd. Cloudsystemen zorgen daarbij voor opslagcapaciteit voor grote hoeveelheden gegevens. Geen Big Data zonder vakmensen
Sindsdien verschijnt de CDO-functie geleidelijk aan steeds vaker op executive-overzichten, vooral bij grote publieke instellingen die worden overspoeld met gegevens. Volgens Gartner heeft 2 procent van de bedrijven wereldwijd een CDO ingesteld. Bij grote bedrijven is dat 6 procent. In 2017 zal het aandeel, volgens de prognose, 20 procent zijn. In Europa is de CDO nog relatief onbekend. Of het echt nodig is om een CDO aan te stellen is omstreden, vooral omdat de functie niet exact is omschreven.
De Experton Group pleit daarom voor nieuwe beroepen, zoals data scientists en data artists. Een data scientist is een gegevensexpert die analysemethodes definieert en de gegevens analyseert. Hij moet breed zijn opgeleid, met kennis van wiskunde en stochastiek, grondbeginselen van het programmeren, SQL en databases, informatietechnologie en netwerken. De voorbereiding en visualisatie komen vervolgens voor rekening van de data artist. Deze is opgeleid op het gebied van grafisch design, psychologie, wat wiskunde, IT en communicatie. Deze beroepen vormen zogezegd de kern van het Big Data-personeel. Deze kerngroep wordt aangevuld met andere nieuwe beroepen, die allemaal worden weergegeven in de tabel op de volgende pagina.
Voor het succesvol inzetten van Big Data-analyses zijn niet alleen geschikte technologieën nodig, maar ook competent vakpersoneel. Big Data Analytics kan alleen worden uitgevoerd met hoog gekwalificeerde specialisten, die de tools en technologieën beheersen en tegelijkertijd in staat zijn de eisen van het vakgebied te begrijpen en IT-matig te implementeren. In de VS is enige tijd geleden de Chief Data Officer (CDO) op C-niveau ingevoerd. Het zwaartepunt van deze functie ligt bij het beheer van gegevens als activa en bij het omzetten in concrete bedrijfswaarde. 6
Big Data-beroepen Functie
Inhoud
Vereiste knowhow
Data scientist
Definieert welke analysevormen het beste geschikt zijn en welke ruwe gegevens nodig zijn, en evalueert deze
Wiskunde, stochastiek, programmeren, SQL en databases, informatietechnologie en netwerken
Data artist
Presenteert de evaluaties op een begrijpelijke manier in de vorm van diagrammen en grafieken
Grafisch design, psychologie, wiskunde, IT en communicatie
Data architect
Maakt gegevensmodellen en definieert wanneer welke analysetools moeten worden gebruikt
Databases, gegevensanalyse, BI
Gegevensingenieur
Ziet toe op hardware en software, met name de analyse-systemen en de netwerkcomponenten
Hardware- en softwarekennis, programmeren
Information broker
Verkrijgt informatie en stelt deze ter beschikking, bijvoorbeeld door klantgegevens of inhouse-gegevensbestanden van verschillende bronnen beschikbaar te maken
Databases, communicatie, psychologie
Wie Big Data-specialisten opleidt Op dit moment kunnen bedrijven echter nauwelijks op dit soort personeel terugvallen. “Data scientist en data artist zijn beroepen waarvoor mensen binnen een twee- of driejarige beroeps-opleiding kunnen worden opgeleid, maar die door het brede karakter nu nog niet bestaan”, zegt Holm Landrock, Senior Advisor van de Experton Group. Er zijn inderdaad maar weinig bedrijven en organisaties die zich inzetten voor een opleiding voor data scientists en data artists – van een grondige opleiding kan geen sprake zijn. IT-bedrijven zoals SAS, EMC en Oracle bieden op zijn minst scholingen en trainingen op dit gebied aan. Ook de Duitse onderzoeksorganisatie
raunhofer biedt actief trainingen voor data F scientists aan. Maar deze snelcursussen zijn een druppel op een gloeiende plaat. De Experton Group beveelt de ICT-branche daarom aan om zo snel mogelijk samen met opleidingsinstellingen (hogescholen, technische scholen, brancheorganisaties en ook de Kamers van Koophandel) nieuwe functie beschrijvingen te maken. Het opleiden van medewerkers voor de functie van data scientist en andere nieuwe beroepen is geen liefdadigheid, maar een goede basis voor toekomstige Big Dataprojecten en daaruit voortvloeiende blijvende zakelijke successen. 7
Welke Big Data-oplossingen zijn er? Er is geen standaardoplossing, maar de afgelopen jaren zijn er verwerkingstechnieken uitgekristalliseerd die nu en de komende jaren als basis dienen voor Big Data-analyses. De ideale manier om de grote hoeveelheid gegevens onder controle te krijgen is het oeroude principe van “verdeel en heers”. Computertaken worden daarvoor in vele kleine deeltaken ontleed en over meerdere servers verdeeld. Als de-facto standaard voor distributed computing zegeviert het door Google ontwikkelde MapReduce-algoritme. Een typische MapReduce-toepassing berekent enkele terabytes aan gegevens op duizenden machines.
MapReduce wordt in de praktijk gebruikt met de softwarebibliotheek Apache Hadoop. Hadoop, dat gegevens in kleinere porties verdeelt en die parallel bewerkt op standaardcomputers, wordt momenteel gezien als de branchestandaard voor Big Dataomgevingen. Met Hadoop kon de Chinese telecomprovider China Mobil bijvoorbeeld het gebruiksgedrag en de verwachte “churn-rate” van alle klanten analyseren. Met de eerder gebruikte “scale up”-oplossing kon het bedrijf slechts de gegevens van ongeveer tien procent van de klanten evalueren. Nu konden alle klantgegevens worden meegenomen, zodat de churn-rate met gerichte marketingactiviteiten kon worden verminderd.
About two-thirds of respondents are extremely/very likely to consider using or to continue to use in-memory databases. (5) Extremely likely (4) Very likely (3) Somewhat likely (2) Not very likely (1) Not at all likely Not familiar with this type of solution In-memory databases (e.g., SAP HANA, Oracle Exadata) Log file analysis software NoSQL databases Columnar databases Hadoop/MapReduce
28
38
15
9
3 6
20
32
26
10
3
20
31
26
9
7
17 15
28 25
28 26
12 12
4 6
9 6 11 15
Bron: How Organisations are approaching Big Data, IDG, September 2013
How likely are you to consider using or to continue to use each of the following big data solutions? Base: 155 qualified respondents who have implemented or have plans to implement big data projects (figures in per cent)
In-memory voor realtime-analyses Een Hadoop-cluster kan echter niet alle Big Data- taken oplossen. Als de gegevens op een vaste schijf staan, kannibaliseert langzame databasetoegang de tijd die met het parallelliseren is gewonnen. Voor een snellere verwerking van extreem grote hoeveelheden gegevens zijn daarom in-memory databases ontwikkeld. Deze databases slaan de gegevens rechtstreeks in het werkgeheugen (RAM) op en roepen ze daaruit op. Daarmee zijn ze circa
1000 keer sneller dan met de conventionele schijftechnologie. Om maximale prestaties te behalen, laden in- memory databases daarom het gehele gegevens volume, samen met de databasetoepassingen, in het hoofdgeheugen, dat natuurlijk groot genoeg moet zijn. Op die manier kan de analyse van bedrijfsgegevens nagenoeg in real-time wor8
den uitgevoerd, in plaats van dat het dagen of weken duurt. Met het intussen erg populaire HANA (High Performance Analytic Appliance) biedt SAP bijvoorbeeld een eigen, op in-memory techniek gebaseerde databasetechnologie, die halverwege 2010 door de geestelijke vader Hasso Plattner en CTO Vishal Sikka van SAP werd ontwikkeld als high-performanceplatform voor de analytische bewerking van grote hoeveelheden gegevens. Ook databasespe cialist Oracle biedt inmiddels met Exadata een op in-memory techniek gebaseerd database-systeem aan. In-memory databases zijn intussen geen niche-onderwerp meer. Volgens een door TNS-Infratest in opdracht van T-Systems uitgevoerd onderzoek gebruikt 43 procent van de Duitse bedrijven al in- memory technologieën voor het evalueren van gegevens, of is dat in de nabije toekomst van plan.
90 procent van de gebruikers heeft daar goede of zeer goede ervaringen mee. (Bron: T-Systems New Study*) De meerderheid van de Duitse bedrijven ziet in- memory methodes vooral als aanvullende module voor tijd-kritische analyses. Al bijna 20 procent van de bedrijven ziet er al een belangrijk antwoord in op de uitdagingen van Big Data. Deze bedrijven verwachten dat in-memory systemen een centraal onderdeel van gegevensanalyseomgevingen worden. Voor ongestructureerde gegevens zijn er daarnaast technieken als NoSQL-databases. NoSQL is daarbij een verzamelbegrip voor “niet-relationele” database-systemen. Tegelijkertijd is het de naam van een beweging weg van de relationele databases naar nieuwe of vergeten databasemodellen. NoSQL-database-systemen kunnen ongestructureerde gegevens zoals teksten, audiobestanden, video’s en beeldmateriaal efficiënt opslaan en verwerken.
Overall, respondents believe that in-memory databases best address big data’s challenges, but there are significant differences by region. Respondents in EMEA are significantly more likely to favor in-memory databases (60%), compared to only 22% in the US and 14% in Brazil. In-memory databases (e.g., SAP, HANA, Oracle Exadata)
30
NoSQL databases
19
Log file analysis software Columnar databases Hadoop/MapReduce Not sure
Bron: How Organisations are approaching Big Data, IDG, September 2013
15 12 11 14
Which of the following solutions do you believe would best address the challenges associated with big data? Base: 147 qualified respondents who are familiar with two or more big data solutions shown in Q.3 (figures in per cent)
Make or buy? Een laatste uitdaging op de weg naar Big Data- succes is de huidige marktsituatie voor Big Dataoplossingen. Meerdere dienstverleners bieden softwaretools op basis van Hadoop aan. Voorbeelden zijn Cloudera, Hortonworks, Datameer en HStreaming, maar ook grote namen als IBM, Intel en EMC.
De leveranciers stuiten echter allemaal op dezelfde grenzen. Geen enkele leverancier heeft gestandaardiseerde brancheoplossingen die snel kunnen worden aangepast aan de eisen van de klant. Vaak moeten de systemen in speciale projecten samen met de klant worden ontwikkeld. 9
Voor bedrijven die de technologie willen gebruiken, vormt dit een klassieke “make or buy”-beslissing. Als analyses slechts één keer worden uitgevoerd of als er relatief grote schommelingen in het gegevensvolume of in de vraag naar analyses zijn, dan is het voordeliger om terug te vallen op cloud-based infrastructuren dan om te investeren in eigen hardware. De grootste Hadoop-cluster van Duitsland bevindt zich momenteel in het data-center van T-Systems in München. Bedrijven krijgen hier Big Data of Analytics-as-a-Service – toegesneden op het relevante tijdstip en de behoefte. Op middellange tot lange termijn moeten bedrijven echter zelf zorgen voor gegevensbeheer, omdat anders een groot deel van de waardevolle informatie verloren gaat. Alleen als er voortdurend met de gegevens wordt gewerkt, bij het testen van hypotheses en het observeren van veranderingen kan het volledige potentieel van Big Data worden benut.
Big Data-oplossingen worden zo een succesfactor, maar ze vergen ook een gerichte transformatie in de richting van de cloud, om de benodigde Big Data-technologieën naadloos in de bestaande infrastructuur te kunnen integreren. Bedrijven moeten bereid zijn aan de bal te blijven en nieuwe ontwikkelingen te integreren. Eén enkel gegevensreservoir dat de Big Data-uitdagingen centraal en ongecompliceerd oplost, zal er ook in de toekomst niet zijn. Naar de mening van Andreas Zilch, analist van de Experton Group, zullen altijd alleen deeloplossingen mogelijk zijn. “Dé superoplossing voor Big Data zal er niet komen.” De komende tijd worden massief-parallelle systemen verwacht, die door parallelle datacrunching nog omvangrijkere gegevens in nog kortere tijd kunnen analyseren dan met de huidige methodes mogelijk is.
Conclusie Om in zeer concurrerende markten met steeds korter wordende productiecycli te kunnen overleven of zelfs te kunnen groeien, moeten bedrijven marktaandelen en verkoopresultaten veilig stellen. Het juiste gebruik van IT maakt daarbij het verschil tussen winnaars en verliezers. Alleen wie heel dicht bij zijn klanten staat, de wensen van de klanten exact kent, Business en IT nauw koppelt en uitlijnt, kan op de lange termijn zijn concurrentiepositie behouden. Bedrijven moeten daarnaast ook in staat zijn om snel goed voorbereide beslissingen te nemen en proactief te handelen. Zo staan ze nu voor de uitdaging om een extreem groeiend gegevensvolume uit steeds meer verschillende gegevensbronnen in steeds kortere tijd te verwerken. Deze gegevens moeten vervolgens worden geanalyseerd, zodat de beslissingen van het bedrijf kunnen worden ondersteund met betere cijfers, gegevens en feiten.
*Bronnen: – Artegic “Marketing in the Digital Age”, 2013 – Experton “Die Entwicklung von Big Data im Jahr 2012” (Experton Big Data) – Gartner “Big Data Opportunities, New Answers and New Questions”, April 2013 (Gartner Big Data) – Gartner PI “Gartner Reveals Top Predictions for IT-Organizations and Users for 2012 and Beyond” (Gartner PI) – IDC “Storage in Deutschland 2013” (IDC Storage) – McKinsey “Big data: The next frontier for innovation, competition, and productivity” (McKinsey Big Data) – Omikron “Datenqualität wird zur Herausforderung von Big-Data-Strategien” (Omikron Data Quality) – SAS-onderzoek “Most firms say business analytics boosts decision-making process” (SAS Desicion Making) – T-Systems-onderzoek “Quo vadis Big Data” (T-Systems Big Data) – T-Systems-PI “Neue Studie: Big Data im Fokus der ICT-Entscheider” (T-Systems New Study)
©IDG Business Media GmbH, Germany 1/2014
10