WHITE PAPER
Big-Data Analytics De eerste concrete toepassingen laten zien dat het gebruik van big data analytics met de cloud vaak effectiever, goedkoper én eenvoudiger is dan veel bedrijven denken. In de meeste gevallen is het zelfs ook veiliger. Organisaties zitten vaak op een ‘berg goud’ zonder het zelf te beseffen: namelijk data. Data over klanten, over processen, over veranderingen in de externe omgeving. Die data staan verspreid over verschillende systemen: ERP, CRM, kassainformatie, informatie over klikgedrag op de website, conversaties op social media en ga zo maar door. Als deze data worden samengevoegd en automatisch worden geanalyseerd, kan dit heel nuttige stuurinformatie opleveren. Informatie om belangrijke strategische beslissingen beter te kunnen onderbouwen, real-time beslissingen te nemen over kansen en risico’s, en informatie om de vele kleine dagelijkse beslissingen met intelligentie ondersteund of zelfs volledig geautomatiseerd te nemen.
Solvinity is de naam waaronder ASP4all en Bitbrains samen verdergaan. Bij een nieuwe naam hoort een nieuwe uitstraling en daarom zijn de actuele klantreferenties van beide bedrijven omgezet naar het Solvinity-merk.
1
De vijf V’s van big data De term big data is een hype en wordt daarom te pas en te onpas gebruikt. Het woord suggereert bovendien dat het vooral om de omvang van data gaat, terwijl het grote onderscheid met traditionele BI juist zit in het feit dat niet alleen gestructureerde, maar ook ongestructureerde data kan worden geanalyseerd. Wij werken daarom graag met de veelgebruikte vier of vijf V’s: Volume: de omvang van de datasets. Velocity: de snelheid waarmee data wordt gegenereerd, rondgestuurd en gebruikt. Variety: verschillende vormen van data, naast gestructureerde data ook ongestructureerde data zoals gesprekken van het call center, conversaties op social media, foto’s en video’s. Veracity: onzekerheid over de juistheid van data, door typefouten en door de inhoud van de boodschap. Value: deze V wordt vaak over het hoofd gezien, maar wij vinden ‘m erg belangrijk. Het gaat er immers niet om zoveel mogelijk data te verzamelen, het gaat erom waarde te halen uit de data.
Inspirerende voorbeelden Ter inspiratie bieden wij u enkele voorbeelden van big data analytics. De toepassingen in uw organisatie zullen waarschijnlijk op net wat andere gebieden liggen, maar door deze voorbeelden te vertalen naar uw eigen situatie doet u wel ideeën op die u zelf kunt inzetten.
2
WHITE PAPER
Reference case 1
Live heatmap op K(r)oningsdag De gemeente Amsterdam vreesde op Kroningsdag voor grote opstoppingen in de stad. Daarom heeft de gemeente Amsterdam een website en app laten maken (Waarisdekoning.nl) met een heatmap, die de drukte in Amsterdam toonde en die liet zien waar het koningspaar zich op dat moment bevond. De heatmap had een continue toestroom van data uit Twitter. Bezoekers konden op basis van deze heatmap beslissen waar langs de route ze wilden gaan staan om de nieuwe koning en koningin toe te juichen. Behalve de heatmap lieten de website en app ook een twitter-stream zien over de kroning. Kroningsdag is succesvol verlopen. De website en de Waarisdekoning.nl-app waren goed voor 7,4 miljoen hits. Gemiddeld hadden de website en app ruim vijfhonderd gelijktijdige gebruikers, met uitschieters tot ver boven de duizend. Dit leidde tot een continue data-stroom van ongeveer 100 Mbps. De achterliggende infrastructuur was een elastisch cloud computing platform dat bestond uit 39 servers die voor
beschikbaarheid en fouttolerantie waren verspreid over meerdere datacenters. Deze machines waren samen goed voor 152 cores en 588 GB aan RAM. Daarnaast zorgden twee Storm-clusters met Mongo DB voor de ‘real-time’ analyse van de Twitter-streams, terwijl een Hadoop-cluster de analyse van de big data verzorgde. De oplossing die Solvinity bood met deze configuratie kan voor ieder ander grootschalig evenement eenvoudig worden hergebruikt, bijvoorbeeld voor festivals, nationale feestdagen, sport evenementen of zelfs noodsituaties. Het kan zelfs binnen enkele uren worden uitgerold. Een waardevolle toevoeging hierop die Solvinity kan realiseren is een real-time analyse van tweets om in de gaten te houden wat er op welk moment waar in de stad gebeurde. Over zaken als bijvoorbeeld vechtpartijen verschijnen vaak sneller tweets online dan dat de politie telefonisch wordt gewaarschuwd. Analyse van twitterberichten is daar- mee een goede manier om de veiligheid van grootschalige evenementen te verhogen.
3
Terasort test geeft inzicht in analysesnelheid Voor sommige analyses is snelheid van cruciaal belang. Als de politie in Amsterdam pas een half uur later de resultaten krijgt van de analyse van tweets kan een kleine ruzie tussen twee mensen al zijn ontaard in een grote vechtpartij. Daarom voert Solvinity regelmatig performancetesten uit op zijn Hadoopomgeving die wordt gebruikt voor big data analytics. De Terasort test wordt gebruikt om te meten hoe lang het duurt om een terabyte aan data te analyseren en is daarmee vergelijkbaar met bijvoorbeeld de nul tot honderd-test in de autowereld. Het Solvinity Hadoop-platform scoort 6 minuten en 1 seconde, met gebruik van een 6-CPU systeem met 24GB RAM en 6TB disk ruimte. Ter referentie, Cisco haalt deze 1TB test in 5 minuten, maar heeft hier- voor 32 CPU’s , 256GB RAM en 24TB disks nodig. Dat is 400-500% meer versnelling (en kosten…) voor een bescheiden 15% meer prestatie.
4
6min 1 sec
6-CPU
24GB RAM
6TB
WHITE PAPER
Reference case 2
Hogere genezingskans door clinical analytics Ziekenhuizen maken in toenemende mate gebruik van analytics. Dit doen ze enerzijds om hun operationele en logistieke processen te verbeteren. Bijvoorbeeld een betere OKplanning rekening houdend met zowel de instroom van patiënten, de beschikbaarheid van chirurgen, anesthesiologen en ondersteunend personeel en de bedbezetting in de kliniek. Door schaarse capaciteit efficiënter te plannen, kunnen ziekenhuizen forse kostenbesparingen realiseren. Daarnaast is clinical analytics in opkomst. Als dokters meerdere behandelopties hebben, kunnen ze beter beslissen als ze de outcome weten van die verschillende behandelingen bij patiënten in een vergelijkbare situatie. Het gaat daarbij al snel om grote hoeveelheden data, die afkomstig zijn uit vele verschillende bronnen. Gestructureerde data afkomstig uit het elektronische patiënten dossier, maar ook om beelden van MRI- of CT-scans, echografieën, hartfilmpjes en zelfs berichten van patiënten op social media over hoe zij hun behandeling hebben ervaren. Sommige ziekenhuizen koppelen externe databronnen aan hun dataplatform, zoals weerinformatie van het KNMI (van invloed op veel longaandoeningen) of statistische informatie van het Sociaal en Cultureel Planbureau over de sociale status van de wijk waar iemand woont (mensen uit lagere sociale klassen hebben bij een IC-opname een grotere kans op overlijden dan mensen uit hogere sociale klassen). Veel ziekenhuizen gebruiken de oplossingen van SAS om deze big data te analyseren. Ze draaien die platformen vaak in hun eigen datacenter. Het gaat immers wel
om zeer privacygevoelige informatie die ze liever niet buiten de deur plaatsen. Echter, in toenemende mate realiseren ziekenhuizen zich dat zij zelf niet voldoen aan de groeiende hoeveelheid compliance eisen, zoals in een SOC2-verklaring op het gebied van beveiliging, beschikbaarheid en vertrouwelijkheid van data. Hun data staat veiliger in het Solvinity datacenter dan in hun eigen omgeving. Bovendien kunnen ze door te outsourcen naar Solvinity niet alleen gebruikmaken van de complexe analytische oplossingen van SAS, maar ook van de diepgaande kennis van Solvinity om dit soort analyses uit te voeren. Daarnaast biedt het Solvinity datacenter beveiliging, beschikbaarheid en vertrouwelijkheid op een niveau dat de meeste ziekenhuizen niet zelf kunnen bieden. Solvinity heeft een lang track record in de medische wereld, met name op het gebied van High Performance Computing (HPC). Eén van onze klanten was het aan het UMC St. Radboud verbonden Centre for Molecular and Biomolecular Informatics (CMBI). Zij namen rekencapaciteit af in de cloud voor onderzoek naar eiwitstructuren. Solvinity bood CMBI de flexibiliteit om snel met de berekeningen te starten en ver op te schalen. En dat tegen relatief beperkte kosten omdat CMBI alleen betaalde voor de afgenomen capaciteit. Bovendien stond de data bij Solvinity veiliger dan op eigen servers. De SOC2-rapportage, wat staat voor Service Organization Control, geeft klanten het vertrouwen dat de dienstverlening voldoet aan alle (inter)nationale eisen op het gebied van beveiliging, beschikbaarheid en vertrouwelijkheid.
5
Reference case 3
Olympisch goud door videoanalyse De Nederlandse rugbydames wilden graag naar Rio de Janeiro. Bij de zomerspelen van 2016 staat rugby voor het eerst op het programma, in de spelvariant Sevens. Hierbij bestaan de teams uit zeven spelers die twee keer zeven minuten spelen, terwijl in de normale competitie teams bestaan uit vijftien spelers die twee keer veertig minuten spelen. De snelle spelvariant Sevens vereist een andere tactiek alsmede andere fysieke vaardigheden. Om speltactieken te analyseren en de fysieke tekortkomingen van de speelsters snel bloot te leggen heeft NOC-NSF de rugbybond voorgesteld om te werken met beeldanalyse. Gareth Gilbert, hoofdcoach Dames Rugby Sevens, zegt: ‘In topsport zijn het vaak de kleine dingen die een groot verschil maken. Met behulp van data-analysetechnieken kunnen we spelers en teams op fysiek, technisch en tactisch niveau bestuderen. Hiermee verhogen wij onze kennis van kleine details die leiden tot een beter spelinzicht. We hopen dat dit leidt tot een podiumplek in Rio.’ Nederland loopt wereldwijd voorop als het gaat om de toepassing van real-time
6
analyses in sport. Chef de mission van de Olympische zomerspelen van 2012 Maurits Hendriks experimenteerde er volop mee in zijn jaren als bondscoach van de Nederlandse hockeyheren. Hij spreekt uit ervaring als hij zegt: ‘Als coach zie je niet alles wat er op het veld gebeurt. Door een hockey- of rugbywedstrijd met drie widescreen camera’s te filmen, heb je wel een totaaloverzicht. Door onmiddellijke beschikbaarheid op een tablet kan een wedstrijd real-time worden geanalyseerd; hier kan je heel veel informatie uit halen. Bijvoorbeeld dat de spits van de tegenstander net wat minder snel sprint dan normaal, misschien doordat hij een kleine blessure heeft. Dat is zinvolle informatie voor jouw verdedigers.’ Videoanalyse leidde al tot Olympische successen in sporten als hockey, zwemmen, turnen (Epke Zonderland) en BMX. NOC NSF verwacht er ook veel van voor de rugbydames. Zij besteden de data-analyse uit aan Capgemini. Capgemini maakt gebruik van het SAS Visual Analytics (VA) platform dat Solvinity als standaarddienst aanbiedt. Capgemini koos voor Solvinity vanwege de snelheid en betrouwbaarheid van het onderliggende platform.
WHITE PAPER
Stel de businessuitdaging centraal
Big data analytics uit de cloud
Deze voorbeelden laten stuk voor stuk zien dat het zakelijke, maatschappelijke of sportieve resultaat centraal moet staan bij big data analytics. Wij zien helaas nog veel organisaties die de technologie als uitgangspunt nemen. Een veelgehoorde vraag op congressen en evenementen is: doen jullie iets met Hadoop? Dat is in onze ogen de verkeerde vraag. Technologie is tenslotte slechts het middel, niet het doel. De technologie geeft geen antwoord op de vraag welke waarde uit data moet worden gehaald. Die vraag moet worden beantwoord door de business, daarbij geholpen door de CIO of IT- manager, wiens rol het is om de business te informeren over de mogelijkheden en te inspireren met voorbeelden. Ziet een organisatie de meerwaarde van big data analytics, dan is het al snel verstandig het eigenlijke werk over te laten aan specialisten. Want een specialisme, dat is het.
De technologie is zo complex geworden en de benodigde investeringen om een big data platform in eigen huis te bouwen en onderhouden zo hoog, dat het in de meeste gevallen verstandiger is om gebruik te maken van de cloud. Veel cloud leveranciers bieden bovenop hun IaaS-omgeving Hadoop aan als platform voor big data analytics. Daarmee komt de technologie binnen bereik van een grote groep organisaties. Maar let op. Met technologie alleen bent u er niet. Bij het werkend krijgen van big data analytics vanuit de cloud komen veel technische uitdagingen kijken. Zoals een racewagen niet rechtevenredig sneller wordt naarmate je meer pk’s toevoegt, zo is een big data analytics omgeving in de cloud niet rechtevenredig schaalbaar naarmate je meer CPUcapaciteit ter beschikking stelt. En evenmin komen er meer bruikbare antwoorden op vragen als je meer databronnen toevoegt. Het komt allemaal aan op een goede tuning. Als je dan na heel lang zoeken de balans hebt gevonden tussen cloud, HPC en big data analytics, dan betekent dat nog niet per definitie een betere performance. Want niet alle applicaties zijn ontworpen om te schalen. Of misschien is de applicatie zelf wel schaalbaar, maar de gebruikte middleware niet. Big data analytics in de cloud is meer dan techniek. De echte snelheid wordt bepaald door de mens: het team dat alles op de juiste manier moet afstellen. Een team dat dit bovendien dagelijks doet en alle benodigde componenten standaard op de plank heeft liggen, waardoor het heel snel en flexibel kan reageren.
7
Randvoorwaarden Of u voor big data analytics nu gebruikmaakt van Apache Hadoop, Storm of de analytische oplossingen van SAS, een aantal randvoorwaarden moeten altijd op orde zijn:
Toegang tot data Data worden opgeslagen in verschillende systemen: ERP, CRM, Outlook, het social media platform, het audiofilesysteem in het contactcenter en ga zo maar door. Ze worden bovendien in verschillende bestandsformaten opgeslagen en op verschillende manieren: op disk, flash memory, soms zelfs op tape. Data kan ook binnekomen via real-time feeds. Omgaan met zoveel verschillende databronnen en daar betrouwbare resultaten uit weten te halen is een zeer gespecialiseerde taak.
Beveiliging en beschikbaarheid Het is van belang dat een cloud provider alle noodzakelijke beveiligingsmaatregelen heeft genomen. Controleer wat de provider doet om te voorkomen dat de omgeving down gaat, waardoor u niet meer bij uw data kunt. De beste methode daarvoor is vragen om een SOC2-verklaring. Dit geeft de zekerheid dat de dienstverlening voldoet aan alle (inter) nationale eisen op het gebied van beveiliging, beschikbaarheid en vertrouwelijkheid
Performance Hadoop en Storm zijn ontworpen voor big data, maar het platform moet wel worden beheerd om de beste prestaties te halen. Het vraagt diepgaande kennis en expertise van het platform en de applicaties om in een Hadoop- of Storm-omgeving de SLA’s te halen die uw interne klant vraagt.
Integratie Het is noodzakelijk dat Hadoop of Storm aansluit en zich verhoudt tot de andere componenten in uw infrastructuur. De slimste bedrijven combineren ideeën en inzichten uit big data met hun traditionele databronnen (BI). Zie BI en big data dan ook niet als twee omgevingen maar probeer ze te combineren.
8
WHITE PAPER
Over Solvinity Solvinity ontwikkelt innovatieve klantgerichte oplossingen en biedt bedrijven met hoge security-eisen een veilige toegang tot de private, public en hybride cloud. Solvinity is gespecialiseerd in clouddiensten voor managed hosting, analytics, workplace en security. De onderneming is expert op het gebied van hosting van kritische infrastructuren. Onder het motto ‘Secure and compliant by design’ is Solvinity gecertificeerd op basis van internationale en nationale normen zoals ISO27001, ISO14001, ISAE3402 type II, SOC2 en NEN7510. De jaaromzet bedroeg 35 miljoen euro in 2014. Er zijn 180 werknemers werkzaam in Nederland. Kijk voor meer informatie op www.solvinity.com/nl, of volg Solvinity op Twitter en LinkedIn. Postadres Solvinity B.V. Postbus 58 1270 AB Huizen
Bezoekadres Solvinity B.V. Energieweg 8 1271 ED Huizen
T +31 (0)35 523 26 26 F +31 (0)35 523 26 27 www.solvinity.com/nl
[email protected]
ABN AMRO Bank NL56ABNA059459879 KvK 34274680 BTW nr. NL818016024B01
9