Geen Big Data zonder Small Data
Norman Manley IT Analyst
Big Data -‐ een defini;e Big data is de naam die wij geven aan een verzameling van gegevens d ie z o g root ( en c omplex) i s d at d ie n iet m eer t e verwerken valt met tradi;onele IT applica;es. Over het algemeen is het volume minstens duizend keer groter dan tradi;onele data bronnen “Je kunt data hebben zonder informa;e, maar je kunt geen informa;e hebben zonder data." Daniel Keys Moran – Amerikaanse schrijver
© Decision Support Systems 2014
Small Data -‐een defini;e Data (small data) is synoniem voor gegevens; en Van Dale gedefinieerd dat als “bekende feiten waaruit je gevolgtrekkingen kunt maken”. Maar als de feiten niet juist zijn dan zullen wij verkeerde gevolgtrekkingen maken! Factuur Datum 22/01/2014 24/01/2014 27/01/2014 28/01/2014 07/02/2014 14/02/2014 21/02/2014
Klant
Land
Mondea Physter Technology Copenhagen Airports A/S Vista G roup Global Information DataPad Inc Scrip Companies
Netherlands Czech Republic Denmark Finland USA United States USA
Euros e xcl BTW 795.00 795.00 795.00 575.00 709.01 795.00 795.00
© Decision Support Systems 2014
BTW 166.95 0 166.95 120.75 0 0
Totaal 961.95 795.00 961.95 695.75 709.01 795.00 795.00
Factuurnummer Betaling 2014.416 2014.417 2014.421 2014.423 2014.441 2014.451 2014.464
iDeal Visa MC MC Invoice MC PayPal
Het doel van het werken met data ! het beschikbaar stellen van een consistente, accurate en ;jdige bron van verwerkte data die beslissingen ondersteunen ! het beschikbaar stellen van historische informa;e als enige basis voor vergelijkende en voorspellende analyses ! het integreren van data uit verschillende bronnen (zowel intern als extern) ! het creëren van “één bron van de waarheid” die wij nodig hebben om betere beslissingen te nemen © Decision Support Systems 2014
Waar komt de data vandaan?
© Decision Support Systems 2014
Small Data -‐ gestructureerd ! Applica;es van de organisa;e ! Spreadsheets! Big Data – vaak ongestructureerd ! Processen van de organisa;e: me;ngen, websites, apparatuur ! Communica;e: e-‐mail, rapporten, presenta;es ! Sociale media: Facebook, LinkedIn, Twicer ! Sensoren: temperatuur, weer, files, regen ! Archieven: oude documenten, oude films
Ongestructureerde data -‐ een defini;e Ongestructureerde data is niet direct als veld in een database benaderbaar. Hierbij kan het gaan om allerlei soorten documenten zoals Office documenten, maar ook PDF, XML, e-‐ mailberichten, afeeldingen, video's en geluid. De inhoud bevat vaak datums, cijfers en andere feiten, maar is met moeilijk te interpreteren met de huidige technologie. VOORWOORD VAN DE CEO van Aalberts Industries We hebben in 2013 opnieuw een goed jaar gerealiseerd. Vooral in de tweede jaarheli namen de orders in diverse markten sterk toe. Deze ontwikkeling vertaalde zich in een omzetgroei van 3% (autonoom +4,1% tegen constante wisselkoersen) en een EBITA-‐groei van ruim 10% voor diezelfde periode. Over het gehele jaar steeg de omzet naar EUR 2.040 miljoen (autonoom +1,2% tegen constante wisselkoersen). Het bedrijfsresultaat (EBITA) nam eveneens toe, met 3% naar EUR 225 miljoen; de EBITA-‐marge kwam uit op 11,0% © Decision Support Systems 2014
Big Data is een aanvulling ! Big Data is een aanvullende bron, niet iets dat op zichzelf staat ! het doel is om de bestaande data te completeren ! “omzet” uit Big Data heei dezelfde defini;e als “omzet” uit Small Data ! kwaliteit is even belangrijk: zo niet is Big Data gewoon veel slechte data © Decision Support Systems 2014
Hoe wij dingen noemen is belangrijk Hoeveel heb ik verkocht?
Omzet
= € 100,000
Hoeveel kan ik boeken?
= € 96,422 © Decision Support Systems 2014
Data kwaliteit – een probleem? Net zoals de meeste IT analisten ben ik er van overtuigd dat de kwaliteit van de data een groot risico vormt voor onze besluitvorming – het probleem is dat de kwaliteit van de data zo slecht is dat wij dit niet kunnen bewijzen!
Norman Manley, IT analyst © Decision Support Systems 2014
Small data – wat zijn de problemen? • de bestanden hebben vele verschillende formaten dat het lezen erg moeilijk kan maken • het is vaak onzeker wat de inhoud van een rubriek is (en ook wat het betekend) • privacy is een probleem – mogen wij iets zien, en mogen wij er iets meedoen? • data ontbreekt vaak (zowel individuele rubrieken als delen van bestanden) • data is niet actueel © Decision Support Systems 2014
Het Data Integra;e proces – de basis elementen
© Decision Support Systems 2014
Big Data -‐ wat heei het voor nut?
© Decision Support Systems 2014
Hoe nutg is big data? De vier motoren van een Boeing 747 zouden op één vlucht van Amsterdam naar New York meer data genereren dan de meeste bedrijven in één jaar.
De vraag bliji: moeten wij de data allemaal bewaren, zo ja voor hoelang, en hoe gaan wij die gebruiken om informa;e te genereren waar wij iets aan hebben? © Decision Support Systems 2014
Dat is heel veel data!
© Decision Support Systems 2014
Big Data successen Vestas, een Deense fabrikant van windmolens gebruikt data van meer dan 35.000 meteorologische meetstations en van 45.000 eigen turbines. Zo bepalen zij de beste locaties, qua wind stromen, om nieuwe windmolens te plaatsen. Zij verwachten 24 petabytes data te verzamelen (nu hebben zij 2,8 petabytes). Het analyseren van één nieuwe locatie is terug gebracht van enkele weken naar 15 minuten.
© Decision Support Systems 2014
Big Data successen Los Angeles en Santa Cruz politie, hebben samen met PredPol (een software leverancier) en een wiskundige van de universiteit van Santa Clara een systeem 2 ontwikkeld dat tot 50 m nauwkeurig aangeeft waar men crimineel activiteit kan verwachten. Een combinatie van historische en data van “live” camera’s wordt gebruikt om te voorspelen waar de politie naartoe moet om o.a. inbraken te voorkomen. Inmiddels is het aantal inbraken met 33% gedaald. Het systeem heet “predictive policing” © Decision Support Systems 2014
Conclusies ! als de Small Data niet goed werkt dan heei Big Data geen kans ! Big Data op zich heei geen waarde – maar het geei de mogelijkheid om nieuwe inzichten te generen ! alles draait om accuratesse – slechte data kwaliteit leidt tot informa;e die nog slechter is © Decision Support Systems 2014
"Not everything that can be counted counts, and not everything that counts can be counted." William Bruce Cameron “Informal Sociology: A Casual Introduc;on to Sociological Thinking” 1963
© Decision Support Systems 2014