Inleiding Big Data VOGON Studiemiddag 'Data revolution, waarde halen uit Big data‘ Eric van Tol
Point Break
Big Data in bedrijf
Zucht
Overzicht Business Case
Peter Fader, codirector of the Wharton Customer Analytics Initiative at the University of Pennsylvania
Zucht, eerst nog…
" But ask anyone today what comes to mind when you say "CRM," and you'll hear "frustration," "disaster," "expensive," and "out of control.” And I'm afraid we're heading down the same road with Big Data.
Hadoop open source omgeving analyse en bewerken van grote hoeveelheden veelal ongestructureerde data.
Productoverzicht
Laatste 2 jaar ontvingen 119 database software leveranciers $1.17 miljard venture-capital
Dow Jones VentureSource
Zucht Overzicht Business Case
Zucht Bijna 50% heeft belangrijkere zaken te doen Overzicht Voor 7% (Benelux 13%) heeft big data prioriteit Business Case 25% heeft een business case
Bron: Big Data - beyond the hype a study by Interxion
62 % Europese organisaties binnen drie jaar Big Data prioriteit
Bron: Big Data - beyond the hype a study by Interxion
Elke Minuut: 204,166,677 e-mail messages
Elke Minuut: 100 uur You Tube Filmpjes
Elke Minuut: 100,000 tweets
90% van de data is ongestructureerd Exponentiële groei data
Kilobyte Megabyte Gigabyte Terabyte Petabyte Exabyte Zettabyte Yottabyte
103 bytes 106 bytes 109 bytes 1012 bytes 1015 bytes 1018 bytes 1021 bytes 1024 bytes
Petabyte
Terabyte
February 2001 Doug Laney, an analyst with the Meta Group, publishes a research note titled “3D Data Management: Controlling Data Volume, Velocity, and Variety.”
Big Data onderzoek Het is te veel Het groeit te snel Het is te ongestructureerd Veel: Veranderlijk: Ongestructureerd:
Terabyte, Petabyte, Exabyte, Zettabyte, Yottabyte,.. Twitter gedrag, golfhoogtes, You-Tube filmpjes,.. Tekst, video, spraak, foto’s, natuurlijke taal,..
Veel Vaart Big Data
Variatie
Verzekeringsfraude vaststellen door automatische analyse van alle declaraties. Aandelenwaarde voorspellen door sentiment analyse van twitter berichten. Opzegging van telefoonabonnees voorkomen door alle belgegevens te verwerken. Het profiel van de ‘zwevende’ keizer kennen door alle relevante social media te gebruiken
Date: 31-01-2012 Technology Review Surveillance Video Becomes a Tool for Studying Customer Behavior
beveiligingscamera’s in kaart gedrag klanten. beelden gebruiken als blikvanger op, Facebook fanpagina.
Big Data een reële markt (groei 58% tussen nu en 2017)
1997 IBM Deep Blue verslaat G. Kasparov
Alle combinaties doorrekenen
Breekpunt
2011 IBM Watson wint Jeopardy quiz
Meest waarschijnlijke antwoord bepalen uit Big Data
Waarom nu een “Big Data” breekpunt? • Logisch gevolg van digitalisering (data communicatie en rekenkracht is goedkoop) • “kritische massa” aan data beschikbaar • Algoritmen beter door veel data.
leeralgoritme van Google toegepast op You-Tube
leert zichzelf wat een kat is.
Big Data kernbronnen zijn gebruikers en sensoren Sensoren:
Gebruikers:
“internet of things”, elk apparaat een IP adres en veel mobiele apparaten toepassingen (Web 2.0) en Social Media
goud
olie
synthetische drugs
Big Data gereedschappen
inname interpretatie
filter
analyse
Big Data Visualisatie
3D visualisatie weermodel M.Koutek KNMI In de CAVE van Sjaak Verwaaijen
Consument data Real Time en voorspellend Profiling
Personalisatie Integratie Digitalisatie
Consument Self service Vaststellen sentiment Beïnvloeden gedrag Meer betrokken
2015 4.4 miljoen experts nodig Te kort
Hadoop Hacker De DevOp (ontwikkelaar en engineer) Kennis en ervaring met Big Data gereedschappen en methoden
Data Detective De Big Data domein expert en analist Vertalen business vraag naar Big Data vraag
Demonizing data Privacy en vertrouwelijkheid “Race Against the Machine” automatisering kenniswerker Open of Gesloten data
Democratizing data Cloud Open Source Open Data
Big Data Schuldigen
Date: 01-11-2012 Source: The Economist Subject: Deus ex machina
Voters are being targeted in new and powerful ways
Voter-registration files have been merged with vast quantities of bought consumer data, on top of which come bought or acquired e-mails, mobile and landline numbers, as well as data gathered through canvassing, phone banks and socialmedia pages. The campaigns are also making use of cookies, the crumbs of data people leave behind when they browse the net.
Date: 07-06-2013 Source: Associated Press Subject: Is Big Data Turning Government Into Big Brother?
Date: 07-06-2013 Source: The Guardian Subject: NSA PRISM program taps in to user data of Facebook, Yahoo and others
CEO Google Larry Page grootste database op aarde 56
Google makes up 25% of Internet traffic $1 billion each quarter over the past few years on infrastructure investments.
Derde server leverancier Tweede netwerk Spanner
Door Big Data meer…. • Combinaties van verschillende databronnen • Lineair schaalbare performance door (parallel processing en ‘in memory’ storage) • Buitenshuis ICT (cloud en externe bronnen) • Structureren van data tijdens de Query
Door Big Data meer…. • • • • • •
‘Realtime’ Voorspellend en optimaliserend Visualisatie Integratie en beheer Hyper agile Domein kennis nodig voor succes
Point Break
Creëren van een open onderzoeks houding Realiseren van aanpasbare ICT infrastructuur Betrekken verschillende disciplines en vooral van buiten
Point Break