Big Data: een Introductie
H.Jaap van den Herik1,2,3 Rob van Eijk3 (1) Leiden University, LCDS (2) Leiden University, eLaw (3) Leiden University, CRK
Symposium Ondernemen en Big Data VNO-NCW West
Den Haag, Vereniging VNO-NCW, Bezuidenhoutseweg 12 17 februari 2015, 16.10 – 16.30 uur 1
Dankwoord Graag bedank ik VNO-NCW Den Haag, de Kamer van Koophandel, en het Centrum voor Regionale Kennisontwikkeling van de Universiteit Leiden – Campus Den Haag. Adriaan in ’t Groen bedank ik voor het initiatief. Research is team work over a long period. Thus, the list of collaborators would be long. Below I provide a selection. So, I would like to acknowledge for their help and inspiration: Stan Bentvelsen, Jos Vermaseren, Aske Plaat, Ben Ruijl, Joost Kok, Peter de Kock, Ron Boelsma, Rob van Eijk, JanJaap Oerlemans, Roel in ’t Veld, Liesbeth Boer, Michiel Helvensteijn, Erik Schultes, Joke Hellemons and Eric Postma 2
Uw vragen in de aankondiging: Wat betekent Big Data voor ondernemers? Hoe ziet ons digitale leven eruit?
Gevolgen en Toepassingen voor ondernemers.
3
Inhoud 1. 2. 3. 4. 5. 6. 7. 8.
Wat is Big Data? Waar vinden we Big Data? De rol van Big Data Vijf Stadia Van Correlaties naar Causaliteit? Toepassingen De toekomst van Big Data Conclusie
4
BIG DATA • Definition van Tom White (2012) : “Big Data is the term for a collection of data sets so large and complex that it becomes difficult to process using on-hand databases management tools or traditional data processing applications.” • The challenges capture: 1. curation, 2. storage, 3. search, 4. sharing, 5. transfer, 6. analysis, 7. visualization, 8. interpretation, 9. real-time (van Eijk, 2013)
5
Drie verschillende perspectiven op de ontwikkeling van Big Data (1) Een overvloedige hoeveelheid data resultaten (zoals in het schaken en in de deeltjes fysica)
(2) Een gebrek aan coördinatie tussen de informatie elementen (zoals in 9/11; een positief voorbeeld is Watson) (3) De kracht van Big Data (het gebruik van visualisatie en narrative science) 6
Chess
• • •
Much research has been performed in computer chess DEEP BLUE (IBM) defeated the world champion Kasparov in 1997 FRITZ defeated Kramnik (December 2006) 7
Higgs boson found at LHC 4 July 2012
8
100 petabytes collected so far
9
The breakthrough of the century
Higgs particle
10
From Big Data to Data
Jeopardy!, the game to play
11
Five Challenges and Improvements WATSON is bad in 1. Clues with a complex syntax 2. Clues with Art involved 3. Removing wrong answers that are submitted previously from its considerations 4. Not understanding the answers given by its opponents (embodiment) 5. Employing delaying tactics when answering (stalling)
12
Applications IBM offered WATSON to - Columbia University Medical Center - University of Maryland School of Medicine In the Netherlands, IBM is negotiating on WATSON’s use by a large medical centre In 2014, IBM is setting up a large research institute in New York (2000 researchers)
In November 2014 Volkskrant: Computer verslaat sterrenkok 13
Former IBM Research scientist Lav Varshney presents a demo of an early version of the cognitive cooking technology at IBM Research
.
14
Research question of the future BIG DATA contains (almost) all available knowledge
How to identify and extract relevant knowledge?
15
The role of BIG DATA - Real-time bidding (RTB) happens in 23 milliseconds (0,023 sec.)
16
NOS Journal interview met Rob van Eijk
http://nos.nl/video/527311-handel-in-een-fractie-van-een-seconde.html 17
The role of BIG DATA Social-economic Ph.D theses from 1970 to 2000 are frequently “outdated” by BIG DATA developments.
- Deep Knowledge vs. Partial Knowledge
18
Successful Commerce requires Speed Even superficial profiling leads to surprisingly good results.
For instance, when • Looking for holiday destination • Buying book online • Searching for houses online
→ Key is Commerce Requirements to ads: clear and fast Real-time bidding happens in 0.023 seconds This is necessary otherwise the Web visitor has left. 19
Ideas on INNOVATION
Technological Innovation
Social Innovation
Cloud Crowd Narrative Science
The new way of working Communication via Social Media Tracking & Tracing of the Individual
Kan het?
Mag het?
20
Five Stages of Big Data Research 1. Interpretation 2. Understanding 3. Visualisation 4. Narrative Science 5. Emergent Behaviour
21
Napoleon
22
Narrative Science BIG DATA:
- collection - awareness - usage
How did it happen that way? - generation of data (collection) - visualization of data (Napoleon) - narrative science (which story is in BIG DATA? e.g., Wiki Leaks?) Other names are: - storytelling - argumentation theory 23
Narrative science • Finding the causations behind the correlations: make a story • Examples: – Boston April 2013 – Google Flu chart
Future for AI: Reason about correlations to predict causations Research: (1) using partial correlations (2) testing the correlations in a model 24
An application of narrative science
25
Quill
26
Computational Turn: From causality to correlation • Sampling is no longer at stake. Nowadays data from big populations (Twitter feeds, clicking behavior, Facebook data) are important. • Insight into causal relations has lost its importance at many places. • Correlation (what works well and what not) has taken over priority. This development is called Computational Turn. • Computational Turn asks for reflection from economics, law, social sciences, behavioral sciences, and philosophical perspectives.
27
From Correlation to Causality
28
Chocolate Comsumption and Nobel Prizes: A Bizarre Juxtaposition if there ever was one. By Ashutosh Jogalekar, November 20, 2012, Scientific American
29
Eleven Applications 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Safety (politics, military) Public Safety (Live View) Example 1 Commerce (ads) Banking (money streams) Health care Example 2 Judiciary (CODR) Waterway transport Example 3 Communication (twitter, phablet) Education (MOOC) Public governance Warfare (Multi Agent Systems, Socio Cognitive Models)
MOOC = Massive Open Online Courses 30
Public Safety
31
Flu prediction from correlation with Google search results
32
The places of all vessels at one moment
33
The Start of the Future Four Recent Applications: 1. Football Analytics
2. Legal Analytics
3. Airplane Emergency Analytics 4. Anticipating Criminal Behaviour 34
Football Analytics
35
Pointers to Football Analytics • http://world-cup-2014.squawka.com/netherlands-vs-costarica/05-07-2014/world-cup/matches • http://www.whoscored.com/Regions/155/Tournaments/13/ Netherlands-Eredivisie • http://www.statsbomb.com/category/player-analytics/ • http://www.fifa.com/worldcup/statistics/index.html
36
Legal Analytics Lawyer as a profession is in discussion by the current development. - Search (e-discovery) - Knowledge handling - Prediction (Avond voor de Wetenschap, samen met Jan-Jaap Oerlemans, eLaw)
37
Zoeken naar
(1) relevante informatie (2) precedenten (die relevant zijn voor een geheel nieuwe casus) Knowledge handling voor (3) invullen van formulieren (4) schrijven van vonnissen Predicties (door advocaten) voor (5) voorspellen afloop van een casus In de VS is een duidelijke terugloop waarneembaar van studenten aan een Law School 38
De computer bleek deels op andere dingen te letten dan de mens. Het is bijvoorbeeld moeilijk te zien of iemand openstaat voor nieuwe ervaringen, een belangrijk onderscheidend persoonlijkheidskenmerk, maar de computer ‘begrijpt’ dat mensen voor wie dat geldt geneigd zijn Salvador Dalí, meditatie en Tedtalks te liken. Een computer haalt dit uit de enorme hoeveelheden data. Voor een mens is dat (te) moeilijk. 40
Conclusie De conclusie ligt in de ontwikkeling. Voor een ieder die zich bezighoudt op het gebied van Technologische Innovatie en van Social Innovatie is de volgende Extrapolatie duidelijk.
41
Uitdagingen 1. 2. 3. 4. 5.
Higgsdeeltje → Nieuw standaard model Ondernemen met Big Data Snellere Communicatie Intelligent Oorlog voeren Artificial Intelligence Rules the World
42