WAT DOEN WE MET DE OVERVLOED VAN DATA? seminar:
‘Fraude en criminaliteit bestrijden met basisregistraties’ 22 januari 2013, 12:30 uur Media Plaza Utrecht
Prof. dr. ir. Theo de Vries Universiteit Twente Dutch Fraud Initiative (DFI)/Fac. Gedragswetenschappen Onderzoeksmethodologie, Meetmethoden en Data-analyse
1.Inleiding 2.Het data universum 3.Big Data 4.Van data naar interpretatie 5.Privacy 6.Afsluitende opmerkingen
T. de Vries 220113
1.Inleiding
Valt er iets van de geschiedenis te leren? T. de Vries 220113
Carl Sagan on Cosmos
T. de Vries 220113
500.000 rollen
T. de Vries 220113
Eerste druk 1514 (of 1516), eerste alfabetische en systematische ordening van “common law” T. de Vries 220113
Diderot
D‘Alembert
T. de Vries 220113
revolutie
Andere zoekstrategiën
2. Het data universum
Wat is het? Hoe groot is het? Hoe groeit het? T. de Vries 220113
IN
UIT
We weten wel wat we er in stoppen, maar we weten meestal niet wat we er uit kunnen halen. In feite zoeken we dingen op zoals in een encyclopedie. T. de Vries 220113
Over het algemeen geldt dat met een toename van de datahoeveelheid de mogelijke hoeveelheid informatie meer dan proportioneel toeneemt. T. de Vries 220113
Kilo
103
Mega
106
Giga
109
Tera
1012
Peta
1015
Exa
1018
Zetta 1021 T. de Vries 220113
Bron: Roy Williams, “data powers of ten” Web page Caltech
T. de Vries 220113
TIEN JAAR EXPONENTIËLE GROEI VAN DATA UNIVERSUM 9000
Groei 50% per jaar
8000 7000 6000 5000 Exabites
4000 3000
REVOLUTIE 2: BIG DATA
2000
1000 130 Eb
0 2005
2007
2009
2011
HMI 2009, R. Miller 2011, Chris Yiu The Big Data Opportunity 2012, T. de Vries 2013
2013
2015
T. de Vries 220113
NEE Ca. 90% van het data-universum is “ongestructureerd”, Dwz. : niet of moeilijk systematisch toegankelijk
10% is dat dus wel: ca. 400 EB (2013) EMC 2007 T. de Vries 2013
T. de Vries 220113
3. Big Data
Een buzzwoord? T. de Vries 220113
Er is wat aan de hand…
Big data: The next frontier for innovation, competition, and productivity McKinsey Global Institute 2011
T. de Vries 220113
De explosieve groei van de data creëert zijn eigen dynamiek •De mogelijkheden tot analyse van zeer grote databestanden nemen toe (software ontwikkeling) •Slechts een derde van bedrijven/overheid maakt effectief gebruik van hun data •Data analytics groeien ook explosief, te weinig deskundig personeel •Adaptie bedrijven op nieuwe situatie problematisch
EMC Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field (2012) T. de Vries 220113
De explosieve groei van de data kan niet worden bijgehouden
•Te weinig opleiding analytisch personeel (32%) •Te weinig budget (32%) •Onvoldoende organisatorische inbedding (14%) •Te weinig tools of technologie (10%)
EMC Data Science Revealed: A Data-Driven Glimpse into the Burgeoning New Field (2012) T. de Vries 220113
T. de Vries 220113
T. de Vries 220113
BIG DATA: het gaat om twee zaken: Big data: Datasets waarbij het moeilijk of ondoenlijk te werken met traditionele data management tools Big data analytics: het bevragen van big data verzamelingen met geavanceerde technologieën
The Big Data Opportunity: Making government faster, smarter and more personal Tuesday, 03 July 2012
T. de Vries 220113
http://www.researchtrends.com/issue-30-september-2012/the-evolution-of-big-data-as-a-research-and-scientific-topic-overview-of-the-literature/
T. de Vries 220113
Bijvoorbeeld foto’s van individuen: Worden mede gebruikt voor bepalen van kredietscores (Economist 140309)
Kunnen mede worden gebruikt bij bepalen van kans op echtscheiding (NRC Wetenschapsbijlage 020509)
T. de Vries 220113
1. Met behulp van geavanceerde analyses (zoals neurale netwerken), kunnen inzichten worden verkregen die anders moeilijk te realiseren zijn (handhaving, preventie). 2. Big data analyses kunnen succesvol worden ingezet voor predictieve analyses (bijvoorbeeld toekomstige ontwikkeling zorgvraag), scenarioplanning etc. die in complexe situaties voorkomen. 3. “Evidence-based policy making” kan hierdoor realistischer worden. LET OP
Hiervoor zijn heel vaak niet-lineaire rekenmethodes noodzakelijk…. T. de Vries 220113
De markt voor big data analytics is dynamisch en groeit snel. Economische groei zal mede hier door worden bepaald.
(Chris Yiu, The Big Data Opportunity: Making government faster, smarter and more personal, Policy Exchange 2012)
T. de Vries 220113
2018: in de VS personeelstekorten: •140.000 tot 190.000 mensen met diep analytisch inzicht •1.5 mln managers en analysepersoneel (met kennis de analyses te gebruiken, effectieve beslissingen te nemen en te implementeren) – McKinsey 2011
McKinsey Global Institute Report 2011
T. de Vries 220113
VS Rusland Polen VK Frankrijk Roemenië Italië Duitsland Nederland Spanje Tsjechië Bulgarije Zwitserland Portugal België Griekenland Denemarken Slowakije Noorwegen Oostenrijk Zweden Hongarije
AANTALLEN PERSONEN MET RELEVANTE BÈTA OPLEIDINGEN
25 per 100 personen
20
15
10
5
0
Bron: Eurostat, McKinsey (2011) T. de Vries 220113
84 PROJECTEN BIJ 6 MINISTERIES Office of Science and Technology Policy March 2012
T. de Vries 220113
IMF/OECD(EUR)/McKINSEY:
POTENTIEEL BIG DATA PUBLIEKE SECTOR IN EUROPA IS AANZIENLIJK (mrd €)
•Efficiency in uitvoering beleid:
120-200
•Reductie fraude en vergissingen overdrachten: 7-30 •Verbeterde opbrengst belastingen: 25-110 TOTAAL 150-300+ International Monetary Fund; OECD; McKinsey Global Institute analysis 2011
T. de Vries 220113
4. Van data naar interpretatie
Waarvoor en hoe
Let op de implementatie! T. de Vries 220113
Gebruik grote databestanden 1/2 Micro niveau: Service naar de burger (formulieren), transparantie Macroniveau: Detectie en handhaving Preventie Predictie
T. de Vries 220113
Gebruik grote databestanden 2/2 Voorbeelden *) •Detectie en handhaving: Fraude bij faillissementen, fraude in de zorg, fraude bij uitkeringen •Preventie: Identificatie van risicovolle groepen/individuen bij diverse fraudes en met betrekking tot gezondheidszorg •Predictie: Bepalen van toekomstige consumptie gezondheidszorg, uitkeringsbehoefte, etc.
*) Op basis van uitgevoerde projecten en (gepresenteerde) plannen T. de Vries 220113
3 methoden 1. Information retrieval: Het systematisch zoeken en vinden van in computers opgeslagen data; 2. Data fusion: Integratie van data en kennis uit verschillende bronnen, door verschillende methoden in een consistent en nuttig geheel; koppelen etc. 3. Analyse: Het gebruikmaken van databases en data structuren. Toepassing van ex ante- en ex post “statistische” methoden leveren informatie T. de Vries 220113
INFORMATION RETRIEVAL
DATA FUSION
TOENAME COMPLEXITEIT METHODEN
COMPLEXE ANALYSES (bv neurale netwerken)
Grote databestanden
T. de Vries 220113
IMPLEMENTATIE
DATA
ANALYSE
INTERPRETATIE
T. de Vries 220113
DATA
T. de Vries 220113
ANALYSE
1/3
Belangrijk
T. de Vries 220113
VOORBEELD Detectie valse facturen bij belastingaangiften
Toegepaste Datatechnieken Landen: USA, Can, Aus, UK, Bulgarije Brazilië, Peru, Chili
TOEGEPASTE TECHNIEKEN
AANTAL LANDEN (max 8)
Neural Netwerken
6
Decision Tree (CART)
5
Logistische Regressie
4
SOM (self organizing maps)
2
K-means
2
Support Vector Machines
2
Visualisation Techniques
2
Baysian Networks
1
K-Nearest Neighbour
1
Association Rules
1
Fuzzy Roles
1
Markov Rules
1
Time Series
1
Regression
1
Simulation
1
Characterization and detection of taxpayers with false invoices using data mining techniquesPamela Castellón Gonzáleza, Juan D. Velásquez, Expert Systems with ApplicationsVolume 40, Issue 5, April 2013, Pages 1427–1436
http://www.journals.elsevier.com/expert-systems-with-applications/ T. de Vries 220113
ANALYSE
Neural Networks
2/3
?
Classification And Regression Tree (CART) Support Vector Machines K-Nearest Neighbour
Association Rules Genetic Algorithms
T. de Vries 220113
ANALYSE
Scarborugh D et al, Neural networks in organizational research Am. Psych Ass (2006), p90-92
3/3
T. de Vries 220113
VOORBEELD faillissementfraude INTERPRETATIE
1/2
T. de Vries 220113
VOORBEELD faillissementfraude INTERPRETATIE
2/2
Confidence rate van rechercheteam Pr{F+|V+} = 65% Alles met de hand…
PERFORMANCE (NN):
PERFORMANCE: (CART)
Pr{V- |F+}= 69% (8.0%)
Pr{V- |F+}= 74%
Pr{V+|F- }= 4% (1.9%)
Pr{V+|F- }= 7%
Pr{F+|V+}= 61% (12.4%)
Pr{F+|V+}= 49%
NB: training sets op 70, 80 and 90% niveau 43 NN: derde run, 7 keer herhaald; CART: gem run 1, 2, en 3
T. de Vries 220113
T. de Vries 220113
“The sexy job in the next 10 years will be statisticians.” He and others, such as IT and management professor Erik Brynjolfsson at the Massachusetts Institute of Technology (MIT), contend this demand will happen because the amount of data to be analyzed is out of control
PricewaterhouseCoopers Technology Forecast 2010
T. de Vries 220113
5.Privacy
BEDREIGINGEN PRIVACY NEMEN SNEL TOE
46 T. de Vries 220113
INFORMATION RETRIEVAL
DATA FUSION
TOENAME BEDREIGING PRIVACY
COMPLEXE ANALYSES (bv neurale netwerken)
T. de Vries 220113
•Privacywetgeving Nederland dateert uit 2001 •Wetgeving berust op technologische inzichten uit jaren 80 en 90 •Pakkans bij overtreding vrijwel nihil •Maximum boete Euro 4500,-
T. de Vries 220113
•Het data universum in 5 jaar met een factor 10 toeneemt; •De geheugencapaciteit in 5 jaar met een factor 4-5 toeneemt; •De processorsnelheden in 5 jaar met een factor 8-9 toenemen (Moore); •De software mogelijkheden zich aan de nieuwe technologie aanpassen. T. de Vries 220113
Analyse geeft toegang tot veel nieuwe kennis Analyse is tegelijkertijd een grote bedreiging voor de privacy van individuen Begrip openbaarheid is (derhalve) aan een nieuwe formulering toe. T. de Vries 220113
6. Afsluitende opmerkingen
Er is nog zoveel meer…
T. de Vries 220113
Afsluitende opmerkingen 1. Er is sprake van een tweede data-revolutie. De omvang ervan wordt nauwelijks begrepen; 2. Er zal veel moeten worden geïnvesteerd om de mogelijkheden van Big Data ten nutte te maken; 3. De potentiële opbrengsten van gebruik Big Data zullen een veelvoud van de investeringen bedragen; 4. Investeringen zullen pas dan worden terugverdiend als de organisatie op de veranderingen wordt aangepast; 5. Mogelijkheden en beperkingen van analyse-instrumenten zijn onvoldoende bekend.
T. de Vries 220113
Dank u T. de Vries 220113
T. de Vries 220113