Big Data en het CBS ‘Enkele voorbeelden’ Piet Daas, May Offermans, Martijn Tennekes, Alex Priem, Paul van den Hurk
Overzicht
• Wat is Big Data? • ‘Definitie’ en eigenschappen
• Relatie tot de statistiek • Waarom?
• Voorbeelden • Verkeerslussen • Mobiele telefoons • Sociale mediaberichten 2
Wat is Big Data? Volgens een expertgroep van statistici: Data sources that can be –generally– described as: “high volume, velocity and variety of data that demand costeffective, innovative forms of processing for enhanced insight and decision making.” Volgens een gebruiker: “data so big that it becomes awkward to work with”
3
Eigenschappen van Big Data? Hoeveelheid
Complex/’Lastig’ • Informatie extractie • Populatie en dynamiek
4
Snel beschikbaar
Relatie Big Data en CBS In de Wet op het CBS staat in artikel 36: de directeur generaal ervoor zorgt dat “de verwerving van gegevens op zodanige wijze geschiedt dat de daaruit voortvloeiende administratieve lasten voor ondernemingen, vrije beroepsbeoefenaren (enz.) zo laag mogelijk zijn” Hoe? 1) Hergebruik van administratieve gegevens 2) Mogelijkheden van ‘nieuwe bronnen’ te bestuderen 5
– Data, data everywhere!
X
Onderzoek Big Data door CBS Bevindingen onderzoek Big Data bronnen
7
1) Verkeerslussen
(100 miljoen records)
2) Mobiele telefonie
(~500 miljoen records)
3) Sociale media
(12 miljoen - 2 miljard records)
Voorbeeld 1: Verkeerslussen Verkeerslussen - Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën
- Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 100 miljoen records per dag
Locaties
8
Aantal gedetecteerde voertuigen op één dag in NL
9
Registratie activiteit verkeerslussen (eerste 10 min)
10
Correctie voor ontbrekende gegevens Corrigeren in ‘blokken’ van 5 min. Voor
Na
Totaal = ~ 295 miljoen
11
Totaal = ~ 330 miljoen (+ 12%)
Totaal voertuigen gedurende de dag (snapshots)
12
Voor verschillende lengtecategorieën 1 categorie
3 categoriën
5 categoriën
Totaal
Totaal <= 5.6m > 5.6 & <= 12.2m > 12.2m
Totaal > 1.85 & <= 2.4m > 2.4 & <= 5.6m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m
Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 13
Kleine voertuigen
Tijd (uur) 14
~75% van totaal
Kleine & gemiddelde voertuigen
Tijd (uur) 15
Kleine, gemiddelde & grote voertuigen
Tijd (uur) 16
Profiel maand September (grote voertuigen)
Afzonderlijke lussen
18
Containeroverslag in Rotterdam
!!! Echter !!!
51.941,4.02836
19
Tijd (uur)
Voorbeeld 2: Mobiele telefoons Vrijwel elke Nederlander heeft een ‘mobieltje’ - Bijna altijd bij zich en staat vrijwel altijd aan
Ideale informatiebron om: - Met behulp van gegevens van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen)
20
‘Dag’-populatie Woonadres - Waar personen s‘nachts verblijven Wat doen ze overdag? - Locatie van mobieltje bepalen bij bel/sms/data actviteit a.h.v. mastlocatie - Data Dec 2012 en Jan 2013 - Eerste begin ‘Dag-populatie’
21
Voorbeeld 3: Sociale media – Nederlanders zijn erg actief op sociale media - Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
– Mogelijke informatiebron voor: - Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover - Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)
Sociale media: Nederlandstalige berichten – Nederlanders zijn erg actief op sociale media - Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om nut en bruikbaarheid te controleren
a. Inhoud: - Zelf NL Twitter-berichten verzameld: in totaal 12 miljoen b. Sentiment - Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard
23
Sociale media: Twitter
Thema's
Onderwerpen Twitter (5%)
Werk Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs Politiek Veiligheid Vervoer Vrije tijd Vakantie Cultuur/events Sport Media Overige
(3%)
(10%) (7%) (46%) 0
24
10
20
30
Bijdrage (%)
40
50
12 miljoen berichten
Sentiment in Sociale media – Toegang tot Coosto database gekocht - > 2 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. - Sentiment van elk bericht • Positief, negatief of neutraal - Van alles geprobeerd • Interessante insteek • Gekeken naar ‘Mood of the nation’ en vergeleken met het Consumenten vertrouwen van het CBS 25
Consumenten vertrouwen, enquête data
(pos totaal (pos––neg) neg)als as % % van of total
Sentiment t.a.v. het economisch klimaat
Tijd
26
~1000 respondenten/maand
Consumentenvertrouwen vs. sociale media
(pos – neg) als % van totaal
Sentiment t.a.v. het economisch klimaat & In sociale mediaberichten
Corr: 0.88
27
Tijd
~25 miljoen berichten/maand
Uitdagingen: Big Data en statistiek – Juridisch - Routinematige toegang (niet alleen voor onderzoek)? - Rekening houden met privacy (WBP)
– Kosten - Het CBS betaald niet voor administratieve data. - Gaan we voor Big Data betalen?
– Methodologisch - Big data bronnen registeren ‘events’ van eenheden, en zijn selectief! - Methoden & modellen specifiek voor grote datasets (snel en stabiel)
– Technologisch - Leer van ‘computational statistical’ gerelateerde onderzoeksgebieden High Performance Computing, parallelle verwerking
– Mensen - Hebben ‘data scientists’ nodig (statistisch denkende mensen die kunnen programmeren die nieuwsgierig zijn) - Die buiten het traditionele steekproef paradigma kunnen denken!
28
De toekomst van het CBS?