Big Data en de officiële statistiek ‘Enkele voorbeelden’ Piet Daas, May Offermans, Martijn Tennekes, Alex Priem, Paul van den Hurk
Overzicht
• Het CBS • Data en bronnen
• Waarom Big Data? • 3V’s en mogelijk gebruik
• Voorbeelden • Verkeerslussen • Mobiele telefoons • Sociale mediaberichten 2
Het CBS
“Het CBS produceerde in 2012 ongeveer 5000 officiële publicaties en tabellen”
Daar hebben we DATA voor nodig! 3
Twee soorten databronnen
Primaire data
Secondaire data
Onze eigen ‘vragenlijsten’
Data van ‘anderen’ - Administratieve bronnen - ‘Nieuwe’ databronnen
Relatie Big Data en CBS In de Wet op het CBS staat in artikel 36: de directeur generaal ervoor zorgt dat “de verwerving van gegevens op zodanige wijze geschiedt dat de daaruit voortvloeiende administratieve lasten voor ondernemingen, vrije beroepsbeoefenaren (enz.) zo laag mogelijk zijn” Hoe? Hergebruik van data (van anderen) 1) Administratieve bronnen 2) Mogelijkheden van ‘nieuwe bronnen’ te bestuderen 5
– Data, data everywhere!
X
X
Waarom Big Data?
3V’s
Hoeveelheid
Complex/’Lastig’ • Informatie extractie • Populatie en dynamiek
7
Snel beschikbaar
Uitdagingen bij aanvang – Praktisch ‐ Hoe komen we aan Big Data? ‐ Waar en hoe doen we de analyses? – Juridisch ‐ Mogen we dit zomaar? ‐ Netjes werken en rekening houden met privacy gevoelige data (WBP)
– Kosten ‐ Het CBS betaald niet voor administratieve data. ‐ En voor Big Data?
– Methodologisch ‐ Methoden nodig om grote hoeveelheden data te analyseren ‐ Populatie aspect?
– Technisch ‐ High Performance Computing technieken (parallelle verwerking)
– Mensen ‐ Hebben ‘data scientists’ nodig: statistisch denkende mensen die kunnen programmeren, nieuwsgierig zijn en: ‐ Die buiten het traditionele steekproef paradigma kunnen denken!
8
Onderzoek Big Data door CBS Bevindingen onderzoek Big Data bronnen “Is het iets voor het CBS?”
9
1) Verkeerslussen
(100 miljoen records/dag)
2) Mobiele telefonie
(“~35 miljoen records/dag”)
3) Sociale media
(~1 miljoen records/dag)
Voorbeeld 1: Verkeerslussen Verkeerslussen ‐ Elke minuut (24/7) wordt het aantal passerende voertuigen op >10.000 meetpunten in Nederland geteld • Totaal en in verschillende lengtecategorieën
‐ Mooie bron om verkeer- en vervoer- statistieken mee te maken (en meer) • Veel data, zo’n 100 miljoen records per dag
Locaties
10
Aantal gedetecteerde voertuigen op één dag in NL
11
Registratie activiteit verkeerslussen (eerste 10 min)
12
Correctie voor ontbrekende gegevens Corrigeren in ‘blokken’ van 5 min. Voor
Na
Totaal = ~ 295 miljoen
13
Totaal = ~ 330 miljoen (+ 12%)
Voor verschillende lengtecategorieën 1 categorie
3 categoriën
5 categoriën
Totaal
Totaal <= 5.6m > 5.6 & <= 12.2m > 12.2m
Totaal > 1.85 & <= 2.4m > 2.4 & <= 5.6m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m
Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 14
Kleine voertuigen
Tijd (uur) 15
~75% van totaal
Kleine & gemiddelde voertuigen
Tijd (uur) 16
Kleine, gemiddelde & grote voertuigen
Tijd (uur) 17
Profiel maand September (grote voertuigen)
Afzonderlijke lussen
19
Containeroverslag in Rotterdam
!!! Echter !!!
51.941,4.02836
20
Tijd (uur)
Voorbeeld 2: Mobiele telefoons Vrijwel elke Nederlander heeft een ‘mobieltje’ ‐ Bijna altijd bij zich en staat vrijwel altijd aan
Ideale informatiebron om: ‐ Met behulp van gegevens van providers: • Verplaatsingsgedrag (‘Dag’-populatie) • Toerisme (nieuwe aanmeldingen op netwerk) • Mensenmassa’s (bijv. bij evenementen)
21
‘Dag’-populatie Woonadres - Waar personen s‘nachts verblijven Wat doen ze overdag? - Locatie van mobieltje bepalen bij bel/sms/data actviteit a.h.v. mastlocatie - Data Dec 2012 en Jan 2013 - Eerste begin ‘Dag-populatie’
22
Voorbeeld 3: Sociale media – Nederlanders zijn erg actief op sociale media ‐ Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
– Mogelijke informatiebron voor: ‐ Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover ‐ Als meetinstrument te gebruiken voor:
• .
Map by Eric Fischer (via Fast Company)
Sociale media: Nederlandstalige berichten – Nederlanders zijn erg actief op sociale media ‐ Mogelijke informatiebron: • Aantal berichten over en sentiment t.a.v. bepaalde onderwerpen (snel beschikbaar!) • Testen om nut en bruikbaarheid te controleren
a. Inhoud: - ‘Zelf’ publieke NL Twitter-berichten verzameld: in totaal 12 miljoen b. Sentiment - Sentiment in NL-talige sociale mediaberichten bestudeerd: ~2 miljard
24
Sociale media: Twitter
Thema's
Onderwerpen Twitter (5%)
Werk Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs Politiek Veiligheid Vervoer Vrije tijd Vakantie Cultuur/events Sport Media Overige
(3%)
(10%)
(7%) (46%) 0
25
10
20
30
Bijdrage (%)
40
50
12 miljoen berichten
Sentiment in Sociale media – Toegang tot Coosto database gekocht ‐ > 2 miljard publiek beschikbare NL-berichten • Twitter, Facebook, Hyves, Webfora, Blogs etc. ‐ Sentiment van elk bericht • Positief, negatief of neutraal ‐ Van alles geprobeerd • Interessante insteek • Gekeken naar ‘Mood of the nation’ en vergeleken met het Consumenten vertrouwen van het CBS 26
Consumenten vertrouwen, enquête data
totaal (pos of total % van as % (pos––neg) neg)als
Sentiment t.a.v. het economisch klimaat
Tijd
27
~1000 respondenten/maand
Consumentenvertrouwen vs. sociale media
(pos – neg) als % van totaal
Sentiment t.a.v. het economisch klimaat & In sociale mediaberichten
Corr: 0.88
28
Tijd
~25 miljoen berichten/maand
Uitdagingen: Big Data en CBS – Juridisch ‐ Routinematige toegang (niet alleen voor onderzoek)? ‐ Goed uitzoeken – Praktisch ‐ Gaan we de (micro)data ‘in huis’ analyseren? ‐ Of bij de bronhouder of in de ‘Cloud’ ? – Methodologisch ‐ Big data bronnen registeren ‘events’ ‐ En zijn niet het gevolg van geen steekproefontwerp ‐ Grote behoefte aan theorievorming op dit terrein! – Mensen ‐ Behoefte aan ‘Data scientists’ op het CBS ‐ Zijn er momenteel niet veel 29
De toekomst van het CBS?