Big Data @ CBS Overzicht van ervaringen Piet Daas, Marco Puts, Martijn Tennekes, Edwin de Jonge, Alex Priem and May Offermans 4 Februari 2014, Utrecht
Overzicht
• Big Data • Onderzoekthema bij het CBS • Verkennende studies • Verkeerslusdata (NDW-data) • Mobiele telefoon data • Sociale media berichten
• Ervaringen en uitdagingen • Methodologische & technische uitdagingen • Nut van visualisaties • Benodigde vaardigheden 2
– Data, data everywhere!
Twee typen data
Primaire data
Secundaire data
Data van ‘anderen’ Onze eigen enquêtes 4
- Administratieve bronnen - Big Data
Verkennende Big Data studies
Veel onontdekte gebieden
Welke bronnen verkend? Big Data bronnen die nauwgezet zijn onderzocht 1) Verkeerslusdata
~100 miljoen records / dag (in totaal 9 miljard records)
2) Mobiele telefoon data ~36 miljoen records / dag (in totaal 500 miljoen records) 3) Sociale media berichten ~3 miljoen records / dag (in totaal > 3 miljard records) 6
Verkeerslussen Verkeerslusdata ‐ Elke minuut (24/7) worden het aantal passerende voertuigen geteld door ruim 20.000 ‘lussen’ in Nederland • Totaal en verschillende lengtecategorieën
‐ Mooie databron voor de Verkeer en Vervoer statistieken van het CBS (en meer) • Heel veel data, zo’n 100 miljoen records per dag Locaties
7
Totaal aantal voertuigen per dag
Time (hour)
8
Aantal actieve lussen op die dag (eerste 10 min)
9
Correctie voor ontbrekende data Per blok van 5 min. Voor
Totaal ~ 295 miljoen getelde voertuigen
10
Na
Totaal ~ 330 miljoen voertuigen (+12%)
Alle voertuigen in September
In verschillende lengtecategorieën 1 categorie
3 categoriën
5 categoriën
Totaal
Totaal <= 5.6m > 5.6 & <= 12.2m > 12.2m
Totaal > 1.85 & <= 2.4m > 2.4 & <= 5.6m > 5.6 & <= 11.5m > 11.5 & <= 12.2m > 12.2m
Kleine voertuigen <= 5.6 m Voertuigen van gemiddelde lengte > 5.6 m & <= 12.2 m Grote voertuigen > 12.2 m 12
Kleine voertuigen (<= 5.6 meter)
~75% v/h totaal 13
Kleine & ‘gemiddelde’ voertuigen
14
Klein, ‘gemiddelde’ & grote voertuigen
15
Grote voertuigen in September
Google Earth: voor locaties
Tellingen op microniveau
18
Alle voertuigen
Alle voertuigen
Grote voertuigen
Alle voertuigen
Containeroverslag bij Rotterdam
51.941,4.02836
19
2) Mobiele telefoondata Gebruik mobiele telefoon als databron – Vrijwel iedereen heeft een mobieltje ‐ Bij zich en bijna altijd aan! ‐ Steeds meer mensen hebben een ‘smart phone’ ‐ Mobieltjes worden erg vaak gebruikt gedurende de dag
– Kun je mobiele telefoongegevens gebruiken voor de officiële statistiek? ‐ Verplaatsingsgedrag (van mobieltjes) ‐ ‘Dag‐populatie’ (van mobieltjes) ‐ Toerisme (nieuw geregistreerde telefoons op het netwerk)
– Er is data van één mobiele telefoonmaatschappij gebruikt (!) ‐ Eerste test: geanonimiseerde microdata (periode van 14 dagen) ‐ Later: uuraggregaten per gebied 20
Verplaatsingsgedrag van mobiele telefoons Verplaatsing van erg actieve ‘bellers’ - gedurende een 14-daagse periode
Gebaseerd op: - Bel- en SMS-activiteit - meerdere keren per dag - Locatie gebaseerd op GSM-mast waarmee telefoon verbonden is
Opvallend: - Bevat de 5 grote steden - Maar veel minder in het Noorden en Zeeland
21
‘Dag populatie’ – Per gebied veranderingen in gebruik mobieltjes – 7 & 8 Mei 2013 – Geaggregeerd per gebied – Alleen gegevens gebruikt bij > 15 gebeurtenissen per uur
22
Toerisme Activiteit van Duitse mobieltjes aan de kust
Mobiel Temp.
23
Social media – Nederlanders zijn erg actief op sociale media ‐ Bijna altijd bij zich en staat vrijwel altijd aan
• Steeds meer mensen hebben een smartphone!
– Mogelijke informatiebron voor: ‐ Welke onderwerpen zijn actueel:
• Aantal berichten en sentiment hierover ‐ Als meetinstrument te gebruiken voor:
• .
24 Map by Eric Fischer (via Fast Company)
Sociale media berichten – Nederlanders zijn erg actief op ‘Sociale media’ ‐ Wat voor ‘informatie’ delen ze? • Kunnen we hier iets mee? • Het is erg snel beschikbaar! ‐> Welke onderwerpen worden besproken? Inhoud: ‐ Twitter berichten uit Nederland bestudeerd: verzameling van 12 miljoen Sentiment ‐ Sentiment in NL‐talige berichten bekeken: ‘allemaal’ > 3 miljard
25
Relatie CBS-thema’s en Twitter
Thema's
Onderwerpen Twitter Werk Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs Politiek Veiligheid Vervoer Vrije tijd Vakantie Cultuur/events Sport Media Overige
(5%)
(3%)
(10%)
(7%) (46%) 0
26
10
20
30
40
50
Bijdrage (%)
12 miljoen berichten
Sentiment in social media – Toegang gekocht tot database van Coosto ‐ > 3 miljard publiekelijk beschikbare sociale mediaberichten (uitsluitende NL‐talig) • Twitter, Facebook, Hyves, Webfora, Blogs, Linkedin etc. ‐ Ook bepaling sentiment van elk bericht • Positief, negatief of neutraal ‐ Interessant resultaat • Veranderingen in het (maandelijkse) sentiment 27
Consumer confidence, survey data Sentiment analyse Consumentenvertrouwen
~1000 respondenten/maand
28
Sentiment analysis Consumentenvertrouwen & Sociale media sentiment (maand)
Corr: 0.88 ~30 miljoen berichten/maand
29
Ervaringen en uitdagingen
Ervaringen en uitdagingen De volgende ‘leerpunten’ zijn geïdentificeerd bij het werken met Big Data op het CBS. 1) Omgaan met en analyse van zeer grote hoeveelheden data 2) Nut van visualisatiemethoden 3) Omgaan met ‘ruizige’ en ongestructureerde data 4) Omgaan met selectiviteit van de data (populatie) 5) Van correlatie naar oorzakelijkheid 6) Mensen nodig met de juiste vaardigheden 7) Bewust zijn van privacy en beveiligingsissues We hebben nog niet alle opgelost (privacy wel hoor) 31
@pietdaas
De toekomst van de statistiek?