Gebruik van social media voor de officiële statistiek: Een top-down (Big Data) aanpak Dr. Piet J.H. Daas Senior-Methodoloog, Big Data onderzoek coördinator en Marco Puts, Martijn Tennekes, Marco Paragini, ….
Statistics Netherlands 22 Sept., NPSO
Overzicht
• Uitgangspunt • Voorbeelden • Rijp en groen door elkaar • Afsluitende opmerkingen
2
Twee soorten data
CBS Primaire data
Secundaire data
Data van ‘anderen’ Onze ‘eigen’ vragenlijsten 3
- Administratieve bronnen - Big Data -zoals social media
Big Data onderzoek bij het CBS – Exploratief, ‘data gedreven’ ‐ Case studies: Verkeers’lussen’, Mobiele telefoon data, Sociale media ‐ Er is nog geen Big Data methodologie (werken we aan)
– Combinatie van IT, methodologie en inhoud (Data Science) – Belangrijke onderwerpen voor de officiële statistiek ‐ ‐ ‐ ‐ 4
Structurele toegang tot data krijgen Selectiviteit (representativiteit) Grote hoeveelheden data controleren en corrigeren Omvang data verminderen (zonder informatieverlies)
Waarom social media? – Nederlanders zijn erg actief op sociale media! – Zo’n 70% volgens een recent onderzoek
– Snel beschikbaar – Mogelijke bron van informatie over wat er leeft onder de ‘Nederlanders’ (actief op social media) ‐ Als aanvullende bron? Naast surveys en admin. data
– Zijn er nog meer mogelijkheden? ‐ Exploratief onderzoeken! ‐ lt
5 Map by Eric Fischer (via Fast Company)
Onderzoek naar social media op CBS 1. Relatie inhoud Twitter en thema’s CBS publicaties 2. Relatie sentiment in social media en consumenten vertrouwen 3. ‘Meten’ andere emoties in social media berichten 4. Sociale samenhang en Twitter (in specifieke regio) 5. Selectiviteit: mogelijkheden ‘feature extractie’ van Twitter
6
1) Onderwerpen in NLTwitterberichten
Thema's
Onderwerpen Twitter (5%)
Werk Relaties Wonen Economie Milieu Weer ICT Gezondheid Onderwijs Politiek Veiligheid Vervoer Vrije tijd Vakantie Cultuur/events Sport Media Overige
(3%)
(10%)
(7%) (46%) 0
10
20
30
40
50
Bijdrage (%)
7
12 miljoen berichten van 330.000 users met locatie in NL
2) Sentiment in NL Sociale media – De gegevens ‐ NL bedrijf dat continue ALLE publieke Nederlandstalige sociale media berichten verzameld ‐ Dataset van meer dan 4 miljard berichten! • Vanaf 2010 tot heden • Zo’n 3-4 miljoen nieuwe berichten per dag
– Over het bepalen van het sentiment ‐ ‘Bag of words’ aanpak • Lijst van NL-woorden en hun sentiment • Additionele lijst van sociale media specifieke ‘woorden’ (‘FAIL’, ‘LOL’, etc.)
‐ Overall score bepaald het uiteindelijke sentiment • Is positief, negatief of neutraal
‐ Gemiddelde sentiment per periode (dag / week / maand) 8 • (#positief - #negatief)/#totaal * 100%
Dag, week, maand sentiment
9
Sentiment per platform (~10%)
(~80%)
Platform specifieke resultaten Table 1. Social media messages properties for various platforms and their correlation with consumer confidence Social media platform
Number of social
Number of messages as
Correlation coefficient of monthly sentiment index and
media messages1
percentage of total (%)
consumer confidence ( r )2
All platforms combined
3,153,002,327
100
0.75
0.78
Facebook Twitter Hyves News sites Blogs Google+ Linkedin Youtube Forums
334,854,088 2,526,481,479 45,182,025 56,027,686 48,600,987 644,039 565,811 5,661,274 134,98,938
10.6 80.1 1.4 1.8 1.5 0.02 0.02 0.2 4.3
0.81* 0.68 0.50 0.37 0.25 -0.04 -0.23 -0.37 -0.45
0.85* 0.70 0.58 0.26 0.22 -0.09 -0.25 -0.41 -0.49
1
period covered June 2010 untill November 2013
2
confirmed by visual inspecting scatterplots and additional checks (see text) *cointegrated
11
Schematisch overzicht Vorige Vorigemaand maand
Huidige maand Maand Dag Dag1-7 1-7
Dag 8-14 8-14 Dag Dag15-21 15-21 Dag Dag22-28 22-28 Dag
Consumenten Vertr.
Publicatie datum (~20e)
12
Sentiment Social media sentiment
Resultaten verschillende perioden Consumenten Vertr.
*cointegratie
13
Facebook Facebook + Twitter
Facebook * Twitter
0.81*
0.84*
0.86*
0.85*
0.87*
0.89*
0.82
0.85
0.87
0.82*
0.85*
0.89*
0.79*
0.82*
0.84*
0.79
0.83
0.84
0.82*
0.86*
0.89*
0.79*
0.83*
0.87*
0.75*
0.80*
0.81*
LOOCV resultaten
Uiteindelijke resultaten – Correlatie en cointegratie ‐ 1e ‘week’ van Consumenten Vertrouwen geeft meestal 70% respons ‐ Beste correlatie en cointegratie met het sentiment van de 2e week • Highest correlation 0.93* (all Facebook * specific word filtered Twitter)
– Granger causaliteit ‐ Veranderingen in Consumenten Vertrouwen lopen voor op veranderingen in het Sociale media sentiment ‐ Voor alle combinaties!
– Voorspellen? ‐ Iets beter dan ‘random chance’ ‐ Beste resultaat voor de 4e week v/d maand 14
‘Sentiment’ indicator voor NL (beta-versie)
Gebaseerd op het gemiddelde sentiment van publieke NL-talige Facebook en Twitter berichten
15
3) Basis emoties in social media Enkele basis emoties
Opgewonden
Vreugde
Tederheid
Angst
Verdriet
16
Woede
Eerste ‘ruwe’ resultaten
17
4) Sociale samenhang en social media – Wat zijn de mogelijkheden van social media om sociale samenhang te bestuderen? – Studie naar een gemeente in Limburg ‐ Samen met Hans Schmeets
– Verzamelen van actieve Twittergebruikers in die gemeente ‐ ‐ ‐ ‐ 18
In totaal ~2000 accounts Locatie van de gebruikers (dorp) Onderlinge relatie bepaald (volgers/vrienden) Nog te doen: Onderwerpen tweets
Eerste resultaten: netwerk van ‘vrienden’
19
5) Selectiviteit: kenmerken Twitteraars – Op Twitter is slechts een selectie van alle Nederlanders actief – Willen we deze bron kunnen gebruiken dan moeten we meer van de gebruikers afweten – Dit kan o.a. door bepalen van (achtergrond)kenmerken – Zoals geslacht, leeftijd, inkomen, opleidingsniveau etc. – Wat zijn de mogelijkheden? ‐ Voor geslacht 20
4) Foto
3) Inhoud berichten 1)Naam
2) Korte bio
21
Resultaten van een subset – Uit een lijst van Twitter gebruikers (~330.000) – Een random sample van 1000 unieke id’s geselecteerd – Hiervan bleek: ‐ 844 profielen bestonden nog • 844 hadden een naam • 583 hadden een korte bio • 473 hadden ‘getweet’ • 804 hadden een ‘niet‐standaard’ foto
Standaard Twitter foto
• 409 Mannen (49%) • 282 Vrouwen (33%) • 153 ‘Overige’ (18%) • bedrijven, organisaties, hond, katten, ‘bots’.. 22
Geslacht bepalen: 1) Voornaam
– Hebben de ‘Voornamenbank’ website gebruikt (Meertens instituut) – Score tussen 0 en 1 (vrouw – man); 676 v/d 844 (80%) namen kwamen voor – Onbekende namen -1 (vaak bedrijven/organisaties) 23
Geslacht bepalen: 2) Korte bio – Als er een korte bio omschrijving is ‐ Best wel wat mensen vermelden hun ‘positie’ in de familie • Mother, father, papa, mama, ‘son of’, etc. ‐ Soms zelfs hun beroep (‘studente’) ‐ Voor 155 v/d 583 (27%) was hun geslacht hieruit af te leiden ‐ Je moet zowel naar Nederlandse en Engels termen zoeken
24
Geslacht bepalen: 3) Inhoud Tweets
– Samen met Universiteit Twente (Dong Nguyen) – Machine learning aanpak die geslacht specifieke schrijfstijl kan herkennen ‐ Alleen Nederlandstalige berichten! ‐ 437 v/d 473 (92%) personen hadden tweets die bruikbaar waren
Geslacht bepalen 4) Profiel foto 1
2
3
– OpenCV software gebruikt om foto's te bewerken 1) Gezichten herkennen 2) Standaardiseren van gezichten (uitknippen, herschalen en roteren) 3) Gezichten classificeren a.d.h.v. geslacht - op 603 v/d 804 (75%) profiel foto’s werden 1 of meer gezichten herkend
Geslacht bepalen: algemene resultaten Diagnostic Odds Ratio (log)
Voornaam
6.41
Korte bio
3.50
Inhoud Tweets
2.36
Foto (gezichten)
0.72
Diagnostic Odds Ratio = (TP/FN) / (FP/TN) random guessing log(DOR) = 0
‐ Resultaten van meerdere methoden • Hoe combineer je die het best? • Ook rekening houden met efficiëntie v/d methode 27
Afsluitende opmerkingen – Social media is een erg lastige bron om te analyseren – Bevat veel ‘ruis’
– Social media is een secundaire bron ‐ Hierdoor moet je anders denken/werken • kwaliteit verbeteren (ruis onderdrukken, aggregeren) gebruik maken van de grote hoeveelheden aan data
– Teksten en foto’s analyseren is een vak apart ‐ Zelf expertise opdoen & samenwerken
– Interessante resultaten maar ‐ het is relatief nieuw terrein, dus nog veel uit te zoeken
– We zien mogelijkheden voor de officiële statistiek maar ‐ Is het bureau er al aan toe? 28
Big Data !!!
29
The Future The future of statistics looks
BIG 30
@pietdaas
Bedankt voor u aandacht !