SOCIALE MONITORING EN POLITIEK
Versie:
Auteur:
Datum:
1.0
Martijn Kriens
27-09-2012
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
INLEIDING Sociale media maakt het mogelijk om zonder beperking van ruimte en tijd met grote, wisselende groepen mensen te communiceren. Dat kan oppervlakkig geklets zijn, diepe discussies, groepen die zich organiseren en nog veel meer. Sociale Media zijn gewoon een nieuw communicatiekanaal. Eén aspect verschilt echter wel sterk met veel andere communicatiekanalen: de boodschap ligt vast en blijft ook achteraf beschikbaar. Van een telefoongesprek blijft niets achter, een tweet gaat voor eeuwig in het archief. Zelfs als je dat niet wilt. Zo is er een site waar tweets bewaard blijven die politici verzonden hebben maar later (soms seconden later) hebben weggegooid. Alleen op Twitter zijn al meer dan 6,4 miljoen Nederlandse berichten per dag1). Het tool Coosto slaat iedere dag alle berichten op het Nederlandse sociale web op in één grote database die op dit moment al een aantal jaar terug gaat. Uit onderzoek blijkt dat één van de mogelijke toepassingen van zo een database het voorspellen van de verkiezingsuitslagen is. In het buitenland zijn de verkiezingsuitslagen al een keer voorspeld op basis van social monitoring. In Engeland zijn de vorige verkiezingen goed voorspeld2 en ook in Duitsland zijn positieve resultaten bereikt3. Het is nog onduidelijk wat de oorzaak is van de relatie tussen aantallen berichten over een partij (en/of een lijsttrekker) en de verkiezingsuitslag. Twitter (het kanaal waar het meest wordt gesproken over politiek) is qua samenstelling van gebruikers niet representatief voor de Nederlandse bevolking. Een mogelijke verklaring is dat niet de eigen partijkeuze wordt gemeten, maar de inschatting die mensen maken welke partij zal winnen. Onderzoek naar het onderliggende mechanisme is nodig de komende jaren om betrouwbare uitspraken te doen. Voor RTL4 heeft Upstream in de verkiezingsperiode gerapporteerd over het gebruik van de sociale media in de politieke strijd. Het geven van peilingen op basis van sociale media was onderdeel hiervan. De peiling die afgegeven is op de avond voor de verkiezingen was ongeveer op het niveau van de traditionele peilingbureau’s. In deze whitepaper analyseren we de voorspelling, uitslag en hoe we dit beter hadden kunnen doen. Alle brondata die hieronder genoemd wordt komt uit Coosto. In de Coosto applicatie wordt een database bijgehouden van alle berichten op het nederlandse sociale web. Deze zijn vervolgens te analyseren op diverse manieren. Alvast een tipje van de sluier: een andere manier van berekenen had de voorspelling vlakbij de definitieve uitslag gebracht en was dan vele malen beter geweest dan de traditionele peilingen!
1 http://www.marketingfacts.nl/berichten/social-‐media-‐in-‐nederland-‐de-‐halfjaarcijfers-‐van-‐
2012 2 http://www.scribd.com/doc/31208748/Tweetminster-‐Predicts-‐Findings 3 https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/viewFile/1441/1852 Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
2
UITSLAG VOORSPELLEN MET SOCIAL MEDIA! Mark Twain wist het al: voorspellen is moeilijk, zeker wanner het de toekomst betreft. Het verleden voorspellen is een stuk eenvoudiger en soms ook heel nuttig. Op de verkiezingsavond hebben we op RTL4 een voorspelling afgegeven voor de zetelverdeling in de tweede kamer die er net zo ver naast zat als de gevestigde peilingbureaus. Op het eerste gezicht geen slecht resultaat want die voorspelling maken we tegen een fractie van de kosten van de traditionele peilbureaus. Onze doelstelling was echter om dicht bij de definitieve uitslag te zitten. In dit artikel kijken we terug op onze voorspelling: welke keuzes hadden we anders kunnen maken om tot een beter resultaat te komen? De maand voorafgaand aan de verkiezingsdag heeft 2,2 miljoen berichten opgeleverd met een politieke inhoud. Politieke inhoud is hier gedefinieerd als berichten waarin één of meerdere partijen en/of lijsttrekkers worden genoemd.
POSITIEVE BERICHTEN OF ALLE BERICHTEN? De eerste keuze die we moesten maken was om alle berichten te tellen of alleen de berichten die positief zijn over een partij en/of lijsttrekker. De computer is in staat om berichten te classificeren naar positief, neutraal of negatief (sentiment). Dit gaat vaak goed maar niet altijd. Politiek maakt veel cynisme, ironie en sarcasme los die niet begrepen wordt door de computer. Zolang deze foute inschattingen verspreid zijn over alle partijen is dat niet direct een probleem In dit geval hebben we gekozen om alleen de positieve berichten te tellen. Een positief bericht kan worden gezien als een uitspraak die positief is voor die partij. Als we echter kijken naar de grafieken van zowel alle berichten als alleen de positieve berichten dan zien we dat alle berichten tellen betere resultaten had opgeleverd die meer in lijn zijn met de uitslag. In de buitenlandse voorbeelden is ook niet gelet op het sentiment. Als we over 7 dagen versrpeid alleen positieve berichten tellen en vervolgens op basis van de aantallen per partij/lijsttrekker delen door het totaal aantal berichten komen
Figure 1 zetels op b asis van 7 dagen positieve berichten
we op een voorspelling van 36 voor de PVDA en 35 voor de VVD (uitslag is 38 PVDA en 41 VVD).
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
3
Figure 2 zetelverdeling op basis 7 daags totaal aantal b erichten
Op basis van alle berichten, ongeacht sentiment, komen we op een zetelverdeling van 40 voor de VVD en 36 voor de PVDA. Een uitslag die een stuk dichterbij de werkelijkheid komt. Ondanks het hoge aantalnegatieve berichten voor de VVD en de grote hoeveelheid positieve berichten over de PVDA, blijkt het sentiment een slechtere voorspeller dan het totaal aantal berichten. Op basis van positief sentiment zaten we er 24 zetels in totaal naast, op basis van alle berichten hadden we er 20 zetels naast gezeten. Een volgende keer zou ik, ook terugkijkend naar 2010 waar het verschil tussen beide aanpakken niet groot was, kiezen voor alle berichten in plaats van alleen de positieve berichten. Mogelijke verklaring is aandacht in het algemeen belangrijker is dan hoe er over partijen gesproken wordt. Ook kan het zo zijn dat het algoritme waarop de computer sentiment toewijst niet geschikt is voor politieke berichten als gevolg van sarcasme en ironie.
VOORTSCHRIJDEND GEMIDDELDE OF TRENDLIJNEN Tweede belangrijke keuze was het gebruik van een voortschrijdend gemiddelde over een aantal dagen of het gebruik van trendlijnen (regressieanalyse).
VOORTSCHRIJDEND GEMIDDELDE We hebben gekozen voor een voortschrijdend gemiddelde over zeven dagen. Op die manier middel je plotselinge pieken uit. Bijvoorbeeld als een partij sterk in het nieuws komt door ruzies e.d. Daarnaast kan het zijn dat er in het weekend anders over politiek wordt gesproken dan door de week. Maar ook hierbinnen zijn weer een aantal keuzes mogelijk. De keuze die we gemaakt hebben is om het totaal van berichten over de afgelopen 7 dagen te delen door het totaal aantal berichten van alle partijen over de afgelopen 7 dagen. Dat levert een percentage op dat te herleiden is tot een zetelaantal. Kern is dat in deze methode ieder bericht even zwaar meetelt (zie figuur 1 en 2 hierboven). Een andere optie is om iedere dag de zetelverdeling uit te rekenen op basis van het relatieve aantal berichten van de betreffende dag en vervolgens het voortschrijdende gemiddelde te nemen van de zetelverdeling van de afgelopen zeven dagen. Verschil is dat nu dat iedere dag even zwaar telt in plaats van ieder bericht even zwaar. Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
4
Figure 3 7 daags gemiddelde op b asis van zetels per dag
Daarmee komen we tot een voorspelling van 40 VVD, 34 PVDA en 19 SP. Daarmee lijkt deze voorspelling verder van de werkelijkheid te liggen dan op basis van het totaal aantal berichten over 7 dagen voor de grote partijen. Echter, de kleine partijen worden wel beter ingeschat waardoor de totale afwijking op deze manier slechts 10 zetels is. Oorzaak van de foutieve inschatting voor de PVDA en de SP is dat deze beiden snel veranderden (PVDA steeg voortdurend snel en de SP daalde snel, maar consistent. Door het gemiddelde van 7 dagen loop je natuurlijk gemiddeld 3,5 dagen achter. Dat is ook consistent met de te lage inschatting van de PVDA en de te hoge inschatting van de SP. De VVD was constanter hoog en loopt dus minder achter bij een 7 daags gemiddelde. Bij beide methoden kan dan nog gekozen worden om de dag van gisteren zwaarder mee te wegen dan dezelfde dag 7 dagen geleden om recente trends zwaarder mee te laten wegen. Dit hebben we in de voorspellingen niet meegenomen.
TRENDLIJNEN Een andere manier om te komen tot een voorspelling is om gebruik te maken van trendlijnen. Een trendlijn trekt een lijn door de grafiek die zoveel mogelijk de trend volgt maar alle incidentele uitschieters naar boven en naar beneden negeert.
Figure 4 zetelverdeling op dagbasis Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
5
Onderstaand is de grafiek van de drie partijen waarin de zetels staan als de berichten per dag leidend zijn voor de zetelverdeling. Duidelijk is dat de verschillen tussen dagen heel groot zijn. Dat heeft te maken met debatten, hypes die opkomen enz. Wel is vaak, de uitschieters negerend, de trend te zien die de grafiek volgt. Praktijk is natuurlijk ook dat Nederland niet in één nacht tot een totaal andere mening komt over partijen. Als we door bovenstaande grafieken een trendlijn4 tekenen dan krijgen we het volgende resultaat:
Figure 5 zetelverdeling bepaald per dag
Figure 6 trendlines op basis van dagelijkse zetelverdeling
Voorspelling voor de VVD is dan 41 zetels, voor de PVDA 40 en voor de SP 15. Dit is een resultaat dat heel dicht aanligt tegen de echte uitslag (ook rekening houdend dat, zonder lijstverbindingen, de PVDA een restzetel zou hebben gekregen). Op deze manier zou de voorspelling in totaal slechts 6 zetels van de werkelijke uitslag hebben afgeweken!
4
In dit geval is een polymiaal van de 4e orde gebruikt als trendlijn (Y=a + bX + cX2 + dX3 +
eX4).
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
6
VERGELIJKING METHODEN Als we de verschillende voorspellingsmethoden naast elkaar leggen krijgen we de volgende tabel: Table 1 Voorspellingen en uitslag Positieve berichten 7 dagen gem.
Partij
Alle berichten 7 dagen gem.
7 dagen gem. zetels per dag
Op basis van trendlijn
Uitslag
VVD PVDA PVV CDA SP D66 GroenLinks ChristenUnie SGP PVDD PiratenPartij DPK 50+
35 36 19 15 18 10 6 5 2 3 0 0 1 150
39 35 18 15 18 9 5 4 3 3 0 0 1 150
40 34 15 13 19 12 4 5 3 3 0 0 2 150
41 40 15 12 15 12 4 4 2 3 0 0 2 150
41 38 15 13 15 12 4 5 3 2 0 0 2 150
VERSCHIL
24
20
10
6
0
Kortom, van de te kiezen mogelijkheden blijkt de trendlijn veruit het meest in de buurt van de werkelijke uitslag te komen! Helaas hebben we, achteraf gezien, bij de echte voorspelling de slechtste methode gekozen. Voorspellen is moeilijk, vooral als het de toekomst betreft.
CORRECTIEFACTOREN Om te komen tot de voorspelling is wel gebruik gemaakt van correctiefactoren. Deze zijn eerst bepaald op basis van de verkiezingen in 2010, de berichten in de week voorafgaand aan de verkiezingsdag en de echte uitslag. Partij VVD PVDA PVV
Correctie 1,1 0,8 0,7
CDA SP D66 GL CU SGP PVDD
1,4 1,1 0,8 0,8 1 0,8 0,5
Verklaring Relatief oudere achterban Jonge mensen linkser en dus meer twitteraars? Er wordt erg veel over PVV en vooral Geert Wilders gesproken Sterk vergrijsde achterban Verassend dat dit afwijkend is ten opzichte van de PVDA? Hoogopgeleide en jonge twitterende achterban Hoog opgeleide achterban Verrassend. Wel ook een actieve jonge achterban Verrassend. SGP is wel altijd goed in aandacht trekken Voornamelijk jonge mensen in de Twitter doelgroep
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
7
Uiteraard moest ik ook correctiefactoren toepassen om toe te werken naar de einduitslag van 2012. Met deze correctiefactoren is wel wat interessants aan de hand: Partij VVD PVDA PVV CDA SP D66 GL
2010 1,1 0,8 0,7 1,4 1,1 0,8 0,8
2012 1 1 0,7 1 1 1 0,5
CU SGP
1 0,8
1,4 1
PVDD
0,5
0,5
PiratenPartij
0,2
DPK 50+
1 2
Verklaring Er wordt erg veel over PVV gesproken
GL is erg actief met sociale media inclusief een actieve achterban Op zich niet verassend, dat was 2010 wel. Verassend. SGP is wel altijd goed in aandacht trekken. Voornamelijk jonge mensen, actief op sociale media Veel niet stemgerechtigde jongeren praten er over VVD gelijkende achterban
Interessant is dat voor alle grotere partijen behalve de PVV alle correctiefactoren voor de trendlijn op 1 kunnen staan en toch dicht bij de uitslag zitten. Het vermoeden is dat sociale media nu zoveel gebruikt worden dat brede volkspartijen voldoende evenredig vertegenwoordigt zijn in de discussie die plaatsvindt. Uitzondering is de PVV waar natuurlijk veel over gesproken wordt, al waren het maar de oneliners van Wilders. Wel is de factor hier hetzelfde als 2010. We zien ook dat de PVV met Geert Wilders de enige partij is waar meer over de lijsttrekker gesproken wordt dan over de partij. GroenLinks is uiterst actief in sociale media en zet het ook bewust in als middel om aandacht te vragen. Je ziet dan voor een kleine partij snel afwijkingen ontstaan, net als bij de PVDD. De 1,4 voor CU is logischer dan de 1 in 2010 in relatie tot de achterban. SGP blijft moeilijk te vangen omdat hun standpunt vaak veel reacties oproepen van mensen die verder niets met de SGP hebben. 50+ heeft natuurlijk een grote achterban die niet te vangen is via sociale media op dit moment. Bij de Piratenpartij zijn het vooral niet stemgerechtigde jongeren die hierover praten.
VERGELIJKING MET TRADITIONELE PEILINGEN We kunnen de trendlijnen vervolgens ook vergelijken met de overige peilingen die er voor de verkiezingen gehouden zijn. Onderstaand zijn de trens zoals die voorspeld zijn door de peilingwijzer. Deze wordt gebaseerd op een combinatie van alle andere peilingen. Interessant is dat de trends zoals we die zien in de grafiek op basis van sociale media sterk lijken op de grafiek van de peilingwijzer.
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
8
Figure 7 Trends van peilingwijzer.nl
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
9
CONCLUSIE Op basis van bovenstaande data zijn er een aantal conclusies te trekken (hoewel meer onderzoek uiteraard nodig is): • Aan de trends die uit de grafieken naar voren komen is te zien dat deze sterk hetzelfde patroon volgen als de overige peilingen. Logische conclusie is dan dat de methode via sociale media dezelfde factoren meten als de peilingbureaus (er is gecheckt of mensen niet vooral over peilingen praten, berichten rond peilingen maakte maar 80.000 van de 2,2 miljoen berichten uit) • Te zien is dat de grotere partijen (VVD, PVDA, SP, CDA, D66) geen correctiefactor nodig hebben. Dit zegt denk ik vooral wat over hoeveel sociale media worden gebruikt. Brede partijen zijn allemaal flink vertegenwoordigd. PVV is de uitzondering waarbij dit overigens ook de enige partij is waarbij meer over de lijsttrekker dan over de partij gesproken wordt5. • Bij het maken van een peiling lijkt het niet verstandig sentiment te gebruiken. Vaak gebruiken mensen meer partijen in een bericht en sentiment blijft tricky in politieke berichten door ironie en cynisme. Het totaal aantal berichten lijkt een betrouwbaarder indicator. • Bij de kleinere partijen moet wel rekening worden gehouden met een correctiefactor. Vaak hebben deze een specifieke achterban waar het gebruik van sociale media sterk kan afwijken van het gemiddelde. Het vaststellen van deze correctiefactoren is uiteraard een uitdaging omdat die kan variëren met het veranderen van de achterban partij, populariteit etc. • Het gebruik van trendlijnen geeft een veel beter resultaat dan het gebruik van gemiddelden over 7 dagen. Trendlijnen vlakken incidentele pieken en dalen sterk af terwijl consistente trends toch snel en goed gevolgd worden.
5 191.000 over Geert Wilders en 176.000 over de PVV, voor de PVDA is dit 133.000/227.000 en
voor de VVD 235.000/295.000 over 1 maand tijd.
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
10
BIJLAGE: TRENDLINES ALLE PARTIJEN
Upstream Sweerts de Landasstraat 65 | 6814 DB Arnhem 026 – 7113824 | www.upstream.nl |
[email protected]
11