Big data, het voorspellen van online gedrag, en nog zo wat Maarten de Rijke
Dank aan de financiers van het onderliggende onderzoek
Big data, het voorspellen van online gedrag, …
2
Achtergrond Big data, het voorspellen van online gedrag, …
3
Levens doorzoekbaar ¢
Steeds groter deel van ons leven leven we online
¢
Digitale sporen van dagelijks leven, werk, …
¢
Simpelweg bewaren is goedkoper van selecteren
Big data, het voorspellen van online gedrag, …
4
Wat is big data? ¢
Meestal een buzzword, maar kan toch nuttig zijn
¢
We hebben het over big data als je met data werkt waarvan de schaal niet langer past bij de manier waarop je werkt £ £ £
¢
Meer dan in je machine past Meer dan je in je leven kan lezen Meer dan …
De definitie evolueert
Big data, het voorspellen van online gedrag, …
5
Data science loop Problem definition
1. Research plan 3. Data exploration
2. Data collection
4. Data transformation
9. Model monitoring & updating 5. Analysis
8. Model application 6. Model construction 7. Model evaluation
Big data, het voorspellen van online gedrag, …
6
Algoritmische kernprocessen Watrondom do e i k zbig o a l? • A n data a l ys e ( i n h o u d , s t r u ct u u r, g ¢ Information retrieval e d r a g ) • S y n £ Wetenschap achter de zoekmachine t h e s e (c o m b i n e e r r e s u l t ate n) £ Zoeken, vinden, filteren, combineren • Eva l u atie ¢ Machine leren £
¢
Patronen ontdekken om kennis uit data te trekken
Visualisatie £
Inzicht in de patronen geven
Big data, het voorspellen van online gedrag, …
7
Enige big data scientist principes 1. Cause the future 6. Little data Models and algorithms not only capable Small-scale surveys and userof predicting the future but also causing experience interviews the future 2. Feedback loops Data about user behavior becomes building block of data products 3. Classical statistical concepts Causation, causality, correlation, experiments 4. Being human Ethics, meaning, interpretation 5. Space between data set & algorithm Don’t run an algorithm, run it well
7. Data strategy What to collect, log, store,
8. Foundation of coding practices Start and continue to build 9. Democratization of IR, ML, DM Those using the algorithms understand their meaning and impact 10. Interdisciplinary data science Combine depth plus collaboration Big data, het voorspellen van online gedrag, …
8
Big data is niet alleen maar “big” ¢
Big data is ook £
¢
Big data is ook £
¢
Longitudinaal, dekt langere periodes af Heel erg parallel, waarbij grote aantallen simultane signalen geproduceerd worden
Big data is ook £
Buitengewoon persoonlijk (zie later)
Big data, het voorspellen van online gedrag, …
9
Verbinden van de offline en online werelden ¢
Hoe weerspiegelt de online wereld de offline wereld?
¢
Wat kan de online wereld ons leren over de offline wereld?
¢
Hoe beinvloedt de online wereld de offline wereld? £
£
£
Social media data has already been related to real-life outcomes Online engagement has been shown to impact individual social capital offline. Recent work has explored the connection between online interactions and socioeconomic indicators of city neighbourhoods (Forrest, 2001). Big data, het voorspellen van online gedrag, …
10
Voorbeelden Big data, het voorspellen van online gedrag, …
11
Observational
Experimental
User studies Controlled interpretation of behavior with detailed instrumentation
In-lab behavior observations
Controlled taks, controlled systems, laboratory studies
User panels In the wild, real-world tasks, probe for detail
Ethnography, field studies, case reports
Diary studies, critical incident surveys
Log analysis No explicit feedback but lots of implicit feedback
Behavioral log analysis
A/B testing, interleaved comparisons
Big data, het voorspellen van online gedrag, …
12
“Life mining” ¢
Psychological £ £ £ £ £ £
Sentiment analysis Behavioral tracking Activity prediction Personality mining Relevance mining …
¢
Social
£
Planned events Real-time events Stock market fluctuations Political polling Reputation management …
£ £ £ £ £
Big data, het voorspellen van online gedrag, …
13
Wa n n e e r we o nt bij te n
http://timeu.se
Big data, het voorspellen van online gedrag, …
14
H o e we o n s vo e le n Original data versus Trend
ratio of blog posts labeled with STRESSED
2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 06/03/05
08/01/05
10/01/05
G. Mishne et al., Tracking and searching mood-annotated blog posts. ICWSM 2007
12/01/05
02/01/06
04/01/06
Big data, het voorspellen van online gedrag, …
15
¢
Mining expertise areas and expertise levels from digital traces of our working lifes £
Expertise retrieval
Expert finding
Given a topic, find me the experts
Expert profiling
¢
G e bie de n w a a r i n we exp e r t z ij n
Given a person, tell me in which areas he is an expert
Models £
£
Generate profile by aggregating and summarizing text associated with a person Find the best publications on the topic, and then find out who is most closely associated with them
K. Balog et al., Expertise retrieval. Foundations and Trends in Information Retrieval, 2012
Big data, het voorspellen van online gedrag, …
16
¢
Follow #nowplaying on Twitter
¢
For this presentation £ £
£ £
H o e we m u z ie k b e leve n
September 16–30, 2012 6,445,000 tweets, from 1,747,842 users Identifying “musical tweets” Multiple axes through the data
Follow an artist, a song, a genre Find out what people are doing while there listening to music Look for unusual events
M. Tsagkias et al., Music in our ears. Submitted, 2013.
Big data, het voorspellen van online gedrag, …
17
Wat t r i g g e r t o n ze a a n da c ht
Voorspel volume aan commentaar AD
101
101
100 10
in 20 hrs
1
100
10
101
101
102
100
10
1
10
101
1
10
100
10
101
Trouw
1
100
10
101
10
1
100
101
WaarMaarRaar
101
1
10
1
102
100
100 1
1
101
101
1
10
100
10
100
Telegraaf
100 10
1
Spits
101
101
100
1
10
NUjij
FD
101
100
1
10
De Pers
1
100
100 101 100
101
#comments in the first 2 hrs M. Tsagkias et al., Predicting the volume of comments on online news stories. CIKM 2009
Big data, het voorspellen van online gedrag, …
19
A. Oghina et al., Predicting IMDB movie ratings using social media. ECIR 2012.
Voorspel movie ratings voor lancering
De f i l m s die we le u k g a a n v i n de n (e n i n we l ke m ate)
Big data, het voorspellen van online gedrag, …
20
De Big Five persoonlijkheidskenmerken ¢
On ze p e rs o o n l ij k h eid
Individual differences in personality linked to differences in linguistic style £
£
Can be reliably estimated from language usage on blogs Neural network-based prediction achieves normalized root means score error (NRMSE) scores of 0.079
T. Yarkoni, Personality in 100,000 words: A large-scale analysis of personality and word use among bloggers. J. Research in Personality 44:363-373, 2010
Big data, het voorspellen van online gedrag, …
21
Wat als je … ¢
… 58,000 Facebook gebruikers had die hun “Likes” met je deelden plus gedetailleerde demografische profielen en de resultaten van psychometrische tests?
¢
Leer modellen gebaseerd op de “Likes signalen” die allerlei kerneigenschappen voorspellen …
M. Kosinski et al., Private traits and attributes are predictable from digital records of human behavior. PNAS 2013, www.pnas.org/cgi/doi/10.1073/pnas.1218772110
Wat n iet?
Big data, het voorspellen van online gedrag, …
22
Digitale geesteswetenschappen (1) ¢
Zo e ke n n a a r p e rsp e ctieve n
Tweet stromen van politici, politiek journalisten, lobbyisten (plus cirkel er omheen) £
£
Wie brengt welk onderwerp waar in? Wie neemt het over?
Big data, het voorspellen van online gedrag, …
23
Digitale geesteswetenschappen (2) ¢
Zo e ke n n a a r p e rsp e ctieve n
Vijfhonderd jaar aan kranten £
£
Vind belangrijke gebeurtenissen Volg en vergelijk discussies over langere periodes
Big data, het voorspellen van online gedrag, …
24
Digitale geesteswetenschappen (3) ¢
Zo e ke n n a a r p e rsp e ctieve n
Archief van Beeld & Geluid £ £
Exploreer Contextualiseer
Kranten Foto Sociaal …
Big data, het voorspellen van online gedrag, …
25
En nu? Big data, het voorspellen van online gedrag, …
26
Veranderende wetenschappelijke praktijk Data science loop
¢
Vergeet disciplinaire grenzen
Problem definition
1. Research plan 3. Data exploration
¢
Offline vs. online als onderzoeksthematiek £ £
Data selectie Reproduceerbaarheid
2. Data collection 4. Data transformation
9. Model monitoring & updating 5. Analysis
8. Model application 6. Model construction 7. Model evaluation
¢
Big data vs little data
¢
Discipline-gestuurd vs. probleem-gestuurd vs. data-gestuurd
¢
Observatie vs. experiment
¢
Infrastructuur Big data, het voorspellen van online gedrag, …
27
¢
Big data en het voorspellen van online gedrag
¢
Maarten de Rijke
¢
[email protected]
Big data, het voorspellen van online gedrag, …
28