Het nieuws van vandaag is het erfgoed van morgen Geschiedenisregistratie in het NewsReader project Funded by the EU - FP7 Work Programme Call FP7-ICT-2011-8 – Research theme ‘Information and Communication Technologies’, challenge 4.4 - Area Intelligent Information Management as project ICT 316404
Piek Vossen Faculteit der Letteren VU Universiteit Amsterdam Dijksterhuislezing, 19 april 2013
Nieuws is vluchtig ●
Vandaag krijgen we het nieuws binnen van een aanslag in Boston
●
Morgen weten we hoeveel gewonden en doden
●
Overmorgen welke materialen gebruikt
●
Over twee dagen de namen van de twee doden
●
Volgende week wie er achter zitten
●
Volgend jaar hoe de daders heten
●
Geen enkel individueel bericht vertelt het hele verhaal Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
2
Wat is de waarde van nieuws? ●
●
●
Individueel bericht op zich zegt niet veel maar massale opeenstapeling van berichten bevat een schat aan informatie In de loop der tijd vertelt nieuws een geschiedenis volgens de media → bepaalt ons beeld van de wereld, het verleden en daarmee wie we nu zijn Nieuws is het raam waardoor wij de wereld waarnemen maar het vertelt een complex verhaal Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
3
Het bijhouden van nieuws ●
●
We lezen, zien, horen elke dag het nieuws maar hoe onthouden we die eeuwige stroom aan informatie? → we maken er een verhaal van en vergeten de details Sommige verhalen lijken nooit te eindigen: –
●
Sommige verhalen veranderen van visie en perspectief: –
●
Economische crisis, Srebrenica, nieuwe gegevens over roofkunst door Duitse nazi's
Golfoorlog, war on terror → nieuwe informatie verandert de eerdere informatie
Hoe kunnen we het verhaal overzien van grote complexe gebeurtenissen met een overvloed aan data? Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
4
De financiele crisis ●
Volstrekt zich waar we bij staan sinds 2008
●
Heeft zijn wortels in een verder verleden
●
Zal gevolgen hebben tot ver in de toekomst
●
●
● ●
Hoe breng je een dergelijke wereldomvattende gebeurtenis in beeld? Hoe help je mensen vandaag bij het nemen van beslissingen? Wat gaan we hieruit leren? Wie schrijft wanneer welke geschiedenis over de financiele crisis? Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
5
Archiveren van nieuws in tijd Val van Srebrenica
1995
2000
Lehman Brothers Bankrupcy
2008
2009
Project X Haren
2010
2011
2012
2013
? Facebook
Direct verslag Later in tijd ● Moslim vrouwen en ● deportatie ● genocide kinderen in ● Intenties, schuld, strategie, veroordeling vrachtwagens geladen en weggebracht ● Moslim mannen doodgeschoten
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
Grexit
6
Nieuws als erfgoed ●
●
Een ongekende hoeveelheid gegevens: –
LexisNexis archief bevat 25 miljard documenten die ruwweg 20 tot 30 jaar verleden omvatten, verteld door 40,000 bronnen
–
LexisNexis krijgt 260,000 nieuwe documenten per weekdag binnen, 1,700,000 per week
–
Een Nederlandse bank krijgt 90,000 artikelen per maand
Van een ongekende rijkheid: –
feiten
–
meningen
–
onwaarheden Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
7
Informatiepyramide Duizenden professionele beslissers
Dagelijkse hoeveelheid verwerkt door professionals Dagelijkse stroom nieuwe documenten Archief van enkele decennia
50-3,000 260,000 artikelen
25 milliard documenten: nieuws, bedrijfsraporten, managersbiografieen,.. Gebeurtenissen, bronnen en achtergrond data Onbekend volume
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
8
Een voorbeeld ●
●
Wat is de impact van de economische crisis op de autoindustrie? Welk machtspel heeft zich voltrokken? Lexis Nexis schat de hoeveelheid Engelse documenten over de autobranche voor de laatste 10 jaar in haar archief op 10 miljoen.
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
9
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
10
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
11
Big data vraagt om nieuwe oplossingen ●
●
●
Zoekresultaten te rijk en omvangrijk ook als we gebruikmaken van oplossingen als faceted browsing Resultaten bevatten te veel verdubbelingen, overlap, herhalingen: → hoe maak je een onderscheid tussen oud en nieuw Ieder resultaat is incompleet, vertelt maar een stukje van het verhaal
●
Resultaten zijn inconsistent en in tegenspraak
●
Berichtgeving is gekleurd en vervuild met meningen
●
Veel informatie is niet geautoriseerd: → wie vertelt het juiste verhaal Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
12
NewsReader-ICT 316404 ●
●
Ontwikkelt technologie om dagelijks massale nieuwsstromen van veel verschillende bronnen in 4 talen te verwerken: –
wat gebeurt, waar, wanneer en wie was er bij betrokken
–
welke temporele en causale relaties zijn er tussen gebeurtenissen en in hoeverre geven die intenties weer (het waarom)
–
kennisbank die om kan gaan met de dynamische groei en verandering en zo een geschiedenis weergeeft: → wat resulteert in een geschiedenisrecorder.
–
Organiseer en visualiseer massieve hoeveelheden informatie als verhalen, scripts, plots zodat effectief toegang wordt verschaft
Partners: Nederland (VU, LexisNexis, Synerscope), Spanje (Basque University), UK (ScraperWiki) en Italië (Federation Bruno Kessler, Trento)
●
Januari 2013 – December 2015 Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
13
De geschiedenisrecorder Archiveren van nieuws in tijd ●
●
●
●
●
●
Uit alle bronnen van een dag halen we wat, waar en wanneer gebeurd is en wie er bij betrokken zijn; We bepalen welke bronnen dezelfde gebeurtenissen beschrijven en wat de overlap is → deduplicatie, bevestiging; We bepalen hoe bronnen elkaar aanvullen en waar ze elkaar tegenspreken; We vergelijken de informatie met alle bestaande informatie uit de database (het nieuws van gisteren en verder): –
definieert wat nieuw is en wat oud nieuws → informatiegroei
–
definieert ontwikkelingen in tijd
We bepalen wat feitelijke informatie is, wat beweringen, verwachtingen, speculaties, meningen, etc... We plaatsen reeksen van gebeurtenissen in plot-structuren zodat massale informatie kan worden gerepresenteerd als een verhaal Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
14
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
15
Van tekst naar structuur
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
16
http://www.standaard.be/artikel/detail.aspx?artikelid=DMF01072006_034
Wat is er gebeurd in het Belgische Vorst in 2006? Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
17
Werkvoorziening in Vorst ●
April 2006: –
●
Juli 2006: –
●
Minder Golfs geproduceerd in Vorst, misschien meer Polo's. ‘Zo niet, dan zitten we met een probleem’, aldus een vakbondsvertegenwoordiger.....De kans dat Vorst volgend jaar geen Polo’s meer mag maken is echter miniem want in de fabriek werd dit jaar geïnvesteerd in een nieuwe, speciaal voor de Polo bestemde, lasinstallatie.
November 2006: –
●
Polo productie in Vorst, geen banen weg in Spanje maar extra banen in Belgie.
Augustus 2006: –
●
productie van Polo van Spanje naar Oost-Europa wegens sociale klimaat in Pamplona en misschien naar Vorst in Belgie
Volkswagen stopt met productie van Golf in Vorst: 3,500 banen
November 2009: –
Audi fabriek in Vorst stopt met productie van Polo: 300 banen
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
18
Grounded Annotation Framework ●
Bronnen rapporteren over gebeurtenissen → mentions of events –
●
●
●
●
Bronnen: teksten, databases van betaalverkeer, sociaal-economische gegevens, telefoongebruik, internet gebruik, etc, sensors zoals camera's.
Meeste gebeurtenissen vinden in de werkelijkheid plaats en niet in de bron → instances of events GAF koppelt alle mentions van hetzelfde event aan een unieke instance met een URI → Linked Open Data (Semantic Web) Alle informatie uit toekomstige bronnen (na het event zelf) wordt voortdurend gekoppeld aan dezelfde instance: → herinterpretatie Gepubliceerd in NAACL-2013 (Fokkens et al.) Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
19
Bron:
Bron:
http://www.autoblog.nl/archive/2006/11/21/volkswa gen-fabriek-belgie-moet-stoppen-met-de-golf
http://www.autointernationaal.nl/artikel.p hp?id=2868
Tijd: 21-11-2006 om 15:07 Tekst: Volkswagen fabriek België moet stoppen met de Golf. …. Er gingen namelijk geruchten over zware saneringen, van 1.000 tot 4.000 ontslagen.
Tijd: 21-11-2006 11:26 Tekst: Bij de Volkswagen fabriek in Vorst verdwijnen zeker 3.500 banen
Action: Participants: Time: Location:
DECREASE ? NR OF JOBS, VW PLANT 21 – 11 - 2006 Vorst, Belgium Bron:
Bron:
http://nl.wikipedia.org/wiki/Audi_Brussel
http://www.standaard.be/kanaal/index.aspx? kanaalid=261&pageid=15
Tijd: Di 21/11/2006 Tekst: Tot 4.000 banen weg in Vorst Fabriek verliest Golf BRUSSEL - Boze arbeiders blokkeren de poorten van de Volkswagenfabriek in Vorst, nadat bekend raakte dat zeker 3.500 van de 5.300 banen verdwijnen.
Database werkeloosheid gegevens
Tijd: 13 mrt 2013 om 13:24 Tekst: Op 21 november 2006 kwam het nieuws dat Volkswagen Vorst de productie van de Golf verliest en er meer dan 3500 van de 5000 banen geschrapt zouden worden.
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
20
Het bepalen van mentions REEKS WOORDEN
…. Bij de Volkswagen fabriek in Vorst verdwijnen zeker 3.500 banen...
REEKS CONCEPTEN
…. …........................PLANT.........DISAPPEAR....3.500..JOBS
RELATIES & IMPLICATIES
AUTORITEIT BRONNEN
TIJD, PLAATS (DISAPPEAR, 3.500 JOBS) (OWNS, VOLKSWAGEN, PLANT) (OPERATE, PLANT, JOBS)
Taaltechnologie
autointernationaal – maakt → STATEMENT → CERTAIN
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
21
Wat wordt er gezegd over 2006? VOLKSWAGEN VORST
VORST, BELGIUM VOLKSWAGEN
LOCATED-IN OWNS
HAS-NAME
autoblog.nl autointernationaal.nl standaard.be nl.wikipedia.org
73000 annual
GOLF
120000 annual
AUDI
180000 annual
PRODUCES
PLANT
November 2006
POLO
PRODUCES PRODUCES
1000 3500 4000
FUTURE (DISAPPEAR)
JOBS
HAS
JOBS
5300
PATIENT
5000 DISAPPEAR
November 2006
March 2013 Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
22
5 jaar later: 2011 AUDI BRUSSEL
VORST, BELGIUM HAS-NAME
VOLKSWAGEN
LOCATED-IN OWNS
nl.wikipedia.org
PLANT
PRODUCES HAS
HAS
March 2013
AUDI
ROBOTS
450
JOBS
2372
120000 annual
2011
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
23
Van structuur naar verhaal Wat te doen met miljarden gebeurtenissen uit miljoenen berichten?
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
24
Big Data 2874 event mentions in 1 document
Plots ●
Alle gebeurtenissen van een enkele participant, e.g. Volkswagen of Wiedeking, of rond een plaats, e.g. Vorst in Belgie.
●
Tijdreeks van opeenvolgende gebeurtenissen
●
Oorzakelijke relaties tussen gebeurtenissen
●
●
Progressie van bepaalde stand van zaken → oplopende werkeloosheid Menselijke motivaties, intenties, schuld, verantwoordelijkheid (Bremond 1980, Brooks 1992, Ryan 1991) Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
26
Plots ●
●
Menselijke drijfveren en intenties: –
martkleider worden
–
omzet verhogen door productie te verplaatsen
Dramatisch effect: –
opbouw: Porsche koopt aandelen Volkswagen
–
climax: speculatie over overname van Volkswagen
–
oplossing: Volkswagen neemt Porsche over
–
Wiedeking voor gerecht gedaagd Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
27
Mogelijk gebruikersscenario ●
Een piek in de berichtgeving rond een onderwerp geeft aan dat er iets gaande is: –
●
Bronnen: European media monitor (EMM) Newsbrief, Google trend, Twitter
Structurering van alle berichtgeving in een cluster van nieuws rond een onderwerp als verhaal structuur: –
ontwikkeling naar een climax
–
mogelijk of daaadwerkelijk dramatisch effect of impact Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
28
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
29
Scenario-1: Connecting co-occurring clusters Pyongyang (25 milion hits on Google)
Mahmoud Ahmadinejad (21 million hits on Google)
2012
2013 Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
30
Scenario-1: Connecting co-occurring clusters How to find the needle in the haystack that connects two trendy topics?
http://www.couriermail.com.au/news/breaking-news/n-korean-official-meets-with-ahmadinejad/story-e6freoo6-1226463500114
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
31
Scenario-1: Connecting co-occurring clusters
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
32
Scenario-2 Connecting disjoint cluster Ontslagen na overname Ontslagen na overname
management transfer
2005
2013
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
33
Scenario-3 Cumulation to a critical point - werkeloosheid - graanprijs - olieprijs - productie van auto's - marktaandeel
- maatregelen met impact - personen met impact 2005
2013
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
34
Bepalen van waarde verbinding ●
●
impact van participanten –
trendy: persoon komt vaak voor in het nieuws, e.g. Kim Young-Nam
–
sterke meningen over participanten: sentiment analyse
–
rol en functie (beslisser met grote gevolgen)
–
verleden: participanten met een rugzak, hebben eerder iets gedaan
impact van gebeurtenissen –
impact potentieel van de participanten
–
trendy
–
sterke meningen over gebeurtenissen
–
soort gebeurtenis (rampen met grote gevolgen, fraude, corruptie, faillisement)
–
kritieke toestanden van bepaalde factoren, e.g olieprijs, graanprijs, marktaandeel, monopolie Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
35
Impact ●
●
Alles dat een belangrijk persoon doet is potentieel belangrijk! Alle participanten van belangrijke gebeurtenissen zijn potentieel belangrijk
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
36
Wiedeking President & CEO Porsche
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
37
Wiedeking President & CEO Porsche
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
38
Wiedeking President & CEO Porsche
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
39
Wiedeking President & CEO Porsche
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
40
Wiedeking President & CEO Porsche
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
41
Op zoek naar het waarom? ●
Het internet staat vol met meningen over beweegredenen en verklaringen –
complottheorieën
–
meningen van de gewone burger
–
opvattingen van onderzoeksjournalisten of wetenschappelijke specialisten
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
42
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
43
A view of the past, gives...
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
44
\
Visionairs Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
45
Event model ●
Source –
Message ●
– ●
si EPS ej
Epistemic status: believe or not, fear, hope, expect, etc.
Event – – – –
Action, Relation, Condition or Opinion (special type of R or C) Participants Time point or period Location or region ei
ai
ri
oi
pi ei pj
pi ei pj
pi ei pj
li t i
li ti
li t i
ci pi ei li t i
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
46
Event equations Co-reference ai pi ei
+
aj ej pj lj
li t i
li sim lj & ai sim aj Temporal-Causal ai pi ei li t i
+
aj ej pj lj
li sim lj & ai dif aj
ai
ai pi ei
pi ei
pj
ej
j
lj t j
pi sim pj & ai dif aj Grouping
Chain
ai ai
ai pj
li t i
ei li t i
cause shoot
ai
+p
li t i
li t i
pi ei
Chain
Disjoint
Merge
die
pi ei pj
li t i
+p
j
ai
ai
ei pjj ej lj ti
lj tj
Bag
ai pj ei
ai ei lj t j
pi hyp/mer pj & ai hyp/mer aj & ti meronym tj
war
lj t j ai ei
ai pj
lj ti shooting
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
ei
ai pj
lj ti attack
ei lj t i 47
pj
What do cars do? 417 news articles on cars in 3 months news in 2012 Toyota:p1:241
say:49 sell:32 recall:12 describe:10 settlement:9 blame:8 take:7 tell:6 do:6 admit:6 show:6 settle:5
Ford:p1:217
say:63 performance:16 line:8 take:8 escape:7 report:6 want:6 cut:6 offer:6 estimate:5 establish:4
Toyota:p2:162
say:32 traffic:18 safety:12 crash:12 settlement:10 production:9 mean:8 tag:7 show:6 alliance:5
Ford:p2:152
say:36 line:24 recall:11 tell:8 estimate:8 do:6 want:6 buy:6 row:5 report:4 appoint:4 removal:4
BMW:p1:62
say:16 achieve:8 post:4 launch:4 remain:3 record:3 case:2 continue:2 admit:2 try:2 perform:2 order:2
Chrysler:p1:62
plan:12 move:8 production:6 job:6 make:4 bankruptcy:4 produce:4 finance:4 oppose:4 want:2 deal:2
Ferrari:p2:54
say:12 crash:8 trade:6 lead:6 movement:6 boost:4 deny:4 ruling:4 defend:4 Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
48
What do others do? 417 news articles on cars in 3 months news in 2012 vehicle:p2:155
recall:39 sell:34 take:8 drag:5 repair:4 make:4 sale:4 total:4 affect:4 spot:4 produce:4 strike:4
car:p2:139
sell:14 avoid:10 drive:8 make:6 buy:6 recall:6 affect:6 take:6 unveil:5 offer:5 use:4 hit:4
company:p1:118
say:17 own:12 maintain:7 expect:6 need:5 choose:4 give:4 line:4 retain:4 sell:4 reinstate:4 receive:4 produce:4
police:p1:80
say:22 identify:4 use:4 attend:4 find:4 set:4 violate:4 open:4 handle:4 trace:4 launch:4 travel:2
automaker:p1:60
say:16 join:8 accelerate:4 inform:4 forecast:4 delay:4 predict:4 launch:4 build:3 slash:2 agree:2
Dijksterhuislezing, 19 april 2013, VU Universiteit Amsterdam
49