De geschiedenisrecorder: het nieuws van vandaag is de geschiedenis van morgen Funded by the EU - FP7 Work Programme Call FP7-ICT-2011-8 – Research theme ‘Information and Communication Technologies’, challenge 4.4 - Area Intelligent Information Management as project ICT 316404
Piek Vossen Faculteit der Letteren VU Universiteit Amsterdam Informatie aan zee, 12-13 September 2013, Oostende
Het bijhouden van nieuws ●
●
We lezen, zien, horen elke dag het nieuws maar hoe onthouden we die voortdurende stroom aan informatie? → we maken er een verhaal van en vergeten de details Sommige verhalen lijken nooit te eindigen: –
●
Sommige verhalen veranderen van visie en perspectief: –
●
Economische crisis, Srebrenica, nieuwe gegevens over roofkunst door Duitse nazi's
Golfoorlog, war on terror → nieuwe informatie verandert de eerdere informatie
Hoe kunnen we het verhaal overzien van grote complexe gebeurtenissen met een overvloed aan data? Informatie aan zee, 12-13 September 2013, Oostende
2
Een voorbeeld ●
●
Wat is de impact van de economische crisis op de autoindustrie? Welk machtspel heeft zich voltrokken? Welke arbeidsconflicten? Lexis Nexis schat de hoeveelheid Engelse documenten over de autobranche voor de laatste 10 jaar in haar archief op 6 miljoen.
Informatie aan zee, 12-13 September 2013, Oostende
3
Informatie aan zee, 12-13 September 2013, Oostende
4
Informatie aan zee, 12-13 September 2013, Oostende
5
Reconstructie van een geschiedenis
Informatie aan zee, 12-13 September 2013, Oostende
6
Big data vraagt om nieuwe oplossingen ●
●
●
Zoekresultaten te rijk en omvangrijk ook als we gebruikmaken van oplossingen als “faceted browsing” Resultaten bevatten te veel verdubbelingen, overlap, herhalingen: → hoe maak je een onderscheid tussen oud en nieuw Ieder resultaat is incompleet, vertelt maar een stukje van het verhaal
●
Resultaten zijn inconsistent en in tegenspraak
●
Berichtgeving is gekleurd en vervuild met meningen
●
Veel informatie is niet geautoriseerd: → wie vertelt het juiste verhaal Informatie aan zee, 12-13 September 2013, Oostende
7
NewsReader-ICT 316404 ●
●
Ontwikkelt technologie om dagelijks massale nieuwsstromen van veel verschillende bronnen in 4 talen te verwerken: –
wat gebeurt, waar, wanneer en wie was er bij betrokken
–
welke temporele en causale relaties zijn er tussen gebeurtenissen en in hoeverre geven die intenties weer (het waarom)
–
kennisbank die om kan gaan met de dynamische groei en verandering en zo een geschiedenis weergeeft: → wat resulteert in een geschiedenisrecorder.
–
Organiseer en visualiseer massieve hoeveelheden informatie als verhalen, scripts, plots zodat effectief toegang wordt verschaft
Partners: Nederland (VU, LexisNexis, Synerscope), Spanje (Basque University), UK (ScraperWiki) en Italië (Federation Bruno Kessler, Trento)
●
Januari 2013 – December 2015 Informatie aan zee, 12-13 September 2013, Oostende
8
De geschiedenisrecorder Archiveren van nieuws in tijd ●
●
●
●
●
●
Uit alle bronnen van een dag: wat, waar en wanneer gebeurt en wie er bij betrokken; Welke bronnen beschrijven dezelfde gebeurtenissen en wat is de overlap → deduplicatie, bevestiging; Hoe vullen bronnen elkaar aan en waar spreken ze elkaar tegen; Informatie van vandaag vergeleken met alle bestaande informatie in de database (het nieuws van gisteren en verder): –
definieer wat nieuw is en wat oud nieuws → informatiegroei
–
definieer ontwikkelingen in tijd
We bepalen wat feitelijke informatie is, en wat niet-feitelijke beweringen, verwachtingen, speculaties, meningen; We plaatsen reeksen van gebeurtenissen in plot-structuren zodat massale informatie kan worden gerepresenteerd als een verhaal Informatie aan zee, 12-13 September 2013, Oostende
9
Van tekst naar structuur
Informatie aan zee, 12-13 September 2013, Oostende
10
http://www.standaard.be/artikel/detail.aspx?artikelid=DMF01072006_034
Wat is er gebeurd in het Belgische Vorst in 2006? Informatie aan zee, 12-13 September 2013, Oostende
11
Werkvoorziening in Vorst ●
April 2006: –
●
Juli 2006: –
●
Minder Golfs geproduceerd in Vorst, misschien meer Polo's. ‘Zo niet, dan zitten we met een probleem’, aldus een vakbondsvertegenwoordiger.....De kans dat Vorst volgend jaar geen Polo’s meer mag maken is echter miniem want in de fabriek werd dit jaar geïnvesteerd in een nieuwe, speciaal voor de Polo bestemde, lasinstallatie.
November 2006: –
●
Polo productie in Vorst, geen banen weg in Spanje maar extra banen in Belgie.
Augustus 2006: –
●
productie van Polo van Spanje naar Oost-Europa wegens sociale klimaat in Pamplona en misschien naar Vorst in Belgie
Volkswagen stopt met productie van Golf in Vorst: 3,500 banen
November 2009: –
Audi fabriek in Vorst stopt met productie van Polo: 300 banen Informatie aan zee, 12-13 September 2013, Oostende
12
Bron:
Bron:
http://www.autoblog.nl/archive/2006/11/21/volkswa gen-fabriek-belgie-moet-stoppen-met-de-golf
http://www.autointernationaal.nl/artikel.p hp?id=2868
Tijd: 21-11-2006 om 15:07 Tekst: Volkswagen fabriek België moet stoppen met de Golf. …. Er gingen namelijk geruchten over zware saneringen, van 1.000 tot 4.000 ontslagen.
Tijd: 21-11-2006 11:26 Tekst: Bij de Volkswagen fabriek in Vorst verdwijnen zeker 3.500 banen
Action: Participants: Time: Location:
DECREASE ? NR OF JOBS, VW PLANT 21 – 11 - 2006 Vorst, Belgium Bron:
Bron:
http://nl.wikipedia.org/wiki/Audi_Brussel
http://www.standaard.be/kanaal/index.aspx? kanaalid=261&pageid=15
Tijd: Di 21/11/2006 Tekst: Tot 4.000 banen weg in Vorst Fabriek verliest Golf BRUSSEL - Boze arbeiders blokkeren de poorten van de Volkswagenfabriek in Vorst, nadat bekend raakte dat zeker 3.500 van de 5.300 banen verdwijnen.
Database werkeloosheid gegevens
Tijd: 13 mrt 2013 om 13:24 Tekst: Op 21 november 2006 kwam het nieuws dat Volkswagen Vorst de productie van de Golf verliest en er meer dan 3500 van de 5000 banen geschrapt zouden worden.
Informatie aan zee, 12-13 September 2013, Oostende
13
Het bepalen van “mentions” REEKS WOORDEN
…. Bij de Volkswagen fabriek in Vorst verdwijnen zeker 3.500 banen...
REEKS CONCEPTEN
…. …........................PLANT.........DISAPPEAR....3.500..JOBS
RELATIES & IMPLICATIES
AUTORITEIT BRONNEN
TIJD, PLAATS (DISAPPEAR, 3.500 JOBS) (OWNS, VOLKSWAGEN, PLANT) (OPERATE, PLANT, JOBS)
Taaltechnologie
autointernationaal – maakt → STATEMENT → CERTAIN
Informatie aan zee, 12-13 September 2013, Oostende
14
Wat wordt er gezegd over 2006? VOLKSWAGEN VORST
VORST, BELGIUM VOLKSWAGEN
LOCATED-IN OWNS
HAS-NAME
autoblog.nl autointernationaal.nl standaard.be nl.wikipedia.org
73000 annual
GOLF
120000 annual
AUDI
180000 annual
PRODUCES
PLANT
November 2006
POLO
PRODUCES PRODUCES
1000 3500 4000
FUTURE (DISAPPEAR)
JOBS
HAS
JOBS
5300
PATIENT
5000 DISAPPEAR
November 2006
March 2013 Informatie aan zee, 12-13 September 2013, Oostende
15
Hoe is de situatie 5 jaar later: 2011 AUDI BRUSSEL
VORST, BELGIUM HAS-NAME
VOLKSWAGEN
LOCATED-IN OWNS
nl.wikipedia.org
PLANT
PRODUCES HAS
HAS
March 2013
AUDI
ROBOTS
450
JOBS
2372
120000 annual
2011
Informatie aan zee, 12-13 September 2013, Oostende
16
1 nieuwsartikel = 1,000 woorden = 100 events 10,000,000 X 100 events = 1 miljard events (netwerk van knopen met relaties naar participanten en elkaar verspreid over tijd en plaats) die de geschiedenis van de autoindustrie in de laatste 10 jaar beschrijven
Van structuur naar verhaal Wat te doen met miljarden gebeurtenissen uit miljoenen berichten?
Informatie aan zee, 12-13 September 2013, Oostende
18
Synerscope Marcato ●
Interface en interactie met complexe Big Data
●
Gaat uit van gestructureerde data
●
Ondersteunt analyse en redeneren
●
Eerste test case: –
Crunchbase: database met biografieën van IT bedrijven gevuld door mensen
–
Techbase: archief met blogs over dezelfde IT bedrijven Informatie aan zee, 12-13 September 2013, Oostende
19
Informatie aan zee, 12-13 September 2013, Oostende
20
Biografie van een bedrijf
Informatie aan zee, 12-13 September 2013, Oostende
21
Zoeken naar IT bedrijf Mortar
Mortar = groen Informatie aan zee, 12-13 September 2013, Oostende
22
Welke andere investeringen, andere bedrijven en mensen betrokken?
Informatie aan zee, 12-13 September 2013, Oostende
23
Door wie worden de bedrijven waar Mortar mensen werken gefinancierd?
Informatie aan zee, 12-13 September 2013, Oostende
24
Door wie worden de bedrijven waar Mortar mensen werken gefinancierd?
Informatie aan zee, 12-13 September 2013, Oostende
25
Welke belangrijke relaties vallen op?
TechStars
Informatie aan zee, 12-13 September 2013, Oostende
David Cohen
26
Davic Cohen and TechStars
Informatie aan zee, 12-13 September 2013, Oostende
27
Makelaar in IT start ups
Informatie aan zee, 12-13 September 2013, Oostende
28
Gebruikers en cases ●
●
●
Cases voor eerste jaar: –
Crunchbase en TechCrunch
–
Autoindustrie gedurende de crisis
–
Nederlandse Tweede kamer
–
Biografieen van banken
Samenwerking met: –
mogelijke gebruikers die het systeem willen evalueren
–
nieuwe cases
Stuur een email naar
[email protected] of
[email protected] Informatie aan zee, 12-13 September 2013, Oostende
29
Conclusie ●
●
●
●
NewsReader modelleert nieuws als een dynamische stroom van informatie: –
biografie van de wereld om ons heen
–
aanvulling, aanpassing en verandering van kennis in tijd
NewsReader geeft inzicht in de oorsprong van informatie: welke bronnen vertellen welk verhaal NewsReader past dit toe op een massale schaal a.h.v. de meest moderne technologie Eerste data sets en evaluaties begin 2014 Informatie aan zee, 12-13 September 2013, Oostende
30
A view of the past, gives...
Informatie aan zee, 12-13 September 2013, Oostende
31
\
Visionairs Informatie aan zee, 12-13 September 2013, Oostende
32
Informatie aan zee, 12-13 September 2013, Oostende
33