CLST OFFERTE
Datum: 3 nov. 2011 Plaats: Nijmegen Projectnaam: Intemetbedreigingen dreigtweets Opdrachtgever: KLPD, dienst IPOL 00V OSINT Opdrachtnemer: Centre for Language and Speech Technology (CLST), Radboud Universiteit Nijmegen Looptijd: 1dec.2011 -1 mei2012 Tariefbepaling: Onderstaande prijsopgave omvat de werkzaamheden als beschreven in deze offerte tegen de volgende uurtarieven: Programmeur en onderzoeker â ‘uur, senioronderzoeker â uur, student-assistent â/uur. Extra diensten, niet voorzien in deze offerte, worden in overleg apart gedeclareerd. Genoemde piijzen zijn exclu~siefBTW. Voor dit project zal 19% BTW in rekening worden gebracht. Proj ectomschrijving: Zie bijlage Prijs: Voor het volledige project
—
(excl. BTW). Zie specificatie in bijlage.
Betaling: Voomitbetaling van de helft van het totale bedrag. De andere helft binnen 30 dagen na afronding van de opdracht. Slotopmerking Bij gebleken geschiktheid van de ontwikkelde tool, zal in een vervolgstap inpassing in het iColumho framework (zoals geïmplementeerd aan de UvA) aan de orde komen. Omdat de specificaties hiervan momenteel onduidelijk zijn, is dit onderdeel buiten de huidige offerte gelaten.
Namens CLST, Dr H. van den Heuvel (directeur) Radboud Universiteit Nijmegen
‘
V
Pagina 1
Radboud Universiteit Nijmegen
Pagina 2
BIJ AGE: PROJECTBESCHRIJ 1 G Samenvatting Het project heeft tot doel een methode te ontwikkelen die ingezet kan worden voor (1) het monitoren van het internet op bedreigingen gericht tegen personen, objecten, diensten en evenementen en (2) het beoordelen van de ernst en waarschijnlijkheid van de bedreigingen. Het project beoogt in eerste aanleg een proof-of-concept te leveren voor de effectiviteit van de voorgestelde methode en beperkt zich tot het Nederlandse internetdomein en de bedreigingen die worden geuit via twitter.
Probleem- en doelstelling Taal wordt vooral gebruikt voor het uitwisselenloverdragen van informatie. Uit het taalgebruik van iemand valt echter veel meer op te maken. Ieder mens heeft zo zijn eigen manier om zich uit te drukken. Hoe iets gezegd of geschreven wordt verschilt niet alleen van persoon tot persoon. Taalgebruik varieert ook naar gelang de gebruikssituatie: over welk onderwerp gaat het, tot wie richt iemand zich, wat is het medium waarvan hij/zij gebruik maakt, in welke gemoedstoestand bevindt iemand zich, etc.; al deze factoren zijn van invloed op de manier waarop iemand zich uit. Zo zal de wetenschapper in een wetenschappelijk artikel zijn formuleringen anders kiezen dan wanneer hij tijdens zijn vakantie in een internetcafé met achterblijvers op het thuisfront chat. Het taalgebruik van iemand weerspiegelt zijn/haar gedrag in een gegeven omstandigheid. Voor een deel kan dat gedrag aangeleerd zijn. Zo leren aspirant wetenschappers in een cursus wetenschappelijk schrijven hoe een wetenschappelijk artikel eruit moet zien, niet alleen qua opzet en indeling, maar zeker ook qua stijl. Maar er zijn ook veel persoonsgebonden kenmerken in het taalgebruik van een individu die niet aangeleerd zijn en waarvan de persoon in kwestie zich niet of nauwelijks bewust is. Dergelijke kenmerken stellen ons bijvoorbeeld in staat om van een tekst te bepalen wie daarvan de auteur is of dat de tekst door iemand anders geschreven is dan wordt geclaimd. Het gebruik van internet en de sociale media heeft een enorme vlucht genomen. Mensen hebben vrijwel ongelimiteerd toegang tot allerlei informatie en berichtgeving en hebben de mogelijkheid daar bijna instantaan op te reageren. De meeste communicatie is onschuldig van aard. Maar soms is dat ook niet het geval. Zo kan het zijn dat er een bedreiging wordt geuit. Dergelijke gevallen zijn een zaak voor de politie. Wanneer zij in staat is de bedreiging tijdig te onderkennen, kan verder kwaad worden voorkomen.
Radboud Universiteit Nijmegen
‘j-~
Pagina 3
Voor het monitoren van het internet op mogelijke dreigingen ontbreekt het momenteel nog aan instrumenten die de politie hierbij kunnen ondersteunen. Het project zoals dat hier wordt voorgesteld heeft als doel een methode en bijbehorende software te ontwikkelen die (1) (vermoedelijke) dreigtweets kan onderscheiden van niet-dreigtweets en (2) vervolgens dergelijke tweets kan rangschikken naar waarschijnlijkheid van een werkelijke bedreiging.
Methode De aanpak die wij voorstellen maakt gebruik van een methode die wij Linguistic Profiling’ genoemd hebben. Hierbij wordt een groot aantal zogenaamde features (kenmerken) geëxtraheerd uit teksten en worden de relatieve gebruikswaarden ervan berekend. Aan de hand van deze featureset wordt vervolgens bepaald of bepaalde features in de tekst van een auteur opvallend vaak ofjuist minder vaak voorkomen dan bij andere auteurs teksten. Een statistische vergelijking van de gemiddelde gebruikswaarden met de tekstspecifieke waarden maakt het mogelijk te bepalen wat de kans is dat een tekst van dezelfde auteur afkomstig is of wat de kans is dat een tekst tot een bepaald type teksten gerekend kan worden. De methode is tot dusver succesvol toegepast in onder andere onderzoek gericht op auteursherkenning en verificatie. In alle gevallen werd daarbij gebruik gemaakt van teksten van enige omvang (min. 500 woorden). Omdat tweets aanmerkelijk korter zijn dan de teksten waarmee gewoonlijk wordt gewerkt, zal de methode enigszins aangepast moeten worden. Uit een verzameling dreigtweets zal een featureset worden afgeleid die de typische kenmerken van dergelijke tweets omvat en aan de hand waarvan vastgesteld kan worden wat de dreigingswaarde van een tweet is. Het lijkt ons niet zinvol om al in dit voorstel in te gaan op welke features exact gebruikt zullen gaan worden. In onze rapportages zullen we daarover wel gedetailleerde informatie geven, zodat nuttig gebleken features eventueel later ook bij andere methoden en/of projecten gebruikt kunnen worden.
Benodigde data Om ons systeem te kunnen trainen en testen/evalueren hebben we idealiter een groot aantal tweets nodig met daarbij een aanduiding van de geconstateerde mate van dreiging. Omdat het in dit stadium voor de opdrachtgever niet mogelijk blijkt een voldoende grote verzameling van tweets aan te leveren met de gevraagde informatie, stellen we voor dat er specifiek ten behoeve van dit project een dataverzameling wordt aangelegd die de realiteit zoveel mogelijk benadert. De dataverzameling zal daarom een subset omvatten van de tweets beschikbaar via de site doodsbedreiging.nl. Deze tweets zullen worden voorzien van een aanduiding van de geschatte, vermoede dreiging (dreiging vs geen dreiging) en de ernst ervan.
‘Voor een uitgebreidere uitleg van deze methode zie http://acl.ldc.upenn.edu/acl2004/main/pdf/183 pdf 2col.pdf.
Radboud Universiteit Nijmegen ~ Pagina 4
Voor het aanduiden van de geschatte mate van dreiging zal een protocol worden ontwikkeld. De opdrachtgever zal hiervoor de nodige input en feedback leveren, mede door een deel van de tweets onafhankelijk maar wel volgens het protocol te annoteren. Door dezelfde set door twee partijen (opdrachtgever en opdrachtnerner) te laten annoteren komen vanzelf verschillen van inzicht aan het licht en kunnen de richtlijnen zoals geformuleerd in het protocol verder worden aangescherpt. De opdrachtnemer zal vervolgens alle overige tweets annoteren. Naast de als dreigtweet aangemerkte tweets bestaat de dataverzameling uit tweets die niet als zodanig zijn aangemerkt en die ook niet voorkomen op doodsbedreiging.nl. Deze aanvullende set van tweets zal door de opdrachtnemer zelf worden verzameld. Voor alle (dreig tweets en niet-dreigtweets) in de dataverzameling worden voor zover mogelijk/beschikbaar ook metadata verzameld die informatie geven over o.a. de identiteit (gebruikersnaam) van de twitteraar en de datum en het tijdstip waarop de tweet werd verzonden.
TestlEvaluatie In de aanpak zoals we die voorstellen wordt het detecteren van mogelijke dreigtweets opgevat als een rangschikkingsprobleem: idealiter worden tweets met een hogere dreigingswaarde eerder in de rangschikking worden opgenomen dan tweets met een lagere dreigingswaarde. Voor evaluatie bij rangschikkingsproblemen gebruiken wij momenteel de NDCG-maat (zie
http~//en.wikipedja.org/wjkj/NorrnaIjzed discounted cumulative gain#Normalized DCG). Ook in dit project zullen we deze maat toepassen. Voor evaluatie zullen we de dataverzameling in twee delen splitsen. Het ene deel zal gebruikt worden om het systeem te trainen. Het andere deel zal vervolgens door het getrainde systeem gerangschikt worden. De geleverde rangschikking wordt geevalueerd met de NDCG-maat, op basis van de in de annotatie vastgelegde dreigingswaarde. Op deze manier verkrijgen we een aanduiding van de kwaliteit van het systeem. (Merk op dat de genoemde procedure meestal een aantal keren herhaald wordt, met telkens een andere splitsing, om zo een meer nauwkeurig meting uit te kunnen voeren.) De NCDG zal in alle rapportages gebruikt worden om de vooruitgang aan te geven en om bijvoorbeeld voor bepaalde gemeten eigenschappen het relatieve nut te bepalen.
apportage Over de opzet, uitvoering en resultaten van het onderzoek zal schriftelijk worden gerapporteerd in een eindverslag.
Radboud Universiteit Nijmegen
‘
V
Pagina 5
Werkzaamheden, fasering, inspanning Taak 1. Aanleggen dataverzameling .
Selectie van data van
•
doodsbedreiging.nl Selectie aanvullende data
2. Datapreparatie
Door
Wanneer
#uren
medewerker
CLS’l
Week 1
30
Onderzoeker
CLST
Week 2
.
Downloaden
5
Senior
.
Normaliseren Converteren
20 5
Onderzoeker Senior
Ontwikkeling protocol CLST & KLPD Annotatie subset t.b.v. protocolontwikkeling KLPD & CLST
40
Senior
20
Senior
overige data Verzamelen aanvullende metadata
80 40
Stud.ass. Onderzoeker
.
3. Annotatie dataverzameling • .
Week 3-8
-
-
•
CLST CLST
4. Software ontwikkeling
CLST
Week 3-8
60
Senior
5. Training
CLST
Week 9-10
60
Senior
6. Initiële test/evaluatie
CLST
Week 11-12
60
Senior
7. Bijstellen dataverzameling naar aanleiding van test: evt. herannotatie van tweets die door het system als
CLST & KLPD
Week 13-14
30 50
Senior Stud.ass.
8. Verfijning methode, herhaling 5
CLST
Week 15-16
60
Senior
9. Finale test/evaluatie
CLST
Week 17-18
30
Senior
10. Eindrapportage
CLST
Week 19-20
30
Senior
11. Oplevering software met bijbehorende documentatie
CLST
Week 21
30
Senior
. .
Feature-extractie Feature-selectie
dreiging worden aangeduid, maar in de originele annotatie niet
Radboud Universiteit Nijmegen Pagina 6
Begroting Uren Onderzoeker
Uurloon
Bedrag ex. BTW
90
——
Stud. ass
130
-F
Senior
430
Totaal
Publicatie Over het onderzoek en de behaalde resultaten mag door de opdrachtnemer vrijelijk gerapporteerd en gepubliceerd worden. De opdrachtgever wordt over eventuele publicaties geïnformeerd.
Radboud Universiteit Nijmegen Pagina 7