——ONDERZOEK
De digitale evolutie van de beleggingsanalyse
—
Auteurs Ronald van Dijk (l) Gerben de Zwart (r)1
In dit artikel betogen wij dat het vakgebied van de beleggingsanalyse op dit moment een versnelling ervaart met nieuwe mogelijkheden en innovatiekansen. Beschikbare informatie groeit exponentieel en de technologieën om deze informatie te verzamelen, op te slaan en te analyseren worden gestaag krachtiger. De eerste toepassingen tonen nu ook daadwerkelijk de meerwaarde van nieuwe technologieën voor het uitvoeren van beleggingsonderzoek. De evolutie van informatieverwerking binnen het vakgebied van beleggingsonderzoek, noopt beleggingsinstellingen tot het versneld maken van de keuze hier wel of niet aan mee te doen. Alles bij elkaar concluderen wij dat de ontwikkelingen op het gebied van internet, Big Data, tekstanalyse, snelle computers, kunstmatige intelligentie en machine learning het werk van zowel kwantitatieve als fundamentele analisten kunnen verrijken. De voorwaarde hiervoor is dat analisten open staan voor deze nieuwe ontwikkelingen en hier mee aan de slag gaan door proefondervindelijk ervaring op te doen en richting te bepalen. Inleiding De digitale evolutie is de transformatie van analoge en elektronische technologie naar digitale technologie. De start van de digitale evolutie begon met het toenemende gebruik van de digitale computer en digitale dataopslag in de jaren zestig en zeventig. De introductie van computers en digitale
vba b_eleggingsprofessionals JOURNAAL 30
dataopslag kan worden gezien als een grote ver andering in het instrumentarium van de mens. De start van deze evolutie markeert het begin van een periode waarin kennis een steeds belangrijkere rol is gaan spelen in de economie. Digitale ontwikkelingen hebben een stevige stempel gedrukt op de maatschappij en het bedrijfsleven.
beïnvloeden. In het bijzonder zien wij een versnelling op drie terreinen die hieraan een grote bijdrage kunnen leveren: internet, Big Data en kunstmatige intelligentie.
Nieuwe ontwikkelingen op het gebied van technologie en data volgden elkaar snel op. De computer werd krachtiger, data opslag goedkoper en internet en mobiele telefonie maakten opgang. Dit heeft geleid tot compleet nieuwe bedrijfsmodellen zoals Marktplaats, Facebook, Netflix en Uber. De volgende slag die nu gemaakt wordt, is het opslaan, verwerken, analyseren en interpreteren van grote hoeveelheden gestructureerde en ongestructureerde data. Het voorspellen van omzetcijfers op basis van zoekopdrachten in Google in combinatie met credit card data, bijvoorbeeld. In dit artikel streven wij ernaar om de nieuwste ontwikkelingen die relevant kunnen zijn voor beleggingsanalyses in kaart te brengen en in context te plaatsen. Dit doen wij door eerst contouren van de huidige fase van de digitale evolutie te schetsen. Vervolgens staan wij stil bij twee praktijkvoorbeelden. Tenslotte bespreken we de invloed op de bedrijfsmodellen van beleggingsinstellingen en sluiten we af met enkele aanbevelingen.
Internet Sinds zijn introductie in 1993 heeft de ontwikkeling van het internet niet stil gestaan. Een mijlpaal was de introductie van mobiel internet dat de gebruiker 24/7 met een computer verbindt. Velen onderhouden sociale contacten op Facebook of LinkedIn, geven meningen via Twitter of diverse blogs, zoeken met Google of Bing, verspreiden foto’s via Flickr of Instagram en delen hun locatie met de Apps op een mobiele telefoon aan de hand van GPS. Tegelijkertijd wordt veel van deze informatie ergens opgeslagen. Terwijl mobiel internet nog vele nieuwe toepassingen zal gaan kennen, wordt al druk gewerkt aan twee nieuwe ontwikkelingen: DBpedia en het Internet of Things.
De digitale evolutie in versnelling
DBpedia is een initiatief van een groep bestaande uit individuen en organisaties om informatie op een voor computers leesbare wijze te verzamelen, te koppelen en beschikbaar te stellen op basis van de informatie in Wikipedia. DBpedia is voor te stellen als een enorme verzameling van beschikbare informatie op internet die alleen leesbaar is voor computers.
De start van de digitale evolutie is al ongeveer vijftig jaar geleden, waardoor men zou kunnen denken dat de grootste veranderingen al achter de rug zijn. Van een stilstand is echter zeker geen sprake. De huidige digitale ontwikkelingen maken het waarschijnlijk dat de grootste veranderingen voor beleggingsanalisten nog moeten komen en hun werk fors zullen
Figuur 1 Een grafisch overzicht van de 570 datasets die de DBpedia beweging met elkaar verbonden heeft
Opendata Scotland Simd Geographic Access Rank GovUK Transparency Impact Indicators Energy Efficiency new Builds
Opendata Scotland Simd Health Rank
Opendata Scotland Simd Housing Rank
ODCL SOA Opendata Scotland Graph Simd Rank
GovUK impact indicators energy efficiency new builds
GovUK Households 2008
Opendata Scotland Graph Education Pupils by School and Datazone
GovUK Societal Wellbeing Deprivation Imd Education Rank La 2010
GovUK transparency impact indicators tr. families
Opendata Scotland Simd Education Rank
Opendata Scotland Simd Employment Rank
GovUK societal wellbeing deprivation imd employment score 2010
GovUK Societal Wellbeing Deprivation Imd Health Score 2010
GovUK societal wellbeing deprv. imd rank la '10
GovUK Input ind. Local Authority Funding From Government Grant
GovUK societal wellbeing deprv. imd rank '07
GovUK Imd Income Rank La 2010
Aragodbpedia
GovUK Societal Wellbeing Deprivation Imd Rank 2010
2001 Spanish Census to RDF
EU Agencies Bodies
GovUK Imd Rank 2010
GovUK service expenditure
Eionet RDF GovUK Households Projections total Houseolds
GovUK Imd Score 2010
ESD Standards
EPO
EEA
Open Election Data Project
Randomness Guide London
Greek Administrative Geography
Thist
Bizkai Sense
NVS
Oceandrilling Borehole
Alexandria Digital Library Gazetteer
StatusNet mkuttner
Geo Wordnet
AEMET
StatusNet Coreyavis
Enel Shops
StatusNet Spip
StatusNet Deuxpi
StatusNet Hiico StatusNet Integralblue
StatusNet Atari Frosch
StatusNet Exdc
StatusNet Freelish
StatusNet Mystatus StatusNet ldnfai
StatusNet Scoffoni
StatusNet Planetlibre StatusNet Keuser
StatusNet Ludost
StatusNet Fragdev
StatusNet 20100 StatusNet tl1n
StatusNet Macno
StatusNet Skilledtests
StatusNet Tschlotfeldt
StatusNet thornton2
StatusNet Qth
StatusNet Mulestable
StatusNet Kenzoid
StatusNet Ourcoffs
StatusNet piana
StatusNet Otbm
StatusNet Glou
StatusNet Sebseb01 StatusNet doomicile
StatusNet Bonifaz
StatusNet Spraci
Product Ontology
StatusNet Sweetie Belle
StatusNet Johndrink Water
StatusNet Equestriarp
Livejournal
Bio2RDF
KDATA
SISVU
Bio2RDF GeneID
Linked Life Data
RKB Explorer ECS
Open Data Thesaurus
Tekord
Bio2RDF Affymetrix
Bio2RDF Ncbigene Diseasome FU-Berlin
Bio2RDF ECO
Bio2RDF Taxonomy
Bio2RDF Pharmgkb
JudaicaLink
Getty AAT
Biosamples RDF
DM2E
Semantic Web Journal
Publications Life Sciences Cross-Domain Social Networking
Bio2RDF LSR
Geographic Government Media
Bio2RDF GOA Bio2RDF Homologene
Bio2RDF Biomodels
RKB Explorer Italy RKB Explorer Kaunas
Bio2RDF Sabiork Bio2RDF SGD Resources
Bio2RDF Iproclass
Dutch Ships and Sailors
Chembl RDF
Bio2RDF CTD
Bio2RDF Wormbase Bio2RDF OMIM Resources
Bio2RDF SGD Bio2RDF Pubmed
Bio2RDF DBSNP
Bio2RDF OMIM
Linked Food
Nobel Prizes
Gene Expression Atlas RDF
Bio2RDF Orphanet
NBN Resolving
Aspire Plymouth
RKB Explorer Epsrc
Swedish Open Cultural Heritage
Identifiers
Bio2RDF HGNC
Bio2RDF Clinicaltrials
Uniprot Taxonomy
Uniprot KB
Bio2RDF Irefindex
chem2 bio2rdf
Bio2RDF Mesh
Reactome RDF
National Diet Library WEB NDL Authorities
Aspire Harper Adams
Bio2RDF Drugbank
RKB Explorer Deploy
British Museum Collection
Serendipity
Identifiers Org
Aspire Roehampton Deutsche Biographie
RKB Explorer FT
Asn.us
Bio2RDF Taxon
RKB Explorer Ulm
RKB Explorer IBM
TWC IEEEvis
Ariadne Aspire Portsmouth
RKB Explorer Eurecom
Uniprot
Biomodels RDF
GNI
RDF License
Product DB
StatusNet Status
Linked TCGA
Enipedia
Open Food Facts
Organic Edunet
LOD ACBDLS
Open Library
Aspire Uclan
DOI
Multimedia Lab University Ghent
RKB Explorer Pisa
lobid Organizations
RKB Explorer Darmstadt
RKB Explorer Roma
Bio2RDF Dataset
Core
Libris
RKB Explorer OAI
RKB Explorer IEEE
RKB Explorer kisti
Bio2RDF NDC
Austrian Ski Racers
DBpedia PT
StatusNet Ilikefreedom
Ontos News Portal
StatusNet Ced117
StatusNet Pandaid
StatusNet Kathryl
DBpedia Lite
StatusNet Uni Siegen
Taxonconcept Occurences
DBpedia CS
Alpino RDF
StatusNet Tekk
StatusNet Mamalibre
StatusNet Fcestrada
StatusNet Alexandre Franke
DBpedia IT
StatusNet linuxwrangling
StatusNet Cooleysekula
Dailymed FU-Berlin
DNB GND
IServe
Testee
Disgenet
GNU Licenses
DBpedia EU
StatusNet Mrblog
StatusNet Legadolibre
Drug Interaction Knowledge Base
Linklion
DBpedia JA
StatusNet Jonkman
Taxonconcept Assets
RKB Explorer Resex
RKB Explorer Budapest
Sztaki LOD
RKB Explorer Dotac
RKB Explorer Risks
RKB Explorer Wiki
RKB Explorer Lisbon
Gutenberg
O'Reilly
RKB Explorer Newcastle
RKB Explorer LAAS
RKB Explorer DBLP
RKB Explorer Irit
linkedct
Aves3D
DBpedia ES
DBpedia KO
StatusNet Timttmy
StatusNet Hackerposse
StatusNet Status.net
StatusNet Belfalas
StatusNet Recit
StatusNet Russwurm StatusNet Gomertronic
DBpedia FR
VIVO University of Florida
Uniprot Metadata
Sider FU-Berlin
URI Burner
DBpedia DE
StatusNet Fcac
StatusNet Ssweeny
StatusNet Quitter
StatusNet Rainbowdash
StatusNet Datenfahrt
StatusNet Thelovebug
StatusNet Postblue
DBpedia live
Geospecies
Nottingham Trent Resource Lists
Aspire UCL
Verrijktkoninkrijk
RKB Explorer Citeseer
RKB Explorer Eprints
RKB Explorer Southampton
RKB Explorer ACM
CKAN
Taxon concept
DBpedia NL
DBpedia EL
StatusNet chickenkiller
StatusNet Somsants
StatusNet Soucy
StatusNet schiessle
StatusNet Lydiastench
StatusNet Morphtown
StatusNet gegeweb
StatusNet Lebsanft
StatusNet Dtdns
StatusNet chromic
Linked Open Data of Ecology
YAGO Opencyc
Code Haus
Drugbank FU-Berlin
EUNIS
RKB Explorer RAE2001
RKB Explorer Curriculum
RKB Explorer NSF
Aspire NTU
Dev8d
lobid Resources
Bibbase
RKB Explorer Courseware
RKB Explorer Eprints Harvest
RKB Explorer JISC
Morelab
Aspire Sussex
Southampton ECS Eprints
L3S DBLP
Viaf
Archiveshub Linked Data
Semantic Web Grundlagen
Aspire Manchester
RKB Explorer Deepblue
KUPKB
LOV
DWS Group
Bibsonomy
Southampton ac.uk
Semantic Web DogFood
Freebase
StatusNet Progval
StatusNet Qdnx
StatusNet shnoulle
StatusNet Kaimi
FOAFProfiles
Linked Geo Data
StatusNet Opensimchat
StatusNet Orangeseeds
W3C
UMBEL
StatusNet Samnoble StatusNet David Haberthuer
LOD2 Project Wiki PlanetData Project Wiki
DBpedia
StatusNet 1w6
StatusNet Bka
StatusNet Maymay
StatusNet Imirhil
GovAgriBus Denmark
Geo Names
Ordnance Survey Linked Data
GADM Geovocab
Open Mobile Network
Geological Survey of Austria Thesaurus
UK Postcodes
World Factbook FU-Berlin
GovUK Dev Local Authority Services
Linked Open Piracy
OSM Geo Ecuador
ESD Toolkit
Environmental Applications Reference Thesaurus
Govtrack
Open Data Ecuador
Lexvo Wordpress
B3Kat
Aspire Keele
Aspire MMU
RKB Explorer OS
Datos Bne.es
Colinda
DCS Sheffield
Aspire Brunel Radatana
Ciard Ring
VIVO Indiana University
Bible Ontology
Universidad de Cuenca Linkeddata
Project Gutenberg FU-Berlin
RKB Explorer ERA
Idref.fr
Mis Museos GNOSS
LCSH
Pub Bielefeld
MSC
Princeton Library Findingaids
Bluk BNB
DNB
Agrovoc Skos
RKB Explorer unlocode
UTPL LOD
Theses.fr
Muninn World War I
Aspire Qmul
Data Bnf.fr
STW Thesaurus for Economics
Amsterdam Museum AS EDN LOD
FAO Geopolitical Ontology
Lingvoj
RDF Ohloh BBC Wildlife Finder
NALT NUTS Geovocab
Wordnet (W3C)
Shoah Victims Names
Sudoc.fr
Gesis Thesoz
Worldcat
RKB Explorer Webscience
Lista Encabeza Mientos Materia
ZDB
Data Open Ac Uk
Semanlink
Linked MDB
Geo Linked Data
Linked Railway Data Project
Typepad
DBTune Musicbrainz
ISO 639 Oasis
Semanticweb.org
Reload
Greek Wordnet
MyOpenlink Dataspaces
Revyu
Europeana
EEARod
Enakting Population
CE4R
Yso.fi YSA
Semantic Quran
JITA
RKB Explorer Wordnet
Lexinfo
Wordnet (VU)
Garnica Plywood
Apache
Yso.fi Allars
Dewey Decimal Classification
Wiktionary DBpedia
Glottolog
My Experiment
NYTimes Linked Open Data
Hellenic Fire Brigade
WOLD
Berlios
OpenlinkSW Dataspaces
Clean Energy Data Reegle
WWW Foundation
Ietflang
Pdev Lemon Lemonuby
Socialsemweb Thesaurus
Open Calais BBC Music
Hellenic Police
Enakting Mortality
City Lichfield
IATI as Linked Data
GovUK Transparency Impact ind. Households In temp. Accom.
RKB Explorer cordis
GovUK Education Data
GovUK Transparency Input ind. Local auth. Funding f. Gvmnt. Grant
Enakting CO2Emission
Charging Stations
CIPFA
OECD 270a.info
BIS 270a.info
GovUK Homelessness Accept. per 1000 GovUK wellb. happy yesterday std. dev.
FAO 270a.info
Worldbank 270a.info ECB 270a.info
Data for Tourists in Castilla y Leon
GovUK Net Add. Dwellings
GovUK Households Projections Population
BPR
Eurostat RDF
Open Data Euskadi
Government Web Integration for Linked Data
GovUK Societal Wellbeing Deprv. imd Score '10
GovUK Households Accommodated per 1000
GEMET
IDS
Olia
Tags2con Delicious
Green Competitiveness GNOSS
Linked Crunchbase
BBC Programmes
NHS Jargon
Linked Eurostat
Transparency 270a.info
Reference data.gov.uk
FRB 270a.info
GovUK Transport Data
Isocat
WALS
GNOSS
Interactive Maps GNOSS
Open Data RISP
RDFize last.fm
Camera Deputati Linked Data
Cornetto
DBnary
ineverycrea
Deusto Tech
Didactalia
Chronicling America
Icane
Open Energy Info Wiki
Eurostat Linked Data
Linked Stock Index
BFS 270a.info
IMF 270a.info
Nomenclator Asturias
Linked Edgar
Bootsnall
Linked User Feedback
Flickr Wrappr
Nextweb GNOSS
Miguiad Eviajes GNOSS
Jamendo DBTune
OCD
SORS
ABS 270a.info
UIS 270a.info
Environment Agency Bathing Water Quality
GovUK Societal Wellbeing Deprivation Imd Income Rank La 2010
Brazilian Politicians
Loius
GovUK Impact Indicators Planning Applications Granted
UK Legislation API GovUK Societal Wellbeing Deprv. Imd Empl. Rank La 2010
GovUK Societal Wellbeing Deprivation Imd Health Rank la 2010
Openly Local
Currency Designators
Linked NUTS
GovUK Transparency Impact Indicators Housing Starts
GovUK Impact Indicators Housing Starts
GovUK Transparency Input indicators Local authorities Working w. tr. Families
Ctic Public Dataset
Statistics data.gov.uk
Enakting NHS
German Labor Law Thesaurus
DBTropes
Semantic XBRL
Red Uno Internacional GNOSS
Linked Mark Mail
Datahub.io
Lotico
Pokepedia
Enakting Crime
GovUK Housing Market
Eurostat FU-Berlin
Enakting Energy
GovUK Societal Wellbeing Deprivation imd Employment Rank La 2010
Zaragoza Datos Abiertos
Eurovoc in SKOS
DBTune John Peel Sessions
Indymedia
Vulnerapedia
Proyecto Apadrina
Museos Espania GNOSS
Acorn Sat
Umthes
RKB Explorer Crime
GovUK Transparency Impact Indicators Neighbourhood Plans GovUK Transparency Impact Indicators Affordable Housing Starts
GovUK Societal Wellbeing Deprivation Imd Housing Rank la 2010
GovUK Impact Indicators Affordable Housing Starts
GovUK Wellbeing lsoa Happy Yesterday Mean
GovUK Homelessness Households Accommodated Temporary Housing Types
GovUK Households Social Lettings General Needs Lettings Prp Household Composition
GovUK Wellbeing Worthwhile Mean
GovUK Households Social lettings General Needs Lettings Prp Number Bedrooms
Opendata Scotland Simd Income Rank
GovUK Transparency Impact Indicators Planning Applications Granted
Opendata Scotland Simd Crime Rank
DBTune Magnatune
Debian Package Tracking System
Jugem
Prefix.cc
Artenue Vosmedios GNOSS
Elviajero
DBTune artists last.fm
GovUK Imd Crime Rank 2010
GovUK Societal Wellbeing Deprivation Imd Crime Rank 2010
GovUK imd env. rank 2010
Gem. Thesaurus Audiovisuele Archieven
GovUK Societal Wellbeing Deprivation Imd Environment Rank 2010
Zaragoza Turruta
Web Nmasuno Traveler
Prospects and Trends GNOSS
Athelia RFID
Courts Thesaurus
User-Generated Content Linguistics
Linked Datasets as of August 2014
Bron: http://www.w3.org/wiki/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
vba b_eleggingsprofessionals
Nummer 122_zomer 2015 31
——ONDERZOEK Het potentieel is groot omdat de informatie gekoppeld wordt aan andere Open Data informatie op internet. Zo publiceren verschillende Nederlandse instanties zoals het CBS2 naast hun voor mensen leesbare rapporten al informatie als Open Data op internet. Aangezien DBpedia informatie over zeer veel verschillende onderwerpen omvat, is het de verwachting dat digitale toepassingen meer en meer centrale data zullen putten uit DBpedia. De onderstaande figuur geeft een overzicht van de 570 data sets die in augustus 2014 met elkaar verbonden zijn door de Open Data beweging. DBpedia vormt de spil van deze verzameling. Op dit moment zijn met name pc’s, mobiele telefoons en tablets verbonden met internet. Het Internet of Things is een ontwikkeling waarbij steeds meer voorwerpen met internet verbonden zullen zijn, zoals koelkasten, medische instrumenten, auto’s en energiemeters. Deze voorwerpen zijn daarmee een potentiële bron van informatie over de economie en haar participanten. Informatie over hoe, wanneer en waarom bepaalde middelen worden gebruikt kan om verschillende redenen interessant zijn. Bijvoorbeeld ... Big Data Binnen en buiten de financiële wereld wordt veel gesproken en geschreven over Big Data. Big Data wordt in verband gebracht met enorme hoeveelheden data en het snel verwerken van deze data. Een voorbeeld hiervan zijn de databases die High Frequency Traders aanleggen om analyses op uit te voeren en te handelen. Desalniettemin ontbreekt een eenduidige definitie. Naar onze mening is Big Data meer dan een enorme data set die met traditionele datamanagement systemen nauwelijks meer te onderhouden is. Naast data, draait Big Data ook om de mensen en techniek om uit deze data inzichten te creëren en waarde toe voegen aan bedrijfsprocessen. Dit sluit aan op de Big Data definitie van onderzoeks- en adviesbureau Gartner; “Big Data is informatie in grote hoeveelheden, hoge snelheid en hoge diversiteit die kosteneffectieve en innovatieve vormen van informatieverwerking vereisen om te komen tot beter inzicht en besluitvorming.”3 Beleggingsanalisten met ervaring in Bloomberg of Reuters zullen een beeld hebben bij grote hoeveelheden informatie die snel binnen kunnen komen. Met de diversiteit van data wordt bedoeld dat data ook ongestructureerd kan zijn. In tegenstelling tot de gestructureerde data, zoals I/B/E/S analistendata die bijvoorbeeld via FactSet of Datastream te verkrijgen zijn met volledige datatype beschrijving, is ongestructureerde data alle informatie die niet direct als veld in een database beschikbaar is, zodat het voor computers lastiger wordt om te benaderen. Denk bij ongestructureerde data aan documenten zoals analistenrapporten of transcripties van analistenbijeenkomsten, maar ook aan nieuws updates op Bloomberg of Twitterberichten.
vba b_eleggingsprofessionals JOURNAAL 32
Big Data vraagstukken zijn nauwelijks met conventionele technologie te beantwoorden en vergen nieuwe methodes en instrumenten. Big Data reikt verder dan grote databases om informatie in op te slaan. Het omvat ook een nieuwe architectuur en specialistische software om de data te verbinden en analyseren. Het open-source ecosysteem rond Apache Hadoop heeft hierin lange tijd centraal gestaan. Deze software verbindt computers aan elkaar, waardoor de ongestructureerde data op kleine, goedkopere computers opgeslagen kan worden, en is in staat om hier data uit te halen en te verwerken. Oorspronkelijk gebaseerd op het distibuted fule system van Google, maken bedrijven als LinkedIn en Spotify veelvuldig gebruik van Hadoop. In de praktijk beginnen de meeste platforms voor Big Data analyse dan ook bij Hadoop en worden aangevuld met software die data kan analyseren. Hadoop kan data decentraal en op een massief parallelle manier verwerken. Veel van de machine learning methoden kunnen daarom nu tegen relatief lage kosten toegepast worden op grote hoeveelheden data en daarmee patronen blootleggen die voorheen verborgen bleven. De uitdagingen die met Big Data gepaard gaan hebben relatief nieuwe opleidingen op universiteiten doen ontstaan, met naamgevingen als “Data Science” en “Big data business analytics”. Deze opleidingen leren studenten grote stromen data uit meerdere bronnen te koppelen en met behulp van statistische technieken te analyseren, te visualiseren en mogelijke verbanden te valideren. Hoe kunnen we in de praktijk aan de slag gaan met Big Data? Wij stellen dat een goede strategie en visie essentieel zijn waarbij duidelijke keuzes worden gemaakt wat wel en niet wordt nagestreefd. Het einddoel mag hierbij niet vergeten worden. Het werken met Big Data, in het geval van een beleggingsinstelling, heeft veelal tot doel het verkrijgen van extra inzichten voor beleggingsadvies en het nemen van efficiëntere of effectievere beleggingsbeslissingen. De operationele uitwerking moet voldoende flexibiliteit toestaan om nieuwe technologieën, zoals het opslaan en analyseren van data in de Cloud, een constante ontwikkeling doormaken. Accenture en PA Consulting geven in hun respectievelijke studies “Big Success with Big Data” en “Data in the Digital Age”4 aanbevelingen voor organisaties die willen beginnen met Big Data. Ten eerste beginnen succesvolle Big Data projecten kleinschalig met een proof-of-concept en groeien vervolgens organisch door. Ten tweede moeten organisaties voldoende ruimte en wendbaarheid creëren om te leren wat Big Data met zich mee brengt, en hoe het leerproces en de implementatie flexibel op elkaar kunnen worden afgestemd. Alle spelers maken immers een deel uit van een continu innovatie- en leerproces: de dataleveranciers, de informatie-technologie specialisten, de bouwers van modellen en algoritmes, de onderzoekers en de eindgebruikers.
De grote sprongen die gemaakt worden op het gebied van Big Data worden verklaard door de voortdurende technologische ontwikkelingen van computers en dataopslag en door het gebruik van open source software. Waar vroeger de gevestigde partijen (IBM, SAS, etc) de toon zetten op het gebied van software ontwikkeling, gaan ontwikkelingen snel omdat sofware-innovatie nu door de open source community in het publieke domein ligt. Richting de toekomst zijn drie belangrijke Big Data trends te onderscheiden: Data Ecosystemen, real-time analyse en nieuwe database structuren die gebaseerd zijn op de wiskundige grafentheorie (graph database) waardoor grote hoeveelheden data zodanig opgeslagen kunnen worden dat gemakkelijk verbanden gevonden kunnen worden in bijvoorbeeld sociale netwerken. In het proces van het ontsluiten en exploiteren van Big Data zal dikwijls samengewerkt worden met externe partijen, of zelfs concurrenten, op het gebied van informatie, data, technologie en kennis. Deze samenwerking wordt het Data Ecosysteem genoemd. Real-time analyse waarin grote gegevensstromen continue gemonitord worden, is een nieuwe trend in Big Data. Kunstmatige intelligentie, machine
learning
Onze hersenen zijn in staat informatie tot zich te nemen, te analyseren, te leren en beslissingen te nemen die noodzakelijk zijn voor beleggingsanalyses en portefeuille management. Kunstmatige intelligente is het vakgebied dat zich richt zich op het verwerken van informatie door computers op een wijze zoals onze hersenen functioneren. Het gebruik van kunstmatige intelligentie en een computer wordt interessanter, naarmate de hoeveelheid informatie groeit, de data complexere patronen bevat en sneller moet worden verwerkt om tot beslissingen te komen die waarde toevoegen. De enorme toename van de rekenkracht van computers in combinatie met innovaties op het gebied van kunstmatige intelligentie, is een belangrijke katalysator om de ontwikkelingen op internet en Big Data hun weg te laten vinden naar praktische toepassingen op het gebied van beleggingsanalyse. Technieken uit de kunstmatige intelligentie kunnen werk van beleggingsanalisten uit handen nemen, aanvullen of verrijken. Een historische mijlpaal in de ontwikkeling van kunstmatige intelligentie ligt inmiddels al weer meer dan 18 jaar in het verleden: de schaakwedstrijd tussen de toenmalige wereldkampioen Garry Kasparov met de computer Deep Blue 2 van IBM op 4 mei 1997. In slechts 19 zetten won Deep Blue 2 het laatste en beslissende duel uit een serie van zes partijen. Hiermee had de computer voor het eerst in de geschiedenis ‘gewonnen van de mens’. Interessant om te weten is dat het aandeel IBM met 5% omhoog ging op deze dag.
Op dit moment zijn machine learning en deep learning belangrijke begrippen in het kader van Big Data. Machine learning is een aandachtsgebied dat zich richt op wiskundige algoritmes en technieken waarmee computers, al dan niet met training data sets, zelfstandig kunnen leren, complexe patronen kunnen herkennen en informatie kunnen classificeren. Deep learning kan worden gezien als een vertakking binnen machine learning, waarbij een verzameling van verschillende modellen, bijvoorbeeld een eenvoudig lineair model en een neuraal netwerk model, die in combinatie in staat zijn patronen te herkennen en informatie te classificeren. Verschillende machine learning technieken hebben inmiddels hun intrede gedaan in de financiële wereld, zoals beslisbomen (Sorensen et al, 2000) en geautomatiseerde tekstanalyse (zie volgende sectie). De bovenstaande ontwikkelingen op het gebied van internet, Big Data en kunstmatige intelligentie zijn veelbelovend. De tijd moet leren of dit een overschatting van een hype is of dat er werkelijk een significante ontwikkeling aan de gang is. In ieder geval hebben al verschillende grote hedge fonds beheerders, zoals Bridgewater Associates en Renaissance Technologies, al grote initiatieven ondernomen op dit gebied.5 Op basis van twee praktijkvoorbeelden laten wij het aan de lezer over om te bepalen waar de grens tussen hype en de werkelijkheid ligt.
Praktijk voorbeeld: automatische tekstanalyse Een mijlpaal op het gebied van de tekstanalyse in de financiële wereld was de publicatie van het artikel van Paul Tetlock in het wetenschappelijke tijdschrift The Journal of Finance in 2007. In zijn artikel meet hij het sentiment van een dagelijkse column in de Wall Street Journal en analyseert hij de relatie tussen het sentiment van het artikel en de aandelenmarkt. Het meten van het sentiment gebeurt simpelweg door het aantal woorden met een negatieve lading te tellen. Om te bepalen welke woorden een negatieve lading hebben, gebruikt Tetlock een standaard woordenboek met negatieve woorden (Harvard IV-4 woordenboek). Tetlock laat in zijn artikel zien dat de prijzen op de aandelenmarkt onder druk komen te staan als er veel negatief sentiment in de columns voorkomt. Sinds de publicatie van het artikel van Tetlock (2007) heeft het vakgebied van tekstanalyse in de financiële wereld een enorme groei doorgemaakt zoals beschreven in het gedegen literatuuroverzicht van Kearney and Liu (2014). Enerzijds zijn er steeds meer verschillende teksten geanalyseerd, denk hierbij aan jaarverslagen van ondernemingen, rapportages aan de toezichthouder, maar ook berichten op Twitter en websites. Anderzijds worden de algoritmes om teksten te analyseren steeds geavanceerder. Met behulp van technieken uit het vakgebied linguïstiek kan sentiment tegenwoordig niet alleen meer bepaald worden op basis van individuele woorden, maar ook op basis van hele
vba b_eleggingsprofessionals
Nummer 122_zomer 2015 33
——ONDERZOEK zinnen. Machine learning algoritmes spelen hierin een belangrijke rol. Het Nederlandse bedrijf TM7 is hier bijvoorbeeld in gespecialiseerd. De ontwikkeling van toepassingen van tekstanalyse die van nut kunnen zijn voor beleggingsanalisten staat nog in de kinderschoenen. In verschillende landen ontstaan op dit moment start-ups, zoals Accern, AlphaSense of Owlin die automatische tekstanalyse ontsluiten voor beleggingsanalisten zoals tekstanalyse op analistenrapporten of op zo veel mogelijk verschillende nieuwsberichten. De meeste toepassingen richten zich op het leveren van een bijdrage aan het voorspellen van aandelen rendementen. Een andere interessante toepassing van tekstanalyse is op het gebied van verantwoord beleggen. Uit nieuwsberichten, rapportages aan de toezichthouder, jaarverslagen, websites van niet-gouvernementele organisatie (ngo`s) en andere websites kan informatie over de prestaties van een onderneming op het gebied van verantwoord beleggen real-time gemeten en gemonitord worden. Op basis van deze geaggregeerde data kunnen ESG risico’s en trends geïdentificeerd worden. Beleggingsanalisten hoeven niet meer te wachten op een nieuw rapport dat geschreven is door een analist, maar kunnen werken met real-time informatie op dit gebied. Het jonge bedrijf TruValue Labs lijkt op dit gebied kans te maken om een belangrijke marktpartij te worden.
Praktijk voorbeeld: Google Grieptrends In 2009 publiceerden onderzoekers van Google een studie in het tijdschrift Nature (Ginsberg et al., 2009) waarin zij de relatie tussen bepaalde zoektermen en griepactiviteit beschreven. Er blijkt een sterk verband te bestaan tussen het aantal mensen dat de dokter bezoekt met griepsymptomen en de zoekactiviteit op internet naar informatie over griep. Indien de geaggregeerde zoekactiviteiten worden bekeken dan ontstaat een patroon dat sterke overeenkomsten vertoont met het aantal mensen dat daadwerkelijk griepsymptomen heeft in een bepaalde regio. Dit wordt geïllustreerd in de onderstaande figuur waarin de officiële gegevens over griepsymptomen weergegeven worden ten opzichte
van de schatting door Google Grieptrends voor de Verenigde Staten. Eenvoudig is waar te nemen dat de real-time schatting van griepactiviteit op basis van Google Grieptrends sterk overeenkomt met de officiële statistieken. In februari 2013 kwam Google Grieptrends in het nieuws in de Verenigde Staten. De aanleiding was dat Google’s algoritme twee keer zo veel doktersbezoeken voorspeld had als de voorspelling van de officiële instanties. Dit is duidelijk waar te nemen in Figuur 2. Wat bleek? In het nieuws waren veel verhalen over griep waardoor waarschijnlijk veel mensen naar informatie over griep zochten, zonder dat zij ziek waren. Deze gebeurtenis illustreert dat het van belang blijft om gezond verstand te gebruiken bij toepassingen van de digitale evolutie. Een grote stroming binnen het gebied van Big Data richt zich op het vinden van verbanden zonder dat causaliteit een randvoorwaarde is. Dit voorbeeld laat zien dat het mis kan gaan zodra niet meer stil gestaan wordt bij de vraag wat er achter de correlatie schuil gaat of op welke aanname een extrapolatie is gebaseerd. Deze gebeurtenis motiveerde verschillende wetenschappers om Google’s algoritme te verbeteren, zie bijvoorbeeld Lazer et al. (2014) of Preis en Moat (2014).
Bedrijfsmodellen en de digitale evolutie In een aantal sectoren zijn traditionele bedrijfs modellen zwaar onder druk gekomen als gevolg van de digitale evolutie. Denk hierbij aan de muziekindustrie (iTunes, Spotify), taxibranche (Uber), en de media (Netflix). CEO’s van financiële instellingen zullen zich afvragen of hetzelfde kan gebeuren in de financiële sector. Wat gebeurt er als we de technologie van de digitale evolutie optimaal integreren in de vermogensbeheersector? Een interessant voorbeeld van de kracht van de digitale revolutie is het geldmarktfonds Yu’e Bao dat in juni 2013 door internet platform Alibaba in China werd geïntroduceerd. In tien maanden tijd groeide het vermogen van het beleggingsfonds uit tot 90 miljard dollar met 81 miljoen deelnemers. Hiermee veroverde Alibaba een marktaandeel van 31% en
Figuur 2 Griepactiviteit in de Verenigde Staten op basis van de gegevens door U.S. Centers for Disease Control (oranje lijn) en Google Grieptrends (blauwe lijn)
Bron: http://www.google.org/flutrends/
vba b_eleggingsprofessionals JOURNAAL 34
ontwrichtte het in zeer korte tijd de banken- en vermogensbeheersector in China. De Yu’e Bao casus illustreert een scenario waarin nieuwe spelers de vermogensbeheerindustrie betekenisvol binnendringen, indien bestaande beleggingsinstellingen onvoldoende innoveren. Het alternatieve scenario, waarin bestaande beleggingsinstellingen het voor elkaar kunnen krijgen om de benodigde digitale evolutie door te maken, gaat uit van een situatie waarin bestaande organisaties aan de slag gaan met de mogelijkheden van de digitale evolutie. Zij doen dit door bedrijfsmodellen en technologie te blijven innoveren en keuzes te maken op welke gebieden snelheid en aanpassing nodig is (focus). Naast een strategische en technologische omslag is, omdat de context in continue verandering is, mogelijk ook een cultuuromslag gewenst waarbij organisaties en medewerkers voortdurende innovatie omarmen. Er moet een omgeving en cultuur ontstaan waar veranderingen op basis van nieuwe technologieën en nieuwe marktmodellen eenvoudig ingepast kan worden. Dit heeft implicaties voor de manier waarop organisaties ingericht zijn. Organisaties moeten wendbaarder zijn dan vroeger om te reageren op veranderingen. Deze ‘agile’ organisaties kenmerken zich door snel en adequaat kleine verbeteringen door te kunnen voeren. Tevens kan het helpen om niet ‘groot te denken’ maar om te denken in kleinschalige en kort cyclische experimenten om zodoende snelheid te verhogen en continue te werken aan toegevoegde waarde in combinatie met nieuwe technologieën en theorieën.
Literatuur —Jeremy Ginsberg, Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski en Larry Brilliant (2009). Detecting influenza epidemics using search engine query data, Nature, Vol. 457, pp. 1012 – 1014 — Colm Kearney en Sha Liu (2014). Textual sentiment in finance: a survey of methods, International Review of Financial Analysis, Vol. 33, pp. 171 – 185 —David Lazer, Ryan Kennedy, Gary King en Alessandro Vespignani (2014). The parable of Google Flue: traps in Big Data analysis, Science, Vol. 343, pp. 1203 – 1205 —Tobias Preis en Helen Susannah (2014). Adaptive nowcasting of influenza outbreaks using Google searches. R. Soc. open sci.1: 140095. http://dx.doi.org/10.1098/ rsos.140095
Conclusie Eén ding lijkt zeker, het vakgebied van de beleggingsanalist bevindt zich in een wereld met interessante technologische veranderingen. Data speelt hierin een centrale rol. De beleggingsanalist zal in de toekomst meer informatie tot zijn beschikking hebben en willen gebruiken dan vroeger. Voor veel financiële organisaties zal datamanagement een cruciale factor worden om in te kunnen spelen op de digitale revolutie. Organisaties zullen moeten nadenken over hun data architectuur, data management maar ook over hun data analyse capaciteiten. Fundamentele beleggingsanalisten zullen met nieuwe technologie en data hun analyses kunnen aanvullen. Voor kwantitatieve beleggingsanalisten zullen nieuwe informatiebronnen en nieuwe beleggingstechnieken, die veel meer rekenkracht vereisen, het vakgebied verrijken. Beleggingsinstellingen die hun databeheer, data-analyse en dataontsluiting goed op orde hebben, zullen een voordeel hebben ten opzichte van hun concurrenten. Een beleggingsanalist kan extra succesvol zijn door het vermogen om veel data te kunnen verwerken, analyseren, interpreteren en om te zetten in waarde creërende beleggingsanalyses. Dit artikel betoogt dat beleggingsanalisten die in staat zijn om de nieuwe technologieën rondom Big Data te omarmen en in te zetten, zich geen zorgen hoeft te maken dat Deep Blue zijn werk zal overnemen maar dat Deep Blue een ideale assistent zal zijn.
—Eric H. Sorensen, Keith L. Miller, en Chee K. Ooi (2000). The Decision Tree Approach to Stock Selection, Journal of Portfolio Management, Vol. 27(1): pp. 42–52 —Paul Tetlock (2007). Giving Content to Investor Sentiment: The Role of Media in the Stock Market, The Journal of Finance, Vol 62(3), pp. 1139 – 1168 Noten 1 Dr. Ronald van Dijk en Dr.ir. Gerben de Zwart CFA zijn beiden werkzaam bij APG Asset Management. Dit artikel is geschreven op persoonlijke titel en gebaseerd op interviews met medewerkers van de Universiteit van Maastricht, de Vrije Universiteit van Amsterdam, technische consultants en verschillende (jonge) technologiebedrijven uit Nederland en Silicon Valley. Wij danken
in het bijzonder Willem van Asperen, Hans van Burg, Harmen Geers, Ernst Hagen en Jan Jaap Hazenberg voor hun suggesties op eerdere versies van dit artikel. 2 http://opendata.cbs.nl/dataportaal/ portal.html#_la=nl 3 De originele Engelstalige definitie luidt ‘Big Data is high-volume, high-velocity and highvariety information assets that demand costeffective, innovative forms of information processing for enhanced insight and decision making’. 4 www.accenture.com/bigdatasuccess; http://www.paconsulting.com/our-thinking/ data-in-the-digital-age/ 5 Georgia McCafferty, ‘Artificial intelligence is the next big thing for hedge funds seeking an edge’, May 4 2015, www.battleofthequants. net
vba b_eleggingsprofessionals
Nummer 122_zomer 2015 35