Van veel data, snelle computers en complexe modellen tot lerende machines
Van veel data, snelle computers en complexe modellen tot lerende machines Rede uitgesproken bij de aanvaarding van het ambt van hoogleraar Machine Learning aan de Faculteit der Natuurwetenschappen, Wiskunde en Informatica van de Universiteit van Amsterdam op woensdag januari door
Max Welling
Dit is oratie , verschenen in de oratiereeks van de Universiteit van Amsterdam.
Opmaak: JAPES, Amsterdam Foto auteur: Jeroen Oerlemans © Universiteit van Amsterdam, Alle rechten voorbehouden. Niets uit deze uitgave mag worden verveelvoudigd, opgeslagen in een geautomatiseerd gegevensbestand, of openbaar gemaakt, in enige vorm of op enige wijze, hetzij elektronisch, mechanisch, door fotokopieën, opnamen of enige andere manier, zonder voorafgaande schriftelijke toestemming van de uitgever. Voorzover het maken van kopieën uit deze uitgave is toegestaan op grond van artikel B Auteurswet j° het Besluit van juni , St.b. , zoals gewijzigd bij het Besluit van augustus , St.b. en artikel Auteurswet , dient men de daarvoor wettelijk verschuldigde vergoedingen te voldoen aan de Stichting Reprorecht (Postbus , AW Amstelveen). Voor het overnemen van gedeelte(n) uit deze uitgave in bloemlezingen, readers en andere compilatiewerken (artikel Auteurswet ) dient men zich tot de uitgever te wenden.
Mevrouw de rector magnificus, Mevrouw de decaan, Geachte leden van het curatorium, Beste collega’s van het Instituut voor Informatica, Beste familie en vrienden, Zeer gewaardeerde toehoorders,
De dataficatie van onze samenleving “Big Data”; de term kan u niet ontgaan zijn. Big data is de nieuwe goudmijn. “Data mijnen” is de activiteit die zijn waarde ontsluit. Zoals olie de industriële revolutie aandreef, zo is big data de nieuwe grondstof waarop de moderne economie draait. Jim Gray noemde data-gedreven wetenschappelijk onderzoek het “vierde paradigma” (na experiment, theorie en computer-gedreven simulatie). De “datascope” is de nieuwe telescoop en microscoop waarmee we verder en dieper kunnen kijken (zie figuur ). Niet in de fysieke wereld, maar meer zoals in “The Matrix” in een digitale projectie van onze wereld, een wereld van nullen en enen. Het is duidelijk, de verwachtingen zijn hooggespannen. Is big data een big hype of stevenen we echt af op een maatschappij die gedomineerd wordt door data? En wat betekent die dataficatie van onze samenleving nu eigenlijk voor ons?
Eerst een paar feiten op een rijtje. De totale hoeveelheid data in de wereld wordt op dit moment geschat op ongeveer zettabyte. Dat is ,,,, ,,, = x bytes. Als we er even van uitgaan dat de harde schijf in uw computer gigabytes (= ½ terabyte = ½ x bytes) kan bevatten dan zijn dat dus miljard harde schijven. Zeg even dat een harde schijf cm dik is, dan zou de totale stapel harde schijven die alle data van de wereld bevat even hoog zijn als de afstand tussen de aarde en de maan. Figuur
De “Square Kilometer Array” (SKA) radio telescoop is misschien wel het wetenschappelijke experiment dat de grootste hoeveelheid data gaat opleveren in : ongeveer exabyte ( bytes) per dag, ofwel een zettabyte per jaar (zie figuur ). Die data-tsunami komt er dus aan. Net zoals de snelheid waarmee computers kunnen rekenen iedere twee jaar verdubbelt (Moore’s wet), zo verdubbelt ook de hoeveel data in iets minder dan twee jaar. De data-berg is zo groot dat het onmogelijk is om deze door mensen te laten inspecteren. We moeten dit dus aan slimme algoritmen overlaten. Maar hoe ontwerp je een slim algoritme? Dit is het domein van “machine learning” (vrij vertaald: kunstmatig leren), het onderwerp van mijn leerstoel. Naast sociologische oorzaken zijn er drie technologische redenen te bedenken waarom big data nu zo in de aandacht staat: . De data explosie VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
De enorme computerkracht Sterk verbeterde algoritmen om deze data te analyseren.
. .
Het samenkomen van deze drie factoren gaat het eindelijk mogelijk maken om de hooggespannen verwachtingen over kunstmatige intelligentie uit de jaren waar te maken. Misschien niet precies zoals we ons hadden voorgesteld met op mensen lijkende robots, maar op een manier die misschien nog wel veel verstrekkender is. Met digitale artsen die beter patiënten kunnen behandelen dan menselijke artsen. Met digitale advocaten die beter in staat zijn om u in een strafzaak te verdediging dan menselijk advocaten, met zelfrijdende auto’s die geen ongelukken meer maken, met een digitale politie die heel efficiënt misdaad kan opsporen of kan voorkomen en ga zo maar door. Om een analogie van Vance Packard te gebruiken: een mes in de handen van een chirurg redt levens, maar datzelfde mes in de handen van een misdadiger neemt levens. Het zou dan ook naïef zijn om de gevaren van de dataficatie van onze samenleving te ontkennen: privacyschendingen, misbruik van persoonsgegevens, discriminatie, het trekken van verkeerde conclusies, de ontmenselijking van de zorg, de verdringing van arbeidsplaatsen door automatische systemen en ga zo maar door. Big data staat dus voor geweldige mogelijkheden maar tegelijkertijd ook voor niet te onderschatten gevaren. Deze ontwikkelingen tegen houden is een futiele strijd, analoog aan het tegenhouden van elektriciteit in de e eeuw. Maar er voor zorgen dat de gevaren zoveel mogelijk worden onderkend en ondervangen is wel degelijk mogelijk en verdient onze volle aandacht.
Wat is mogelijk met big data? Om het concept big data wat minder abstract te maken laat ik eerst wat voorbeelden de revue passeren. Het eerste voorbeeld komt direct uit de praktijk. In ben ik met twee masterstudenten en een studiegenoot een nieuw bedrijfje begonnen, “Scyfer”, dat als doel heeft moderne state-of-the-art machine learning methoden te implementeren in het bedrijfsleven. Onze eerste klant was een grote Nederlandse bank die zijn klanten betere aanbiedingen wilde doen. Deze bank heeft miljoenen klanten en verwerkt miljoenen transacties per dag. Wanneer klanten op hun account inloggen krijgen ze een aanbieding te zien, een nieuwe hypotheek bijvoorbeeld. Er zijn een paar honderd van dat soort producten. Niet iedereen is geïnteresseerd in dezelfde producten. Piet, die jaar oud is, hoeft waarschijnlijk geen nieuwe hypotheek op zijn huis, maar misschien wel hulp bij het beheren van zijn bankrekeningen.
MAX WELLING
De bank weet veel over iedere klant: leeftijd, geslacht, samenstelling gezin, inkomen, woonplaats, hoeveel en hoe grote transacties hij/zij in het verleden heeft gedaan enzovoort. Ook kent de bank eigenschappen van de mogelijke producten: prijs, type rekening, looptijd, enzovoort. Bovendien volgt de bank hoe een klant door de verschillende internetpagina’s heen navigeert, en met name hoe hij/zij heeft gereageerd op eerdere aanbiedingen. Al deze informatie kan gebruikt worden om preciezere persoonsgerichte aanbiedingen te doen. Bijvoorbeeld, als Kees, een getrouwde man van , positief heeft gereageerd op een aanbieding van de bank om hem te helpen zijn geld te beleggen, dan heeft deze zelfde aanbieding ook een grote kans van slagen bij Piet van . U snapt nu misschien ook waarom supermarkten maar al te graag willen dat u die bonuskaart gebruikt. Nog een voorbeeld. Stel dat we alle medische gegevens van iedereen centraal beschikbaar hebben voor analyse. Dat wil zeggen, alle bezoekjes naar de dokter, de symptomen, de diagnose, de behandelingen en medicijnen, het eindresultaat van de behandeling, maar ook persoonlijke gegevens zoals gewicht, bloeddruk, suikergehalte, huidskleur, aantal kanker gevallen in de directe familie, en in het meest extreme geval ook de genetische informatie. Met al deze gegevens zouden we voor iedereen persoonlijk heel precies diagnoses kunnen stellen en medicijnen of therapieën aanbevelen. Anders dan nu het geval is kunnen we dan de werking van medicijnen zeer nauwkeurig bepalen: onder welke omstandigheden werkt welke cocktail van medicijnen het beste voor welke aandoening? Het is in deze zin dat we kunnen spreken van een “datascope” (figuur ) als metafoor van de microscoop, die veel dieper kan doordringen in het woud van complexe relaties tussen persoonsgebonden medische eigenschappen, ziektes, medicijnen en/of therapieën en andere externe factoren zoals geografische locatie. Figuur
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
Ten slotte een voorbeeld over veiligheid. In Los Angeles doet de politie aan “predictive policing”, ofwel het voorspellen waar de volgende golf aan criminaliteit zal plaatsvinden en deze voorkomen door er meer politieagenten te laten surveilleren. Dit blijkt mogelijk omdat er structuur zit in de manier waarop golven criminaliteit zich door een stad heen bewegen, niet veel anders dan de geografische verdeling van naschokken die volgen op een aardbeving. In Los Angeles heeft dit geleid tot een vermindering van % aan inbraken in het gebied waar deze techniek is toegepast. Recentelijk heeft ook de Nederlandse politie inbraakinformatie vrijgegeven via internet. Deze voorbeelden illustreren dat big data de potentie heeft om een eerlijkere, gemakkelijkere, veiligere en gezondere samenleving te creëren. Maar zo’n krachtige technologie kan niet zonder gevaren zijn. Hierover meer in het volgende hoofdstuk.
Wat is gevaarlijk aan big data? Bij het lezen van de voorbeelden uit het vorige hoofdstuk bekroop u misschien al een “unheimisch” gevoel. Op welke manieren kan de datascope tegen ons gebruikt worden? Gaat de dataficatie van onze samenleving niet veel te ver? Leidt big data niet tot George Orwell’s “big brother”? Laten we een aantal doemscenario’s doornemen. Stel een verzekeringsmaatschappij weet de toekomstige centrale patiënten databank te hacken en krijgt toegang tot alle medische gegevens van alle Nederlanders. Daaruit kan zij een kans berekenen dat iemand binnen jaar ernstig ziek wordt. Het zou dan heel verleidelijk zijn om deze mensen een verzekering te weigeren. Of neem het voorbeeld van “predictive policing”. Stel dat de politie, gebruik makende van sociale achtergrond, genetische informatie, crimineel verleden enz. op persoonlijk niveau kan voorspellen wat de kans is dat iemand in de toekomst een misdaad begaat. Mag de politie met die informatie iemand arresteren voordat hij/zij die misdaad begaat? Dit scenario is mooi verbeeld in de film Minority Report waar een politieafdeling wordt beschreven die zich bezig houdt met “pre-crimes”: misdaden die met grote zekerheid in de toekomst worden gepleegd. Ik denk dat de meesten onder ons het onwenselijk vinden om verdachten van toekomstige misdaden maar vast te arresteren. We zien dus dat privacyschendingen en het misbruik van gevoelige informatie op de loer liggen. Ik zie ook nog twee minder genoemde gevaren. Het eerste gevaar is dat we verkeerde conclusies gaan trekken uit data die gemakkelijk op internet te oogsten zijn. Stel we willen weten hoeveel mensen zich zorgen maken over privacy schendingen van de binnenlandse veiligheids
MAX WELLING
dienst. Als we op internet zoeken vinden we heel veel bezorgde tweets, blogs, chats, enzovoort. De mensen die zich geen zorgen maken laten zich over het algemeen niet horen. Dit noemen we “selectie bias”, omdat de steekproef die we nemen niet representatief is voor de hele bevolking. In dit geval vergaren we vooral informatie van mensen die zich druk maken over het probleem en zich ook van dit soort moderne media bedienen. We moeten dus met het trekken van conclusies heel erg oppassen om niet ten prooi te vallen aan deze selectie bias. Ten slotte zie ik een reëel gevaar dat de kunstmatige intelligentie op den duur heel veel banen overbodig gaat maken. Zelfrijdende auto’s zouden zomaar alle vrachtwagenchauffeurs hun baan kunnen ontnemen. Het standaardantwoord is altijd dat er weer nieuwe banen bijkomen, maar ik ben er niet zeker van dat dit in de toekomst zo zal blijven. Misschien moeten we er rekening mee houden dat we allemaal wat meer vrije tijd gaan krijgen, en er goed over nadenken hoe we onze samenleving daar naar gaan inrichten. Ik wil ook nog één misverstand noemen voordat ik dit hoofdstuk afsluit. Vaak hoor je dat met big data men alleen nog oog zou hebben voor voorspellingen (wat) en niet meer voor de onderliggende oorzaken (waarom). Dit wordt ook wel het correlatie (wat) versus causatie (waarom) probleem genoemd. Zoeken naar correlaties in plaats van oorzaken kan misschien een verleiding zijn, maar heeft niets met big data te maken. Meer data leidt altijd tot betere inzichten mits men de juiste vragen stelt. Met dezelfde data kan men proberen te voorspellen welke bevolkingsgroepen een grotere kans hebben om in de misdaad terecht te komen, maar kan men ook proberen te achterhalen waarom deze bevolkingsgroepen in de misdaad terechtkomen (bijvoorbeeld door een grotere werkeloosheid). De gulden regel is: meer data is altijd beter dan minder data mits je de goede vragen stelt en de goede algoritmen gebruikt. Concluderend: de datascope is een krachtig instrument waarmee we dieper inzicht kunnen krijgen in allerlei complexe problemen en relaties. Zoals altijd kunnen krachtige technologieën ook misbruikt worden. We moeten daarvoor oppassen en onze maatschappij via wetgeving zo inrichten dat die negatieve aspecten worden beteugeld en ondervangen. We mogen simpelweg niet toestaan dat verzekeringsmaatschappijen discrimineren op medische profielen. We hoeven ook niet toe te laten dat de politie preventief gaat arresteren. Door de snelle ontwikkelingen lopen we hier wellicht wat achter op de feiten, dus dit verdient onze volle aandacht.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
De derde groeiwet De wet van Moore (Moore, ) stelt dat ruwweg iedere twee jaar de rekenkracht van computers verdubbelt, voornamelijk als gevolg van de miniaturisering van transitoren, zie figuur . Deze wet blijkt al sinds op te gaan. We zullen dit de eerste groeiwet (van Moore) noemen. Figuur
Bron: Intel
De explosie van data blijkt ook aan eenzelfde wetmatigheid onderhevig. Ook hier geldt dat ruwweg iedere twee jaar de hoeveelheid data verdubbelt. We zullen dit de tweede (big data) groeiwet noemen. Ik stel hier dat er waarschijnlijk nog een derde groeiwet actief is. Deze derde wet beschrijft de exponentiële groei van de capaciteit van de modellen die onderzoekers gebruiken. Simpele modellen hebben maar een klein aantal vrijheidsgraden (ook wel parameters genoemd) terwijl complexe modellen heel veel vrijheidsgraden hebben. De taak van de onderzoeker is om de vrijheidsgraden zo te kiezen dat het resulterende model de geobserveerde data zo goed mogelijk beschrijft. Dit gebeurt automatisch via zogenaamde “leeralgoritmen” die in het vakgebied machine-learning worden ontwikkeld.
MAX WELLING
Tijdens mijn bezoek aan Google en Yahoo in vernam ik dat men daar nu modellen traint met meer dan miljard parameters! Dit was ondenkbaar toen ik in tot het veld toetrad. Ik wil mezelf niet branden aan een precieze voorspelling van het aantal jaar dat nodig is voor een verdubbeling van de modelcapaciteit (het aantal vrije parameters), maar het zou me niks verbazen als dat ook rond de twee jaar is. Ter illustratie, in had het state-ofthe-art neurale netwerk “NetTalk” , parameters. Dat ijkpunt gecombineerd met de omvang van de hedendaagse modellen van miljard parameters leidt tot een verdubbeling iedere één en een kwart jaar (maar dit getal moet met een flinke korrel zout worden genomen). In figuur heb ik de exponentiële groei van het aantal parameters van neurale netwerken (zie hoofdstuk ) geplot. Dit is een zogenaamde log-log plot, wat betekent dat een rechte lijn met exponentiële groei overeenkomt. Figuur
Het menselijk brein heeft ongeveer triljoen synapsen. Synapsen reguleren het gemak waarmee één neuron zijn informatie doorgeeft aan zijn buurman. Synapsen zijn net als vrije parameters in een model aangezien het brein de sterkte van deze synapsen aanpast aan de nieuwe informatie die via de zintuigen binnenstroomt. Als we uitgaan van een verdubbeling iedere twee jaar dan VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
zal het nog jaar duren voordat onze modellen hetzelfde aantal vrije parameters hebben als ons brein, zie figuur . Neuronen zijn hele langzame rekenaars: zij hebben tenminste één milliseconde nodig om een signaal door te geven. Als we ooit een kunstmatig brein bouwen met evenveel transistors en connecties als in het menselijk brein, dan zal deze misschien evenveel informatie kunnen bevatten als ons brein maar wel vele ordes van grootte sneller kunnen rekenen. Maar goed, aan dat laatste feit waren we eigenlijk al gewend. De derde groeiwet is in principe consistent met de eerste wet van Moore. We hebben immers exponentieel groeiende rekenkracht nodig om een exponentieel groeiend aantal parameters te leren. Maar de derde groeiwet lijkt niet consistent met de tweede groeiwet. De reden van deze paradox is dat de hoeveelheid nuttige informatie in data veel kleiner is dan de hoeveelheid data zelf. Figuur
We kunnen ons ruwe data voorstellen als gouderts, zie figuur . De nuttige informatie is dan het goud zelf dat uit de erts moet worden gewonnen met de
MAX WELLING
gereedschappen van de machine learning. Het overgebleven gruis komt overeen met nutteloze informatie, ofwel ruis. De term datamining kan dus vrij letterlijk worden geïnterpreteerd als het bevrijden van nuttige informatie uit data.
Nuttige informatie Claude Shannon introduceerde in een rigoureuze definitie van het concept informatie (Shannon, ). Men wint één bit aan informatie als men antwoord krijgt op één ja/nee vraag waarvan men daarvóór geen benul had van het antwoord. Bijvoorbeeld, Lieke gooit een munt op en laat niet zien of die kop of munt was gevallen. Nadat Lieke mij vertelt hoe het muntje was gevallen heb ik precies bit aan informatie ingewonnen. Neem nu een plaatje met pixels die de waarde of kunnen aannemen. Als alle pixels onafhankelijk van elkaar met een kans van een half de waarde of aannemen zeggen we dat het plaatje bits aan informatie bevat (zie figuur -C). Figuur -A daarentegen bestaat helemaal uit pixels die allemaal de waarde aannemen. Dit plaatje representeert veel minder dan bits. Figuur
A
B
C
We kunnen deze intuïtie preciezer maken door ons voor te stellen dat Sera het plaatje naar Eline moet sturen. Hoeveel bits heeft Sera nodig om alle informatie over te sturen? In het eerste geval heeft ze weinig keus: ze moet voor alle pixels zeggen of ze de waarde of hadden, bits dus. Maar in het tweede geval kan ze alle informatie in één zin stoppen: “alle bits hebben waarde ”. Nu moet Sera natuurlijk wel deze zin opsturen en ook dat is informatie, maar de hoeveelheid bits is onafhankelijk van de grootte van het plaatje. De zin “alle bits hebben waarde ” noemen we het model. Dus in het eerste geval is er geen model dat ons kan helpen om het plaatje efficiënter te coderen,
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
terwijl in het tweede geval alle informatie met een heel simpel model kan worden beschreven. “Echte data” heeft een complexiteit die ergens tussen deze twee extremen in ligt, zoals in figuur -B. Gedeeltelijk kunnen we de informatie comprimeren door een model te gebruiken, maar er blijven ook een hoop bits nodig om de afwijkingen van dit model te beschrijven (pixel is i.p.v. de die het model voorspelde). De informatie die niet met een model te vangen is noemen we de ruis. Deze informatie is niet nuttig in de zin dat we er niets mee kunnen voorspellen. De informatie die we met een model kunnen beschrijven is wel nuttig want daar kunnen we wel voorspellingen mee doen. Het is de taak van de modellenbouwer om de nuttige informatie te scheiden van de ruis, en deze op te slaan in de parameters van het model, zie figuur . Figuur
De hoeveelheid nuttige informatie groeit veel langzamer dan de totale hoeveelheid informatie in data. We observeren dus een “afnemende meerwaarde” aan informatie als we observaties toevoegen: het miljoenste data-punt voegt veel minder voorspellende waarde toe dan het e data-punt. De metafoor
MAX WELLING
van de goudmijn helpt ons dit weer te begrijpen: hoe langer we in dezelfde goudmijn graven naar goud hoe moeilijker het wordt het goud te delven. Immers, de grote brokken zijn er in het begin al uitgevist, en de mijn raakt op den duur uitgeput. We hebben de paradox nu dus scherp voor ogen. Ondanks het feit dat de hoeveelheid ruwe data exponentieel groeit (de tweede groeiwet), groeit de hoeveel nuttige informatie in die data veel langzamer. Waarom groeit de complexiteit (het aantal vrije parameters) van modellen dan toch exponentieel (de gepostuleerde derde groeiwet)? De huidige modellen lijken dus een enorme overcapaciteit te hebben om de hoeveelheid nuttige informatie in de data op te slaan. Modellen met zo’n overcapaciteit lopen het gevaar om te “overfitten”. Ze gaan proberen deze overcapaciteit te vullen met ruis (de informatie zonder voorspellende waarde). En helaas kunnen modellen die overfitten minder goed voorspellen. Ik heb deze conclusie in figuur samengevat. Figuur
In de metafoor van de goudmijn komt dit neer op de volgende situatie. Om het goud op te slaan heb ik een enorme silo aangeschaft. Maar deze silo is veel te groot, namelijk groot genoeg om niet alleen het goud maar ook alle gouderts in op te slaan. De machines die de silo vullen hebben de neiging de silo helemaal vol te storten, wat betekent dat er naast het pure goud ook een hoop gruis in de silo terechtkomt. Een grote silo is niet alleen duur, door de aanwezigheid van het gruis is het ook moeilijk om bij het goud te komen.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
Overfitting Het begrip “overfitten” is het centrale concept in machine learning. Men kan het zich voorstellen als een geheugen dat te goed werkt. Stel je voor dat je plaatjes van verschillende stoelen te zien krijgt. Iemand met een perfect geheugen onthoudt alle details van alle stoelen. Als we hem een plaatje van een stoel laten zien die hij al eens eerder heeft gezien dan roept hij tevreden: dat is een stoel! Maar laat je hem een plaatje zien van een stoel die iets anders is dan één van die voorbeelden, dan raakt hij in de war. Iemand met een slechter geheugen probeert eigenschappen te vinden die alle stoelen gemeen hebben: een leuning, een zitvlak, poten etc. Bij het zien van de nieuwe stoel herkent hij deze eigenschappen en concludeert dus dat dit ook een stoel moet zijn. Een goed model moet dus alleen de essentiële eigenschappen onthouden, en de rest vergeten. (Dat het generaliseren van kennis te maken heeft met slim vergeten is goed nieuws voor een hoop vergeetachtigen zoals ikzelf.) Op eenzelfde manier kan een computer ook heel makkelijk onthouden wat je er instopt. Maar dit is heel wat anders dan een computer die goed kan generaliseren naar nieuwe input en goed kan voorspellingen kan doen. Goede modellen zoeken naar nuttige informatie: abstracte concepten om de data te beschrijven. Het concept stoel is natuurlijk zo’n abstractie. We zijn continue bezig met nieuwe concepten te formuleren om de wereld om ons heen beter te begrijpen. Een concept is niets meer dan het extraheren van de nuttige informatie en het vergeten van ruis. Leren is dus equivalent aan abstraheren en conceptualiseren, aan het wegfilteren van de ruis en aan het comprimeren van de data zodat alleen nuttige informatie achterblijft. Om te kunnen leren moeten we aannames maken. In het voorbeeld hierboven waren onze aannames dat leuningen en zitvlakken belangrijke eigenschappen zijn die een stoel definiëren. Deze aannames noemen we “inductieve bias”. Je leest nog wel eens dat iemand een nieuw leeralgoritme heeft verzonnen dat aannamevrij is. Neem van mij aan dat dit onzin is. Er zijn altijd verborgen aannames. Zonder aannames kan je niet generaliseren. De lakmoestest voor een goed model is zijn voorspelkracht. Alleen goede modellen kunnen voorspellingen doen op nieuwe, nooit eerder geziene data. Maar test een model nooit op de data die het al eerder heeft gezien, want het onthouden van data is geen kunst. Voorspellen is ook wat ons brein doet. Als de voorspellingen goed zijn merk je niks, maar als ze eens een keer falen dan merk je wel degelijk dat je onbewust een voorspelling deed. Een goed voorbeeld is die keer dat je het melkpak uit de koelkast pakte en je arm ineens omhoogschoot. Je voorspelling omtrent de hoeveel melk in dat melkpak zat er naast en je spieren hadden zich te hard aangespannen.
MAX WELLING
Maar waarom leidt overfitten eigenlijk tot verminderde voorspelkracht? We illustreren dit eerst met figuur . We willen een curve door de punten trekken om hun relatie zo goed mogelijk te beschrijven. Als we een rechte lijn trekken ( vrije parameters) dan is de bias groot en de fit dus slecht. Als we een heel flexibele curve gebruiken met heel veel vrije parameters dan gaat de curve precies door alle punten maar de fit is intuïtief toch ook erg slecht omdat we niet verwachten dat de niet geobserveerde punten op deze curve zullen liggen. Het optimum zit ergens in het midden. Figuur
Om de relatie tussen overfitten, inductieve bias en voorspelkracht verder te verduidelijken neem ik even aan dat de dataset met N datapunten die wij tot onze beschikking hebben er maar één uit vele mogelijke datasets met N datapunten is. We stellen ons het model dat we leren voor als een pijl die we in een roos willen schieten, zie de figuur . Schieten we in de roos dan is het model perfect, schieten we er flink naast dan is het een slecht model met weinig voorspelkracht. Als we een heel simpel model gebruiken (met heel weinig vrije parameters) dan maken we impliciet sterke aannames (een sterke inductieve bias). Deze bias kan natuurlijk precies goed zijn, maar in het algemeen is de wereld veel ingewikkelder dan we met een simpel model kunnen bevatten. We zullen dus in alle waarschijnlijkheid flink naast de roos schieten en slechte voorspellingen doen. We noemen dit “underfitten”. Als we ons nu voorstellen dat we ook de beschikking hadden over nog andere datasets met N datapunten, en we trainen ons simpele model ook met deze andere datasets dan krijgen we verschillende voorspellingen. De pijlen komen dus op verschillende plekken terecht. Maar omdat het model zo simpel is, verandert er ook niet veel aan de voorspellingen, en de pijlen landen ongeveer in hetzelfde gebied. Dit correspondeert met de rode kruisjes op het linkerbord in figuur . We zeggen dat de variantie klein is.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
Figuur
Nu het omgekeerde geval: een model met heel veel vrije parameters. De inductieve bias is nu klein want we kunnen hele complexe functies beschrijven. Maar als we kijken naar de variatie die ontstaat als we het model trainen op de verschillende datasets van ieder N datapunten, dan zien we een enorm verschil: de variantie is groot. Dit correspondeert met de rode kruisjes op het rechterbord in figuur . Dit komt omdat het algoritme nu zelfs de kleinste details van de dataset probeert te fitten. Het fit dus de ook de ruis die geen enkele voorspelkracht heeft. Het model lijdt aan overfitting. Overfitting is dus equivalent aan een grote variantie in de voorspellingen. De conclusie is dus dat zowel underfitten en overfitten leiden tot slechte voorspellingen. Zoals zo vaak in het leven, moeten we op zoek naar de gulden middenweg. De filosofie dat we het simpelste model moeten kiezen dat de data nog goed beschrijft heet ook wel Occam’s scheermes. Maar de realiteit is iets ingewikkelder want het is niet duidelijk hoe goed nog goed genoeg is; complexere modellen fitten immers de trainingsdata beter. Maar er zijn gelukkig goede methoden ontwikkeld om toch de juiste balans te vinden. Terug naar de paradox. De derde groeiwet laat zien dat onderzoekers juist wel hele complexe modellen gebruiken. Hoe vermijden ze dan toch overfitten? Een hele elegante methode, die gebaseerd is op de “wijsheid van de menigte” zal ik nu uitleggen.
MAX WELLING
Wijsheid van de menigte Probeer het volgende experiment eens thuis. Stel u wilt de hoogte van de Eiffeltoren weten. Vraag dan aan mensen (of een ander oneven aantal mensen) om deze waarde te schatten, ongeacht of ze er veel of weinig vanaf denken te weten. Ze mogen niet met elkaar overleggen. Sorteer alle schattingen van klein naar groot en gebruik de e schatting (de middelste schatting) als je antwoord. Wat blijkt? Bijna altijd levert deze procedure een heel precies antwoord op, bijna net zo precies als de beste schatting uit het rijtje (maar je weet natuurlijk niet van te voren wat de beste schatting is). In de volksmond heet dit “de wijsheid van menigte”. Wat nog beter blijkt te werken is als je de menigte laat gokken met geld. Mensen die heel zeker zijn van hun antwoord zijn bereid veel geld in te zetten en hun stem weegt dan ook zwaarder mee in het gewogen gemiddelde. Je kan hier aan meedoen op websites die “prediction markets” worden genoemd. De filosofie is niet heel anders dan die van de aandelenmarkt waar mensen aandelen kopen en verkopen en zo heel precies gezamenlijk de werkelijke waarde van een bedrijf bepalen.
In het vakgebied machine learning bestaat een analoge methode om betere voorspellingen te bewerkstelligen. We laten nu niet mensen maar algoritmen voorspellingen doen en nemen net zoals hierboven is beschreven de middelste waarde of het gemiddelde van alle voorspellingen. Vaak zien we dat hoe meer verschillende algoritmen meedoen, des te beter deze gecombineerde voorspelling wordt. Dit fenomeen werd heel duidelijk toen het Amerikaanse bedrijf Netflix een competitie uitschreef waar de winnaar maar liefst miljoen dollar kon winnen. De participanten moesten het “recommender” systeem van Netflix dat films aan klanten aanbeveelt met tenminste % verbeteren. Het bleek een enorm succes. Meer dan twintigduizend teams streden drie jaar lang en VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
verbeterde uiteindelijk Netflix’s eigen systeem met meer dan %. Wat bleek? Het winnende team had meer dan verschillende modellen getraind en hun voorspellingen op een slimme manier gecombineerd. De wijsheid van de menigte had gezegevierd. Deze methode noemen we “ensemble learning” in machine learning (Breiman, ). Het is niet heel moeilijk om te begrijpen waarom deze methode zo succesvol is. We gaan hiervoor weer even terug naar het verhaal over bias en variantie. Als we een heleboel modellen trainen die allemaal heel flexibel zijn dan hebben die modellen een kleine bias maar een grote variantie. Maar als deze modellen onafhankelijke voorspellingen doen, dan is er voor de fout die model A maakt ook een model B dat precies de omgekeerde fout maakt, en de fouten vallen tegen elkaar weg als we de voorspellingen middelen. Middelen vermindert dus de variantie en helpt tegen overfitten. Dit fenomeen is duidelijk te zien in figuur . De twee blauwe kruisjes stellen het gemiddelde voor van alle rode kruisjes. In het rechterplaatje waar de modellen overfitten zien we duidelijk dat het gemiddelde blauwe kruisje veel dichter bij de roos zit dan de rode kruisjes. We hebben nu een sterk argument in handen om de paradox van de derde wet op te lossen. We kunnen best heel grote flexibele modellen trainen, als we daarna maar door het middelen van de voorspellingen het overfitten tegengaan. Dit is een vorm van regularisatie, wat neer komt op het verkleinen van de capaciteit van een model, zodat de ruis er niet in past. Het alsof je een dubbele bodem in je silo legt: van buiten ziet de silo er nog steeds even groot uit, maar er past toch niet meer zoveel in. Er zijn ook andere methoden om een model te regulariseren. Bijvoorbeeld, we kunnen proberen ervoor te zorgen dat voor iedere voorspelling maar een klein deel van het model mag worden geactiveerd (dit heet “sparsity”), of we kunnen eisen dat een model nog steeds goed werkt als we de data een klein beetje veranderen (dit heet “robustness”). De conclusie is dus dat we wel degelijk hele complexe modellen met heel veel vrije parameters kunnen trainen als we er maar op de één of andere manier voor zorgen dat die overcapaciteit wordt weggeregulariseerd. We hebben vrij abstract over modellen gesproken tot dusver. Maar wat is nou een goed voorbeeld van een model dat we willekeurig complex kunnen maken? In het volgende hoofdstuk zal ik het neurale netwerk verder uitlichten. Dit model heeft een interessante geschiedenis omdat het aan de wieg stond van het vakgebied kunstmatige intelligentie, vervolgens twee keer in diskrediet is geraakt en nu opnieuw reïncarneert onder de naam “deep learning”.
MAX WELLING
Deep learning, de derde generatie kunstmatige neurale netwerken Kunstmatige neurale netwerken zijn zo oud als het vak kunstmatige intelligentie zelf. McCulloch and Pitts (McCulloch & Pitts, ) bedachten als eersten in een model dat in grote lijnen nog steeds overeenkomt met wat we vandaag de dag verstaan onder de term neuraal netwerk. Het model is een versimpeling van de echte neuronen en synapsen die ons brein bevolken. Volgens deze abstractie is een neuron een schakelaar die “aan” gaat als er genoeg signaal binnenkomt van andere, naburige neuronen. Als een neuron aangaat, zal het ook weer een signaal doorsturen naar zijn buren, enzovoort. Neuronen zijn verbonden met elkaar via synapsen. Als de synaptische verbinding sterk is zal het signaal tussen twee neuronen versterkt worden. Door nu de sterkte van deze synapsen aan te passen zodat het netwerk als geheel betere voorspellingen gaat doen kunnen we het netwerk trainen met data. Rond raakten de neurale netwerken voor het eerst in diskrediet doordat misschien wel de meest beroemde onderzoeker in de kunstmatige intelligentie uit die tijd, Marvin Minsky (samen met Seymore Papert) een boek schreef (Minsky & Papert, ) dat neurale netwerken zwaar bekritiseerde. Volgens hen waren neurale netwerken niet flexibel genoeg om moeilijke problemen op te lossen. Maar hun kritiek betrof alleen neurale netwerken met twee lagen neuronen. In echter ontstond er een hernieuwde interesse in neurale netwerken doordat Rumelhart, Hinton & Williams (Rumelhart, Hinton, & Williams, ) en onafhankelijk LeCun (LeCun, ) een algoritme heruitvonden dat al eerder in door Werbos (Werbos, ) was gepubliceerd. Met dit algoritme, “backpropagation”, konden onderzoekers nu voor het eerst neurale netwerken met drie lagen neuronen trainen. Soms noemen mensen deze heropstanding de “ReNNaissance” (waar NN voor neurale netwerken staat). Helaas ging het weer mis rond toen Vladimir Vapnik de “support vector machines” uitvond. Dit model kon ook ingewikkelde niet lineaire relaties modelleren, maar met als groot voordeel dat het leeralgoritme maar één (en dus reproduceerbaar) antwoord kon opleveren. Neurale netwerken convergeerden vaak naar heel verschillende modellen afhankelijk van hoe je het leeralgoritme startte. (Dit noemen we lokale minima). Het probleem daarvan is niet zozeer dat deze verschillende modellen slecht zijn, maar meer dat je niets theoretisch kan bewijzen over hoe het netwerk zich gedraagt in nieuwe situaties. Dat kon wel met de support vector machines en dus verdwenen de neurale netwerken opnieuw in de la.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
Maar recent zijn ze aan hun tweede comeback begonnen in een nieuw “deep learning” jasje. Waar de eerste generatie neurale netwerken maar twee lagen neuronen hadden, kwam de tweede generatie niet verder dan drie lagen neuronen. Het probleem was dat het backpropagation algoritme dat de vrije parameters aanpast om het model te verbeteren niet door meer dan twee lagen kon penetreren: alle aanpassingen werden minuscuul klein. Maar rond kwam Geoffrey Hinton met nieuwe ideeën om netwerken met vele lagen te kunnen trainen (Hinton, Osindero, & Teh, ) (zie figuur ). Voordat hij het neurale netwerk met backpropagation trainde stapelde hij eerst een aantal netwerken met twee lagen boven op elkaar. Hij trainde die lagen los van elkaar waarbij de output van één laag de input van de laag erboven vormde. Bovendien gebruikte hij in deze fase nog niet het backpropagation algoritme maar een algoritme dat gebruik kan maken van ongelabelde data (bijvoorbeeld een foto van een stoel zonder dat erbij wordt verteld dat het een stoel betreft) dat in veel grotere hoeveelheden voorhanden is. Een andere belangrijke ontwikkeling is dat onderzoekers gebruik gingen maken van GPUs (graphics cards) die oorspronkelijk waren ontwikkeld voor game-computers, en zo veel meer computerkracht tot hun beschikking hadden. De eerste groeiwet (van Moore) schoot dus te hulp om de neurale netwerken weer nieuw leven in te blazen. Figuur
Bron: Google
MAX WELLING
Het probleem van de lokale minima werd niet opgelost en het is nog steeds heel moeilijk om performance garanties af te leiden, maar de nieuwe technologie bleek zo goed te werken dat “diepe neurale netwerken” vele competities begonnen te winnen. Na jaren van marginale verbeteringen (een paar procent per jaar) in automatische spraakherkenning waren het de diepe neurale netwerken die ineens voor % verbetering zorgden. Maar de successen gingen verder dan alleen spraakherkenning. Deep learning is ook het beste algoritme gebleken in beeldherkenning (welke objecten zijn aanwezig in deze foto?) en protein prediction (welke eigenschappen heeft een eiwit?). Deze wapenfeiten hebben ervoor gezorgd dat bedrijven zoals Microsoft, Google, Apple, Yahoo! en IBM zich op deze technologie hebben gestort. De Chinese tegenhanger van Google, Baidu, heeft recentelijk zelfs een heel instituut opgericht in Silicon Valley dat zich louter met deep learning bezighoudt. En zeer recentelijk, in December tijdens een machine learning conferentie (NIPS) die ik mede heb georganiseerd, kondigde Mark Zuckerberg van Facebook aan dat hij de “deep learning guru” Yann LeCun had ingehuurd om zijn nieuwe AI-lab te gaan leiden. Deep learning is misschien wel het mooiste voorbeeld van een methode waar de drie groeiwetten samenwerken. De huidige modellen hebben tientallen miljarden vrije parameters en worden op miljoenen Youtube videoclips getraind, gebruik makende van duizenden computers. Zoals ik al eerder heb uitgelegd lijken dat veel te veel parameters voor de hoeveelheid nuttige informatie die we verwachten te vinden in de data. Maar de trainingsalgoritmen worden moedwillig gefrustreerd in het leren van de parameterwaarden via regularisatie om op die manier de capaciteit van het model te beperken en overfitten te voorkomen. Op dit moment representeren de diepe neurale netwerken de absolute state-of-the-art in mijn vakgebied.
Citizen science Machine learning is niet alleen iets voor de experts. Er is een toenemende trend te ontwaren waarin “de gewone burger” participeert in de activiteiten van het vak, bewust of onbewust. In dit hoofdstuk zal ik daar wat meer over vertellen. In beschreef Luis von Ahn (Von Ahn & Dabbish, ) dat in dat jaar “gamers” over de hele wereld negen miljard uur het spelletje Solitaire hadden gespeeld. Ter vergelijking: het bouwen van de Empire State Building kostte miljoen manuren (. uur Solitaire online), en het bouwen van het Panama kanaal miljoen manuren (minder dan een dag Solitaire online). Wat een VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
verkwisting!? Von Ahn bedacht dat we de wetenschap een enorme dienst zouden kunnen bewijzen als we ook maar een klein deel van die inspanning zouden kunnen kanaliseren. En dus bedacht hij een “label game” om de objecten in foto’s te identificeren. Eén van de eerste label games was ESP waar twee anoniemen participanten hetzelfde plaatje voorgeschoteld kregen en allebei objecten die in dat plaatje aanwezig waren moesten benoemen. (Er was ook een blacklist van objecten die al door eerdere deelnemers waren benoemd). Als ze hetzelfde object gelijktijdig benoemden kregen ze punten. Het vernuft van dit spelletjes was dat de deelnemers vaker hetzelfde object benoemden dan ze zelf verwachtten en dus dachten dat ze een soort buitenzintuigelijke band met elkaar hadden! In de tussentijd waren ze natuurlijk gewoon bezig (gratis) de objecten van een foto te benoemen en zo de wetenschap een dienst te bewijzen. Een ander creatief voorbeeld in deze sfeer ontwikkeld door dezelfde persoon zijn “reCaptcha’s” waar je een stukje tekst moet intikken voordat je een website op mag. Ook hier digitaliseer je een stukje gescande tekst zonder dat je er erg in hebt. Het idee om mensen op heel grote schaal in te zetten voor maar een heel klein beetje financiële compensatie heeft ook zijn intrede gedaan in de gedaante van “crowdsourced marketplaces”, een andere vorm van citizen science. Het bekendste voorbeeld is Amazon’s “Mechanical Turk”. Als je een simpele maar tijdrovende taak hebt dan kan je deze online als een vragenlijst presenteren aan enorme hoeveelheden “Turkers” in de hele wereld. Het antwoord op elke vraag is een paar cent waard, maar voor sommigen in minder welvarende landen kan dat toch oplopen tot een aardige zakcent. Het gaat ook vrijwel altijd om taken waar mensen heel goed in zijn maar computers (nog) niet. In zekere zin gebruiken computers dus de denkkracht van het menselijk brein om zelf slimmer te worden. Interessant genoeg zien we dus een soort omdraaiing van de rollen van mens en computer: in plaats van mensen die de rekenkracht van computers gebruiken, gebruiken computers hier de denkkracht van menselijke breinen… Computers en mensen raken steeds meer vervlochten met elkaar. Ze vullen elkaar aan in de taken waarin ze goed zijn: mensen met hun intuïtie, creativiteit en begrip van de wereld, computers met hun extreme rekensnelheid. Crowdsourcing heeft zich ook op een ander niveau gemanifesteerd. Toen Netflix zijn eerste competitie uitschreef (zie hoofdstuk ) bedacht de webservice “Kaggle” dat dit wel eens een goed model zou kunnen zijn om de data-science problemen die bij bedrijven spelen via online competities aan te pakken. Tegen soms enorme geldbedragen (oplopend tot wel miljoen dollar!) proberen duizenden teams de beste voorspellingen te realiseren. Dit idee bleek succesvol: vele honderden competities zijn ondertussen tot een goed
MAX WELLING
einde gebracht. Niet alleen “experts” in gevestigde instituten kunnen deelnemen, ook de enthousiasteling in een schuur in ergens in Siberië kan zo’n competitie winnen. Maar citizen science zal veel verder gaan dan de voorbeelden die ik hierboven heb beschreven. Big data vormt de nieuwe economische pijler waaraan eenieder met energie en talent kan meedoen. Steden zoals Chicago en New York evenals de Amerikaanse overheid zetten een groot deel van hun data online in de hoop dat anderen hier toepassingen omheen zullen bouwen. Een bedrijf als Ford wil bijvoorbeeld sensordata uit auto’s online zetten om zo enthousiastelingen uit te dagen nieuwe toepassingen te ontwikkelen die op hun beurt Ford’s auto’s weer aantrekkelijker maken. Deze ontwikkelingen vormen een unieke kans voor wetenschappers om uit hun ivoren torens te klimmen en de interactie aan te gaan met burger en bedrijf. Door het ontwikkelen en vrij beschikbaar stellen van gebruikersvriendelijke en nuttige software kan de brug tussen wetenschapper en burger misschien wel beter dan ooit tevoren worden geslagen. Een recente revolutie in het onderwijs vormt misschien nog wel de belangrijkste pijler onder deze brug en sluit naadloos aan bij de ontwikkelingen die ik in dit hoofdstuk heb beschreven. De MOOC, ofwel “massive open online course” staat voor gratis onderwijs voor de massa’s. Hierover meer in het volgende hoofdstuk.
Onderwijs In schreef het McKinsey Global Institute het volgende in haar rapport “Big data: The next frontier for innovation competition, and productivity” (Manyika, et al., ): A significant constraint on realizing value from big data will be a shortage of talent, particularly of people with deep expertise in statistics and machine learning. In kopte de Harvard Business Review met de volgende titel (Davenport & Patil, ): Data Scientist: The Sexiest Job of the st Century. De conclusie mag duidelijk zijn: we gaan een toename zien in het aantal banen en hopelijk het aantal studenten in dit vakgebied. Universiteiten staan voor de belangrijke taak om genoeg data-wetenschappers op te leiden en zo het gat te dichten dat dreigt te ontstaan tussen vraag een aanbod op deze arbeidsmarkt. Ik denk dat de UvA uniek is gepositioneerd om hier een vooraanstaande rol te spelen. Ten eerste zal de eventuele fusie tussen UvA en VU nieuwe mogelijkheden VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
scheppen op het gebied van onderwijs en onderzoek. Ik hoop dat in de discussie over het onderwijs aan de nieuwe “Amsterdam Faculty of Science” het vak data science een belangrijke rol krijgt toebedeeld. We doen onszelf tekort als we deze kans niet aangrijpen om “data science central” van Nederland te worden. Het gloednieuwe “Data Science Research Center”, dat een gezamenlijk initiatief van de UvA en VU is kan hier een belangrijke rol in gaan vervullen.
Maar we moeten verder kijken dan de studenten die zich aanmelden bij de poorten van de universiteit. We moeten ook de enthousiaste burger en bedrijfsvoerder bedienen en hen zo betrekken bij de mogelijkheden die de big data revolutie te bieden heeft. Ik zie dan ook een heel belangrijke rol weggelegd voor MOOCs om dit doel te bereiken. Een MOOC (“massive open online course”) is een cursus die gratis online wordt aangeboden en die soms door wel , studenten tegelijk wordt gevolgd. Studenten helpen elkaar via online chatrooms met opgaven, hun examens worden automatisch nagekeken en de aandachtspunten kunnen voor iedere student individueel worden geïdentificeerd via zogenaamde “recommender systemen” (zie hoofdstuk ). Ook het onderwijs wordt zo data science. Het is dan ook niet voor niets dat de twee grootste MOOC instituten (Udacity en Coursera) spin-offs zijn van machine learning medewerkers op Stanford University. Wat de uiteindelijke impact van MOOCs zal zijn moet nog blijken, maar deze ontwikkeling dwingt ons ook om onze eigen rol als docenten nog eens flink onder de loep te nemen. Worden wij dadelijk ook door onze eigen MOOCs verdrongen, net zoals Wikipedia in het verleden de klassieke encyclopedie grotendeels verving? Wat wordt de rol van de docent, de expert en
MAX WELLING
het kennis instituut? Allemaal dringende vragen die ons de komende tijd onvermijdelijk gaan bezighouden.
Machine learning, een gouden toekomst Ik heb dit moment aangegrepen om mijn vakgebied beter voor het voetlicht brengen. Gevoed door exponentiële groei van rekenkracht en data is de complexiteit van modellen zelf ook explosief gegroeid. Zozeer zelfs dat de overcapaciteit van hedendaagse modellen, ondanks de enorme datasets, alleen maar lijkt toe te nemen. Deze paradox levert interessante inzichten op, namelijk dat een combinatie van complexe modellen en regularisatie in de context van big data heel succesvol blijkt in de praktijk. Tegen deze achtergrond doe ik mijn onderzoek dat zich richt op het ontwikkelen van complexe, statistisch goed gefundeerde modellen en de bijbehorende big data leeralgoritmen. Figuur
Machine learning is de laatste jaren heel snel in populariteit gegroeid. Figuur laat zien dat het aantal bezoekers van de grootste machine learning confeVAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
rentie, NIPS, ook aan een exponentiële groeiwet onderhevig is! Ik vermoed dat de onderliggende oorzaak gezocht moet worden in het feit dat we steeds vaker toepassingen van de kunstmatige intelligentie zien in het dagelijkse leven. Apple’s Siri op onze iPhone begrijpt wat we zeggen, Amazon begrijpt wat voor boeken we willen lezen, navigatie systemen leiden ons feilloos naar onze bestemming enzovoort. Over nog veel geavanceerdere technologie kan men al lezen op het internet: Star Trek’s “universal translator” wordt werkelijkheid in een nieuw systeem van Microsoft dat gesproken zinnen kan begrijpen, vertalen en dan weer in een andere taal uitspreken; IBM’s Watson verslaat de beste menselijke tegenstander in het spel “Jeopardy” waar taal op een heel hoog niveau begrepen moet worden, zelfsturende auto’s rijden al rond in Californië en Nevada enzovoort. Deze zichtbare vooruitgang inspireert een grote groep jong talent met een rijke fantasie voor wat er allemaal nog meer mogelijk is. Een van die talenten is ontegenzeggelijk de CEO van Facebook, Mark Zuckerberg. Tijdens zijn bezoek aan de grootste conferentie in machine learning (NIPS) droeg hij zijn visie uit over het ontwikkelen van een persoonlijke “theory of mind” voor elke Facebookgebruiker. Gezien de enorme hoeveelheden data en rekenkracht die Facebook tot zijn beschikking heeft, is dit op de lange termijn misschien niet eens zo’n heel onrealistische idee. Maar willen we dit wel? Dankzij Edward Snowden weten we nu dat dit soort informatie gemakkelijk in handen van overheden kan vallen. Naast grote beloften zijn er dus ook grote gevaren. Hoe kunnen wij onze privacy waarborgen in een tijd dat computermodellen onze innerlijke drijfveren misschien wel beter doorgronden dan wijzelf? Hoe kunnen wij voorkomen dat een zeer gedetailleerde prognose van onze gezondheid onze verzekeringspolis gaat beïnvloeden? Hoe kunnen we voorkomen dat we preventief worden gearresteerd als we een genetische aanleg voor terroristische activiteiten blijken te hebben? Dit zijn aspecten van machine learning en big data waar we de komende tijd ons hoofd over moeten breken. We moeten een balans vinden tussen wat kan en wat wenselijk is. Ik heb er een groot vertrouwen in dat dat lukt. Ik voorzie een gouden toekomst voor mijn vakgebied.
Dankwoord Voordat ik mijn verhaal afsluit wil ik graag een aantal mensen bedanken. Allereerst wil ik het College van Bestuur van de Universiteit van Amsterdam, en het bestuur van de Faculteit der Natuurwetenschappen, Wiskunde en Informatica en in het bijzonder de decaan van de faculteit bedanken voor het in mij gestelde vertrouwen.
MAX WELLING
Verder wil ik het Instituut voor Informatica en in het bijzonder de directeur Jan Bergstra bedanken voor het creëren van deze leerstoel. Daarnaast wil ik de leden van mijn groep “Intelligent Autonomous Systems” (IAS), en met name de secretaresse Petra Best bedanken voor de warme ontvangst bij mijn aantrede. De organisatie en structuur van deze groep is wat veranderd het afgelopen jaar en dat vergde enige aanpassing van iedereen. Hartelijk dank voor jullie geduld in deze. In het bijzonder wil ik mijn huidige AIO’s Durk en Taco en mijn postdoc Ted bedanken voor de vele interessante discussies. Ik was heel druk het afgelopen jaar, maar ik hoop dat er meer tijd komt voor onderzoek in het komende jaar. Ik wil hierbij ook mijn AIOs in Amerika niet vergeten: Ian, Yutian, Anoop, Sungjin, Levi en Andrew: thanks for many wonderful and exciting years together. Ik ben diep geroerd door het feit dat mijn beide ouders van respectievelijk en jaar oud hier vandaag aanwezig zijn. Pa en ma, jullie hebben voor mij een stabiele en warme omgeving weten te creëren waarin mijn wetenschappelijke ambities goed konden gedijen. Hiervoor mijn welgemeende dank. En dan mijn lieve gezin, Marga, Eline en Sera. Het is elke dag weer een feest om te mogen thuiskomen in de warmte van jullie aanwezigheid. De verhuizing naar Nederland vanuit Amerika was geen sinecure, maar ik denk dat we er samen iets heel moois van gaan maken. Ook aan mijn broer Hans heb ik veel te danken. Onze lange gesprekken over alles wat ons bezig houdt, inclusief de details van mijn onderzoek, heb ik altijd gekoesterd. Verder ben ik dank verschuldigd aan de medeoprichters van mijn startup Scyfer: Jörgen, Taco en Tijmen. We gaan er een prachtig bedrijf van maken. Dan wil ik mijn jeugdvriend Robert nog noemen. We kennen elkaar ruim jaar en nog steeds lachen we heel wat af. Ook mijn trouwe vriend Michel en de leden van de “Visclub” wil ik graag bedanken voor hun vriendschap. Ik bedank de volgende mensen voor hun nuttige feedback met betrekking tot deze oratie: mijn vader, mijn moeder, Jörgen, Noud, en vooral Anja, die ondanks haar ziekbed de moeite heeft genomen deze tekst van commentaar te voorzien. Ten slotte dank ik al mijn vrienden en familie voor hun steun. Ik heb gezegd.
VAN VEEL DATA, SNELLE COMPUTERS EN COMPLEXE MODELLEN
Works cited Breiman, L. (). Bagging Predictors. Machine Learning, (), -. Davenport, T., & Patil, D. (). Data Scientist: The Sexiest Job of the st Century. Harvard Business Review, pp. -. Hinton, G.E., Osindero, S., & Teh, Y.W. (). A fast learning algorithm for deep belief nets. Neural Computation, (), -. LeCun, Y. (). Connectionist Learning Models. Universitè de P. et M. Curie. Manyika, J., Chui, M., Bughin, J., Brown, B., Dobbs, R., Roxburgh, C., et al. (). Big Data: The next frontier for innovation, competition, and productivity. McKinsey Global Institute. McCulloch, W., & Pitts, W. (). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, , -. Minsky, M., & Papert, S. (). Perceptrons: An Introduction to Computational Geometry. Cambridge, MA: MIT Press. Moore, G.E. (). Cramming more components onto integrated circuits. Electronics, -. Rumelhart, D.E., Hinton, G.E., & Williams, R.J. (). Learning representations by back-propagating errors. Nature, , -. Shannon, G.E. (). A Mathematical Theory of Communication. Bell System Technical Journal, , -, -. Von Ahn, L., & Dabbish, L. (). Labeling images with a computer game. Proceedings of the conference on Human factors in computing systems, (pp. -). Werbos, P.J. (). New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University.
MAX WELLING