Samenvatting van
MICHAEL R.W. DAWSON’S
UNDERSTANDING COGNITIVE SCIENCE
inclusief informatie uit de collegeserie van Harald Kunst en Ignace Hooge en de werkgroepen van Frank van Meurs Sebastiaan de Kruif 15 november 2004
Inhoud
Hoofdstukken 1
The Coffee Room and Cognitive Science
3
Aanvulling op de inleiding
5
2
The Classical View of Information Processing
6
3
The Connectionist View of Information Processing
9
4
The Computational Level of Analysis
16
5
The Algoritmic Level
21
6
The Functional Architecture
29
7
The Implementational Level
37
8
A Case Study in Cognitive Science
45
9
The Tri-Level Hypothesis and Cognitive Science
53
Appendices Appendix: Anatomie van de hersenen
55
Registers 59
Trefwoordenregister
-2-
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 1, gecombineerd met relevante informatie uit het college van Harald Kunst (6 september 2004) en de werkgroep van Frank van Meurs (8 september 2004). Sebastiaan de Kruif, 25 september 2004.
[email protected]
Chapter 1 The Coffee Room and Cognitive Science Intelligentie is een samenhang van effectiviteit en flexibiliteit. Deze definitie voert dus verder dan de intelligentie zoals deze ‘gemeten’ wordt in intelligentietests, immers, in deze tests worden bijvoorbeeld motoriek en waarneming niet onderzocht terwijl deze wel degelijk tot de intelligentie behoren. Er is geen universele manier voor het bedrijven van wetenschap in de psychologie. Ook de definitie van cognitiewetenschap is niet eenduidig vastgelegd. In het tweede gedeelte van de twintigste eeuw beleefde de cognitiewetenschap haar opmars. Tegenwoordig zijn er op alle universiteiten studies over te vinden. Cognitiewetenschap is een multidisciplinaire wetenschap omtrent onder meer kennis, beeld- en taalverwerking, het beantwoorden van vragen en leren, en houdt zodoende slechts een gedeelte van de psychologie in. De centrale aanname binnen de cognitiewetenschap is: “Het brein is een informatieverwerker.” Deze aanname heeft verregaande gevolgen voor onder meer fundamentele vragen en onderzoeksmethoden binnen de cognitiewetenschap. Cognitiewetenschap is dus geen coherente (samenhangende) wetenschap. Bovendien wordt door deze aanname het blikveld van de cognitiewetenschap behoorlijk beperkt. Verklaringen over informatieverwerkers vereisen veel soorten beschrijvingen (uit de neurowetenschap, computerwetenschap, psychologie en filosofie); daardoor wordt onderlinge communicatie in de cognitiewetenschap bemoeilijkt. Bovengenoemde centrale aanname gaat ervan uit dat informatieverwerking door de hersenen vergelijkbaar is met een stapsgewijs proces dat uitgevoerd wordt door een digitale computer (zoals de Turingmachine, zie hoofdstuk 2). In het begin leek het idee van de Turingmachine voortvarend, maar de laatste jaren blijkt dat het in tegenspraak is met ‘klassiek’ onderzoek. Het blijkt dat computers wel taken kunnen uitvoeren die mensen moeilijk of omvangrijk vinden, maar vice versa geldt ook dat mensen veel taken uitvoeren (bijna) zonder erbij na te denken, terwijl computers daar veel ‘moeite’ voor moeten doen. Het connectionisme houdt het idee aan dat een netwerkstructuur (op basis van neurale netwerken) een veel betere weergave is van de complexiteit van de hersenen dan de ‘klassieke’ Turingmachine. Dit is een controverse binnen de cognitiewetenschap. De zgn. tri-level hypothesis bestaat uit drie niveaus. Computationeel Wat? Welk probleem van informatieverwerking lost het systeem op? Algoritmisch Hoe? Welke stappen voert het systeem uit om tot een oplossing te komen? Implementatie~ Waarmee? Waarmee worden deze stappen (fysiek) uitgevoerd?
-3-
De tri-level hypothesis wordt niet door iedereen in de cognitiewetenschap zomaar geaccepteerd. Zo zijn er mensen die vinden dat het te ver staat van de biologische principes van de hersenen.
-4-
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 2, gecombineerd met relevante informatie uit de colleges van Ignace Hooge (resp. 8 en 13 september 2004) en de werkgroep van Frank van Meurs (15 september 2004). Sebastiaan de Kruif, 26 september 2004.
[email protected]
Aanvulling op de inleiding
Naast de tri-level hypothesis behoren allerlei voorbeelden tot de algemene ontwikkeling van de CKI-er. Het toepassen van de hypothese blijkt in de praktijk lastig te zijn. Voorbeeld Een slager weet van een varken waar het vlees zit. Hij zal gedeeltelijk weten hoe een varken in werkt (dat kan hij zien a.d.h.v. het skelet, de bloedsomloop, enz.). Een hele slimme slager (een chirurg) zal tot op zeker hoogte in staat zijn een varken na te bouwen of op z’n minst een varken weer in elkaar kunnen zetten als deze uit elkaar ligt. In het algemeen kun je fysieke aspecten van dieren nabouwen, maar daarmee heb je nog geen leven. Voorbeeld 2 Als je de relatie tussen een stimulus en de activiteit van een bepaald hersengebied kent door metingen te doen, wil dat nog niet zeggen dat je snapt hoe de hersenen werken. Wat is informatie? Deze vraag wordt niet behandeld in het boek van Dawson. Licht is informatie, maar vertelt niet waar het vandaan komt. Je hersenen zijn dus makkelijk voor de gek te houden met tweedimensionale informatie die driedimensionaal lijkt (Escher).
-5-
Chapter 2 The Classical View of Information Processing Tri-level hypothesis toegepast op Turingmachine: • Wat? Welk probleem van de informatieverwerking lost de Turingmachine op? • Hoe? Welke stappen voert de Turingmachine uit om tot een oplossing te komen? • Waarmee? Hoe worden deze stappen fysiek uitgevoerd? Hiervoor is het belangrijk aan te nemen dat wat de Turingmachine doet, informatie verwerken is. Hilbert’s Entscheidungsproblem Hilbert kwam in 1900 tot drieëntwintig wiskundige problemen die naar zijn idee in de twintigste eeuw opgelost moesten worden. Pas dan was de wiskunde echt af. Eén van deze problemen is het zgn. Entscheidungsproblem over de beslisbaarheid van de wiskunde, m.a.w. hoe weet je of een mathematische expressie waar of onwaar is? De methode die dit probleem op zou moeten lossen, moest bijzonder algemeen en krachtig zijn, maar ook bijzonder simpel, omdat het anders op weerstand van andere wiskundigen zou stuiten. Naar aanleiding hiervan bedacht de wiskundige Alan Turing de Turingmachine Turingmachine De Turingmachine bestaat uit: • een oneindig lange ‘tickertape’ met informatie in de vorm van enen, nullen en lege plekken; • een lees- en een schrijfkop; • een beweegbare CPU (centrale verwerkingseenheid) (de machinetabel). De machine bewerkt de informatie op de tickertape a.d.h.v. stappen die beschreven staan in de machinetabel en de toestand van de machine. De Church-Turing-hypothese claimt dat elk oplosbaar probleem opgelost kan worden door een Turingmachine. Er zijn echter problemen die niet opgelost kunnen worden (denk aan wiskundige paradoxen), en problemen die niet binnen afzienbare tijd (de levensduur van het heelal) op te lossen zijn. Een tweede aanname is daarom dat deze problemen niet d.m.v. een andere methode of door een andere machine opgelost worden. Een Universele Turingmachine (UTM) verschilt met een gewone Turingmachine (TM): een UTM heeft het programma op het eerste gedeelte van de tickertape staan. In het midden van de tickertape houdt de UTM belangrijke informatie bij (zoals de toestand van de TM). De UTM simuleert dus in feite een gewone TM. Waarom is de cognitiewetenschap geïnteresseerd in de Turingmachine? 1. Het concept van de TM staat voor hetgeen we informatieverwerking noemen. De UTM is de meest krachtige beschrijving van het verwerken van informatie. 2. De vraag of TM’s ook psychologisch interessante problemen kan oplossen, is niet eenduidig te beantwoorden, want anders was de cognitiewetenschap òf af òf afgedaan als niet (meer) belangrijk. Bever, Fodor en Garnet ontwikkelden in 1968 een zgn. ‘finite state automation’, een ‘apparaat’ dat op een TM lijkt, maar net iets anders werkt: hij gaat maar in één richting over de tape en kan alleen lezen, niet schrijven. Zij lieten zien dat zo een machine niet
-6-
kan bepalen of een zin uit een wel heel simpele kunstmatige taal grammaticaal juist of onjuist is. Fodor concludeerde dat een ‘finite state automation’ onmogelijk model kon staan voor de menselijke cognitie. Turingmachines kunnen dat wel. 3. Hersenen zijn in staat een oneindige hoeveelheid producten (zinnen, ideeën, kunst, enz.) voort te brengen, maar de menselijke intelligentie – hoe groot ook – is hoe dan ook niet oneindig. Keerzijden van de Turingmachine De TM is niet erg snel of efficiënt. Een Physical Symbol System (PSS) is efficiënter dan een TM, omdat het geheugen van een PSS uit zinnen kan bestaan (dat is meer gestructureerd dan de losse symbolen van de TM). Een PSS is echter niet krachtiger dan een TM, aangezien een PSS niet noodzakelijkerwijs complexere problemen kan oplossen. Maar dan nog zijn de hersenen sneller, efficiënter en praktischer. Waarom bouwde Turing zijn machine eigenlijk niet? In de eerste plaats deed hij geen informatica, maar wiskunde. Ten tweede kon hij zonder de machine te bouwen, gedachteexperimenten doen. Ten derde zat hij met een zekere inefficiëntie (traagheid en storingsgevoeligheid) van de computers uit zijn tijd, de jaren ’40. Bovendien, wat zou het toegevoegd hebben? De structuur van de Turingmachine lijkt verdacht veel op die van de huidige computer, waarvan de structuur (invoer, uitvoer, verwerking, geheugens) ontworpen is door Von Neumann. Het is dus logisch om te concluderen dat deze Von Neumann van de ideeën van Turing af wist. De verschillen tussen een (Universele) Turingmachine en een PSS: UTM PSS • serieel geheugen; • ‘random access’-geheugen; • basale operaties op 1 teken. • operaties op expressies en • complexere operaties. De (Universele) Turingmachine is vergelijkbaar met de huidige computer: de machinetabel is het besturingssysteem, de programma’s staan bij de UTM op de tickertape, en er is een set data (tekst, plaatjes, geluid, enz.) aanwezig op een ander gedeelte van de tickertape. Eindige verzameling regels oneindige hoeveelheid zinnen Met een eindige verzameling grammaticale regels is een oneindige hoeveelheid zinnen te produceren, zolang je maar een regel maakt waarin staat dat een zin ook uit een andere zin mag bestaan: S (sentence) (PP), VP, NP S S en S of S Ik weet dat S Een ander voorbeeld is: Sa S bSb Het vermeerderen van het aantal zinnen stopt pas als je a invult voor S.
-7-
Beschrijvingen op drie niveau’s • Fysieke beschrijvingen zijn niet compleet. De machine van Babbage bijvoorbeeld heeft e.e.a. gemeen met de UTM en de computer; informatieverwerkende systemen hebben abstracte eigenschappen gemeen die niet puur fysiek vast zijn te leggen. Ook al weet je hoe de ene computer eruit ziet, je kunt niet alles zeggen over de werking of bediening van een computer die je nooit eerder gezien hebt. • Een andere beschrijving die je kunt geven is de procedurele beschrijving. Voor een TM bestaat die uit twee delen: o De ‘architectural description’: een beschrijving van de machinetabel. Hiermee kun je a.d.h.v. een gegeven toestand voorspellen wat het volgende is dat de machine gaat doen. o De ‘programming description’ (bij de UTM): een beschrijving van het programma dat op de tickertape staat. Maar ook procedurele beschrijvingen omvatten niet alles. Een voorbeeld in het boek van Dawson laat zien dat twee verschillende TM-programma’s toch dezelfde taak kunnen uitvoeren. • De computationele beschrijving beantwoordt de vraag welk probleem opgelost wordt door de machine. Hiermee kun je voorspellingen doen over het antwoord van de machine op een bepaalde vraag. Een schaakvoorbeeld laat zien dat er slechts één mogelijkheid voor de machine is zonder te verliezen, maar ook dán ben je niet zeker van deze zet. Het is niet verplicht om op elk niveau iets over een informatieverwerkend systeem te zeggen, maar als je er één niet behandelt, zeg je eenvoudigweg minder over een systeem. Als je er toch één kunt weglaten zonder dat dit gebeurt, dan heb je niet te maken met een informatieverwerkend systeem (bijvoorbeeld in het geval van een thermostaat). Waarom zijn conversaties binnen de cognitiewetenschap niet alleen mogelijk maar ook noodzakelijk? Dat is omdat een succesvolle cognitiewetenschap staat of valt bij een goede samenwerking tussen de verschillende disciplines, bijvoorbeeld bij het verklaren van de menselijke cognitie. Voor het geven van een beschrijving wordt een ‘top-down strategy’ aangehouden (‘computational’ ‘programming’ ‘physical description’).
-8-
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 3, gecombineerd met relevante informatie uit de colleges van Harald Kunst (resp. 15, 20 en 22 september 2004) en de werkgroep van Frank van Meurs (22 september 2004). Sebastiaan de Kruif, 28 september 2004.
[email protected]
Chapter 3 The Connectionist View of Information Processing Connectionisten hebben problemen met de klassieke architectuur (‘physical symbol system’) en houden een theorie aan die meer geïnspireerd is op de biologie. Het is belangrijk te weten dat de ‘tri-level hypothesis’ net zo fundamenteel is voor de connectionisten als voor de aanhangers van de klassieke theorie. Problemen met de klassieke benadering Het is niet moeilijk een computer te maken die werk van lage kwaliteit doet (d.w.z. taken waar de mens slecht in is), maar wel om er eentje te maken die doet waar mensen goed in zijn. Men begon vraagtekens te zetten bij de klassieke benadering aan de hand van de volgende complicaties: 1. Seriële werking is relatief traag. Fedman en Ballard’s 100-stappenbeperking Elke 1~3 ms genereert een actief neuron in de hersenen een actiepotentiaal. Mensen kunnen zeer gecompliceerde taken uitvoeren in enkele honderden milliseconden. Een simpele rekensom leert dat er slechts ongeveer 100 stappen nodig zijn voor deze taak. Klassieke simulaties echter vereisen miljoenen stappen. De hersenen kunnen in deze tijd geen miljoenen stappen uitvoeren, dus is de seriële werking te traag om interessant te zijn voor de cognitiewetenschap. 2. In vergelijking met de mens is een serieel werkend systeem als de TM zeer kwetsbaar. Door de storingsgevoeligheid van de TM kan zelfs één foutje in het lezen, schrijven, e.d. al catastrofale gevolgen hebben. 3. Een digitaal systeem werkt – in tegenstelling tot mensen en dieren – slecht in een omgeving met ruis. Er wordt wel of niet actie ondernomen, niet iets er tussenin. Bij de mens is dat wel anders: als je het licht langzaam dimt, ga je niet ‘opeens’ niets meer zien; er is sprake van ‘graceful degradation’ (langzaam slechter zien, in dit geval). 4. Bij het connectionisme zijn systemen in staat om te leren, terwijl de aandacht van de symbolische benadering veel meer uitgaat naar het programmeren. (Merk op dat een UTM ook in staat is om te leren als hij zijn programma aan zou passen a.d.h.v. de data op de tickertape.) De klassieke benadering is biologisch niet plausibel. De connectionistische benadering is dat wel, simpelweg omdat de structuur van een kunstmatig neuraal netwerk meer lijkt op de structuur van de hersenen. Andere architecturen in de symbolische/klassieke benadering Naast de TM zijn er nog andere architecturen in de klassieke benadering. De Von Neumannmachine, die de basis vormt voor de moderne computer, lijkt sterk op een Turingmachine, maar zijn ‘random access memory’ maakt het verschil. Dit verschil zorgt ervoor dat hij niet cel voor cel door het geheugen moet, en is daardoor zeer veel sneller dan een TM. Echter, het is nog steeds een seriëel werkend systeem en dus vatbaar voor alle eerder genoemde kritiek. -9-
Machines worden – onafhankelijk van de snelheid van de CPU – langzamer als ze groter worden, doordat een groter geheugen moeilijker adresseerbaar is (Von Neumann-bottleneck). Informatieverwerking in de connectionistische architectuur Het connectionisme zoekt dus een alternatief voor de PSS-hypothese om de werking van de hersenen te begrijpen. Gelukkig zijn de hersenen niet ongestructureerd, en zijn vele processen uniform. Dit maakt het begrijpen van de hersenen makkelijker. Het connectionisme beschrijft slechts een klein gedeelte van de eigenschappen van de hersenen – alleen de delen die te maken hebben met informatieverwerking – door deze eigenschappen te simplificeren. Een ‘parallel distributed processing’-architectuur, kortweg PDP-netwerk, bestaat uit processortjes (‘processor units’) die met elkaar in verbinding staan om een specifieke taak te realiseren. Zo krijg je modellen die meer op mensen dan op computers lijken.
Fig. 1. Eenheden in een PDP.
De ‘input units’ registreren a.d.h.v. een stimulus een bepaald activiteitspatroon. Het systeem geeft ook een ‘output’ in de vorm van een activiteitspatroon. Eén of meerdere lagen verborgen eenheden (‘hidden nodes’) zorgen ervoor dat het systeem een dergelijke bij de ‘input’ horende ‘output’ genereert. Elke ‘processing unit’ heeft een zekere ‘net input function’, die in het eenvoudigste geval berekend wordt door de som te nemen van alle binnenkomende signalen. Vervolgens wordt met de ‘activation function’ een zekere waarde van interne activiteit berekend, die samen met de ‘net input function’ bepaalt of de eenheid gaat vuren (1) of geen actie onderneemt (0). Elke verbinding naar een volgende eenheid heeft een zeker gewicht, dat aangeeft hoe sterk (grote waarde) of zwak (kleine waarde) de verbinding is. Deze waarde kan negatief zijn (in het geval van een remmend signaal) of positief (in het geval van een stimulerend signaal). Dan bestaan er nog verschillende typen PDP-netwerken. In ‘feedforward’-netwerken gaan de signalen maar één kant op, nl. van ‘input’ naar ‘output’; in ‘recurrent’ netwerken kunnen de signalen beide kanten op. Rumelhart, Hinton & Williams’s deltaregel (ook: ‘backpropagation’) Stel je een PDP-netwerk voor, dat in de begintoestand willekeurige gewichten heeft voor de verbindingen. Door een ‘input’ met een bekende ‘output’ te combineren, kan uit de ‘fout’ die het netwerk onvermijdelijk maakt (in het begin is deze uiteraard het grootst), worden afgeleid hoe de gewichten van de verbindingen aangepast moeten worden. Dit proces wordt herhaald, net zo lang totdat de fout bijna nul is.
- 10 -
Bonini’s paradox Bij een PDP-netwerk is niet te zien waar nu de kennis precies zit. Connectionisten moeten daarom hun toevlucht nemen tot ingewikkelde analyses van het netwerk, om het algoritme ervan te achterhalen. (Je zou overigens kunnen zeggen dat de kennis zit in de configuratie van gewichten van de verbindingen.) Hier blijkt dus dat het model dat je maakt, net zo lastig te begrijpen is als hetgeen je wilt modelleren. Waarom zijn de hersenen zo slim? 1. Veronderstel dat alle neuronen van een gemiddeld stel hersenen, en dat zijn er in totaal 1012, tegelijk actief kunnen zijn. In dat geval worden er 1015 operaties per seconde uitgevoerd, wat 1 miljoen keer sneller is dan ’s werelds snelste computer. Dit ondersteunt het idee ‘parallel processing’ in plaats van het seriële model van de TM. 2. Een PDP is veel minder storingsgevoelig dan een TM: er kan iets misgaan met een verbinding zonder dat het netwerk zijn functie verkeerd uitvoert. 3. Activatiefuncties hebben analoge waarden, waardoor reacties ontstaan die ergens tussen ‘aan’ en ‘uit’ liggen. Zo ontstaat een vorm van ‘graceful degradation’: als de ‘input’ meer ruis bevat, zal de reactie van het systeem die ook hebben. Hiermee in verband staat het XOR-probleem. Het XOR-probleem Dawson geeft een voorbeeld over ‘graceful degradation’ m.b.t. een netwerk dat getraind is in het herkennen van de ‘exclusieve of’ (XOR). Het netwerk reageert slechter als de waarden van ‘aan’ en ‘uit’ dichter bij elkaar liggen. Er vindt dus ‘graceful degradation’ plaats in de reactie van het systeem, een gevolg van het analoge karakter van de eenheden in het netwerk. Biologie van het zenuwstelsel Het zenuwstelsel bestaat uit het centrale en het perifere zenuwstelsel. Dit laatste bestaat dan weer uit het autonome en het somatische zenuwstelsel. Het zenuwstelsel is opgebouwd uit neuronen. Daarnaast zijn er nog eens 10 maal zoveel gliacellen: cellen die een belangrijke rol spelen bij de ondersteuning en de voeding van neuronen.
Fig. 2. Opbouw van een neuron
Dendrieten ontvangen signalen. Het signaal loopt over het axon naar de axonuiteinden. De myelinescheden zorgen voor een versnelling tot ongeveer 10 maal. Als een impuls aan het einde arriveert, wordt een stimulerend (EPSP) of een remmend (IPSP) signaal afgegeven in de vorm van neurotransmitters die in de synaptische spleet vrijkomen uit synaptische blaasjes.
- 11 -
Het postsynaptische neuron heeft dan weer receptoren in de dendrieten om het signaal op te vangen, en het proces zet zich voort. Vergelijking met de digitale computer Een actiepotentiaal heeft een ‘alles of niets’-karakter, echter, de frequentie kan variëren. Afgifte van neurotransmitters en de resulterende EPSP’s en IPSP’s in de synaps verloopt geleidelijk. Leren in het zenuwstelsel: ‘Hebb learning’ Een signaal beweegt zich door een circuit van neuronen van A naar B. Dit herhaalt zich een aantal malen (reverberend circuit), en zo ontstaat een korte-duurgeheugen: de informatie wordt even vastgehouden. Tegen de tijd dat de potentiaal bij neuron B aangekomen is, is B actief en wordt de verbinding A-B permanent. Dit is het lange-duurgeheugen. Ook de synaps verandert van structuur: receptoren worden gevoeliger en de dendriet maakt nieuwe vertakkingen aan. Verschillen kunstmatig neuraal netwerk met een echt zenuwstelsel Deze zijn enorm: • een echt zenuwstelsel bevat een veel gigantischer aantal neuronen; • er is een grote diversiteit aan neuronen in een echt zenuwstelsel; • echte neuronen zijn zeer complex; • verbindingen en signalen zijn ook zeer complex; • er vindt (de)synchronisatie plaats. Connectionisme en de tri-level hypothesis Connectionisten zijn er zelf niet uit welk gedeelte van cognitie het connectionisme beschrijft. Ze zijn echter wel van mening dat cognitie ‘informatie verwerken’ inhoudt, ze vinden alleen dat de hersenen geen seriële digitale computers kunnen zijn. • computationeel niveau Een slecht lerend netwerk kan met één van de volgende twee problemen te kampen hebben: (1) de architectuur is ongeschikt voor het oplossen van het (informatieverwerkende) probleem of (2) de leerregel is niet goed genoeg. Er worden formele methoden gebruikt om de beperkingen van zo’n netwerk te onderzoeken; deze methoden vormen een zeer krachtig instrument om connectionistische architecturen te verbeteren, en dus om de kritiek van de klassieke aanhang te kunnen weerstaan. • procedureel niveau Net als bij de UTM kan een beschrijving van het procedurele niveau worden opgedeeld in twee vormen: o ‘programming descriptions’ De definitie van een kunstmatig neuraal netwerk is: een effectieve procedure om een of andere functie te berekenen of om patronen te categoriseren – een breed scala van problemen dus. Algoritmen verschillen heel ernstig van de klassieke modellen, ze bestaan namelijk uit grote hoeveelheden parallel lopende processen. Daarnaast zijn er krachtige, algemene leerregels ontwikkeld, zodat het niet eens nodig is een taak helemaal te analyseren alvorens er een model van gemaakt kan worden. Netwerken kunnen dus een zekere vorm van intelligentie ontwikkelen zonder dat ze die ‘begrijpen’. Tegelijkertijd is dit ook een zwak punt van connectionistische modellen. Na het trainen van een netwerk is het namelijk zeer moeilijk om te zeggen hoe het netwerk nu precies werkt. ‘Oplossing’ zijn (1) het construeren van een visuele - 12 -
•
weergave van de verbindingsgewichten, (2) het beschrijven van een netwerk d.m.v. regels en (3) het uitzetten van de reacties om zo na te gaan waarvoor de processoreenheden gevoelig zijn. o ‘architectural descriptions’ Er zijn veel verschillende soorten functies om het leerproces van een netwerk te beschrijven, en ook nog eens veel leerregels. Al met al zijn er dus heel veel verschillende architecturen. Een netwerk dat goed is (d.w.z., dat snel leert) in het oplossen van een bepaald probleem, is niet noodzakelijkerwijs ook goed in het oplossen van een ander probleem. Connectionisten moeten dus voor elk specifiek netwerk aantonen dat dit het beste is voor de cognitiewetenschap. implementationeel niveau Het connectionisme lijkt biologisch gezien aannemelijker, maar ondervindt een hoop kritiek. Het is echter belangrijk te beseffen dat PDP’s geen volledige beschrijvingen op implementationeel niveau geven, maar extreme simplificaties: alleen de computationeel relevante onderdelen worden beschreven.
Connectionisten voeren geen ‘top-down’-benadering uit, maar juist een ‘bottom-up’-strategie. Uit een set van aparte onderdelen bouwen ze complexe cognitieve systemen (in plaats van ze eerst helemaal te analyseren). Ze voeren dus wel de ‘tri-level hypothesis’ uit, maar in een andere volgorde.
- 13 -
- 14 -
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 4, gecombineerd met relevante informatie uit het college van Ignace Hooge (4 oktober 2004). Sebastiaan de Kruif, 2-5 oktober 2004.
[email protected]
Chapter 4 The Computational Level of Analysis Het doel van de eerstvolgende hoofdstukken is het karakteriseren van cognitiewetenschap aan de hand van de vragen die op elk van de drie niveau’s van de ‘tri-level hypothesis’ gesteld worden. Dit hoofdstuk richt zich op twee manieren op de analyse op computationeel niveau: 1. Het ‘vertalen’ van een vage stelling over een specifiek onderwerp in een precies informatieverwerkend probleem dat m.b.v. formele methoden onderzocht kan worden; 2. Er moet worden nagegaan of het systeem dat het probleem gaat oplossen (bijvoorbeeld een kunstmatig neuraal netwerk of een universele Turingmachine) daar wel toe in staat is.
Het computationele niveau Wat is de cognitiewetenschap voor een wetenschap? De centrale aanname binnen de cognitiewetenschap (hoofdstuk 1) is: ‘cognitie is informatieverwerking’. Het eerste nadeel van de opmerking als zodanig is dat er geen beperkingen aan zitten: wat voor soorten informatieverwerking bedoel je ermee? Het tweede nadeel is dat de aanname niet iets zegt over alle informatieverwerking, immers, niet alle informatieverwerking valt onder cognitie (denk aan rekenmachines en videorecorders). Om de hierboven gestelde problemen uit te sluiten, stelde Marr een theorie op waarin de volgende twee vragen beantwoord worden: 1. Wat wordt er berekend? Hierbij wordt nagegaan welk specifiek informatieverwerkend probleem opgelost wordt; 2. Waarom zeggen we dat juist dit, en niet iets anders wordt berekend? Hieruit volgt dat het systeem één bepaald probleem oplost en niet toevallig (ook) een ander. Bij het oplossen van informatieverwerkende problemen blijkt vaak dat deze verkeerd gesteld zijn: het probleem geeft onvoldoende informatie om de (enige) juiste manier van aanpak te kiezen. Er moeten dus al aannames in de informatieverwerker ingebouwd zijn om tot de juiste aanpak te komen.
Voorbeeld: kruiswoordpuzzel Een mooi voorbeeld van een verkeerd gesteld probleem is dat van de kruiswoordpuzzel. Stel dat een vraag in de puzzel is ‘de plaats waar men woont’ (Engels: ‘the place where one lives’). Een antwoord is niet eenduidig te geven. Het kan bijvoorbeeld huis, verblijf, thuis of woning zijn. Het probleem is dus verkeerd gesteld. Als er echter informatie wordt toegevoegd, bijvoorbeeld het aantal letters van de oplossing, wordt het aantal mogelijke oplossingen al een stuk kleiner. Als er maar genoeg informatie toegevoegd wordt (bijvoorbeeld letters in de oplossing die bekend worden door het invullen van andere woorden in de puzzel), blijft uiteindelijk maar één oplossing over: de juiste.
- 15 -
De grootste uitdaging bij het vertalen van een fenomeen naar een probleem waar je iets mee kunt is dus het bepalen van welk probleem er nu moet worden opgelost. Hierna kan vaak een aantal standaardtechnieken worden toegepast om na te gaan hoe het probleem opgelost zal gaan worden. Hieronder volgt daarvan een uitgebreid voorbeeld over het leren van een taal.
Voorbeeld: de leerbaarheid van taal Dit voorbeeld uit 1967 is afkomstig van Gold. Hij onderzocht hoe een taal geleerd wordt, met als doel meer te weten te komen over hoe hij een dergelijk proces kunstmatig voor elkaar kon krijgen. De centrale aanname hierbij is: ‘de definitie van taal is een stelsel van regels’. Echter, mensen die de taal van oorsprong spreken zijn zich slechts zijdelings bewust van deze regels. Het is dus niet mogelijk om een systeem te bouwen dat, slechts gegeven een stelsel van regels, een natuurlijke taal als het Engels kan spreken. Een belangrijk voorstel voor het beschrijven van de structuur van een natuurlijke taal is de ‘transformational grammar’ van Chomsky uit 1965. ‘Transformational grammar’ bestaat uit (1) een stelsel van regels over de zinstructuur die de basale grammatica definiëren (zie Figuur 4.1 op p. 72) en (2) zgn. ‘transformations’ – een ‘transformation’ is in staat om van een bepaalde zin een andere zin te maken, het kan dus bijvoorbeeld een ‘gewone’ zin veranderen in een vraagzin. Golds definitie van het leren van een taal was: ‘het genereren van een stelsel van regels voor de taal op basis van informatie die gegeven wordt over de te leren taal’. Het leren kon volgens Gold op twee manieren plaatsvinden: • ‘Text learning’ – de leerling wordt enkel deugdelijke voorbeelden voogehouden, gegeven het voorbeeld dus alleen zinnen in correct Engels. • ‘Informant learning’ – de leerling wordt zowel deugdelijke als ondeugdelijke voorbeelden voorgehouden, waarbij telkens wordt vermeld of het voorbeeld correct of incorrect is. In beide gevallen stelt de leerling onbewust zelf grammaticale regels op waaraan de (correcte) voorbeelden voldoen. Wanneer is het leerproces voltooid? Een leerling zal immers zelf niet weten of hij de taal wel correct spreekt. Gold definieerde dit als volgt: ‘een taal is geleerd als de leerling zijn hypothese over het genereren van taal niet meer bijstelt bij het zien van nieuwe voorbeelden’. Gold liet zien dat ‘informant learning’ een sterkere manier van leren is dan ‘text learning’. Het blijkt echter dat alle voorbeelden van taal die kinderen voorgeschoteld krijgen, grammaticaal correct zijn. Bovendien is de feedback die er gegeven wordt aan de kinderen in het geval van incorrecte voorbeelden onvoldoende systematisch om er een correcte grammatica uit af te leiden. Hoe kan dat? Pinker stelde voor om een aantal beperkingen aan het systeem van Gold toe te voegen: 1. Beperkingen in de volgorde van voorbeelden (er moet worden begonnen met simpele); 2. Het geven van een definitie van wanneer een taal ‘vrijer’ aangeleerd wordt; 3. De leerling heeft extra informatie over de waarschijnlijkheid dat een zekere grammatica correct is; 4. Beperkingen leggen op de hypotheses die de leerling kan genereren.
- 16 -
De herformulering van de theorie van Gold door Wexler en Culicover (1980) komt in het algemeen neer op het leggen van krachtige beperkingen op de hypothese die een leerling kan genereren (vierde punt van Pinker): • Het aannemen van een universele basisgrammatica (‘universal base hypothesis’) – inhoudende dat alle natuurlijke talen opgebouwd zijn uit dezelfde basisgrammatica; de verschillen zijn de oorzaak van verschillen in zgn. ‘transformational rules’. Hierbij wordt er vanuit gegaan dat een leerling niet alleen de oppervlaktestructuur, maar ook de basisstructuur van een voorbeeld meekrijgt. Figuur 4.3 (p. 76) laat zien hoe dit proces in zijn werk gaat. De leerling begint met het krijgen van nieuwe ‘base and phrase markers’. Als de leerling, gebruik makend van zijn huidige set ‘transformations’, een ‘surface phrase marker’ kan maken uit de ‘base marker’, dan blijft deze huidige set ‘transformations’ ongewijzigd. Lukt het niet, dan wordt ofwel een regel toegevoegd of verdwijnt er eentje uit de set. Wanneer het leerproces voltooid is, wordt op eenzelfde manier beschreven als bij Gold: de taal is geleerd als de set van ‘transformations’ gedurende lange tijd niet wordt aangepast. Voor het systeem van Wexler en Culicover is een zekere hoeveelheid fouten nodig, bovendien moeten deze fouten een niet te grote invloed hebben op het aantal ‘transformations’ (er mogen bijvoorbeeld niet te veel tegelijk van verdwijnen). Verder stelden Wexler en Culicover vijf extra beperkingen op voor de ‘transformational rules’, waardoor het ten eerste mogelijk is met heel simpele voorbeelden (of ‘inputs’)’transformational grammars’ te leren en ten tweede waren Wexler en Culicover in feite bezig nieuwe structuren aan te brengen in de grammatica van natuurlijke talen. Principles-en-parameters-theorie Dit voorbeeld is inmiddels achterhaald, en in de jaren ’80 vervangen door de ‘principles and parameters’-theorie. Deze theorie komt erop neer dat verschillende natuurlijke talen een kleine set van ‘principles’ delen. Sommige van deze principles hebben parameters die aangeven hoe zo’n principle tot uitdrukking komt; het is dan ook aan de parameters te danken dat er verschillen zijn tussen natuurlijke talen. In Fig. 4.4 (p. 79) is weergegeven hoe de ‘principles and parameters’-theorie werkt. Het lexicon bevat woorden uit de taal plus informatie hoe de woorden gebruikt moeten worden (na ‘like’ bijvoorbeeld volgt altijd een zgn. ‘noun phrase’). De D-Structure is de onderliggende representatie van de zin, vergelijkbaar met de ‘phrase marker’ van Fig. 4.1, met het verschil dat in elke taal de D-structuur hetzelfde is. De ‘X-bar’-theorie wordt uitgelegd in Fig. 4.5a (p. 80): XP geeft de zin aan; door verschillende soorten zinsdelen voor X in te vullen ontstaan verschillende soorten zinnen. De ’S-Structure’ ten slotte is een vervorming van de DStructure, waarbij wel wordt bijgehouden waar elk element vandaan komt. Deze zgn. ‘trace’ is van belang voor de fonologische vorm (uitspraak van de zin) en de logische vorm (betekenis van de zin, zoals deze louter afhangt van de syntaxis). Deze theorie is dus een behoorlijke simplificatie in vergelijking met de ‘oude’ ‘transformational grammars’. Er is nu slechts één ‘transformational rule’ nodig: de ‘movealpha’-regel, een regel die het mogelijk maakt elke component van de ‘phrase marker’ te verplaatsen, zolang de zin maar grammaticaal correct blijft. Een zin wordt volgends de principles-en-parameters-theorie beschreven als een configuratie van de ‘acties’ van alle principles. Stel dat elke principle een schakelaar is die twee standen
- 17 -
geeft (aan en uit), dan zal één bepaalde configuratie van schakelaars één bepaalde zin weergeven. De introductie van de principles-en-parameters-theorie beïnvloedt computationele beschrijvingen van het leren van een natuurlijke taal. In de oude theorie was de definitie van het leren van een taal: ‘het samenstellen van een set van regels’, echter, in deze theorie zijn slechts een paar regels nodig. Het gaat hier namelijk niet om het verzamelen van regels, maar om het verzamelen van parameterwaardes die karakteristiek zijn voor de taal. Omdat de principles-en-parameters-theorie er vanuit gaat dat er een eindig aantal parameters ingesteld wordt, en dat elke parameter een bepaalde waarde heeft uit een eindige lijst van mogelijkheden, zal slechts een eindige set van menselijke geleerd kunnen worden. Het voorbeeld liet zien dat na het precies beschrijven van een informatieverwerkend probleem een, formele oplossingsmethode gebruikt kan worden. Het voordeel hiervan is dat wanneer je een systeem een bepaalde beperking oplegt, het informatieverwerkend probleem oplosbaar is. De theorie van het leren van een taal brengt dus met zich mee dat talen over algemene eigenschappen moeten beschikken wil het mogelijk zijn ze te leren.
De kracht van connectionistische netwerken Connectionistisch onderzoek illustreert de computationele analyse van specifieke informatieverwerkende problemen. In tegenstelling tot de klassieke theorie is dat de beperkingen niet altijd keihard zijn: soms is het beter om je niet aan een beperking te houden, zodat je andere beperkingen beter kunt opleggen. In het algemeen is het van belang om niet alleen na te gaan of een systeem een bepaald probleem kan oplossen, maar vooral ook om te weten te komen wat voor soort problemen het kan oplossen. Op die manier kun je sterke uitspraken doen over de kracht van een zeker computationeel systeem. Als connectionistische systemen vergelijkbaar zouden zijn met ‘classical associationist models’, dan zouden ze slechts net zo krachtig kunnen zijn als de ‘finite state automata’ (hoofdstuk 2), en dus oninteressant voor de cognitiewetenschap. Connectionisten moeten dus laten zien dat hun systemen zeker zo krachtig zijn als die van de ‘klassieke’ onderzoekers. Ze moeten m.a.w. laten zien dat hun netwerken dezelfde soorten problemen kunnen oplossen als de soorten die een UTM in theorie kan oplossen.
Connectionistische netwerken als patroonclassificeerders Connectionistische netwerken worden o.a. gebruikt om patronen te classificeren, ze heten dan ‘pattern classifiers’. Het netwerk zorgt er in zo’n geval voor dat de stimulusruimte (bestaande uit alle mogelijke ‘input’ die je het systeem kunt voeren) in stukken wordt gehakt. Fig. 4.7 (p. 88) laat van een simpel systeem zien hoe verschillende patronen ontstaan. Een analyse op computationeel niveau zal uitwijzen in welke stukken de ruimte gehakt is (de stukken worden ‘decision regions’ genoemd). Een systeem als de perceptron is een eenvoudig netwerk zonder verborgen lagen. Het kan een stimulusruimte in twee gedeelten verdelen. Dit systeem is echter niet in staat om het XOR-
- 18 -
probleem op te lossen1, omdat daarvoor de ruimte in drie gedeelten opgesplitst zou moeten worden. Men zegt dat perceptrons alleen zgn. lineair scheidbare problemen (‘linear separable problems’) kunnen oplossen. Door het toevoegen van slechts twee verborgen lagen aan het huidige perceptron kan het XOR-probleem wel opgelost worden. Naast het XOR-probleem zijn er nog veel andere problemen die onder de noemer lineair niet-scheidbare problemen (‘linear nonseparable problems’) en vereisen dus netwerken met verborgen lagen om het probleem toch op te lossen. Een systeem dat elk patroon kan classificeren heet een ‘arbitrary pattern classifier’.
‘Function approximators’ Naast hun werking als ‘pattern classifiers’ worden PDP-netwerken tegenwoordig ook beschouwd als ‘function approximators’. Zo’n ‘function approximator’ is in staat om een mathematische functie in te schatten. In het college van 4 oktober liet Ignace een filmpje zien van een robot, die de bewegingen van een hoofd kan volgen, mits het gezicht te zien is Een ander voorbeeld van een ‘function approximator’ is de ‘krab’ uit Fig. 4.8 (p. 90): dit beestje moet een object volgen met zijn ‘ogen’ om uiteindelijk een object te kunnen aanraken met zijn arm. Hij doet dit door twee mathematische functies af te schatten met de informatie over de stand van zijn ogen, en zodoende de twee hoeken (van de arm en van de schouder) te bepalen om de arm in de juiste stand te krijgen. Hoe krachtig zijn dit soort netwerken? Rumelhart, Hinton en Williams toonden aan dat een ‘function approximator’ altijd een juiste output geeft, zolang je maar de juiste verbindingen tussen de eenheden hebt, alsmede voldoende verborgen eenheden (‘hidden units’). Hiermee is bewezen dat connectionistische netwerken universele ‘function approximators’ zijn: als er geen beperkingen op de grootte van de gewichten van de verbindingen en op het aantal verborgen eenheden zijn, is een netwerk in staat om elke mathematische functie te benaderen.
Connectionistische netwerken als Turingmachines Analyses van ‘pattern classifiers’ en ‘function approximators’ impliceren dat connectionistische netwerken ontzettend krachtig zijn. Ze zijn zelfs in staat om UTM’s na te doen, en daarmee zijn connectionistische netwerken op computationeel niveau gelijk aan Turingmachines. Deze eigenschap – er is geen verschil in wat beide systemen kunnen2 – maakt connectionistische netwerken Turingmachine-equivalent. Je zult connectionistische netwerken dus serieus moeten nemen in de cognitiewetenschap als het gaat om het computationele niveau.
Semantiek Marr’s beschrijving van een computationele theorie is erg abstract. Het enige wat zo’n theorie doet is het interpreteren van het gedrag van een systeem. De theorie vertelt dus niet welke procedures bij het oplossen van belang zijn, of met welke fysieke eigenschappen het systeem van doen heeft. Deze beschrijving vormt de basis van de zgn. ‘folk psychology’: een vorm van psychologie die iedereen elke dag gebruikt, een vorm die gedrag beschrijft door middel 1
D.w.z., met de in het boek beschreven activatiefunctie; in het college blijkt dat met een andere activatiefunctie het XOR-probleem wel degelijk opgelost kan worden. 2 Let op: dit gaat dus niet over een specifiek CN of een specifieke (U)TM, maar over wat de systemen in potentie kunnen oplossen.; welke dat beter kan is een analyse op algoritmisch niveau (volgend hoofdstuk).
- 19 -
van intenties.3 Dawson is van mening dat het computationele niveau en het semantische niveau één en hetzelfde ding zijn: ze geven allebei een beschrijving van welk informatieverwerkend probleem het systeem oplost. Nog een reden om dit te geloven is de aanname van de ‘natural constraints’: waarheden over de wereld (over motoriek, zwaartekracht, lichtval, enz.) die ingebakken zijn in de hersenen. De computationele analyse beschrijft dus al gauw de wereld in plaats van de informatieverwerker. Computationele beschrijvingen over het bewustzijn hebben hier sterk mee te maken. De cognitiewetenschap is hier namelijk altijd afhankelijk van de biologie en de natuurkunde.
Beperkingen aan computationele analyses Computationele analyses geven informatie die andere methodes niet geven, maar deze analyses alleen zijn ongeschikt voor de cognitiewetenschap. Om een informatieverwerkend probleem computationeel te beschrijven, hoef je alleen maar een interpretatie te geven van de relatie tussen de input en de output van het systeem. Als je een schaakspeler die kennis heeft van schaaktactieken, en een schaakspeler die slechts weet welke zetten legaal zijn, beide op computationeel niveau beschrijft, kom je tot de conclusie dat beide beschrijvingen gelijk zijn: het zijn beide ‘systemen die het spel schaak spelen’. Twee systemen die hetzelfde probleem oplossen, maar daartoe andere methoden gebruiken, worden zwak equivalent genoemd. Voorbeeld: de Turingtest De Turingtest is een imitatiespel. Een ‘rechter’ staat via een computerverbinding in contact met twee systemen: het ene is een mens en het andere een computerprogramma. De rechter mag gedurende enige tijd om de beurt met elk van de systemen ‘praten’. Aan het einde van het spel vertelt de rechter welk van de systemen de mens, en welke de computer is. Als hij dit niet betrouwbaar kan, wordt aangenomen dat de computer intelligent is. Anders gezegd, de computersimulatie is Turingequivalent aan het organisme dat gemodelleerd werd. Een dure schaakcomputer is een goed voorbeeld van een systeem dat Turingequivalent is aan de beste schaakspelers van de wereld. Sommigen zijn van mening dat het doel in de cognitiewetenschap het bereiken van deze Turingequivalentie is, immers, op welke andere manier dan met een systeem te ‘praten’ onderzoek je of het intelligent is? Er is echter een groot verschil tussen echte schakers en schaakcomputers: ze gebruiken elk een heel andere methode om het probleem op te lossen. Turingequivalentie4 alleen is dus een onvoldoende krachtig doel voor de cognitiewetenschap. Om een sterkere equivalentie te krijgen moet je op meer dan één niveau naar equivalentie zoeken. Een systeem dat op dezelfde wijze een probleem oplost als het systeem dat gemodelleerd wordt5, is sterk equivalent. Het verkrijgen van deze sterke equivalentie is volgens Dawson het doel van de cognitiewetenschap.
3
Een makkelijk te begrijpen voorbeeld is te vinden op p. 94, alinea 2-3. Ook wel: zwakke equivalentie. 5 Hiermee wordt verwezen naar de equivalentie op algoritmisch niveau, daarover gaat hoofdstuk 5. 4
- 20 -
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 5, gecombineerd met relevante informatie uit de colleges van Ignace Hooge (6 oktober 2004) en Harald Kunst (11 oktober 2004) en het werkcollege van Frank van Meurs (13 oktober 2004). Sebastiaan de Kruif, 8-10, 22-23 oktober 2004.
[email protected]
Chapter 5 The Algorithmic Level Nadelen van ‘reverse engineering’ ‘Reverse engineering’ (hoofdstuk 4) is het proces waarin een fysieke beschrijving gebruikt wordt om een verklaring te geven voor de werking van een informatieverwerker. Het probleem hierbij is dat je ‘reverse engineering’ niet kunt generaliseren voor alle informatieverwerkers, omdat ze niet allemaal van hetzelfde materiaal gemaakt zijn. Zelfs als je je beperkt tot informatieverwerkers die uit hetzelfde materiaal bestaan (bijvoorbeeld hersenen), kun je de generalisatie niet maken. Zo is er een hersenziekte waarbij de hersenen er anders uitzien (een afwijking in de ‘cerebral mantle’) en toch even goed of zelfs beter werken. Er zijn ook gevallen bekend van proefdieren die met stukken metaal in hun hersenen normaal functioneerden. En wat als je je beperkt tot alleen normale hersenen? Helaas, het beschrijven van de 1014 verbindingen tussen alle 50 miljard neuronen is – als je dat al voor elkaar kunt krijgen – onvoldoende. De hersenen zijn daarvoor te complex: er bestaan geen twee dezelfde systemen. Dit wil overigens niet zeggen dat ‘reverse engineering’ hiermee afgedaan is, de methode kan namelijk gebruikt worden bij het beschrijven van de werking van een lerend neuraal netwerk.
Het alternatief: functionalisme Een functionele beschrijving vertelt wat delen van het systeem doen, dus wat hun rol in het systeem is, en beschrijft niet waar deze van gemaakt zijn. Een goed voorbeeld is de patentomzeiling die Ignace in zijn college (8 oktober) heeft behandeld. Om de monopoliepositie van bedrijf 1 te doorbreken aangaande een bepaald apparaat (een signaalversterker in telegraafpalen), bedacht bedrijf 2 een apparaat dat uit andere onderdelen bestond maar dezelfde functie had. Hiermee was het patent dat bedrijf 1 vergaard had omzeild door bedrijf 2. Dat connectionisten hun inspiratie halen uit neuronen, betekent niet dat ze geen functionalisten zijn. Ook zíj beschrijven namelijk de functies van onderdelen, en niet waarvan deze gemaakt zijn. Een functionele benadering van een systeem houdt dus in: een verzameling van beschrijvingen van alle functionele componenten van dat systeem. Wat van belang is, is hoe deze functies georganiseerd zijn, dus hoe ze aan elkaar verwant zijn. Miller, Galanter en Pribram introduceerden in 1960 het idee van het ‘Plan’: gedrag kan verklaard worden door het Plan dat het gedrag veroorzaakt te beschrijven. Hiervoor is kennis nodig over de ‘feedback loops’ (terugkoppelende lussen) die in het systeem zitten en hoe de verschillende componenten met elkaar interacteren.
- 21 -
Om tot een functionele beschrijving te komen is een functionele analyse nodig. In feite is deze vorm van analyse gelijk aan ‘forward engineering’, het omgekeerde van ‘reverse engineering’. Bij dit proces wordt vanuit een algemeen idee van het gewenste gedrag gewerkt naar een verzameling van benodigde deelsystemen, die vervolgens gebouwd worden. Het proces is niet moeilijk voor te stellen, het is tevens de methode die je gebruikt om een tekst te schrijven: je schrijft eerst een outline en gaat deze vervolgens uitwerken totdat je de uiteindelijke tekst hebt. Ook bij het ontwerpen van een computer wordt ‘forward engineering’ toegepast: de functie van een bepaalde chip wordt bijvoorbeeld pas op een later moment in het ontwerpproces ingevuld, tot dat tijdstip is de precieze functie nog onbekend. ‘Forward engineering’ of functionele analyse is dus een toevoeging aan de computationele analyse van hoofdstuk 4, met als doen het beschrijven hoe een systeem een bepaald probleem oplost. Een cognitief wetenschapper probeert dus het programma, dat verantwoordelijk is voor het gedrag van een systeem, te herontwerpen. In het geval van een computer lijkt dat misschien vrij triviaal, maar als het gaat om organismes dan is dit al een stuk moeilijker. Interne processen van de hersenen bijvoorbeeld kunnen niet direct bestudeerd worden, dus zul je het moeten doen met observaties van extern gedrag. Met deze indirecte bestudering zijn twee problemen gemoeid: (1) welke methoden gebruik je om ingewikkeld gedrag te ontleden in een georganiseerde verzameling van functies, en (2) hoe controleer je of deze ontleding juist is? Om dit duidelijk te maken volgt nu een aantal voorbeelden.
Voorbeeld: menselijk geheugen In een geheugentest kreeg de proefpersoon een drietal medeklinkers (bijvoorbeeld MRW), gevolgd door een cijfer. De proefpersoon moest het nummer herhalen, vervolgens terugtellen in stappen van drie (bijvoorbeeld 51, 48, 45, enz.) en ten slotte de drie medeklinkers opnoemen. In slechts 30% van de gevallen waren de proefpersonen in staat om dit succesvol te doen. De hypothese was dan ook dat proefpersonen informatie vergaten omdat nieuwe informatie (de terugtelling) de oude (de medeklinkers) verving. Het ingewikkelde systeem van het menselijk geheugen kon volgens de onderzoekers dan ook gevat worden in twee deelsystemen: een korte- en een lange-termijnopslag. Bij een ‘free recall’ werd de proefpersoon een serie te onthouden dingen (tekenreekesen, woorden, enz.) gepresenteerd en kreeg hij een bepaalde tijd om deze dingen in willekeurige volgorde6 op te noemen. Hierbij bleek dat – ongeacht de lengte van de lijst – een ‘primary effect’ optrad: dingen aan het begin van de lijst werden beter onthouden dan dingen van middenin de lijst. Ook was er een ‘recency effect’: dingen aan het einde van de lijst werden beter onthouden. Werd er langer gewacht voordat de proefpersoon mocht beginnen op te noemen, dan verdween het ‘recency effect’. Het ‘primary effect’ werd kleiner wanneer er sneller gepresenteerd werd. Naar aanleiding hiervan stelden de onderzoekers het ‘modal model of memory’7 op (Figuur 3, p. 23). De te onthouden dingen worden eerst in het primaire geheugen gehouden. Dit geheugen is van korte duur, dingen kunnen er alleen in blijven door te oefenen (onderhoudende oefening). Door voldoende oefening (uitgebreide oefening) zal sommige informatie in het secundaire geheugen terecht komen. Het ‘primacy effect’ wordt verklaard doordat de eerste items in de 6 7
Vandaar dat dit ‘free recall’ heette. Zie ook Fig. 5.2 op. 113 in het boek.
- 22 -
lijst genoeg tijd krijgen om in het secundaire geheugen te komen. Ook de laatste items krijgen genoeg tijd, dit verklaart het ‘recency effect’. De middelste items uit de lijst blijven maar heel kort in het primaire geheugen en hebben dus een kleine kans om in het secundaire geheugen terecht te komen.
Figuur 3 ‘Modal model of memory’
Het idee van een primair geheugen is in de jaren ’80 vervangen door de theorie van het werkgeheugen: een georganiseerd systeem van opslag en verwerkingscomponenten. Het werkgeheugen bestaat uit drie hoofdonderdelen (zie Fig. 5.3, p. 115): 1. ‘Central executive’ – een verwerkingscomponent die operaties op symbolen in de buffer uitvoert en tevens bepaalt aan welke taken aandacht wordt besteed (wanneer er meerdere processen parallel lopen); 2. ‘Visuospatial buffer’- een buffer waarin visuele informatie opgeslagen is; 3. ‘Phonological loop’ – slaat verbale informatie op. Ook deze drie componenten kunnen verder uitgewerkt worden, het is dus slechts een simplificatie. Het nieuwe model is het resultaat van een verdergaande toepassing van de functionele analyse door cognitief wetenschappers.
Voorbeeld: protocolanalyse Een probleem bij psychologische experimenten is dat als je proefpersonen vraagt hoe ze een probleem oplossen, deze informatie als niet betrouwbaar wordt beschouwd. In 1972 publiceerden Newell en Simon hun boek Human Problem Solving over een 17 jaar lopend onderzoek. Het onderzoek had als doel: een computer leren om goed te schaken. Hiervoor moesten ze erachter komen hoe een mens dat aanpakt. Naast schaakexperimenten deden ze experimenten met logica en woordsommen. Een voorbeeld van zo’n woordsom is: DONALD + GERALD = ROBERT; D=5
Hierbij moest de proefpersoon erachter zien te komen voor welke cijfers de letters stonden. Tijdens de proef lieten Newell en Simon de proefpersoon precies vertellen hoe hij het probleem trachtte op te lossen, en werkten dit verhaal grondig uit. De letterlijke tekst van de proefpersoon werd gelabeld in korte zinnen die elk een (zoek)taak representeerden. Daarbij lieten ze het orginele transcript zoveel mogelijk ongewijzigd. Volgens hun hypothese (probleemoplossing is een vorm van zoeken) stelden ze bij een probleem een ‘problem behaviour graph’ (Figuur 4, p. 24) op.
- 23 -
Figuur 4 ‘A simplified problem behaviour graph’.
Zo’n ‘problem behaviour graph’ gebruikten ze om (1) de processen die voor het rekenen zorgden te achterhalen, (2) de processen die beslissen wat de volgende stap is te achterhalen en (3) de informatie die door de proefpersonen onthouden wordt (‘to permit backtracking’). Deze computersimulaties noemden ze productiesystemen (Engels: ‘production systems’). Een productiesysteem bestaat uit een verzameling van operatoren die elk onder een eigen conditie een bepaalde handeling in het werkgeheugen uitvoeren (Fig. 5.5, p. 120). In het geval van het woordspel konden Newell en Simon met het productiesysteem 80% van het gedrag van de proefpersoon verklaren. Newell en Simon waren in staat om theorieën heel precies te formuleren van een computersimulatie. Ze worden dan ook verantwoordelijk gehouden voor de erkenning van computersimulaties in de psychologie; productiesystemen zijn inmiddels een klassiek onderdeel van de cognitiewetenschap. Newell en Simon zijn ook de pioniers van expertsystemen: computerprogramma’s die problemen oplossen met de deskundigheid van een menselijke expert (bijvoorbeeld het in het college behandelde computerprogramma dat mensen die bij wijze van spreken alleen kunnen lezen, in staat stelt om zich als medisch expert te gedragen).
‘Reverse engineering’ in het connectionisme Om algoritmische beschrijvingen van connectionistische netwerken te verkrijgen, moeten connectionisten ‘reverse engineering’ toepassen. Connectionistische netwerken kunnen een redelijk inzicht geven in bepaalde cognitieve processen. Het moet dus mogelijk zijn een cognitief fenomeen te begrijpen door het proces te achterhalen dat het netwerk gebruikt om dat probleem op te lossen. Helaas is het niet zo simpel als het lijkt. Een nadeel van een computersimulatie (een connectionistisch netwerk is in feite een computersimulatie) is dat het niet makkelijker, en allicht moeilijker, te begrijpen is dan het fenomeen dat de simulatie moest verklaren. Dit wordt de ‘Bonini’s paradox’ genoemd. Connectionistische netwerken hebben last van de ‘Bonini’s paradox’ op algoritmisch niveau, en wel om vier redenen:
- 24 -
1. Om de structuur van een netwerk te interpreteren, is ‘reverse engineering’ nodig – en dat is een lastig proces; 2. De grootte en de complexiteit van veel netwerken zorgen ervoor dat het erg moeilijk is om ze te interpreteren; 3. De niet-lineaire activatiefuncties die gebruikt worden in de meeste netwerken maken de netwerken weliswaar krachtiger, maar ook moeilijker te interpreteren; 4. Connectionistische architecturen kennen veel vrijheid. Dezelfde functie kan door verschillende netwerken vervuld worden, je weet dus niet welk netwerk nu het meest representatief is voor het te verklaren fenomeen. Connectionistische netwerken zijn dus moeilijk te interpreteren. Om toch bij te kunnen dragen aan de cognitiewetenschap moet de ‘Bonini’s paradox’ dus vermeden worden. Dit kan op verschillende manieren, bijvoorbeeld door het bestuderen van de ‘gewichten’ van de verbindingen tussen de eenheden van het netwerk. Je kunt bijvoorbeeld de verdeling van de gewichten in een plaatje uitzetten om zo patronen in de verdeling van de gewichten te herkennen. Een andere manier is om voor elke eenheid in het netwerk na te gaan hoe de respons van die eenheid afhangt van de ‘input’-eenheden. Deze methode is wel problematisch wanneer het aantal gewichten van de verbindingen toeneemt. De techniek van ‘wiretapping’ werd in de jaren ’50 en ’60 gebruikt bij baanbrekend onderzoek van het visuele systeem: door elektroden in de hersenen te prikken kon worden nagegaan bij welke stimuli een bepaalde cel actief was. Omdat connectionistische netwerken computersimulaties zijn, zijn ze zeer geschikt voor ‘wiretapping’8. Na het trainen van een netwerk kun je het netwerk opnieuw patronen presenteren en van elke eenheid de activiteit bepalen. Hierdoor ontstaan zgn. ‘jittery density plots’: grafiekjes die voor elke stimulus de activiteit weergeven. Door op de verticale as een willekeurig getal uit te zetten wordt voorkomen dat punten in het grafiekje samenvallen; er ontstaan dus banden in de grafiekjes.
Eetbare en niet-eetbare paddestoelen (voorbeeld van ‘wiretapping’) Een netwerk is, op basis van de eigenschappen van een grote gegevensset van paddestoelen, getraind om eetbare paddestoelen van niet-eetbare paddestoelen te onderscheiden. Deze eigenschappen, die als input voor het netwerk gebruikt worden, zijn bijvoorbeeld: grootte van de steel en van de hoed, de geur, de kleur, enz. Het systeem geeft een eenvoudige output, het geeft namelijk aan of de paddestoel eetbaar is of niet. In dit voorbeeld kunnen de ‘jittery density plots’, zoals weergegeven in Fig. 5.7 op p. 131, goed geïnterpreteerd worden, aangezien nagegaan kan worden wat de inputpatronen die de banden in de grafieken veroorzaken gemeen hebben. De verborgen eenheden van het netwerk sorteren dus in feite de ‘input’-patronen in een aantal verschillende klassen. ‘Wiretapping’ levert hier dus een goed interpreteerbaar algoritme op. (Er moet echter worden opgemerkt dat ook een serieel systeem dezelfde taak zou kunnen vervullen.)
Klassieke vs. connectionistische algoritmes In dit gedeelte wordt een voorbeeld behandeld van een PDP-netwerk dat logische problemen behandelt. Hieruit zal duidelijk worden dat de structuur van een connectionistisch netwerk meer overeenkomt met een klassiek systeem dan je op het eerste gezicht zou verwachten. 8
Een belangrijk verschil met ‘wiretapping’ bij dierlijke breinen is dat bij computersimulaties elke eenheid kan worden afgetapt, terwijl het bij dierlijke breinen niet één cel, maar een groepje cellen betreft.
- 25 -
Een PDP-netwerk is getraind om gegeven een (logisch) argument het type (bijvoorbeeld Modus Ponens) vast te stellen en aan te geven of deze geldig of ongeldig is. Uit ‘wiretapping’ van het getrainde netwerk9 bleek dat bij dezelfde soorten syllogismen (bijvoorbeeld bij alle keren geldige Modus Ponens), dezelfde bandenpatronen in de verborgen eenheden voorkwamen. Er bleken dus wel degelijk regels in het netwerk te zitten die voor een specifiek syllogisme waren, iets wat de uitvinders van het originele netwerk10 voor onmogelijk hadden gehouden. Deze regels, die geen deel uitmaakten van de formele definities in de logica, zouden wel eens te maken kunnen hebben met het ‘algoritme’ dat mensen gebruiken bij het omgaan met logische problemen. Door de interne structuur van een netwerk te interpreteren, zou je dus tot de conclusie kunnen komen dat de connectionistische en de klassieke cognitiewetenschap op algoritmisch niveau veel overeenkomsten vertonen.
Het valideren van algoritmische beschrijvingen Voor cognitiewetenschap is het onvoldoende om slechts een algoritmische beschrijving voor een cognitief fenomeen te geven. Er moet ook worden aangetoond dat de gevonden algoritmische beschrijving de enige juiste is. Er zijn echter oneindig veel verschillende algoritmes voor hetzelfde probleem te vinden. (Voor het uitrekenen van de som ‘9x4’ bijvoorbeeld kun je ‘9+9+9+9’ uitrekenen, of ‘4+4+4+4+4+4+4+4+4’, enz.) Om sterke equivalentie te verkrijgen, moet er niet alleen op computationeel, maar ook op algoritmische niveau equivalentie zijn. De Turingtest (p. 20) kan geen onderscheid maken tussen twee systemen die dezelfde respons geven maar verschillende procedures volgen, en is zodoende ontoereikend voor de cognitiewetenschap voor het bepalen van sterke equivalentie. De Turingtest zou uitgebreid kunnen worden met de aanname dat niet al het gedrag van het systeem voor rekening komt van expliciet programmeerwerk. Sommige gedragingen zijn het gevolg van het programma, of de machine waarop het programma draait; deze gedragingen worden ‘tacit behaviours’ genoemd. De Turingmachine uit Fig. 2.2 (p. 17 in het boek) bijvoorbeeld, berekent de som van twee integers x en y. Dat de machine het getal x + y op de tape schrijft, is expliciet geprogrammeerd, maar dat de machine langzamer is wanneer x en/of y groter zijn, is een ‘tacit behaviour’ – deze wordt door de machine veroorzaakt. Je zou zo’n machine echter kunnen aanpassen door een ‘wachtopdracht’ in de bouwen, zodat de machine voor elke keer dat hij de som x + y uitrekent, gedurende een bepaalde tijd wacht, zodat elke optelling even lang duurt ongeacht de grootte van x en y. Je zou – om het nog realistischer te maken – de machine ook kunnen uitbreiden met een expliciete opdracht om een fout te maken. Het is echter niet aannemelijk dat zulke opdrachten in cognitieve informatieverwerkers als de hersenen ingebouwd zitten. Het belang van ‘tacit behaviours’ voor de validatie Een voorwaarde voor de validatie, is dat een model op computationeel niveau gelijk is aan de te modelleren persoon. Het model is niet sterk equivalent als er andere procedures gebruikt worden om dezelfde antwoorden te verkrijgen, m.a.w. de expliciete gedragingen zijn hetzelfde maar de ‘tacit behaviours’ niet. Volgens Pylyshyn (1981) zijn er drie manieren om sterke equivalentie van twee systemen te testen. Deze drie manieren worden besproken aan de hand van een eenvoudig voorbeeld. 9
door Dawson et al. 1995. Berkely et al., 1991.
10
- 26 -
Stel dat iemand ervan overtuigd is dat het algoritme van de eerder besproken TM van Fig. 2.2 sterk equivalent is aan het optellen zoals basisschoolkinderen dat doen. Welke bewijzen kun je dan aanvoeren om deze claim onderuit te halen? 1. ‘intermediate state evidence’ – dit zijn observaties van de tussenstappen. De TM zal bijvoorbeeld heen en weer over de tape bewegen en operaties uitvoeren. De tussenstappen bij de kinderen kun je achterhalen door hen de optelling hardop te laten uitvoeren. Je zal tot de conclusie komen dat de algoritmen verschillend zijn; 2. ‘relative complexity evidence’ – niet alle problemen worden even gemakkelijk opgelost (zo doet de TM er langer over als de getallen groter worden). Om dit tweede bewijs te vinden, kun je de TM verschillende soorten optellingen laten doen, en ze ordenen op aantal benodigde processtappen. Hetzelfde kun je doen bij de kinderen door voor elke optelling de reactietijd te bepalen. Wat je ook nog met ‘relative complexity evidence’ kunt onderzoeken zijn de soorten en hoeveelheden fouten die beide systemen maken. Beide methoden zullen verschillen in algoritmische beschrijvingen opleveren; 3. ‘componential analysis’ – als je het probleem kunt opdelen in subtaken, kun je van elk van deze subtaken nagaan hoe goed ze zijn gemodelleerd. In feite verzamel je opnieuw ‘intermediate state’ en ‘relative complexity evidence’, maar dan van de subfuncties. Deze manieren om sterke equivalentie te onderzoeken zijn zeer waardevol. Schijnbare ‘tacit behaviours’ zoals in de TM die expliciet wacht of fouten maakt, kunnen met deze methoden worden ontmaskerd.
Tot slot Het algoritmische niveau maakt het computationele niveau niet overbodig. Om tot een goede beschrijving van een systeem te komen, moeten beide beschrijvingen aanwezig zijn. De combinatie van de twee niveau’s is voor de cognitiewetenschap echter onvoldoende; het is nog onduidelijk waar de functionele decompositie eindigt. Hierover gaat het volgende hoofdstuk.
- 27 -
- 28 -
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 6, gecombineerd met relevante informatie uit de colleges van Harald Kunst (13 en 18 oktober 2004) en de werkgroep van Frank van Meurs (20 oktober 2004). Sebastiaan de Kruif, 19-23, 30 oktober 2004.
[email protected]
Chapter 6 The Functional Architecture Theorieën in de cognitiewetenschap hebben weinig waarde zolang er geen fysieke beginselen voor gedefinieerd zijn. De functionele architectuur vormt de brug tussen het algoritmische niveau en het implementatieniveau. De functionele architectuur is een soort programmeertaal om de algoritmes van hoofdstuk 5 te schrijven. Hiervoor is het nodig te beschrijven hoe het algoritme direct in de machine wordt geïmplementeerd.
‘Ryles regress’ en het Homunculusprobleem ‘Ryles regress’ is een paradox die optreedt bij het beschrijven van intelligent gedrag van een agent: zijn intelligent handelen wordt voorafgegaan en gestuurd door een andere interne handeling. ‘Ryles regress’ raakt aan het Homunculusprobleem: de processen die intelligent gedrag beschrijven zijn niet minder intelligent dan het gedrag zelf. Dawson geeft een voorbeeld van het ‘mind’s eye’. Om te bepalen of een bepaalde plaats op een landkaart staat, zal een ‘mannetje’ (de homunculus) de taak van het ‘mind’s eye’ op zich nemen: het mannetje scant de kaart en zegt dan of hij de plaats gevonden heeft. De vraag is dan hoe dit mannetje werkt. Je komt dus terecht in een vicieuze cirkel. Bij ‘forward engineering’ ontstaat hetzelfde probleem. Om een fenomeen A te verklaren zal over functies B en C worden gesproken, terwijl B en C niet fysieker zijn dan A. Dus hebben B en C hebben op hun beurt een aparte verklaring nodig. Dit is een oneindig proces. Behaviouristen waren van mening dat cognitief gedrag vanwege deze vicieuze cirkel niet te verklaren is. Dit idee is inmiddels achterhaald. ‘Klassieke’ cognitiewetenschappers troffen drie belangrijke maatregelen om de oneindigheid van ‘Ryles regress’ te vermijden. 1. ‘Forward engineering’ moet zodanig beperkt worden dat elke functionele decompositie simpelere functies oplevert; 2. ‘Klassieke’ cognitiewetenschappers moeten kunnen aantonen dat functionele decompositie eindig is; 3. De functies die functionele decompositie oplevert moeten op het basisniveau in een systeem geïmplementeerd kunnen worden.
De functionele architectuur Bij een UTM zijn de symbolen op de tape ruwweg te verdelen in twee soorten: symbolen die de data representeren die de machine moet verwerken en symbolen die het programma beschrijven dat de operaties uitvoert. Grote verschillen tussen de ‘programming’ en de ‘architectural description’ zijn: 1. Het programma kan eenvoudigweg worden gewijzigd door symbolen toe te voegen, de architecturele beschrijving daarentegen moet hardwarematig aangepast worden;
- 29 -
2. Veranderingen in beide beschrijvingen hebben heel verschillende gevolgen: eenzelfde machine (UTM A) kan verschillende functies f(x) en g(x) berekenen, maar door de architecturele beschrijving te veranderen, moet je het over een heel andere machine (UTM B) hebben; 3. Veranderingen in de ‘programming description’ hebben geen invloed op de mogelijkheid van de machinetabel om deze gegevens te verwerken (hoogstens zal het programma waardeloos worden, of zal de machine vastlopen). Wanneer je echter een programma wilt schrijven voor een specifieke functie, moet je goed opletten op wat je invoert om tot een succesvol programma te komen; 4. Omschrijvingen van ‘programming description’ en ‘architectural description’ leveren iets verschillends op: de eerste een beschrijving van hoe de lees-/schrijfkop over de tape beweegt en operaties uitvoert, de tweede een fysieke beschrijving van hoe de instructies uit de machinetabel in de lees-/schrijfkop zijn ingebouwd Samengevat: elk werkend programma bestaat uit primitieve functies die geen functionele decompositie meer vereisen. De verzameling van deze primitieve functies is de functionele architectuur, die in de ‘tri-level hypothesis’ een brug vormt tussen algoritmisch niveau en implementatieniveau. (In de hersenen zouden dat bijvoorbeeld de chemie plus de neurale operaties zijn.) Om van de computationele beschrijving van een systeem naar de functionele architectuur te komen, is ‘forward engineering’ nodig. Functionele analyse is pas voltooid wanneer basale functies kunnen worden opgesteld die aangeven hoe de ene fysieke staat in de andere wordt omgezet. Dit proces heet causale subsumptie. Hierbij moet met twee dingen rekening gehouden worden: (1) de nieuwe subfuncties die uit de analyse worden voortgebracht, moeten simpeler zijn dan functies waaruit ze zijn voortgekomen, en (2) er moet worden nagegaan of een subfunctie voldoet aan de causale subsumptie. Causale subsumptie is immers het uiteindelijke doel van de functionele analyse.
Het zien van kleuren (een voorbeeld van causale subsumptie) In de 17e eeuw ontdekte Newton dat licht gescheiden wordt door een prisma. Hij nam aan dat licht een mengsel was van 7 kleuren. In de 19e eeuw werden op basis van de ideeën van Newton nieuwe theorieën opgesteld over mengsels van vier, en later van drie kleuren. De trichromatische theorie van Young en Helmhotz ging over drie receptoren die elk een kleur waarnamen. Deze theorie was goed aan te nemen op basis van mensen met kleurenblindheid, en bovendien bleken er ook drie soorten receptoren op het netvlies te zitten (voor rood, groen en blauw licht). Tegenover deze theorie stond de opponent-procestheorie van Hering: in ganglioncellen doet zich een proces voor dat tegengesteld is aan het proces in de receptoren – het is dit proces dat zorgt voor de nabeelden van bijvoorbeeld de stars-and-stripes (college van 13 oktober).
Sterke equivalentie Het vinden van alleen een architecturele beschrijving van een systeem is onvoldoende, je hebt nog steeds een computationele analyse nodig om te weten welk probleem het systeem oplost. Er is sprake van sterke equivalentie wanneer èn computationeel èn algoritmisch èn functioneel niveau overeenkomen.
- 30 -
Functionele architectuur en klassieke theorie De functionele architectuur is dus een basale set van operaties. In het geval van de TM wordt hiermee symboolmanipulatie bedoeld, die uiteenvalt in twee delen: de structuur (de tape) en het proces (de lees-/schrijfkop). Echter, de fysieke eigenschappen van symbolen bepalen welke processen er makkelijk op losgelaten kunnen worden. Deze processen zullen snel en zonder fouten worden uitgevoerd, terwijl processen die minder makkelijk toepasbaar zijn op de symbolen, een complexer algoritme vereisen, en dus langer duren. Welke functionele architectuur er aanwezig is heeft dus een grote invloed op de ‘tacit behaviours’. Het is om die reden dat er zoveel verschillende theorieën kunnen zijn over hoe de functionele architectuur van de menselijke cognitie eruit ziet (Table 6.1 op p. 170 in het boek). Sterke equivalentie wordt bereikt wanneer twee systemen dezelfde methode gebruiken om hetzelfde informatieverwerkend probleem op te lossen. Maar wat houdt ‘dezelfde methode’ nu precies in? Een platenspeler die een opname van iemand zijn stem afspeelt, zal weliswaar hetzelfde doen (namelijk, dezelfde geluiden produceren), maar dat gaat wel op een heel andere manier. Het doel van het model moet niet alleen zijn ‘het gedrag [van de persoon] dat wordt geobserveerd simuleren’, maar ook ‘het gedrag dat onder andere omstandigheden geobserveerd zou worden simuleren’. Het model moet bepaalde problemen wèl, en bepaalde problemen juist nìet kunnen oplossen, m.a.w. de twee informatieverwerkers moeten dezelfde architectuur hebben. Een model is dus sterk equivalent als (1) hetzelfde informatieverwerkend probleem als de te modelleren persoon oplost (computationeel niveau), (2) dezelfde procedures volgt om het probleem op te lossen (algoritmisch niveau), en (3) de gebruikte procedures gebaseerd zijn op dezelfde functionele architectuur. Is het implementatieniveau dan niet van belang voor sterke equivalentie? Stel dat je een sterk equivalente theorie voor een bepaald cognitief fenomeen hebt opgesteld, dan zal je met deze theorie kunnen voorspellen welke problemen snel, langzaam, met of juist zonder fouten, enz. worden opgelost. Geen van dit soort voorspellingen echter hangt af van de fysieke implementatie. De functionele component kan dus op heel veel verschillende manieren geïmplementeerd worden, en daarom zijn computersimulaties waardevol en plausibel in de cognitiewetenschap; computers kunnen gebruikt worden om gedeelten van de hersenen te simuleren. Toch is één van de doelen van de cognitiewetenschap het verklaren van hoe een specifieke functionele theorie in een bepaald systeem gerealiseerd wordt. Hiervoor is dus wel degelijk een fysieke beschrijving nodig, anders kun je niet aantonen dat ‘Ryle’s regress’ (p. 29) wordt vermeden.
Cognitieve penetrabiliteit Is het mogelijk om slechts algoritmisch bewijs te gebruiken om de claim dat een specifieke component tot de architectuur behoort, te bevestigen of juist te weerleggen – dus zonder het over het fysieke niveau te hebben? Het enige wat je nodig hebt is een sterk bewijs dat de functie niet nog verder kan worden uitgewerkt in subfuncties.
- 31 -
In de hersenen zijn hersenfuncties ingebouwd in vaste structuren11. Als er nieuwe informatie in het systeem opgeslagen wordt, zal de structuur van het systeem dus niet moeten veranderen. Dat betekent, dat als je door het toevoegen van informatie het gedrag van het systeem verandert, je niet met de structuur maar met het proces te maken hebt. Dit heet cognitieve penetrabiliteit. Twee voorbeelden zijn te zien in Fig. 5 (zie ook Fig. 6.6 in het boek op p. 178).
Figuur 5 Voorbeelden van cognitieve penetrabiliteit. In Figuur (a) lijkt het bovenste lijnstuk langer dan het onderste, terwijl in werkelijkheid beide lijnstukken dezelfde lengte hebben. Maar zelfs als je weet dat ze even lang zijn, zie je nog steeds het bovenste lijnstuk voor langer aan. Figuur (b) kent twee lezingen: de witte kelk en de twee zwarte naar elkaar gerichte gezichten. Het is niet mogelijk om beide interpretaties tegelijk te zien.
Ambitieuze architecturen Tot dusverre zijn er altijd architecturen ontworpen voor heel specifieke taken van cognitie. Veel ambitieuzer is het natuurlijk wanneer je een architectuur voor de hele cognitie kan maken. Newell kwam met zo’n idee. Hij vond dat de psychologie te veel versplinterd was, en ontwierp daartoe SOAR (State Operator and Result) (1990), waarvan de structuur verdacht veel op de Von Neumann-structuur leek. Een ander voorbeeld is ACT, waarvan inmiddels vele nieuwe versies zijn geopperd. Hierbij zijn de cognitieve processen afleidbaar uit de omgeving; het systeem houdt een soort verleden bij, waardoor de optimale oplossing gekozen wordt door de huidige context met dit verleden te verifiëren.
Reverse engineering en de functionele architectuur Het grote verschil tussen ‘klassieke’ onderzoekers en connectionisten is dat connectionisten ‘reverse’ i.p.v. ‘forward engineering’ toepassen: ze maken een functionele architectuur en gaan dan op zoek naar fenomenen die ze ermee kunnen verklaren. In dit gedeelte van het hoofdstuk wordt de functionele architectuur besproken vanuit het perspectief van het connectionisme. De scheiding tussen structuur (symbolen) en processen (die de symbolen bewerken), zoals die in klassieke architecturen zo mooi te maken is, bestaat niet bij het connectionisme. Dit verschil wordt gekenmerkt door de autonomie van de ‘content-bearing entities’: dit zijn de 11
D.w.z., er bestaat een onderscheid tussen structuren die heel snel, en structuren die maar heel langzaam veranderen. Structuren die heel langzaam veranderen, worden als ‘vaste structuren’ beschouwd.
- 32 -
componenten van een informatieverwerker die de informatie representeren. Als deze componenten autonoom zijn, wil dat zeggen dat ze de informatieverwerking zelfstandig kunnen uitvoeren. Zijn ze niet autonoom, dan vereisen ze hulp van andere componenten die geen gegevens bevatten. Zodoende zijn klassieke symbolen niet autonoom, aangezien er bij een klassiek model een duidelijke scheiding tussen structuur en proces is. In een PDP-netwerk wordt het patroon van connectiviteit12 beschouwd als de drager van de informatie, maar tegelijkertijd beschrijft de connectiviteit hoe signalen doorgegeven worden als er een ‘input’ gegeven wordt. De bewering dat PDP-netwerken autonoom zijn, is volgens Dawson ongegrond, omdat zo’n netwerk altijd een expliciet signaal van buitenaf nodig heeft om te bepalen of-ie gaat leren of een taak gaat uitvoeren. Voorbeeld: de ‘standard pattern associator’ Een ‘standard pattern associator’ stamt uit de oertijd van het connectionisme. Het is een netwerk dat een patroon (‘input’) herkent en aan de hand daarvan de ingangspatronen categoriseert en de juiste ‘output’ geeft. Een ‘standard pattern associator’ voldoet aan de beschrijving van de originele PDP-architectuur13. In Figuur 6 is zo’n ding weergegeven; de beide rijen rondjes representeren respectievelijk de ‘input’- en de ‘output’-eenheden, de vierkantjes de gewichten van de verbindingen tussen deze eenheden.
Figuur 6 Een ‘standard pattern associator’. De horizontale rij eenheden vertegenwoordigt de ‘input’, de verticale eenheden de ‘output’. In feite is dit een systeem waarin matrixbewerkingen kunnen worden toegepast. Zie ook Fig. 6.7 op p. 184 in het boek.
Het leren vindt plaats conform ‘Hebb learning’ (zie ook p. 12): de verbindingen tussen de eenheden die hetzelfde doen, worden versterkt, terwijl de verbindingen tussen de eenheden die iets verschillends doen worden verzwakt (zie ook Fig. 6.8 op p. 185 in het boek). In het gunstigste geval zal een ‘standard pattern associator’ tijdens het uitvoeren van een taak bij eenzelfde ‘input’ dezelfde ‘output’ geven als tijdens het leren. Waarom de ‘standard pattern associator’ niet autonoom is De ‘standard pattern associator’ is geen autonoom systeem, en wel om twee redenen: 1. Tegelijk leren en uitvoeren is onmogelijk – de controle over een PDP-netwerk is serieel: eerst wordt het netwerk gedurende een bepaalde periode getraind, vervolgens 12 13
De connectiviteit wordt gerepresenteerd door de gewichten van de verbindingen. Deze architectuur wordt beschreven op 12-13 (samenvatting van hoofdstuk 3).
- 33 -
kan het taken gaan uitvoeren. Een voorwaarde voor een autonoom systeem is juist dat het geen signaal van buitenaf krijgt; aan deze voorwaarde wordt dus niet voldaan; 2. Het leerprincipe maakt geen deel uit van het netwerk – wat een verbinding in een PDP-netwerk moet doen, is (1) het product van de huidige activatie van ‘input’ en ‘output’ (van die verbinding) bepalen, (2) onthouden welke waarde het product van (1) voorheen had, en (3) de leerregel toepassen op basis van (1) en (2). Vermogens (1) en (2) kunnen echter niet tegelijkertijd worden uitgevoerd, omdat een verbinding maar één waarde tegelijkertijd heeft (nl., het huidige of het vorige product). Een autonome ‘pattern associator’ Om het probleem dat beschreven is in de vorige paragraaf op te lossen, zou je de verbindingen niet als primitieve, maar juist als niet-primitieve componenten van het systeem kunnen beschouwen. Dit is wat Dawson en Schopflocher (1992b) hebben gedaan. De functionele architectuur van hun netwerk verschilt op twee punten: (1) de verbindingen hebben een vast gewicht (nl., 1.00) en (2) er zijn vijf soorten verwerkingseenheden zijn geïntroduceerd, die elk een kwalitatief verschillende functie vervullen (zie ook Fig. 6.10, p. 189): • ‘input’-eenheden – deze worden geactiveerd a.d.h.v. stimuli uit de omgeving en geven signalen af aan een of meerdere andere verwerkingseenheden; • ‘output’-eenheden – krijgen signalen door vanuit het netwerk, en geven deze door aan ofwel de omgeving, ofwel een ander netwerk; • geheugeneenheden – deze zijn analoog aan verborgen eenheden; • sommatie-eenheden (‘summation units) – hebben als ‘input’ de waarden van twee of meer eenheden, tellen deze bij elkaar op en geven de uitkomst door aan een andere verwerkingseenheid; • correlatie-eenheden (‘correlation units’) – werken hetzelfde als de sommatieeenheden, maar deze eenheden vermenigvuldigen de ‘inputs’. Als het netwerk niet leert, blijven de correlatie-eenheden nul en houden ze een ‘feedback loop’ tussen de sommatie- en de geheugeneenheden in stand. Als het netwerk wel leert, wordt de activatie van de geheugeneenheid aangepast.14 Het aangepaste netwerk blijkt dezelfde Hebb-regel te kunnen toepassen en bovendien autonoom te zijn. Het netwerk kan dus ook tegelijkertijd leren èn taken uitvoeren. Zijn PDP-netwerken ‘dynamic’ symbols? PDP-netwerken die slechts bestaan uit componenten die met primitieve functies gerealiseerd kunnen worden, zijn niet autonoom. Alleen door het aanpassen van een netwerk is autonoom leren mogelijk (vorige paragraaf), maar dan blijft de originele functionele architectuur van het netwerk niet behouden. In veel gevallen zijn deze beperkingen aan de functionele architectuur niet relevant, maar in psychologie natuurlijk wel. Het lijkt erop dat PDP-netwerken gezien kunnen worden als ‘actieve datastructuren’, en zijn ze volgens Dawson helemaal niet zo verschillend als klassieke modellen.
14
Hoe ‘Hebb learning’ precies plaatsvindt in dit netwerk is wat mij betreft beyond the scope of deze samenvatting; het is na te lezen in het boek op p. 190-193.
- 34 -
Het belang van de functionele architectuur voor de cognitiewetenschap Klassieke en connectionistische cognitiewetenschap zijn niet zo verschillend als ze op het eerste gezicht lijken. Op het computationele niveau zijn ze precies gelijk, op het algoritmische niveau verdwenen de verschillen toen na analyse van een netwerk een algoritme klassiek ogend algoritme tevoorschijn kwam15. Op het niveau van de functionele architectuur blijkt bij PDP-netwerken geen onderscheid tussen structuur en proces te bestaan, maar dit onderscheid blijkt geen voorwaarde te zijn. Omdat er geen biologisch bewijs is voor een onderscheid tussen structuur en proces in de hersenen, is het connectionisme niet afgedaan als onzinnig. Omdat connectionistische netwerken als ‘dynamic symbols’ beschouwd kunnen worden, zou het connectionisme een variant kunnen zijn op de klassieke cognitiewetenschap. Om deze reden is onderzoek naar de functionele architectuur een van de belangrijkste doelen van de cognitiewetenschap. In dit onderzoek kan de neurowetenschap een belangrijke rol vervullen. In hoofdstuk 7 wordt de rol van de neurowetenschap in de cognitiewetenschap behandeld.
15
Zie pagina 25-26 (samenvatting van hoofdstuk 5).
- 35 -
- 36 -
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 7, gecombineerd met relevante informatie uit het college van Harald Kunst (25 oktober 2004) en de werkgroep van Frank van Meurs (27 oktober 2004). Sebastiaan de Kruif, 24-28 oktober 2004.
[email protected]
Chapter 7 The Implementational Level Hoewel psychologie kan worden bedreven zonder neurofysiologie, is de studie van het implementatieniveau noodzakelijk voor de cognitiewetenschap. In het eerste gedeelte van dit hoofdstuk komt aan bod hoe de neurowetenschap de cognitiewetenschap beïnvloedt door te laten zien hoe de analyses op implementatieniveau zijn opgenomen in zgn. ‘methodological functionalism’. In het tweede deel zijn de relaties tussen neuro- en cognitiewetenschap aan de orde.
Modulariteit in de hersenen Een van de mogelijkheden om van kwesties op implementatieniveau naar een cognitiewetenschappelijke benadering te komen, is door een probleem op computationeel niveau te beschrijven, en vervolgens verschillende manieren te onderzoeken waarop het probleem opgelost kan worden. Het frame-probleem De robot R116 heeft als enig doel: zijn eigen overleving. In een test wordt R1 verteld dat zijn reservebatterij zich in een kamer bevindt, en dat in die kamer spoedig een tijdbom tot ontploffing zal komen. R1 zal – hij moet immers zijn eigen energievoorziening veiligstellen – naar deze kamer op zoek gaan. Als hij de kamer gevonden heeft, treft hij daar de batterij aan op een karretje. Vervolgens duwt R1 hij het karretje met de batterij de kamer uit, maar helaas, het karretje en R1 worden kort daarna vernietigd door de bom die zich ook op het karretje bevond. R1 heeft dus kennelijk niet ingezien dat een onbedoelde consequentie van zijn handelen was, dat ook de bom verplaatst werd. Deze robot had te maken met het frameprobleem: een systeem in een veranderde omgeving moet niet alleen nagaan welke veranderingen zijn actie teweegbrengt, maar ook welke veranderingen niet door de actie worden teweeggebracht. Een consequentie van dit probleem voor de kunstmatige intelligentie, is dat bij het programmeren allerlei informatie die op voorhand irrelevant lijkt, eruit moet worden gegooid. Modulariteit In de jaren vijftig was de stroming van de ‘New Look’ zeer populair in de cognitiewetenschap. In deze stroming ging men er vanuit dat waarneming volledig gebaseerd is op probleemoplossing. De ‘New Look’ is inmiddels achterhaald; als je alleen ziet wat je wilt zien, overleef je gevaarlijke situaties die je nooit eerder hebt gezien niet. Bovendien zou 16
afkomstig van Denett (1987); dit is één van de voorbeelden van frame-problemen in de robotica, voor meer voorbeelden, zie pagina 199-201.
- 37 -
je visuele systeem zelf te maken krijgen met het frame-probleem: je zou alles moeten kunnen zien wat je wilt zien (en gelukkig is dat in werkelijkheid niet zo). Fodor (1983) droeg als oplossing aan dat (vroege) waarnemingsprocessen gescheiden moesten zijn van probleemoplossing in het algemeen. Hij noemde deze geïsoleerde systemen modules. Modules zijn snel en worden direct voltooid wanneer ze geactiveerd worden, tevens zijn ze elk voor één specifiek probleem. In Fig. 7.1 (p. 203 in het boek) is een model voor waarneming weergegeven, met daarin drie stadia: 1. In het eerste stadium (‘visual detection’) zorgen modules ervoor dat energie (in de vorm van licht) omgezet wordt in een symbolische code, die gebruikt gaat worden in het tweede stadium; 2. Het tweede stadium (‘visual cognition’) bevat modules die complexe operaties op de gegevens uit het eerste stadium uitvoeren; 3. In het derde stadium (‘isotropic processing’) wordt de informatie uit stadia (1 en) 2 geverifieerd a.d.h.v. al aanwezige kennis over de wereld. Alleen dit derde stadium is isotropisch (d.w.z., het stadium staat niet op zichzelf; er wordt bestaande kennis aan toegevoegd). Fodors oplossing voor het frame-probleem bestaat uit het insluiten van informatie als zodanig, zodat modules binnen één stadium alleen binnen dát stadium kunnen opereren. Deze insluiting wordt ‘information encapsulation’ genoemd, en zorgt ervoor dat gegevens snel worden verwerkt, zonder dat hogere cognitieve processen zich ermee kunnen bemoeien. Op implementatieniveau betekent dit dat elke module geassocieerd is met een vaste neurale architectuur, maar dat de informatieverwerking in het algemeen dat niet is. Voorbeeld: afasie Autopsie van een afasiepatiënt door Broca (1861) wees uit dat er bij deze patiënt schade was in het gedeelte van de hersenen dat tegenwoordig het ‘gebied van Broca’ genoemd wordt. Patiënten met een dergelijke afasie (Broca’s afasie) hebben op het eerste gezicht geen moeite met het begrijpen van taal, of met het benoemen van dingen, ze kunnen het alleen niet uitspreken. Ze praten langzaam en gebruiken een erg simpele grammatica. In een test kregen afatische en niet-afatische proefpersonen letterreeksen te zien die al dan niet woorden waren (bijv. PLEUG, PAARD, FEDG, HOEWEL). De woorden kunnen onderverdeeld worden in gesloten-klasse-woorden (dat zijn woorden die voornamelijk een grammaticale functie hebben, zoals HOEWEL en EEN) en open-klasse-woorden (woorden met inhoud, zoals PAARD en BESTEK). Bij ‘normale’ personen was er een verschil in herkenning tussen geslotenen open-klasse-woorden: zij haalden een voordeel uit het verschil en herkenden open-klassewoorden beter. De (Broca’s) afasiepatiënten hadden geen voordeel van dit verschil. Het gebied van Broca kan dus een belangrijke rol spelen bij het koppelen van fonologische representaties aan de semantische representaties van de woorden. Voor Fodor was dit een goed argument om aan te nemen dat bepaalde cognitieve verwerking modulair is. Een andere soort afasie is de zgn. ‘Wernicke’s afasie’. Deze patiënten hadden een laesie in het ‘gebied van Wernicke’, met als consequentie dat ze vloeiend kunnen spreken maar de taal niet begrijpen en dus voornamelijk onzin uitkramen (zo’n beetje het omgekeerde van Broca’s afasie dus). Wernicke (1896) ging er vanuit dat het gebied van Broca verantwoordelijk was voor controle van de motorprogramma’s voor spreken en ‘zijn’ gebiedje voor de sensorische en semantische aspecten van taalverwerking. Het inzicht van Wernicke is inmiddels aangepast en komt grotendeels overeen met Fodor’s hypothese over modulariteit.
- 38 -
Functionele decompositie Volgens Fodor (1983) zijn processen die op een hoger niveau plaatsvinden (zoals denken en probleemoplossing) ongeschikt voor bestudering, omdat het dan minder aannemelijk zou zijn dat de onderliggende architectuur overeenkomt met de implementatie. Dawson is niet zo pessimistisch. Naast de ‘informationally encapsulated’ modules lijkt ook geheugen namelijk een belangrijk onderdeel van informatieverwerking, immers, waar zou probleemoplossing zijn zonder gebruik van geheugen? Voorbeeld: het korte- versus het lange-duurgeheugen Een vroeg bewijs voor het ‘modal model of memory’17 werd al in de jaren vijftig gevonden door Scoville. Eén van zijn patiënten, H.M. geheten, leed aan een ernstige vorm van epilepsie, en om daar wat aan te doen verwijderde Scoville bij H.M. de amygdala en de hippocampus (grotendeels), en wat cortexweefsel. Deze structuren spelen een belangrijke rol bij het geheugen – maar dat wist men toen nog niet, totdat bleek dat de patiënt na de operatie geen nieuwe herinneringen meer kon opslaan en hij wist alleen nog (alles) van voor de operatie. Een ander voorbeeld i.h.k.v. het geheugen is het syndroom van Korsakoff, waarbij hetzelfde effect merkbaar was. Het werk van Scoville en Milner eind jaren ’50 en in de jaren ’60 leverde uiteindelijk het ‘modal model of memory’ op. Teneinde het neuropsychologisch bewijs voor het model compleet te maken, was dubbele dissociatie nodig, en het bewijs werd geleverd: er was een patiënt die een normaal lange-duur- maar een slecht korte-duurgeheugen had. Deze bewijzen zeiden dus niet alleen iets over hoe de ‘geest’ georganiseerd is, maar vertelden ook iets over hoe deze organisatie terug te zien was in de structuur van de hersenen. Sinds de uitvinding van functionele decomposities en de verbeterde onderzoeksmethoden is het ‘modal model of memory’ al lang achterhaald. Inmiddels bestaan er veel modernere theorieën over geheugen. Hierin wordt onderscheid gemaakt tussen declaratief en nondeclaratief geheugen: • declaratief geheugen bevat alles wat tot het bewustzijn door kan dringen; • nondeclaratief geheugen bevat vaardigheden, mogelijkheden, e.d.; dingen die wel geleerd kunnen worden doch niet bewust. Dit onderscheid werd overigens gemaakt n.a.v. proeven met H.M., waarbij hij een of andere taak moest doen. H.M. was wel in staat om zich de motorische vaardigheid in de taak eigen te maken – er was kennelijk informatie over die taak in een geheugen opgeslagen – maar kon zich naderhand niet herinneren deze taak ooit te hebben uitgevoerd. Een tweede belangrijk onderscheid werd door Paivio (1969) voorgesteld. Hij ontdekte dat de beste manier om te onderzoeken of een proefpersoon een woord kon onthouden, was, om na te gaan hoe snel hij zich een plaatje bij dat woord voor de geest kon halen. Paivio ging uit van twee systemen: een verbaal en een imaginair18 systeem. Hij ontdekte dat woorden die veel met het imaginaire systeem te maken hebben (zoals HOND) in beide systemen voor activiteit zorgden, terwijl dat bij woorden die slechts met het verbale systeem (zoals ECONOMIE) niet zo was, en eerstgenoemde woorden dus beter werden onthouden. Paivio’s veronderstellingen 17
Zie de samenvatting van hoofdstuk 5, p. 23. Een systeem dat met plaatjes (voorstellingen) te maken heeft (oh, dus niet iets ‘zogenaamds’ zoals imaginaire getallen in de wiskunde).
18
- 39 -
waren consistent met klinisch neuropsychologisch onderzoek van Teuber, Milner en Vaughan (1968). Een derde belangrijk onderscheid is de verdeling van declaratief geheugen in semantisch (algemene/abstracte kennis van de wereld) en episodisch (kennis afhankelijk van eerdere gebeurtenissen in het leven) geheugen. Bewijs werd gevonden bij ene patiënt D.R.B., die dezelfde stoornis had als H.M., behalve dat alleen het episodisch geheugen aangetast was; hij kon wel nieuwe algemene concepten leren, maar geen objecten aan context koppelen. Bovenstaande voorbeelden geven aan hoe de klinische neuropsychologie in de jaren ’60 bijdroeg aan functionele decompositie van het ‘secundaire geheugen’ (zoals dat destijds beschouwd werd). Een andere bron van bewijzen voor functionele decompositie is dieronderzoek. Het onderscheid tussen declaratief en nondeclaratief geheugen bijvoorbeeld is onderzocht bij de rat. Ratten met een laesie in de fornix hadden moeite met het uitvoeren van een taak waarbij het maken van onderscheid tussen twee geuren vereist was. Werden de twee geuren één voor één gepresenteerd, dan slaagden de ratten wel net zo goed in deze taak in deze taak als de controleratten.
Bijdragen van het connectionisme aan de neurowetenschap Ook in dit gedeelte gaat het om de koppeling van specifieke gedragingen aan specifieke gebieden in de hersenen, maar nu vanuit connectionistisch perspectief. Het connectionisme is zo populair omdat het biologisch plausibeler lijkt: verwerkingseenheden komen sterk overeen met neuronen en de verbindingen met synapsen. Toch zijn neurowetenschappers vrij sceptisch over de biologische plausibiliteit van PDP-netwerken. Deze netwerken zijn immers sterke simplificaties; een PDP-netwerk kan wel beschouwd worden als een medium waarmee je algemene principes van de neurowetenschap kunt onderzoeken. Als resultaten van neurowetenschappelijk en neuropsychologisch onderzoek kunnen bijdragen aan het ontrafelen van cognitieve capaciteiten, waarom zou cognitie dan op een abstracter niveau dan het implementatieniveau beschouwd worden? Dissociaties in gedrag en de ‘locality assumption’ Gegevens over dissociaties leveren op dat interne structuren functioneel gespecialiseerd zijn. Deze aanname heet de ‘locality assumption’: wanneer een component van een functionele architectuur beschadigd is, is deze beschadiging alleen dáár merkbaar en zullen onbeschadigde delen van de architectuur normaal blijven functioneren. De gevolgen hiervoor zijn direct af te leiden uit het gedrag van de patiënt. Sinds enige tijd wordt de ‘locality assumption’ bekritiseerd, o.a. omdat de één-op-één-associatie van functies aan beschadigde delen van de hersenen niet mogelijk is. Rosslyn en Van Kleeck (1990) voeren zes redenen aan om de ‘locality assumption’ te wantrouwen19. Het gebruik van PDP-netwerken om de ‘locality assumption’ te onderzoeken Farah (1994) was ook tegen de ‘locality assumption’, maar dan aangaande connectionistische netwerken. Ze zei dat als dissociaties in gedrag bij een connectionistisch netwerk 19
Zie de tweede alinea van p. 220 in het boek.
- 40 -
waargenomen worden, dat tegen de ‘locality assumption’ ingaat, omdat connectionistische netwerken geen lokale interne structuur behoren te hebben. Om dit te bewijzen, stelde zij PDP-netwerken voor drie gebieden (visuele aandacht, semantisch geheugen en gezichtsherkenning) voor. Voor elk van deze modellen was het zo dat lokale schade, lokale storingen in gedrag veroorzaakte. In twee gevallen was er sprake van eenzijdige, in een derde van dubbele dissociatie. Hieruit concludeerde Farah dat het gebrek in gedrag niet geassocieerd mocht worden met het verlies van een lokale functie. Medler et al. (1998) onderzochten PDP-netwerken met laesies (d.w.z., netwerken die een verborgen eenheid misten), maar namen daarbij onderzoek naar de interne structuur van zo’n netwerk mee20. Volgens Dawson kan er wel degelijk (zeer) lokale activiteit in zo’n netwerk voorkomen; ze vonden zelfs dubbele dissociaties in deze netwerken, aangezien verborgen eenheden in een netwerk veelal een specifieke functie vervullen. Connectionistische netwerken zijn dus volgens hem zeer goed bruikbaar voor het onderzoeken van basale aannamen die cognitieve neurowetenschappers doen.
Bijdragen van de neurowetenschap aan het connectionisme Dat neurowetenschappers PDP-netwerken niet biologisch plausibel vinden, is volgens Dawson onterecht. Netwerken geven juist inzicht in hoe functies in het brein geïmplementeerd zouden kunnen zijn; het is dus een functionalistische benadering. In dit gedeelte van het hoofdstuk worden gedeelten van Dawsons eigen onderzoek besproken, waaruit duidelijk wordt dat ontdekkingen in de neurowetenschap de rol van het connectionisme binnen de cognitiewetenschap kunnen versterken. Monotone activatiefuncties In de begintijd van het connectionisme werkte men met monotone activatiefuncties: een eenheid van een netwerk had een bepaalde vaste drempelwaarde. Werd deze waarde overschreden dan was de activatie ‘1’, werd deze niet overschreden dan was de activatie ‘0’ (een alles-of-niets-principe dus). In de meeste moderne netwerken worden andere drempelfuncties gebruikt (sigmoïde functies bijvoorbeeld). Deze monotone activatiefuncties zijn praktischer in gebruik, omdat niet-monotone activatiefuncties niet altijd blijken te werken. De aanname van monotonie is echter niet logisch, omdat zoiets meestal niet in neurale mechanismen terug te vinden is: in de meeste gevallen is ionoverdracht in zenuwmembranen niet-monotoon. Naast monotone functies zijn ook andere, niet-monotone, activatiefuncties toepasbaar in PDP-netwerken, zoals de ‘banding’-methode van Berkely et al. Aanpasbare voorkeuren In een PDP-netwerk coderen de verbindingsgewichten als het ware voor de kennis van het systeem; bij het leren worden deze waarden namelijk aangepast. Toch blijkt dat tijdens het leren ook de zgn. ‘bias values’ (voorkeurwaarden) aangepast worden. Een ‘bias’ is een parameter die regelt hoe hoog de drempel van een eenheid is. Er is echter weinig empirisch bewijs dat dit in echte neurale netwerken ook zo is. Aanpasbare ‘bias values’ worden toch gebruikt in sommige netwerken, simpelweg omdat ze dan sneller werken – dit heeft dus een programmeertechnische reden. Dit wil overigens niet zeggen dat aanpasbare ‘bias values’ niet gebruikt mogen worden, ze zijn immers niet noodzakelijkerwijs aanwezig in een netwerk.
20
Zie hoofdstuk 5, pagina 25, ‘wiretapping’ bij connectionistische netwerken.
- 41 -
Dawson et al. ontdekken ook dat netwerken met aanpasbare ‘bias values’ wel simpeler in structuur worden, omdat er vele ‘dode verbindingen’21 ontstaan tijdens het leren. Parallelle verbindingspatronen Dat moderne netwerken veel krachtiger zijn dan de oude perceptrons van Minsky en Papert komt niet alleen door het gebruik van verborgen eenheden, maar ook doordat ze niet voldoen aan de zgn. ‘limited order constraint’: een voorwaarde die zegt dat het niet toegestaan is om processors direct te verbinden met de ‘input’-eenheden. Als deze voorwaarde niet toegepast wordt, gaat het netwerk weliswaar beter werken, maar is dan ook biologisch minder plausibel. Homogene verwerkingseenheden Dat PDP-netwerken homogeen zijn (d.w.z., ze bestaan uit allemaal dezelfde relatief simpele verwerkingseenheden), lijkt biologisch plausibel. Toch moet na microscopisch onderzoek van echte neurale circuits geconcludeerd worden dat neuronen diverse nog onbekende gecompliceerde eigenschappen hebben die op voorhand niet worden verwacht. Biologische netwerken zouden dus wel eens helemaal niet zo homogeen kunnen zijn. Dawson en Schopflocher (1992a) toonden zelfs aan dat met een niet-homogeen PDP-netwerk22 een bepaald probleem sneller werd opgelost. Samenvattend Al deze voorbeelden laten zien dat de biologische plausibiliteit van PDP-netwerken ter discussie staat. Aan de andere kant is er ook biologische informatie die programmeurs juist kan helpen bij het ontwerpen van kunstmatige neurale netwerken.
Aangeboren principes De kritiek op het connectionisme heeft geleid tot een erkenning van onderzoek naar breingedrag-relaties binnen de psychologie. Dit is vanwege het nativisme: bepaalde aspecten van kennis en begrip zijn aangeboren, bijvoorbeeld genetisch bepaald, als een gave aanwezig, enz. De relatieve vaste structuur van cognitie (Newell) is te danken aan dat nativisme, bovendien lijken sommige ‘functies’ voor een gedeelte al ingebakken te zijn in de hersenen (waarover hieronder twee voorbeelden). Deze benadering heeft tot gevolg dat er zeer sterke implementationele voorspellingen gedaan kunnen worden, zo is het logisch te veronderstellen dat eerdergenoemde componenten universeel zijn voor alle mensen. Aangeboren taalvermogen Chomsky (1965) gaat er vanuit dat een kind bij de geboorte over een universele grammatica beschikt. Een belangrijke taak van de linguïstiek is het identificeren van deze verschillende ‘universals’. Chomsky onderscheidde twee typen: • ‘substantive universals’ – kennis over de ‘bouwstenen’ van een zin, bijvoorbeeld of iets een zelfstandig naamwoord is, een werkwoord, enz. Onderzoek van Eimas, Miller
21 22
Verbindingen waarvan de ‘gewichten’ zeer klein (bijna nul) zijn. Zij onderzochten een netwerk waarbij voor de ‘output’-eenheden ‘value units’ gebruikt werden.
- 42 -
•
en Jusczyk (1987) toont aan dat zelfs baby’s onderscheid kunnen maken tussen fonetische categorieën23; ‘formal universal’ – abstracte aanname die zegt dat in elke taal de grammatica hetzelfde is. Dawson zelf vindt het mooiste voorbeeld dat van de Hawaiiaanse Creooltaal24: kinderen die opgroeien in een omgeving waarin pidgins worden gesproken ontwikkelen een eigen – zeer simpele – taal. De basisprincipes voor zo’n simpele taal lijken dus te zijn aangeboren.
Aangeboren semantiek Fodor (1975) had een theorie waarin werd aangenomen dat iemand alleen een taal L kan leren als hij een (andere) taal kent waarin elk predikaat van L uitgedrukt kan worden. Hij nam daarom aan dat er een zeker semantiek aangeboren was. Empirisch bewijs kan vermoedelijk gevonden worden in de ‘transducers’ – systemen die door bijvoorbeeld de visuele waarneming gebruikt worden, en in de vaste neurale architectuur ingebouwd zijn25.
Conclusie Voor cognitiewetenschap zou het natuurlijk het mooiste zijn als je de werking van de componenten van de functionele architectuur (van de hersenen) kunt beschrijven. Het implementatieniveau van groot belang. Omdat de cognitiewetenschap nog niet zover is, is het implementatieniveau als onnodig noch noodzakelijk te beschouwen.
23
Op basis van verschillen in orale vs. nasale klanken, articulatie, enz. Dit voorbeeld is al eens in een college (vermoedelijk van Ignace) behandeld; ik weet alleen niet meer in welk. 25 Vergelijk de niet-isotropische modules uit Fodors oplossing voor het frame-probleem (p. 170 e.v.). 24
- 43 -
- 44 -
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 8, gecombineerd met relevante informatie uit de colleges van Ignace Hooge (27 oktober en 1 november 2004) en de werkgroep van Frank van Meurs (3 november 2004). Sebastiaan de Kruif, 30 oktober-3 november 2004.
[email protected]
Chapter 8 A Case Study in Cognitive Science Onderdeterminatie van het gezichtsvermogen Omdat ‘zien’ zoiets gewoons lijkt, viel het de programmeurs die zich als eerste bezighielden met het gezichtsvermogen vies tegen toen ze ontdekten dat ‘zien’ toch wel ingewikkeld in elkaar zit. Visuele waarneming wordt omschreven als het omzetten van een distale stimulus (uit de driedimensionale buitenwereld) in een proximale stimulus (op het tweedimensionale oppervlak van het netvlies). De proximale stimulus kan om twee redenen niet de volledige distale stimulus representeren: 1. Het omzetten van een distale naar een proximale stimulus is mogelijk, maar het omgekeerde niet: uit een plaatje op het netvlies kun je vaak meerdere interpretaties van de buitenwereld afleiden; 2. Elke cel in het netvlies heeft toegang tot slechts een gedeelte van het gezichtsveld, er zijn veel verschillende interpretaties te geven wanneer al deze lokale metingen worden samengevoegd. Een eenvoudige figuur als de ‘Necker cube’ (Fig. 8.1, p. 245) heeft drie verschillende lezingen. Waarom er op een zeker tijdstip de voorkeur wordt gegeven aan één bepaalde interpretatie, is een probleem van onderdeterminatie. In dit hoofdstuk wordt het zgn. bewegingscorrespondentieprobleem (‘motion correspondence problem’) uitgewerkt. Beperkingen opleggen Een oplossing voor het probleem van onderdeterminatie, is de zgn. ‘natural computation approach’, afkomstig van Marr. Hiervoor worden ‘natural constraints’ opgelegd: eigenschappen van de visuele wereld die onder bijna alle omstandigheden waar zijn. Het visuele systeem kiest dus uit verschillende interpretaties van de proximale stimulus vanzelf de juiste (zie Fig. 8.2b, p. 247), zolang er maar de meest geschikte ‘natural constraints’ zijn. Voorbeeld: apparent motion Apparent motion is het effect dat optreedt wanneer snel achter elkaar net iets verschillende beeldjes te zien zijn. Ons visuele systeem merkt geen verschil tussen echte beweging en apparent motion, en daar wordt handig gebruik van gemaakt bij film, televisie, computerspelletjes, en ga zo maar door. Sommige soorten apparent motion, zo wordt aangenomen, worden geregistreerd door het zgn. ‘long-range motion system’; dit zijn bewegingen die over een relatief lange periode plaatsvinden. Dit is te zien in Fig. 8.2 op p. 248: het systeem registreert eerst de plaatsen van het zwarte blokje in frames I en II, en vult daarna het lege tussenframe in met een bewegingsillusie. Omdat het ‘long-range motion system’ geen gebruik maakt van de eigenschappen van de elementen (vorm, kleur, enz.), is het makkelijk om apparent motion - 45 -
waar te nemen bij elementen die er hetzelfde uitzien. Het systeem lijkt zich dus te beperken tot de locatie van de elementen. Bij meerdere elementen zijn er echter veel mogelijkheden. Alleen het meten aan locaties moet dus ontoereikend zijn voor het oplossen van het bewegingscorrespondentieprobleem.
Computationele analyse van het bewegingscorrespondentieprobleem Op het computationele niveau worden de vragen ‘welk informatieverwerkend probleem wordt er opgelost?’ en ‘waarom lost het systeem dít probleem op en niet toevallig ook andere?’ gesteld. Antwoorden op deze vragen moeten leiden tot het opstellen van beperkingen (‘constraints’) die (1) het probleem oplossen en (2) ervoor zorgen dat alleen dit probleem wordt opgelost. Dawson (1991) stelde de volgende drie beperkingen op in zijn theorie over het bewegingscorrespondentieprobleem (Figuur 7).
Figuur 7
(1)
(2)
(3)
1. ‘Nearest neighbour principle’ Het visuele systeem lijkt de voorkeur te geven aan een korte afstand tussen de elementen. In Figuur 7.1 (boven) betekent dit dat de waargenomen beweging die naar rechts is. Deze beperking is een ‘natural constraint’; het visuele systeem probeert mogelijkerwijs de totale hoeveelheid bewegingen zo klein mogelijk te houden (dit wordt de ‘minimal mapping theory’ genoemd). 2. ‘Relative velocity constraint’ (relatieve-snelheidsprincipe) Het relatieve-snelheidsprincipe houdt in dat een beweging waargenomen wordt van een bewegend element in het eerste frame naar een vergelijkbaar bewegend element in het tweede frame (Figuur 7.2). Dit principe beperkt vervormingen van bewegende figuren. Ook dit principe is een ‘natural constraint’ omdat hierdoor de meest vloeiende beweging waargenomen wordt. 3. ‘Element integrity principle’ De vorige twee principes gaan er vanuit dat het visuele susteem de voorkeur geeft aan één-op-één ‘mapping’ van elementen (Figuur 7.3). De beweging in Fig. 8.7c (p. 256) is om die reden incorrect. Ook Fig. (d) is incorrect, omdat deze niet voldoet aan het relatieve-snelheidsprincipe. Het ‘element integrity principle’ houdt in dat splitsen of samenvoegen van elementen bestraft wordt. Hoewel dit principe een ‘natural constraint’ is (immers, het plotseling verdwijnen of verschijnen van objecten is niets ongewoons) is het een zwak principe: alle oplossingen van Fig. 8.4 (p. 251) zouden volgens dit principe waar zijn, terwijl dat in strijd is met het ‘nearest neighbour principle’.
- 46 -
Algoritmische analyse van het bewegingscorrespondentieprobleem In dit gedeelte worden kort twee voorbeelden van algoritmische analyses van het bewegingscorrespondentieprobleem besproken. Experimenteel onderzoek 1. Onderzoek van Dawson toont aan dat de onafhankelijkheid uit de ‘minimal mapping’theorie onjuist is; 2. Onderzoek toont aan dat mensen heel veel meer gevoelig zijn voor veranderingen in elementposities dan voor de eigenschappen van deze elementen; 3. Het visuele susteem lost het bewegingscorrespondentieprobleem kennelijk op a.d.h.v. positie, maar het is nog onduidelijk hoe deze positie gedefinieerd is (bijv. tweedimensionaal zoals op het netvlies of driedimensionaal zoals in de echte wereld); een onderzoek van Dawson en Wright (1989)26 toont aan dat gebeurt op basis van tweedimensionale lokaties. Algoritmische oplossingen Dawson (1991) maakte een PDP-netwerk dat voldeed aan de drie principes (‘constraints’) zoals eerder beschreven. De eenheden waren verbonden met elkaar en met zichzelf; deze verbindingen representeren in feite de mogelijke bewegingen. Voor Fig. 8.9b (p. 262) betekent dit dat de gewichten van verbindingen 3 en 0 hoog zijn, en die van 1 en 2 laag. Het netwerk werd getest op basis van bekende ‘benchmark displays’27. Belangrijk is dat wanneer een of meerdere van de principes weggelaten werd, het gedrag van het systeem niet meer in overeenstemming was met het menselijke visuele systeem. Ook kon worden onderzocht voor welke fenomenen elk van de principes het meest van belang was. Fig. 8.10a en b (p. 264) laten fysiek plausibele bewegingen zien. Het netwerk kiest echter voor de beweging van 8.10c, omdat de elementen dan het minst ver verplaatst worden. Uit onderzoek van Dawson en Pylyshyn (1988) bleek dat ook bij mensen deze oplossing gekozen wordt; deze veelvoorkomende fenomenen worden laagste-energie-transformaties genoemd.
Van het algoritmische naar het computationele niveau Algoritmische invloeden op computationeel onderzoek Met behulp van bekende wiskundige principes liet Dawson zien dat netwerk altijd een oplossing voor een probleem geeft, en dat deze oplossing altijd uniek is.28 Een derde eigenschap die Dawson ontdekte, was dat de unieke oplossing die het netwerk gaf, overeenkwam met de principes die door de gewichten van de verbindingen in het netwerk gepresenteerd werden.
26
Voor het onderzoek, zie p. 259. Van deze fenomenen is goed bekend hoe het menselijke visuele systeem ze oplost. 28 Hoe dit precies ging, heeft met matrixrekening te maken; het is te lezen op p. 266 (eerste twee alinea’s). 27
- 47 -
Experimentele invloeden op computationeel onderzoek Bij de Ternus-configuratie (Fig. 8.11a) neemt een persoon bij een lange weergave van een blanco frame waar dat het groepje elementen in zijn geheel beweegt, terwijl hij als het blanco frame maar kort wordt weergegeven, waarneemt dat de twee ‘middelste’ elementen blijven staan en alleen het linker element verschuift. Dit fenomeen wordt ‘element motion’ genoemd. Stonden de elementen dichter bij elkaar, dan werd ‘group motion’ waargenomen, en als ze verder van elkaar stonden ‘element motion’29. Het was dus bijzonder interessant voor Dawson om te weten wat zijn model zou doen. Dit bleek twee oplossingen te geven. Nader onderzoek bij mensen toonde aan dat een van de aannames waarmee het model was opgesteld onjuist was30. Er werd daarom een vierde ‘natural constraint’ opgesteld, de ‘polarity matching constraint’: verschijningen van de elementen31 hebben een kleine invloed op de waarneming van beweging – en dan dus vooral in het geval van de Ternus-configuratie. De ontdekking van de ‘polarity matching constraint’ is dus een mooi voorbeeld van hoe experimenteel onderzoek invloed heeft op de computationele analyse, immers, ook van dit vierde principe moest bijvoorbeeld getoetst worden wanneer deze beperking het sterkst werkt, en natuurlijk moest worden nagegaan of het wel een ‘natural constraint’ was.
Implementatie van het bewegingscorrespondentieprobleem Bewijs uit meerdere onderzoeksdisciplines wijst uit dat er parallelle ‘physiological pathways’ (paden) zijn in het visuele systeem. Zo worden o.a. het ‘what path’ (dat specificeert wat een object is) en het ‘where path’ (dat specificeert waar een object is) onderscheiden. Het idee van deze paden is vrij extreem en hoogstwaarschijnlijk niet volledig juist, maar toch heel bruikbaar.
Figuur 9 Het ‘what’- en het ‘where’-pad.
Het idee van deze paden wordt ondersteund door de volgende ontdekkingen: • Bij bepaalde hersenbeschadigingen werd de perceptie van beweging sterk aangetast, terwijl de perceptie van vorm vrijwel onaangetast bleef; • Er zijn veel neuronen die zeer gevoelig zijn voor beweging van een stimulus, maar niet voor de verschijning (kleur, vorm, enz.) ervan; • Een ‘pathway’ voor beweging (‘motion pathway’) lijkt zich ook anatomisch te manifesteren in de hersenen. In Figuur 10 (volgende pagina) is een zeer gesimplificeerd schema van de ‘motion pathway’ te zien32. 29
Op p. 267 staat foutief twee maal ‘group motion’. Er moest toch iets misgaan met Dawsons egotripperij! 31 M.b.t. contrastpolariteit, zie Fig. 8.12 op p. 269. 32 Zie ook Fig. 8.13 op p. 272. 30
- 48 -
Figuur 10 De ‘motion pathway’
Waar in de ‘motion pathway’ wordt de correspondentie uitgevoerd? 1. Het neurale substraat moet gevoelig zijn voor individuele elementen – bewegingscorrespondentie-‘matches’ worden gedaan nadat de elementen als individuele figuren worden herkend. MT is het vroegste punt waar dit kan plaatsvinden, want: a. In MT wordt ‘center-surround’-activiteit33 gevonden; elementen worden door MT dus herkend op basis van hun beweging t.o.v. de achtergrond; b. De Reichardt-detector34 kan sommige bewegingen niet waarnemen die een mens wel kan waarnemen. Het model kan dus niet kloppen; toch zijn er cellen die zgn. ‘pattern motion’ waarnemen; c. MT is het eerste station waar ‘object motion’ wordt waargenomen; 2. Het neurale substraat moet gevoelig zijn voor elementpositie – MT, MST en Area 7 bevinden zich in de posterior pariëtale lobe, waarvan bekend is dat die een hoofdrol speelt in het bepalen van locaties in de ruimte. Ook is dit gebied gevoelig voor ‘element motion’ en niet erg gevoelig voor de verschijning van elementen; 3. Het neurale substraat moet heel grote receptieve velden hebben – het bewegingscorrectieprobleem wordt opgelost door het ‘long range’-proces (p. 45 onderaan). Receptieve velden van MT blijken extreem groot (tussen de 6 en 35% van het totale visuele veld), en de receptieve velden van MST en Area 7 zijn mogelijk nog groter (variërend van een kwart tot het hele visuele veld); 4. Het neurale substraat moet betrokken zijn bij het volgen van objecten – hier lijken cellen in Area 7 mee te maken te hebben: a. Fixatiecellen – cellen die actief zijn als je met je oog aan het fixeren bent (het oog draait dan niet); b. ‘Visual tracking’-neuronen – o.m. voor het volgen van beweging in de buurt van een punt waarop je fixeert met je oog of tijdens ‘smooth pursuit’ (vloeiende oogbeweging tijdens het volgen van een object); c. Saccadeneuronen – cellen die actief zijn tijdens saccadebewegingen. 5. Het neurale substraat moet objecten kunnen volgen in verschillende modaliteiten – hierbij wordt het volgen van objecten aan andere zintuigen gekoppeld (bijvoorbeeld het geluid van een bewegend object, of handbewegingen naar een object). In Area 7 zijn cellen gevonden die reageren wanneer er handbewegingen naar een doel worden 33
Deze cellen (die tevens uitgebreid ter sprake kwamen in de CKI-A-lezing van 27 oktober) vuren wanneer het binnenste receptieve veld de ene kant op beweegt, terwijl de rest van het veld de andere kant op beweegt. 34 Het leuke machientje (animatie in het college) dat een bewegend object detecteert.
- 49 -
gemaakt terwijl het wordt gevolgd (bij het achterwege laten van het kijken vuurden deze neuronen niet); 6. Het neurale substraat moet het mogelijk maken objecten te volgen met attentie – er zijn neuronen in Area 7 die slechts signalen afgeven wanneer er aandacht op een object gevestigd is. Het bewegingscorrrespondentieprobleem wordt dus voornamelijk door Area 7 opgelost, maar er zijn ook andere delen (zoals MT, MST, enz.) van groot belang, deze delen leveren ‘halffabrikaten’.
Neurale metingen aan het bewegingscorrespondentieprobleem In dit onderdeel van het hoofdstuk wordt de biologische plausibiliteit van Dawsons (1991) model geverifiëerd. ‘Nearest neighbour principle’ Cellen in MT nemen de snelheid van bewegende elementen waar; deze cellen zijn zowel snelheid-35 als richtinggevoelig. Dit grote bereik is niet inconsistent met het ‘nearest neighbour principle’, omdat het gros van deze cellen de voorkeur geeft aan lage snelheden. Ook geven de meeste cellen de voorkeur voor snelheden in twee dimensies. Relatieve-snelheidsprincipe Er bestaan neuronen die expliciet gevoelig zijn voor informatie over de relatieve snelheid. Tevens bestaan er cellen die de voorkeur geven aan elementen die met dezelfde snelheden bewegen. Metingen in MT lijken inconsistent met dit principe, terwijl metingen in MST weer wel consistent met het principe zijn: • ‘figure cells’ – sterke respons op tegengestelde bewegingspatronen en de beweging van losse elementen; geen respons op de beweging van hele velden; • ‘nonselective cells’ – respons op beweging van losse elementen en – mits in de juiste richting – van hele velden; • ‘field cells’ (Tanaka) – respons op beweging van hele velden en niet op beweging van losse elementen. Deze cellen zijn het meest voorkomend (15% van de neuronen in MST). Omdat bewijs ervoor zwak is, zijn er slechts zwakke argumenten te geven: 1. Gevoeligheid voor ‘pattern motion’ zit in het latere stadium van de ‘motion pathway’; 2. Er lijken cellen te zijn die bij een patroon op de elementen ervan letten i.p.v. op het patroon als geheel. ‘Element integrity principle’ Door het ‘cover principle’ (het plotseling verschijnen of verdwijnen van elementen) te laten vallen, kan dit principe worden geïmplementeerd. Er lijken cellen in Area 7 te zijn die reageren op het plotseling verdwijnen of verschijnen van elementen, maar er is verder weinig bewijs voor. Volgens Dawson is deze functie niet erg belangrijk voor het bewegingscorrectieprobleem. 35
Ze zijn voor uiteenlopende snelheden gevoelig (dus van heel laag tot heel hoog).
- 50 -
Invloed van implementatie op andere niveau’s De bewijzen uit de vorige paragrafen laten zien dat de belangrijkste aannames die ten grondslag liggen aan Dawsons netwerk, biologisch plausibel zijn. Sommige onderdelen van dit netwerk echter zijn duidelijk niet biologisch plausibel. Dit is ook niet zo gek, aangezien het netwerk in eerste instantie bedoeld was om de drie principes te verifiëren en niet om ze daadwerkelijk overeen te laten komen met neurale structuren. Hieronder een paar voorbeelden van deze implausibiliteit. Er is geen vaste structuur Een implementatie van het netwerk vereist een vaste structuur en die gebruikt Dawson niet. Het is wel mogelijk om er een te ontwerpen, waarbij zgn. ‘match processors’ (stukjes netwerk die de ‘matches’ maken) aan elkaar gekoppeld zijn. Er wordt vectornormalisatie gebruikt Met vectornormalisatie probeert Dawson het probleem van de feedback van activiteit36 te ondervangen. Wat veel plausibeler is, is het idee van de zgn. ‘brain-state-in-a-box’, waarbij de minimale en maximale activiteit van een processor door de vuursnelheid van de neuronen wordt geregeld. Voor het model kan het implementeren van zo’n idee echter de juiste werking ervan aantasten. Er zijn te veel verbindingen Het gebruik van enorm veel verbindingen tussen de eenheden maken het netwerk lekker snel, maar natuurlijk biologisch niet plausibel. Het beperken van deze massieve interconnectiviteit zorgt ervoor dat het netwerk langzamer is, maar het blijft wel correct werken. ‘Temporal characteristics’ aan het model toevoegen Een laatste punt is de zgn. ‘visible persistence’: het verschijnsel waarbij de waarneming van een stimulus net ietsje langer doorgaat nadat de stimulus heeft plaatsgevonden. Het wordt veroorzaakt door het zgn. ‘inverse duration effect’ dat voortkomt uit de (biologische) mechaniek van het visuele systeem. Dawson heeft ‘visible persistence’ toegevoegd aan zijn netwerk d.m.v. twee aanpassingen: (1) een vertragingsfunctie voor visuele elementen, en (2) het implementeren van het ‘principle of ISI equation’. Dat principe is verantwoordelijk voor de waarneming van ‘group’ of ‘element motion’, afhankelijk van de tijdsduur van de frames met de stimuli en het lege (ISI-)frame er tussenin.
Conclusie Cognitief wetenschappers kunnen één bepaald fenomeen uitpluizen op elk niveau van de trilevel hypothesis. Hierbij spelen computersimulaties, psychofysische experimenten en de neurowetenschap een rol. Het is dus ook niet verwonderlijk dat het fenomeen (het bewegingscorrespondentieprobleem dus) nog niet opgehelderd is. Ook was te zien dat ontdekkingen op het ene niveau de andere niveau’s beïnvloeden. 36
In het college geïllustreerd met het voorbeeld van de ‘zingende muis’ en met het verkeerd aansluiten van een microfoon (dat overigens al eens eerder in de praktijk gebracht werd door Ignace).
- 51 -
- 52 -
Samenvatting van Michael R.W. Dawson, Understanding Cognitive Science, hoofdstuk 9, gecombineerd met relevante informatie uit het college van Ignace Hooge (3 november 2004) de werkgroep van Frank van Meurs (3 november 2004). Sebastiaan de Kruif, 2-3 november 2004.
[email protected]
Chapter 9 The Tri-Level Hypothesis and Cognitive Science De status van de tri-level hypothesis in de cognitiewetenschap Theoretische en methodologische relevantie De tri-level hypothesis zorgt voor een balans tussen theorie en methode. Het bestuderen van heel veel ‘losse’ fenomenen gaat een beetje ten koste van het grote verhaal37. Met de tri-level hypothesis kan het theoretische deel van de cognitiewetenschap niet worden afgedaan als zijnde ‘niet-experimenteel’. Hierdoor kunnen ook empirische bewijzen op waarde worden geschat. Methoden die zich uitbreiden Een relatief nieuwe onderzoeksdiscipline als de cognitiewetenschap wordt niet alleen gekenmerkt door wat men onderzoekt, maar ook door de methoden waarop dat gebeurt. Het aantrekkelijke van de cognitiewetenschap is juist dat er heel veel kwalitatief verschillende methoden38 van onderzoek zijn, die weer gekoppeld zijn aan de tri-level hypothesis om in de juiste context te worden gezien. Voor elk van deze disciplines is het van belang dat alle drie de niveau’s van de tri-level hypothesis onder de loep worden genomen. Conversaties binnen de cognitiewetenschap Alle cognitief wetenschappers zijn het erover eens: ‘cognitie is informatieverwerking39’. De tri-level hypothesis zorgt er dus voor dat onderzoekers uit verschillende disciplines op een doelgerichte manier met elkaar kunnen praten.
De vergelijking tussen de klassieke en de connectionistische benadering Computationeel niveau In hoofdstuk 4 kwam naar voren dat connectionistische netwerken kunnen fungeren als ‘arbitrary pattern classifiers’, ‘universal function approximators’ en – niet geheel onbelangrijk – universele Turingmachines. Op computationeel niveau verschillen de twee vormen van cognitiewetenschap dus totaal niet.
37
Dat was ook Newell zijn bezwaar. Denk daarbij aan psychologische experimenten, neurowetenschap, computersimulaties, enz. 39 Ja, dat hebben we nog niet vaak genoeg gehoord! 38
- 53 -
Algoritmisch niveau De algoritmen van connectionistische netwerken zijn veel complexer dan die van ‘klassieke’ machines. Netwerken hebben geen centrale eenheden (zoals de machinekop van de TM), vertonen geen sterk onderscheid tussen structuur en proces, en gebruiken geen echte symbolen. Door beperkingen (‘constraints’) aan netwerken op te leggen kunnen ze zeer goed informatieverwerkende problemen oplossen. Een probleem hierbij is wel dat je niet kunt vertellen hoe een (getraind) netwerk het probleem nu exact oplost. Hiervoor zou je van alle eigenschappen van de gebruikte ‘regels’ in het netwerk na moeten gaan of ze ook op een ‘klassieke’ manier toegepast hadden kunnen worden. Op algoritmisch niveau zouden de twee benaderingen best gelijk kunnen zijn, op dit moment is dat echter niet na te gaan, simpelweg omdat het algoritmisch onderzoek nog niet geavanceerd genoeg is. Architectuur Van beschrijvingen van de architectuur van connectionistische netwerken is niet te zeggen of ze compleet zijn en of ze ook overeenkomen met klassieke architecturen. Het is dus nog nog veel te vroeg om goede vergelijkingen te maken tussen klassieke en connectionistische cognitiewetenschap op dit niveau. Ook is er een verschil in benadering tussen de twee vormen: de klassieke cognitiewetenschap is analytisch (bij functionele decompositie wordt gezocht naar functionele primitieven), terwijl het connectionisme synthetisch is (eerst worden primitieven geformuleerd, waar dan de fenomenen mee verklaard worden). Implementatieniveau Op het implementatieniveau is biologische plausibiliteit een kritiek punt. Toch hoeft dat niet te betekenen dat de twee vormen van cognitiewetenschap niet op dit punt overeenkomen. Drie argumenten: 1. De architectuur is van een connectionistisch netwerk is functionalistisch en de netwerken worden gesimuleerd op (seriële) digitale computers; 2. Netwerken representeren theorieën op basis van een cognitieve i.p.v. een implementationele vocabulaire; 3. Beperkingen aan connectionistische netwerken zorgen ervoor dat ze niet langer biologisch implausibel zijn.
Conclusie Er zijn potentiële en interessante verschillen in benadering tussen de klassieke en de connectionistische cogntiewetenschap. Toch zijn er, als ze beide volgens de tri-level hypothesis met elkaar worden vergeleken, belangrijke overeenkomsten te ontdekken. Beide vormen cognitiewetenschap hebben niet voor niets het gemeenschappelijke paradigma: ‘cognitie is informatieverwerking’.
- 54 -
Samenvatting van het college van Harald Kunst over de anatomie van het brein (20 oktober 2004), aangevuld met informatie van de site van de Hersenstichting. Sebastiaan de Kruif, 24 oktober 2004.
[email protected]
Bij chapter 7 Anatomie van de hersenen Saggitale doorsnede
Bij de saggitale doorsnede vallen direct op: • cerebrale hemisfeer (linker of rechter hersenhelft); • corpus callosum (hersenbalk) – vormt de belangrijkste verbinding tussen de twee hersenhelften, speelt ook een rol bij split-brain-patiënten; • hersenstam – evolutionair gezien het oudste gedeelte van de hersenen, zie onder; • cerebellum (kleine hersenen); Op dit plaatje minder goed te zien is – als een soort bedekking van de paddestoel – de cingulate gyrus, een hersenonderdeel dat betrokken is bij emoties, aandacht, enz.
- 55 -
De hersenstam
• •
• • • • •
thalamus – speelt een rol bij het doorgeven van zintuigprikkels; hypothalamus – directe (via hormonen) en indirecte (beïnvloeding van de hypofyse via de bloedbaan) handhaving van het interne milieu; regulatie van het autonome zenuwstelsel; speelt een rol bij de energiehuishouding (regelt gevoelens van honger, dorst, enz.); hypofyse – schakel tussen het centrale zenuwstelsel en het hormoonstelsel; staat onder invloed van negatieve-feedbacksystemen (m.b.t. hormonen); pons – vormt de verbinding tussen grote en kleine hersenen; zorgt ervoor dat prikkels van het evenwichtsorgaan worden doorgegeven aan het cerebellum; medulla (ruggenmerg) – loopt helemaal door tot aan de eerste of tweede lendewervel; is het contact tussen de hersenen en de rest van het lichaam; colliculi (de bobbeltjes) – betrokken bij waarneming; tegmentum – activiteiten m.b.t. zaken die wij prettig vinden;
- 56 -
Limbisch systeem
• • • • •
hippocampus – betrokken bij leren en onthouden (overleving); amygdala – kern in regulatie van emoties als angst, vrees, enz.; septum. fornix (rechter plaatje)– vormt de verbinding tussen het limbisch systeem en de hersenen, voornamelijk emotionele functies; ventrikels (rechter plaatje) – ruimten gevuld met hersenvocht (water); het hersenvocht beschermt de hersenenen en het ruggenmerg tegen schokken en zorgt voor de afvoer van afvalstoffen.
Basale ganglia
• • • • •
basale ganglia – kernen van cellichamen die impulsen uit de hersenen m.b.t. de besturing van ‘automatische’ bewegingen (zoals lopen) verwerken; nucleus caudatus (op de doorsnede is niet te zien dat dit onderdeel als een soort ‘sliert’ doorloopt); globus pallidus (bleke bol); nucleus accubens – scheidt dopamine af en is zodoende betrokken bij verslavingen; putamen.
De substantia nigra is een dopamine-loslatende structuur in de basale ganglia en is betrokken bij emoties en expressies (o.a. gelaatsuitdrukkingen).
- 57 -
Hersenonderzoek Hersenbeschadigingen zijn de meest klassieke bron voor hersenonderzoek, met name in oorlogen. Ook tumoren in de hersenen dragen bij aan hersenonderzoek. Tegenwoordig houdt men zich bezig met – steeds geavanceerder – ‘geklooi’ in de hersenen. Bij hersenbeschadigingen is er sprake van dubbele associatie: door een bepaalde beschadiging is er een effect op de ene functie, terwijl een andere functie ongewijzigd blijft. Wanneer een ‘omgekeerde’ beschadiging onderzocht wordt, is aan te tonen dat je met verschillende systemen te maken hebt. Bij split-brain-patiënten is het corpus callosum door een chirurg doorgesneden. Omdat het corpus callosum de verbinding vormt tussen de linker en de rechter hersenhelft, zal bij de patiënt geen informatie vanuit de ene naar de andere hersenhelft gaan. Dit is te merken wanneer de patiënt met zijn rechter hersenhelft iets ‘ziet’: hij zal niet kunnen benoemen wat hij gezien heeft, omdat zijn spraakcentrum zich in de linker hersenhelft bevindt. De consequenties vallen van split-brain – een operatie die gebruikt wordt als remedie voor zware epilepsie – vallen echter mee: in het geval van waarneming zal de patiënt kunnen volstaan met het bewegen van zijn ogen en/of zijn hoofd. Nog een manier die gebruikt wordt in hersenonderzoek is TMS (Transcranial Magnetic Stimulation). Hierbij wordt een magneet bij het hoofd geplaatst, waardoor bepaalde hersenfuncties (met name die van de hersenschors omdat die het meest aan de buitenkant zit) worden gestimuleerd of juist lam gelegd. Of de hersengedeelten gestimuleerd of onderdrukt worden, hangt af van de frequentie van het apparaat. Andere voorbeelden zijn elektrische stimulatie (directe stimulatie van de hersenen d.m.v. elektroden) tijdens operaties, en PET- en fMRI-scans. De laatst genoemde zijn technieken waarbij de doorbloeding van de hersenen in kaart wordt gebracht. Een betere doorbloeding in een bepaald gebied betekent dat het gebied actief is.40 Het EEG (elektro-encephalogram) wordt gebruikt om de activiteit van de hersenen te bepalen.
Lokalisaties van functies in het brein Onderzoek toont aan dat bepaalde hersengebieden een bijzondere rol vervullen bij bepaalde functies. Het is echter te voorbarig om bij hersenonderzoek te concluderen dat een bepaald hersengebied verantwoordelijk is voor een bepaalde functie (‘functie x is gelokaliseerd in hersengebied y’), het is immers heel goed mogelijk dat een bepaald gebied nog meer functies heeft, of dat bij de onderzochte functie nog meer hersengebieden betrokken zijn. Tot slot moet in de gaten worden gehouden dat het brein een biochemisch systeem is. Dit houdt in dat transmittersystemen onder invloed van drugs en medicijnen kunnen staan.
40
Zuurstofafgifte door het bloed verandert de magnetische activiteit van hemoglobine; dit wordt door de scans vastgelegd.
- 58 -
Trefwoordenregister
Hieronder vind je een lijst van gebruikte termen uit de hoofdstukken. Ik heb deze woorden zoveel mogelijk naar het Nederlands vertaald – vaak is dit onmogelijk omdat je dan een onbegrijpbare term krijgt. In sommige gevallen zijn omschrijvingen in beide talen opgenomen. In het register is ook een aantal namen van onderzoekers opgenomen met de bijbehorende theorieën, ideeën, aannames, enz. 100-stappenbeperking
9
aanpasbare bias values ACT actiepotentiaal actieve datastructuren activatiefunctie afasie algoritmisch niveau (vergelijking klassiekconnectionisme) algoritmische analyse (casus) algoritmische invloeden op comp. onderzoek analytisch (eigenschap) apparent motion arbitrary pattern classifier architecturele beschrijving architectuur (vergelijking klassiek-connectionisme) Area 7 attentie (casus) autonome pattern associator autonomie van content-bearing entities axon
41 32 11 34 10 38
Babbage, machine van Babbage backpropagation benchmark displays beperkingen (casus) bewegingscorrespondentieprobleem bias values biologie van het zenuwstelsel biologische plausibiliteit van conn. netwerken, kritiek op de ~ Bonini’s paradox brain-state-in-a-box Broca’s afasie
8 10 46 46 45 41 11
causale subsumptie center-surround(-activiteit) centrale aanname (cognitiewetenschap) Chomsky, universele grammatica cognitieve penetrabiliteit computationeel niveau (vergelijking klassiekconnectionisme) computationele analyse (casus) computationele beschrijving computationele niveau (def.) connectionisme connectiviteit (PDP-netwerk) constraints (casus) content-bearing entities contrastpolariteit correlatie-eenheden cover principle
29 49 3 42 32
Dawson en Schopflocher, autonome pattern associator Dawson et al., aanpasbare bias values Dawson, motion correspondence problem decision regions declaratief geheugen
34 41 45 18 39
54 46 46 54 45 19 8 54 49 50 34 32 11
40 11 51 38
53 46 8 15 9 33 46 32 48 34 50
- 59 -
deltaregel dendrieten Denett, frameprobleem dissociaties distale stimulus dynamic symbols
10 11 37 40 45 34
element integrity principle element motion elementpositie Entscheidungsproblem episodisch geheugen exclusieve of-probleem experimentele invloededen op comp. onderzoek expertsystemen
46 48 49 6 40 11 47 24
Farah, weerlegging locality assumption Fedman en Ballard, 100-stappenbeperking field cells figure cells finite state automation fixatiecellen fixed structure (hersenen) Fodor, aangeboren semantiek Fodor, functionele decompositie Fodor, hypothese over modulariteit formal universals forward engineering frame-probleem free recall function approximator functionalisme functionele analyse functionele architectuur functionele architectuur, belang voor de cognitiewetenschap functionele architectuur, sterke equivalentie functionele decompositie fysieke beschrijvinge fysiologische paden (casus)
40 9 50 50 6 49 32 43 39 38 43 21 37 22 19 21 21 29
geheugeneenheden gewicht (v.e. verbinding in een netwerk) gliacellen graceful degradation group motion
34 10 11 9 48
Hebb learning Hebb learning bij een standard pattern associator Hering, opponent-procestheorie hidden units/neurons Hilbert’s Entscheidungsproblem homogene verwerkingseenheden Homunculusprobleem Human Problem Solving (Newell & Simon) hundred step contraint
12 33 30 10 6 42 29 23 9
implementatie, invloed van ~ op andere niveau’s (casus) implementatieniveau implementatieniveau (vergelijking klassiek-conn.)
51 37 54
35 31 39 8 48
informant learning information encapsulation input-eenheden intelligentie (def.) intermediate state evidence inverse duration effect ISI-frame isotropische processen
16 38 10 3 27 51 51 38
jittery density plot
25
laagste-energie-transformaties leerbaarheid van taal leren bij een autonome pattern associator LGN limited order constraint lineare scheidbare/niet-scheidbare problemen locality assumption logische problemen (analyses klassieke vs. conn. algoritmes) long-range motion system lowest energy transformations
46 16 34 49 42 18 40
machinetabel (TM) Marr, natural computation approach Marr, theorie voor comp. niveau massieve interconnectiviteit match processors menselijk geheugen (voorbeeld van func. analyse) methodological functionalism Miller, Galanter en Pribram, theorie van het Plan mind’s eye (voorbeeld van Homunculusprobleem) minimal mapping theory modaliteiten (casus) modulariteit (in de hersenen) modules monotone activatiefuncties motion correspondence problem motion pathway MST MT myelineschede
6 45 15 51 51 22 37 21 29 46 49 37 38 41 45 48 49 49 11
nativisme natural computation approach natural constraints natural constraints (casus) nearest neighbour principle Necker’s cube net input function Neumann, Von; Von Neumann-structuur neurale metingen (casus) neuronen (biologisch) neurotransmitters neurowetenschap, bijdragen van de ~ aan het connectionisme neurowetenschap, bijdragen van het conn. aan de ~ New Look Newell & Simon, protocolanalyse Newell, SOAR nondeclaratief geheugen nonselective cells
42 45 19 45 46 45 10 7 50 11 11
object motion onderdeterminatie (casus) output-eenheden
49 45 10
paden (casus) Paivio, proef met geheugen parallel distributed processing parallelle verwerking patroonclassificeerders pattern motion PDP-netwerk perceptron Physical Symbol System (PSS)
48 39 10 11 18 49 10 18 7
25 45 46
41 40 37 23 32 39 50
60
physiological pathways Plan polarity matching constraint positie van een element (casus) posterior pariëtale lobe (casus) primacy effect primair geheugen primitieve functies principle of ISI equation principles and parameters probleem van onderdeterminatie problem behaviour graph procedurele beschrijving processoreenheden productiesystemen programmabeschrijving protocolanalyse proximale stimulus Pylyshyn, sterke equivalentie m.b.t. alg. niveau
48 21 48 49 49 22 22 30 51 17 45 23 8 10 24 8 23 45 26
recency effect receptieve velden Reichardt-detector relatieve-snelheidsprincipe relative complexity evidence relative velocity constraint reverberating circuit reverse engineering in het connectionisme reverse engineering, functionele architectuur reverse engineering, nadelen van ~ Rosslyn en Van Kleeck, argumenten tegen de locality assumption Rumelhart, Hinton & William’s deltaregel Ryles regress
22 49 49 46 27 46 12 24 32 21
saccadeneuronen (casus) Scoville, modal model of memory secundair geheugen semantiek, aangeboren semantiek semantisch geheugen smooth pursuit SOAR sommatie-eenheden standard pattern associator sterk equivalent substantive universals synaptische spleet synthetisch (eigenschap)
49 39 22 43 40 49 32 34 33 20 42 11 54
taalvermogen tacit behaviours Tanaka, field cells temporal characteristics (casus) Ternus-configuratie text learning (Gold) TM-equivalent/Turingequivalentie top-down strategy (van de tri-level hypothesis) transducers transformaties (taal) transformational grammars tri-level hypothesis tri-level hypothesis, status binnen de cognitiewetenschap Turingmachine (TM) Turingtest, uitbreiding van de ~
42 26 50 51 48 16 19 8 43 17 17 3 53 6 26
universele grammatica Universele Turingmachine (UTM) Universele Turingmachine, verschillen UTM en PSS UTM, functionele architectuur
42 6 7 29
V1 V2 validatie van algoritmische beschrijvingen vaste structuur (hersenen) vectornormalisatie verborgen eenheden
49 49 26 32 51 10
40 10 29
vergelijking tussen klassieke en connectionistische benadering visible persistence visual tracking-neuronen visuele waarneming volgen (van objecten) Von Neumann-machine
53 51 49 45 49 9
Wernicke’s afasie what path where path wiretapping (conn. netwerken)
38 48 48 25
X-bar theory XOR-probleem
17 11
Young en Helmhotz, trichromatische theorie
30
zwak equivalent
20
61
62