OVER BELONEN EN BESTRAFFEN Hier volgen een aantal experimenteel geverifieerde leerprincipes over belonen en bestraffen. Er is daarover massaal veel experimenteel onderzoek gedaan. Aan het begin van de vorige eeuw begon dit soort onderzoek met dieren. Voor we ons de vraag stellen of we van dierexperimenten iets kunnen leren over mensen, gaan we eerst in zo’n dierlaboratorium een kijkje nemen. Hoe leert een dier gedrag onder invloed van belonen?
1. Experimenten met dieren In het laboratorium staat een eenvoudige stalen kooi waarin een hendel is aangebracht. Een druk op die hendel levert een brokje vlees op. Een niets vermoedende rat wordt in die kooi geplaatst en gaat meteen overal aan snuffelen. Per toeval drukt het dier op de hendel en een heerlijk brokje vlees valt hem ten deel. Het verbaast ons niet dat het dier geleidelijk aan leert om direct als het de kooi binnenkomt, af te rennen op die veelbelovende hendel. Daaruit worden al enkele leerprincipes duidelijk. Leerprincipe 1: belonen Om een bepaald gedrag, een respons (R) aan te leren moet je het laten volgen door een beloning. In symbolen uitgedrukt: R +S+. S+, een plus achter de S, betekent: een aangename stimulus i.c. het brokje vlees. +S, een plus vóór de S, betekent dat die S wordt aangeboden. Een beloning wordt ook wel een bekrachtiging genoemd. De S+ is dan een bekrachtiger. Een medewerker moet op tijd dossiers opruimen, doet dit keurig en krijgt van zijn chef een pluim. Dat versterkt, bekrachtigt deze prestatie. Leerprincipe 2: contingentie De relatie tussen R en S moet contingent zijn, dat wil zeggen dat de bekrachtiging (S) vrij kort na de respons (R) moet volgen. Over het algemeen hebben dierproeven en experimenten met kinderen aangetoond dat die tijdsduur het beste zo kort mogelijk kan zijn. Wil je een bepaald gedrag van een kind aanleren door middel van een beloning, dan heeft dat de beste kans van slagen als op de precies omschreven handeling direct en duidelijk de bekrachtiger volgt. Als de ouders op het eind van de dag het kind prijzen voor zijn voorbeeldig gedrag, kan dat voor het aanleren van sommig gedrag onvoldoende zijn. Bij ratten waren bepaalde prestaties bij een contingente tijdsrelatie van één seconde veel beter dan bij een beloning na dertig seconden. Wie aan het eind van week tegen een medewerker zegt dat hij goed werk heeft geleverd, past niet het contingente beloningsprincipe toe. Want het volgt niet direct op een wel bepaalde prestatie. Maar in tegenstelling tot dieren zijn wij wel in staat om contingentie te bereiken via onze cognitieve vermogens. Als een leidinggevende zegt: ‘Dat rapport dat je vorige week indiende, zit uitstekend in elkaar. Gefeliciteerd.’ Dan zal die pluim ongetwijfeld van invloed zijn op volgende rapporten. Leerprincipe 3: motivatie Als de rat net gegeten heeft als hij de kooi binnenkomt, heeft hij geen belangstelling voor de hendel. Hij is verzadigd en dus niet gemotiveerd om te eten. Werkzame bekrachtigers kunnen dus hun kracht verliezen als er een satiatie (verzadiging) optreedt, een begrip
1
dat we overdrachtelijk kunnen toepassen op alle soorten bekrachtigers. Een kind kan verzadigd raken van snoep, maar ook van allerlei andere bekrachtigers. Een overvloed aan pluimpjes bijvoorbeeld. Het is dus van belang om over meer bekrachtigers te beschikken die per individu geselecteerd moeten worden. De algemene wet van belonen eist aanpassing aan de specifieke situatie van een bepaald individu. Leerprincipe 4: intrinsieke en extrinsieke bekrachtiging Extrinsieke bekrachtiging betekent dat de bekrachtiger kunstmatig op een gedrag volgt, terwijl een intrinsieke bekrachtiging natuurlijkerwijze met de handeling is verbonden: de handeling mondt vanzelf uit in bevredigende consequenties. Het moge duidelijk zijn dat een louter extrinsieke bekrachtiging weinig garantie biedt voor de duurzaamheid van een handeling. Als een kind trompet leert spelen louter en alleen omdat het na de oefening snoep krijgt, blijft dit gedrag onder extrinsieke controle en dooft het uit zodra de bekrachtiging ophoudt. Het is daarom niet voor niets dat in dergelijke lessen al spoedig bekende melodietjes worden ingestudeerd die het oefengedrag intrinsiek kunnen bekrachtigen. Meestal komen de twee vormen van bekrachtiging gecombineerd voor. Neem een medewerker die regelmatig een kort verslag moet maken van het werkoverleg op zijn afdeling. Doordat zijn chef hem van tijd tot tijd feedback geeft, krijgt die persoon al gauw door wat er precies van hem verlangd wordt en weet hij zelf al of een verslag aan de opdracht voldoet. De extrinsieke bekrachtiging van zijn chef gaat geleidelijk gepaard met een intrinsieke bekrachtiging. Leerprincipe 5: discriminatief leren Tot hier was er sprake van twee componenten: het gedrag (R) en wat er als resultaat op volgt (Sr). Er is nog een derde component: de situatie waarin het gedrag gesteld wordt. Laten we weer even naar de kooi gaan. Daarin zitten nu behalve de hendel ook een groen en een rood lampje. Als het groene lampje brandt, volgt op de drukrespons het brokje vlees. Brandt het rode licht dan gebeurt er na een druk op de hendel niets. Het resultaat laat zich raden. Al snel leert de rat een onderscheid te maken tussen de twee prikkels. Het groene lampje fungeert als de discriminatieve stimulus (Sd) die aankondigt dat de drukrespons (R) nu resulteert in een bepaald resultaat (Sr). Er zijn nu drie componenten: Sd. R Sr. Behalve de consequente controle van beloning, is er bij het conditioneren van gedrag (behavior) nu ook sprake van een antecedente controle. We spreken dan ook wel van het A-B-C-model: antecent-behavior-consequent. Het groene lampje is de discriminatieve stimulus (Sd); het rode wordt S-delta (S ) Δ
genoemd. Let op. De Sd is geen bekrachtiger en doet dus de respons niet in frequentie toenemen. Hij kondigt alleen aan dat een druk op de knop een brokje vlees oplevert, een positief consequent heeft. De S-delta (S ) is elke stimulus of situatie behalve de Sd. Δ
2. Toepassing van het beloningsprincipe in de dagelijks praktijk. In essentie zijn de leerprincipes, gevonden bij ratten in een kooi, ook werkzaam bij mensen. Maar niet op dezelfde eenduidige, heldere manier. Een rat in een kooi, opgesloten, gemanipuleerd, zonder gezelschap van soortgenoten en met weinig mogelijkheid tot handelen, kan nu eenmaal niet die verscheidenheid aan gedragingen laten zien die ratten in volledige vrijheid kunnen ontplooien. En dan praten we nog niet eens over de verschillen tussen ratten en mensen.
2
Toch begon men al gauw de gevonden leerprincipes op mensen toe te passen. Maar daarbij moest wel worden onderzocht hoe deze principes in het complexe menselijk gedrag werkzaam zijn. En dat gebeurde dan ook. Talloos experimenteel onderzoek over met name het veranderen van storende gedragsgewoontes leidde zelfs tot een nieuwe vorm van psychotherapie: de gedragstherapie. In de klinische praktijk is gedragstherapie de toepassing van experimenteel gevonden leerprincipes. Zo iets dergelijks is niet gebeurd in het bedrijfsleven, althans niet op die manier. Rietdijk (2009), die omvangrijk onderzoek deed naar het conditioneren van organisaties, meldt dat in de organisatiepsychologie leerprincipes weinig of geen aandacht hebben gekregen. Wel kwamen en komen de voor- en nadelen van belonen en bestraffen aan de orde in bedrijfsopleidingen, maar dan niet vanuit experimenteel geverifieerde principes. Men vraagt eigenlijk naar tips en trucs om bijvoorbeeld het prestatieniveau van medewerkers op een hoger peil te brengen.
In deze notitie gaan we iets dieper in op de vraag hoe we bovengenoemde principes op het bedrijfsleven kunnen toepassen.
3. Over bestraffing Met opzet gingen de vorige twee paragrafen uitsluitend over het beloningsprincipe. Maar in de praktijk van alledag is er vaak sprake van bestraffen. Sterker nog: bestraffen lijkt vaker voor de hand te liggen dan belonen. Eerst dus een paar gegevens over bestraffen. Het leerprincipe van belonen is: +S+: het aanbieden van een beloning, van iets positiefs. Bestraffen is het tegenovergestelde: +S-: het aanbieden van een bestraffing, van iets negatiefs. Bij de rat zou er bijvoorbeeld een stroomstootje op de drukrespons kunnen volgen. In bedrijven bestaat er een heel scala aan negatieve reacties, waaronder een reprimande in al zijn mogelijke varianten. Stel, de verkoopcijfers van een medewerker zijn beneden de maat. Hij krijgt niet alleen geen beloning, maar ook een reprimande en dat niet één keer, maar bij voortduring. In vaktaal noemen we dit soort negatieve opmerkingen een ‘bestraffing’. Op die berisping volgt soms een meewarige blik van een of meer collega’s en een afkeuring die je jezelf toedient. ‘Stommeling die je bent’, zeg je in jezelf. Op foutief gedrag mag best een afkeuring volgen, mits er ook aandacht is voor goed gedrag. Bestraffen zegt namelijk wat je niet moet doen: ‘laat dat voortaan’. Met bestraffen alleen kom je er dus niet. Je leert op zijn hoogst het betreffende gedrag achterwege te laten. Belonen zegt wat je wèl moet doen en stimuleert je om dat gedrag te herhalen. Verkies dus aanleren (belonen) boven afleren (bestraffen). Wees er bovendien op bedacht dat fouten veel meer in het oog springen dan correct gedrag. Iemand levert goed werk. Mooi zo. Punt uit. Het is immers de gewone gang van zaken dat je je werk naar behoren aflevert. Maar o wee als er een misser wordt gemaakt. Fouten springen in het oog tegen de achtergrond van een scala aan foutloze handelingen. Een berisping kan daarom het best gecombineerd worden met een instructie hoe het wel moet, gevolgd door een compliment als het goed gaat. Vaak heersen in het bedrijfsleven en soms ook in trainingen opvattingen als: medewerkers of deelnemers zijn geen doetjes, moeten niet soft maar stevig worden aangepakt, moeten meer dan eens te horen krijgen waar het op staat. Van hun fouten moeten ze leren en dus moet ze met hun neus op de fouten worden gedrukt. ‘De puntjes op de i’: dat is het motto van een goede bedrijfstraining of gedragstraining.
3
Wat voor misverstand speelt hier een rol? Wel, als we toch bezig zijn met gezegdes, is hier nog een andere van toepassing: ‘met een druppel honing vang je meer vliegen dan met een vat azijn’. Het gaat hier om het belangrijke verschil tussen bestraffen en belonen.
4. Een variëteit van bekrachtigers We beginnen met de tweede component van het A-B-C-model: het gedrag (B) en de consequenties (C). Het behoeft geen uitleg dat managers met brokjes vlees niet veel bereiken. En wat bijvoorbeeld voor de één een beloning is, stelt voor de ander niets voor. Daar begint het al mee. Leidinggevenden moeten over voldoende bekrachtigers beschikken, als ze de prestaties willen opvoeren. De vraag is dan hoe ze aan een scala van mogelijke bekrachtigers komen. Toch maar even terug naar de kooi met de rat. Er is nu een kleine wijziging aangebracht: als hij op de hendel drukt, verschijnt het voedsel pas nadat er eerst een bepaalde toon heeft geklonken. Al spoedig blijkt dat alleen al op het horen van de toon, de frequentie van de drukresponsen toeneemt. Met andere woorden deze stimulus heeft een bekrachtigende waarde gekregen, het is een bekrachtiger geworden. Het voedsel is de primaire of ongeconditioneerde bekrachtiger, het is geschikt om zonder enige voorafgaande oefening of ervaring het dier te conditioneren. De toon is een secundaire of geconditioneerde bekrachtiger. Dit betekent dat deze stimulus bekrachtigend werkt, op voorwaarde dat hij contingent verbonden is geweest met de primaire. Als je diezelfde toon ook combineert met primaire bekrachtigers van andere behoeften, zoals dorst, seksualiteit, ontsnappen aan pijn, dan wordt die toon een veralgemeende geconditioneerde bekrachtiger. Aandacht is er zo een. Maar eerst nog iets over generalisatie. Generalisatie Als je de toon ietsjes hoger of lager laat klinken zal hij – aanvankelijk wellicht in iets mindere mate – ook een bekrachtigende waarde krijgen. Er is weinig fantasie voor nodig dat een op deze wijze (veralgemeende) geconditioneerde bekrachtiger nog eens vele malen meer gevarieerd en uitgebreid kan worden. Aandacht Praktisch elke behoeftebevrediging van een kind gaat gepaard met aandacht van de ouders, zodat aandacht krijgen een veralgemeende, geconditioneerde bekrachtiger is geworden voor allerlei nieuwe gedragsreacties. Een voorbeeld is het volgende experiment. De proefpersoon zit afgewend van de proefleider en heeft als opdracht alle woorden die in hem opkomen afzonderlijk op te noemen. Hij mag geen zinnen maken. Deze woordenreeks wordt met behulp van een bandrecorder geregistreerd. Telkens als de proefpersoon een meervoudig zelfstandig naamwoord zegt, wordt dit bekrachtigd door de proefleider met: ‘Mm ... hmm’, direct na dit woord. In de loop van het experiment stijgt het percentage meervoudige zelfstandige naamwoorden, terwijl het in de controlegroep (die geen bekrachtiging krijgt) ongeveer constant blijft. Bovendien blijkt dat deze toename onbewust en automatisch verloopt; de proefpersonen hebben geen enkel idee van wat er in feite gebeurt. Het is duidelijk dat deze subtiele vorm van conditionering een belangrijke rol speelt in het dagelijks leven, ook in bedrijven. Een medewerker komt meer dan eens met een bedrukt gezicht ’s morgens op zijn werk. Hij krijgt dan veel aandacht van collega’s die hem uit zijn ‘dip’ willen halen. Maar het
4
effect kan precies het tegenovergestelde zijn. De aandacht bekrachtigt het ongewenste gedrag. Als een kind alleen wanneer het stoute dingen doet, aandacht krijgt van zijn ouders, zal de frequentie van dat vervelende gedrag toenemen.
5. De rol van degenen die de bekrachtigers toedienen De werking van sociale bekrachtigers als aandacht, goedkeuring en gelaatsexpressie, wordt beïnvloed door allerlei factoren die als zodanig met het principe van de bekrachtiging niets te maken hebben. Zo hebben een aantal studies aangetoond dat de kenmerken of kwaliteiten van degene die de sociale bekrachtiging toedient een groot effect hebben. Het leerprincipe zegt alleen dat een respons in frequentie toeneemt als hij bekrachtigd wordt. Een sociale bekrachtiging hangt echter niet in de lucht, kan ook niet neutraal en clean worden toegediend zoals het voedsel in de kooi. Het is altijd iemand die aandacht geeft of anderszins een bekrachtiging toedient en het maakt veel verschil of dit een hooggewaardeerde iemand is met veel ervaring, een aardige collega of een negatief beoordeeld iemand. De effecten van de bekrachtiging variëren mee met deze en vele andere kenmerken. Een paar voorbeelden. Het effect van sociale bekrachtiging wordt verhoogd als de ‘toediener’ vriendelijk is en prestige geniet. Het maakt veel uit of een vriendelijk, bescheiden iemand leidinggeeft of een die op zijn strepen staat. Als de laatste een pluim geeft, bestaat de kans dat die wordt opgevat als toneelspel of als een truc om te slijmen. Maar ook de karakteristieken van degene die bekrachtigd wordt, spelen een rol. Zo zijn jongere kinderen gevoeliger voor sociale bekrachtiging dan oudere. Het is goed denkbaar dat nieuwkomers in een bedrijf veel gevoeliger zijn voor bekrachtigers dan de ouwe rotten in het vak. Het is vooral de sociale psychologie die dit soort fenomenen heeft onderzocht. Als we de fundamentele leerprincipes op de complexe, sociale realiteit van organisaties willen toepassen, zullen de bevindingen van deze wetenschap ongetwijfeld een steeds grotere rol spelen. En zo komen we als vanzelf terecht bij de antecedente factoren van het A-B-C-schema
6. Antecedente factoren Net zoals het groene en het rode lampje in de kooi met de rat de betekenis hadden dat het drukken op de hendel al dan niet resultaat zou hebben, kunnen ook in de omgeving van medewerkers factoren met dergelijke effecten een rol spelen. Het gaat hier om leerprincipe 5, het discriminatief leren. In de kooi met de rat is dat glashelder. De onderzoekers bepalen zelf dat het groene lampje fungeert als de discriminatieve stimulus (Sd) die aankondigt dat de drukrespons (R) nu resulteert in een bepaald resultaat (Sr) en dat dit bij het rode lampje niet geval is. Dat fungeert dan als de S-delta (S ). Maar hoe weten we welke factoren in de omgeving van medewerkers als Sd of S fungeren? Hier zou grondig onderzoek belangrijke resultaten kunnen opleveren. Ook in de organisatiepsychologie (o.a. Jansen, 1996) zijn veel voorbeelden te vinden die vertaald kunnen worden als antecedente factoren in het A-B-C-schema. Wat we intussen ook kunnen doen, is het oor te luisteren leggen naar wat mensen in het bedrijfsleven daarover zeggen. Het inventariseren van ervaringsgegevens. Een bedrijfstraining zou bijvoorbeeld tijdens een of twee dagdelen met een groepje van zo’n acht medewerkers een dergelijke inventarisatie op gang kunnen brengen. Dat maakt al heel wat los. De deelnemers krijgen zo inzicht in dit soort discriminatieve stimuli. Δ
Δ
In onderstaande tabel staan enkele voorbeelden van omgevingsfactoren die ofwel de belonende bekrachtigers werkzaam maken of buiten spel zetten.
5
Klimaat van beknotten (S )
Klimaat van stimuleren (Sd)
Δ
-
Luisteren naar medewerkers
-
Voorschrijven
-
Verkennen wat ze willen
-
Regelen wat gebeuren moet
-
Op gelijkwaardig niveau communiceren
-
Strakke hiërarchie
-
Uitgaan van het goede in mens
-
Mensen wantrouwen
-
Dienend leiding geven
-
Autoritair leiding geven
-
Met medewerkers praten
-
Over medewerkers praten
-
Aanmoedigen, zelf tijd laten indelen
-
Wantrouwen, cameratoezicht, klokken
Dit zijn doorgaans niet de vaardigheden waaraan we denken als we het over vakkundige managers en leidinggevenden hebben. Wie de stimulerende factoren in een gedragstraining naar voren brengt, loopt het risico voor soft te worden versleten. Maar ervaring toont aan dat discussies die op deze wijze op gang worden gebracht, de deelnemers gevoeliger en attenter maken voor het leren door belonen.
7. Het klimaat in een trainingsgroep Dat geldt ook voor het geven van trainingen. Een goede sfeer in de groep is een zeer belangrijke voorwaarde voor succes. De deelnemers gaan ‘experimenteren’ met hun gedrag, hoeven niet te laten zien wat ze allemaal al weten en kunnen, mogen fouten maken want daar leer je van en geven elkaar feedback volgens de geijkte spelregels. Een huidige trend in trainingen is de harde confrontatie. Niet zachtzinnig omgaan met cursisten maar keihard zeggen waar het op staat. We hebben daar een hard confronterende slogan op bedacht: Hard confronteren is een vorm van schofferen en zet een rem op alle leren. De voorstanders van een harde confrontatie zouden, volgens hun eigen principes, uit deze slogan iets moeten leren. Maar we denken dat dit niet geval zal zijn. Van een harde confrontatie leer je zelden of nooit je gedrag veranderen. De voorstanders van de harde confrontatie zullen op deze visie reageren met een harde confrontatie. Een confrontatie die we overigens al eens te horen kregen, namelijk: ‘Van een softe, poeslieve aanpak leren mensen niets’. Dat is precies wat harde confronteerders doen: van het ene in het andere uiterste vallen. Het is stevig erop of het deugt niet. Natuurlijk is confrontatie met je eigen tekortkomingen belangrijk. Wij presenteren die in een proces van herkennen en erkennen. Wij confronteren volgens de geijkte regels van de feedback. Dat kan zeer confronterend zijn, maar dat is iets anders dan iemand keihard de ‘waarheid’ zeggen.
6