i
Ultimátumjáték, altruizmus és evolúció Méder Zsombor-Zoltán
Tartalomjegyzék 1. Bevezetés
1
1.1. Az ultimátumjáték „klasszikus” alakja . . . . . . . . . . . . . . . . . . . . .
1
1.2. Folytonos forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
1.3. Nash-egyensúly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
2. Empirikus vizsgálatok
6
2.1. Ultimátumjáték a tesztlaborban . . . . . . . . . . . . . . . . . . . . . . . . .
6
2.2. Az altruizmus hipotézise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 3. Interdependens preferenciák
14
3.1. Lineáris preferenciák, teljes információ . . . . . . . . . . . . . . . . . . . . . 14 3.2. Lineáris preferenciák, információs asszimetria . . . . . . . . . . . . . . . . .
17
3.3. Eltérésellenes preferenciák, teljes információ . . . . . . . . . . . . . . . . . . 18 3.4. Eltérésellenes preferenciák, információs aszimmetria . . . . . . . . . . . . . . 4. Evolúciós játékelmélet
21 23
4.1. Koncepció . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 4.2. Evolúciós stabilitás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.2.1. Evolúciósan stabil stratégiák . . . . . . . . . . . . . . . . . . . . . . 24 4.2.2. Ekvivalens definíciók, létezés . . . . . . . . . . . . . . . . . . . . . . 25 4.2.3. Evolúciósan stabil stratégiahalmazok . . . . . . . . . . . . . . . . . . 26 4.3. A replikátor dinamika . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.3.1. Diszkrét replikátor dinamika . . . . . . . . . . . . . . . . . . . . . . . 26 4.3.2. Folytonos replikátor dinamika . . . . . . . . . . . . . . . . . . . . . .
27
4.3.3. A replikátor dinamikák alapvető tulajdonságai . . . . . . . . . . . . . 28 4.4. A replikátor dinamika és az evolúciós stabilitás összefüggése . . . . . . . . . 28 4.5. Az ultimátumjáték evolúciós vizsgálata . . . . . . . . . . . . . . . . . . . . . 29 5. Ágens-alapú modellek
31
5.1. Az ágens-alapú modellezés szemlélete . . . . . . . . . . . . . . . . . . . . . .
31
5.2. Egy ágens-alapú modell kétdimenziós rácson . . . . . . . . . . . . . . . . . . 32 5.3. Empirikus eredmények . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 ii
TARTALOMJEGYZÉK
iii
5.3.1. Alapszcenáriók . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 5.3.2. Az egyes pareméterek hatásai . . . . . . . . . . . . . . . . . . . . . . 36 5.3.3. Memória-dinamika . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.4. Továbbfejlesztési lehetőségek . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 5.5. Összefoglalás . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
1. fejezet
Bevezetés 1.1.
Az ultimátumjáték „klasszikus” alakja
Az ultimátumjáték „klasszikus” alakja a következő: GUkl = {N, S, f } ahol N = {1, 2} S = {S1 , S2 } S1 = {0, 1, 2, . . . , 100} S2 = {V S1 }1 , V = {0, 1} f = {f1 , f2 } f1 : S1 × S2 → R, f1 (s1 , s2 ) = s1 · s2 (s1 ), ∀s1 ∈ S1 , s2 ∈ S2 -re f2 : S1 × S2 → R, f2 (s1 , s2 ) = (100 − s1 ) · s2 (s1 ), ∀s1 ∈ S1 , s2 ∈ S2 -re A játék forgatókönyve a következő: adott egy 100 pénzegységnyi összeg. Az első játékos bejelent egy 0 és 100 közötti számot (pénzösszeget); ez az ő követelése. A második játékos vagy elfogadja a követelést, vagy megvétózza azt. Ha elfogadja a követelést, az első játékos megkapja azt az összeget, amit követelt, a második játékos pedig a 100 pénzegységből megmaradó részt. Ha ellenben vétózik, úgy egyik játékos sem kap semmit. Természetesen teljesen esetleges az, hogy a fenti történetben pénzösszegekről, és nem tevékről, feleségekről vagy kisbolygókról van szó. A kifizetőfüggvényeket azonban olyannak szeretnénk, hogy a játékosok "hasznosságot" osszanak fel egymás között.2 Az ultimátumjátékkal végzett kísérletek túlnyomó részében (de nem mindegyikben) valóban pénzt osztanak fel a játékosok. Ezekben az egyszerűség kedvéért föltesszük, hogy a játékosok hasznossága azonos a kapott pénzösszeggel. 1
A szokásoknak megfelelően B A jelöli az A értelmezési tartományú és B értékkészletű függvények hal-
mazát 2 Ennyiben - a kooperatív játékelmélet terminusában - TU -játékról van szó
1
2
1. FEJEZET. BEVEZETÉS Bár elvileg megadhatnánk a játék a bimátrix-formában, figyelembe véve, hogy a má-
sodik játékos lehetséges stratégiáinak száma |{V S1 }| = 2101 , ez egy 101 ∗ 2101 -es mátrix felrajzolását jelentené, ettől most eltekintünk. A játék extenzív formája azonban, amellett, hogy szemléletes, fel is rajzolható (1.1 ábra).3 1 a ∈ [0, 100]
0 2
2
0
(0, 0)
1
0
(0, 100)
T
N
100
1
(0, 0) (a, 100 − a)
2 0
(0, 0)
1
(100, 0)
1.1. ábra. Az ultimátumjáték „klasszikus” formája
1.2.
Folytonos forma
A klasszikus ultimátumjátékot módosíthatjuk úgy, hogy az első játékos stratégiahalmaza egy kontinuum valamely pontja legyen. Ennek megfelelően változik a második játékos stratégiahalmaza is: GUf olyt = {N, S, f } S = {S1 , S2 } S1 = {a | a ∈ R, 0 ≤ a ≤ 100} = [0, 100] S2 = {V S1 } Ez nyilván úgy interpretálható, hogy az első játékos az eredeti pénzösszeg bármilyen felosztását javasolhatja. Az első játékos által bemondott a szám így azt reprezentálja, hogy az első játékos a teljes pénzösszeg mekkora százalékát követeli magának. Világos, hogy az ehhez a játékhoz tartozó bimátrix még csak föl sem írható. A [0, 100] intervallumból a {0, 1} halmazba képező összes függvény halmazának számossága ugyanis i2 (a kontinuum hatványhalmazának számossága). Szerencsére azonban játékfával ábrázolhatjuk a folytonossá tett játékot, a szokásosos módon, besatírozott háromszöggel jelölve az első játékos kontinuumnyi stratégiáját (1.2 ábra).
3
Természetesen az 1.1. ábrán sem szerepel a játékfa minden ága, csak a két szélső eset, illetve egy
„reprezentatív” ág.
3
1.3. NASH-EGYENSÚLY 1 0 2 0
(0, 0)
100
a ∈ [0, 100] 2
1
0
(0, 100)
2 1
0
(0, 0) (a, 100 − a)
(0, 0)
1
(100, 0)
1.2. ábra. Ultimátumjáték, folytonos forma
1.3.
Nash-egyensúly
Bár a részjáték-tökéletességgel kapcsolatos problémák jól ismertek4 , fő célunk ebben a szakaszban a részjáték-tökéletes Nash-egyensúlyok megtalálása. Ezeket legegyszerűbben a visszagöngyölítéses módszerrel találhatjuk meg. Legyen s1 tetszőleges, rögzített. A második játékosnak akkor éri meg egyértelműen igent5 mondani, ha 100 − s1 > 0, azaz ha s1 < 100. Ha s1 = 100, akkor a második játékos mindenképpen 0-t kap, azaz indifferens a két lehetséges akciója között. Azaz a Nash-egyensúly keresésében a játékfából törölhetők azok az ágak, ahol s1 > 0, és a második játékos nemet mond. Ezért az első játékos a következő döntés előtt áll: vagy 100-at követel, s akkor a második játékos mondhat igent vagy nemet is, vagy egy 100-nál kisebb összeget, ekkor a második játékos biztosan elfogadja a követelését. Utóbbi esetben tehát nyilván megéri minél nagyobb összeget követelni. Egyszerűsített játékfánkból (1.3 ábra)6 már könnyű kinyerni a részjáték-tökéletes Nash-egyensúlyi stratégiapárokat.
1 100 − ǫ
100 2 0
(100 − ǫ, ǫ) (0, 0)
1 (100, 0)
1.3. ábra. Nash-egyensúly kereséséhez egyszerűsített játékfa 4 5
Gondoljunk pl. csupán a chain-store paradoxonra, vagy akár annak legrövidebb, kétfordulós változatára Ajánlaton a továbbiakban az első játékos által a második játékosnak felkínált (vagy hagyott) torta-részt
értjük, azaz 100 − a -t; követelésen pedig a magának megtartott részt, a -t. Igenen a követelés elfogadását értjük (s2 = 1, nemen pedig a vétózást (s2 = 0) 6 ǫ ∈ R+ , mely a nullánál szigorúan nagyobb valós számok halmazát jelöli
4
1. FEJEZET. BEVEZETÉS A GUkl és a GUf olyt közötti különbség itt abban áll, hogy előbbinél ǫ ∈ N+ , míg utóbbinál
ǫ ∈ R+ . A GUkl játékban részjáték-tökéletes Nash-egyensúlyiak lesznek az s∗1 1 = 99 ∗1 s∗1 2 : N → {0, 1}, s2 (a) =
(
0, ha a = 0 1, ha a > 0
illetve a s∗2 1 = 100 ∗2 s∗2 2 : N → {0, 1}, s2 = 1
stratégiapárok. A GUf olyt játékban valamivel bonyolultabb a helyzet. Az világos, hogy az utóbbi stratégiapár (természetesen a Dom(s∗2 2 ) = R módosítással) itt is Nash-egyensúlyi. A másik egyensúllyal az a gond, hogy a {100 − ǫ | ǫ ∈ R+ } halmaz nem (felülről) zárt. Ezért itt nem kapunk egy második egyensúlyt.7 Ez tény mondandónk lényegén nem változtat. Ha hajlamosak vagyunk a részjátéktökéletes Nash-egyensúlynak bármiféle empirikus vagy normatív relevanciát tulajdonítani, akkor azt kell mondanunk: kellően racionális játékosok esetében az ultimátum-játék várható - vagy elvárt, vagy „kívánatos” - kimenetele a másodikként lépő játékos teljes kizsákmányolása. Az első játékos a megosztandó pénzből („átcsoportosítható hasznosságból”) a lehető legtöbbet megkaparintja magának; a második játékos pedig üres vagy majdnem üres kézzel távozik. Vétóerejét nem tudja kihasználni. A többi, nem részjáték-tökéletes Nash-egyensúly meghatározásához gondoljuk meg, hogy az első játékosnak akkor éri meg egyértelműen s∗1 -ról s′1 -re áttérni a második játékos adott s∗2 (s1 ) stratégiája mellett, ha f1 (s∗1 , s∗2 ) = s∗1 · s∗2 (s∗1 ) < s′1 · s∗2 (s′1 ) = f2 (s′1 , s∗2 ) Mivel s2 (s1 ) értéke 0 vagy 1, ezért csak két esetben teljesülhet a szigorú egyenlőtlenség: s∗2 (s∗1 ) = 0 és s∗2 (s′1 ) = 1 és s′1 > 0, vagy s∗2 (s∗1 ) = 1 és s∗2 (s′1 ) = 1 és s∗1 < s′1 esetén. Ebből következik, hogy s∗1 csak úgy lehet egyensúlyi, ha igent mondanak rá, és egyetlen nagyobb követelésre sem mondanának igent, vagy ha elutasítják, és nincs semmilyen olyan pozitív követelés, amire a második játékos igent mondana. A második játékos stratégiája 7
Ezen a ponton ad hoc bevezethetnénk az ǫ-egyensúly fogalmát: egy s∗k stratégiaprofil ǫ-Nash-egyensúlyt
alkot, amennyiben ∀ǫ > 0 számhoz ∃K ∈ N, hogy ∀k ≥ K, ∀i ∈ N, ∀si ∈ Si -re max{fi (si , s∗k−i ) − fi (s∗ki , s∗k−i ), 0} < ǫ, azaz ha s∗k egy olyan stratégiaprofil-sorozat, hogy kellően nagy K index esetén egyetlen játékosnak se érje meg ǫ-nál jobban eltérni választott stratégiájától. Persze jó kérdés, hogy érdemes-e egy újabb jövevénnyel bővíteni az egyensúlyfogalmak amúgy is túlnépesedett családját.
5
1.3. NASH-EGYENSÚLY
pedig akkor egyensúlyi, ha a (ténylegesen megvalósuló) maximálisnál kisebb követelést elfogadja, illetve ha elfogadja vagy elutasítja a 0 követelést. Összegezve: Nash-egyensúlyiak a következő kritériumpárok valamelyikét kielégítő stratégiaprofilok: s∗1 = a, a > 0 s∗2 (a) = 1; s∗2 (a′ ) = 0 ∀a′ > a
s∗1 = 0 ∀s1 s∗2 (s1 ) = 0
2. fejezet
Empirikus vizsgálatok 2.1.
Ultimátumjáték a tesztlaborban
Az ultimátumjátékkal való kísérletezés az alkujátékok vizsgálatából nőtt ki. Az első empirikus eredmények (Güth et al., 1982)-től származnak. Güth és társai a Kölni Egyetemen egy friss játékelméleti eredményt vizsgáltak. (Rubinstein, 1982) ugyanis megmutatta azt a (ma már szinte triviálisnak tűnő) tételt, hogy egy olyan tökéletes információs alkujátékban, melyben a játékos felváltva tesznek javaslatokat egy lépésről-lépésre csökkenő torta felosztására, ameddig valamelyikőjük el nem fogadja a másik által ajánlott felosztást, egy és csakis egy részjáték-tökéletes egyensúly létezik. Könnyű látni, hogy az ultimátumjáték egy speciális ilyen alkujáték - olyan, melyben a torta1 az első elutasítás után nullára zsugorodik. (Güth et al., 1982) megmutatták, hogy a kísérleti alanyok viselkedése távol áll a részjáték-tökéletes egyensúlyitól: a leggyakoribb ajánlat a felosztható összeg fele volt. Ha az ajánlat nem érte el a torta harmadát, a másodikként lépő játékosok gyakran elutasították az ajánlatot, inkább lenullázva saját pénzbeli kifizetésüket is, mintsem elfogadjanak egy ennyire egyenlőtlen elosztást. Az utóbbi közel három évtizedben számtalanszor reprodukálták ezeket az eredményeket, és sok szemtpontból rendkívül robusztusoknak bizonyultak. Az első fontosabb kultúrákon átívelő kísérletsorozatról (Roth et al., 1991) számol be.2 A Jeruzsálemben, Tokióban, Pittsburghben és Ljubljanában végzett kísérletek legfontosabb eredménye, hogy bár egyik országban sincs közel a viselkedési egyensúly a részjáték-tökéleteshez (a legkisebb lehetséges összegű, illetve nulla ajánlatok aránya sehol sem érte el az 1 százalékot), szignifikáns kulturális különbségek lehetnek az ajánlatok eloszlásában: míg az Egyesült Államokban és Jugoszláviában a válaszok módusza 50%, addig Japánban és Izraelben csupán 40%. Az utóbbi másfél évtizedben az ultimátum- és egyéb játékokban lévő kulturális különbségek feltérképezésének látott neki számos antropológus, szociológus és közgazdász. Egy, 1
Az angol terminológiát követve - ahol a felosztandó összegre pie-ként szoktak hivatkozni - fogjuk ezt
a kifejezést használni. Egyébként a (számítógépes) kísérletek egy részében valóban egy tortaszelet formájú ábrát kell "felvágnia" a játékosoknak. 2 Egy Magyarországon végzett kísérlethez l. (Loránd et al., 2003)
6
2.1. ULTIMÁTUMJÁTÉK A TESZTLABORBAN
7
a Kaliforniai Egyetemen végzett, tucatnyi mikrokultúrát átfogó kutatás eredményeihez l. (Heinrich et al., 2004). Az eredmények egyrészt azt sugallják, hogy valóban jelentős különbségek vannak az egyes kultúrák által fokálisnak vagy fairnek tekintett viselkedés tekintetében, mind az ultimátumjátékban, mind az egyéb együttműködést, bizalmat, altruizmust érintő játékokban (diktátorjáték, közjószágjáték, bizalomjáték). Másrészt a megfigyelt viselkedés mindenütt távol esett a részjáték-tökéletes egyensúlytól. Előbbi tekintetében persze már nem olyan meglepő az utóbbi sem: a részjáték-tökéletesség fogalma ugyanis absztrakt és kultúrafüggetlen. Hogyan egyeztethetjük össze modellünk előrejelzéseit a tapasztalattal? Erre számos lehetőség kínálkozik: 1. Mi van, ha tesztalanyaink - a kísérletekhez találomra összeszedett járókelők egyszerűen buták ? Azaz - mondhatnánk - a részjáték-tökéletesség csak kellően képzett egyének esetében jelzi előre a viselkedést. Továbbá: csak azt lehet modellezni, ami jólstrukturált. A játékelmélet egyensúlyfogalmainak szerepe az, hogy megnutassák a racionális viselkedést alátámasztó elégséges alapot. Ilyen értelmezés mellett természetesen a különféle egyensúlyok szerepe inkább normatív, mint deskriptív: „egy ilyen típusú játékban tégy így vagy így!” (vagy: „ne tégy amúgy” stb.) Az egyensúlyi viselkedésnek tehát van racionális és ezért racionálisan megragadható oka; az egyensúlyról való eltérések mögött történeti/szubjektív tényezők miriádját lehet találni, ráadásul a probléma tulajdonképpen nem is érdekes; nem modellezhető és nem modellezendő 3 . Ezzel az attitűd több szempontból is problematikus. Elsősorban: a vonatkozó kísérletek jelentős hányadát egyetemistákkal, gyakran közgazdászhallgatókkal végezték el. Ha egyáltalán bárkitől elvárhatjuk, hogy racionálisan viselkedjék, az épp egy szellemileg érett, matematikailag képzett, adott esetben játékelméletben is jártas egyetemista. Ráadásul a részjáték-tökéleteshez közeli viselkedés pedig nem csupán nagyon ritka, hanem - ha időnként meg is jelenik - gyorsan eltűnik (Roth et al., 1991). Márpedig ha a „racionális” viselkedés valóban optimális az individuumok szempontjából, azt várnánk, hogy a kísérleti alanyok legalább ragaszkodnak hozzá, ha egyszer rátaláltak. Továbbá: azt sem fogadhatjuk el, hogy a racionális viselkedés magyarázható, az irracionális nem. Ez gyakorlatilag a fent tárgyalt matematikai fundamentalizmus egy formája. Alkotunk egy modellt: amennyiben a tapasztalt viselkedés illeszkedik hozzá, úgy minden rendben, ha viszont diskrepancia mutatkozik, az a „tények” hibája, és nem a modellé. Dönthetünk persze úgy is, hogy az egyensúlyfogalmunk tisztán normatív; akkor viszont egyrészt nem értettük meg pozitívan a vizsgált jelenséget, másrészt további vizsgálatokra van szükség, megmutatandó, hogy a szituáció konkrét strukturális jellegzetességei, a kontextus, a játékosok stb. függvényében valóban gyakran érdemes a részjáték-tökéletes stratégiát játszani. Nem vagyunk meggyőződve arról, hogy túl sok ilyen szituációt találnánk. Van azonban kísérleti bizonyíték is arra, hogy kísérleti alanyok nem „buták”, leg3
Ugyanerről a vitáról a tudományfilozófia módszertanában l. (Barnes et al., 1998)
8
2. FEJEZET. EMPIRIKUS VIZSGÁLATOK alábbis nem a fenti értelemben. Már a legelső elvégzett kísérletben is vizsgáltak egy valamivel bonyolultabb - játékot az ultimátumjáték mellett (2.1. ábra4 ) (Güth et al., 1982). Ebben 5 fekete és 9 fehér zsetont kellett felosztania két játékosnak. Az első játékos két kupacba osztja a zsetonokat, majd a második játékos választ magának egyet a két csoport közül. Az első játékos kifizetése zsetononként 2 pénzegység; a második játékosé ellenben 2 pénzegység a fekete zsetonokért és 1 a fehérekért. A részjáték-tökéletes stratégiáprofilban a második játékos minden felosztás esetében azt választja, amelyik nagyobb kifizetést biztosít számára; azaz, ami ugyanaz - mivel az összes zseton összértéke számára 19 - azt, amelyiknek az értéke nagyobb vagy egyenlő, mint 10. Az első játékos célja, hogy olyan felosztást válasszon, ahol minél több zseton marad nála; azaz célja, hogy a második játékos által választott kupacban minél kevesebb zseton legyen. Nyilvánvaló, hogy ezt úgy érheti el, ha az egyik kupacba 5 fekete, a másikba 9 fehér zsetont tesz. Azaz a részjáték-tökéletes lejátszásban az első játékos színek szerint osztja szét a zsetonokat, a második pedig az 5 feketét tartalmazót választja; kifizetéseik pedig 18, illetve 10. Mármost ha azt gondoljuk: a kísérleti alanyok képtelenek arra, hogy megállapítsák illetve kiszámolják a részjátéktökéletes egyensúlyt a jóval egyszerűbb ultimátumjátékban, akkor a bonyolultabb szituációban sem várhatunk egyensúlyi viselkedést. A kísérlet eredménye azonban éppen az volt, hogy a játékosok tipikusan a részjáték-tökéletességnek megfelelően viselkednek. Azaz elvethetjük azt a hipotézist, hogy korlátozott racionalitásuk miatt viselkednének szereplőink úgy, ahogy. 1 b ∈ [0, 5]
T
N, w ∈ [0, 9] 2
A
(2(5 − b) + 2(9 − w), 2b + w)
T
N
B
(2(b + w), 2(5 − b) + (9 − w))
2.1. ábra. Zsetonjáték 2. A fenti érv egy változata szerint a szubracionális viselkedés annak köszönhető, hogy maga a kísérleti szituáció idegen és furcsa a résztvevők számára; hogy nem feltétlenül értik meg az ultimátumjáték egyszeri (one-shot) jellegét, hanem egy nagyobb játék részfájaként játsszák; és hogy az egyensúlyi viselkedés csak egy tanulási folyamat vég4
A 2.1. ábrán az első játékos akcióhalmazát úgy reprezentálták, hogy arról dönthet, mennyi és milyen
zsetonokat tesz az A kupacba; a maradék automatikusan a B kupacba kerül. A második játékos azután választ magának egyet a két kupac közül.
2.1. ULTIMÁTUMJÁTÉK A TESZTLABORBAN
9
eredményeként várható és várható el. Ez azt implikálja, hogy, bár a kezdeti viselkedés kaotikus lehet, minél többször játszatjuk teszalanyainkat, és minél jobban megbizonyosodnak a játék strukturális jellemzőiről (pl. arról, hogy egy kettős vak-kísérletben a kísérletvezető valóban nem fogja megtudni, ki milyen ajánlatokat tett), annál jobban megközelíti majd viselkedésük az egyensúlyit. Így az idő és a tapasztalat kiszűrik a kezdeti viselkedési egyenetlenségeket. Amellett, hogy (az előző válaszhoz hasonlóan) ez a reakció is megkerüli eredeti kérdésünket - hogyan viselkedünk ultimátumtípusú szituációkban és miért úgy -, az empirikus evidenciákkal sem egyezik. Bár a legtöbb kísérlet szerint valóban változnak az ajánlatok a tapasztalatok felhalmazódásával, lényegében sehol sem közelítik meg a részjáték-tökéletes egyensúlyt, hanem elsősorban az ajánlatok szórása csökken, egy kultúra-specifikus ajánlat felé mozdulva el (Roth et al., 1991). Úgy tűnik, mintha a játékosok információt gyűjtenének arról, hogy adott kontextusban mi számít elfogadható ajánlatnak (az ’elfogadható’ terminust itt közelebbi specifikáció nélkül értjük). Az is figyelemre méltó, hogy a típusajánlathoz vezető konvergencia meglehetősen gyors (tipikusan öt-hat ismétlésen belül megtörténik); ezután nincs további lényeges mozgás vagy változás. Szukcesszíve játszott ultimátumjátékok sorozata és halomnyi tapasztalat sem vezet el a részjáték-tökéletességhez. Érdemes ebből a szempontból összehasonlítanunk az ultimátumjátékot a (Roth et al., 1991) által párhuzamosan tesztelt ’piacjáték’-kal (2.2.ábra). Ebben egy eladó és tíz vevő szerepelnek. Az eladónak van egy áruja, ami számára semmit sem ér, a vevőknek viszont 1000 pénzegységet. A vevők szimultán licitálnak az árucikkért, legfeljebb 1000 pénzegység értékben. Ezután a legmagasabb ajánlatot tevő (vagy, ha többen ajánlották az összegek maximumát, sorsolással kiválasztot egyikük) licitjét az eladó vagy elfogadja - ekkor az eladó megkapja a licit összegét, a vevő pedig az 1000 pénzegységig megmaradó többletet -, vagy pedig elutasítja; utóbbi esetben egyikőjük sem kap semmit. A többi (nem-nyertes) vevő kifizetése minden esetben zérus. Könnyű látni, hogy ez tulajdonképpen egy több, versengő első játékosú ultimátumjáték. A részjáték-tökéletes egyensúly kiszámításához gondoljuk meg, hogy egyrészt az eladónak minden pozitív ajánlatot érdemes elfogadnia; másrészt ha a licitek maximuma kisebb, mint 1000 − k5 , úgy valamelyik vevőnek érdemes többet ígérnie, különben semmit sem kap. Egyensúlyban tehát a legnagyobb ajánlat 995 vagy 1000; ezt pedig az eladónak nyilván érdemes elfogadnia. Míg tehát az eredeti ultimátumjátékban a teljes felosztandó összeg a vevőhöz (az első játékoshoz) jut, addig itt egyensúlyban mindent az eladó kap. Ez a kísérlet lényegében egy Bertrand-oligopóliumot teremt a játékosok között, melyben a versengő oligopolisták profitja nullává válik. A maximális ajánlatok meglehető5
k a lehetséges ajánlatok közötti különbség, a tárgyalt kísérletnél k = 5, tehát a lehetséges ajánlatok
halmaza a {0, 5, 10, ..., 990, 995, 1000} volt.
10
2. FEJEZET. EMPIRIKUS VIZSGÁLATOK V1 k1 ∈ [0, 200]
0 V2 0
k2 ∈ [0, 200]
2 T
N
0
T
N V2
k2 ∈ [0, 200]
2
T
N V3
V4 ...V10 E N
(0, 0, ..., 0)
I
(0, 0, . . . , 1000 − 5ki , . . . , 0, 5ki )
2.2. ábra. Piacjáték sen gyorsan - 2-3 ismétlésen belül - megközelítik, illetve elérik az egyensúlyit, tehát a tanulás valóban működik, és lényeges szerepet játszik a viselkedés alakításában. Azonban ezeket a kísérleteket a hagyományos ultimátumjátékkal együtt játszatták (ugyanazokkal a kísérleti alanyokkal), ahol mint fent jeleztük, nem mutatkozott hasonló konvergencia a részjáték-tökéletesség felé. 3. Felmerülhet bennünk, hogy a kísérletekben felajánlott pénzösszegek olyan alacsonyak, hogy az egyéb motivációk (a játékélmény vagy különféle érzelmek) felülírják az emberekre egyébként jellemző racionalitást. (Heinrich, 2000), (Heinrich et al., 2004) és mások azonban olyan kísérletekről is beszámolnak, ahol a tesztalanyok akár 2-3 havi jövedelmüknek megfelelő összegeket kellett felosszanak; az eredmények ilyen helyzetben még közelebb voltak az adott kontextusban fairnek tekintett kimenetelhez. 4. Ha meggondoljuk, a kísérleti ultimátumjátékok nem is egy, hanem két anomáliára mutatnak rá. Az egyik diskrepancia a részjáték-tökéletesség és a megfigyelt viselkedés között az, hogy a másodikként lépő játékosok elutasítanak olyan felosztásokat, melyekben az ő kifizetésük pozitív (mint láthattuk, ezzel akár jelentős jövedelmektől is elvágva magukat). A másik furcsaság pedig abban áll, hogy az elsőként lépő játékosok ajánlata „túl nagy”, és ismételt játékoknál sem konvergál az egyensúlyihoz. Elképzelhető azonban, hogy e második anomália egyszerűen az elsőre vezethető vissza; a felajánlók tudják, hogy a túl alacsony összegeket a második játékosok elutasítanák, ezért - stratégiai megfontolásokból - eleve olyan felosztásokkal próbálkoznak, melyekről vélhető, hogy nem fogják elutasítani. Ezt az is alátámasztja, hogy az elutasítások aránya többnyire meglehetősen alacsony (Roth et al., 1991).
11
2.1. ULTIMÁTUMJÁTÉK A TESZTLABORBAN
Bár így a másodikként lépők viselkedésére még nem kapunk magyarázatot, a felajánlások alakulásában biztosan nem elhanyagolhatóak a stratégiai motívumok. Azonban a modális ajánlat a legtöbb kísérletnél 50 százalék, pedig 40 százalék körüli ajánlatoknál még olyan alacsony az elutasítások aránya, hogy az ajánlattevők várható profitja magasabb lenne (Roth et al., 1991). Felmerülhet, hogy a különbség magymarázható kockázatkerülő preferenciák feltételezésével. Azonban (Heinrich et al., 2004) a különböző kultúrákban végzett ultimátumjáték-kísérlet eredményeit összegezve megmutatja: a kockázatkerülés szakirodalomban becsült értékeit feltételezve nem tudjuk teljesen stratégiai szempontokkal magyarázni az elmélet és a kísérletek közötti diskrepanciákat. Azaz ezen az úton legfeljebb részleges eredményekhez juthatunk. 5. (Heinrich et al., 2004) szerint a társadalomtudósok jelentős része - részben a fenti eredmények alapján - arra a következtetésre jutott, hogy léteznek szociális preferenciák; azaz az egyéni hasznosságfüggvények redukálhatatlan részei a saját kifizetéseken kívül a többiek kifizetései, a többiekhez kapcsolódó intencióink (pozitív illetve negatív attitűdök) illetve, az utóbbiak két komponens révén, a többiek velünk kapcsolatos intenciói. Lássuk, kaphatunk-e empirikus alátámasztást az altruizmushoz! Az egyik egyszerű kísérlet, mellyel el tudja választani az altruista motívumokat a stratégiaiaktól, a diktátorjáték (2.3. ábra).
1 0
(0, 100)
a ∈ [0, 100]
T
N
(a, 100 − a)
100
(100, 0)
2.3. ábra. Diktátorjáték
Ez technikai értelemben nem is játék, hanem egy döntési helyzet, melyben egy játékos eloszt önmaga és egy másik személy között egy pénzösszeget - tulajdonképpen egy olyan ultimátumjáték, melyben a játékfa második részét levágtuk. Itt nyilván egyetlen egyensúly van, melyben a játékos a teljes összeget magának szánja. Ha hiszünk egyensúlyfogalmunk prediktív erejében, azt várjuk, hogy ez meg is valósul. Amennyiben azonban erős altruisztikus preferenciák érvényesülnek, úgy ebben a helyzetben is fele-fele arányú felosztást fogunk tapasztalni. A kísérleti eredmények szerint az ajánlatok átlaga ugyan nem éri el az ultimátumjátékét, mégsem nulla. A játékosok kb. harmada semmit nem ajánl fel a másiknak, sokan azonban csak a felét, vagy annál is kevesebbet szánnak maguknak (Binmore, 2006). Az ajánlatok szórása jóval nagyobb,
12
2. FEJEZET. EMPIRIKUS VIZSGÁLATOK mint az ultimátumjáték esetében, ami arra utal, hogy itt kevésbé egyértelműek a szabályozó társadalmi normák. Ugyanezt támasztja alá, hogy ha a kísérletvezetőnek sikerül egy olyan környezetet teremtenie, melyben a diktátor „feljogosítva” érzi magát az összegre, a felajánlások összege jelentősen csökken. Hasonlót jelenséget egyébként az ultimátumjáték esetében is tapasztalhatunk (Binmore, 2006). A diktátorjáték tapasztalait interpretálhatjuk úgy, hogy az valóban altruisztikus preferenciák jelenlétére mutat rá.
2.2.
Az altruizmus hipotézise
Láthatjuk, hogy az ultimátumjátékkal kapcsolatos kísérleti eredmények igencsak szerteágazóak. A kutatások jelenlegi fázisában akadnak olyan ötletek és modellek, melyek a tapasztalati eredmények egy-egy kiemelt részhalmazát sikeresen megmagyarázzák, viszont egyelőre nincs igazán átfogó modell. Ez nyilván azt is implikálja, hogy nincs igazán erős kritériumunk arra, hogy a felmerült modellek közül válasszunk, mivel mindegyiket konfirmálja és falszifikálja is a kísérletek egy-egy csoportja. Jelen dolgozat szerzőjének véleménye szerint külön nehézséget jelent, hogy a játékfa módosításán túlmenően gyakran a kísérleti feltételeket is radikálisan módosítják: kettős vaktesztekkel és alapos instruktori megfigyeléssel, egyazon és más szereplőkkel ismételt játékokkal, más játékokkal összekapcsolt és különálló játékokkal egyaránt találkozhatunk. Természetesen ennek van pozitív hozadéka is, eképpen ugyanis különféle kontextusok szociálpszichológiai relevanciájára bukkanhatunk rá, azonban pont emiatt a kapott eredményekből levonható következtetések erősen fognak függeni ezektől a kontextuális jellemzőktől. A kísérleti játékelmélet szempontjából szerencsésebb lenne egy egyértelműbben körvonalazott (bár idővel nyilván módosítható) kísérleti protokoll. Erre ugyanakkor - pont a terület interdiszciplináris jellege miatt - igen kevés esélyt látunk: valószínűtlen, hogy közgazdászok, szociológusok, pszichológusok, politológusok és antropológusok meg tudnának állapodni egy közös módszertanban, hiszen céljaik is különbözőek. Az egész terület nagyon emlékeztet egy kuhni értelemben vett paradigmaelőtti állapotra. Valóban: a fenti kísérletek kapcsán az is felmerülhet bennünk, hogy letértünk az eredeti ösvényről. Emlékezzünk: onnan indultunk el, hogy bizonyos típusú viselkedésekre a természetes nyelvben az „ultimátum” kifejezést alkalmazzuk, s mi arra vagyunk kíváncsiak, mi kapcsolja össze ezeket a helyzeteket, és mire számíthatunk egy ilyen szituációban. Eredeti paradoxonunk az volt, hogy a kísérleti alanyok nem a részjáték-tökéletes egyensúlyt játsszák. A fenti kísérletek egy része, illetve néhány összegző modell (Fehr et al., 1999), (Bolton et al., 2000) azonban azt vizsgálják, milyen preferenciákkal kell rendelkeznie az egyéneknek ahhoz, hogy éppen úgy viselkedjenek, ahogy. Ez azonban nemhogy megrendítené, hanem visszahelyezi jogaiba a részjáték-tökéletességet! Sohasem tettük fel, hogy a hasznosságfüggvények csakis a pénzbeli kifizetésekre vonatkoznak; tehát egyszerűen olyan hasznosságfüggvények kell konstruálni, melyek mellett - minden kísérletnél - a megfigyelt
2.2. AZ ALTRUIZMUS HIPOTÉZISE
13
viselkedés éppen részjáték-tökéletes lesz. Vagyis (Güth et al., 1982) eredeti eredményei egyáltan nem igazolják, sem azt, hogy az ultimátummodellünk rossz volna, sem azt, hogy a részjáték-tökéletesség nem volna megbízható prediktora a viselkedésnek. Annyit persze megmutatnak, hogy a preferenciák, és így a stratégiai viselkedés is kontextusfüggők; ezt azonban akár már döntéselméleti kísérletekből is tudhatjuk (framing effects). A részjáték-tökéletesség védelmezőit tehát nem tudjuk kizökkenteni: hiszen valójában a részjáték-tökéletességnek (egyáltalán: bármely Nash-egyensúlynak vagy annak finomításának) megfelelő viselkedés inkább egy munkahipotézis vagy egy kutatási program sarkalatos eleme, mint egy önmagában tesztelhető empirikus feltevés. A kutatási program akkor lesz sikeres, ha végre sikerül ilyen preferenciákat konstruálni. A részjáték-tökéletesség (vagy általában a többi egyensúlyfogalom) viselkedésbeni irrelevanciáját hangoztatóknak pedig - bár kritikai attitűdjük miatt módszertani eszköztáruk jóval bővebb - az a sokkal keményebb feladat jut, hogy alternatív modellt adjanak az ultimátum- vagy alkuviselkedésre. A korlátozott racionalitás elmélete mindeddig nem állt elő ilyen modellel. Jelen dolgozatban megpróbáljuk félretenni ezt a vitát, abból indulva ki, hogy az altruisztikus preferenciákat tekintjük adottnak. Arra vagyunk kíváncsiak, mi történik, ha úgy tekintünk az emberekre, mint altruisztikus hasznosságfüggvényeket maximalizáló automatákra. Azaz számunkra direkt módon nem merül fel a (korlátozott) racionalitás kérdése bár időnként, összehasonlítás végett bevetünk hagyományos egyensúlykereső számításokat. Arra is kíváncsiak vagyunk, hogy változik és mikor lehet stabil egy heterogén, altruisztikus preferenciájú egyénekből álló populáció.
3. fejezet
Interdependens preferenciák Ebben a fejezetben kétféle típusú interdependens preferenciára számolunk részjátéktökéletes Nash-egyensúlyt. Az „interdependens preferenciák” arra utalnak, hogy a játékosok hasznosságfüggvényei mindkettőjük pénzbeli kifizetésétől függnek. (Binmore, 2006)[pp. 125-126.] összesen három jelöltet sorol fel, mi ezt a kettőt láttuk a szemléletesnek és egyszerűen interpretálhatónak. Mindkét preferenciafajta esetében megvizsgáljuk a teljes információs szituáció mellett az asszimetrikus információ esetét is, ahol a játékosok csak saját paramétereik értékét tudják pontosan, a másik játékosénak csak az eloszlását ismerik. Az alábbiakban a folytonos modellel fogunk (1.2. alfejezet) dolgozni, és az 1. fejezet alapmodelljét úgy módosítjuk, hogy a felosztandó összeg ne 100, hanem 1 legyen. Az első játékos ajánlata továbbra is a; ha ezt az ajánlatot elfogadják, a kapott összegek a és 1 − a.
3.1.
Lineáris preferenciák, teljes információ
Legyen a két játékos hasznosságfüggvénye: u1 (a) = α1 a + α2 (1 − a) u2 (a) = β1 a + β2 (1 − a) A játékosok ismerik egymás hasznosságfüggvényének paramétereit. Feltehetjük, hogy α1 > 0 és β2 > 0, azaz mindenki kedveli, ha kifizetéshez jut. Továbbá α1 > α2 és β2 > β1 , azaz mindkét játékos jobban kedveli magát, mint a másikat. A második játékos akkor érdemes igent mondani, ha u2 (a) = β1 a + β2 (1 − a) ≥ 0, a ∈ [0, 1] Két esetet különböztethetünk meg: I. eset: β1 ≥ 0, azaz a 2. játékos „kedves”, örül az 1. kifizetésének. Ekkor nyilván β1 a ≥ 0, β2 (1− a) > 0, így u2 (a) > 0, tehát a 2. játékos minden pozitív ajánlatra igent mond. A 0 ajánlatra pedig csak akkor mond nemet, ha β1 = 0. Mivel α1 > α2 , ezért az 1. játékos hasznossága akkor maximális, ha a minél nagyobb. Ilyen feltevések mellett tehát lényegében ugyanaz az egyensúly, mint altruista preferenciák nélkül: 14
15
3.1. LINEÁRIS PREFERENCIÁK, TELJES INFORMÁCIÓ β1 > 0 esetén s∗1 = a = 1, s∗2 (a) = 1, ∀a ∈ [0, 1]-re β1 = 0 esetén s∗1 = a = 1, s∗2 (a) = 1∀, a ∈ [0, 1]-re ( 0, ha a = 0 s∗1 = a = 1 − ǫ,s∗2 (a) = 1, ha a > 0 1 (vö. 1.3. alfejezettel ) II. eset: β1 < 0, azaz a 2. játékos „ellenséges” az elsővel A második játékos igentmondási korlátja: u2 (a) = β1 a + β2 (1 − a) ≥ 0 ⇔ (β1 − β2 )a ≥ β2 ⇔ (β2 − β1 )a ≤ β2 ⇔ ⇔a≤
β2 =c β2 − β1
Kaptunk tehát egy felső korlátot az 1. játékos követelésére. Erről a c korlátról láthatjuk, hogy β2 < β2 − β1 (β1 < 0) miatt
β2 β2 −β1
< 1, továbbá β2 > 0, β2 − β1 > 0 miatt
β2 β2 −β1
> 0,
azaz 0
c, akkor nemet, ha a = c, úgy indifferens a két lehetőség között. Vizsgáljuk meg most az 1. játékost! Hasznosságfüggvénye: u1 (a) = α1 a + α2 (1 − a) = (α1 − α2 )a + α2 Az 1. játékos maximumfeladata: maxa u1 (a), f th. a ≤
β2 β2 − β1
A megoldást a következő alesetekre bonthatjuk: II.a. eset: α2 ≥ 0 (az 1. játékos „kedves”) Ilyenkor biztosan u1 (a) > 0, ezért az 1. játékos egyszerűen a = c választással maximalizálja kifizetését, csak azért nem követelve mindent önmagának, mert ezt a 2. játékos elutasítaná. Egyensúlyban tehát: s∗1 = a =
β2 β2 −β1 ,
II.b. eset: α2 < 0 (az 1. játékos „ellenséges”) Az 1. játékos hasznossága már nem feltétlenül, pozitív, tehát teljesülnie kell a következő korlátnak is: u1 (a) = (α1 − α2 )a + α2 > 0 ⇔ a≥− 1
α2 α1 − α2
A továbbiakban az ǫ-egyensúlyokat nem jelöljük, feltételezzük a következő tie-breaking rule-t: amennyi-
ben a 2. játékos indifferens az ’igen’ és a ’nem’ akciók között, úgy igent mond, elfogadja az ajánlatot.
16
3. FEJEZET. INTERDEPENDENS PREFERENCIÁK
A fenti korlátot is beépítve akkor van a ajánlat, mely mindkét játékosnak elfogadható, ha
0≤−
β2 α2 ≤a≤ ≤1 α1 − α2 β2 − β1
2 Nyilván ilyen a-t csak akkor találhatunk, ha − α1α−α ≤ 2
a=
β2 β2 −β1
β2 β2 −β1
Ebben az esetben megint
az 1. játékos hasznosságmaximalizáló követelése, különben pedig az 1. játékosnak
nem éri meg olyan ajánlatot tennie, melyre partnere igent mondhat. Az eddigieket áttekintve láthatjuk, hogy csupán az előjelek, illetve α1 α2 -höz, és β1 β2 -höz viszonyított aránya számít. Ez persze nem meglepő, már a hasznosságfüggvények felírásakor is számíthattunk arra, hogy a pozitív skalárral való szorzásra invariánsak lesznek egyenleteink. Feltehetjük tehát, hogy α1 = β2 = 1, és α = α2 , β = β1 jelöléssel összefoglalhatjuk eredményeinket: feltevés: α, β < 1 I. eset: β ≥ 0 s∗1 = a = 1 s∗2 (a) = 1, ∀a ∈ [0, 1] u1 (s∗1 , s∗2 ) = 1, u2 (s∗1 , s∗2 ) = 0 II.a. eset: β < 0, α ≥ 0 s∗1 =
1 1−β
s∗2 (a) = 1, ∀a ≤ u1 (s∗1 , s∗2 ) =
1 1−β
1 1−β
β − α 1−β , u2 (s∗1 , s∗2 ) = 0
α II.b.1. eset: β < 0, α < 0, − 1−α >
s∗1 = a >
1 1−β
1 1−β 1 1−β u2 (s∗1 , s∗2 )
s∗2 (a) = 0, ∀a ≥ u1 (s∗1 , s∗2 ) = 0,
=0
α ≤ II.b.2. eset: β < 0, α < 0, − 1−α
s∗1 =
1 1−β
1 1−β
s∗2 (a) = 1, ∀a ≤ u1 (s∗1 , s∗2 ) =
1 1−β
1 1−β
β − α 1−β , u2 (s∗1 , s∗2 ) = 0
Láthatjuk, hogy ebben a modellben - a pénzbeli kifizetéstől függetlenül - a 2. játékos egyik paraméterállás szerint sem érzi magát túl boldognak. Érdemben tehát a talált egyensúly megint a szélsőséges kizsákmányolásé, azzal a feltétellel kiegészítva, hogy a 2. játékos ne utasítsa el az 1. követelését.
3.2. LINEÁRIS PREFERENCIÁK, INFORMÁCIÓS ASSZIMETRIA
3.2.
17
Lineáris preferenciák, információs asszimetria
Élve előző modellünk eredményével, miszerint a hasznosságfüggvényeknek csak egyetlen paramétere számít, ebben a modellben azt tesszük fel, hogy a játékosok nem ismerik ezt a paramétert, csak annak eloszlását.2 A hasznosságfüggvények tehát: u1 (a) = a + α(1 − a) u2 (a) = βa + (1 − a) R β¯ S Legyen β sűrűségfüggvénye f (β), úgy, hogy f (β) → 0 és β f (β)d(β) → 1, β, β¯ ∈ R {−∞, +∞}; tegyük fel, hogy létezik β eloszlásfüggvénye F (β), F ′ (β) = f (β) A 2. játékos egyensúlyi
3 stratégiája: (
s∗2 (a) =
1, ha βa + (1 − a) ≥ 0
0, ha βa + (1 − a) < 0 Ha figyelembe vesszük, hogy az 1. játékos hasznossága csak akkor u1 , ha ajánlatát elfogadják, akkor az 1. játékos tényleges hasznosságfüggvénye:
v1 (a) = u1 (a)s∗2 (a) = (a + α(1 − a)) =
(
a + α(1 − a), ha βa + (1 − a) ≥ 0 ha βa + (1 − a) < 0
0,
Az 1. játékos a várható hasznosságát maximalizálja: maxa E(v1 (a)) = maxa
Z
β¯
v1 (a, β)f (β)dβ β
Adott a-ra legyen β ∗ az az érték, amelyre βa + (1 − a) = 0, azaz β ∗ (a) = 1 − a1 . Ekkor, ha ¯ az β < β ∗ , akkor x(a) = 0, ha viszont β ≥ β ∗ , akkor x(a) = 1. Feltéve, hogy β ≤ β ∗ ≤ β, 1. játékos maximumfeladata: maxa E(v1 (a)) = maxa
= maxa
Z
β∗ β
0f˙(β)dβ +
Z
Z
β∗
v1 (a, β)f (β)dβ + β
Z
β¯
v1 (a, β)f (β)dβ = β∗
β¯
(a + α(1 − a))f (β)dβ = maxa
β¯
(a + α(1 − a))f (β)dβ =
β∗
β∗
= maxa (a + α(1 − a))
Z
Z
β¯
¯ − F (β ∗ )) = f (β)dβ = maxa (a + α(1 − a))(F (β)
β∗
1 = maxa (a + α(1 − a))(1 − F (1 − )) a Deriválva a szerint és a kapott eredményt egyenlővé téve 0-val kapjuk az 1. játékos egyensúlyi stratégiájának elsőrendű feltételét: 1 1 1 (1 − α)(1 − F (1 − )) − (a + α(1 − a))f (1 − ) 2 = 0 ⇔ a a a 2
Pontosabban, a játék szekvenciális jellege miatt, csak az lényeges, hogy az 1. játékos nem ismeri a 2.
paraméterét. 3 Itt is alkalmazzuk a fent említett tie-breaking szabályt.
18
3. FEJEZET. INTERDEPENDENS PREFERENCIÁK a + α(1 − a) 1 1 f (1 − ) ⇔ (1 − α)(1 − F (1 − )) = 2 a a a Ezt az egyenletet a szokásos „határhaszon=határköltség” formula szerint interpretál-
hatjuk. A bal oldal azt jelzi, hogy mennyivel nő az 1. játékos várható hasznossága, ha egységnyivel emeli a értékét, míg a jobb oldal azt jelzi, mekkora az ebből származó várható hasznosságveszteség (annak köszönhetően, hogy kevesebben fogadják el az ajánlatát). ¯ Mi történik, ha (az adott a-ra ez A fentiekben azonban feltettük, hogy β ≤ β ∗ ≤ β. ¯ akkor β eloszlása olyan, hogy a 2. játékos sohasem fogadja el nem teljesül? Ha β ∗ > β, a-t, tehát ilyenkor az 1. játékos kifizetése biztosan 0. Ha ellenben β ∗ < β, akkor viszont a 2. játékos mindig elfogadja a-t, ekkor viszont az 1. játékosnak érdemes ezek közül a legnagyobb ilyen a-t választani, hiszen
δβ ∗ (a) δa
> 0. A folytonosság miatt azonban ekkor ¯ intervallumon keresni az 1. játékos választhatja β-t is. Ezek szerint valóban elég a [β, β] várható hasznosságmaximalizáló stratégiáját. A fenti elsőrendű feltétellel egyértelműen meghatározható az egyensúlyi stratégia: először meg kell keresni, hogy a fenti határhaszon=határköltség egyenletet kielégítő a-k közül melyik biztosítja a legnagyobb várható hasznosságot. Ezután ezt a hasznosságot össze kell hasonlítani azzal, amelyiket a határponti megoldás (azaz az a, amelyre β ∗ (a) = β. Ezzel megkaptuk s∗1 -ot; s∗2 (a) pedig nem más, mint x(a) (a 2. játékos elfogadja azokat az ajánlatokat, ahol hasznossága nem negatív). Azt könnyű látni, hogy az 1. játékos legnagyobb várható hasznossága nem lehet negatív, hiszen pl. ha a = 1-et elfogadják, akkor az 1. játékos hasznossága pozitív, ha viszont elutasítják, akkor csak 0.4
3.3.
Eltérésellenes preferenciák, teljes információ
Legyenek most a hasznosságfüggvények: u1 (a) = a − α1 max{(1 − a) − a, 0} − α2 max{a − (1 − a), 0} u2 (a) = 1 − a − β1 max{(1 − a) − a, 0} − β2 max{a − (1 − a), 0} úgy, hogy α1 > α2 > 0 és β2 > β1 > 0.5 Szemléletesen: a játékosok a pénzösszeg egyenlő elosztását preferálják, és jobban bántja őket az, ha saját kifizetésük tér el negatív irányba az egyenlőségtől, mint ha a másiké (ez a „minden szentnek maga felé hajlik a keze”-elv). Vegyük észre, hogy ha α2 < 12 , akkor az 1. játékos az egyenlő eloszlásnál is azt preferálja, hogy a neki jutó összeg nőjön, tehát hasznossága a = 1 esetén a maximális. Ebben az esetben az 1. modellhez nagyon hasonló végeredményt kapnánk (az 1. játékos a legmagasabb olyan pénzösszeget követeli, amit a 2. még éppen elfogad). Izgalmasabb forgatókönyvhöz jutunk, ha feltesszük, hogy α2 , β1 > 12 . A fenti függvényekkel azonban az a baj, hogy minden játékos hasznosságfüggvényének maximuma a = 4 5
1 2 -nél
van. Ez azonban nem túl érdekes helyzet, hiszen így - függetlenül
Az egyes eseteket technikai okokból nem hozzuk olyan formára, mint az előző alfejezetben. Az indexek azt jelzik, melyik játékos kap az egyenlőnél kevesebbet az adott felosztásban.
19
3.3. ELTÉRÉSELLENES PREFERENCIÁK, TELJES INFORMÁCIÓ U 0.5 0.4 0.3 0.2 0.1 a 0.25
0.5
0.75
1
-0.1 -0.2
3.1. ábra. Az 1. játékos hasznosságfüggvénye α1 = 0.2, α2 = 0.6 egymás paramétereinek ismeretétől - mindig az { 21 , 12 } egyensúlyt kapjuk. Módosítsuk tehát a felosztásokra vonatkozó preferenciákat úgy, hogy más-más felosztásokat tartsanak méltányosnak a játékosok: az 1. játékos szerint a teljes összeg k1 -ed része illeti őt, a 2. játékos szerint pedig a k2 -ed része. Az új hasznosságfüggvények: u1 (a) = a − α1 max{2(k1 − a), 0} − α2 max{2(a − k1 ), 0} u2 (a) = 1 − a − β1 max{2(k2 − a), 0} − β2 max{2(a − k2 ), 0} Legyen l az a k2 -nél kisebb a-érték, ahol u2 (a) = 0; ha nincs ilyen a [0, 1] intervallumon, akkor l = 0. Hasonlóképp legyen ¯l az a k2 -nél nagyobb a-érték, ahol u2 (a) = 0; ha nem találunk ilyet, akkor legyen ¯l = 1. Az így definiált l és ¯l értékeket k1 -gyel összevetve csupán három lehetőségünk van: 1. k1 < l < ¯l (3.2. ábra)6 2. l < k1 < ¯l (3.3. ábra) 3. l ≤ ¯l ≤ k1 (3.4. ábra) ¯ Mindezekben közös, hogy a 2. játékos az ( [l, l] intervallumon fogad el ajánlatokat, kü0, ha a ∈ / [l, ¯l] lönben pedig elutasítja őket, tehát s∗2 (a) = 1, ha a ∈ [l, ¯l] A három közül az első eset egy valószínűtlen helyzetet reprezentál, mikor is az 1. játékos kevesebb kifizetést tart önmaga számára méltányosnak, mint amennyit a 2. juttatna neki. Ebben az esetben [l] már az 1. játékos hasznosságfüggvényének negatív meredekségű szakaszán van, tehát a 2. játékos számára elfogadható ajánlatok közül itt lesz hasznossága a maximális. Ha az 1. játékos hasznossága itt pozitív, tehát u1 (l) > 0, akkor ez az egyensúlyi / [l, ¯l] ajánlat megteszi - ez 0 hasznosságot biztosít ajánlata, s∗ ; különben bármilyen a ∈ 1
6
A 3.2., 3.3. és 3.4. ábrákon a függőleges vonal az 1. játékos hasznosságfüggvényének maximumát, a
tört vonal pedig a 2. játékos hasznosságfüggvényét jelzi.
20
3. FEJEZET. INTERDEPENDENS PREFERENCIÁK
U k1=0.2 0.2
0.2
0.4
0.6
0.8
1.0
a
-0.2
-0.4
U = a - 0.85 maxH2 H0.7 - aL, 0L - 0.9 max H2 Ha - 0.7L, 0L
3.2. ábra. Túl méltányos 2. játékos
U k1=0.5 0.4 0.2
0.2
0.4
0.6
0.8
1.0
a
-0.2 -0.4 -0.6
U = a - 0.6 maxH2 H0.45 - aL, 0L - 0.7 max H2 Ha - 0.45L, 0L
3.3. ábra. Kellően métányos 2. játékos
U k1=0.8
0.4 0.2
0.2
0.4
0.6
0.8
-0.2 -0.4 -0.6
U = a - 0.6 maxH2 H0.45 - aL, 0L - 0.7 max H2 Ha - 0.45L, 0L
3.4. ábra. Túl kevéssé méltányos 2. játékos
1.0
a
3.4. ELTÉRÉSELLENES PREFERENCIÁK, INFORMÁCIÓS ASZIMMETRIA
21
számára. A szituáció ellenpárja a 3.: ekkor ¯l hasznosságának pozitivitását kell ugyanígy megvizsgálni. A 2. szituációban viszont az 1. játékos számára optimális k1 ajánlat elfogadható a 2. játékos számára, tehát itt érdemes ezt választania. Összefoglalva az 1. játékos egyensúlyi stratégiáját: l, ha k1 < l és u1 (l) > 0 ¯ l, ha ¯l < k1 és u1 (¯l) > 0 s∗1 (a) = k1 , ha l < k1 < ¯l ∀r ∈ / [l, ¯l], ha(k1 < l és u1 (l) ≤ 0) vagy (¯l < k1 és u1 (¯l) ≤ 0)
3.4.
Eltérésellenes preferenciák, információs aszimmetria
A feladatot itt is visszagöngyölítéssel oldjuk meg. Az előző esethez hasonlóan, a 2. játékos akkor mond igent egy a ajánlatra, ha u2 (a) > 0, azaz ha a ∈ [l, ¯l]. Az 1. játékos optimális stratégiájának megállapításához az összes lehetséges ajánlat [0, 1] intervallumát két szakaszra bontjuk: [0, k1 ]-re és [k1 , 1]-re. Ezek után kiválasztjuk, hogy a két szakasz közül melyiken nagyobb a várható hasznosságának maximuma.
7
Az 1. játékos maximum-
feladata: maxa E(u1 (a)s∗2 (a)) A két szelet abban tér el, hogy u1 különbözik rajtuk, a − α1 max{2(k1 − a), 0} illetve a − α2 max{2(a − k1 ), 0}. Mivel a vizsgált szakaszokon k1 − a és a − k1 előjele konstans, semmin sem változtat, ha helyettesítjük őket az a − 2α1 (k1 − a), illetve a − 2α2 (a − k1 ) függvényekkel. Az így átalakított maximumfeladatok:
maxa∈[0,k1 ] E((a − 2α1 (k1 − a))s∗2 (a)) = maxa∈[0,k1 ] (a − 2α1 (k1 − a))E(s∗2 (a)) maxa∈[k1 ,1] E((a − 2α2 (a − k1 ))s∗2 (a)) = maxa∈[k1 ,1] (a − 2α1 (a − k1 ))E(s∗2 (a)) Szükségünk van tehát E(s∗2 (a))-re. E(s∗2 (a)) = P (u2 (a) ≥ 0) = 1 − P (u2 (a) < 0) = 1 − P (a < l) − P (a > ¯l) = = 1 − P (1 − a − β1 (2(k2 − a)) < 0) − P (1 − a − β2 (2(a − k2 )) < 0) = = 1 − P (β1 (k2 − a) >
1−a 1−a ) − P (β2 (k2 − a) > ) 2 2 1−a 2 )-ra
Szükségünk van tehát P (βi (k2 − a) >
(i = 1, 2-re). Ehhez tegyük fel, hogy
βi -nek és k2 -nek létezik közös fβi ,k (s, t) eloszlásfüggvénye. Ekkor a keresett valószínűség (l. a 3.5. ábrát): P (βi (k2 − a) >
1−a )= 2
Z
0
∞Z ∞
1−a +a 2s
fβi ,k2 (s, t − a)dt ds
22
3. FEJEZET. INTERDEPENDENS PREFERENCIÁK t 4
3
2
1 t = H1 - aL H2 sL + a
0.0
0.2
0.4
0.6
0.8
1.0
s
3.5. ábra. A második játékos Igentmondásának valószínűsége Ezt a közös eloszlásfüggvény konkrét ismerete nélkül természetesen nem tudjuk specifikálni. Az egyszerűség kedvéért g1 (a)-val és g2 (a)-val jelölve a fenti valószínűségeket és a szerint deriválva: (1 + 2α1 )(1 − g1 (a) − g2 (a)) − (a − 2α2 (a − k1 ))(g1′ (a) + g2′ (a)) = 0 ⇔ ⇔ (1 + 2α1 )(1 − g1 (a) − g2 (a)) = (a − 2α2 (a − k1 ))(g1′ (a) + g2′ (a)) illetve a másik szakaszon (1 − 2α1 )(1 − g1 (a) − g2 (a)) = (a − 2α2 (a − k1 ))(g1′ (a) + g2′ (a)) Ezekhez az egyenletekhez szintén egy határhaszon=határköltség típusú értelmezést fűzhetünk. A bal oldal azt jelzi, mennyi többlethaszna származik az 1. játékosnak a növekedéséből, a jobb oldal pedig a kisebb elfogadási valószínűség miatt kieső jövedelmet jelzi. A konkrét a-értékek meghatározása után8 , a határponti a = k1 -gyel összehasonlítva a várható hasznosságokat megkapjuk s∗1 -ot.
7
ez biztosan nemnegatív, hiszen biztosan pl. ajánlhatja a számára optimális k1 felosztást, ahol várható
hasznossága nem lehet negatív. 8 Természetesen ellenőriznünk kell, az egyenlőség megoldásaként kapott a vagy a-k a megfelelő szakaszba esnek-e.
4. fejezet
Evolúciós játékelmélet 4.1.
Koncepció
Az alábbiakban bevezetjük az evolúciós játékelmélet néhány fogalmát. A terület teljes áttekintéséhez különösen (Vega-Redondo, 1996) és (Samuelson, 1998) műveit ajánljuk. A történeti előzményekhez: a terület John Maynard Smith és George Price, azaz két (matematikai irányultságú) biológus munkásságából nőtt ki; meg kell jegyeznünk, hogy számos korábbi modell ismeretes, melyeket az evolúciós játékelmélet körébe utalhatunk, anélkül azonban, hogy szerzőik megpróbálták volna általánosítani eredményeiket. Különösen a nyolcvanas évektől kezdve a biológián kívül számtalan más területen alkalmaznak ilyen modelleket, az antropológiától a közgazdaságtudományon át a mérnöki tudományokig. Az evolúciós játékelméleti modellek két lényeges kiterjesztését adják a hagyományos játékelméleti modelleknek. Elsősorban feltételezik, hogy a vizsgált (normál- vagy extenzív formában megadott) játékot egy teljes populáció játssza, nem csupán annyi játékos, ahány a normálforma leírásában szerepel (azaz pl. a fogolydilemma esetében nem csupán két játékossal dolgozunk, hanem egy olyan populációval, melyek tagjait az adott modell valamilyen módszerrel összepárosítja, majd az így egymáshoz rendelt egyedek játszanak egymással fogolydilemmát). Másrészt pedig azt feltételezi, hogy a populáció tagjai ismételten játsszák az alapjátékot, miközben maga a populáció is átalakul. Ez a második pont azt implikálja, hogy lényegessé válik az idődimenzió. Nem csupán arról van szó, mint a szekvenciális játékoknál, miszerint a játékosok információt gyűjthetnek partnereik lépéseiről (mint láthatjuk, ez nem is mindig igaz); és nem is pusztán annyiról, mint az ismételt játékok esetében, melyekben a játékosok „hasznosságot gyűjtenek” az ismétlések során1 , hanem arról, hogy a populáció (a játékosok halmaza) módosul az alapjátékok kimenetelének következtében. A fenti két tulajdonság teszi legitimmé az „evolúciós” elnevezést. A standard darwiniánus definíció szerint egy folymatot akkor nevezhetünk „evolúciós”-nak, ha rendelkezik 1
Természetesen az ismételt játékok speciális típusú szekvenciális játékok, tehát a fenti megkülünbözte-
tésünk némileg látszólagos
23
24
4. FEJEZET. EVOLÚCIÓS JÁTÉKELMÉLET
az szelekció, mutáció és öröklődés aspektusaival. Lássuk, hogyan valósul meg ez egészen konkrétan egy evolúciós játékelméleti modell keretében. Első lépésként meg kell határoznunk, hogy 1. diszkért vagy 2. folytonos időben dolgozunk. Ezután definiálunk egy populációt, melynek számunkra döntő paramétere a populáció számossága. Bár elvileg bármilyen számosság használható, a modellek túlnyomó része vagy kontinuum méretű, vagy véges (de nagy) populációval dolgozik. Ez azért fontos, mert meghatározza, egy-egy egyed elhanyagolható-e vagy sem a teljes populáció egészének viszonylatában.2 Modellünk ezután specifikálja, hogy a szereplők hogyan játsszák a játékot. Alapvetően itt is két modelltípust különíthetünk el: az egyikben úgy tekinthetjük, hogy a populáció egyenként k játékost tartalmazó partíciókra oszlik, akik egymást közt játszanak valamilyen alapjátékot: pl. a fogolydilemma esetében párok játszanak, és a tagok hasznossága (kifizetése) csak az ebben az alapjátékban elért eredményüktől függ („pair-wise”, illetve „k-wise contests”). A másik esetben a populáció nem particionáltható, mindenki hasznossága függ mindenki más stratégiájától („playing the field” - pl. egy focimeccs). A biológiai evolúció kétszintű: a gének összessége adja a genotípust; a genotípusok meghatározzák a fenotípust, a fenotípus pedig meghatározza a gének szelekcióját - azaz tipikusan azt, hogy kik (és milyen mértékben) örökíthetik tovább génjeiket. Ráadásul a biológiai organizmusok többsége diploid (a gének két szülőtől származnak, ezek kombinációja és a további mutációk adják az új organizmus genotípusát). Ezekkel szemben az evolúciós játékelméleti modellek többsége nem különíti el a genotípust a fenotípustól, és az organizmusok aszexuálisan szaporodnak, haploid génállományú egyedeket alkotva. Mindezt szem előtt tartva, felépítendő modellünkek azt is meg kell határoznia, meddig élnek az organizmusok, milyen ütemben szaporodnak és típusuk továbbörökítése hogyan függ az alapjátékban elért eredményüktől - azaz a szelekció és öröklődés mechanizmusait és kapcsolatát (részletesebben l. a 4.3. alfejezetben). A mutáció fogalma elsősorban az evolúciós stabilitás definíciója szempontjából fontos.
4.2. 4.2.1.
Evolúciós stabilitás Evolúciósan stabil stratégiák
Legyen adott egy G = {N, S, f } játék3 , ahol S - a tiszta stratégiák halmazának számossága véges, és |S| = m. S = {Si , i ∈ N }-ről tegyük fel, hogy Si = Sj ∀i, j ∈ N Az S-en kevert stratégiák halmazát tehát az m − 1 dimenziós szimplex - ∆m−1 - reprezentálja. 2
Ha a populáció véges n taggal, úgy egy megjelenő mutáns legalább a populáció 1/n-ed részét repre-
zentálja. Ennek következtében azok a mutációk, melyek folytonos populáció esetében csak ennél kisebb mutáns-arányokra mozdítanak ki egy populációt az evolúciós egyensúlyból, itt nem hatnak, vagyis az evolúciós stabilitás kritériuma gyengül. Részletesebben l. (Vega-Redondo, 1996, p. 32.) 3 Ennek a fejezetnek a formalizusában f (σ1 , σ2 ) a σ2 (tiszta vagy kevert) stratégiát játszó részpopuláció egyedeinek kifizetését mutatja, a σ1 stratégiát játszók ellenében. Definícióinkban σ1 , az első helyen lévő stratégia a teljes populáció stratégiájára fog utalni. Ezt megtehetjük, hiszen ha minden részpopuláció stratégiája az m − 1 -dimenziós szimplexbeli, akkor ezek konvex kombinációja is.
25
4.2. EVOLÚCIÓS STABILITÁS Evolúciósan stabilnak nevezzük azokat a σ ∗ ∈ ∆m−1 stratégiákat, melyekre ∀σ ′ 6= σ ∗ -ra f (σ ∗ , σ ∗ ) ≥ f (σ ∗ , σ ′ ), és ′
′
f (σ , σ ∗ ) > f (σ , σ ′ ), ha f (σ ∗ , σ ∗ ) = f (σ ∗ , σ ′ ) Intuitíve ez a definíció azt fejezi ki, hogy egy evolúciósan stabil stratégia olyan, hogy ha egy kellően nagy populáció ezt a stratégiát választja, akkor ebbe a populációba nem törhetnek be mutánsok. A rend kedvéért azonban meg kell jegyeznünk, hogy kevert ESSek (evolúciósan stabil stratégiák) esetén több alternatív interpretációval dolgozhatunk. Az egyik szerint a teljes populáció minden egyes tagja kevert stratégiát választ (pl. a gyáva nyúl-játék kevert egyensúlyában, amennyiben ahhoz a hagyományos történetet társítjuk: ketten vezetnek egy kocsit egymással szembe, az veszít, aki hamarabb félrerántja a kormányt). A másik szélső interpretáció szerint a kevert egyensúly csak a tiszta populációk megoszlását fejezi ki. A gyáva nyúl-játék biológiai interpretációja mellett (héja-galamb játék, melynek kifizetőmátrixa megegyezik a gyáva nyúl-játékéval) nem mondhatjuk azt, hogy mindegyik állat eldönti egy-egy szituációban, hogy héjaként vagy galambként viselkedik; a helyzet az, hogy viselkedési programjuk adott, az egyensúly csak azt fejezi ki, mik a stabil populáció-részarányok. Valójában az ESS minden olyan - különböző tiszta és kevert stratégiákat játszó - populációt megenged, amely a tiszta stratégiák között ugyanazt az eloszlást generálja. Technikailag az ESS fenti definíciója csak szimmetrikus játékokra alkalmazható, azaz olyanokra, ahol a különböző játékosok stratégiahalmazai megegyeznek. Számos modellezésre érdemes szituáció azonban nem szimmetrikus. Azért, hogy az ESS-fogalom kiterjeszthető legyen asszimetrikus helyzetek kezelésére, feltehetjük, hogy létezik egy, a megfigyelt játék előtti állapot, melyben eldől, az asszimetrikus játékban ki melyik pozícióba kerül. Az így szimmetrikussá tett játékban a játékosok stratégiái minden eshetőségre meg kell határozzák az akciókat, így tehát a lehetséges stratégiák halmaza már megegyezik.
4.2.2.
Ekvivalens definíciók, létezés ′
A fenti definíció ekvivalens a következővel: egy σ ∗ ∈ ∆m−1 ESS, ha minden σ ∈ ′
∆m−1 , σ ∗ 6= σ -ra ∃ǫ∗ > 0, ∀ǫ 0 < ǫ < ǫ∗ -ra ′
f (σ ∗ , (1 − ǫ)σ ∗ + ǫσ ′ ) > f (σ , (1 − ǫ)σ ∗ + ǫσ ′ ) Ez a definíció más formalizmussal fejezi ki ugyanazt a gondolatot: az ESS olyan, hogy minden másik stratégiára létezik egy olyan arány, hogy ha a populáció csak annál kisebb része mutálódik, akkor az eredeti egyensúly visszaáll 4 . A hagyományos játékelmélet fogalmaival való összefüggés néhány ponton egészen triviális: egyfelől definíciónk első része miatt minden ESS egyben Nash-egyensúly. Másrészt az is közvetlenül látható, hogy minden szigorú szimmetrikus Nash-egyensúly szükségképpen 4
Pontosabban akkor áll vissza, ha valamilyen monoton és folytonos szelekciós dinamika határozza meg
a populáció alakulását, ilyen pl. a következő alfejezetben tárgyalt replikátor dinamika
26
4. FEJEZET. EVOLÚCIÓS JÁTÉKELMÉLET
ESS is. Az ESS tehát a Nash-egyensúly fogalmának finomítása. Meg lehet mutatni (VegaRedondo, 1996, p. 21.), hogy szimetrikus, kétszereplős játékok esetében minden ESS az alapjáték tökéletes egyensúlya. A szimmetrikus, kétszereplős játékoknak van egy további előnye az ESS fogalma szempontjából: ha f (s1 , s2 ) 6= f (s1 , s1 ) és f (s2 , s1 ) 6= f (s2 , s2 ), akkor létezik ESS (Samuelson, 1998, p. 45.).
4.2.3.
Evolúciósan stabil stratégiahalmazok
Könnyű olyan játékot szerkeszteni, amelyben nem létezik ESS. Gondoljuk meg pl. a következőt: Ha egy szekvenciális játékban egy Nash-egyensúlyban léteznek olyan döntési pontok, amelyekhez az adott Nash-egyensúlyt játszva nem jutunk el, úgy az adott egyensúlyban nem jelentkezik szelekciós erő azon mutánsok ellen, akiknek stratégiája csak annyiban tér el az egyensúlyt játszókétól, hogy ezekben a döntési pontokban mást lépnek. Az ilyen jellegű problémák kezelésére érdemes bevezetni a semlegesen stabil stratégiák fogalmát: egy σ ∗ ∈ ∆m−1 stratégia semlegesen stabil (NSS - neutrally stable strategy), ha ∀σ ′ 6= σ ∗ -ra f (σ ∗ , σ ∗ ) ≥ f (σ ∗ , σ ′ ), és ′
′
f (σ , σ ∗ ) ≥ f (σ , σ ′ ), ha f (σ ∗ , σ ∗ ) = f (σ ∗ , σ ′ ) Láthatjuk, hogy az NSS definíciója csak abban különbözik az ESS-étől, hogy a második feltételében szigorú egyenlőtlenséget sima egyenlőtlenséggé alakítottuk - tehát nyilván minden ESS egyben NSS is. Szemléletesen az NSS azt fejezi ki, hogy az ilyen egyensúly bizonyos mutánsok inváziója ellen ugyan nem védett, de ezek a mutánsok nem „ölik ki” az eredeti stratégiákat. Az eredeti NSS és azok a mutánsok, melyek kifizetése ugyanannyi, mint az NSS-é, együttélnek. Az NSS-ek ezen interpretációja egy további alapfogalomhoz, az evolúciósan stabil stratégiahalmaz okéhoz. Stratégiák egy E halmazát evolúciósan stabil stratégiahalmaznak nevezzük, ha ∀σ ∗ ∈ E-re és ∀σ ′ ∈ / E, ha f (σ ∗ , σ ′ ) = f (σ ∗ , σ ∗ ), akkor f (σ ′ , σ ∗ ) > f (σ,′ σ ′ ). Nyilván minden ESS egytagú evolúciósan stabil halmaz. Továbbá egy evolúciósan stabil halmaz minden eleme NSS (Cressman, 2003, p. 43.).
4.3.
A replikátor dinamika
4.3.1. 5
Diszkrét replikátor dinamika
Legyen az időpillanatok halmaza T = {0, 1, 2, . . . }. Legyen adott egy G = {N, S, f }
játék, melyet a populáció tagjai körönként játszanak. Korlátozzuk S-et a tiszta stratégiák halmazára, és tegyük fel, hogy S számossága véges, és |S| = m, tehát összesen m-féle tiszta stratégiát játszhatnak a populáció tagja. Jelölje minden időpillanatra pi (t), i ∈ M = {1, 2, ...m} az adott időpillanatban az m-edik tiszta stratégiát játszók populációbeli számát, vi (t) = 5
Ppi (t) j pj (t)
pedig a részarányát. A teljes populáció állapotát a p(t) = (pi (t))i=1,2,....m
Elsősorban(Cressman, 2003) és (Vega-Redondo, 1996) nyomán.
4.3. A REPLIKÁTOR DINAMIKA
27
illetve v(t) = (vi (t))i=1,2,....m vektorok jelölik, utóbbiak az m − 1 -szimplex elemei, hiszen P ∀t i vi (t) = 1. Tegyük fel továbbá, hogy populációnk minden tagja egy periódusig él, aszexuálisan
szaporodik, továbbá nincs mutáció, azaz minden utód a szülők genotípusát örökli (itt a genotípus a játszott tiszta stratégia, egyben a fenotípus is). Az egyes egyedek által hátrahagyott utódok száma pedig nem más, mint az illető G játékbeli kifizetőfüggvénye. Azaz ha egy egyed t időpontban az si tiszta stratégiát játssza, az ő kifizetése f (si , v(t)) = fi (t). A fenti definíciók alapján pi (t + 1) = pi (t)fi (t), így P fi (t)vi (t) j pj (t) pi (t + 1) pi (t)fi (t) P vi (t + 1) = P =P =P = pi (t + 1) j pj (t)fj (t) j (fj (t)vj (t) l pl (t)) fi (t) fi (t)vi (t) = vi (t) P =P j fj (t)vj (t) j fj (t)vj (t)
Az egyenlet szerint a t + 1 - edik időszakban valamelyik tiszta stratégiát játszók aránya egyenesen arányos az előző időszakban egyazon tiszta stragiát játszókéval, és az adott stratégia relatív sikerével az összes stratégia átlagos sikeréhez viszonyítva. Ezt az egyenletet - mely megadja az adott tiszta stratégiát követők arányának változását diszkrét időben diszkrét replikátor dinamikának nevezzük. Az egyes részpopulációk változása időszakonként: P fi (t) − j fj (t)vj (t) fi (t) − f¯(t) P ∆vi (t) = vi (t + 1) − vi (t) = vi (t) ) = vi (t)( f¯(t) j fj (t)vj (t)
ahol f¯(t)-vel jelöltük a populáció átlagos hasznosságát.
4.3.2.
Folytonos replikátor dinamika
Vegyük át az előző modell feltevéseit, azzal a módosítással, hogy ezúttan folytonos időben dolgozunk, azaz T = R+ . Emiatt természetesen fel kell adnunk azt a feltevést is, hogy az egyedek pontosan egy időszakig élnek, így a kifizetőfüggvény már nem jelentheti az utódok abszolút számát; fi -t6 interpretálhatjuk azonban az i-edik tiszta stratégiát játszók nettó növekedéseként (születési ráta - halálozási ráta). Ez azt jelenti, hogy p˙ i = pi fi . Mivel vi =
Ppi , j pj
így p˙ i dvi = v˙ i = dt
P
j
P P pj − pi ( j˙ pj ) j p˙j P = vi (fi − P ) = vi (fi − f¯) 2 ( j pj ) p j j
ahol f¯-fel jelöltük a teljes populáció átlagos növekedési ütemét. Ugyanezt az eredményt megkaphatjuk közvetlenül a diszkrét dinamikából is, ha feltételezzük, hogy minden ∆ > 0 időszakban a teljes populáció ∆ része utódokat szül és azonnal meghal, azaz a folytonos replikátor dinamika a diszkrétnek határesete. Feltűnhet, hogy a részpopulációk változásainak (∆vi (t), illetve v˙ i ) képletei hasonlóak, azonban a diszkrét esetben szerepel a nevezőben 6
a t indexeket a folytonos esetben mindenütt elhagyjuk
28
4. FEJEZET. EVOLÚCIÓS JÁTÉKELMÉLET
az átlagos hasznosság. Hogy közelebb hozzuk a két dinamikát, módosíthatjuk a replikátor dinamika egyenletét, leosztva a változás ütemét f¯-fel. Ez a trajektóriákat nem módosítja lényegesen, hiszen mindegyik részpopuláció mozgásegyenlete arányosan csökken. Könnyű látni, hogy a populációarányok pályái változatlanok maradnak, csupán a változás üteme módosul. Az új dinamika tehát: v˙ i = vi (
4.3.3.
fi − f¯ ) f¯
A replikátor dinamikák alapvető tulajdonságai
• Az m-1 szimplex invarianciája: könnyű ellenőrizni, hogy ha v(0) eleme az ∆m−1 m−1 -szimplexnek, akkor ∀i ∈ N-re, illetve ∀j ∈ R+ -re v(tj )-is. Ez azt jelenti, hogy dinamikáink definíciója konzisztens v -knek mint populáció-részarányoknak az értelmezésével. • Nem csupán az egész ∆m−1 , hanem annak belseje és szélei is invariánsak a replikátor dinamika mellett, hiszen ∀t vi (t) = 0 ⇔ vi (0) = 0 Ez azt jelenti, hogy a tiszta stratégiákat játszó populációk nem jelennek meg és nem is tűnnek el teljesen - legfeljebb részarányuk tart a nullához. • A replikátor dinamika additíve invariáns, azaz ha az eredeti G játék f kifizetőfüggvényhalmazát eltoljuk egyazon k konstanssal, az nem befolyásolja a trajektóriákat. • Válasszunk ki két, i és j stratégiát, melyekre vi , vj > 0, és hasonlítsuk össze ezek növekedési ütemét! Kapjuk: fi − fj vi (t + 1) − vi (t) vj (t + 1) − vj (t) − = vi (t) vj (t) f¯ v˙ i v˙ j − = fi − fj vi vj fi − fj v˙ i v˙ j − = vi vj f¯ Láthatjuk, hogy a második esetben az i és j stratégiák növekedéseinek üteme csak a két stratégia hasznosságának különbségétől függ, az első és harmadik egyenletben pedig más stratégiák csak az összes súlyozott átlaga révén befolyásolják két növekedési ütem közötti különbséget.
4.4.
A replikátor dinamika és az evolúciós stabilitás összefüggése
A következőkben áttekintést adunk néhány tételről, melyek az egyensúlyfogalmakon alapuló szemléletet (Nash, ESS) összekapcsolják a (folytonos) dinamikai megközelítéssel. Ennek érdekében először röviden felelevenítünk pár dinamikai fogalmat:
4.5. AZ ULTIMÁTUMJÁTÉK EVOLÚCIÓS VIZSGÁLATA
29
Legyen x˙ = F (x) egy dinamikai rendszer. Egy x∗ pontot a rendszer egyensúlypontjának nevezünk, ha x˙∗ = 0. Egy x∗ pontot Ljapunov-stabilnak nevezünk, ha bármely U környezetéhez ∃V környezete, hogy minden V -ből induló trajektória U -ban marad, azaz x(t) ∈ U, ∀t ≥ 0, x(0) ∈ V esetén. Egy x∗ pontot aszimptotikusan stabil egyensúlynak hívunk, ha Ljapunov-stabil és ∃W környezete, hogy minden W -ből induló trajektória konvergál x∗ -hoz. Könnyű látni, hogy minden Nash-egyensúly fixpontja a replikátor dinamikának. Továbbá ha egy x(t) trajektória konvergál x∗ -hoz, akkor x∗ szimmetrikus Nash-egyensúly. Ha x∗ Ljapunov-stabil, akkor x∗ megint szimmetrikus Nash-egyensúly. (Hofbauer et al., 1998, p. 69.), (Cressman, 2003, p. 35.) Ha x∗ aszimptotikusan stabil, akkor tökéletes Nashegyensúly. Ha x∗ szigorú szimmetrikus Nash-egyensúly, akkor aszimptotikusan stabil. Az ESS-ek fogalmának relevanciáját elsősorban az az eredmény igazolja, miszerint minden ESS aszimptotikusan stabil. A fordítva állítás azonban sajnos nem teljesül. (VegaRedondo, 1996, p. 50.). Ez alapján azt is könnyű látni, hogy minden evolúciósan stabil stratégiahalmaz is aszimptotikusan stabil. Ha csupán két tiszta stratégiánk van, úgy minden belső trajektória ESS-hez tart. Továbbá ilyenkor a Ljapunov-stabilitás, az evolúciós stabilitás és az ESS ekvivalensek. Kettőnél több tiszta stratégia esetén azonban ezek az ekvivalenciák általában nem teljesülnek.
4.5.
Az ultimátumjáték evolúciós vizsgálata
A 4.2. alfejezetben jeleztük, hogy az asszimetrikus játékokat szimmetrizálni kell, azaz mostantól a populációnk minden tagja
1 2
valószínűséggel kerül az 1., ill. 2. pozícióba; to-
vábbá a szekvenciális játékok esetében a csak a meg nem valósuló játékfa-szakaszoknál különböző stratégiák között nincs evolúciós presszió, tehát első pillanattól fogva egyértelmű, hogy az ultimátumjátékban nincs ESS. Vannak-e azonban NSS-ek? A lehetséges jelöltek nyilván az eredeti játék Nash-egyensúlyi stratégiáiból kerülnek ki, ezek pedig - az 1. fejezet alapján: s∗1 = a, 100 ≥ a > 0 s∗2 (k) = 1; s∗2 (k′ ) = 0 ∀a′ > a vagy s∗1 = 0 ∀s1 s∗2 (s1 ) = 0 Ezek közül a második nyilvánvalóan nem lehet NSS, hiszen minden olyan stratégia pozitív várható kifizetést ad, ahol bármelyik ajánlatot elfogadják. Maradnak tehát az első típusú stratégiák. Legyen σ ∗ = {s∗1 , s∗2 } egy konkrét ilyen stratégia, adott a∗ mellett. Lássuk, ez NSS-e? Mivel ilyen populációban a a∗ ajánlatot elfogadják, ezért a várható játékonkénti
30
4. FEJEZET. EVOLÚCIÓS JÁTÉKELMÉLET
és játékosonkénti kifizetés
a∗ +100−a∗ 2
= 50. Mivel ennél a-nál magasabb követelést a populá-
cióból senki nem fogad el, a második pozícióban pedig csak a 0 és 100 − a kifizetések közül lehet választani, így biztosan teljesül az NSS-ség első feltétele (f (σ ∗ , σ ∗ ) ≥ f (σ ∗ , σ ′ )). ′
′
A második feltételhez (f (σ , σ ∗ ) ≥ f (σ , σ ′ ), ha f (σ ∗ , σ ∗ ) = f (σ ∗ , σ ′ )) először meg kell vizsgálnunk, hogy mely σ ′ stratégiák kifizetése átlagos kifizetése 50 egy σ ∗ környezetben. Ehhez egyfelől szükséges, hogy elfogadják a a∗ ajánlatot, tehát s′2 (a∗ ) = 1. Másrészt szükséges, hogy az ő ajánlataikat elfogadják, ami csak akkor teljsülhet, ha s′1 = a′ ≤ a∗ . Azonban ez még kevés, hiszen a σ ∗ -ot játszók áltagos kifizetése 50, azaz a mutánsokra teljesülni kell a
a′ +100−a∗ 2
= 50 egyenlőségnek, tehát s′1 = s∗1 . Ezek alapján a mutánsok csak a második
stratégiájukban térhetnek el, azzal a feltétellel, hogy s′2 (a∗ ) = 1. Ebből következik, hogy ′
f (σ , σ ∗ ) = 50, hiszen az s∗2 -ot játszók ajánlatait elfogadják (s′2 (a∗ ) = 1), illetve ők is elfogadják az ellenfél a∗ ajánlatát. Mivel tiszta populációra ez a maximális átlagos kifizetés ′
′
(Pareto-optimum), ezért f (σ , σ ∗ ) ≥ f (σ , σ ′ ) biztosan teljesül. Tehát egy kivételével mindegyik Nash-egyensúly NSS. Kérdés, hogy ezekkel a mutánsakkol evolúciósan stabil halmazt alkotnak-e. Könnyű látni, hogy nem: ehhez az volna szükséges, hogy ezek a mutánsok szintén NSS-ek legyenek, ennek pedig szükséges feltétele a Nash-egyensúlyiság, azonban könnyű látni, hogy adott a∗ esetén pl. az σ ′ = {s′1 , s′2 } = {a∗ > 0, s2 (a) = 1 ∀a} nem Nash-egyensúlyi (hiszen a második pozícióban minden köveletésre igent mond, tehát az első játékos kérhetné a teljes pénzösszeget), pedig kielégíti a fenti feltételt. Ugyanez dinamikus terminusokban a következőképpen fejezhető ki: egy tiszta σ ∗ NSSpopulációban megjelenhetnek olyan mutánsok, amelyek ajánlata ugyanannyi, viszont alacsonyabb ajánlatokat is elfogadnak. Mivel az ajánlatok változatlanok, ezért a mutánsok (és a teljes populáció) megfigyelt viselkedése nem tér el az eredetitől. Akár azt is feltehetjük, hogy a teljes populáció kicserélődik mindent-elfogadókra. Ekkor azonban már megjelenhetnek olyan új mutánsok, akik növelik követelésüket, akár egészen k¯ = 100-ig, hiszen így az 1. pozícióban nagyobb kifizetést érnek el. Sztochasztikus terminusokban a dinamika 1 valószínűséggel konvergál abba az állapotba, ahol mindenkinek 100 a követelése. Folytonos esetben végül tehát egyetlen evolúciósan stabil halmaz-jelölt marad: az s∗1 = 100 és s∗2 (100) = 1 kritériumokat teljesítő stratégiák köre. Ez már valóban stabil, hiszen a kevesebb, mint a maximumot követelők biztosan kevesebbet kapnak, mint 100, 2. játékosként pedig nem kapnak kedvezőbb ajánlatot. Felmerülhet még az s1 = 100, s2 (100) = 0 alakú mutánsok inváziója; ezek azonban önmaguk ellen 0 kifizetést érnek el, így nyilván ′
′
f (σ , σ ∗ ) ≥ f (σ , σ ′ ). Azt kaptuk tehát, hogy az egyetlen evolúciósan stabil stratégiahalmaz viselkedési szempontból (tehát a tényleges lejátszásokat figyelembe véve) megegyezik a részjáték-tökéletessel. Modellünkben az evolúciós játékelméleti megközelítés nem teszi lehetővé az altruizmus fennmaradását.
5. fejezet
Ágens-alapú modellek 5.1.
Az ágens-alapú modellezés szemlélete
Az ágens-alapú modellek (a továbbiakban: ABM - az angol „agent-based model”-ből) ötlete már a 40-es években megjelent, akkor azonban a számítógépek alacsony fejlettségi színvonala és gyenge processzor-kapacitásuk miatt nem voltak megvalósíthatóak. Az első kialakított ABM tulajdonképpen Neumann János nevéhez köthető, aki papírral-ceruzával dolgozta ki az első sejtautomatákat. Mintegy negyedszázaddal később egy kétdimenziós sejtautomata, az Életjáték lett az első ABM, melyre a tudományos nagyközönség is felfigyelt. Az ABM-ek szisztematikus kutatásának további két jól ismert előfutára Thomas Schelling és Robert Axelrod. A számítási kapacitások korlátozottságát jól jellemzi, hogy Schelling 1971-es dinamikus szegregációs modelljének szimulációjához pénzérméket, és nem számítógépes szimulációt használt. Axelrod első kísérlete, melyben fogolydilemmát játszó programokat eresztett össze egymással (Axelrod, 1984), két szempontból is óriási előrelépést jelentett: egyrészt a kísérleti metodológia egy új, számítógépes szimulációkon alapuló irányát jelölte ki, másrészt megnyitotta a teret a játékelméleti stratégiák algoritmikus értelmezésére.1 Bizonyos szempontból azonban Axelrod még az evolúciós játélelméleti megközelítéshez állt közelebb: az eredeti kísérletekkel úgy dolgozott tovább, hogy azt feltételezte, az egyes stratégiákat a populáció egy-egy részarányát képviselik; majd azt kezdte el vizsgálni, hogyan változnak az egyes stratégiák részarányai a populációban a replikátor dinamika mentén, kik halnak ki, kik sikeresek pusztán időlegesen, mi a stabil végállapot stb. Az ABM-ek igazi forradalma a számítógépek robbanásszerű elterjedésével és a processzor-kapacitás drámai növekedésével aztán a 90-es években kezdődik. Jelenleg számos kifejezetten ABM-célú programnyelv és felület áll rendelkezésre, az alkalmazási területek köre pedig lényegében nyitott. De mitől ABM egy ABM?2 Az evolúciós játékelmélethez hasonlóan az ABM-ek megha1
Ez utóbbinak köszönhető egy friss kutatási terület, az algoritmikus játékelmélet. Axelrod munkássá-
gának úttörő jellegét igazolja, hogy ennek megjelenésére is mintegy tíz évet kellet várni (Axelrod, 1984) megjelenését követően. 2 Részben (Macal et al., 2005) alapján. A 4. fejezettel összehasonlítva tárgyalásunk kötetlenebb lesz,
31
32
5. FEJEZET. ÁGENS-ALAPÚ MODELLEK
tározó eleme az idő és az időbeli változás; a modellek túlnyomó részében az idő diszkréten telik. A modellek tipikus elemei az ágensek, az ágensek közötti viszonyok és az ágensek környezete. Egy ágens egy diszkrét, körülhatárolható entitás, jól definiált, idioszinkratikus jellemzőkkel (ellentétben az evolúciós játékelmélet populációinak egyedeivel, akik semmiben sem különböznek a populáció más egyedeitől). Jellemző még az ágensekre valamilyen viselkedési szabály, mely meghatározza a többi ágenssel való interakciójukat. Ez az interakció tipikusan lokális, azaz csak az ágensek és a környezet egy részével történik - ez megint egy fontos eltérés az evolúciós játékelmélettől. Ennek az interakciónak eredményeként pedig az ágensek sajátos tulajdonságai időben változnak. Egy ABM vizsgálatának tárgyát a tulajdonságok alakulása (különböző induló feltételek és környezetek mellett) képezi. Az ágensek közti viszonyok at általában egy gráf vagy egy, a környezet által meghatározott topológia kódolja; egy-egy ABM vizsgálata gyakran arra irányul, hogy különböző típusú ágens-közti kapcsolatokat kódoló gráfok (pl. hálók, kisvilág-gráfok, dinamikus gráfok) mellett hogyan változik a rendszer viselkedése.3 A környezet és az ágens közötti elkülönítés némileg önkényes, általában csak arról van szó, hogy az ágens viselkedésére kíváncsiak vagyunk, a környezetére kevésbé; időnként - de nem mindig - ez azt jelenti, hogy az ágens nem hat vissza a környezetére, így a környezet nem, vagy teljesen véletlenszerűen változik, vagyis az ágens ilyenkor endogén, a környezet exogén. Amikor azonban valódi kölcsönhatás van az ágens és környezete között, olyankor a szemléletünk azt súgja, hogy az ágens aktív, míg a környezet pusztán reaktív. Ez a szemlélet ahhoz kapcsolódik, hogy a szabály, amely szerint az ágensek tulajdonságai módosulnak, sokszor tanulási folyamatként interpretálható. Ezek azonban természetesen meglehetősen hozzávetőleges meghatározások, és általában nincs éles határ az ágens és környezete között. Ugyanilyen átjárás van a „környezet” és az „ágensek közti viszonyok” fogalmai között.
5.2.
Egy ágens-alapú modell kétdimenziós rácson
A szimuláció menete a következő: 0. A kezdeti stratégiák beállítása. 1. Az ágensek játszanak minden szomszédjukkal mindkét szerepben, és begyűjtik az ennek megfelelő fitnesszt. 2. Mindenki módosítja stratégiáját az éppen tanulási szabály szerint. 3. Ha van mozgás, az ágensek elfoglalják új pozícióikat. 4. Az eddig összegyűjtött fitnessz diszkontálása. 5. Újrakezdés (1)-től (Hacsak nem teljesül a megállási feltétel). lévén hogy az ABM-eknek - sokszínűségük és viszonylagos újdonságuk miatt - az evolúciós játékelméleti modelleknél kevésbé létezik átfogó elmélete. 3 Jó példa erre (MacKenzie, 2007).
5.2. EGY ÁGENS-ALAPÚ MODELL KÉTDIMENZIÓS RÁCSON
33
Az egyes fogalmakat és lépéseket alább tisztázzuk. Az ágensek a következő tulajdonságokkal rendelkeztek: 1. Fitnesszértékek - amik meghatározzák viselkedési szabály paramétereinek alakulását. A klasszikus közgazdaságtan terminológiájában ez az ágensek „hasznossága”; ezt a terminust azonban félrevezető volna használni, hiszen itt egy viselkedési program egyértelműen meghatározza, hogyan cselekszenek az ágensek. Megkülönböztetjük az ultimátumjátékban 1. és 2. játékosként elért fitnesszt, valamint a teljes fitnesszt. Továbbá külön tároljak az adott periódusban elért fitnesszt az „összegyűjtött” fitnessztől; ezt az ágensek periódosunként diszkontálva gyűjtik. A diszkontálás a múltra vonatkozik: minél régebbi egy periódus, annál kisebb a relevanciája az ágens (viselkedési szabálya) számára. A diszkonttényező a modell paramétere. 2. Stratégia, azaz ajánlat és elfogadási limit - a viselkedési szabály paraméterei. Az ultimátumjáték stratégiáit két 0 és 100 közötti számmal kódoltuk; ezeknek az értékei 8 tizedesjegyig változhattak, azaz (technikai okokból) a stratégiák diszkrét értékeket vehettek fel, de a szomszédos értékek közötti lépésköz olyan kicsi, hogy a szimuláció tekinthető a folytonos modell megvalósításának. Az ajánlat változó egyszerűen kódolja az ágensek 1. játékosként alkalmazott stratégiáját: az ágens a felosztandó pénzösszeg megfelelő százalékát ajánlja fel. Mint az 1.1. alfejezetben jeleztük, a 2. játékos összes lehetséges stratégiáinak száma meglehetősen nagy; ahhoz pedig biztosan túl nagy, hogy ezzel egy számítógépes szimuláció keretében dolgozhassunk. Ezért, a 3. fejezetben tárgyalt lineáris interdepens preferenciáknál találtakból kiindulva, úgy döntöttünk, hogy a 2. játékos stratégiáját egyetlen számmal reprezentáljuk: ez az érték megmondja, melyik az a legkisebb ajánlat, melyet a 2. játékos elfogad. A stratégiák kezdeti eloszlását normálisnak tekintjük, adott várható értékkel és szórással. Természetesen elvárjuk, hogy a kezdeti értékek is 0 és 100 közé essenek. 3. A szomszédok fitnesszének és stratégiáinak súlyozott, ill. a pozíciónként legsikeresebb szomszédok stratégiái és fitnesszei. Az ágens körönként megnézi, hogy (fitnessz alapján) kik a legjobban teljesítő szomszédai, és milyen stratégiákat alkalmaznak - azaz mi az ajánlatuk és elfogadási limitük. Az ágensek egy kétdimenziós négyzethálón helyezkednek el, négyzetenként pontosan egy ágenssel. A háló szélei körbeérnek, így a sarkokban és széleken lévő ágenseknek is ugyanannyi szomszédja van, mint a háló közepén lévőknek. Minden ágens minden szomszédjával játszik két ultimátumjátékot, először 1., azután 2. játékosként. A szomszédsági viszonyt kétféleképpen is definiáltuk: a modell egyik veriójában a közös oldalakkal rendelkező négyzetek szomszédosak, a másikban a közös csúccsal rendelkezők is (így minden ágensnek 4, illetve 8 szomszédja van - ennek megfelelően periódosunként minden ágens 8, ill. 16 játékban vesz részt, hiszen minden szomszédjával mindkét pozícióban játszik).
34
5. FEJEZET. ÁGENS-ALAPÚ MODELLEK Az ajánlatok és az elfogadási limitek meg is határozzák az ágensek viselkedési sza-
bályát, és kifizetését: amennyiben az 1. játékos ajánlata nagyobb vagy egyenlő, mint a 2. elfogadási limite, úgy a 2. játékos igent mond, és mindketten megkapják a megfelelő fitnessz-növekedést; ellenkező esetben fitnesszük nem változik. A múltban begyűjtött fitnesszt periódusonként diszkontáljuk: U (n) = Σni=1 r n−i u(i) ahol U (n) illetve u(n) az n-edik periódusbeli teljes, illetve aktuális fitnessz, r a diszkonttényező. A viselkedési szabály frissítése a szomszéd(ok) imitálásával történik. A Legjobb-szomszéd és az Átlag-szomszéd dinamikák esetében az új stratégiát meghatározó képlet, minden ágensre, mindkét pozícióban: si (t + 1) = si (t) + α
(s∗i (t) − si (t))(1 + 9(Ui∗ (t) − c − Ui (t))) , ha Ui∗ (t) − c − Ui (t) > c 10(100 − c)
si (t + 1) = si (t) + ǫ, ha Ui∗ (t) − c − Ui (t) ≤ c ahol i ∈ {1, 2} az ultimátumbeli játékosindex, si az adott ágens stratégiája az i-edik pozícióban, α > 0 paraméter, Ui (t) az ágens i-edik játékosként begyűjtött összes fitnessze, c az igazodási költség, ǫ 0 várható értékű, adott szórású véletlen zaj. A Legjobb-szomszéd-dinamika esetében Ui∗ (t) az adott játékospozícióban legsikeresebb szomszédjának fitnesszértéke, az Átlag-szomszéd dinamika esetében a szomszédok átlagos fitnessze; s∗i pedig értelemszerűen a legjobb szomszéd stratégiája, illetve a szomszédok fitnesszel súlyozott átlagos stratégiája. A dinamikai egyenletet úgy határoztuk meg, hogy a mérvadónak tekintett stratégia (a legjobb illetve az átlagos szomszéd stratégiája) felé történjen elmozdulás, a fitnesszek és a stratégiák különbségének arányában, mégpedig úgy, hogy az ne legyen se túl kicsi, se túl nagy: a lehető legkisebb elmozdulás a távolság egytizede, a legnagyobb pedig a teljes távolság (tökéletes imitáció), de ez csak akkor valósul meg, ha a fitnesszek közötti távolság maximális (100). A fitnesszeket az adott periódusig összegyűjthető összes fitnesszel normáltuk és az egyenletet korrigáltuk az igazodási költségekkel.4 ,
5.3. 5.3.1.
Empirikus eredmények Alapszcenáriók
Axelrod K.I.S.S.-elvét („Keep it simple and stupid”) követve a legegyszerűbb modellfuttatási eredményekkel kezdjük. Az elképzelhető legprimitívebb esetben nincs mutáció, felhalmozás, igazodási költség. Ebben az esetben - ahogy az intuitíve is várható -, függetlenül attól, van-e helyváltoztatás, hány szomszédja van az ágenseknek, illetve milyen dinamika szerint frissítik stratégiáikat - rövid időn belül (ez természetesen függ az ágensek számától) beáll egy olyan állapot, ahol mindenkinek ugyanaz a stratégiája. Ez a végállapot 4
Az egyenlet tekinthetjük a replikátor-dinamika által inspiráltnak.
5.3. EMPIRIKUS EREDMÉNYEK
35
5.1. ábra. startacc=50, startoff=50, n=8, r=100, c=0, mut=1, dyn=Best, α=0.4 elsősorban a kezdeti stratégiaeloszlásoktól függ, semmi köze valamilyen dinamikus egyensúlyhoz. Ha minden további tapogatózás nélkül mindenki azt csinálja, amit a legsikeresebb szomszédja, akkor - mutációk hiányában - egy idő után mindenki egyformán fog viselkedni, ami aligha meglepő. Amennyiben megengedjük a mutációt, úgy a szomszédokra tekintettel lévő dinamikák a részjáték-tökéletes egyensúly közelébe konvergálnak (5.1. ábra)5 A mutációk változtatásának két hatása van: egyfelől befolyásolják a konvergencia sebességét, másrészt meghatározzák, mennyire közel kerül a rendszer a részjáték-tökéletes állapothoz. A konvergencia nem tökéletes, mert a mutációk jelenléte miatt az egyes paraméterek hosszú távú átlaga sem lesz 0. Az Átlagszomszéd-dinamikával hasonló viselkedést kapunk, azzal a különbséggel, hogy az ajánlatok (5.2. ábra) távolabb maradnak a 0-tól, a zaj (több szomszédon keresztüli) nagyobb hatása miatt. Ezek a szcenáriók igazolják, hogy modellünk alapvetően jó, normál esetben a részjáték-tökéletesség felé mozdul el. Meg kell azonban jegyeznünk, hogy ha a mutációs paraméter túl kicsi, és az elfogadási limitek rendre magasabbak az ajánlatoknál, akkor a dinamikáknak sok (mi 100000 periódusig teszteltük, de ennél sokkal több is lehet) 5
Az ábrákon: • startacc az első periódusbeli az átlagos ajánlat • startof f az első periódusbeli az átlagos elfogadási limit • n - a szomszédok száma (4 vagy 8)). • r - a diszkontráta százalékban (ha 0, nincs diszkontálás, ha 100, csak az adott periódus kifizetése számít • c - az igazodási költség a maximális elérhető kifizetés (100) százalékában, • mut - a normális eloszlású mutációs paraméter szórása, • dyn - az alkalmazott tanulás-dinamika (Best - Legjobbszomszéd, Avg - Átlag-szomszéd, Mem Emlékezet, • α - a tanulás sebessége a Best és Avg dinamikák esetében, • mem − of f - az ajánlatok emlékezetvektorának hossza a Mem-dinamika esetén • mem − acc - az elfogadási limitek emlékezetvektorának hossza a Mem-dinamika esetén
36
5. FEJEZET. ÁGENS-ALAPÚ MODELLEK
5.2. ábra. startacc=50, startoff=50, n=8, r=100, c=0, mut=1, dyn=Avg, α=0.4 időre van szükségük ahhoz, hogy szabályos viselkedést kezdjenek el felvenni; addig mozgásuk lényegében egy random-walk-folyamatot követ. Tudjuk azonban, hogy egydimenziós esetben egy random-walk 1 valószínűséggel elér egy olyan állapotba, ahol az egyik ágens ajánlata már nagyobb, mint valamelyik szomszédjának az elfogadási limitje , tehát ilyen esetben is előáll a fenti viselkedés.
5.3.2.
Az egyes pareméterek hatásai
Háromféle lehetséges helymeghatározási szabályt adtunk ágenseinknek. Az eddig alkalmazottakban nem változatják helyüket, a másodikban körönként néhány találomra kiválasztott ágens helyet cserél valamelyik szomszédjával, a harmadikban pedig mindenki minden kör végén találomra új helyet foglal el. Azt találtuk, hogy a mozgásnak nincs különösebb jelentősége a dinamikák szempontjából, viszont a részjáték-tökéletességhez igazodás sebességére jelentősen hat a mozgás bevezetése; minél több mozgás van, annál lassabb a konvergencia. A diszkontráta változtatása önmagában hasonlóan alkalmatlan a dinamika végpontjának kizökkentésére; a szélsőséges eseten (r=0) kívül, ahol - különösen az Átlag-szomszéddinamika estén - jelentősen kitolódhat a konvergencia, az átlagos stratégiák mozgásának trendje egyértelmű. Szintén nem meglepő, hogy az igazodási paramétert értékét változtatva is a folyamat sebességére tudunk hatni. Azonban egy alacsony igazodási paraméterértéket (α=0.1) egy magas mutációs paraméterrel kombinálva már létrehozható olyan viselkedés, mely kevesbé áll távol a kísérleti tapasztalatoktól. Az 5.3. ábrán látható esetben a hosszú távú átlagos ajánlat 25 %-os, az elfogadási limit 12%, és az ajánlatok több mint kilenctizedét elfogadják. Az egyetlen paraméter, amelyet eddig nem vizsgáltunk, az igazodási költség. Ez a következőképpen működik: egy ágens csak akkor igazítja stratégiáját, ha az adott dinamika szerint a legjobb szomszéd fitnessze (a Legjobbszomszéd-dinamika esetén), illetve a szomszédok fitnesszének súlyozott átlaga (az Átlag-szomszéd-dinamikánál) legalább az igazodási költség értékével meghaladja az ágens aktuális fitnesszét. Ebben az esetben az ágens beállítja új stratégiáját, elveszít az igazodási költségnek megfelelő fitnesszt és nem mutálódik. Mutáció pontosan akkor történik, ha a stratégia-igazításból indokltan várható hasznosság-
5.3. EMPIRIKUS EREDMÉNYEK
37
5.3. ábra. startacc=50, startoff=50, n=8, r=1, c=0, mut=1, dyn=Avg, α=0.1
5.4. ábra. startacc=50, startoff=50, n=8, r=5, c=5, mut=1, dyn=Best, α=0.1
növekmény nem haladja meg az igazodási költségeket. Az igazodási költség bevezetése alapvetőn befolyásolja a megfigyelhető folyamatokat. Egyrészt feljebb tolja az elfogadási limitek, másrészt hat az átlagos ajánlatok és elfogadási limitek közötti távolságra is. Az 5.4. és 5.5. ábrán látható modellfuttatások csak az igazodási költség értéke. Előbbi esetben az alacsony költség miatt az átlagos elfogadási limit egészen 10%-ig süllyed, míg az átlagos ajánlat 22% körül ingazodik; utóbbinál a megfelelő értékek 48%, illetve 28%. Az igazodási költség bevezetésével kapott eredmények biztatóak, mivel a kísérletektől nem túlságosan távoli elfogadási ráta (75%) mellett produkálnak hosszú távon stabil magas ajánlatokat. Azonban az ilyen eredményekhez szükséges 25-30%-os igazodási költséget túl nagynak és végső soron empirikusan megalapozhatatlannak véltük.
5.5. ábra. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Best, α=0.1
38
5. FEJEZET. ÁGENS-ALAPÚ MODELLEK
5.6. ábra. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Mem, mem-off=20, mem-acc=20
5.3.3.
Memória-dinamika
A memória-dinamika szerint tanuló ágensek nem szomszédaiktól, hanem saját múltbéli stratégiáik közül választanak stratégiát. A dinamika működési elvét „ami régen bevált, a jövőben is be kell váljék” diktum szerint értelmezhetjük.6 . Ennek érdekében az ágensek tárolják az utóbbi periódusokban használt stratégiáikat és az abban a körben összegyűjtött hasznosságukat. Ha a múltbéli stratégiájuk legalább annyival nagyobb hasznosságot nyújtott nekik, mint az igazodási költség, akkor azt adaptálják; különben pedig mutálódnak. Ez a modell képes arra, hogy a kísérletekben tapasztaltakhoz hasonló átlagos ajánlatokat, elfogadási limitek és ráták alakuljanak ki benne. Ehhez egyetlen feltevésre van szükségünk: hogy az ágensek jobban ragaszkodnak az elfogadási limitjükhöz, mint az ajánlatukhoz, azaz az előbbire vonatkozó memóriájuk kellően rövid. Ez nem teljesen implauzibilis feltevés; a második játékosként játszva valószínű, hogy inkább valamilyen normához való ragaszkodás a stratégia meghatározó eleme, míg első játékosként valószínűleg hajlamosabbak vagyunk a környezethez adaptálódni. Ha nincs különbség az emlékezetvektorok hosszábban, úgy a dinamika nem tud újdonságot nyújtani, és előáll a részjáték-tökéletesközeli állapot (5.6. ábra). Ha azonban az ajánlatok vektora kellően rövid, akkor fair (45%) körüli átlagos ajánlat is előállhat, sőt, akár egyes törzsekre jellemző hiper-fair, azaz 50%-ot meghaladó átlagos ajánlatok is hosszú távon stabilak maradhatnak (5.7.ábra)). A modell hatalmas előnye, hogy megőrzi az egyének sokszínűségét és változatosságát, azaz nem konvergál sem egy olyan állapotba, ahol mindenki egyformán viselkedne, sem egy olyanba, ahol egyénileg rögződnének a stratégiák.
5.4.
Továbbfejlesztési lehetőségek
Számos továbbfejlesztési lehetőséget látunk a modellre. Egyrészt már a fenti változókkal is több tízezernyi paraméterbeállítással vizsgálható a rácson játszott ultimátumjáték; különös figyelmet érdemelne a populációk szórásának változása a paraméterekkel. Bevezethető volna valamilyen kockázatellenes preferenciarendszer, amely tovább növelné a fair egyen6
Ily módon ez a dinamika egyfajta megerősítéses tanulás volna
5.4. TOVÁBBFEJLESZTÉSI LEHETŐSÉGEK
39
5.7. ábra. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Mem, mem-off=10, mem-acc=100
5.8. ábra. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Mem, mem-off=3, memacc=100
súlyok esélyeit, továbbá a 2.2. alfejezetben említett kísérletek eredményeihez is közelebb hozná a modellt. A kockázatellenesség bevezethető lenne pl. úgy, hogy minden periódusban meghal az ágensek egy része, s a halál esélye egy konvex függvény szerint nő, ahogy csökkennek a kifizetések. Egy más módszer közvetlenül a döntési szabályt alakító dinamikába emelhetné be a kockázathoz való viszonyt, s így kockázatkedvelő- ill. ellenes populációk alakulhatnának ki, növelve a populáció diverzitását. Egy másik fontos lépés az volna, hogy a Memória-dinamikában rögzítettnek tekintett emlékezetvektor-paraméterek, azaz az emlékezet hossza szintén evolúciós folyamatnak legyen alávetve; azaz a nagyobb memória valamilyen fitnessz-költséggel járjon, s az ágensek memóriájának méretét szintén valamilyen adaptációs mechanizmus határozhassa meg. Bonyolultabb átalakításokat - és koncepcióváltást - igényelne egy olyan modell, ahol az ágensek információkat gyűjtenek egymásról, és így ágensenként igazíthatják stratégiájukat egy ágens-függő limiten belül. Úgy érezzük azonban, ha a jutalmazás és/vagy a büntetés lehetőségét is expliciten bevennénk a rendszerbe, úgy túlságosan nagy előnyt biztosítanánk a fair viselkedés létrejöttének - az alapfeladat éppen az, hogy a másodikként lépő játékos akciója szolgálhasson a rossz ajánlatok büntetéseként.
40
5. FEJEZET. ÁGENS-ALAPÚ MODELLEK
5.5.
Összefoglalás
Dolgozatunkban megpróbáltuk összeegyeztetni az ultimátumjáték modelljeit az empirikus eredményekkel. Három módszerrel - hagyományos eszközökkel, az evolúciós játékelmélet fogalmaival és ágens-alapú szimulációval - vágtunk neki a feladatnak; összességében az ágens-alapú megközelítés bizonyult a leghatékonyabbnak és legtermékenyebbnek. A távlati feladat - a preferenciák és döntési szabályok általános modellezése - jelen pillanatban szinte megvalósíthatatlannak tűnik; ám úgy véljük, a számítási kapacitások további bővülésével és a tudományos teamek nagyléptékű együttműködésével (különösen kognitív pszichológusok, szociológusok, közgazdászok és biológusok lehetséges közös munkájára számítunk) a jövőben lépésről-lépésre hozhatók létre olyan komplex szimulációs modellek, amelyek egyre átfogóbb keretet adnak az emberi viselkedés és döntéshozatal megértéséhez. Úgy véljük, ennek a területnek nem egy Newtonra, hanem sok-sok Robert Axelrodra van szüksége a továbblépéshez.
Irodalomjegyzék Axelrod, Robert (1984). The Evolution of Cooperation. New York: Basic Books. Barnes, Barry és Bloor, David (1998). Relativizmus, racionalizmus és tudásszociológia. In L. János (Ed.), Tudományfilozófia. Budapest. (ford. Forrai Gábor): Osiris Kiadó. Binmore, Ken (2006). Does Game Theory work? The Bargaining Challenge. Cambridge, MA - London: MIT Press. Bolton, Gary E. és Ockenfels, Axel (2000, Mar). Erc: A theory of equity, reciprocity, and competition. The American Economic Review 90 (1), 166–193. Cressman, Ross (2003). Evolutionary Dynamics and Extensive Form Games. Cambridge, MA - London: MIT Press. Fehr, Ernst és Schmidt, Klaus M. (1999, Aug). A theory of fairness, competition, and cooperation. The Quarterly Journal of Economics 114 (3), 817–868. Güth, W., Schmittberger, R., és Schwarze, B. (1982). An experimental analysis of ultimatum bargaining. Journal of Behaviour and Organization (3), pp. 367–388. Heinrich, Joseph (2000, Sep). Does culture matter in economic behaviour? ultimatum game bargaining among the machiguenga of the peruvian amazon. The American Economic Review 90 (4), pp. 505–518. Heinrich, Joseph, Boyd, Robert, Bowles, Samuel, Camerer, Colin, Fehr, Ernst, és Gintis, Herbert (Eds.) (2004). Foundations of Human Sociality. New York: Oxford University Press. Hofbauer, Josef és Sigmund, Karl (1998). Evolutionary Games and Population Dynamics. Cambridge University Press. Loránd, Ambrus-Lakatos és Tamás, Meszerics (2003). Az ultimátumjáték elemzéséhez. Közgazdasági Szemle június(L. évf), pp. 505–518. Macal, Charles M. és North, Michael J. (2005). Tutorial on agend-based modelling and simulation. Proceedings of the 37th conference on Winter simulation, Orlando, Florida, 2–15. 41
42
IRODALOMJEGYZÉK
MacKenzie, Alexander J. (2007). The Structural Evolution of Morality. New York: Cambridge University Press. Roth, Alvin E., Vesna, Prasnikar, Okuno-Fujiware, Masahiro, és Zamir, Shmuel (1991, December). Bargaining and market behavior in jerusalem, ljubljana, pittsburgh, and tokyo: An experimental study. American Economic Review 81 (5), 1068–95. Rubinstein, Ariel (1982). Perfect equilibrium in a bargaining model. Econometrica (50), pp. 97–109. Samuelson, Larry (1998). Evolutionary Games and Equilibrium Seleciton. Cambridge, MA: MIT Press. Vega-Redondo, Fernando (1996). Evolution, Games, and Economic Behaviour. New York: Oxford University Press.
Ábrák jegyzéke 1.1. Az ultimátumjáték „klasszikus” formája . . . . . . . . . . . . . . . . . . . .
2
1.2. Ultimátumjáték, folytonos forma . . . . . . . . . . . . . . . . . . . . . . . .
3
1.3. Nash-egyensúly kereséséhez egyszerűsített játékfa . . . . . . . . . . . . . . .
3
2.1. Zsetonjáték . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
8
2.2. Piacjáték . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.3. Diktátorjáték . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
3.1. Az 1. játékos hasznosságfüggvénye α1 = 0.2, α2 = 0.6 . . . . . . . . . . . . . 19 3.2. Túl méltányos 2. játékos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.3. Kellően métányos 2. játékos . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.4. Túl kevéssé méltányos 2. játékos . . . . . . . . . . . . . . . . . . . . . . . . 20 3.5. A második játékos Igentmondásának valószínűsége . . . . . . . . . . . . . . 22 5.1. startacc=50, startoff=50, n=8, r=100, c=0, mut=1, dyn=Best, α=0.4 . . . 35 5.2. startacc=50, startoff=50, n=8, r=100, c=0, mut=1, dyn=Avg, α=0.4 . . . . 36 5.3. startacc=50, startoff=50, n=8, r=1, c=0, mut=1, dyn=Avg, α=0.1 . . . . .
37
5.4. startacc=50, startoff=50, n=8, r=5, c=5, mut=1, dyn=Best, α=0.1 . . . . .
37
5.5. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Best, α=0.1 . . . .
37
5.6. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Mem, mem-off=20, mem-acc=20
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
5.7. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Mem, mem-off=10, mem-acc=100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.8. startacc=50, startoff=50, n=8, r=5, c=30, mut=1, dyn=Mem, mem-off=3, mem-acc=100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
43