Doprovodn´e texty ke kurzu Teorie her
Martin Hrub´y Fakulta informaˇcn´ıch technologi´ı Vysok´e uˇcen´ı technick´e v Brnˇe
zimn´ı semestr, akad. rok 2010/11
1
Contents 1
2
3
4
´ Uvod do Teorie her 1.1 Hern´ı situace . . . . . . . . . . . . . . . . . . . . 1.1.1 Rozdˇelen´ı her . . . . . . . . . . . . . . . . 1.1.2 Jak se hraje nekooperativn´ı strategick´a hra? 1.2 Informace ve hˇre . . . . . . . . . . . . . . . . . . 1.3 Anal´yza hry . . . . . . . . . . . . . . . . . . . . . 1.3.1 Dominance mezi strategiemi ve hˇre . . . . 1.4 Vˇezˇnovo dilema . . . . . . . . . . . . . . . . . . . 1.5 Rovnov´azˇ n´y stav ve hˇre (ekvilibrium) . . . . . . . 1.5.1 Intiutivn´ı algoritmus nalezen´ı PNE . . . . . 1.6 Iterativn´ı eliminace dominovan´ych strategi´ı . . . . 1.6.1 Strategick´a ekvivalence her . . . . . . . . . 1.6.2 Algoritmus eliminace . . . . . . . . . . . . 1.7 Efektivita profilu a Pareto dominance . . . . . . .
. . . . . . . . . . . . .
4 4 7 8 9 10 11 12 14 15 16 16 16 17
. . . .
18 19 22 24 24
. . . . .
26 27 28 29 30 31
Probl´em existence ekvilibria ve hr´ach s nenulov´ym souˇctem 4.1 Kompaktn´ı a konvexn´ı mnoˇzina . . . . . . . . . . . . . . . . . . . . . . . . . . . .
32 32
˚ model oligopolu Cournotuv 2.1 Cournotovo ˇreˇsen´ı duopolu . . . . . . . . . . . ˇ sen´ı oligopol˚u . . . . . . . . . . . . . . . . 2.2 Reˇ 2.3 Bertrand˚uv model oligopolu (1883) . . . . . . 2.4 Z´avˇer kapitoly o Cournotovˇe modelu oligopolu
. . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
. . . . . . . . . . . . .
. . . .
Hry bez Nashova ekvilibria v ryz´ıch strategi´ıch 3.1 Sm´ısˇen´e rozˇs´ıˇren´ı nekooperativn´ı hry . . . . . . . . . . . . . . . . 3.2 Smysl a interpretace sm´ısˇen´ych strategi´ı . . . . . . . . . . . . . . 3.3 V´ypoˇcet sm´ısˇen´e rovnov´ahy – hled´an´ı pr˚useˇc´ıku reakˇcn´ıch kˇrivek 3.4 V´ypoˇcet sm´ısˇen´e rovnov´ahy – obecn´y algoritmus . . . . . . . . . 3.5 Vˇeta o existenci sm´ısˇen´eho Nashova ekvilibria . . . . . . . . . . .
2
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
. . . . . . . . . . . . .
. . . .
. . . . .
4.2 4.3 4.4 4.5 4.6 4.7 5
6
Ryze kvazi-konk´avn´ı funkce . . . . . . . . . . . . . . . . Existence Nashova ekvilibria ve hr´ach se spojit´ymi Si . . . Sm´ısˇen´a best-response hr´acˇ e ve sm´ısˇen´em profilu . . . . . Pevn´y bod korespondence . . . . . . . . . . . . . . . . . Kakutani’s fixed point theorem . . . . . . . . . . . . . . . D˚ukaz Nashovy vˇety o existenci MNE v koneˇcn´ych hr´ach .
Nekooperativn´ı hry s nulov´ym souˇctem 5.1 Vztah nulov´eho a konstantn´ıho souˇctu . . . . . . . . 5.2 Z´apis 0-sum hry . . . . . . . . . . . . . . . . . . . . 5.3 Chov´an´ı hr´acˇ e v 0-sum hˇre . . . . . . . . . . . . . . 5.4 Rovnov´azˇ n´e strategie tvoˇr´ıc´ı ekvilibrium ve hˇre . . . 5.5 Sedlov´y bod (saddle point) . . . . . . . . . . . . . . 5.6 Ekvilibrium 0-sum her ve sm´ısˇen´ych strategi´ıch . . . 5.7 Grafick´e ˇreˇsen´ı maticov´ych her ve tvaru (2,n) strategi´ı Korelovan´e ekvilibrium v nekooperativn´ıch hr´ach 6.1 Motivaˇcn´ı pˇr´ıklad . . . . . . . . . . . . . . . . . 6.2 Definice korelovan´eho ekvilibria . . . . . . . . . 6.3 V´ypoˇcet CE obecnˇe (LP-´uloha) . . . . . . . . . . 6.4 Princip CE obecnˇe – analytick´y efekt G-matice . 6.5 Optimalizovan´y v´ypoˇcet CE ve hˇre (Hrub´y, 2008) 6.5.1 Redukce G-matice v naˇsem pˇr´ıkladˇe . . .
3
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
. . . . . . .
. . . . . .
. . . . . .
32 33 33 34 35 36
. . . . . . .
39 40 41 42 43 44 45 46
. . . . . .
49 49 51 52 54 54 55
Chapter 1 ´ Uvod do Teorie her Tato kapitola je z´akladem pro studium hern´ıch situac´ı. Bude definov´an pojem hra, informace ve hˇre a ekvilibrium.
1.1
Hern´ı situace
Hrou se rozum´ı strategick´a interaktivn´ı situace zahrnuj´ıc´ı alespoˇn dva hr´acˇ e, kde kaˇzd´y sleduje sv´e vlastn´ı c´ıle a projevuje tak svou individu´aln´ı racionalitu. Hry jsou matematick´e modely situac´ı, kdy hr´acˇ i z´ucˇ astnˇen´ı v situaci jsou nuceni prov´est nˇejak´e rozhodnut´ı. Nezkoum´ame, zda-li se hr´acˇ u˚ m l´ıb´ı b´yt u´ cˇ astn´ıky dan´e situace, zda chtˇej´ı hr´at nebo nechtˇej´ı. Hra je model, a proto je zjednoduˇsen´ım situace na nˇekolik z´akladn´ıch prvk˚u, kter´e situaci popisuj´ı. Jsou to tyto prvky: 1. Hr´acˇ i z´ucˇ astnˇen´ı ve hˇre. Od nich se oˇcek´av´a proveden´ı jejich rozhodnut´ı. 2. Popis moˇzn´ych akc´ı, kter´e hr´acˇ i mohou prov´est. Pojem akce, strategie, alternativa jsou zde pouˇz´ıv´any jako synonyma. Pokud bychom pˇresto chtˇeli mezi nimi rozliˇsovat, pak ˇrekneme, zˇ e literatura pouˇz´ıv´a pojem strategie jako form´aln´ı vyj´adˇren´ı hr´acˇ ova rozhodnut´ı a pojem akce, pokud chce zd˚uraznit, zˇ e strategie vede k nˇejak´e aktivitˇe hr´acˇ e. 3. Vyj´adˇren´ı d˚usledk˚u akc´ı hr´acˇ u˚ . Budeme zde mluvit o uˇzitkov´ych nebo v´yplatn´ıch funkc´ıch. 4. Model m´ıry informace, jakou hr´acˇ i maj´ı o zkouman´e situaci. Tento fakt je ve hr´ach z´asadn´ı. Budeme definovat pojmy spoleˇcn´a znalost (angl. common knowledge) a u´ pln´a informace (angl. complete information) o hˇre. 5. Pˇredpokl´adan´y pr˚ubˇeh hry. V z´asadˇe existuje dvoj´ı pˇr´ıstup k odehr´an´ı hry – hra jedno-tahov´a a v´ıce-tahov´a. O v´ıce-tahov´ych hr´ach bude pojedn´avat kapitola ”Hry v rozˇs´ıˇren´e formˇe”. 6. Moˇznosti komunikace hr´acˇ u˚ a tvorby spoleˇcn´e dohody o volbˇe strategie. 4
Obecnˇe se hry dˇel´ı na kooperativn´ı (angl. cooperative games) a nekooperativn´ı (angl. noncooperative games) podle toho, jak mohou hr´acˇ i spolupracovat, resp. komunikovat pˇri volbˇe sv´e akce. V obou pˇr´ıpadech vˇsak pˇredpokl´ad´ame u vˇsech hr´acˇ u˚ naprosto striktnˇe jejich orientaci na optimalizaci vlastn´ıho zisku ze situace. Literatura cˇ asto tak´e hovoˇr´ı o sobeck´em chov´an´ı hr´acˇ u˚ (selfish agents), ovˇsem zde nelze pojem sobeckosti ch´apat jako nˇeco negativn´ıho v mezilidsk´ych vztaz´ıch, sp´ısˇe jako zd˚uraznˇen´ı ryz´ı individu´aln´ı racionality. Pokud budeme pˇresto zkoumat interaktivn´ı situace, kde lze u nˇekter´ych hr´acˇ u˚ pozorovat uspokojen´ı ze zisku jejich protihr´acˇ u˚ (napˇr. situace rodiˇc verus d´ıtˇe), pak je toto uspokojen´ı zahrnuto v zisku rodiˇce a d´ale pak zkoum´ame tohoto hr´acˇ e z hlediska jeho individu´aln´ı racionality. Kooperativn´ı a nekooperativn´ı hry jsou naprosto odliˇsn´e v pojet´ı strategie a zp˚usobu proveden´ı hry. U nekooperativn´ıch her vid´ıme hr´acˇ e, jejich strategie a uˇzitkov´e funkce. Pˇredpokl´ad´ame, zˇ e hr´acˇ i o hˇre nekomunikuj´ı, ale pˇresto pˇrem´ysˇl´ı o tahu sv´ych protivn´ık˚u. Studiem tˇechto her dojdeme posl´eze k pozn´an´ı, zˇ e v´ysledek hry by pro vˇsechny z´ucˇ astnˇen´e hr´acˇ e mohl b´yt (mnohdy i znaˇcnˇe) lepˇs´ı, pokud by se domluvili na spoleˇcn´e akci. Otv´ıraj´ı se tak moˇznosti komunikace, vyjedn´av´an´ı a kooperace. U kooperativn´ıch her uvid´ıme, zˇ e v sobˇe obsahuj´ı nekooperativn´ı podstatu a zˇ e kooperace je moˇzn´a pouze pokud vˇsichni hr´acˇ i vid´ı pˇr´ıpadn´e zlepˇsen´ı sv´eho moˇzn´eho v´ysledku hry plynouc´ı z komunikace. V teorii volby (pˇredchoz´ı kapitola) jsme zavedli hr´acˇ ovy akce (strategie) a jejich moˇzn´e d˚usledky. Uk´azali jsme hr´acˇ ovy preference, aˇt uˇz na mnoˇzinˇe strategi´ı nebo na mnoˇzinˇe uˇzitk˚u. V hernˇe teoretick´e praxi je cˇ astˇejˇs´ı vn´ımat preference na mnoˇzinˇe uˇzitk˚u, kter´e jsou kvatifikov´any do cˇ´ısel a intuitivnˇe porovnateln´e. Proto budeme nad´ale jiˇz mluvit o strategi´ıch a uˇzitkov´ych funkc´ıch. Zavedeme si nyn´ı form´aln´ı definici nekooperativn´ı hry N hr´acˇ u˚ . Podotknˇeme, zˇ e symbol N bude v tomto textu pouˇz´ıv´an v´yhradnˇe pro oznaˇcen´ı poˇctu hr´acˇ u˚ ve hˇre. Definice 1. Strategick´a nekooperativn´ı hra N hr´acˇ u˚ je (2N + 1)-tice Γ = (Q; S1 , S2 , ..., SN ; U1 , U2 , ..., UN ) kde: • Q = {1, 2, ..., N } je koneˇcn´a mnoˇzina hr´acˇ u˚ ve hˇre. • Si , i ∈ Q jsou (koneˇcn´e) mnoˇziny ryz´ıch strategi´ı hr´acˇ u˚ i ∈ Q. • Ui : S1 × S2 × ... × SN → U jsou funkce uˇzitku hr´acˇ u˚ . Symbolem Q bude vˇzdy oznaˇcov´ana mnoˇzina hr´acˇ u˚ . Symbolem Si bude vˇzdy oznaˇcov´ana mnoˇzina strategi´ı hr´acˇ e i ∈ Q. Vˇsimnˇeme si nyn´ı funkc´ı uˇzitku Ui . V t´eto definici m´a kaˇzd´y hr´acˇ svoji funkci uˇzitku. Alternativnˇe je moˇzno ps´at U : S1 ×S2 ×...×SN → UR , ovˇsem tento z´apis nen´ı zaveden, ponˇevadˇz cˇ asto pracujeme 5
s jednotliv´ymi uˇzitky hr´acˇ u˚ . Podstatn´ym faktem uˇzitkov´e funkce je jej´ı definiˇcn´ı obor definovan´y jako kart´ezsk´y souˇcin mnoˇzin strategi´ı vˇsech hr´acˇ u˚ : S = S1 × S2 × ... × SN coˇz tak´e cˇ asto p´ısˇeme zkr´acenˇe jako S=
Y
Si
i∈Q
Mnoˇzina S je v´yznamn´ym popisem hry, neboˇt modeluje veˇsker´e moˇzn´e v´ysledky hry. Tuto mnoˇzinu naz´yv´ame mnoˇzinou strategick´ych profil˚u hry a jej´ı prvky (s1 , s2 , ..., sN ) pak strategick´ymi profily. Uˇzitkov´e funkce hr´acˇ u˚ jsou definov´any na mnoˇzinˇe profil˚u proto, zˇ e uˇzitek hr´acˇ e nen´ı d´an pouze jeho rozhodnut´ım s∗i ∈ Si , ale i tahy jeho protihr´acˇ u˚ s∗−i ∈ S−i . Vedle mnoˇziny S je velmi v´yznamnou (a v budouc´ım textu cˇ asto citovanou) mnoˇzinou mnoˇzina sub-profil˚u. Mnoˇzinou sub-profil˚u z hlediska hr´acˇ e i je S−i = S1 × S2 × ... × Si−1 × Si+1 × ... × SN tedy zkr´acenˇe S−i =
Y
Sj
j∈Q\{i}
Sub-profil s−i ∈ S−i modeluje kontext rozhodov´an´ı hr´acˇ e i. Je to vektor konkr´etn´ıch tah˚u jeho protihr´acˇ u˚ . Z´apisem (si , s−i ) budeme rozumˇet sloˇzen´ı strategie si hr´acˇ e i s kontextem protihr´acˇ u˚ s−i – tedy (si , s−i ) ∈ S. Oborem hodnot uˇzitkov´e funkce hr´acˇ e m˚uzˇ e b´yt jak´esi univerzum U, ale ve vˇetˇsinˇe pˇr´ıpad˚u klademe U = R a uˇzitky povaˇzujeme za re´aln´a cˇ´ısla. T´ım je d´ano i vn´ım´an´ı preferenc´ı hr´acˇ u˚ nad dosaˇziteln´ymi uˇzitky. V dalˇs´ım textu zavedeme jist´e stochastick´e rozˇs´ıˇren´ı nekooperativn´ı hry a tud´ızˇ i novou formu strategi´ı. Abychom rozliˇsili tyto v´ysˇe uveden´e strategie a ty budouc´ı rozˇs´ıˇren´e, zavedeme pˇresnˇejˇs´ı oznaˇcen´ı strategi´ı hr´acˇ u˚ – budou to tak zvan´e ryz´ı strategie (angl. pure strategies). Pokud bude v dalˇs´ım textu pouˇzit pojem strategie, pak je z´avisl´y na dan´em kontextu textu, implicitnˇe vˇsak je m´ınˇena ryz´ı strategie. T´ımto jsme zavedli definici nejobecnˇejˇs´ıho pojet´ı strategick´e hry. Veˇsker´e n´asleduj´ıc´ı hry (s nulov´ym/nenulov´ym souˇctem, sekvenˇcn´ı, kooperativn´ı, aukce, volby, trhy, evoluce) budou varianty t´eto definice.
6
1.1.1
Rozdˇelen´ı her
M˚uzˇ e b´yt praktick´e jiˇz v poˇca´ tku prov´est rozdˇelen´ı hern´ıch situac´ı do kategori´ı. Z´akladn´ım dˇelen´ım je pohled kooperativnosti: • Nekooperativn´ı hry – vyjadˇrujeme strategie hr´acˇ u˚ a jejich uˇzitkov´e funkce. – Hry v norm´aln´ı formˇe (strategick´e hry, maticov´e hry) ∗ ... s nenulov´ym souˇctem. ∗ ... s nulov´ym souˇctem. – Hry v rozˇs´ıˇren´e formˇe (extensive-form games, dynamick´e hry, sekvenˇcn´ı hry). • Kooperativn´ı hry dan´e charakteristickou funkc´ı v – vyjadˇrujeme moˇzn´e koalice hr´acˇ u˚ z mnoˇziny 2Q a ohodnocen´ı jednotliv´ych koalic dan´y tak zvanou charakteristickou funkc´ı v : 2Q → R, tedy uˇzitek, kter´y koalice z´ısk´a t´ım, zˇ e se zformuje z hr´acˇ u˚ . V dalˇs´ım dˇelen´ı tˇechto her nach´az´ıme: – Hry s pˇrenositeln´ym uˇzitkem (angl. transferable utility, TU-games). – Hry s nepˇrenositeln´ym uˇzitkem (tyto ovˇsem v THE nebudeme studovat). Aby bylo uˇz od poˇca´ tku jasn´e, co znamen´a nulovost/nenulovost souˇctu, zavedeme definici hry s konstantn´ım souˇctem a na jej´ım z´akladˇe hru s nulov´ym souˇctem: Definice 2. Mˇejme strategickou hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Hru Γ nazveme hrou s konstantn´ım souˇctem, pokud existuje k ∈ R takov´e, zˇe ∀s ∈ S :
X
Ui (s) = k
i∈Q
Pokud je hra s konstantn´ım souˇctem k = 0, pak se hra naz´yv´a hrou s nulov´ym souˇctem. Podotknˇeme, zˇ e pokud je hra s konstantn´ım souˇctem k 6= 0, pak je moˇzno ji pˇrev´est na strategicky ekvivalentn´ı hru s nulov´ym souˇctem (v´ıce v kapitole o hr´ach s nulov´ym souˇctem). Pokud neexistuje k takov´e, aby platila v´ysˇe zm´ınˇen´a definice, pak se jedn´a o hru s P nenulov´ym souˇctem. Jinak ˇreˇceno souˇcet i∈Q Ui (s) je v kaˇzd´em profilu s hry obecnˇe jin´y1 . 1
Studenti obˇcas mylnˇe uvad´ı, zˇ e hra s nenulov´ym souˇctem je hra se souˇctem k 6= 0.
7
1.1.2
Jak se hraje nekooperativn´ı strategick´a hra?
ˇ Casem zavedeme nekooperativn´ı hry v tak zvan´e rozˇs´ıˇren´e formˇe, kde se hr´acˇ i stˇr´ıdaj´ı ve sv´ych taz´ıch jako napˇr´ıklad ve hˇre v sˇachy. Uvid´ıme vˇsak, zˇ e takovou hru lze pˇrev´est na nejobecnˇejˇs´ı vyj´adˇren´ı nekooperativn´ı strategick´e hry. Nekooperativn´ı strategick´a hra je tak´e cˇ asto naz´yv´ana jako hra v norm´aln´ı formˇe (angl. normalform game). Dalˇs´ı synonymum je hra v maticov´e formˇe, protoˇze uˇzitky ve strategick´ych hr´ach zapisujeme pˇrehlednˇe do N-dimension´aln´ıch matic. Tato hra je modelem situace, kde hr´acˇ i provedou pouze jedno rozhodnut´ı a t´ım je volba jejich strategie. Podstatn´e je, zˇ e o sv´e volbˇe hr´acˇ i nevedou zˇ a´ dn´a vyjedn´av´an´ı a nejsou schopni pozorovat tahy sv´ych protihr´acˇ u˚ . Modelujeme to jako souˇcasn´e proveden´ı akc´ı u vˇsech hr´acˇ u˚ . ˇ Pro n´azornou pˇredstavu zavedme nez´avisl´eho soudce (arbitra), kter´emu hr´acˇ i i ∈ Q pˇredaj´ı zpr´avu ∗ o sv´em zvolen´e strategii si ∈ Si v zalepen´e dopisn´ı ob´alce, to znamen´a zp˚usobem, kter´y nedovoluje ostatn´ım pozorovat, co protihr´acˇ i zvolili. V okamˇziku, kdy m´a arbitr ob´alky od vˇsech hr´acˇ u˚ , ob´alky otevˇre a ozn´am´ı strategick´y profil s∗ = (s∗i )i∈Q , kter´y hr´acˇ i zvolili (ten je pˇrece sloˇzen ze strategi´ı s∗i vˇsech hr´acˇ u˚ i ∈ Q). Podle zvolen´eho profilu a uˇzitkov´ych funkc´ı hr´acˇ u˚ hr´acˇ i i obdrˇz´ı zisk Ui (s∗ ). T´ımto je hra ukonˇcena. Vˇsimnˇeme si nyn´ı, zˇ e nen´ı moˇzn´a zˇ a´ dn´a oprava zvolen´ych strategi´ı. Pˇredpokl´ad´ame, zˇ e hr´acˇ i tento fakt ch´apou a vol´ı svou strategii uv´azˇ enˇe2 . Proces u´ vahy o volbˇe strategie m˚uzˇ e b´yt velmi sloˇzit´y. V´ysledn´y profil by mˇel b´yt jedn´ım z moˇzn´ych rovnov´azˇ n´ych bod˚u hry (ekvilibrium). V´ysledn´y profil hry budeme naz´yvat v´ysledek/v´ystup hry (angl. outcome). Ekvilibrium je matematick´y model v´ysledn´eho chov´an´ı hr´acˇ u˚ , nˇeco na zp˚usob predikce v´ysledku zkouman´e situace. Bylo by dobr´e jiˇz v poˇca´ tku studie her pˇrijmout pozn´an´ı, zˇ e teorie her nen´ı obecnˇe schopna predikovat v´ysledek chov´an´ı hr´acˇ u˚ v kaˇzd´e re´aln´e situaci. Pˇrin´asˇ´ı ale n´astroje anal´yzy hry a n´avod k pochopen´ı zkouman´e situace. Vazbou mezi teoretickou podobou teorie her a re´aln´ym zkoum´an´ım opravdov´eho chov´an´ı hr´acˇ u˚ se zab´yv´a experiment´aln´ı teorie her. Ta tak´e ukazuje, kde se teorie liˇs´ı od praxe a za jak´ych okolnost´ı jsou teoretick´e v´ysledky shodn´e s prax´ı. The Ultimatum game Jednou takovou znaˇcnˇe zkoumanou strategickou situac´ı je tak zvan´a Ultimatum game. Pˇredpokl´adejme dva hr´acˇ e A a B. Hr´acˇ A m´a za u´ kol navrhout rozdˇelen´ı deseti minc´ı mezi hr´acˇ e sebe a hr´acˇ e B. Pokud hr´acˇ B s rozdˇelen´ım souhlas´ı, obdrˇz´ı oba dle dohody sv´e mince. Pokud hr´acˇ B s rozdˇelen´ım nesouhlas´ı, mince propadnou a nikdo nem´a nic. Teoreticky by mˇel hr´acˇ B souhlasit s jak´ymkoliv 2
Tento fakt je zdrojem mnoh´ych zklam´an´ı v bˇezˇ n´em zˇ ivotˇe. Z experiment˚u s re´aln´ymi respondenty mnohdy vypl´yv´a, zˇ e re´aln´ı jedinci pˇri volbˇe strategie nejsou schopni pochopit fakt, zˇ e se situace uˇz nebude opakovat. Model je vˇsak zjednoduˇsen´ı, a proto u strategick´ych her striktnˇe pˇredpokl´ad´ame natolik d˚ukladnou racionalitu, kter´a fakt jednotahovosti respektuje.
8
rozdˇelen´ım, kter´e mu urˇc´ı nenulov´y poˇcet minc´ı. Dokonce je ekvilibriem v t´eto hˇre rozdˇelen´ı 9 minc´ı pro A a 1 pro B. Experimenty s re´aln´ymi lidmi ukazuj´ı, zˇ e B n´avrh odm´ıtne, pokud nedostane alespoˇn 40% rozdˇelovan´eho majetku. Je takovou perliˇckou, zˇ e opice se v´ıce bl´ızˇ´ı teoretick´emu ekvilibriu, neboˇt opice B vˇzdy pˇrijme 1 minci a nˇekter´e druhy opic dokonce v polovinˇe pˇr´ıpad˚u i souhlas´ı s nulov´ym pod´ılem (logicky, pokud m´am dostat nula z rozhodnut´ı protihr´acˇ e nebo sv´ym odm´ıtnut´ım, pak jsem indiferentn´ı v˚ucˇ i obˇema alternativ´am a rozhoduji n´ahodnˇe s rovnomˇernou pravdˇepodobnostn´ı distribuc´ı nad strategiemi – tady taky dost´av´ame prvn´ı pˇr´ıklad onˇech zm´ınˇen´ych sm´ısˇen´ych strategi´ı). Obecnˇe plat´ı, zˇ e cˇ´ım je zkouman´y inteligentn´ı tvor jednoduˇssˇ´ı, t´ım v´ıce jeho chov´an´ı odpov´ıd´a matematick´ym model˚um. To jenom potvrzuje pˇredpoklad, zˇ e hern´ı model je zjednoduˇsen´ı rozhodovac´ı situace.
1.2
Informace ve hˇre
V rozhodovac´ıch situac´ıch je pochopitelnˇe kl´ıcˇ ov´ym faktem m´ıra znalost´ı hr´acˇ u˚ o situaci. Abychom spr´avnˇe modelovali postup hr´acˇ e pˇri jeho racion´aln´ı u´ vaze, mus´ıme vytvoˇrit i validn´ı model jeho informovanosti o situaci. Co vˇsechno by mˇel hr´acˇ vˇedˇet, aby se mohl rozhodnout, respektive, abychom my byli schopni predikovat jeho rozhodnut´ı? Nab´ız´ı se, zˇ e mus´ı vˇedˇet o sv´ych protivn´ıc´ıch, mus´ı zn´at jejich strategie a mus´ı zn´at svoje a jejich uˇzitkov´e funkce. Staˇc´ı to vˇsak na to, aby jeho znalost o hˇre byla jaksi kompletn´ı? Zavede si nyn´ı pomocn´y pojem spoleˇcn´a znalost (angl. common knowledge). Form´aln´ı definici je moˇzno naj´ıt v cˇ l´anku3 , my se zde spokoj´ıme s ponˇekud volnˇejˇs´ım objasnˇen´ım pojmu common knowledge: Definice 3. Mˇejme dva hr´acˇ e A a B. Ud´alost E je pro hr´acˇ e {A, B} common knowledge, pokud: • ... hr´acˇ i {A, B} oba v´ı o ud´alosti E, • ... hr´acˇ A v´ı, zˇe B v´ı o ud´alosti E, • ... hr´acˇ B v´ı, zˇe A v´ı o ud´alosti E, • ... hr´acˇ A v´ı, zˇe B v´ı, zˇe A v´ı o ud´alosti E, • ... hr´acˇ B v´ı, zˇe A v´ı, zˇe B v´ı o ud´alosti E, • takto aˇz do nekoneˇcn´eho zanoˇren´ı. ˇ Jako pˇr´ıklad common knowledge si uvedme situaci dvou vojev˚udc˚u, kteˇr´ı jsou se sv´ymi t´abory rozloˇzeni na protilehl´ych kopc´ıch. Vojev˚udci by se r´adi se sv´ymi arm´adami utkali, ale v´ı, zˇ e pokud 3
Aumann, R: Agreeing to Disagree, The Annals of Statistics, Vol. 4, No. 6. (Nov., 1976), pp. 1236-1239.
9
jeden sestoup´ı do u´ dol´ı a druh´y z˚ustane na kopci, tak ten sestoupivˇs´ı bude ve strategick´e nev´yhodˇe. Mohou se tedy utkat jedinˇe za pˇredpokladu, zˇ e sestoup´ı oba souˇcasnˇe. Proto se mus´ı informovat o m´ıstˇe a cˇ asu bitvy. Vojev˚udce A tedy vyˇsle k vojev˚udci B posla s ozn´amen´ım o z´ıtˇrejˇs´ı bitvˇe. Vojev˚udce ovˇsem nev´ı, zda-li posel k protihr´acˇ i dorazil. Zat´ım je tedy ve stavu, zˇ e on s´am je informov´an ˇ o ud´alosti E. Reknˇ eme, zˇ e posel dorazil k druh´emu vojev˚udci a informoval o E. Nyn´ı oba v´ı o stavu E. Ovˇsem vojev˚udce A instruuje posla, aby se vr´atil s potvrzen´ım od vojev˚udce B o tom, zda-li B souhlas´ı s pl´anem E. Dokud mu to posel nepotvrd´ı, nelze mluvit o dohodˇe. Posel ovˇsem na cestˇe od B k A m˚uzˇ e dezertovat, a tak i B m´a z´ajem vˇedˇet, zda-li se A dozvˇedˇel o jeho potvrzen´ı. S kaˇzd´ym pˇrebˇehnut´ım mezi vojev˚udci nar˚ust´a jejich jistota, zˇ e oba ud´alost E akceptovali. Aby vˇsak jistota dos´ahla stavu common knowledge, musel by posel bˇehat nekoneˇcnˇe kr´at. Pojem common knowledge pouˇzijeme pro definici u´ pln´e informace ve hˇre (angl. complete information). Definice 4. Mˇejme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Pokud jsou pro vˇsechny z´ucˇ astnˇen´e hr´acˇ e Q n´asleduj´ıc´ı informace common knowledge: • struktura hry Γ (tedy mnoˇziny Q a {Si }i∈Q ), • v´yplatn´ı (uˇzitkov´e) funkce Ui ; i ∈ Q, • zp˚usob hran´ı hry a forma hern´ıho ekvilibria, a souˇcasnˇe tento fakt samotn´y je common knowledge, pak maj´ı hr´acˇ i kompletn´ı informaci o hˇre. U her v rozˇs´ırˇen´e formˇe nav´ıc zavedeme pojem dokonal´a (angl. perfect) a nedokonal´a (angl. imperfect) informace ve hˇre. Pojmy common knowledge, complete information a perfect information tak bude vyˇcerp´ano zkoum´an´ı informovanosti hr´acˇ u˚ o situaci.
1.3
Anal´yza hry
Chceme nyn´ı zkoumat pohled jednotliv´ych hr´acˇ u˚ na hru. Elementem zkoum´an´ı hry je volba strategie v situaci, kdy protihr´acˇ vol´ı konkr´etn´ı strategii. Dost´av´ame se tak na u´ roveˇn prvn´ı kapitoly, t.j. na teorii volby. V situaci, kdy protihr´acˇ i vol´ı konkr´etn´ı strategie s−i , hr´acˇ i vˇzdy vol´ı takovou strategii, kter´a mu v t´eto situaci pˇrinese maxim´aln´ı zisk. Je to hr´acˇ ova nejlepˇs´ı odpovˇedˇ (angl. best-response) na danou situaci. Zavedeme si proto form´alnˇe pojem best-response. Definice 5. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ), hr´acˇ e i ∈ Q a konkr´etn´ı sub-profil s−i ∈ S−i . Nejlepˇs´ı odpovˇedˇ hr´acˇ e i v situaci s−i je BRi (s−i ) = arg max[Ui (si , s−i )] si ∈Si
10
Vid´ıme, zˇ e BRi (s−i ) je maxim´aln´ı mnoˇzina na mnoˇzinˇe strategi´ı Si z pohledu uˇzitk˚u {Ui (si , s−i )}si ∈Si . Je tˇreba znovu zd˚uraznit, zˇ e best-response je mnoˇzina4 . Form´alnˇe jsou tedy definiˇcn´ı obor a obor hodnot BRi definov´any takto: BRi : S−i → 2Si \ {∅} ˚ zeme Racion´aln´ı hr´acˇ vˇzdy hraje strategii, kter´a je best-response v situaci s−i . Tento fakt muˇ ´ br´at jako z´akladn´ı stavebn´ı k´amen n´asleduj´ıc´ıch uvah. Nen´ı proto pˇrekvapuj´ıc´ı, zˇ e od ekvilibria ve hˇre budeme oˇcek´avat, zˇ e bude vz´ajemn´ym best-response vˇsech hr´acˇ u˚ , tedy form´alnˇe: Definice 6. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Profil s∗ ∈ S je tak zvan´ym rovnov´azˇn´ym stavem hry (ekvilibriem ve hˇre), pokud plat´ı ∀i ∈ Q : s∗i ∈ BRi (s∗−i ) Neˇz se vˇsak dostaneme k obvyklejˇs´ı formˇe definice ekvilibria a dalˇs´ım poznatk˚um, kter´e se ho t´ykaj´ı, m˚uzˇ eme strategickou situaci d´ale zkoumat bez potˇreby okamˇzitˇe nal´ezt body rovnov´ahy.
1.3.1
Dominance mezi strategiemi ve hˇre
Je zcela jist´e, zˇ e pokud m´a hr´acˇ strategii, kter´a mu vˇzdy pˇrinese horˇs´ı uˇzitek neˇz jeho ostatn´ı strategie, nebude takovou strategii ve hˇre uvaˇzovat. Takov´a strategie nem´a pro hr´acˇ e smysl. Pˇredpokl´ad´ame, zˇ e i jeho protihr´acˇ i si takov´e strategie vˇsimnou. Celkovˇe tud´ızˇ ve hˇre nebude uvaˇzov´ana. Budeme nyn´ı zkoumat tak zvan´e dominantn´ı (angl. dominant) a dominovan´e (angl. dominated) strategie5 . ˇ Definice 7. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Rekneme, zˇe strategie s1i ∈ Si striktnˇe dominuje nad strategi´ı s2i ∈ Si , pokud plat´ı: ∀s−i ∈ S−i : Ui (s1i , s−i ) > Ui (s2i , s−i ) Situace, kdy jedna strategie (s1i ) striktnˇe dominuje nad jinou (s2i ) strategi´ı hr´acˇ e m´a pro hru velkou vypov´ıdac´ı hodnotu. Strategie s2i se zde naz´yv´a strategi´ı striktnˇe dominovanou strategi´ı s1i . Racion´aln´ı hr´acˇ bude vˇzdy preferovat s1i pˇred s2i . Z toho plyne tak´e, zˇ e pokud existuje alespon jedna strategie s1i , kter´a striktnˇe dominuje nad s2i , tak hr´acˇ s2i nikdy nebude hr´at. Odliˇsujme ale mezi pojmy ”striktnˇe dominantn´ı strategie” a ”strategie striktnˇe dominuj´ıc´ı nad jinou strategi´ı”. 4
Pokud to chce nˇekdo br´at opravdu program´atorsky, pak je best-response funkce, kter´a m´a na vstupu sub-profil s−i ∈ S−i a vrac´ı mnoˇzinu strategi´ı, kter´a je podmnoˇzinou Si . 5ˇ Cesk´y v´yraz ”dominovan´y” moˇzn´a nen´ı z pohledu spisovn´e cˇ eˇstiny u´ plnˇe spr´avn´y. M˚uzˇ e b´yt, zˇ e spr´avn´ym v´yrazem by bylo ”dominuj´ıc´ı”, tedy strategie x dominuje strategii y. Osobnˇe bych preferoval v´yraz ”dominovan´y”, tzn. strategie x je dominovan´a strategi´ı y.
11
Vˇsimnˇeme si, zˇ e striktn´ı dominance je forma preference hr´acˇ e nad strategiemi ve hˇre. Ovˇsem pouze forma, neboˇt z principu nen´ı tato relace u´ pln´a (nelze ˇr´ıct pro kaˇzd´e dvˇe r˚uzn´e strategie s1i , s2i ∈ Si , zˇ e budˇ s1i striktnˇe dominuje nad s2i nebo naopak). Definice 8. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Strategie s2i ∈ Si hr´acˇ e i je ve hˇre striktnˇe dominovan´a, pokud pro vˇsechny strategie s1i ∈ Si \ {s2i } plat´ı, zˇe s1i striktnˇe dominuje nad s2i . Racion´aln´ı hr´acˇ nikdy nebude striktnˇe dominovanou strategii hr´at. Opakem striktnˇe dominovan´e strategie je strategie striktnˇe dominantn´ı (tj. neexistuje jin´a strategie hr´acˇ e, kter´a by ji striktnˇe dominovala). Pokud hr´acˇ m´a striktnˇe dominantn´ı strategii, bude ji vˇzdy hr´at (nav´ıc je z principu jedin´a) a je zˇrejm´e, zˇ e jeho protihr´acˇ i budou volit best-response na tuto strategii. Pokud maj´ı vˇsichni hr´acˇ i striktnˇe dominantn´ı strategii (kterou tedy pochopitelnˇe hraj´ı), v´ysledek hry se pak naz´yv´a ekvilibrium striktnˇe dominantn´ıch strategi´ı. Jako pˇr´ıklad takov´e situace si uvedeme slavn´e Vˇezˇnovo dilema, kter´e je fenom´enem teorie her a bohuˇzel i naˇseho re´aln´eho svˇeta. Pro u´ plnost zavedeme jeˇstˇe slabou dominanci mezi strategiemi. Definice 9. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Strategie s1i ∈ Si slabˇe (weakly) dominuje nad strategi´ı s2i ∈ Si , pokud plat´ı: ∀s−i ∈ S−i : Ui (s1i , s−i ) ≥ Ui (s2i , s−i ) a souˇcasnˇe ∃s0−i ∈ S−i : Ui (s1i , s0−i ) > Ui (s2i , s−i ) Zopakujme si pojmy spojen´e s dominanc´ı: • Dominovat – jedna strategie dominuje nad druhou. Je to vztah dvou konkr´etn´ıch strategi´ı x a y, kdy napˇr´ıklad x je dominantn´ı nad y a y je dominovan´a x. • B´yt dominantn´ı (bez uveden´ı dvojice strategi´ı) – dominantn´ı strategie dominuje nad vˇsemi ostatn´ımi strategiemi. • B´yt dominovan´y (bez uveden´ı dvojice strategi´ı) – strategie x je dominovan´a, pokud vˇsechny ostatn´ı nad n´ı dominuj´ı.
1.4
ˇ Vˇeznovo dilema
Vˇezˇnovo dilema (angl. Prisoner’s dilemma) poprv´e pˇredstavili p´anov´e Merrill Flood a Melvin Dresher v roce 1950, tehdy pracuj´ıc´ı pro americkou instituci RAND (tam se tak´e sdruˇzovala vˇetˇsina americk´ych hern´ıch teoretik˚u). Pˇr´ıbˇeh o vˇezn´ıch pozdˇeji dodal Albert W. Tucker. 12
Vˇezˇnovo dilema je neslavnˇejˇs´ı strategick´a situace, kter´a kdy byla v teorii her zkoum´ana. Ukazuje, zˇ e lid´e nejsou schopni kooperace, ani pokud jim nekooperace pˇrinese znaˇcn´e ztr´aty. Toto dilema je modelem mnoha kaˇzdodenn´ıch lidsk´ych situac´ı. Vˇezˇnovo dilema je pro teorii her natolik v´yznamn´y model, zˇ e znalost t´eto strategick´e situace je nutno povaˇzovat za znalost naprosto z´akladn´ı. R˚uzn´ı autoˇri pod´avaj´ı tuto hru v r˚uzn´ych hodnot´ach uˇzitku, veˇsker´e instance t´eto hry jsou vˇsak strategicky ekvivalentn´ı s n´asleduj´ıc´ım modelem. Pˇredstavme si, zˇ e policie zatkne dva podezˇrel´e – Petera a Johna, a obvin´ı je napˇr´ıklad z ozbrojen´e loupeˇze. Bohuˇzel vˇsak policie nem´a d˚ukazy o jejich zloˇcinu a proto je uvede do n´asleduj´ıc´ı situace. Obˇema spoleˇcnˇe ozn´am´ı n´asleduj´ıc´ı pravidla a bezprostˇrednˇe pot´e je um´ıst´ı do oddˇelen´ych cel tak, zˇ e Peter a John spolu nemohou komunikovat. Ozn´amen´ı je takov´e: • Pokud se pˇrizn´asˇ a pˇrizn´a se i tv˚uj komplic, p˚ujdete oba na deset let do vˇezen´ı. • Pokud se pˇrizn´asˇ (tzn. budeˇs vypov´ıdat), ale tv˚uj komplic se nepˇrizn´a, pak ty budeˇs osvobozen (0 let vˇezen´ı) a tv˚uj komplic si odsed´ı za oba dvacet let. • Pokud budete oba mlˇcet, m´ame na v´as pouze nez´akonn´e drˇzen´ı zbranˇe, kter´a se u v´as naˇsla a dostanete kaˇzd´y jeden rok vˇezen´ı. • Pokud se nepˇrizn´asˇ a tv˚uj komplic bude vypov´ıdat, viz. v´ysˇe symetricky. Tato situace je rozhodnˇe pro oba komplice dilema. Lze pˇredpokl´adat ze znalosti bˇezˇ n´e praxe, zˇ e zloˇcinci se vz´ajemnˇe kryj´ı, ovˇsem tady pˇredpokl´ad´ame individu´aln´ı racionalitu, zˇ a´ dn´e postrann´ı dohody a t´ım m´enˇe jejich vymahatelnost a obavu z v´ysledku, kdy se komplic pˇrizn´a a j´a ne. Souˇcasnˇe pˇredpokl´ad´ame u hr´acˇ u˚ kompletn´ı informaci o hˇre, tj. hr´acˇ i znaj´ı oba podm´ınky hry a souˇcasnˇe tento fakt o sobˇe navz´ajem v´ı. Peter/John pˇriznat se zatloukat pˇriznat se -10,-10 0,-20 zatloukat -20,0 -1,-1 Figure 1.1: Maticov´a hra pro Vˇezˇnovo dilema Uˇzitek ve formˇe let ve vˇezen´ı vyjadˇrujeme z´aporn´ym cˇ´ıslem, aby bylo moˇzno intuitivnˇe porovn´avat v´ystupy a t´ım definovat preferenci. Z anal´yzy hry plyne, zˇ e pro Petera je strategie ”pˇriznat se” striktnˇe dominantn´ı, neboˇt mu vˇzdy garantuje striktnˇe lepˇs´ı v´ysledek neˇz strategie ”zatloukat”. Symetricky je to u Johna. Hra ma tud´ızˇ ekvilibrium ve striktnˇe dominantn´ıch strategi´ıch, oba podezˇrel´ı se pˇriznaj´ı a jdou na deset let do vˇezen´ı. Pokud budeme ch´apat strategii ”pˇriznat se” jako strategii zradit a strategii ”zatloukat” jako strategii spolupracovat (kooperovat), dost´av´ame se k modelu mnoha lidsk´ych zˇ ivotn´ıch situac´ı. 13
Pokud bysme pˇrepokl´adali moˇznost podezˇrel´ych si pˇredem dohodnout spoleˇcnou volbu strategie a n´aslednˇe je zase od sebe odlouˇcili, pak jejich chov´an´ı stejnˇe sklouzne k ekvilibriu ve striktnˇe dominantn´ıch strategii. Prostˇe obava ze zrady bude silnˇejˇs´ı neˇz v´ıra v kooperaci. Aby byla kooperace uvˇeˇriteln´a, mus´ı existovat d˚uvˇeryhodn´a hrozba trestu, kter´y bude v pˇr´ıpadˇe zrady znaˇcnˇe pˇrevyˇsovat nejhorˇs´ı moˇzn´y v´ysledek ve hˇre (napˇr´ıklad hrozba ve formˇe pomsty kump´an˚u Petera a Johna). V dalˇs´ıch kapitol´ach znovu povol´ame Vˇezˇnovo dilema k dalˇs´ımu zkoum´an´ı, napˇr´ıklad v kapitole o opakovan´ych hr´ach.
1.5
Rovnov´azˇ n´y stav ve hˇre (ekvilibrium)
Rovnov´azˇ n´y bod ve hˇre neboli ekvilibrium je jedn´ım z nejvˇetˇs´ıch probl´em˚u teorie her. Je totiˇz velmi jednoduˇse definov´an, ale pˇresto je jeho zjiˇstˇen´ı extremn´e obt´ızˇ n´y algoritmick´y u´ kol. Ekvilibrium v nekooperativn´ıch strategick´ych hr´ach zavedl John Nash v roce 1950 ve sv´em cˇ l´anku [1]. Do t´e doby bylo zn´amo pouze ekvilibrium v tak zvan´ych nekooperativn´ıch hr´ach s nulov´ym souˇctem, kter´e zavedl matematik John von Neumann [2] a publikoval ve slavn´e knize spoleˇcnˇe s Oskarem Morgensternem – Theory of Games and Economic Behavior. John Nash na jejich pr´aci nav´azal ve sv´em postgradu´aln´ım studiu, kde zkoumal obecn´e pojet´ı nekooperativn´ıch her s vazbou na vyjedn´av´an´ı a kooperativn´ı hry. Ekvilibrium ve hr´ach je od doby Nashova pr˚ulomu v teorii her naz´yv´ano Nashovo ekvilibrium (NE). Nashovo ekvilibrium m´a specifick´y v´yznam, neboˇt popisuje racion´aln´ı pnut´ı (incentives) ve vˇsech form´ach her a jeho v´yznam tak pˇresahuje teorii nekooperativn´ıch her. Pˇr´ınos Johna Nashe je tak pro teorii her nepopirateln´y. M˚uzˇ eme sice naj´ıt v jeˇstˇe d´avnˇejˇs´ı historii pˇr´ıklady hernˇe-teoretick´ych u´ vah (Cournotovo ˇreˇsen´ı oligopolu), m˚uzˇ eme za otce (a matku) teorie her povaˇzovat von Neumanna nebo Morgensterna, re´alnˇe vˇsak teorie her zaˇcala existovat pr´avˇe myˇslenkou Johna Nashe. Pˇredvedeme si nyn´ı form´aln´ı definici Nashova ekvilibria: Definice 10. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Strategick´y profil s∗ ∈ S je ryz´ım Nashov´ym ekvilibriem (PNE) ve hˇre, pokud plat´ı pro vˇsechny hr´acˇ e i ∈ Q: ∀si ∈ Si : Ui (s∗i , s∗−i ) ≥ Ui (si , s∗−i ) ˇ ık´a, zˇ e pokud hr´acˇ i hraj´ı profil s∗ , tak zˇ a´ dn´y hr´acˇ nem˚uzˇ e Tato definice je pro teorii her kl´ıcˇ ov´a. R´ zv´ysˇit sv˚uj uˇzitek pˇrechodem do jin´e strategie si ∈ Si , si 6= s∗i , to znamen´a, zˇ e uˇzitek Ui (si , s∗−i ) m˚uzˇ e b´yt pˇrinejlepˇs´ım stejnˇe dobr´y jako Ui (s∗ ). D˚uleˇzit´e je vˇsak pochopit, zˇ e v´ysledek hr´acˇ u˚ v ekvilibriu nen´ı jejich maxim´aln´ım ziskem, ale pouze optim´aln´ım nebo tak´e stabiln´ım. Vlastnost rovnov´ahy vede hr´acˇ e mnohdy k neefektivn´ım v´ysledk˚um hry (jak je zˇrejm´e napˇr´ıklad u Vˇezˇnova dilematu). Definice 10 zav´ad´ı Nashovo ekvilibrium v ryz´ıch strategi´ıch. Budeme se ekvilibrii d´ale podrobnˇeji zab´yvat, v tomto okamˇziku se vˇsak sluˇs´ı uv´est nˇekolik z´asadn´ıch fakt˚u o ekvilibri´ıch (zat´ım bez n´arok˚u na podrobnˇejˇs´ı pochopen´ı): 14
• Hra m˚uzˇ e m´ıt v´ıce Nashov´ych ekvilibri´ı v ryz´ıch strategi´ıch. M˚uzˇ eme pak zkoumat, kter´e z nich hr´acˇ i zvol´ı. • Existuj´ı hry, kter´e nemaj´ı zˇ a´ dn´e Nashovo ekvilibrium v ryz´ıch strategi´ıch. • Kaˇzd´a koneˇcn´a hra m´a alespoˇn jedno ekvilibrium ve sm´ısˇen´ych strategi´ıch (probereme v dalˇs´ıch kapitol´ach).
1.5.1
Intiutivn´ı algoritmus nalezen´ı PNE
V mal´ych hr´ach m˚uzˇ eme snadno zjistit ryz´ı Nashova ekvilibria z definice 10 tak, zˇ e si pro kaˇzd´y profil poloˇz´ıme ot´azku, zda-li pro vˇsechny hr´acˇ e splˇnuje definovanou podm´ınku. D´ale m˚uzˇ eme pro kaˇzd´eho hr´acˇ e i ∈ Q a kaˇzd´y moˇzn´y sub-profil s−i ∈ S−i vyhodnoti hr´acˇ ovu nejlepˇs´ı odpovˇedˇ BRi (s−i ) a poznaˇcit si profily, kde BRi (s−i ) nastala. Pak z definice 6 vyhodnot´ıme pr˚unik takov´ych profil˚u, tedy: BRpnei =
[
{(si , s−i )|si ∈ BRi (s−i )}
s−i ∈S−i
P NE =
\
BRpnei
i∈Q
U vˇetˇs´ıch her jiˇz vych´az´ı tyto algoritmy jako neefektivn´ı, specificky pokud hled´ame ekvilibria ve sm´ısˇen´ych strategi´ı (bude vysvˇetleno d´ale). B´yva proto vhodn´e redukovat hru na jej´ı strategick´y ekvivalent s menˇs´ım poˇctem strategi´ı hr´acˇ u˚ . Vhodn´a m˚uzˇ e b´yt n´asleduj´ıc´ı technika zn´am´a jako iterativn´ı eliminace dominovan´ych strategi´ı. Co znamen´a ekvilibrium pro re´aln´y zˇ ivot? V pˇredmˇetu THE zavedeme nˇekolik tak zvan´ych zjemnˇen´ı nebo take zpˇresnˇen´ı ekvilibria (angl. refinements) a tak´e jedno zobecnˇen´ı ve formˇe korelovan´eho ekvilibria. Veˇsker´e zpˇresˇnuj´ıc´ı refinements ovˇsem budou st´ale plnit podm´ınku Nashe a v pˇr´ıpadˇe zobecnˇen´ı bude platit, zˇ e vˇsechna Nashova ekvilibria budou z´aroveˇn i korelovan´a ekvilibria. Co pˇresto znamen´a ekvilibrium v ch´ap´an´ı re´aln´ych situac´ı a lze v˚ubec vˇeˇrit, zˇ e re´aln´ı hr´acˇ i pochop´ı, kde leˇz´ı ve hˇre rovnov´azˇ n´y stav? Pˇrednˇe, ekvilibrium je algoritmick´y popis nalezen´ı rovnov´ahy, kter´a hr´acˇ u˚ m ukazuje optim´aln´ı v´ysledek hry. Je to zat´ım jedin´y algoritmicky popsan´y postup a pokud budeme nˇekdy implementovat simulaˇcn´ı modely s prvky hry, impelemtaci ekvilibria se nevyhneme. Experiment´aln´ı teorie her ukazuje, zˇ e vˇetˇsinou hr´acˇ i ve zkouman´ych situac´ıch jaksi do rovnov´azˇ n´eho stavu dokonverguj´ı. Stane se to budˇ opakovan´ymi hrami, kde hr´acˇ i maj´ı zpˇetnou vazbu a intuitivnˇe
15
se do ekvilibria cˇ asem dostanou nebo u´ vahu s opakov´an´ım situace jsou schopni prov´est ve sv´ych hlav´ach.
1.6
Iterativn´ı eliminace dominovan´ych strategi´ı
S ned´avno zaveden´ym pojmem dominantn´ı a dominovan´e strategie souvis´ı n´asleduj´ıc´ı technika redukce hry na strategicky ekvivalentn´ı hru bez dominovan´ych strategi´ı, kter´a m˚uzˇ e v´est aˇz k nalezen´ı ekvilibria. Potˇrebujeme zav´est nejdˇr´ıve pojem strategick´e ekvivalence her a redukce hry na jej´ı strategick´y ekvivalent.
1.6.1
Strategick´a ekvivalence her
Na strategickou ekvivalenci dvou her je moˇzno pohl´ızˇ et z mnoha u´ hl˚u a zav´adˇet rozliˇcn´e definice. Strategickou ekvivalenci dvou her Γ a Γ0 m˚uzˇ eme intuitivnˇe ch´apat jako stav, kdy v obou hr´ach hr´acˇ i vykazuj´ı stejn´e chov´an´ı. Vidˇeno pˇres PNE, hry mohou b´yt nazv´any strategicky ekvivalentn´ımi, pokud maj´ı stejn´a PNE. Nejdˇr´ıve pochop´ıme n´asleduj´ıc´ı fakt: Definice 11. Hra Γ = (Q, {Si }i∈Q , {Ui }i∈Q ) je ekvivalentn´ı s hrou Γ0 = (Q, {Si }i∈Q , {Ui0 }i∈Q ), pokud existuj´ı pro kaˇzd´eho hr´acˇ e i ∈ Q re´aln´a cˇ´ısla Ai , Bi , kde Ai > 0 a plat´ı ∀s ∈ S: Ui0 (s) = Ai Ui (s) + Bi Definice ˇr´ık´a, zˇ e pokud jsou uˇzitkov´e funkce Ui0 line´arn´ımi kombinacemi funkc´ı Ui , pak jsou hry ekvivalentn´ı. Pokud tedy ke vˇsem zisk˚um jednoho hr´acˇ e pˇriˇcteme konkr´etn´ı jedno cˇ´ıslo, strategick´y charakter jeho chov´an´ı se nezmˇen´ı. Pokud odebereme ze hry nˇejakou strategii, vytv´aˇr´ıme tak podhru hry (pozor, v sekvenˇcn´ıch hr´ach bude podhra, angl. sub-game, oznaˇcuje jin´y probl´em).
1.6.2
Algoritmus eliminace
Algoritmus iterativn´ı eliminace dominovan´ych strategi´ı pracuje v kroc´ıch, kdy v kaˇzd´em kroku ze hry eliminuje striktnˇe dominovan´e strategie hr´acˇ u˚ . Po eliminaci doch´az´ıme k redukovan´e hˇre, kde ovˇsem strategie, kter´e byly ponech´any, nyn´ı se novˇe mohou st´at striktnˇe dominovan´ymi. Iterativn´ı proces konˇc´ı se hrou, kter´a uˇz neobsahuje u zˇ a´ dn´eho hr´acˇ e striktnˇe dominovanou strategii. Poznamenejme, zˇ e tento algoritmus je moˇzno uplatnit i s pouˇzit´ım slab´e dominance. Mohou tak ovˇsem ze hry vypadnout strategie, kter´e by tvoˇrily Nashova ekvilibria.
16
1.7
Efektivita profilu a Pareto dominance
V teorii volby jsme zkoumali preference nad akcemi hr´acˇ e, ve hr´ach jsme zavedli preference z hlediska dominance strategi´ı a nyn´ı probereme preference nad strategick´ymi profily. Efektivita profilu je forma statistiky vypov´ıdaj´ıc´ı o celkov´em dosaˇzen´em uˇzitku pˇri hran´ı profilu. Zjednoduˇsenˇe efektivitu profilu definujme jako E(s) =
X
Ui (s)
i∈Q
Je pochopiteln´e, zˇ e pokud hr´acˇ i posuzuj´ı dva profily s, s0 ∈ S a E(s) > E(s0 ), tak je velk´a sˇance, zˇ e daj´ı pˇrednost profilu s (napˇr´ıklad pokud jsou s, s0 PNE ve hˇre). Tento pohled ovˇsem negarantuje celkovou spokojenost vˇsech hr´acˇ u˚ s efektivnˇejˇs´ım profilem. Vilfredo Pareto (1848–1923), italsk´y slavny ekonom, zavedl pojem Pareto dominance, kter´y si nyn´ı definujme: Definice 12. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Profil s ∈ S pareto dominuje nad profilem s0 ∈ S, pokud plat´ı, zˇe ∀i ∈ Q : Ui (s) ≥ Ui (s0 ) a souˇcasnˇe ∃i ∈ Q : Ui (s) > Ui (s0 ) Vˇsimnˇeme si, zˇ e definice pareto dominance je totoˇzn´a s definic´ı slab´e dominance nad strategiemi jednoho hr´acˇ e. Pokud tedy vˇsichni hr´acˇ i v dominantn´ım profilu z´ısk´avaj´ı alespoˇn stejnˇe hodnˇe jako v dominovan´em, tak nejsp´ısˇ ti striktnˇe lepˇs´ı hr´acˇ i budou dominantn´ı profil preferovat a ostatn´ı hr´acˇ i budou spolupracovat (napˇr´ıklad proto, zˇ e oˇcek´avaj´ı striktnˇe lepˇs´ı hr´acˇ e hr´at dominantn´ı profil a pˇrizp˚usob´ı svou best-response). Na pojem dominance (tzn. jist´e formy preference) navazuje pojem koneˇcn´e efektivity, tedy forma maxim´aln´ı mnoˇziny a tedy i optima: Definice 13. Uvaˇzujme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Profil s ∈ S je pareto efektivn´ı, pokud neexistuje jin´y profil s0 ∈ S takov´y, zˇe by s0 pareto dominoval nad s. Pochopitelnˇe nezkoum´ame pareto dominanci nad vˇsemi profily, ale obvykle nad profily, kter´e tvoˇr´ı PNE. Na z´avˇer t´eto kapitoly poznamenejme, zˇ e v re´aln´ych situac´ıch mohou vznikat r˚uzn´e dohody mezi hr´acˇ i, kter´e zp˚usob´ı, zˇ e hr´acˇ i souhlas´ı s pro nˇe horˇs´ım profilem, pokud se dohodnou na jin´em pˇrerozdˇelen´ı zisku (vede to na kooperativn´ı hry s pˇrenositeln´ym uˇzitkem, viz d´ale). 17
Chapter 2 ˚ model oligopolu Cournotuv Matematick´e ˇreˇsen´ı oligopoln´ıch trh˚u byl historicky prvn´ı pokus odvodit matematicky chov´an´ı hr´acˇ u˚ ve strategick´e situaci. M´ırnˇe zde zabrous´ıme do mikroekonomick´ych teori´ı, ale na u´ rovni, kter´a nevyˇzaduje hlubˇs´ı znalosti ekonomie1 . Pro zaˇca´ tek prostudujeme situaci na trhu s jedn´ım konkr´etn´ım druhem v´yrobku (komoditou), kde pˇredpokl´ad´ame, zˇ e v´yrobek m˚uzˇ e poch´azet od r˚uzn´ych v´yrobc˚u, ale pro z´akazn´ıka jsou vˇsechny kvalitativnˇe shodn´e a rozliˇsuj´ı produkci r˚uzn´ych v´yrobc˚u pouze cenou v´yrobku (homogenn´ı produkt). M˚uzˇ eme mluvit napˇr´ıklad o standardizovan´em rohl´ıku – ten vˇsichni znaj´ı a zkoumaj´ı pouze jeho cenu. Pˇredpokl´adejme, zˇ e cena v´yrobku vznikne p˚usoben´ım trˇzn´ıch sil na trhu vlivem z´akon˚u nab´ıdky a popt´avky, kter´e pop´ısˇeme rovnic´ı: p=M −q kde p znaˇc´ı maxim´aln´ı dosaˇzitelnou cenu, q je mnoˇzstv´ı dodan´e na trh a M je specifick´a konstantna dan´a trhem. Bude n´as zaj´ımat cena v´yrobku na trhu a mnoˇzstv´ı, kter´e jsou za tˇechto okolnost´ı v´yrobci ochotni dodat na trh. Budeme zkoumat situaci danou jedn´ım v´yrobcem s monopoln´ım postaven´ım, situac´ı se dvˇema v´yrobci (duopol) a situac´ı s v´ıce v´yrobci (oligopol). Oligopol s´am je definov´an jako situace na trhu s komoditou, kterou dod´av´a dva a v´ıce hr´acˇ u˚ , kdy kaˇzd´y je svou trˇzn´ı/v´yrobn´ı silou schopen ovlivnit cenu komodity na trhu. Duopol je tedy specifick´y pˇr´ıpad oligopolu, ale my budeme odliˇsovat situaci dvou hr´acˇ u˚ a situaci obecnˇe v´ıce (tˇri a v´ıce) hr´acˇ u˚ 2 . Monopolista na trhu bude maximalizovat sv˚uj zisk, tedy hledat extr´em funkce: u(q) = p · q − c · q = M q − q 2 − cq kde c bude v n´asleduj´ıc´ım textu vˇzdy vyjadˇrovat v´yrobn´ı n´aklady spojen´e s produkc´ı jednotky ˇ Kapitola vych´az´ı z pˇredn´asˇek Magdal´eny Hykˇsov´e z FD CVUT Obecnˇe v teorii her jsou dramaticky odliˇsn´e modely dvou hr´acˇ u˚ a modely s v´ıce hr´acˇ i, zejm´ena z pohledu jejich sloˇzitosti. V´ıcehr´acˇ ovou hrou se vˇzdy rozum´ı hra tˇr´ı a v´ıce hr´acˇ u˚ . 1
2
18
komodity (cena v´yroby jednoho rohl´ıku). Funkce vyjadˇruje rozd´ıl trˇzeb a v´yrobn´ıch n´aklad˚u, coˇz je pro n´as nyn´ı zisk v´yrobce z prodeje. Hled´ame extr´em uˇzitkov´e funkce (bod, ve kter´em je prvn´ı derivace nulov´a): 1 (M − c) 2 ∗ Maxim´aln´ıho zisku dos´ahne monopolista pˇri v´yrobˇe qmon mnoˇzstv´ı komodity, cena bude ∗ u0 (q) = M − 2q − c = 0 ⇒ qmon =
1 1 1 1 ∗ p∗mon = M − qmon = M − (M − c) = M + c = (M + c) 2 2 2 2 Zisk je koneˇcnˇe d´an vztahem u∗mon
=
∗ u(qmon )
=
∗ qmon (p∗mon
1 − c) = (M − c) 2
2
Pokud pˇrid´ame dalˇs´ıho v´yrobce (hr´acˇ e), oˇcek´av´ame pak, zˇ e se cena v´yrobku sn´ızˇ´ı a mnoˇzstv´ı dodan´e na trh se zv´ysˇ´ı. V oligopoln´ı situaci, kdy se poˇcet hr´acˇ u˚ limitnˇe bl´ızˇ´ı k nekoneˇcnu, uvid´ıme, zˇ e hr´acˇ i produkuj´ı s nulov´ym ziskem. N´asleduj´ıc´ı model sestavil Augustine Cournot a je zn´am jako Cournot˚uv model duopolu/oligopolu. Pro hern´ı teoretiky je zaj´ımav´e zjiˇstˇen´ı, zˇ e Cournot odvodil Nashovo ekvilibrium jako pr˚useˇc´ık tak zvan´ych reakˇcn´ıch kˇrivek hr´acˇ u˚ – coˇz jsou pro n´as best-response kˇrivky. Z pohledu her je Cournot˚uv model oligopolu strategick´a nekooperativn´ı hra s nekoneˇcnˇe mnoha strategiemi, resp. se strategiemi tvoˇren´ymi spojit´ymi (omezen´ymi nebo neomezen´ymi) intervaly – tady pˇredpokl´ad´ame, zˇ e mnoˇziny strategi´ı hr´acˇ u˚ jsou Si = (0, ∞).
2.1
Cournotovo rˇ eˇsen´ı duopolu
Mˇejme tedy dva hr´acˇ i-v´yrobce, coˇz znamen´a, zˇ e hled´ame q1 , q2 pˇri v´yrobn´ıch n´akladech c. Maxim´aln´ı dosaˇziteln´a cena komodity na trhu je podobnˇe d´ana rovnic´ı d´avaj´ıc´ı do vztahu cenu a dodan´e mnoˇzstv´ı: p = M − q1 − q 2 Hr´acˇ i nejsp´ısˇ vol´ı mnoˇzstv´ı (svou mnoˇzstevn´ı strategii) z intervalu h0, M i, to znamen´a, zˇ e jejich mnoˇzstevn´ı strategie jsou nekoneˇcn´e ohraniˇcen´e mnoˇziny: S1 = S2 = h0, M i V´yplatn´ı funkce jiˇz nyn´ı z´avis´ı na hran´em profilu (m´ame tady hru): u1 (q1 , q2 ) = (p − c)q1 = (M − q1 − q2 − c)q1 19
u2 (q1 , q2 ) = (p − c)q2 = (M − q1 − q2 − c)q2 Zkoumejme pohled prvn´ıho duopolisty. Pohled druh´eho duopolisty je totiˇz obdobn´y. Pro kaˇzdou strategii soupeˇre q2 hled´a takov´e mnoˇzstv´ı q1 = R1 (q2 ), aby hodnota u1 (q1 , q2 ) byla maxim´aln´ı (je to jeho best-response). Funkci R1 (q2 ) ˇr´ık´ame reakˇcn´ı kˇrivka. Matematicky vzato (l´epe ˇreˇceno, z matematick´e anal´yzy) hled´ame extr´em funkce v´ıce promˇenn´ych podle promˇenn´e q1 , coˇz vede na parci´aln´ı derivaci (ostatn´ı mnoˇzstevn´ı promˇenn´e zde vystupuj´ı jako konstanty): ∂u1 = M − c − q2 − 2q1 = 0 ∂q1 Hr´acˇ bude hr´at takovou strategii q1 , aby byla best-response na protihr´acˇ ovu q2 , to znamen´a hled´a bod extr´emu, kter´y nast´av´a v bodˇe q1 takov´em, zˇ e M − c − q2 − 2q1 = 0 Strategie q2 je pro rozhodov´an´ı prvn´ıho hr´acˇ e sub-profilem (tzn. s−i ), tedy konstantou a hr´acˇ jedna hled´a svou best-response mezi sv´ymi S1 . Proto klademe rovnost: 1 q1 = R1 (q2 ) = (M − c − q2 ) 2
(2.1)
Analogicky druh´y hr´acˇ vol´ı: 1 q2 = R2 (q1 ) = (M − c − q1 ) 2 ∗ ∗ Kde je rovnov´azˇ n´y bod (q1 , q2 )? Cournot jej navrhl jako pr˚useˇc´ık reakˇcn´ıch kˇrivek, tedy v hernˇe teoretick´em pojet´ı jako vz´ajemnou best-response hr´acˇ u˚ . Hled´ame (q1∗ , q2∗ ) tak, zˇ e R1 (q2∗ ) = R2 (q1∗ ): q2∗ =
1 (M − c − R1 (q1∗ )) 2
coˇz je q2∗
1 = 2
1 ∗ M − c − (M − c − q2 ) 2
a po zjednoduˇsen´ı dost´av´ame vztah pro q2∗ : 1 q2∗ = (M − c) 3 Po dosazen´ı (2.2) do (2.1) z´ısk´ame: 1 q1∗ = (M − c) 3 20
(2.2)
Figure 2.1: Cournotovo ˇreˇsen´ı oligopolu – grafick´e vyj´adˇren´ı pr˚useˇc´ık˚u reakˇcn´ıch kˇrivek [pouˇzito z pˇredn´asˇek M. Hykˇsov´e] Cena dosaˇzen´a na trhu vych´az´ı z p˚uvodn´ı rovnice mezi cenou a mnoˇzstv´ım na trhu: 2 1 2 p∗D = M − q = M − q1∗ − q2∗ = M − (M − c) = M + c 3 3 3 Zisk pro kaˇzd´eho je u1 (q1∗ , q2∗ )
=
u2 (q1∗ , q2∗ )
2 1 = (M − c) 3
A celkov´y zisk hr´ac˚u v situaci je menˇs´ı neˇz zisk monopolisty: 2 [(M − c)]2 9 Vyrobeno a dod´ano na trh je celkovˇe, coˇz je v´ıce neˇz u monopolisty: u1 (q1∗ , q2∗ ) + u2 (q1∗ , q2∗ ) =
2 q1∗ + q2∗ = (M − c) 3 Celkovˇe je vidˇet, zˇ e duopoln´ı situace je pro z´akazn´ıky lepˇs´ı neˇz monopoln´ı, neboˇt duopolist´e prod´avaj´ı vˇetˇs´ı mnoˇzstv´ı v´yrobk˚u za niˇzsˇ´ı cenu neˇz monopolista. Lze tedy i oˇcek´avat, zˇ e s kaˇzd´ym dalˇs´ım v´yrobcem se situace na trhu z pohledu z´akazn´ıka zlepˇs´ı.
´ ˚ ymi v´yrobn´ımi n´aklady c1 6= c2 hr´acˇ u˚ Uvaha s ruzn´ Pokud oˇcek´av´ame, zˇ e v´yrobn´ı n´aklady hr´acˇ u˚ jsou rozd´ıln´e, pak doch´az´ıme k n´asleduj´ıc´ımu ekvilibriu:
21
1 q1∗ = (M + c2 − 2c1 ) 3 1 q2∗ = (M + c1 − 2c2 ) 3 Uplatn´ı se tedy v´ıce hr´acˇ s niˇzsˇ´ımi n´aklady, coˇz nen´ı nijak pˇrekvapiv´e.
´ Uvaha o tajn´e dohodˇe duopolistu˚ ∗ jako monopolista? Mohou se duopolisti dohodnout a vyr´abˇet pouze qmon Dost´av´ame se tak mimo rovnov´azˇ n´y bod. V takov´em bodˇe je situace nestabiln´ı, protoˇze kaˇzd´y z hr´acˇ u˚ m˚uzˇ e vyboˇcit z profilu a kr´atkodobˇe si zisk nav´ysˇit. Pokud pˇripouˇst´ıme kooperativnost (napˇr. formou vyjedn´av´an´ı), pak studujeme rozs´ahlejˇs´ı oblast ˇreˇsen´ı. V´ıce v pˇredn´asˇce o kooperativn´ıch hr´ach.
2.2
ˇ sen´ı oligopolu˚ Reˇ
Uvaˇzujme n hr´acˇ u˚ , kde kaˇzd´y hled´a svoji strategii qi . Zisky jsou opˇet d´any pro hr´acˇ e i ∈ Q symetricky: ui (q1 , q2 , ..., qn ) = (p − c)qi = (M − c − q1 − q2 − ... − qn )qi Rovnov´azˇ n´y bod z´ısk´ame m´ırnˇe komplikovanˇejˇs´ım odvozov´an´ım neˇz u duopolu, ale postup je v principu shodn´y: ∂ui = M − c − q1 − q2 − ... − 2qi − ... − qn = 0 ∂qi Z obecn´eho pˇredpisu obdrˇz´ıme soustavu rovnic a tu ˇreˇs´ıme analyticky: 2q1 + q2 + ... + qn = M − c q1 + 2q2 + ... + qn = M − c .. q1 + q2 + ... + 2qn = M − c ˇ sen´ım soustavy obdrˇz´ıme Reˇ q1∗ = q2∗ = ... = qn∗ = Oligopolist´e dohromady vyrob´ı:
22
M −c n+1
∗
q =
n X
qi∗ = n
i=1
M −c n = (M − c) n+1 n+1
Z toho je patrn´e, zˇ e s rostouc´ım poˇctem hr´acˇ u˚ roste i mnoˇzstv´ı dodan´eho produktu a kles´a jeho cena (a zisk firem). p∗ =
n 1 M+ c n+1 n+1
u∗ =
n (M − c)2 2 (n + 1)
Kdyˇz jde n k nekoneˇcnu, dost´av´ame se do situace, kter´a se naz´yv´a dokonal´a soutˇezˇ (konkurence), kdy na trhu soupeˇr´ı velk´e mnoˇzstv´ı srovnateln´ych firem, kde zˇ a´ dn´a z nich nem´a moc v´yznamnˇe ovlivnit mnoˇzstv´ı na trhu. Velmi zaj´ımav´e je zjiˇstˇen´ı, zˇ e dodan´e mnoˇzstv´ı na trh je v situaci dokonal´e konkurence: n (M − c) = M − c n→∞ n + 1 coˇz souvis´ı i s cenou poˇzadovanou za v´yrobek (nem˚uzˇ eme oˇcek´avat, zˇ e by klesla pod n´aklady v´yroby): lim
p∗ = M − (M − c) = c Celkov´y zisk oligopolist˚u v dokonal´e konkurenci: u∗ = 0 ˇ Pro srovn´an´ı situac´ı monopolu, duopolu, oligopolu a oligopolu v dokonal´e konkurenci uvedme pˇrehledovou tabulku na Obr´azku 2.2.
Monopol Duopol Oligopol Dok. soutˇezˇ
Celkov´e mnoˇzstv´ı q ∗ 1 (M − c) 2 2 (M − c) 3 n (M − c) n+1 (M − c)
Cena za jednotku p∗ 1 M + 21 c 2 1 M + 32 c 3 1 n M + n+1 c n+1 c
Celkov´y zisk u∗ 1 (M − c)2 4 2 (M − c)2 9 n (M − c)2 (n+1)2 0
Figure 2.2: Srovn´an´ı r˚uzn´ych trˇzn´ıch situac´ı
23
2.3
˚ model oligopolu (1883) Bertranduv
Je zjevn´e, zˇ e oligopol nevede v realitˇe ani n´aznakem k dokonal´e konkurenci, kter´a se vyznaˇcuje cenou na u´ rovni v´yrobn´ıch n´aklad˚u a nulov´ym provozn´ım ziskem. M˚uzˇ eme to zkoumat na komodit´ach kaˇzdodenn´ı spotˇreby, kde lze jednoduˇse mˇenit dodavatele a produkt je v´ıcem´enˇe srovnateln´y. Nejv´ıc typick´e je to u telefonn´ıch nebo bankovn´ıch sluˇzeb. Bertrand˚uv model oligopolu nen´ı z pohledu teorie her tak pˇrelomov´y, jako byl ten Cournot˚uv. Bertrand revidoval z´avˇer Cournota s tvrzen´ım, zˇ e jiˇz u duopolist˚u se m˚uzˇ e rozbˇehnout dokonal´a konkurence, neboˇt jejich mnoˇzstevn´ı ekvilibrium nemus´ı b´yt stabiln´ı. Pˇripusˇtme, zˇ e duopolist´e hraj´ı (q1∗ , q2∗ ) = 31 (M − c) za shodnou cenu p∗ = 13 M + 23 c. Pˇri t´eto cenˇe tvoˇr´ı nenulov´y zisk z v´yroby a prodeje. Pˇri stejn´e cenˇe maj´ı rovn´y mnoˇzstevn´ı pod´ıl na prodeji. Najednou jeden z hr´acˇ u˚ zmˇen´ı svou cenu p∗i := p∗ − ∆, kde ∆ je libovolnˇe mal´e. Podle logiky trhu by mˇel hr´acˇ i vyprodat veˇskerou svou produkci a po nˇem aˇz draˇzsˇ´ı hr´acˇ . Plyne z toho, zˇ e hr´acˇ i nesoutˇezˇ´ı mnoˇzstv´ım, ale cenou, kter´a m˚uzˇ e j´ıt aˇz na u´ roveˇn n´aklad˚u, tedy implikuj´ıc´ı nulov´y zisk. Z faktu, zˇ e to tak v realitˇe nen´ı, plyne tzv. Bertrand˚uv paradox Dneˇsn´ı ekonomie jiˇz zn´a pojem cenov´a v´alka, kter´y je z pohledu strategick´e interakce trivi´aln´ı. Pˇredstavme si napˇr´ıklad tˇri hr´acˇ e Q = {A, B, C} na trhu s homogenn´ım produktem, jehoˇz cena se ust´alila na pi = p0 a pod´ıl v´yrobc˚u qi na trhu je rovnomˇernˇe rozloˇzen na tˇretiny, tzn. qi = 31 (M − p0 ). Pokud se v´yrobce j ∈ Q rozhodne uhnout z cenov´eho ekvilibria, pak by podle logiky trhu mˇel na sebe pˇret´ahnout veˇskerou popt´avku trhu aˇz do v´ysˇe sv´ych v´yrobn´ıch kapacit a m˚uzˇ e tak zv´ysˇit sv˚uj zisk. Ostatn´ı v´yrobci jsou nuceni sn´ızˇ it svou cenu tak, aby se vyrovnali aktu´aln´ı cenˇe hr´acˇ e j, pˇr´ıpadnˇe j´ıt jeˇstˇe n´ızˇ e. Rozloˇzen´ı popt´avky mezi v´yrobce se tak zˇrejmˇe opˇet srovn´a a v´ysledkem je stejn´e rozloˇzen´ı v´yroby s t´ım v´yznamn´ym rozd´ılem, zˇ e uˇz s menˇs´ımi trˇzbami. Proto nelze nikdy oˇcek´avat, zˇe si budou hr´acˇ i konkurovat cenou. Budou z´akazn´ık˚um st´ale dokazovat, zˇ e jejich produkt je lepˇs´ı neˇz konkurenˇcn´ı (bonusy, vˇernostn´ı programy, ...), ale nikdy nesn´ızˇ´ı cenu. K cenov´e v´alce m˚uzˇ e doj´ıt pouze pˇri vstoupen´ı nov´eho hr´acˇ e na trh, ovˇsem na dobu velmi kr´atkou. Nav´ıc by nemˇelo nikoho pˇrekvapit, kdyˇz je novˇe pˇr´ıchoz´ı pouze virtu´aln´ı identitou jiˇz zaveden´eho hr´acˇ e, kter´a pouze zvyˇsuje dojem konkurence na trhu.
2.4
Z´avˇer kapitoly o Cournotovˇe modelu oligopolu
Studium Cournotova modelu je pro n´as d˚uleˇzit´e ze tˇr´ı hlavn´ıch d˚uvod˚u: 1. Cournot˚uv model oligopolu je historicky prvn´ı uk´azka ˇreˇsen´ı strategick´e rovnov´ahy v nekooperativn´ıch hr´ach. Znalost Cournotova modelu je pro teorii her ch´ap´ana jako znalost z´akladn´ı. 2. Corunot˚uv model je uk´azka analytick´eho hernˇe-teoretick´eho modelu. Dalˇs´ı modely (napˇr. ekonomick´e) jsou koncipov´any podobn´ym zp˚usobem. 24
3. Cournot˚uv model je hr´an v nekoneˇcn´ych mnoˇzin´ach strategi´ı (resp. nekoneˇcn´ych ohraniˇcen´ych mnoˇzin´ach) a je to pro n´as myˇslenkov´y pˇrechod od ryz´ıch strategi´ı smˇerem ke sm´ısˇen´ym strategi´ım. Na Cournot˚uv model nav´azˇ eme v kapitole o hr´ach v rozˇs´ıˇren´e formˇe modelem podle Stackelberga, kter´y odliˇsuje mezi v´yrobci cenov´eho v˚udce a jeho n´asledovn´ıky.
25
Chapter 3 Hry bez Nashova ekvilibria v ryz´ıch strategi´ıch Zavedli jsme koncept Nashova ekvilibria v ryz´ıch strategi´ıch (PNE) a nyn´ı je potˇreba zkoumat, zda-li kaˇzd´a (avˇsak koneˇcn´a) hra m´a PNE nebo ne. Tento probl´em rozhodneme nalezen´ım alespoˇn jedn´e hry, kter´a PNE nem´a. Jako uk´azkov´y model poslouˇz´ı klasick´a hra Matching Pennies na Obr´azku 3.1 (u n´as zn´ame jej´ı m´ırnˇe sloˇzitˇejˇs´ı variantu K´amen-n˚uzˇ ky-pap´ır). A/B heads tails heads 1,-1 -1,1 tails -1,1 1,-1 Figure 3.1: Matice zisk˚u ve hˇre Matching Pennies Z matice zisk˚u je evidentn´ı, zˇ e hra nem´a PNE. Znamen´a to vˇsak, zˇ e nem´a ˇreˇsen´ı? Pokud by nemˇela ˇreˇsen´ı, pak by ji hr´acˇ i nedok´azali hr´at a to je nesmysl. Uk´azˇ eme, zˇ e racion´aln´ı strategi´ı hr´acˇ e je hr´at v t´eto hˇre strategii ”heads” s pravdˇepodobnost´ı 50 % a podobnˇe strategii ”tails”. Pokud zde budeme mluvit o pravdˇepodobnostech, tak t´ım nem´ın´ıme zˇ a´ dnou nejistotu hr´acˇ e pˇri rozhodov´an´ı, jako je tomu u rozhodov´an´ı za nejistoty (ve hr´ach proti pˇr´ırodˇe), nebo-li u rozhodov´an´ı nad loteriemi. Pravdˇepodobnosti budou modelovat indiferenci hr´acˇ e nad nˇekter´ymi jeho strategiemi. Vyjedeme z potˇreby hr´acˇ e se rozhodnout v situaci dan´e n´asleduj´ıc´ı uˇzitkovou funkc´ı: volba
a
b
zisk
10 20
c
d
30 40
Je zde zjevn´e, zˇ e hr´acˇ dosahuje sv´eho maxima pˇri volbˇe strategie d. Jakou strategii ovˇsem hr´acˇ zvol´ı v n´asleduj´ıc´ı, m´ırnˇe modifikovan´e situaci: volba
a
b
zisk
10 20 26
c
d
40 40
Vid´ıme, zˇ e hr´acˇ dostane shodn´y v´ysledek pˇri volbˇe strategie c i d. Hr´acˇ je tedy indiferentn´ı mezi c a d. Je mu tedy jedno, zda-li zvol´ı c nebo d. Racion´aln´ı hr´acˇ tento fakt pochop´ı1 a najde si zaˇr´ızen´ı, kter´e mu vygeneruje n´ahodnou veliˇcinu v potˇrebn´e pravdˇepodobnostn´ı distribuc´ı. V naˇsem pˇr´ıpadˇe si jedinec po staru ”hod´ı korunou”. Pˇri zobecnˇen´ı distribuce n´ahodn´e veliˇciny je modelem jeho rozhodovac´ı situace pravdˇepodobnostn´ı distribuce (0, 0, 0.5, 0.5). Nyn´ı si poloˇzme tuto ot´azku: je distribuce (0, 0, 0.4, 0.6) projevem indiference mezi c a d? Jak tuto situaci interpretujeme? Jak by mohla vzniknout? Pokud t´ım jedinec d´av´a najevo, zˇ e je v z´asadˇe indiferentn´ı mezi strategiemi s nenulovou pˇriˇrazenou pravdˇepodobnost´ı, ale tak nˇejak se mu d l´ıb´ı o kousek v´ıc, pak t´ımto zp˚usobem rozhodov´an´ı nemodelujeme. Pochopme, zˇ e postoj d c d je logicky nekonzistentn´ı. Ve hr´ach ovˇsem bude postoj (0, 0, 0.4, 0.6) pˇr´ıpustn´y, neboˇt bude vyjadˇrovat naˇse oˇcek´av´an´ı zisku. Oˇcek´avan´y zisk bude z´avisl´y na podobnˇe pravdˇepodobnostn´ım postoji protihr´acˇ u˚ . N´asˇ hr´acˇ bude indiferentn´ı nad strategiemi, kter´ym pˇriˇrazuje nenulovou pravdˇepodobnost, protoˇze oˇcek´avan´e zisky pˇri jejich hran´ı budou totoˇzn´e.
3.1
Sm´ısˇen´e rozˇs´ırˇ en´ı nekooperativn´ı hry
Nav´azˇ eme na definici nekooperativn´ı hry hran´e v diskr´etn´ıch mnoˇzin´ach strategi´ı (koneˇcn´a hra). Zavedeme tak zvan´e sm´ısˇen´e rozˇs´ıˇren´ı hry. Definice 14. Mˇejme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). Hru Γm = (Q; {∆i }i∈Q ; {πi }i∈Q ) nazveme sm´ısˇen´ym rozˇs´ırˇen´ım hry Γ, pokud ∀i ∈ Q: ˇ ıslo σi (si ) • ∆i je mnoˇzina sm´ısˇen´ych strategi´ı hr´acˇ e i (vektory d´elky |Si |) s prvky σi ∈ ∆i . C´ Q oznaˇcuje pravdˇepodobnost pˇriˇrazenou ryz´ı strategii si ∈ Si ve strategii σi . Celkovˇe ∆ = i ∆i . )
( ∆i =
σi ∈ h0, 1imi |
X
σi (si ) = 1 ; mi = |Si |
si ∈Si
• V´yplatn´ı funkce hr´acˇ e i (tzv. oˇcek´avan´y uˇzitek hr´acˇ e) je v kaˇzd´em sm´ısˇen´em profilu σ ∈ ∆: ! πi (σ) =
X
Ui (s) ·
s∈S
Y
σi (si )
i∈Q
ˇ sen´ım sm´ısˇen´eho rozˇs´ıˇren´ı hry je sm´ısˇen´e ekvilibrium. Dohodnˇeme se, zˇ e nebudeme striktnˇe Reˇ ps´at ryz´ı ekvilibrium v koneˇcn´e hˇre a sm´ısˇen´e ekvilibrium ve sm´ısˇen´em rozˇs´ıˇren´ı koneˇcn´e hry – 1
Tento moment m˚uzˇ e b´yt pro jedince velmi obt´ızˇ n´y. Vzpomeˇnme na bajku o oslovi, kter´y chc´ıpl hlady, neboˇt se nedok´azal rozhodnout mezi levou a pravou ot´ypkou sena.
27
budeme rozumˇet existenci sm´ısˇen´eho rozˇs´ırˇen´ı jaksi implicitnˇe a d´ale budeme mluvit o hr´ach s ˇreˇsen´ım v ryz´ıch strategi´ıch nebo ve sm´ısˇen´ych strategi´ıch. Nashovo ekvilibrium ve sm´ısˇen´ych strategi´ıch bude m´ıt fakticky stejnou definici jako pro PNE, ovˇsem se zaveden´ım oˇcek´avan´eho zisku (pouze zobecnˇen´ı). Definice 15. Mˇejme hru Γm = (Q; {∆i }i∈Q ; {πi }i∈Q ). Sm´ısˇen´y profil σ ∗ ∈ ∆ nazveme sm´ısˇen´e Nashovo ekvilibrium ve hˇre Γm , pokud plat´ı pro vˇsechny hr´acˇ e i ∈ Q a vˇsechny moˇzn´e sm´ısˇen´e strategie σi ∈ ∆i : ∗ ) πi (σ ∗ ) ≥ πi (σi , σ−i
D´ale nebudeme zd˚urazˇnovat, zˇ e sm´ısˇen´e ekvilibrium je definov´ano v Γm , ale implicitnˇe ho budeme ch´apat jako moˇzn´e ˇreˇsen´ı Γ. Dopln´ıme si jeˇstˇe pojem sm´ısˇen´a dom´ena mnoˇziny strategi´ı hr´acˇ e (snad vhodn´y pˇreklad anglick´eho pojmu support). S t´ım si zavedeme i notaci σi (si ) vyjadˇruj´ıc´ı pravdˇepodobnost, kterou pˇriˇrazuje sm´ısˇen´a strategie σi hr´acˇ e i jeho ryz´ı strategii si ∈ Si . Definice 16. Mˇejme hru Γm = (Q; {∆i }i∈Q ; {πi }i∈Q ) a sm´ısˇenou strategii σi hr´acˇ e i. Sm´ısˇenou dom´enou mnoˇziny strategi´ı hr´acˇ e i (zkr´acenˇe dom´enou strategi´ı) nazveme podmnoˇzinu strategi´ı suppi (σi ) = {si ∈ Si |σi (si ) > 0}
3.2
Smysl a interpretace sm´ısˇen´ych strategi´ı
Uvaˇzujme n´asleduj´ıc´ı hru: a
b
c
3,2
1,3
d
-1,4 2,1
Neˇz si uk´azˇ eme postup v´ypoˇctu sm´ısˇen´eho Nashova ekvilibria (MNE), uk´azˇ eme si, jak´a pozorov´an´ı maj´ı v bodˇe MNE oba hr´acˇ i. Mˇejme n´asleduj´ıc´ı sm´ısˇen´y profil: ∗
σ =
(σ1∗ , σ2∗ )
=
3 1 , 4 4
1 4 , , 5 5
∗ Jak´e jsou ryz´ı BR1 (σ−1 )? Jestliˇze sloupcov´y hr´acˇ hraje ryz´ı strategii a s pravdˇepodobnost´ı strategii b s pravdˇepodobnost´ı 45 , pak ˇra´ dkov´y hr´acˇ muˇze oˇcek´avat zisk pˇri hran´ı c n´asleduj´ıc´ı:
π1 (c, σ2∗ ) = 3 ·
1 4 7 +1· = 5 5 5
Pokud by hr´al ryze d, pak: 28
1 5
a
1 4 7 +2· = 5 5 5 Toto je prvn´ı d˚uleˇzit´a vlastnost sm´ısˇen´eho Nashova ekvilibria: π1 (d, σ2∗ ) = −1 ·
Pokud hr´acˇ i hraj´ı sm´ısˇen´e Nashovo ekvilibrium σ ∗ , pak je kaˇzd´y hr´acˇ i indiferentn´ı ve sv´em oˇcek´av´an´ı mezi vˇsemi sv´ymi ryz´ımi strategiemi, kter´ym jeho sm´ısˇen´a strategie σi∗ pˇriˇrazuje nenulovou pravdˇepodobnost. Toto pochopitelnˇe v MNE plat´ı vz´ajemnˇe. Co pˇresnˇe ovˇsem znaˇc´ı ta pravdˇepodobnostn´ı distribuce? Pokud trv´ame na tom, aby se ˇra´ dkov´y hr´acˇ v naˇs´ı hˇre rozhodl a zvolil nˇejak´y konkr´etn´ı ryz´ı tah, pak se hr´acˇ hraj´ıc´ı σ1∗ s pravdˇepodobnost´ı 43 rozhodne pro c a s pravdˇepodobnost´ı 41 rozhodne pro d. ˇ Pojdme ovˇsem d´ale. Nˇekdo m˚uzˇ e nam´ıtnout, zˇ e pro sloupcov´eho hr´acˇ e je pravdˇepodobnˇejˇs´ı hr´at b, a proto bude hr´at b vˇzdy. Pokud by sloupcov´y hr´al sm´ısˇenˇe (0, 1), tedy strategii b s pravdˇepodbnost´ı 1, pak je jeho oˇcek´avan´y zisk: 43 3 + 14 1 = 2.5 (je horˇs´ı neˇz π2 (σ ∗ )). Pokud by ˇra´ dkov´y hr´acˇ z´ıskal dojem, zˇ e sloupcov´y bude hr´at (0, 1), pak je jeho BR hr´at (0, 1), coˇz m˚uzˇ eme snadno na matici hry ovˇeˇrit. Na to ovˇsem zareaguje sloupcov´y pˇresunut´ım se do lev´eho sloupce, kde je strategie a. Pokud tedy hr´acˇ i nepˇristupuj´ı k rovnov´aze sm´ısˇenˇe, hra hran´a v ryz´ıch strategi´ıch nenajde rovnov´azˇ n´y bod. Stability to dos´ahne aˇz v σ ∗ , kdy jsou oba hr´acˇ i indiferentn´ı mezi {a, b}, resp. {c, d} a je pravdˇepodobn´e, zˇ e sloupcov´y zvol´ı b a ˇra´ dkov´y c, kde dos´ahnou uˇzitku (1, 3) (m´ısto (1.4, 2.7)). Poznamenejme na z´avˇer, zˇ e toto je pouze demonstraˇcn´ı pˇr´ıklad. Neplat´ı tedy obecnˇe, zˇ e hr´acˇ i ve sm´ısˇen´em ekvilibriu pˇriˇrazuj´ı vˇsem sv´ym ryz´ım strategi´ım nenulovou pravdˇepodobnost.
3.3
˚ c´ıku reakˇcn´ıch V´ypoˇcet sm´ısˇen´e rovnov´ahy – hled´an´ı pruseˇ kˇrivek
Mˇejme n´asleduj´ıc´ı hru: a
b
c
3,2
1,3
d
-1,4 2,1
P´ısmenem p budeme znaˇcit pravdˇepodobnost hran´ı strategie a rˇa´ dkov´eho hr´acˇ e, tzn. zˇ e 1 − p urˇcuje pravdˇepodobnost hran´ı b. Podobnˇe s p´ısmenem q pro sloupcov´eho hr´acˇ e. 1 Funkce πi je funkce v promˇenn´ych p a q. Hled´an´ım jej´ıho extr´emu podle p, tzn. ∂π z´ısk´av´ame ∂p n´ahled na nejlepˇs´ı odpovˇedˇ ˇra´ dkov´eho hr´acˇ e v sub-profilu (q, 1 − q) hran´ı protihr´acˇ e.
29
π1 = 3pq + 1p(1 − q) − 1(1 − p)q + 2(1 − p)(1 − q) = 5pq − p − 3q + 2 Funkce π1 ud´av´a oˇcek´avan´y zisk ˇra´ dkov´eho hr´acˇ e v z´avislosti na hran´ı jeho a protivn´ıkovy sm´ısˇen´e strategie. Poloˇz´ıme prvn´ı derivaci funkce rovnou nule a z´ısk´av´ame bod, ve kter´em funkce dosahuje extr´emu (zˇrejmˇe maxima, coˇz m˚uzˇ eme ovˇeˇrit na druh´e derivaci): 1 ∂π1 = 5q − 1 ⇒ q = ∂p 5 Funkce π1 dosahuje extr´emu v bodech (p, q) takov´ych, zˇ e q = 15 . Podobnˇe u funkce π2 : π2 = 2pq + 3p(1 − q) + 4(1 − p)q + (1 − p)(1 − q) = −4pq + 2p + 3q + 1 ∂π2 3 = −4p + 3 ⇒ p = ∂q 4 Sm´ısˇen´e Nashovo ekvilibrium tedy nast´av´a ve sm´ısˇen´em profilu ∗
σ = ((p, 1 − p), (q, 1 − q)) =
3.4
(σ1∗ , σ2∗ )
=
3 1 , 4 4
1 4 , , 5 5
V´ypoˇcet sm´ısˇen´e rovnov´ahy – obecn´y algoritmus
Mˇejme stejnou hru jako v posledn´ım pˇr´ıkladu. Vych´az´ıme z pozn´an´ı indiference mezi a a b pˇri hran´ı sm´ısˇen´e (p, 1 − p) versus sm´ısˇen´e (q, 1 − q). Budeme tedy pˇredpokl´adat u hr´acˇ u˚ dom´eny (supports) supp1 = {c, d} a supp2 = {a, b}. Z pˇredpokladu indiference ˇra´ dkov´eho hr´acˇ e mezi vˇsemi jeho ryz´ımi strategiemi z dom´eny pak pro ˇra´ dkov´eho hr´acˇ e vych´az´ı uˇzitek: U1 (c, a) · q + U1 (c, b) · (1 − q) = U1 (d, a) · q + U1 (d, b) · (1 − q) 3q + 1(1 − q) = −1q + 2(1 − q) 3q = −q + (1 − q) q=
1 5
Podobnˇe sloupcov´y: 2p + 4(1 − p) = 3p + (1 − p) ⇒ p = 43 Tento postup je z´akladem algoritmu hled´an´ı sm´ısˇen´ych ekvilibri´ı silou. V tomto algoritmu zkoum´ame vˇsechny moˇzn´e dom´eny jednoho hr´acˇ e proti vˇsem moˇzn´ym dom´en´am druh´eho hr´acˇ e. Pro kaˇzdou iteraci z´ısk´av´ame soustavu rovnic, kter´e jsou v pˇr´ıpadˇe dvouhr´acˇ ov´ych her line´arn´ı a v pˇr´ıpadˇe v´ıce-hr´acˇ ov´ych her neline´arn´ı. Tento algoritmus i urˇcuje cˇ asovou sloˇzitost v´ypoˇctu sm´ısˇen´eho Nashova
30
ekvilibria, kter´a je obecnˇe exponenci´aln´ı2 . V´ysˇe zm´ınˇen´y algoritmus3 pracuje spr´avnˇe pouze u nedegenerovan´ych her, kter´e si v z´apˇet´ı definujeme: Definice 17. Dvouhr´acˇ ov´a hra je tak zvanˇe nedegenerovan´a, pokud zˇa´ dn´a sm´ısˇen´a strategie s dom´enou (support) velikosti k nem´a u protihr´acˇ e v´ıce neˇz k ryz´ıch best-response. Tuto vlastnost snadno pozn´ame – pokud m´a hra na ryz´ı strategii jednoho hr´acˇ e dvˇe (a v´ıce) ryz´ıch best-response protihr´acˇ e, je degenerovan´a. Plyne z toho, zˇ e kter´ekoliv Nash ekvilibrium (s∗1 , s∗2 ) nedegenerovan´e dvouhr´acˇ ov´e hry m´a dom´eny stejn´e d´elky.
3.5
Vˇeta o existenci sm´ısˇen´eho Nashova ekvilibria
Vˇeta 1 (Vˇeta o existenci MNE v koneˇcn´ych hr´ach). Kaˇzd´a koneˇcn´a hra m´a vˇzdy alespoˇn jedno rˇeˇsen´ı ve sm´ısˇen´ych strategi´ıch. John Nash (1950) Tato vˇeta je nejv´yznamnˇejˇs´ım v´ysledkem Johna Nashe a z´akladem studia nekooperativn´ıch hern´ıch situac´ı. D˚ukaz t´eto vˇety bude proveden v n´asleduj´ıc´ıch kapitol´ach. Vˇeta 2. Kaˇzd´a koneˇcn´a nedegenerovan´a hra m´a vˇzdy lich´y poˇcet ekvilibri´ı (tzn. PNE+MNE). D˚usledek: pokud najdu ve hˇre pouze 1 PNE, je pouze 1 ekvilibrium. Pokud najdu 2 PNE, pak existuje tˇret´ı ekvilibrium, kter´e je MNE (a bude nad tˇemi PNE ukazovat jejich v´ahu).
2
Christos Papadimitriou dok´azal, zˇ e je ve sloˇzitostn´ı tˇr´ıdˇe PPAD Pro dalˇs´ı studium doporuˇcuji: Nisan et al.: Algorithmic Game Theory (link na str´ance THE), specificky kapitolu: Bernhard von Stengel: Equilibrium Computation for Two-Player Games in Strategic and Extensive Form 3
31
Chapter 4 Probl´em existence ekvilibria ve hr´ach s nenulov´ym souˇctem Kdyˇz Nash definoval sv´e ekvilibrium v nekooperativn´ıch hr´ach s nenulov´ym souˇctem, bylo nutno nav´ıc uk´azat, zda-li jeho koncept plat´ı ve vˇsech mysliteln´ych hr´ach.
4.1
Kompaktn´ı a konvexn´ı mnoˇzina
Definice 18. Mnoˇzina A ⊆ Rn je kompaktn´ı, pokud je ohraniˇcen´a (existuje cˇ´ıslo b takov´e, zˇe ∀a ∈ A : ||a|| < b) a uzavˇren´a (jej´ı doplnˇek Rn \ A je otevˇren´a mnoˇzina). Definice 19. Mnoˇzina A ⊆ Rn je konvexn´ı, pokud pro kaˇzd´e dva jej´ı prvky x, y ∈ A a kaˇzd´e re´aln´e cˇ´ıslo λ ∈ h0, 1i plat´ı: λx + (1 − λ)y ∈ A Tzn., kaˇzd´y bod na u´ seˇcce mezi body x a y patˇr´ı do mnoˇziny A, coˇz je domonstrov´ano na obr´azku 4.1.
4.2
Ryze kvazi-konk´avn´ı funkce
Definice 20. Funkce f (x) : A → R1 (kde A je konvexn´ı mnoˇzina) je ryze kvazi-konk´avn´ı, jestliˇze f (λx + (1 − λ)y) > t pro vˇsechna x, y ∈ A, x 6= y, λ ∈ (0, 1) a jak´ekoliv t ∈ R1 takov´e, zˇe f (x) ≥ t a f (y) ≥ t. Definice ˇr´ık´a, zˇ e funkce (napˇr. uˇzitkov´a funkce, resp. preferenˇcn´ı) nem˚uzˇ e na intervalu (x, y) takov´em, zˇ e pro oba ohraniˇcuj´ıc´ı body je f (·) slabˇe lepˇs´ı neˇz hodnota t, tvrdit, zˇ e pˇripouˇst´ı bod z ∈ (x, y), kter´y by nebyl striktnˇe lepˇs´ı neˇz t nebo dokonce horˇs´ı. Naopak, vˇsechny body z ∈ (x, y) mus´ı b´yt striktnˇe lepˇs´ı (striktnˇe preferov´any nad) neˇz t. 32
Figure 4.1: Uk´azka konvexn´ı a nekonvexn´ı mnoˇziny
4.3
Existence Nashova ekvilibria ve hr´ach se spojit´ymi Si
Vˇeta 3. Nashovo ekvilibrium hry v norm´aln´ı formˇe Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ) existuje, pokud jsou splnˇeny n´asleduj´ıc´ı podm´ınky: 1. Si , ∀i ∈ Q je konvexn´ı a kompaktn´ı podmnoˇzina Euklidovsk´eho prostoru. 2. Ui (si , s−i ) : S → R1 jsou spojit´e funkce u vˇsech hr´acˇ u˚ i ∈ Q. 3. pro vˇsechny hr´acˇ e i ∈ Q a vˇsechny s−i ∈ S−i je funkce Ui (si , s−i ) ryze kvazi-konk´avn´ı na mnoˇzinˇe Si . D˚ukaz t´eto vˇety pˇr´ıliˇs nepotˇrebujeme. Vˇeta v podstatˇe stanovuje podm´ınky, kter´e jsou demonstrov´any v Cournotovˇe modulu duopolu, tzn. mnoˇziny strategi´ı jsou spojit´e mnoˇziny (konvexn´ı a kompaktn´ı), uˇzitkov´e funkce jsou spojit´e a kvazi-konk´avn´ı.
4.4
Sm´ısˇen´a best-response hr´acˇ e ve sm´ısˇen´em profilu
Pˇripomeˇnme definici sm´ısˇen´eho Nashova ekvilibria (MNE): Definice 21. Sm´ısˇen´y profil σ ∗ ∈ ∆ je ekvilibrium ve hˇre Γm , pokud plat´ı pro vˇsechny i ∈ Q: ∗ ) σi∗ ∈ BRi (σ−i
BRi (σ−i ) = arg max πi (σi , σ−i ) σi ∈∆i
Pˇredpokl´ad´ame, zˇ e v´ysledkem operace BRi (σ−i ) je podmnoˇzina ∆i . Mnoˇzina ∆i m´a jin´y charakter neˇz Si ! V diskr´etn´ıch (ryz´ıch) strategi´ıch je v´ysledek best-response diskr´etn´ı mnoˇzina, ve sm´ısˇen´ych
33
strategi´ıch je to nˇejak´a podmoˇzina mnoˇziny ∆i a my n´aslednˇe uk´azˇ eme, zˇ e je kompaktn´ı a konvexn´ı. Z best-response plyne, zˇ e hr´acˇ i je v kontextu sub-profilu σ−i indiferentn´ı mezi vˇsemi σi ∈ BRi (σ−i ). To n´as pˇriv´ad´ı k ot´azce: Jak je velk´a mnoˇzina BRi (σ−i )? Mˇejme hru: a
b
c
3,2
1,3
d
-1,4 2,1
Prohl´as´ıme, zˇ e jej´ı sm´ısˇen´e ekvilibrium je: MNE =
(σ1∗ , σ2∗ )
=
3 1 , 4 4
1 4 , , 5 5
Funkce π1 ud´av´a oˇcek´avan´y uˇzitek ˇra´ dkov´eho hr´acˇ e v z´avislosti na hran´em sm´ısˇen´em profilu dan´em pravdˇepodobnostmi p a q. π1 = 5pq − p − 3q + 2 Funkce best-response je tedy hled´an´ı maxima pˇres vˇsechny sm´ısˇen´e profily ˇra´ dkov´eho hr´acˇ e ∆1 = {(p, 1 − p)|p ∈ h0, 1i} tedy zkr´acenˇe pˇres vˇsechna p ∈ h0, 1i: BR1 (σ−1 = (q, 1 − q)) = max [π1 (p, q)] p∈h0,1i
Experiment´alnˇe tedy m˚uzˇ eme doj´ıt k tˇemto z´avˇer˚um: 1 9 , 10 ) = maxp∈h0,1i [−0.5p + 1.7] ⇒ p := 0 BR1 ( 10 9 1 BR1 ( 10 , 10 ) = maxp∈h0,1i [3.5p − 0.7] ⇒ p := 1 BR1 ( 51 , 45 ) = maxp∈h0,1i [5p · 0.2 − p − 3 · 0.2 + 2] = 1.4 Zde jiˇz BR nen´ı z´avisl´e na p, tzn. BR1 (q = 0.2) = ∆1 . Avˇsak pouze pro jeden bod v ∆1 je to podobnˇe u sloupcov´eho. Kdybychom funkce BR1 a BR2 vynesli do grafu, pak je bod rovnov´ahy v m´ıstˇe, kde se obˇe kˇrivky (reakˇcn´ı kˇrivky) protnou.
4.5
Pevn´y bod korespondence
V pˇredchoz´ı kapitole bylo vidˇet, zˇ e funkce best-response nen´ı funkc´ı v prav´em slova smyslu – na jeden vstup m˚uzˇ e vr´atit obecnˇe v´ıce v´ystup˚u (coˇz je tedy obecn´a vlastnost best-response). Striktnˇe matematicky vzato proto nem˚uzˇ eme mluvit o funkci best-response, ale o tak zvan´e korespondenci best-response. Co znamen´a pojem korespondence? 34
Definice 22. Korespondence c : A →→ B je zobecnˇen´a tot´aln´ı funkce nebo multi-value funkce, kter´a kaˇzd´emu a ∈ A pˇriˇrazuje (nepr´azdnou) podmnoˇzinu B. Alternativnˇe m˚uzˇ eme korespondenci zapisovat jako funkci c : A → 2B , s vlastnost´ı ∀a ∈ A : c(a) 6= ∅. Pˇri zkoum´an´ı best-response korespondence n´as bude zaj´ımat, jestli rekurzivn´ı proces hled´an´ı ekvilibria se m˚uzˇ e obecnˇe vzato nˇekdy zastavit. Program´atorsky si to pˇredstavme jako vol´an´ı funkce BR na nˇejak´y n´ahodnˇe zvolen´y profil. Ekvilibrium je pak d´ano posloupnost´ı vol´an´ı σ ∗ = BR(BR(BR(BR(...)))) a n´as zaj´ım´a, zda-li je tato posloupnost koneˇcn´a a zda-li m˚uzˇ e doj´ıt do stavu, kdy ∀i ∈ Q : σi∗ = ∗ BRi (σ−i ). Proto je nyn´ı d˚uleˇzit´y pojem pevn´eho bodu. Definice 23. Mˇejme korespondenci c : A →→ A. Pevn´y bod (fixed-point) korespondence c je takov´y bod x∗ ∈ A, zˇe x∗ ∈ c(x∗ ) ∗ ) pro vˇsechny i ∈ Q. Je to Nashovo ekvilibrium je strategick´y profil σ ∗ takov´y, zˇ e σi∗ ∈ BRi (σ−i tedy pevn´y bod BR-korespondence:
BR(σ) = (BR1 (σ−1 ), BR2 (σ−2 ), . . . , BRN (σ−N )) Pokud dok´azˇ eme, zˇ e kter´akoliv BR-korespondence m˚uzˇ e m´ıt pevn´y bod, pak existuje MNE pro kteroukoliv hru. Existuje vˇeta (Kakutani’s fixed-point theorem), kter´a stanovuje podm´ınky, aby korespondence mˇela pevn´y bod. Pokud uk´azˇ eme, zˇ e BR splˇnuje tyto podm´ınky, pak m´a pevn´y bod, tzn. hra m´a ekvilibrium. Uk´azˇ eme si Kakutaniho theor´em a Nash˚uv d˚ukaz.
4.6
Kakutani’s fixed point theorem
Shizuo Kakutani (1911–2004) stanovil ve sv´e vˇetˇe o pevn´em bodu korespondence n´asleduj´ıc´ı podm´ınky, aby zadan´a korespondence mˇela pevn´y bod. Tento teor´em n´as bude zaj´ımat, protoˇze s jeho pomoc´ı dok´azˇ eme, zˇ e sm´ısˇen´a best-response korespondence m´a z principu vˇzdy pevn´y bod a tud´ızˇ sm´ısˇen´e Nashovo ekvilibrium existuje obecnˇe pro kaˇzdou hru. Vˇeta 4. Korespondence r : A →→ A m´a pevn´y bod, pokud plat´ı: 1. A je kompaktn´ı, konvexn´ı, nepr´azdn´a podmnoˇzina (koneˇcnˇe-rozmˇern´eho) Euklidovsk´eho prostoru, 2. r(a) je nepr´azdn´a pro vˇsechny a ∈ A, 35
3. r(a) je konvexn´ı pro vˇsechny a ∈ A, 4. r(·) je shora hemispojit´a (ekv. s podm´ınkou, zˇe m´a uzavˇren´y graf).
4.7
˚ Dukaz Nashovy vˇety o existenci MNE v koneˇcn´ych hr´ach
V d˚ukazu budeme vyˇsetˇrovat funkci
BRi (σ−i ) = arg max π(σi , σ−i ) σi ∈∆i
a n´aslednˇe BR(σ) = (BR1 (σ−1 ), BR2 (σ−2 ), ..., BRN (σ−N )) Jejich zkoum´an´ım dojdeme k z´avˇeru, zda-li naplˇnuj´ı nezbytn´e podm´ınky Kakutaniho, aby mohly formovat sm´ısˇen´e Nashovo ekvilibrium.
Berge’s Theorem of the Maximum Vˇeta 5. Nechtˇ X ⊂ Rd , M ⊂ Rz jsou kompaktn´ı a konvexn´ı mnoˇziny. Nechtˇ je funkce f (x, m) : X × M → R1 spojit´a na X a M . Korespondence c : M →→ X definovan´a jako c(m) = arg max[f (x, m)] x∈X
je nepr´azdn´a pro kaˇzd´e m ∈ M a shora hemispojit´a. Na funkci f (x, m) m˚uzˇ eme pohl´ızˇ et jako na hodnot´ıc´ı funkci optimaliz´atoru, kde m je vstupn´ı specifikace probl´emu a ˇreˇsen´ı se hled´a pˇres vˇsechny x ∈ X. Vˇsimnˇete si podobnosti s BR-korespondenc´ı.
V koneˇcn´ych hr´ach jsou Si koneˇcn´e (diskr´etn´ı) mnoˇziny. Jejich sm´ısˇen´e rozˇs´ırˇen´ı ∆i jsou ovˇsem kompaktn´ı a konvexn´ı mnoˇziny (a rozhodnˇe nepr´azdn´e). Tzn., prvn´ı podm´ınka Kakutaniho byla splnˇena. Z definice hry plyne, zˇ e πi (·) jsou line´arn´ı funkce a proto spojit´e na ∆i . Z Bergova theor´emu o maximu proto plyne, zˇ e BRi (σ−i ) je proto nepr´azdn´a pro vˇsechny σ−i ∈ ∆−i a shora hemispojit´a. Druh´a a cˇ tvrt´a Kakutaniho podm´ınka splnˇena.
36
Definice line´arn´ı funkce (zobrazen´ı) Definice 24. Nechtˇ X ⊆ Rm a Y ⊆ Rn . Zobrazen´ı F : X → Y se naz´yv´a line´arn´ı, pokud pro vˇsechny x, y ∈ Rm a q ∈ R plat´ı souˇcasnˇe: 1. F (x + y) = F (x) + F (y) 2. F (q · x) = q · F (x)
Protoˇze πi (σi , σ−i ) je line´arn´ı pro libovoln´e σ−i , pak najdeme-li dva body σi0 , σi00 takov´e, zˇ e πi (σi0 , σ−i ) = πi (σi00 , σ−i )
(4.1)
tzn. σi0 , σi00 ∈ BRi (σ−i ), pak (z linearity): πi (λσi0 + (1 − λ)σi00 , σ−i ) = = λπi (σi0 , σ−i ) + (1 − λ)πi (σi00 , σ−i ) = = λπi (σi0 , σ−i ) + πi (σi00 , σ−i ) − λπi (σi00 , σ−i )
(4.2)
Protoˇze pˇredpokl´ad´ame (4.1), pak m˚uzˇ eme v (4.2) pro snadˇejˇs´ı cˇ ten´ı prov´est substituci A = πi (σi0 , σ−i ) = πi (σi00 , σ−i ) a cˇ´ıst (4.2) jako λA + A − λA = A To znamen´a, zˇ e πi (λσi0 + (1 − λ)σi00 , σ−i ) = πi (σi0 , σ−i ) pro libovoln´e λ ∈ h0, 1i. Jinak rˇeˇceno, oˇcek´avan´y zisk ve vˇsech bodech BRi (σ−i je stejn´y a funkce BR vrac´ı mnoˇzinu, kter´a je rozhodnˇe konvexn´ı. Tˇret´ı podm´ınka Kakutaniho byla splnˇen´a.
Podm´ınky Kakutaniho vˇety byly splnˇeny, t´ım p´adem je BR(σ) korespondence s pevn´ym bodem, tzn.
37
m´a-li σ ∗ b´yt rovnov´azˇ n´y bod ve sm´ısˇen´ych strategi´ıch, pak rozhodnˇe plat´ı, zˇ e σ ∗ ∈ BR(σ ∗ ) Tak J. Nash v roce 1950 (zasl´ano k recenzi Nov 1949) v cˇ l´anku Equilibrium Points in N-person Games dok´azal univerz´aln´ı ˇreˇsitelnost koneˇcn´ych nekooperativn´ıch her. Tento cˇ l´anek je rozhodnˇe pozoruhodn´y a zaslouˇz´ı si, aby se s n´ım kaˇzd´y student Teorie her sezn´amil.
38
Chapter 5 Nekooperativn´ı hry s nulov´ym souˇctem Nekooperativn´ı hry s nulov´ym souˇctem1 jsou speci´aln´ım pˇr´ıpadem strategick´ych nekooperativn´ıch her s nenulov´ym souˇctem. Jejich ˇreˇsen´ı pˇriˇslo historicky dˇr´ıve (von Neumann, Vˇeta o minimaxu), protoˇze jsou koncepˇcnˇe i v´ypoˇcetnˇe jednoduˇssˇ´ı. Dˇr´ıve se i vˇeˇrilo, zˇ e veˇsker´e strategick´e konflikty jsou charakteru nulov´eho souˇctu, coˇz pozdˇeji John Nash vyvr´atil sv´ym ˇreˇsen´ım ve hr´ach s nenulov´ym souˇctem. Zopakujme si definici hry s konstantn´ım, respektive nulov´ym souˇctem: ˇ Definice 25. Mˇejme hru Γ. Rekneme, zˇe Γ je hra s konstantn´ım souˇctem k ∈ R, pokud plat´ı ∀s ∈ S :
X
Ui (s) = k
i∈Q
Pokud je k = 0, pak je Γ hra s nulov´ym souˇctem. Hry s nulov´ym souˇctem b´yvaj´ı pro sv˚uj strategick´y charakter naz´yv´any strictly competitive games. M´ıra v´yhry jednoho znaˇc´ı m´ıru prohry druh´eho. V soci´aln´ıch vˇed´ach jsou tyto hry zn´amy tak´e pod n´azvem antagonistick´e hry (konflikty). Definice 26. Antagonistick´y konflikt je rozhodovac´ı situace N hr´acˇ u˚ , kteˇr´ı se po volbˇe sv´ych rozhodnut´ı rozdˇel´ı o pevnˇe stanovenou cˇ a´ stku, jej´ızˇ v´ysˇe nez´avis´ı na tom, jak´a rozhodnut´ı zvolili. Pˇr´ıklad Dvˇe firmy (Perrier, Apollinaris) soupeˇr´ı na trhu s miner´aln´ı vodou. Jejich marketingov´e oddˇelen´ı ˇreˇs´ı probl´em, jestli zvolit vysokou cenu ($2) nebo n´ızkou cenu ($1) za jednu lahev miner´alky. Obˇe firmy v´ı, zˇ e pˇri cenˇe $2 se prod´a 5000 lahv´ı (trˇzba $10.000) a pˇri cenˇe $1 se prod´a 10000 lahv´ı (trˇzba $10.000). Pˇri stejn´e cenˇe obou se hr´acˇ i rovnomˇernˇe podˇel´ı o trh. Pokud je jeden levnˇejˇs´ı, z´ısk´a cel´y trh. Fixn´ı n´aklady firem, tzn. bez ohledu na realizovanou produkci/prodej jsou $5000 za dan´e obdob´ı. Hru dokumentuje matice uˇzitk˚u zapsan´a dle obvykl´e konvence na obr´azku 5.1. 1
ˇ Kapitola byla zpracov´ana s pouˇzit´ım pˇredn´asˇek Magdaleny Hykˇsov´e z FD CVUT
39
Perrier/Appollinaris $1 $1 0,0 $2 -5000,5000
$2 5000,-5000 0,0
Figure 5.1: Hra mezi Perrierem a Appollinarisem Je vidˇet i pˇri z´apisu dvou uˇzitk˚u dvou hr´acˇ u˚ , zˇ e suma uˇzitk˚u v kaˇzd´em profilu je nulov´a a zˇ e tud´ızˇ pracujeme se hrou s nulov´ym souˇctem.
5.1
Vztah nulov´eho a konstantn´ıho souˇctu
Abychom od poˇca´ tku pracovali s vˇedom´ım, zˇ e hry s konstantn´ım souˇctem jsou vˇsechny v podstatˇe hrami s nulov´ym souˇctem, vyslov´ıme n´asleduj´ıc´ı vˇetu: Vˇeta 6. Nechtˇ Γk je hra s konstantn´ım souˇctem k ∈ R. Potom existuje hra Γ0 s nulov´ym souˇctem takov´a, zˇe je strategicky ekvivalentn´ı s Γk . D˚ukaz bude zaloˇzen na nalezen´ı Ai , Bi koeficient˚u pro strategickou ekvivalenci a pˇredvedeme si to pouze na pˇr´ıkladˇe. Pˇr´ıklad: pˇrevod k-sum hry na 0-sum hru Mˇejme hru s konstantn´ım souˇctem (k = 2): a
b
c
0,2
1,1
d
-1,3 2,0
Hled´ame koeficienty transformace A1 , A2 , B1 , B2 na strategicky ekvivalentn´ı hru s nulov´ym souˇctem. Tyto koeficienty jsou pro n´as tud´ızˇ nezn´am´e v n´asleduj´ıc´ıch rovnic´ıch: 0 0 U11 = 0A1 + B1 U21 = 2A2 + B2 0 0 U12 = A1 + B1 U22 = A2 + B2 0 0 U13 = −A1 + B1 U23 = 3A2 + B2 0 0 U14 = 2A1 + B1 U24 = 0A2 + B2 Uˇzitky Uij0 ; i ∈ {1, 2}, j ∈ {1, 2, 3, 4} jsou taky nezn´am´e. M´ame zat´ım 12 nezn´am´ych a pouze 8 rovnic. D´ale pˇrid´ame rovnice vyˇzaduj´ıc´ı nulovost souˇctu uˇzitk˚u v jednotliv´ych profilech: 0 0 =0 ∀j ∈ {1, 2, 3, 4} : U1j + U2j 0 0 Pokud tedy sledujeme rovnosti U1j + U2j = 0, pak obdrˇz´ıme soustavu line´arn´ıch rovnic o cˇ tyˇrech nezn´am´ych:
40
B1 + 2A2 + B2 = 0 A1 + B1 + A2 + B2 = 0 −A1 + B1 + 3A2 + B2 = 0 2A1 + B1 + B2 Nebo vyj´adˇrenou jej´ı maticovou formou:
0 1 −1 2
1 1 1 1
2 1 3 0
1 1 1 1
·
A1 B1 A2 B2
=
0 0 0 0
M´ame homogenn´ı soustavu rovnic, kde jsou ovˇsem line´arn´ı z´avislosti, tzn. vede na nekoneˇcnˇe mnoho ˇreˇsen´ı (to n´as nepˇrekvapuje, neboˇt to oˇcek´av´ame). Navrhnˇeme A1 = A2 = 1, tzn.: B1 + B2 = −2 a zvolme B1 = B2 = −1. P˚uvodn´ı hra se tedy transformuje na hru: a
b
c
-1,1
0,0
d
-2,2 1,-1
Stejnˇe tak s jin´ymi transformaˇcn´ımi koeficienty Ai = 1, B1 = 0, B2 = −2 na:
5.2
a
b
c
0,0
1,-1
d
-1,1 2,-2
Z´apis 0-sum hry
Pokud plat´ı, zˇ e ∀s ∈ S : U1 (s) + U2 (s) = 0, pak lze ps´at pouze jednu matici U (s) a definovat U1 (s) = U (s), U2 (s) = −U (s). 2,-2 5,-5
0,0
2
5
0
3,-3 1,-1 2,-2 ⇒ 3
1
2
4,-4 3,-3 6,-6
3
6
4
Hru dvou hr´acˇ u˚ s nulov´ym souˇctem s koneˇcn´ymi mnoˇzinami strategi´ı S1 = {s11 , s12 , ..., s1m } a S2 = {s21 , s22 , ..., s2n } lze zadat pomoc´ A vyjadˇruj´ıc´ı zisky prvn´ıho hr´acˇ e: ı matice a11 a12 . . . a1n U1 (s11 , s21 ) U1 (s11 , s22 ) . . . U1 (s11 , s2n ) a21 a22 . . . a2n U1 (s12 , s21 ) U1 (s12 , s22 ) . . . U1 (s12 , s2n ) A= = . . . . . . 1 2 1 2 1 2 am1 am2 . . . amn U1 (sm , s1 ) U1 (sm , s2 ) . . . U1 (sm , sn ) 41
Definice 27. Hra dvou hr´acˇ u˚ s nulov´ym souˇctem je Γ = (Q; S1 , S2 ; U ), kde • Q = {1, 2} je mnoˇzina hr´acˇ u˚ . • S1 a S2 jsou mnoˇziny ryz´ıch strategi´ı hr´acˇ u˚ . • U : S → R je v´yplatn´ı funkce ve hˇre. Uˇzitkem hr´acˇ e jedna je U1 (s) = U (s), U2 (s) = −U (s). Oba hr´acˇ i maj´ı shodn´e vn´ım´an´ı preference v tom smyslu, zˇ e preferuj´ı uˇzitek x pˇred y, pr´avˇe tehdy kdyˇz x > y. To znamen´a pro sloupcov´eho hr´acˇ e, zˇ e preferuje napˇr´ıklad −2 nad −10. ˇ Casto budeme 0-sum hru zapisovat matic´ı hry A, pak by hra byla struktura Γ = (Q; S1 , S2 ; A). Jistˇe m˚uzˇ e b´yt 0-sum hra s v´ıce hr´acˇ i (interpretace uˇzitk˚u). Zde budeme rozv´ıjet v´yhradnˇe dvouhr´acˇ ov´e 0-sum hry.
5.3
Chov´an´ı hr´acˇ e v 0-sum hˇre
Mˇejme hru zadanou matic´ı A takto: 2
5
0
A= 3
1
2
4
3
6
Kaˇzd´y hr´acˇ v´ı, zˇ e na kaˇzd´y jeho pˇr´ıpadn´y tah bude protihr´acˇ reagovat svou best-response strategi´ı. ˇ adkov´y tud´ızˇ v´ı, zˇ e sloupcov´y bude na ˇra´ dku hledat minimum, coˇz je jeho BR – hr´acˇ takto miniR´ malizuje svou prohru. Minimum na ˇra´ dku je pro ˇra´ dkov´eho tud´ızˇ d˚uleˇzit´e. M˚uzˇ e ovˇsem zvolit takov´e minimum, kter´e je mezi vˇsemi ˇra´ dky nejlepˇs´ı (nejvˇetˇs´ı). Je to hled´an´ı maxima mezi minimy. • Minimum prvn´ıho ˇra´ dku: 0, • druh´eho: 1, • tˇret´ıho: 3, Z´avˇer: pokud bude rˇa´ dkov´y hr´acˇ hr´at tˇret´ı ˇra´ dek, pak dostane nejh˚uˇr zisk 3. Mus´ı pˇredpokl´adat racionalitu sloupcov´eho hr´acˇ e. Hled´an´ı minima na ˇra´ dku nen´ı paranoidn´ı chov´an´ı, pouze pˇredpoklad racionality u sloupcov´eho hr´acˇ e. ˇ adkov´emu hr´acˇ i rˇ´ık´ame maxminimizer. R´
42
Volba sloupcov´eho Sloupcov´y pˇrem´ysˇl´ı podobnˇe a pˇritom opaˇcnˇe. V prvn´ım sloupci je sice jeho nejlepˇs´ı zisk 2 (tzn. −2), ale mus´ı poˇc´ıtat s t´ım, zˇ e ˇra´ dkov´y bude hr´at tˇret´ı ˇra´ dek (jako svou BR). Pro prvn´ı sloupec je tud´ızˇ jeho nejvyˇssˇ´ı moˇzn´a ztr´ata 4 (druh´y: 5, tˇret´ı: 6). Sloupcov´y hr´acˇ minimalizuje svoji ztr´atu, proto vol´ı prvn´ı sloupec. Sloupcov´y hr´acˇ tud´ızˇ hled´a maximum ve sloupci a glob´alnˇe minimum mezi maximy. Sloupcov´emu hr´acˇ i ˇr´ık´ame minimaximizer.
5.4
Rovnov´azˇ n´e strategie tvoˇr´ıc´ı ekvilibrium ve hˇre
Pˇripomeˇnme definici rovnov´azˇ n´eho bodu (s∗1 , s∗2 ) v dvouhr´acˇ ov´e hˇre. Definice 28. Profil (s∗1 , s∗2 ) pˇredstavuje rovnov´azˇn´e strategie hr´acˇ u˚ , pokud plat´ı: U1 (s1 , s∗2 ) ≤ U1 (s∗1 , s∗2 ) U2 (s∗1 , s2 ) ≤ U2 (s∗1 , s∗2 ) pro vˇsechny s1 ∈ S1 , s2 ∈ S2 . Uˇzitkov´e funkce definujeme U1 (·) = U (·), U2 (·) = −U (·). Pak p´ısˇeme, zˇ e v rovnov´azˇ n´em bodˇe mus´ı platit pro ˇra´ dkov´eho hr´acˇ e: U (s1 , s∗2 ) ≤ U (s∗1 , s∗2 )
(5.1)
Z pohledu sloupcov´eho to je −U (s∗1 , s2 ) ≤ −U (s∗1 , s∗2 ) coˇz vede na (n´asoben´ı nerovnice z´apornou konstantou se mˇen´ı smˇer nerovnosti): U (s∗1 , s2 ) ≥ U (s∗1 , s∗2 )
(5.2)
Z pˇredchoz´ıch vztah˚u (5.1) a (5.2) plyne celkovˇe: U (s1 , s∗2 ) ≤ U (s∗1 , s∗2 ) ≤ U (s∗1 , s2 ) Jinak ˇreˇceno, uˇzitek pro ˇra´ dkov´eho hr´acˇ e je jeho dosaˇziteln´e maximum a pro sloupce dosaˇziteln´e cˇ´ıseln´e minimum (kter´e je jeho maximem). Hodnota U (s∗1 , s∗2 ) se naz´yv´a cena hry (taky hodnota hry, angl. game value).
43
5.5
Sedlov´y bod (saddle point)
Definice 29. Mˇejme dvoumaticovou hru Γ = (Q; S1 , S2 ; U ). Ve hˇre definujeme minimax a maximin takto: m = min
s2 ∈S2
s1 ∈S1
m = max
s1 ∈S1
max U (s1 , s2 ) min U (s1 , s2 )
s2 ∈S2
Pro hru: 2 5
0
U (s1 , s2 ) = 3 1
2
4 3
6
to je m = 4 a m = 3. ˇ adkov´y by tud´ızˇ hr´al tˇret´ı ˇra´ dek, sloupcov´y prvn´ı sloupec. Jak´y je ovˇsem zisk hr´acˇ u˚ v profilu s R´ ˇ adkov´y dostane o jedna l´epe neˇz cˇ ekal, sloupcov´y o jedna h˚uˇr (kdyˇz to tedˇ vid´ı, hr´al indexy (3, 1)? R´ by druh´y sloupec). Sloupcov´y m´a tud´ızˇ tendenci zmˇenit svoji strategii na druh´y sloupec (pak dostane ˇ adkov´y by pak zmˇenil na prvn´ı ˇra´ dek...a stability hra nedos´ahne. 3). R´ Z´avˇer: profil (3, 1) nen´ı rovnov´azˇ n´y bod (nen´ı stabiln´ı). Kdy ovˇsem bude volba hr´acˇ u˚ vedouc´ı ke stabiln´ımu profilu? Definice 30. Mˇejme 0-sum hru Γ. Profil s∗ je sedlov´ym prvkem, pokud plat´ı, zˇe:
U (s ) = max min U (s1 , s2 ) = min max U (s1 , s2 ) ∗
s1
s2
s2
s1
tzn. U (s∗ ) = m = m To znamen´a, zˇ e sedlov´y bod m´a v´yplatu nejmenˇs´ı na ˇra´ dku a souˇcasnˇe nejvyˇssˇ´ı ve sloupci. Sedlov´y bod pˇredstavuje rovnov´azˇ n´y stav (ryz´ı ekvilibrium) ve hˇre. Hodnota uˇzitku v sedlov´em bodˇe se naz´yv´a cena hry (value). Sedlov´y bod je ekvivalent PNE ve hr´ach s nenulov´ym souˇctem. Podobnˇe i tady nemus´ı v ryz´ıch strategi´ıch existovat. Stejnˇe jako u her s nenulov´ym souˇctem jsou tedy hry s: • 0 sedlov´ymi body, • 1 sedlov´ym bodem, • n > 1 sedlov´ymi body. Pˇripomeˇnme, zˇ e 0-sum hry jsou speci´aln´ım pˇr´ıpadem her s nenulov´ym souˇctem, tzn. analytick´e postupy ve hr´ach s nenulov´ym souˇctem mohou b´yt pouˇzity i ve 0-sum hr´ach. 44
Pˇr´ıklad: Mˇejme hru: 1
1
8
5
2
4
7
0
0
pak jej´ı maxmin a minmax jou m=m=2 a tud´ızˇ stejn´e. Hra m´a tedy rovnov´azˇ n´y bod v ryz´ıch strategi´ıch.
5.6
Ekvilibrium 0-sum her ve sm´ısˇen´ych strategi´ıch
Sm´ısˇenou strategii v dvouhr´acˇ ov´ych hr´ach s nulov´ym souˇctem jenom m´ırnˇe modifikujeme: Definice 31. Sm´ısˇen´a strategie hr´acˇ e i ve hˇre Γ je vektor pi = (pi1 , ..., pimi ), kde 1. mi = |Si | 2. ∀j ∈ {1, ..., mi } : pij ∈ h0, 1i 3.
Pmi
j=1
pij = 1
Definice 32. Mˇejme dvouhr´acˇ ovou hru s nulov´ym souˇctem Γ = (Q; S1 , S2 ; U ). Sm´ısˇen´ym rozˇs´ırˇen´ım t´eto hry nazveme hru s prostory strategi´ı ( S1s =
p, p = (p1 , ..., pm )|
m X
) pj = 1, ∀j ∈ {1, ..., m} : pj ∈ h0, 1i
j=1
( S2s =
q, q = (q1 , ..., qn )|
n X
) qk = 1, ∀k ∈ {1, ..., n} : qk ∈ h0, 1i
k=1
a v´yplatn´ı funkc´ı (A je matice hry) P Pn T π(p, q) = m j=1 k=1 pj U (sj , sk )qk = pAq Vˇeta 7 (Minimax theorem, John von Neumann). V kaˇzd´e koneˇcn´e 0-sum hˇre existuje rˇeˇsen´ı ve formˇe sm´ısˇen´ych strategi´ı. Origin´aln´ı znˇen´ı von Neumanna v jeho historick´em kontextu2 bylo: 2
J. von Neumann: Zur Theorie der Gesellschaftsspiele, In: Math. Annalen, vol. 100, 1928, pp. 295–320
45
For every two-person, zero-sum game with finite strategies, there exists a value V and a mixed strategy for each player, such that (a) Given player 2’s strategy, the best payoff possible for player 1 is V, and (b) Given player 1’s strategy, the best payoff possible for player 2 is -V. Jin´e znˇen´ı: Vˇeta 8. Vˇzdy existuj´ı sm´ısˇen´e strategie (p∗ , q ∗ ) takov´e, zˇe plat´ı: π(p∗ , q ∗ ) = max min π(p, q) = min max π(p, q) p
q
q
p
Hled´ame tedy vektory p∗ , q ∗ takov´e, zˇ e plat´ı: pAq ∗T ≤ p∗ Aq ∗T ≤ p∗ Aq T pro vˇsechny p ∈ S1s , q ∈ S2s .
5.7
Grafick´e rˇ eˇsen´ı maticov´ych her ve tvaru (2,n) strategi´ı
Pro jednoduchost se omez´ıme na hry, kde ˇra´ dkov´y hr´acˇ m´a pouze dvˇe strategie a sloupcov´y jich m´a neomezenˇe. Oˇcek´avan´y zisk hr´acˇ e 1 ve sm´ısˇen´ych strategi´ıch (p, 1 − p) je pˇri ryz´ıch strategi´ıch hr´acˇ e 2 d´an: gj (p) = pa1j + (1 − p)a2j
j = 1, 2, ..., n
Hled´ame (sloupcov´y hled´a takov´e j, zˇ e gj (p) je minim´aln´ı):
∗
p = arg max
min gj (p)
j=1,2,...,n
p∈h0,1i
Nejprve budeme hledat funkci ϕ(p) :=
min gj (p)
j=1,2,...,n
Tato funkce je konk´avn´ı, po cˇ a´ stech line´arn´ı a snadno lze nal´ezt bod jej´ıho maxima. Hledan´a cena hry je pak: v = ϕ(p∗ ) := max ϕ(p) p∈h0,1i
Nast´av´a-li extr´em v bodˇe p∗ , kde gj (p∗ ) = gk (p∗ ) = v pro jednoznaˇcnˇe urˇcen´e strategie j, k, pak sloˇzky sm´ısˇen´e rovnov´azˇ n´e strategie hr´acˇ e 2 s indexy r˚uzn´ymi od j, k jsou rovny nule. Sloˇzky, kter´e mohou b´yt nenulov´e, z´ısk´ame vyˇreˇsen´ım soustavy: a1j qj + a1k qk = v qj + qk = 1 qj ≥ 0, qk ≥ 0
46
nebo a2j qj + a2k qk = v qj + qk = 1 qj ≥ 0, qk ≥ 0 Demo v´ypoˇctu sm´ısˇen´eho rˇ eˇsen´ı 0-sum hry Mˇejme maticovou hru 5 5/2 3 4 8 6
!
g1 (p) = 5p + 4(1 − p) = p + 4 g2 (p) = 52 p + 8(1 − p) = − 11 p+8 2 g3 (p) = 3p + 6(1 − p) = −3p + 6 Pˇripomeˇnme, zˇ e gj (p) vyjadˇruje oˇcek´avan´y zisk hr´acˇ e 1 pro pˇr´ıpady, kdy hr´acˇ 2 hraje strategie j. M´ıra v´yhry hr´acˇ e 1 znaˇc´ı m´ıru prohry hr´acˇ e 2. Hr´acˇ 2 proto bude volit takov´e j, zˇ e gj (p), p ∈ h0, 1i bude minim´aln´ı. ϕ(p) nab´yv´a maxima v p = 12 , hodnota maxima je v = 4.5.
Figure 5.2: Reakˇcn´ı kˇrivky v pˇr´ıkladˇe [obr´azek pˇrevzat z pˇredn´asˇek M. Hykˇsov´e] Maximum bylo nalezeno jako pr˚useˇc´ık g1 (p) a g3 (p), tzn. j, k = 1, 3. D´ale ˇreˇs´ıme soustavu rovnic (jeˇstˇe n´as zaj´ım´a q): 5q1 + 3q3 = 4.5 q1 + q3 = 1
47
s omezen´ımi q1 ≥ 0, q3 ≥ 0. Z´ısk´av´ame rˇeˇsen´ı q1 = 0.75, q3 = 0.25. ˇ sen´ı hry je tedy sm´ısˇen´y rovnov´azˇ n´y bod Reˇ ∗
∗
(p , q ) =
1 1 , 2 2
3 1 , , 0, 4 4
Oˇcek´avan´y uˇzitek hr´acˇ e 1 je: π(p∗ , q ∗ ) =
13 11 13 11 5+ 3+ 4+ 6= 24 24 24 24
1 3 1 15 + 3 + 12 + 6 36 3 = = 4.5 = 5+ 3+ 4+ 6= 8 8 8 8 8 8 V´ıme, zˇ e hr´acˇ hraj´ıc´ı sm´ısˇenou strategii je indiferentn´ı v˚ucˇ i vˇsem sv´ym ryz´ım strategi´ım s nenulovou pravdˇepodobnost´ı jako best-response na sm´ısˇenou strategii protivn´ıka. Hr´acˇ 1 oˇcek´av´a strategii q ∗ u protivn´ıka, pak je mu jedno, jakou svoji strategii zvol´ı (obˇe maj´ı nenulovou pravdˇepodobnost). π((1, 0), q ∗ ) = 5 34 + 3 41 = 15+3 = 18 = 4 12 4 4 π((0, 1), q ∗ ) = 4 34 + 6 41 = 12+6 = 18 = 4 12 4 4 Pokud hr´acˇ 2 uhne ze sv´e strategie ( 43 , 0, 14 ) na strategii (0, 1, 0) pˇri pˇredpokladu, zˇ e hr´acˇ 1 st´ale hraje p∗ , pak π(p∗ , (0, 1, 0)) = 52 12 + 8 12 = 5.25 a to je pro hr´acˇ e 2 horˇs´ı v´ysledek (vˇetˇs´ı ztr´ata). Ekvilibrium ve sm´ısˇen´ych strategi´ıch vyjadˇruje optim´aln´ı oˇcek´avan´y zisk u obou hr´acˇ u˚ . Pokud hr´acˇ 2 odhal´ı sm´ısˇenou strategii p∗ protivn´ıka, pak se rozhoduje mezi strategiemi 1 a 3, protoˇze by jeho oˇcek´avan´y zisk pˇri hran´ı prostˇredn´ıho sloupce byl 21 52 + 8 = 5.25.
Bude-li hr´acˇ 1 hr´at jinou strategii neˇz p∗ = dos´ahnou horˇs´ıho uˇzitku.
1 1 , 2 2
nebo hr´acˇ 2 jinou neˇz q ∗ =
3 , 0, 14 4
, pak
Logika ekvilibria: Douf´ame, zˇ e hr´acˇ i tuto u´ vahu provedou a pochop´ı, zˇ e ekvilibrium pojmou za svoje chov´an´ı.
48
Chapter 6 Korelovan´e ekvilibrium v nekooperativn´ıch hr´ach Korelovan´e ekvilibrium je hern´ı koncept, kter´y zobecˇnuje Nashovo ekvilibrium. Poprv´e bylo definov´ano Robertem Aumannem (Nobel. cena, 2005) v cˇ l´anku ”Aumann, R. (1974) Subjectivity and correlation in randomized strategies. Journal of Mathematical Economics 1:67-96”. Korelovan´e ekvilibrium (CE) je zaloˇzeno na myˇslence, zˇ e hr´acˇ vol´ı svou strategii na z´akladˇe pozorov´an´ı nˇejak´eho veˇrejnˇe zn´am´eho sign´alu (sign´al je common knowledge). NE pˇredpokl´ad´a, zˇ e hr´acˇ se rozhoduje pouze dle specifikace hry. Vedle toho, sign´al hr´acˇ i ”napov´ı” tah. Pokud hr´acˇ uvˇeˇr´ı, zˇ e vˇsichni protihr´acˇ i hraj´ı dle CE a vid´ı, zˇ e by si pohorˇsil hran´ım jin´eho tahu (neˇz je ten napovˇezen´y), pak je profil tvoˇren´y tˇemito n´apovˇedami korelovan´e ekvilibrium. Ve hˇre m˚uzˇ e existovat aˇz nekoneˇcn´a mnoˇzina takov´ych profil˚u. Budeme d´ale pˇredpokl´adat racionalitu hr´acˇ u˚ a volbu unik´atn´ıho pareto dominantn´ıho profilu. Neˇcek´ame, zˇ e existuje ”centr´aln´ı autorita”, kter´a by hr´acˇ u˚ m vyˇreˇsila jejich probl´em a navrhla jim ˇreˇsen´ı. Sp´ısˇe t´ım modelujeme fakt, zˇ e hr´acˇ i zˇ ij´ı ve spoleˇcn´em informaˇcn´ım kontextu (ˇctou stejn´e noviny) a je jim spoleˇcn´a (je to common knowledge) racionalita ve smyslu snahy maximalizovat spoleˇcn´y prospˇech z volby strategick´eho profilu. To povede tak´e k tomu, zˇ e budeme pˇri v´ypoˇctu korelovan´eho ekvilibria maximalizovat spoleˇcensk´y uˇzitek (efektivitu) vybran´eho profilu.
6.1
Motivaˇcn´ı pˇr´ıklad
Uvaˇzujme hru: a
b
A
9,9
6,10
B
10,6
0,0
Hra m´a dvˇe ryz´ı Nashova ekvilibria a jedno sm´ısˇen´e: 49
• PNE (A, b) s dan´ym ziskem (6, 10). • PNE (B, a) s dan´ym ziskem (10, 6). • MNE (( 76 , 17 ), ( 67 , 17 )) s oˇcek´avan´ym ziskem (8.57, 8.57). Pˇrepodpokl´adejme, zˇ e nˇekdo hod´ı minc´ı (padne H nebo T), coˇz je ten avizovan´y veˇrejnˇe pozorovateln´y sign´al. Hr´acˇ i souhlas´ı (a je to common-knowledge), zˇ e budou hr´at: • (A, b) v pˇr´ıpadˇe H, • (B, a) v pˇr´ıpadˇe T. Pˇri t´eto dohodˇe a s pˇredpokladem synchrozniaˇcn´ıho sign´alu je oˇcek´avan´y zisk ve hˇre (8, 8), coˇz je oˇcek´avan´y uˇzitek hr´acˇ u˚ pravdˇepodobnostnˇe v´ahovan´y 6 · 0.5 + 10 · 0.5. M˚uzˇ e hra skuteˇcnˇe takto probˇehnout? Budou hr´acˇ i respektovat pˇr´ıchoz´ı stav sign´alu? Co Bestresponse hr´acˇ u˚ ? • Padne-li H, hr´acˇ 1 v´ı, zˇ e hr´acˇ 2 bude hr´at b (A je tedy Best-response) • Padne-li T, hr´acˇ 1 v´ı, zˇ e hr´acˇ 2 bude hr´at a (B je tedy Best-response) Oˇcek´avan´e zisky nyn´ı mohou v´yt vyˇssˇ´ı neˇz v MNE (pokud napˇr. zmˇen´ıme v (A, a) zisky na (8, 8)). Pˇredpokl´adajme d´ale, zˇ e sign´al nemus´ı b´yt aˇz tak informaˇcnˇe u´ pln´y. Poˇza´ d´ame arbitra, aby hodil kostkou (v´ysledek n zˇ a´ dn´y z hr´acˇ u˚ nevid´ı). • Ozn´am´ıme hr´acˇ i 1, zda-li n padlo do {1, 2} nebo do {3, 4, 5, 6}. • Ozn´am´ıme hr´acˇ i 2, zda-li n padlo do {1, 2, 3, 4} nebo do {5, 6}. Dohoda je podobn´a, jako v pˇredch´azej´ıc´ı konfiguraci, tedy: • Hr´acˇ 1 hraje B, pokud n ∈ {1, 2} nebo A pˇri n ∈ {3, 4, 5, 6}. • Hr´acˇ 2 hraje a, pokud n ∈ {1, 2, 3, 4} nebo b pˇri n ∈ {5, 6}. Oˇcek´avan´y zisk v t´eto konfiguraci se zmˇen´ı na (8.333, 8.333), coˇz m˚uzˇ eme ovˇeˇrit na BR1 : • Pokud ozn´am´ıme hr´acˇ i 1, zˇ e n ∈ {1, 2}, pak hr´acˇ v´ı, zˇ e hr´acˇ 2 bude hr´at a. Pak je jeho BR1 jednoznaˇcnˇe hr´at B. • Pokud se hr´acˇ 1 dozv´ı, zˇ e hod padl do intervalu 3-6, tedy n ∈ {3, 4, 5, 6}, je situace m´ırnˇe sloˇzitˇejˇs´ı. Hr´acˇ 2 nem´a jistotu mezi hran´ım a a b, proto bude hr´at ( 21 , 12 ). Pak je BR1 hr´at A. Celkovˇe je oˇcek´avan´y zisk prvn´ıho hr´acˇ e (s pravdˇepodobnost´ı pravdˇepodobnost´ı 64 bude sloupcov´y hr´at sm´ısˇenˇe ( 21 , 12 )): 2 4 1 1 π1 = 10 + ( 9 + 6) = 8.333 6 6 2 2 50
2 6
hra skonˇc´ı v profilu (B, a) a s
6.2
Definice korelovan´eho ekvilibria
Mˇejme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ). CE je od Nashova ekvilibria definov´ano odliˇsnˇe v tom ˇ sen´ım hry z smyslu, zˇ e pˇriˇrazuje kaˇzd´emu profilu s ∈ S pravdˇepodobnostn´ı ohodnocen´ı π(s). Reˇ pohledu CE je tedy vektor π = (π(s))s∈S . Definice 33. Mˇejme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ) a vektor π = (π(s))s∈S takov´y, zˇe: 1. π(s) ∈ h0, 1i ∀s ∈ S 2.
P
s∈S
π(s) = 1
Vektor π je korelovan´ym ekvilibriem ve hˇre Γ, pokud plat´ı pro vˇsechny hr´acˇ e i ∈ Q a kaˇzd´e dvˇe strategie si , di ∈ Si , di 6= si : X
π(si , s−i ) · (Ui (si , s−i ) − Ui (di , s−i )) ≥ 0
s−i ∈S−i
Bylo by dobr´e si nyn´ı rozebrat, co tato definice rˇ´ık´a o chov´an´ı hr´acˇ u˚ . Vyplyne z toho i logika v´ypoˇctu CE v zadan´e hˇre. Mnoˇzina nerovnic modeluje, co hr´acˇ rozhodnˇe nikdy nepˇripust´ı – co neudˇel´a. V´yraz (Ui (si , s−i ) − Ui (di , s−i )) vyhodnocuje zmˇenu uˇzitku hr´acˇ e i, pokud by v sub-profilu s−i pˇreˇsel ze sv´e strategie si na di . Tento pˇrechod (deviace) je pochopitelnˇe moˇzn´y pouze z profil˚u, kde hr´acˇ i hraje si , tedy kaˇzd´a nerovnice modeluje zlepˇsen´ı/zhorˇsen´ı hr´acˇ ova oˇcek´avan´eho uˇzitku pro jednu konkr´etn´ı dvojici strategi´ı si , di . Hr´acˇ pˇripust´ı takovou deviaci pouze v pˇr´ıpadˇe, zˇ e v sumˇe P aporn´emu oˇcek´avan´emu zisku. Pokud s−i ∈S−i π(si , s−i ) · (Ui (si , s−i ) − Ui (di , s−i )) ≥ 0 vede k nez´ tedy tato m´a b´yt platn´a pouze v pˇr´ıpadˇe, zˇ e promˇenn´e {π(si , s−i )}s−i ∈S−i jsou nulov´e, pak jsou tyto pravdˇepodobnosti nulov´e glob´alnˇe a tedy pro vˇsechny hr´acˇ e a celou hru. Tato sada nerovnic konstruuje v pravdˇepodobnostn´ım prostoru dimenze |S| konvexn´ı mnoho´uheln´ık (angl. polytope), nˇeco jako vyjedn´avac´ı prostor, kde vˇsechny body tohoto prostoru jsou pro hr´acˇ e pˇr´ıpustn´e a dosaˇziteln´e (feasible) a hled´ame jejich racion´aln´ı bod dohody (pareto efektivn´ı), tedy opˇet nˇekde na ohraniˇcen´ı t´eto mnoˇziny. Hled´an´ı pareto optim´aln´ıho korelovan´eho ekvilibria je LP-´uloha maximalizuj´ıc´ı spoleˇcn´y uˇzitek. Korelovan´e ekvilibrium je zobecnˇen´ım MNE, tedy kaˇzd´e MNE je CE, ale naopak to neplat´ı. Vztah MNE a CE dokumentuje n´asleduj´ıc´ı vˇeta (jej´ı d˚ukaz je dostupn´y na str´ank´ach THE): ∗ Vˇeta 9. Je-li σ ∗ MNE, pak π = ΠN e ekvilibrium. i=1 σ (si ) s∈S je korelovan´ Korelovan´e ekvilibrium je z nepochopiteln´ych d˚uvod˚u na okraji z´ajm˚u hern´ıch teoretik˚u, i pˇresto, zˇ e je sympatick´e z mnoha d˚uvod˚u: • CE je nadmnoˇzina MNE, tzn. vˇsechny MNE jsou souˇcasnˇe CE. Plyne z toho, zˇ e CE vˇzdy existuje. Nash dok´azal, zˇ e MNE vˇzdy existuje, proto vˇzdy existuje CE. 51
• Christos Papadimitriou dok´azal (ˇcl´anek ”Computing correlated equilibria in multi-player games”, In: 37th ACM Symposium on Theory of computing), zˇ e v´ypoˇcet CE je v polynomick´e cˇ asov´e sloˇzitostn´ı tˇr´ıdˇe, coˇz je znaˇcn´y posuv od obecnˇe exponenci´aln´ı sloˇzitosti v´ypoˇctu sm´ısˇen´eho Nashova ekvilibria. Pˇripomeˇnme, zˇ e pro v´ypoˇcet MNE ve v´ıce-hr´acˇ ov´ych hr´ach prakticky neexistuje algoritmus jejich v´ypoˇctu (natoˇz pak nˇejak´eho efektivn´ıho v´ypoˇctu). • Martin Hrub´y navrhl algoritmus efektivn´ıho v´ypoˇctu CE se zapojen´ım paralelismu (ˇcl´anek ”Algorithmic Approaches to Game-Theoretical Modeling and Simulation, In: AUCO Czech Ecomomic Review, on-line: auco.cuni.cz). Tento algoritmus je obvzl´asˇˇt efektivn´ı pˇri souˇcasn´e potˇrebˇe vyˇc´ıslovat uˇzitky U (s) v profilech s nˇejak´ym dalˇs´ım modelem. ˇ ıdka a M. Hrub´eho. • Existuje efektivn´ı n´astroj v´ypoˇctu CE pod n´azvem CE-Solver1 autor˚u S. Z´ • V´ypoˇcet CE je zaloˇzen na line´arn´ım programov´an´ı. Algoritmus jeho v´ypoˇctu je jednoduch´y, jednoznaˇcn´y a bez v´yjimek. Algoritmus neodliˇsuje mezi dvouhr´acˇ ovou a v´ıce-hr´acˇ ovou hrou.
6.3
´ V´ypoˇcet CE obecnˇe (LP-uloha)
Mnoˇzina korelovan´ych ekvilibri´ı pro zadanou hru je obecnˇe nekoneˇcn´a (je to podprostor vymezen´y nerovnicemi z definice CE). Budeme z t´eto mnoˇziny vyb´ırat unik´atn´ı Pareto efektivn´ı profil, kter´y m´a CE vlastnost. To znamen´a, zˇ e maximalizujeme souhrnn´y uˇzitek Z(s) v CE profilu Z: M AX : Z =
X
π(s)Z(s)
s∈S
Z(s) =
X
wi · Ui (s)
i∈Q
Teoreticky m˚uzˇ eme vliv hr´acˇ u˚ v´ahovat nˇejak vhodnˇe zvolen´ymi koeficienty wi , ale pokud hr´acˇ i nejsou silnˇe nesymetriˇct´ı, nebudou m´ıt tyto koeficienty valn´y vliv na volbu profilu. Promˇenn´e v t´eto LP-´uloze budou pravdˇepodobnosti jednotliv´ych profil˚u hry: π(s) ∈ h0, 1i ; ∀s ∈ S Omezuj´ıc´ı podm´ınky (constraints) jsou d´any principem pravdˇepodobnostn´ıho charakteru CE: X
π(s) = 1
s∈S
A dalˇs´ı omezen´ı jsou d´any matic´ı uˇzitk˚u (obecnˇe): 1
Dostupn´y na http://perchta.fit.vutbr.cz/CE-Solver/
52
G · πT ≥ 0 Matice G je definov´ana takto: ˇ adky matice G jsou indexov´any i, j, k, kde i ∈ Q, j, k ∈ Si . Matice G M´a tud´ızˇ • R´ (|Si | − 1) ˇra´ dk˚u.
PN
i=1
|Si | ·
• Sloupce jsou indexov´any strategick´ymi profily, je tud´ızˇ S sloupc˚u v matici. • Prvek matice Gi,j,k v profilu s ∈ S je d´an: U (j, s ) − U (k, s ) s = j i −i i −i i Gi,j,k (s) = 0 jinak P T ˇ s´ıme LP-´ulohu s promˇenn´ymi π(s) a omezuj´ıc´ımi podm´ınkami ( Reˇ s∈S π(s) = 1, G · π ≥ 0). Maximalizujeme Z. V´ysledkem je naplnˇen´ı promˇenn´ych π(s) pravdˇepodobnostmi profil˚u. D˚uleˇzit´e je si uvˇedomit, zˇe tento postup v´ypoˇctu vyhodnocuje jedno Pareto efektivn´ı CE. Nen´ı tud´ızˇ pravda, zˇ e existuje pouze jedno CE a to je jednoznaˇcnou odpovˇed´ı na ot´azku ”co hr´acˇ i udˇelaj´ı?”. Tento algoritmus nijak nen´ı omezen poˇctem hr´acˇ u˚ nebo jejich strategi´ı – pouze v´yslednou cˇ asovou a pamˇeˇtovou sloˇzitost´ı. Demonstraˇcn´ı pˇr´ıklad v´ypoˇctu CE Mˇejme zadanou hru: A/B
c
d
a
10,2 8,4
b
5,4
7,3
Jej´ı profily jsou S = {(a, c), (a, d), (b, c), (b, d)} G-matice (ˇra´ dky modeluj´ı moˇzn´e deviace hr´acˇ u˚ , sloupce jsou vˇsechny profily ve hˇre): j → k/s
ac
ad
a→b
5
1
b→a c→d
bc
bd
−5 −1 −2
d→c
1 2
53
−1
Maximalizace Z =
P
s∈S
π(s)Z(s). Syst´em nerovnic G · π T ≥ 0 je n´asleduj´ıc´ı: 5π(ac) + π(ad) ≥ 0 −5π(bc) − π(bd) ≥ 0 −2π(ac) + π(bc) ≥ 0 2π(ad) − π(bd) ≥ 0
Druh´a nerovnice jasnˇe vede k π(bc) = π(bd) = 0. Z toho plyne: −2π(ac) + 0 · π(bc) ≥ 0 plat´ı pouze pro π(ac) = 0. P Zb´yv´a π(ad) ≥ 0 ∧ π(s) = 1, tzn. π(ad) = 1. CE v t´eto hˇre je tedy vektor (0, 1, 0, 0). Monoho´uheln´ık v pravdˇepodobnostn´ım prostoru ˇreˇsen´ı je tedy pouze singleton obsahuj´ıc´ı bod (0, 1, 0, 0). Hra m´a tedy unik´atn´ı CE, kter´e je souˇcasnˇe unik´atn´ı PNE.
6.4
Princip CE obecnˇe – analytick´y efekt G-matice
Mnoˇzina nerovnic G · π T ≥ 0 modeluje hr´acˇ ovy tendence pˇrech´azet mezi strategiemi. Pokud je ˇra´ dek Gi,j,k (s) cel´y z´aporn´y (resp. Gi,j,k (s) ≤ 0; ∀s ∈ S a souˇcasnˇe ∃s ∈ S : Gi,j,k (s) < 0), pak strategie k striktnˇe dominuje nad j (pˇrechodem z j na k se zhorˇs´ı hr´acˇ u˚ v uˇzitek). Pokud je ˇra´ dek nulov´y, pak jsou strategie ekvivalentn´ı. Takov´y ˇra´ dek m˚uzˇ e b´yt z LP-constraints vypuˇstˇen, neboˇt nem´a zˇ a´ dn´y efekt. Pokud existuj´ı kladn´e i z´aporn´e koeficienty Gi,j,k (s), pak nelze nic o strategi´ıch j, k ˇr´ıct. Pokud existuj´ı pouze kladn´e a nulov´e koeficienty, pak strategie j slabˇe dominuje nad k (nelze ˇr´ıct, zˇ e dominuje striktnˇe). Matice G zde vystupuje jako zaj´ımav´y analytick´y n´astroj s velmi jednoduchou datovou strukturou. V n´asleduj´ıc´ım algoritmu t´eto vlastnosti vyuˇzijeme pro iterativn´ı eliminaci dominovan´ych strategi´ı.
6.5
Optimalizovan´y v´ypoˇcet CE ve hˇre (Hrub´y, 2008)
Tento algoritmus byl vyvinut pro v´ypoˇcet CE ve v´ıcehr´acˇ ov´ych hr´ach s mnoha strategiemi. Publikov´an byl ve formˇe volnˇe sˇ´ıˇriteln´eho n´astroje pojmenovan´eho CE-Solver. N´astroj lze vyuˇz´ıt pro v´ypoˇcet CE v zadan´e hˇre nebo pˇrinejmenˇs´ım k redukci prostoru profil˚u hry na menˇs´ı hru (vede pak na menˇs´ı LP-´ulohu). Specificky je n´astroj v´yhodn´y v tˇech situac´ıch, kdy uˇzitky hr´acˇ u˚ v profilu s nejsou pˇredem zn´amy (jak to obvykle popisujeme tou matic´ı uˇzitk˚u), ale je nutno je na poˇza´ d´an´ı vypoˇc´ıtat nˇejakou funkc´ı, zde referovanou jako cellM odel(s). Pokud v´ypoˇcet t´eto funkce nen´ı z hlediska cˇ asov´e n´aroˇcnost algoritmu trivi´aln´ı, je nutno se zamyslet nad poˇctem vol´an´ı cellM odel, kter´e mus´ıme pro dokonˇcen´ı v´ypoˇctu CE absolvovat. Mˇejme hru Γ = (Q; {Si }i∈Q ; {Ui }i∈Q ) a poˇc´ıtaˇcov´y model (proceduru) cellM odel : S → RN pro v´ypoˇcet uˇzitk˚u U (s) := cellM odel(s). Pˇredpokl´adejme, zˇ e v´ypoˇcet cellM odel(s) je hlavn´ı cˇ asovou
54
z´atˇezˇ´ı na v´ypoˇcet. Chceme omezit poˇcet invokac´ı cellM odel na minimum, tzn. hled´ame minim´aln´ı Sr ⊆ S potˇrebnou pro vyhodnocen´ı CE. Sestavujeme redukovanou hru, tzn. redukovanou Sr ⊆ S.
6.5.1
Redukce G-matice v naˇsem pˇr´ıkladˇe
Postup redukce je pops´an na obr´azku 6.1. ac 5
ad 1
bc
a→b
ab 5
ad 1
bd
a→b b→a −5 −1 c → d −2 1 d→c 2 −1 ˇR´adek b → a je cel´y z´aporn´y, tud´ızˇ strategie b je striktnˇe dominovan´a strategi´ı a. Dalˇs´ı v´ypoˇcty v profilech bc a bd jiˇz nebudou vyˇzadov´any.
c → d −2 d→c 2 V tomto kontextu redukce hry vypad´av´a ˇra´ dek c → d a s n´ım i profil ab.
ad a→b 1 d→c 2 Zb´yv´a pouze profil ad a t´ım i eliminace konˇc´ı s vyhodnocen´ym ekvilibriem (dle pˇredchoz´ıch poznatk˚u je ekvilibrium neeliminovateln´e pˇri eliminaci striktnˇe dominovan´ych strategi´ı). Figure 6.1: Iterativn´ı eliminace dominovan´ych strategi´ı v pˇr´ıkladu CE-Solveru
55
Bibliography [1] Nash, J.: Non-cooperative Games, Annals op Mathematics Vol. 54, No. 2, 1951 [2] von Neumann, J., Morgenstern, O.: Theory of Games and Economic Behavior, 1944
56