THE: Sm´ıˇsen´e Nashovo ekvilibrium ve strategick´ych hr´ach (Mixed Nash Equilibria in Normal-Form Games) Martin Hrub´y Brno University of Technology Brno Czech Republic
October 9, 2014
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
´ Uvod ˇ ano z: Cerp´ ◮
Fudenberg, D., Tirole, J.: Game Theory, The MIT Press, 1991
◮
Osborne, M., Rubinstein, A.: A Course in Game Theory, The MIT Press, 1994
´ Uvod: ◮
Strategick´e hry a z´ akladn´ı pojmy. Ryz´ı (pure) strategie.
◮
Best response - BRi (s−i ) ⊆ Si , i ∈ Q, s−i ∈ S−i .
◮
◮
Ryz´ı Nashovo ekvilibrium (PNE) - s ∗ ∈ S, ˇz´ adn´y hr´aˇc nem´a ∗ ∗ si ∈ Si , ˇze Ui (si , s−i ) > Ui (s ). Oˇcek´avan´y zisk a s n´ım spojen´e sm´ıˇsen´e chov´an´ı.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pˇr´ıklad hry bez PNE: Matching pennies Kaˇzd´y hr´aˇc m´a penny. Tajnˇe otoˇc´ı svoje penny na heads/tails (t´ım vol´ı strategii). A/B heads tails
heads 1,-1 -1,1
tails -1,1 1,-1
◮
Jak se zachovaj´ı hr´ aˇci, pokud nemaj´ı PNE?
◮
Co znamen´a, ˇze neexistuje PNE?
◮
Budou hr´aˇci umˇ et hru hr´ at? Um´ıte hr´ at k´ amen-n˚ uˇzky-pap´ır?
◮
Zopakujme si, ˇze TH je analytick´y n´ astroj pro zkouman´ı interakc´ı.
◮
Hr´aˇci hru hraj´ı, rozhoduj´ı se, takˇze mus´ı existovat jej´ı matematick´y model. Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pˇr´ıklad hry bez PNE: Matching pennies A/B heads tails
heads 1,-1 -1,1
tails -1,1 1,-1
Sledujme ˇr´adkov´eho hr´ aˇce. Ryz´ı BR jsou jasn´e. ◮
◮
◮
adkov´y indiferentn´ı (ve Pokud sloupcov´y hraje ( 21 , 12 ), pak je ˇr´ sv´ych oˇcek´av´an´ıch) v˚ uˇci obˇema sv´ym strategi´ım. ˇ R´adkov´y m˚ uˇze jednor´ azovˇe hr´ at cokoliv z (p, 1 − p), p ∈ h0, 1i. Hr´aˇci oˇ cek´ avaj´ı v´ysledek 0. M˚ uˇze ˇr´adkov´y zv´yˇsit sv´ a oˇcek´ av´ an´ı v´ysledku, resp. m˚ uˇze pro sebe garantovat lepˇs´ı v´ysledek? Pokud ˇr´ adkov´y vyboˇc´ı z rovnov´aˇzn´e strategie na napˇr. ( 43 , 14 ), pak se mˇen´ı sloupcov´eho BR. Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pˇr´ıklad hry bez PNE: Matching pennies A/B heads tails
heads 1,-1 -1,1
tails -1,1 1,-1
Pokud ˇr´adkov´y vyboˇc´ı z rovnov´ aˇzn´e strategie na napˇr. ( 34 , 14 ), pak se mˇen´ı sloupcov´eho BR. πs (( 43 , 41 ), heads) = − 43 + 14 = − 21 πs (( 43 , 41 ), tails) = 34 − 14 = 21 ... tud´ıˇz je sloupcov´eho BRs (( 34 , 14 )) = tails. Pak sloupcov´y hraje tails. πr (( 43 , 41 ), tails) = − 43 + 14 = − 21 ˇ adkov´y nezlepˇsil sv´a oˇcek´ R´ av´ an´ı (ani v´ysledek), naopak zhorˇsil z 0 na −0.5, kdyˇz vyboˇcil z rovnov´ aˇzn´e strategie. Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Rozhodov´an´ı jedince za jistoty
volba a b c d zisk 10 20 40 40 Hr´ aˇ c je indiferentn´ı mezi c a d, tzn. rozhoduje se n´ ahodnˇ e podle pravdˇ epodobnostn´ı distribuce (0, 0, 0.5, 0.5). Rozhodnut´ı v:
Pˇresto je jist´e, ˇze dos´ahne v´ysledku 40.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Oˇcek´av´an´ı ve hˇre, oˇcek´avan´y zisk Jak´e je oˇcek´av´an´ı zisku pˇri loterii: volba zisk pravdˇepodobnost
a 10 0.1
b 20 0.2
c 30 0.6
d 1000 0.1
π = 10 · 0.1 + 20 · 0.2 + 30 · 0.6 + 1000 · 0.1 = 123 Oˇcek´av´an´ı je 123 a to i pˇresto, ˇze s pravdˇepodobnost´ı 0.9 dostanu nˇeco z h10, 30i. Kdo vytv´aˇr´ı ty pravdˇepodobnosti? Co kdyˇz je to protihr´aˇc?
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Vˇzdy n´as zaj´ım´a Best-Response
c d
a 3,2 -1,4
b 1,3 2,1
π1 (p, q) = 5pq − p − 3q + 2 , π2 (p, q) = −4pq + 2p + 3q + 1 Funkce π1 (p, q), kde hr´ aˇc pˇrem´yˇsl´ı o nejlepˇs´ım p ∈ h0, 1i. 1 9 BR1 (q = 10 , 10 ) ⇒ −0.5p − 0.7 ⇒ p := 0, tj. vol´ı d Probl´em: BR2 (d) = {a}, tj. U1 (d, a) = −1, tj. uhne do a. BR1 (q =
9 1 10 , 10
) ⇒ 3.5p − 0.7 ⇒ p := 1
BR1 (q = 51 , 54 ) ⇒ 5p · 0.2 − p − 3 · 0.2 + 2 = 1.4 Zde jiˇz BR nen´ı z´avisl´e nap, tzn. BR1 (q = 0.2) = ∆1 . MNE = (σ1∗ , σ2∗ ) = 34 , 14 , 51 , 45 Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
V´ypoˇcet sm´ıˇsen´e rovnov´ahy analyticky c d
a 3,2 -1,4
b 1,3 2,1
p je pravdˇepodobnost hran´ı strategie a, tzn. 1 − p je prst hran´ı b. Podobnˇe q. 1 πi je funkce v promˇenn´ych p a q, hled´ ame jej´ı extr´em podle p, ∂π ∂p . π1 = 3pq +1p(1−q)−1(1−p)q +2(1−p)(1−q) = 5pq −p −3q +2 1 ∂π1 = 5q − 1 ⇒ q = ∂p 5 π2 = 2pq+3p(1−q)+4(1−p)q+(1−p)(1−q) = −4pq+2p+3q+1 ∂π2 3 = −4p + 3 ⇒ p = ∂q 4 Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Sm´ıˇsen´e strategie Zavedeme pravdˇepodobnostn´ı rozˇs´ıˇren´ı do strategi´ı, oˇcek´avan´ych zisk˚ u a rozhodov´an´ı.
Definition
|S |
Mˇejme hru Γ. Vektor pravdˇepodobnost´ı σi = (σi1 , σi2 , ..., σi i ) se naz´yv´a sm´ıˇsen´a strategie hr´ aˇce i ∈ Q ve hˇre Γ, pokud plat´ı: ◮ ◮
σij ∈ h0, 1i pro vˇsechna 1 ≤ j ≤ |Si | P|Si | j j=1 σi = 1
Podobnˇe, jako pojem profil, zav´ ad´ıme i sm´ıˇsen´y profil jako vektor sm´ıˇsen´ych strategi´ı, tedy σ = (σi )i ∈Q , kde σi je sm´ıˇsen´a strategie hr´aˇce i ∈ Q.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Sm´ıˇsen´e strategie Sm´ıˇsenou strategii σi hr´ aˇce i interpretujeme jako pˇredpoklad, ˇze hr´aˇc i pouˇzije svou ryz´ı strategii sj ∈ Si (zde v´yjimeˇcnˇe ch´apejme Si = (s1 , s2 , ..., s|Si | ) jako vektor) s pravdˇepodobnost´ı σij . Sm´ıˇsen´a strategie je zobecnˇen´ım ryz´ı strategie, neboˇt σi = (σi1 , σi2 , ...) = (1, 0, ...) vyjadˇruje ryz´ı strategii si1 . Notace: σ je sm´ıˇsen´y profil, s ∈ S, si ∈ Si pro nˇejak´e i ∈ Q ◮
σi (si ) je pravdˇepodobnost, ˇze hr´ aˇc i bude hr´ at si pˇri σ (resp. σi )
◮
σi (s) je ekvivalentn´ı z´ apis
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Sm´ıˇsen´e rozˇs´ıˇren´ı hry v norm´aln´ı formˇe Definition Mˇejme hru Γ = (Q; {Si }i ∈Q ; {Ui }i ∈Q ). Hru Γm = (Q; {∆i }i ∈Q ; {πi }i ∈Q ) nazveme sm´ıˇsen´ym rozˇs´ıˇren´ım hry Γ, pokud ∀i ∈ Q: ◮
∆i je mnoˇzina sm´ıˇsen´ych strategi´ı hr´ aˇce i (vektory d´elky |Si |). ˇ σi ∈ ∆i . C´ıslo σi (si ) oznaˇcuje pravdˇepodobnost pˇQ riˇrazenou ryz´ı strategii si ∈ Si ve strategii σi . Celkovˇe ∆ = i ∆i . X mi ∆i = σi ∈ h0, 1i | σi (si ) = 1 ; mi = |Si | si ∈Si
◮
V´yplatn´ı funkce hr´ aˇce i πi (σ) =
X s∈S
Martin Hrub´ y
Ui (s) ·
Y
i ∈Q
σi (si )
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Oˇcek´avan´y zisk (Expected payoff) ve sm´ıˇsen´ych strategi´ıch Pˇripomeneme, ˇze v ryz´ıch strategi´ıch pˇri profilu s ∈ S je oˇcek´avan´y zisk hr´aˇce i d´an: πi (s) = Ui (s). Vektor σ = (σ1 , σ2 , ..., σN ) je sm´ıˇsen´y strategick´y profil hr´aˇc˚ u ve hˇre. Pokud hr´aˇci i nehraj´ı konkr´etn´ı (ryz´ı) strategii si ∈ Si , pak mus´ı b´yt oˇcek´avan´y zisk hr´ aˇce i ∈ Q v profilu σ d´an pravdˇepodobnostn´ım v´ ahov´ an´ım pˇres vˇsechny ryz´ı profily s ∈ S. πi (σ) =
X
pmix(s, σ) · Ui (s)
s∈S
kde pmix(s, σ) je pravdˇepodobnost profilu s ∈ S pˇri sm´ıˇsen´e strategii σ: pmix(s, σ) = Πi ∈Q σi (si )
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Sm´ıˇsen´e rozˇs´ıˇren´ı hry v norm´aln´ı formˇe Pˇripomeˇ nme definici sm´ıˇsen´eho Nashova ekvilibria (MNE):
Definition Sm´ıˇsen´y profil σ ∗ ∈ ∆ je ekvilibrium ve hˇre Γm , pokud plat´ı pro vˇsechny i ∈ Q: ∗ σi∗ ∈ BRi (σ−i )
BRi (σ−i ) = arg max πi (σi , σ−i )
σi ∈∆i
Pozn.: Pˇredpokl´ad´ame, ˇze v´ysledkem operace BRi (σ−i ) je podmnoˇzina ∆i . Mnoˇzina ∆i m´ a jin´y charakter neˇz Si ! Z toho plyne.: hr´aˇc i je v kontextu sub-profilu σ−i indiferentn´ı mezi vˇsemi σi ∈ BRi (σ−i ). Ot´azka: Jak je velk´a mnoˇzina BRi (σ−i )? Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Expected payoff: pˇr´ıklad Pedro/Juana Box Balet σ∗ =
3 1 4, 4
,
1 3 4, 4
Box 3,1 0,0
Balet 0,0 1,3
Box
Balet
3 16 1 16
9 16 3 16
Pedro/Juana Box Balet
3 9 1 3 16 + + + = =1 16 16 16 16 16 πPedro (σ ∗ ) = 3 · Martin Hrub´ y
3 3 12 +1· = 16 16 16 THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Expected payoff: pˇr´ıklad
Pedro/Juana Box Balet σ∗ =
3 1 4, 4
,
1 3 4, 4
Box 3,1 0,0
Balet 0,0 1,3
3 1 ∗ = 1 · = πPedro (Balet, σ−i ) 4 4 V MNE σ ∗ bude platit, ˇze je hr´ aˇc indiferentn´ı v˚ uˇci vˇsem sv´ym ryz´ım strategi´ım, kter´ym jeho sm´ıˇsen´ a strategie σi∗ pˇriˇrazuje nenulovou pravdˇepodobnost. ∗ πPedro (Box, σ−i ) =3·
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
NE ve sm´ıˇsen´ych strategi´ıch – MNE (Mixed Nash Equilibrium)
Fakticky stejn´a definice jako pro PNE, ovˇsem se zaveden´ım expected payoff (pouze zobecnˇen´ı).
Definition Mˇejme hru Γ = (Q; {Si }i ∈Q ; {Ui }i ∈Q ). Sm´ıˇsen´y profil σ ∗ ∈ ∆ nazveme sm´ıˇsen´e Nashovo ekvilibrium ve hˇre Γ, pokud plat´ı pro vˇsechny hr´aˇce i ∈ Q a vˇsechny moˇzn´e sm´ıˇsen´e profily σ ∈ ∆: ∗ πi (σ ∗ ) ≥ πi (σi , σ−i )
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Sm´ıˇsen´e ekvilibrium: pˇr´ıklad A/B T B ∗
σ =
L 1,3 2,1
3 2 , 5 5
R 2,1 1,4
1 1 , , 2 2
πA (σ ∗ ) = 1.5 σ=
(1, 0) ,
1 1 , 2 2
πA (σ) = 1.5. Tj., ˇr´adkov´y m˚ uˇze hr´ at st´ ale T , pak ovˇsem poruˇs´ı rovnov´ahu. Pˇri σ by B hr´al nˇeco jin´eho. Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pochopen´ı sm´ıˇsen´ych strategi´ı BRi (σ−i ) = arg max [πi (σi , σ−i )] σi ∈∆i
σi∗
Sm´ıˇsen´a strategie hr´ aˇce i je nejlepˇs´ı odpovˇed´ı na sm´ıˇsen´y ∗ pr´ subprofil σ−i avˇe tehdy, kdyˇz kaˇzd´ a z ryz´ıch strategi´ı, kter´ym σi∗ ∗ . pˇriˇrazuje nenulovou pravdˇepodobnost, je nejlepˇs´ı odpovˇed´ı na σ−i Ovˇ eˇrit na pˇr´ıkladech. ∗ indiferentn´ Hr´aˇc i je proto pˇri hran´ı σi∗ v situaci σ−i ı v˚ uˇci vˇsem ryz´ım strategi´ım s nenulovou pravdˇepodobnost´ı (jsou pro nˇej vˇsechny stejnˇe dobr´e).
To znamen´a, ˇze pokud by byly dvˇe jeho ryz´ı strategie s1i , s2i ∈ Si s nenulovou pravdˇepodobnost´ı v r´ amci σi∗ takov´e, ˇze by ∗ ) > π (s i , σ ∗ ), pak by σ ∗ nebylo ekvilibrium. πi (s1i , σ−i i 2 −i Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pochopen´ı sm´ıˇsen´ych strategi´ı
c d e
a 3,2 -1,4 4,1
b 1,3 2,1 -2,5
e je BR1 (a), pˇresto se ne´ uˇcastn´ı MNE; c nen´ı BR, ale v MNE je c do MNE zan´aˇs´ı sloupcov´y hr´ aˇc, neboˇt na nˇej m´ a v´az´ano b jako BR MNE = (σ1∗ , σ2∗ ) = 43 , 14 , 0 , 15 , 54
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Vˇeta o existenci Nashova ekvilibria
Theorem Kaˇzd´a koneˇcn´a hra m´a vˇzdy alespoˇ n jeden rovnov´ aˇzn´y bod ve sm´ıˇsen´ych strategi´ıch. John Nash, 1951 Tento z´avˇer publikoval John Nash ve sv´e pr´ aci (Non-Cooperative Games, The Annals of Mathematics 54(2)). Uk´ azal tak koncept ekvilibria ve hr´ach s nenulov´ym souˇctem a souˇcasnˇe dok´ azal, ˇze kaˇzd´a hra m´a nˇejak´e ˇreˇsen´ı. D˚ ukaz si pˇredvedeme ve 4. pˇredn´ aˇsce.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Vˇeta o existenci Nashova ekvilibria
Co znamen´a Nashova vˇeta? ◮
Koneˇcn´a hra = mnoˇziny strategi´ı hr´ aˇc˚ u jsou koneˇcn´e.
◮
V´ıme, ˇze koneˇcn´a hra m´ a vˇzdy ˇreˇsen´ı. Z˚ ust´ av´a jeˇstˇe probl´em ho naj´ıt.
◮ ◮
M´ame-li bi-maticovou hru n × n, pak m´ a tato hra aˇz 2n−1 NE. v´ıce: Quint, T., Shubik, M.: A theorem on the number of Nash equilibria in a bimatrix game, International Journal of Game Theory, Volume 26, Number 3 / October, 1997
Theorem Kaˇzd´a koneˇcn´a hra m´a lich´y poˇcet Nashov´ych ekvilibri´ı.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
V´ypoˇcet Nashova ekvilibria ve sm´ıˇsen´ych strategi´ıch (MNE)
◮
Anal´yza strategick´ych her ve sm´ıˇsen´ych strategi´ıch je st´ale algoritmicky obt´ıˇznˇe ˇreˇsiteln´y probl´em.
◮
V´ypoˇcet MNE je ve sloˇzitostn´ı tˇr´ıdˇe NP (v r´ amci v´yzkumu algoritmizace v´ypoˇctu MNE byla zavedena specifick´a tˇr´ıda PPAD ⊂ NP (Ch. Papadimitriou) a byly publikov´any d˚ ukazy o pˇr´ısluˇsnosti v´ypoˇctu MNE v N-hr´ aˇcov´ych maticov´ych hr´ach k PPAD pro jist´a N – zat´ım ne obecnˇe). Obecnˇe proto pˇriˇrazujeme v´ypoˇcet MNE k NP sloˇzitosti.
◮
Pˇredvedeme obecn´y pˇredpis pro ˇreˇsen´ı dvouhr´aˇcov´ych her a v pozdˇejˇs´ıch pˇredn´aˇsk´ ach dalˇs´ı sloˇzitˇejˇs´ı algoritmy.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
V´ypoˇcet ˇreˇsen´ı pro Matching pennies
A/B heads tails
heads 1,-1 -1,1 q
tails -1,1 1,-1 1−q
p 1−p
p, q jsou pravdˇepodobnosti strategie ”heads”, 1 − p (resp. 1 − q) jsou pravdˇepodobnosti ”tails”. Oˇcek´avan´e v´yplaty: π1 (p, q) = 1pq − 1p(1 − q) − 1(1 − p)q + 1(1 − p)(1 − q) π2 (p, q) = −pq + 1p(1 − q) + 1(1 − p)q − 1(1 − p)(1 − q) π1 (p, q) = 4pq − 2p − 2q + 1 π2 (p, q) = −4pq + 2p + 2q − 1
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
V´ypoˇcet ˇreˇsen´ı pro Matching pennies π1 (p, q) = 4pq − 2p − 2q + 1 π2 (p, q) = −4pq + 2p + 2q − 1 ∂π1 1 = 4q − 2 = 0 ⇒ 4q = 2 ⇒ q = ∂p 2 1 ∂π2 = −4p + 2 = 0 ⇒ −4p = −2 ⇒ p = ∂q 2 Hra m´a jedin´e ˇreˇsen´ı ve formˇe Nashova ekvilibria ve sm´ıˇsen´ych strategi´ıch. Je to 1 1 1 1 ∗ , , , s = 2 2 2 2
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Obecn´y pˇredpis pro analytick´y v´ypoˇcet MNE Uvaˇzujme hru dvou hr´ aˇc˚ u s mnoˇzinami ryz´ıch strategi´ı S1 , S2 a pravdˇepodobnostn´ı promˇenn´e p1 , p2 , ..., pm−1 a q1 , q2 , ..., qn−1 , kde m = |S1 |, n = |S2 |. Odvod´ıme funkce pro oˇcek´ avan´e v´yplaty π1 (p1 , p2 , ..., pm−1 ), π2 (q1 , q2 , ..., qn−1 ). ˇ s´ıme soustavu line´arn´ıch rovnic: Reˇ ∂π1 = 0; 1 ≤ i ≤ m − 1 ∂pi ∂π2 = 0; 1 ≤ j ≤ n − 1 ∂qj Kaˇzd´e ˇreˇsen´ı t´eto soustavy s pi ≥ 0, qj ≥ 0 splˇ nuj´ıc´ı P q ≤ 1 je rovnov´ a ˇ z n´ y bod zadan´ e hry. j j Martin Hrub´ y
P
i
pi ≤ 1,
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Grafick´e ˇreˇsen´ı her
◮
Kresl´ı se ”reakˇcn´ı kˇrivky” – pr˚ ubˇeh BR na nˇejakou strategii.
◮
Jejich pr˚ useˇc´ık je ekvilibrium.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Grafick´e ˇreˇsen´ı her Zavedeme nejdˇr´ıve hru bez PNE (Colonel Blotto Game, defender/invader, Mountain/Plains). D/I M P
M 1,-1 -1,1
P -1,1 1,-1
Nechˇt σ1 = σ1 (M) je pravdˇepodobnost, ˇze obr´ ance bude stˇreˇzit hory, resp. σ2 = σ2 (M) u ´toˇcn´ık napadne obr´ ance pˇres hory. Oˇcek´avan´e uˇzitky hr´aˇc˚ u: π1 (M, σ2 ) = σ2 − (1 − σ2 ) = 2σ2 − 1 π1 (P, σ2 ) = −σ2 + (1 − σ2 ) = 1 − 2σ2 π2 (σ1 , M) = −σ1 + (1 − σ1 ) = 1 − 2σ1 π2 (σ1 , P) = σ1 − (1 − σ1 ) = 2σ1 − 1
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Konstrukce reakˇcn´ıch kˇrivek
π1 (M, σ2 ) = σ2 − (1 − σ2 ) = 2σ2 − 1 π1 (P, σ2 ) = −σ2 + (1 − σ2 ) = 1 − 2σ2 σ2 > 12 M BR1 (σ2 ) = P σ2 < 21 {M, P} σ2 = 12
adkov´y hr´ aˇc indiferentn´ı mezi V situaci, kdy σ2 = 12 je naprosto ˇr´ {M, P}. Z toho plyne, ˇze BR1 (σ2 ) = ∆1
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Konstrukce reakˇcn´ıch kˇrivek, sloupcov´y hr´aˇc
π2 (σ1 , M) = −σ1 + (1 − σ1 ) = 1 − 2σ1 π2 (σ1 , P) = σ1 − (1 − σ1 ) = 2σ1 − 1 σ1 < 12 M BR2 (σ1 ) = P σ1 > 21 {M, P} σ1 = 12
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Grafick´e nalezen´ı ekvilibria, Colonel’s game
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Grafick´e nalezen´ı ekvilibria, PNEs+MNEs FBI/CIA King Obyc
Martin Hrub´ y
King 2,2 1,0
Obyc 0,1 1,1
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Grafick´e nalezen´ı ekvilibria, PNEs+MNEs
Sm´ıˇsen´a strategie je pˇredevˇs´ım reakce na preference protivn´ıka (paradox). Mohli bychom si myslet, ˇze v modifikovan´e hˇre zmˇen´ı CIA sv´e chov´an´ı. FBI/CIA King Obyc K σ1 = BR1 (σ2 ) = O [0, 1]
σ2 > σ2 < σ2 =
Martin Hrub´ y
King 2,4 1,0 1 2 1 2 1 2
Obyc 0,1 1,1 K σ2 = BR2 (σ1 ) = O [0, 1]
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
σ1 > σ1 < σ1 =
1 4 1 4 1 4
Grafick´e nalezen´ı ekvilibria, PNEs+MNEs FBI/CIA King Obyc
King 2,4 1,0
Obyc 0,1 1,1
MNE = (( 14 , 34 ), ( 12 , 21 )) Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Algoritmick´e ˇreˇsen´ı koneˇcn´ych her
Definition Mˇejme hru Γ = (Q; {Si }i ∈Q ; {Ui }i ∈Q ). Support supp(σi ) je mnoˇzina ryz´ıch strategi´ı si ∈ Si hr´ aˇce i , kter´ym sm´ıˇsen´a strategie σi pˇriˇrazuje nenulovou pravdˇepodobnost σi (si ) ∈ h0, 1i. Tzn., supp(σi ) = {si ∈ Si |σi (si ) > 0} Mnoˇzina vˇsech support˚ u hr´ aˇce i je rovna Suppi = 2Si \ {∅}, tzn. je S jich |2 i | − 1 mnoho.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Z´akladn´ı pˇr´ıstup (silou)
Pˇredpokl´adejme sm´ıˇsen´y sub-profil ∆−i . Je-li σi ∈ BRi (∆−i ), pak je hr´aˇc i indiferentn´ı v˚ uˇci vˇsem ryz´ım strategi´ım supp(σi ), tzn. ∀si , sj ∈ supp(σi ) : πi (si , ∆−i ) = πi (sj , ∆−i ) Souˇcasnˇe mus´ı platit X
σi (si ) = 1
si ∈supp(σi )
To je poˇc´atek pro sestaven´ı soustavy rovnic (line´ arn´ıch pro dvou-hr´aˇcov´e hry).
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Z´akladn´ı pˇredpoklad pro n´asleduj´ıc´ı algoritmus Definition Dvouhr´aˇcov´a hra je tak zvanˇe nedegenerovan´ a, pokud ˇz´adn´a sm´ıˇsen´a strategie se supportem velikosti k nem´ a v´ıce neˇz k ryz´ıch best-response (pozor! nezkoum´ ame poˇcet sm´ıˇsen´ych BR). Tuto vlastnost snadno pozn´ ame: pokud m´ a hra na ryz´ı strategii jednoho hr´aˇce dvˇe (a v´ıce) ryz´ıch best-response protihr´ aˇce, je degenerovan´a. Plyne z toho: Kter´ekoliv Nash ekvilibrium (s1∗ , s2∗ ) nedegenerovan´e dvouhr´aˇcov´e hry m´a supporty stejn´e d´elky. Pro dalˇs´ı studium doporuˇcuji: Nisan et al.: Algorithmic Game Theory (link na str´ance THE), specificky kapitolu: Bernhard von Stengel: Equilibrium Computation for Two-Player Games in Strategic and Extensive Form Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Uk´azka degenerovan´e hry (pˇr´ıklad od P. Zemka) c d
a 3,3 1,2
b 3,3 2,0
Hra je degenerovan´a, neboˇt na ryz´ı strategii c m´ a sloupcov´y hr´aˇc best-response {a, b}. Nav´ıc vid´ıme, ˇze hru lze redukovat na |3, 3 3, 3|, kde ˇr´adkov´y hr´aˇc vol´ı svou jedinou strategii, ale sloupcov´y je naprosto indiferentn´ı mezi a a b tak, ˇze jeho BR2 (c) = ∆2 , to znamen´ a, ˇze mnoˇzina MNE je nekoneˇcn´a. ˇ co Z´avˇer: opˇet vid´ıme, ˇze TH n´ am ned´ av´ a jednoznaˇcnou odpovˇed se ve hˇre stane, ale ukazuje n´ am, ˇze ˇr´ adkov´y hr´ aˇc m´a striktnˇe dominantn´ı strategii c a sloupcov´emu je za t´eto situace naprosto jedno, co bude hr´at (nez´ aleˇz´ı na tom ani ˇr´ adkov´emu). Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
V´ypoˇcet sm´ıˇsen´e rovnov´ahy II.
c d
a 3,2 -1,4
b 1,3 2,1
Vych´az´ıme z pozn´an´ı indiference mezi a a b pˇri hran´ı sm´ıˇsen´e (p, 1 − p) versus sm´ıˇsen´e (q, 1 − q). Pak pro ˇr´adkov´eho hr´aˇce vych´ az´ı uˇzitek: U1 (c, a) · q + U1 (c, b) · (1 − q) = U1 (d, a) · q + U1 (d, b) · (1 − q) 3q + 1(1 − q) = −1q + 2(1 − q) 3q = −q + (1 − q) q = 15 Podobnˇe sloupcov´y: 2p + 4(1 − p) = 3p + (1 − p) ⇒ p = Martin Hrub´ y
3 4
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Z´akladn´ı pˇr´ıstup (silou) – algoritmus, 2 hr´aˇci
Algoritmus je urˇcen pro v´ypoˇcet vˇsech MNE v dvouhr´aˇcov´ych nedegenerovan´ych hr´ach. V pˇr´ıpadˇe degenerovan´e hry nˇekter´a ekvilibria neodhal´ı. V pˇr´ıpadˇe v´ıce-hr´ aˇcov´e hry se zmˇen´ı line´arn´ı rovnice na neline´arn´ı, kter´e nejsp´ıˇs nikdo nechce ˇreˇsit. Vstup: Hra Γ = (Q; {Si }i ∈Q ; {Ui }i ∈Q ), matice A, resp. B vyjadˇruj´ıc´ı U1 , resp. U2 , m = |S1 |, n = |S2 |. V´ystup: Mnoˇzina MNE, tzn. ∗ ); ∀i ∈ Q} MNEs = {σ ∗ ∈ ∆|σi∗ ∈ BRi (σ−i Nechˇt K = {1, 2, ..., min(m, n)}
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Z´akladn´ı pˇr´ıstup (silou) – algoritmus, 2 hr´aˇci Algoritmus: 1. ∀k ∈ K : 2. ∀I ⊆ S1 , |I | = k: 3. ∀J ⊆ S2 , |J| = k: ˇ s n´asleduj´ıc´ı soustavu rovnic. Pokud m´ a ˇreˇsen´ı, pak sm´ıˇsen´y 4. Reˇ ˇ profil (x, y ) zaˇrad mezi v´ysledky. Sloˇzky mimo I , J jsou nulov´e, tzn. ∀z ∈ S1 \ I : xz = 0, ∀z ∈ S2 \ J : yz = 0 Soustava obecnˇe: X
xi bij = v ; ∀j ∈ J
X
aij yj = u; ∀i ∈ I
i ∈I
X
xi = 1
X
yj = 1
i ∈I
j∈J
j∈J
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pˇr´ıklad: Matching pennies
A=
A/B heads tails
heads 1,-1 -1,1
1 −1 −1 1
;B =
tails -1,1 1,-1
−1 1 1 −1
; K = {1, 2}
ˇ sen´ı pro k = 1 zavrhujeme rovnou, protoˇze v ryz´ıch strategi´ıch Reˇ neoˇcek´av´ame v´ysledek (v´ıme, ˇze tam nen´ı). Strategie heads a tails si pˇrejmenujeme na 1 a 2.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Soustava pro k = 2, I = {1, 2}, J = {1, 2} −x1 + x2 = u y1 − y2 = v x1 − x2 = u −y1 + y2 = v x1 + x2 = 1 y1 + y2 = 1 Z toho plyne: −x1 + x2 = x1 − x2 −2x1 + 2x2 = 0 −2(1 − x2 ) + 2x2 = 0 −2 + 2x2 + 2x2 = 0 4x2 = 2 y2 = x2 = 12 1 x1 = 2 y1 =
1 2 1 2
Profil (( 21 , 12 ), ( 12 , 21 )) patˇr´ı mezi ˇreˇsen´ı PNEs. Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Algoritmick´a sloˇzitost ˇreˇsen´ı ”silou”
◮ ◮ ◮
Pro kaˇzd´e k ∈ K ˇreˇs´ıme Πi ∈Q |Ski | soustav P Pro vˇsechna k je to k∈K Πi ∈Q |Ski | soustav
U dvouhr´aˇcov´ych her jsou to soustavy line´ arn´ıch rovnic,
◮
u v´ıcehr´aˇcov´ych her pak soustavy neline´ arn´ıch rovnic (ponˇekud obt´ıˇzn´e).
◮
V´ypoˇcet Nashova equilibria je ve sloˇzitostn´ı tˇr´ıdˇe PPAD (2 a v´ıce hr´aˇc˚ u)
V´ıce: Daskalakis, C., Goldberg, P.W., Papadimitriou, Ch.: The Complexity of Computing a Nash Equilibrium, Proceedings of the thirty-eighth annual ACM symposium on Theory of computing
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Algoritmy pro MNE
Hled´ame algoritmy, kter´e by ˇreˇsily MNE efektivnˇeji, tzn. pˇrev´ad´ı probl´em v´ypoˇctu MNE na jin´y ekvivalentn´ı probl´em, kter´y ˇreˇs´ı efektivnˇeji. ◮
Lemke-Howson˚ uv algoritmus – pouze pro dvouhr´aˇcov´e hry, pouze jedno ekvilibrium
◮
Experimenty s genetick´ymi algoritmy.
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Simulaˇcn´ı (numerick´e) ˇreˇsen´ı her Chceme modelovat konkr´etn´ı strategickou situaci. ◮
Poˇc´ıtaˇcov´a simulace, numerick´ a metoda.
◮
Modelujeme fakt, ˇze existuje N hr´ aˇc˚ u.
◮
Modelujeme fakt, ˇze hr´ aˇci maj´ı mnoˇziny strategi´ı Si .
Jak ovˇsem vyj´adˇrit uˇzitkov´e funkce Ui : S → U 1. Funkce (zadan´e analyticky nebo matic´ı) povaˇzujeme za vstup. Nˇekdo n´am je d´a. D´ ale hru jenom analyzujeme. 2. Funkce nejsou vstupem. Jsme ovˇsem schopni sestavit vnitˇrn´ı model, kter´y vyhodnot´ı pro kaˇzd´y profil s ∈ S, co by se stalo, kdyby hr´aˇci hr´ali strategie si . V´ysledkem tohoto experimentu s vnitˇrn´ım modelem by byl vektor uˇzitk˚ u hr´ aˇc˚ u (ui )i ∈Q .
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Simulaˇcn´ı ˇreˇsen´ı her
Pak je kompletn´ı model d´ an f´ azemi: 1. Modelov´an´ı struktury hry – kdo jsou hr´ aˇci, jak´e maj´ı strategie, co v´ı o hˇre, ... 2. Tvorbou vnitˇrn´ıho modelu hry cm : S → UN . 3. Implementac´ı analytick´ych funkc´ı dle teorie her. Mˇejme pak program: for s in S: U[s] := cm(s); eq := nashEq(S,U);
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e
Pˇr´ıˇstˇe, kam to smˇeˇruje
◮
Prostudujeme hry s nulov´ym souˇctem
◮
Zavedeme metody line´ arn´ıho programov´ an´ı (matematick´y z´aklad her)
◮
Projdeme algoritmy v´ypoˇctu MNE v hr´ ach dvou hr´aˇc˚ u, obecn´y z´aklad
◮
Projdeme Nash˚ uv d˚ ukaz existence ekvilibria
◮
D´ale pak: opakov´ an´ı ve hˇre, kooperativnost, vyjedn´av´an´ı, aukce, volby, ...
Martin Hrub´ y
THE: Nekooperativn´ı hry v norm´ aln´ı formˇ e