THE: Dymick´e hry s ´uplnou informac´ı Dynamic Games (Extensive Form Games) Martin Hrub´y Brno University of Technology Brno Czech Republic
November 1, 2013
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Motivace ke zkoum´an´ı her Zp´atky na zaˇc´atek. Je tˇreba se vyrovnat s tˇemito fakty: ◮ TH se snaˇ z´ı studovat motivace v jedn´ an´ı lid´ı, jejich preference a moˇzn´e akce. Predikce jejich chov´ an´ı je aˇz sekund´arn´ı. ◮ NE je koncept chov´ an´ı, kter´y je univerz´ alnˇe platn´y. TH z nˇeho vych´az´ı v dalˇs´ıch zkoum´ an´ıch. Nekooperativn´ı hry s nenulov´ym souˇctem jsou z´ aklad strategick´ych model˚ u (jsou dalˇs´ı aplikace). ◮ Existuj´ ı ot´azky nad smyslem MNE a jeho ˇreˇsen´ım. ◮ Existuj´ ı lid´e, kteˇr´ı nad MNE definuj´ı sv´e probl´emy. Jin´ı lid´e se soustˇred´ı na v´ypoˇcet MNE. ◮ MNE je algoritmicky t´ emˇeˇr neˇreˇsiteln´y probl´em. Kamal Jain (Microsoft research): ”Kdyˇz tv˚ uj notebook nenajde ˇreˇsen´ı nˇejak´e situace na trhu, nenajde ho ani trh”. Pokud trh funguje, mus´ı pro nˇej existovat i jeho simulaˇcn´ı model. Tuˇs´ıme, ˇze nˇekde mus´ı existovat ten algoritmus, ale st´ ale ho hled´ame. Zat´ım prezentujeme dosaˇzen´e v´ysledky. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Demo: dopravn´ı model Jet do pr´ace cestou a nebo b? Kdyˇz pojedou stejnou, cestovn´ı doba se prot´ahne. Petr/Jan a b
a -10,-10 -1,-5
b -5,-1 -20,-20
PNE = {(a, b), (b, a)}, MNE = (( 85 , 38 ), ( 58 , 38 )), π(MNE ) = −8.125 Jak interpretovat dvˇe moˇzn´ a PNE? Jak Petr pˇresvˇedˇc´ı Jana k (b, a)? Kooperace.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Motivace ke zkoum´an´ı her ◮
◮
Uk´aˇzeme si dalˇs´ı koncepty NE, tzv. refinements (zpˇresnˇen´ı), ale i zobecnˇen´ı. Univerz´aln´ı ˇreˇsen´ı v´ypoˇctu MNE neexistuje, ukazujeme principy. ◮
◮
◮ ◮
Metody a n´astroje pro nalezen´ı ”vˇsech” ekvilibri´ı jsou podezˇrel´e. Obvykle pracuj´ı ve vymezen´e skupinˇe her.
Program gambit. MNE je jednoznaˇcnˇe definovan´y koncept. Hled´ame jeho algoritmick´e ˇreˇsen´ı.
Re´aln´e modely zaloˇzen´e na TH: ◮ ◮
◮
Obecnˇe je TH vn´ım´ ano jako ”vˇeda, do kter´e m´alokdo vid´ı”. Re´aln´ych model˚ u je m´ alo. Ovˇsem nen´ı ˇspatn´e se nauˇcit takto modelovat. Rozbor jednoho re´ aln´eho modelu bude pod´ an koncem semestru. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
ˇ sen´ı re´aln´ych model˚ Reˇ u ◮
M´ame re´alnou situaci a chceme napsat jej´ı (napˇr. poˇc´ıtaˇcov´y) model. Napˇr´ıklad proto, ˇze ho nˇekdo chce.
◮
Stanov´ıme hr´aˇce, strategie, preference, uˇzitky a hled´ame ˇreˇsen´ı.
◮
Jistˇe se v urˇcit´em okamˇziku dostaneme do stavu, kdy nˇejakou formu ekvilibria mus´ıme vypoˇc´ıtat.
◮
Disponujeme obecn´ymi hernˇe-teoretick´ymi principy: dominance, best-response, ekvivalence her.
◮
Pokud je hra velk´ a, mus´ı existovat metody jej´ı redukce na menˇs´ı (m´enˇe strategi´ı, m´enˇe strategick´ych hr´ aˇc˚ u).
◮
Pokud hled´ame ˇreˇsen´ı, je v heuristik´ ach. Je to obecn´y postup v UI: generovat stavov´y prostor a v nˇem hledat ˇreˇsen´ı. V pˇr´ıliˇs velk´em stavov´em prostoru hled´ ame heuristiky, kter´e n´am prostor redukuj´ı. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
´ Dneˇsn´ı t´ema: sekvenˇcn´ı hry. Uvod ˇ ano z: Cerp´ ◮
Myerson, R. B.: Game theory: Analysis of Conflict, Harvard University Press, 2004
◮
Osborne, M., Rubinstein, A.: A Course in Game Theory, MIT Press
◮
Rasmunsen, E.: Games and Information: An Introduction to Game Theory, Blackwell Publishing, 2007
◮
McCarthy, N., Mierowitz, A.: Political Game Theory, Cambridge University Press, 2007
◮
Basar, T., Olsder, G.J.: Dynamic Noncooperative Game Theory , Society For Industrial And Applied Mathematics, 1999
◮
Magdal´ena Hykˇsov´ a: Pˇredn´ aˇsky z teorie her, Fakulta dopravn´ı ˇ CVUT Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Pˇripomenut´ı statick´ych her Hry v norm´aln´ı formˇe (statick´e hry). ◮
Hr´aˇc strategicky prom´yˇsl´ı moˇzn´e tahy svoje a protivn´ıka.
◮
Asi by mu hodnˇe usnadnilo pˇrem´yˇslen´ı, kdyby vˇedˇel, co protivn´ık bude t´ahnout.
◮
Kdyby se mu podaˇrilo (tajnˇe) vyzvˇedˇet (v ˇcase libovolnˇe bl´ızk´em uz´avˇerce rozhodov´ an´ı), co protihr´ aˇc odevzdal za rozhodnut´ı tomu pomyslen´emu nez´ avisl´emu arbitrovi, tak t´ahne velmi efektivnˇe.
◮
Ve statick´ych hr´ach toto nepˇripouˇst´ıme.
V sekvenˇcn´ıch hr´ach pˇredpokl´ ad´ ame, ˇze se hr´ aˇci stˇr´ıdaj´ı v taz´ıch a tuto skuteˇcnost si uvˇedomuj´ı. Pˇresnˇejˇs´ı n´ azev je ovˇsem hry v rozˇs´ıˇren´e formˇe – rozˇs´ıˇren´ı nen´ı pouze v sekvenˇcnosti.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Stackelberg˚ uv model duopolu/oligopolu Heinrich Freiherr von Stackelberg: Market Structure and Equilibrium (Marktform und Gleichgewicht) in 1934 ◮
◮
◮
◮
◮
◮
Bertrand˚ uv a Cournot˚ uv model pˇredpokl´ ad´ a norm´aln´ı pˇr´ıstup ke hˇre. Hr´aˇci jsou (pˇribliˇznˇe) stejnˇe siln´ı. Tento pˇredpoklad neodpov´ıd´ a mnoh´ym re´ aln´ym situac´ım s jedn´ım extr´emnˇe siln´ym hr´ aˇcem (v˚ udcem, leader) a skupinou slabˇs´ıch hr´aˇc˚ u (n´asledovn´ık˚ u, followers). St´ale douf´ame, ˇze vˇsichni hr´ aˇci jsou sv´ym rozhodnut´ım schopni ovlivnit cenu produktu (tzn. nen´ı to monopol). Vznikaj´ı ovˇsem dvˇe role a dvˇe podoby (odliˇsn´eho) chov´an´ı: v˚ udce a n´asledovn´ıci. V˚ udce: je si vˇedom sv´eho postaven´ı. V´ı, ˇze n´asledovn´ıci se budou inspirovat jeho rozhodnut´ım. N´asledovn´ıci: ˇcekaj´ı na rozhodnut´ı v˚ udce, pak se pˇrizp˚ usob´ı.
Z principu tohoto rozloˇzen´ı sil neprobˇehne hra v jednom tahu, ale ve dvou. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Stackelberg˚ uv model oligopolu Pˇr´ıklady ze ˇzivota: ◮
◮
◮
Pˇredpoklad: pohybujeme se v syst´emu s nedokonalou konkurenc´ı. ˇ CEZ ˇ V´yroba silov´e elektˇriny v CR: – v˚ udce, IPP (Independent Power Producers) – n´ asledovn´ıci. ˇ IPP ˇcekaj´ı na cenov´e rozhodnut´ı CEZu, pak nastav´ı cenu za MWh o tˇri CZK niˇzˇs´ı.
◮
IPP tud´ıˇz svou produkci vˇzdy prodaj´ı (o 3 CZK/MWh levnˇeji).
◮
V˚ udce si tuto skuteˇcnost uvˇedomuje a zahrnuje ji do sv´eho rozhodov´an´ı.
R˚ uzn´e pˇr´ıstupy v situac´ıch, kdy je n´ asledovn´ık˚ u v´ıce (v´ıcehr´aˇcovo Stackelbergovo ekvilibrium, ...).
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Princip zpˇetn´e indukce, zat´ım neform´alnˇe Backward induction. ◮
◮
V˚ udce tedy nem˚ uˇze nechat vyp˚ usobit n´ asledovn´ıky a pak se rozhodnout (oni pr´ avˇe ˇcekaj´ı na jeho tah). V˚ udce experimentuje s moˇznou reakc´ı n´ asledovn´ık˚ u a hled´a strategii, kter´a mu pˇrinese maxim´ aln´ı zisk ◮ ◮ ◮
◮
Ta strategick´a ´ uvaha je na v˚ udci. N´asledovn´ıci pouze zareaguj´ı na tah v˚ udce. Pˇredpokl´ad´ame (i v˚ udce pˇredpokl´ad´a), ˇze n´asledovn´ıci pot´ahnou BR.
Zpˇetn´a indukce vede k NE, je to ovˇsem podmnoˇzina moˇzn´ych PNE, kde nejsou zahrnuty iracion´ aln´ı varianty (hrozby).
Pozn.: M˚ uˇzeme zav´est komplikovanˇejˇs´ı chov´ an´ı, jako napˇr´ıklad syst´em v˚ udce versus oligopolistick´e chov´ an´ı n´ asledovn´ık˚ u. Pozn.: Takov´a perliˇcka - Unexpected hanging paradox. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Stackelberg˚ uv model oligopolu: design modelu Model je v mnoˇzstevn´ıch strategi´ıch. Firma 1 zvol´ı mnoˇzstv´ı q1 ≥ 0, Firma 2 to sleduje, zhodnot´ı a vol´ı q2 ≥ 0. V´yplata firmy i je pak urˇcena ui (qi , qj ) = qi [P(q) − c] kde P(q) = M − q, q = q1 + q2 . c jsou v´yrobn´ı n´aklady; P(q) je cena na trhu pˇri dodan´em mnoˇzstv´ı q. R1 , R2 budou rozhodnut´ı firem o mnoˇzstevn´ı strategii.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Zopakujme ui (qi , qj ) = qi [P(q) − c]. Backwards-induction: R2 (q1 ) : max u2 (q1 , q2 ) = max q2 [M − q1 − q2 − c] q2 ≥0
q2 ≥0
Hled´ame tedy maximum funkce s promˇennou q2 . Matematick´a anal´yza: vyˇsetˇrov´an´ı extr´em˚ u funkc´ı. Hled´ame extr´em: ∂f∂q(q22 ) ; f (q2 ) = q2 M − q2 q1 − q22 − cq2 Bod extr´emu: M − q1 − 2q2 − c = 0 M − q1 − c ; q1 < M − c 2 R2 (q1 ) je analyticky vyj´ adˇren´e mnoˇzstevn´ı rozhodnut´ı n´asledovn´ıka vztaˇzen´e k rozhodnut´ı v˚ udce. V˚ udce v´ı, ˇze takto se rozhodne n´asledovn´ık a s t´ımto vˇedom´ım vol´ı jeho optim´ aln´ı strategii. q2 = R2 (q1 ) =
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
[q1 ≥ 0] max u1 (q1 , R2 (q1 )) =
max q1 [M − q1 − R2 (q1 ) − c] max q1 (M − q1 − c)/2 1 1 1 f (q1 ) = q1 M − q12 − q1 c 2 2 2 1 1 1 M − 2 q1 − c = 0 2 2 2 M − 2q1 − c = 0
M −c M −c ; q2∗ = R2 (q1∗ ) = 2 4 M−c M−c ∗ ∗ ∗ . Ekvilibrium je q = (q1 , q2 ) = 2 , 4 q1∗ =
Pokud tedy v˚ udce dod´ a na trh jin´e (napˇr. vˇetˇs´ı) mnoˇzstv´ı neˇz M−c 2 , rozhodnˇe jeho zisk bude niˇzˇs´ı. Jako dom´ ac´ı cviˇcen´ı toto provˇeˇrte. To sam´e plat´ı pro n´asledovn´ıka. N´ asledovn´ık ovˇsem m´a vˇzdy moˇznost volit BR a tuto volbu t´ ahnout. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Modely oligopolu Zn´ame jiˇz tˇri pohledy na vˇec: ◮
Cournot – oligopol v mnoˇzstevn´ıch strategi´ıch, statick´a hra.
◮
Bertrand – oligopol v cenov´ych strategi´ıch, statick´a hra.
◮
Stackelberg – oligopol v mnoˇzstevn´ıch strategi´ıch, sekvenˇcn´ı hra.
Tyto modely jsou common knowledge pro kaˇzd´eho hern´ıho teoretika. Dnes v´ıme, ˇze se hr´aˇci nenechaj´ı strhnout k cenov´e hˇre, kter´a m˚ uˇze v´est k cenov´e v´alce. Po cenov´e v´ alce je totiˇz rozloˇzen´ı vlivu na trhu pˇribliˇznˇe podobn´e, jako na zaˇc´ atku, pouze hr´aˇci m´enˇe trˇz´ı.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Princip zpˇetn´e indukce Pedro/Juana Opera Fotbal
Opera 3,2 0,0
Fotbal 0,0 2,3
Pedro t´ahne prvn´ı. V´ı, ˇze Juana zvol´ı BR. Proto se pod´ıv´a, co by byly ty BR (Oo, Ff). Z moˇznost´ı (Oo,Ff) vol´ı Oo. ˇ ım to, ˇze je tu naprosto jasn´e unik´ C´ atn´ı PNE? Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Poˇrad´ı tah˚ u Je v´yhodn´e t´ahnout prvn´ı? Pˇr´ıklad s poslanci: Poslanci chtˇej´ı odhlasovat z´ akon o zv´yˇsen´ı sv´ych plat˚ u. Zv´yˇsen´ı pˇrinese kaˇzd´emu poslanci individu´ aln´ı uˇzitek b ≥ 0, ovˇsem poslanec hlasuj´ıc´ı ”pro” sn´ıˇz´ı u vˇeˇrejnosti svou popularitu, coˇz odpov´ıd´a ztr´atˇe c ≥ 0 (naˇstˇest´ı b > c). Poslanci jsou tˇri, k odhlasov´an´ı z´akona potˇrebujeme dva hlasy pro. K hlasov´an´ı pˇristupuj´ı sekvenˇcnˇe a hlasov´ an´ı je veˇrejn´e. Kdo p˚ ujde prvn´ı? ◮
ˇ ek bez znalosti THE by se moˇzn´ Clovˇ a ost´ychal jako prvn´ı hlasovat o tak choulostiv´e vˇeci veˇrejnˇe.
◮
Je evidentn´ı, ˇze z´ akon projde.
◮
Pokud budu m´ıt to ˇstˇest´ı, ˇze budu moci j´ıt hlasovat prvn´ı, radostnˇe budu hlasovat ”proti” s pˇrid´ an´ım nˇejak´e z´asadn´ı ˇreˇci o nestoudn´ych mzdov´ych poˇzadavc´ıch nˇekter´ych poslanc˚ u. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Poˇrad´ı tah˚ u
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Studie v diskr´etn´ıch strategi´ıch Mˇejme kolonii K a imperialistu I . Kolonie m´ a na sv´em u ´zem´ı ropn´y vrt, kter´y nese 4 jednotky zisku. Nav´ıc kolonie plat´ı 2 jednotky dan´ı imperialistovi. ◮
Kolonie m´a strategie SK = {R, C }, revoltovat (R) nebo pokraˇcovat v poddanstv´ı (C).
◮
V pˇr´ıpadˇe, ˇze kolonie bude revoltovat, imperialista m˚ uˇze povolit kolonii nez´ avislost (G) nebo revoluci potlaˇcit (S) – zp˚ usobil by v´alku.
◮
V pˇr´ıpadˇe, ˇze kolonie bude posluˇsnˇe pokraˇcovat, imperialista m˚ uˇze vyb´ırat danˇe (T) nebo zruˇsit danˇe (E). p ∈ h0, 1i nechˇt je pravdˇepodobnost, ˇze by kolonie vyhr´ala v´alku za nez´avislost.
◮
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Studie: kolonie versus imperialista
Uˇzitek ve hˇre: ◮
Ropa nese zisk 4 jednotky (tzn. 0 tomu druh´emu).
◮
Revoluce stoj´ı 1, pokud imperialista nezakroˇc´ı, jinak obˇe strany stoj´ı 6 (v´alka).
◮
Danˇe nesou 2 jednotky imperialistovi (tzn. -2 kolonii).
Studujme zat´ım situaci formou statick´e hry. Imperialista m´ a dvˇe sub-rozhodnut´ı, kter´e v r´ amci strategie ve statick´e hˇre mus´ıme slouˇcit: {G , S} × {T , E } = {GT , GE , ST , SE }.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Studie: kolonie versus imperialista K/I R
GT 3, 0
GE 3, 0
C
−2, 6
0, 4
ST −6 + 4p − 2(1 − p), −6 + 6(1 − p) −2, 6
SE −6 + 4p, −6 + 4(1 − p) 0, 4
Strategick´y rozbor situace, pro r˚ uzn´ a p: K/I p = 0 R C K/I p = 1 R C
GT 3, 0 −2, 6 GT 3, 0 −2, 6
GE 3, 0 0, 4 GE 3, 0 0, 4
ST −8, 0 −2, 6 ST −2, −6 −2, 6
SE −6, −2 0, 4 SE −2, −6 0, 4
Se zvyˇsuj´ıc´ım se p se evidentnˇe zvˇetˇsuje nutk´ an´ı (incentive) kolonie k rebelii (a souˇcasnˇe imperialista racionalnˇe vol´ı podporu nez´avislosti). Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Kolonie versus imperialista: Dynamick´y pˇr´ıstup Statick´y pˇr´ıstup nen´ı pˇrirozen´y (navrhuje ekvilibria, kter´a jsou sekvenˇcnˇe iracion´aln´ı). Hru velmi dobˇre rozhodne sekvenˇcn´ı pˇr´ıstup. K R-revolta C-pokracuje I
I
G-nezavis. S-potlaceni 3,0
4p-6-2(1-p),6(1-p)-6
Martin Hrub´ y
T-dane -2,6
E-zrusit-dane 0,4
Dynamick´ e hry s u ´plnou informac´ı
Kolonie versus imperialista: Dynamick´y pˇr´ıstup p=0
p=
K R
G 3,0
1 2
K C
R
I
I
S
T
-8,0
-2,6
E
I
I
S
T
-5,-3
-2,6
G 0,4
3,0
C
E
K R
G
p=1
3,0
Martin Hrub´ y
C
I
I
S
T
-2,-6
-2,6
E 0,4
Dynamick´ e hry s u ´plnou informac´ı
0,4
D˚ uveryhodn´a/ned˚ uveryhodn´a hrozba Credible/Incredible threat. Uvaˇzujme situaci, kdy hr´ aˇc A pˇrijde k hr´ aˇci B s t´ım, ˇze m´a bombu a pokud mu B ned´a jist´y obnos (nem´ a smysl zkoumat jeho v´yˇsi), tak bombu odp´al´ı (zp˚ usob´ı smrt A i B). Hr´aˇc B oˇcek´av´a u A racionalitu a zkoum´ a, zda-li je hrozba ”odp´alit” d˚ uvˇeryhodn´a. Oˇcek´ av´ a, ˇze A je racion´ aln´ı (d´a pˇrednost ˇzivotu). Pak nem´a smysl hr´ at strategii ”Odevzdat”. Paradoxnˇe, vˇetˇsina lid´ı vˇsak pen´ıze zaplat´ı. Hr´aˇc zkoum´a, zda-li m´ a racion´ alnˇe zahrnout hrozbu protivn´ıka do sv´eho rozhodov´an´ı (st´ale pˇredpokl´ ad´ a racionalitu protivn´ıka). Ned˚ uvˇeryhodnou hrozbu hr´ aˇc ohlaˇsuje (signalizuje), pokud douf´a, ˇze ji nebude muset naplnit. Aby se hrozba stala d˚ uvˇeryhodnout, hr´aˇc mnohdy sobˇe zp˚ usob´ı ˇskodu (p´ alen´ı lod´ı). Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
D˚ uveryhodn´a/ned˚ uveryhodn´a hrozba
A/B top bottom
left 2,1 1,2
right 0,0 1,2
◮
PNE: (top,left), (bottom, right)
◮
Ikdyˇz je right slabˇe dominovan´ a strategi´ı left, pˇresto nen´ı iracion´aln´ı. Tvoˇr´ı hrozbu.
◮
Mus´ı se vˇsak A ob´ avat right?
◮
Ve statick´e hˇre sloupcov´y vol´ı left.
◮
Sekvenˇcn´ı chov´an´ı m˚ uˇze potlaˇcit vliv hrozby.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Informace ve hˇre ◮
◮
◮ ◮
Hry s u ´plnou/ne´ uplnou informac´ı (complete/incomplete) – hr´aˇc˚ um je zn´ama/nezn´ ama struktura hry (hr´ aˇci, strategie, zisky). Hry s dokonalou/nedokonalou informac´ı (perfect/imperfect) – hr´aˇc˚ um je zn´ama historie hry. N´as budou zaj´ımat hry s u ´plnou informac´ı. D´ale budeme zkoumat perfektnost/imperfektnost informace.
Hry proti pˇr´ırodˇe – prvn´ı tah m´ a pˇr´ıroda (zdroj nedokonalosti v informaci). Historie znamen´a informaci o aktu´ aln´ım uzlu ve stromu hry. Pokud je znalost uzlu jist´a (informaˇcn´ı mnoˇzina je jednoprvkov´a – singleton), pak je perfektn´ı informace. Nejistotu modelujeme v´ıceprvkovou informaˇcn´ı mnoˇzinou. Perfect recall – hr´aˇc je schopen si pamatovat vlastn´ı tahy. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Informace ve hˇre - hra s nedokonalou informac´ı Pr´azdn´e koleˇcko uprostˇred, prvn´ı t´ ahne pˇr´ıroda a vol´ı typ hr´aˇce 1.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Definice sekvenˇcn´ı hry (Extensive Form Game) Definition Koneˇcn´a sekvenˇcn´ı hra s perfektn´ı informac´ı ΓE je ˇctveˇrice (Q, H, p, U), kde: ◮ ◮
◮
◮
Q je mnoˇzina hr´aˇc˚ u, H je mnoˇzina histori´ı (kontext˚ u, uzl˚ u). H T oznaˇcuje mnoˇzinu 0 termin´aln´ıch histori´ı. H = ∅ oznaˇcuje poˇc´ ateˇcn´ı uzel. p(h) : H \ H T → Q pˇriˇrazuje kaˇzd´e netermin´ aln´ı historii h hr´aˇce, kter´y je aktu´ alnˇe na tahu. U je vektor uˇzitkov´ych funkc´ı Ui (h) : H T → R1 pro vˇsechny i ∈ Q.
Pozn.: Mininum pro definici hry s perfektn´ı informac´ı je (Q, H, p). Pozn.: Zavedeme: A(h) je mnoˇzina akc´ı pro kaˇzd´e h ∈ H \ H T , tzn. mnoˇzina provediteln´ych akc´ı po dosaˇzen´ı historie h. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Co je ta historie? Budeme cht´ıt vyj´adˇrit, ˇze hr´ aˇc nev´ı, v jak´em stavu (uzlu) stromu je. ◮
Historie h ∈ H je sekvence akc´ı (ak )k=1,... , kde kaˇzd´a akce aj pˇredstavuje tah hr´ aˇce
◮
Pr´azdn´a sekvence je H 0 , poˇc´ atek hry.
◮
Je-li (ak )k=1,...,K ∈ H (K ∈ N) a L < K , pak (ak )k=1,...,L ∈ H.
◮
Kaˇzd´y prvek h ∈ H se naz´yv´ a historie, kaˇzd´ a sloˇzka h se naz´yv´a akce.
Mnoˇzina H d´av´a pˇredstavu o zp˚ usobu hran´ı hry, je to mnoˇzina vˇsech cest od poˇc´atku k libovoln´emu uzlu stromu hry. Pˇredpokl´ad´ame tedy, ˇze v h = (ak )k=1,...,K , j ∈ {1, ..., K } t´ahl v j-t´em okamˇziku hr´aˇc p(h′ ) akci aj , kde h′ = (ak )k=1,...,j−1 .
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Co je ta historie?
◮
Je-li H koneˇcn´a mnoˇzina, je i pˇr´ısluˇsn´ a hra koneˇcn´a.
◮
Je-li nejdelˇs´ı prvek h ∈ H koneˇcnˇe dlouh´y, m´ a hra koneˇcn´y horizont.
◮
Je-li h histori´ı d´elky k, pak (h, a) je histori´ı d´elky k + 1. Skl´ad´a se pak z h n´ asledovan´eho a.
◮
Z toho plyne definice A(h) = {a|(h, a) ∈ H}.
Zpˇetn´a indukce m˚ uˇze b´yt pouˇzita pouze na koneˇcn´e hry.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Informaˇcn´ı mnoˇziny typu I ⊆ H \ H T
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Informaˇcn´ı mnoˇziny typu I ⊆ H \ H T Mˇejme rozklad (relace, kter´ a je reflexivn´ı, symetrick´a a tranzitivn´ı) na mnoˇzinˇe H \ H T , tzn. mnoˇzinu mnoˇzin, kter´e dohromay tvoˇr´ı H \ HT . ◮
Jednu informaˇcn´ı mnoˇzinu budeme oznaˇcovat I .
◮
Z principu relace ”rozklad na mnoˇzinˇe” plyne, ˇze kaˇzd´a h ∈ H je pr´avˇe v jedn´e mnoˇzinˇe rozkladu.
◮
je-li h ∈ I , pak je hr´ aˇc p(h) nejist´y, zda-li je v uzlu h nebo v jin´em h′ ∈ I .
◮
∀h, h′ ∈ I : p(h) = p(h′ ).
◮
jsou-li vˇsechny I jednoprvkov´e, pak je hra s dokonalou informac´ı (perfect information), jinak nedokonalou (imperfect)
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
H, I
H = {(), (O), (F )} ∪ H T H T = {(O, o), (O, f ), (F , o), (F , f )} p(()) = 1, p((O)) = p((F )) = 2, A(()) = {O, F } Is = {{∅}, {O}, {F }}
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
H, I
Is = {{∅}, {O, F }} Pozn.: Hr´aˇc 2 ve sv´em okamˇziku tahu nev´ı, co hr´ al protivn´ık (v jak´em je on uzlu). Fakticky to odpov´ıd´ a situaci hry v norm´aln´ı formˇe.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Definice sekvenˇcn´ı hry: co je strategie?
V sekvenˇcn´ıch hr´ach je strategi´ı kompletn´ı pl´ an hry od poˇc´ateˇcn´ı historie (poˇc´atku) aˇz po termin´ aln´ı historii. Tedy, je to cel´a cesta stromem aˇz po listov´y uzel. Tady je zˇrejm´ a pˇrevoditelnost se statick´ymi hrami.
Definition Mˇejme hru ΓE . Nechˇt Hi = {h ∈ H|p(h) = i }. Mnoˇzina strategi´ı hr´aˇce i ∈ Q je d´ana Si = ×h∈Hi A(h) Pozn.: A(h) jsou mnoˇziny!
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Strategick´y profil, pˇrevod na statickou hru
Strategick´y profil definujeme obvykl´ym zp˚ usobem jako s ∈ S, S = ×i ∈Q Si . Pro kaˇzdou sekvenˇcn´ı hru ΓE = (Q, H, p, U) m˚ uˇzeme definovat S s s s statickou hru Γ = (Q ; (Si ); (Ui )) tak, ˇze ◮
Qs = Q
◮
Sis = Si , ∀i ∈ Q
◮
Uis (s) = Ui (h), s ∈ S s a h je historie odpov´ıdaj´ıc´ı postupn´emu proveden´ı sekvenˇcn´ı hry se strategiemi hr´ aˇc˚ u (si )i ∈Q .
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Nashovo ekvilibrium
Bez vˇetˇs´ıho pˇrekvapen´ı definujeme Nashovo ekvilibrium v sekvenˇcn´ı hˇre:
Definition Mˇejme sekvenˇcn´ı hru s dokonalou informac´ı ΓE . Strategick´y profil s ∗ nazveme Nashovo ekvilibrium, pokud plat´ı pro vˇsechny hr´aˇce i ∈ Q: ∗ ∗ Ui (si∗ , s−i ) ≥ Ui (si , s−i ) ∀si ∈ Si
Bylo uˇz ˇreˇceno, ˇze NE v sekvenˇcn´ıch hr´ ach ned´ av´ a dobr´e v´ysledky.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Zermel˚ uv teor´em
Theorem Kaˇzd´a koneˇcn´a hra dokonal´e informace m´ a PNE, kter´e je dosaˇziteln´e zpˇetnou indukc´ı. Pokud ˇz´adn´y hr´aˇc nem´ a v ˇz´ adn´ych dvou termin´ aln´ıch histori´ıch stejn´e uˇzitky, je ve hˇre pouze jedno PNE.
Garance existence PNE!
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Podhra, subgame Chceme vyˇsetˇrovat podstromy sekvenˇcn´ı hry. Za jist´ych okolnost´ı se lze koncentrovat na podhru a vyˇreˇsit tuto ˇc´ ast oddˇelenˇe od zbytku hry (je to z´aklad backward induction).
Definition Podhra zadan´e sekvenˇcn´ı hry s dokonalou informac´ı ΓE ve stavu h je sekvenˇcn´ı hra s dokonalou informac´ı ΓE (h) = (Q, H|h , p|h , U|h ), kde ◮
H|h = {h′ |(h, h′ ) ∈ H}
◮
p|h (h′ ) = p(h, h′ ) pro kaˇzdou h′ ∈ H|h .
◮
U|h (h′ ) = U(h, h′ ) pro kaˇzdou h′ ∈ (H T ∩ H|h ).
Ze stromu hry vyextrahuju podstrom zaˇc´ınaj´ıc´ı histori´ı h. Ve hr´ach s nedokonalou informac´ı bude definice podhry sloˇzitˇejˇs´ı. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Subgame Perfect Nash Equilibrium (SPNE) Reinhard Selten, 1975, IJGT (International Journal on Game Theory)
Definition Mˇejme sekvenˇcn´ı hru s dokonalou informac´ı ΓE . Strategick´y profil s ∗ nazveme u ´pln´y rovnov´ aˇzn´y bod (SPNE), pokud pro kaˇzd´eho hr´aˇce i ∈ Q a kaˇzdou historii h ∈ H \ H T , kde p(h) = i plat´ı ∗ ∗ Ui |h (si∗ |h , s−i |h ) ≥ Ui |h (si |h , s−i |h )
pro vˇsechny strategie si |h hr´ aˇc˚ u i v podhˇre ΓE (h). Jinak ˇreˇceno, profil s ∗ je SPNE, pokud zv´ıtˇez´ı jako NE v kaˇzd´e podhˇre hry. SPNE je refinement (zpˇresnˇen´ı) NE. Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Pˇr´ıklad SPNE Uvaˇzujme hru, kde druh´y hr´ aˇc signalizuje hrozbu, ˇze pokud prvn´ı zahraje R, tak on zahraje U. Souˇcasnˇe vid´ıme dvˇe PNE ((L, UU), (R, UK )) a zjemnˇen´ı na SPNE.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Existence SPNE
Theorem Kaˇzd´a koneˇcn´a sekvenˇcn´ı hra m´ a SPNE. Nav´ıc, pokud ˇza´dn´y hr´aˇc nen´ı indiferentn´ı mezi libovoln´ymi dvˇema termin´ aln´ımi historiemi, pak je SPNE unik´atn´ı.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Solution Concepts
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
SPNE ve hr´ach s kompletn´ı, ale nedokonalou informac´ı
◮
Uvaˇzujme, ˇze hra m´ a nedokonalou informaci, tzn. existuje informaˇcn´ı mnoˇzina, kter´ a je v´ıceprvkov´ a (obsahuje v´ıc histori´ı) tak, ˇze dan´y hr´ aˇc nev´ı, v jak´em konkr´etn´ım uzlu se nach´az´ı.
◮
Neplat´ı to nejsp´ıˇs pro vˇsechny uzly a historie, takˇze m´ame informaˇcn´ı hybrid – v nˇekter´ych uzlech m´ a hr´aˇc jistotu, v nˇekter´ych ne.
◮
Pokud hr´aˇc ˇcel´ı nejistotˇe ve vˇsech uzlech (okamˇzic´ıch tahu), pak je hra ekvivaletn´ı se statickou hrou.
◮
Koncept SPNE je uplatniteln´y, mus´ıme vˇsak modifikovat definici podhry pro situaci hry s kompletn´ı, ale nedokonalou informac´ı.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Podhra ve hˇre s kompletn´ı, ale nedokonalou informac´ı
Podhra je opˇet hra v rozˇs´ıˇren´e formˇe ΓE (h). Mus´ı platit: ◮
Mus´ı zaˇc´ınat v uzlu (historii), kter´ a je v jednoprvkov´e informaˇcn´ı mnoˇzinˇe.
◮
Obsahuje vˇsechny uzly n´ asleduj´ıc´ı tento poˇc´ ateˇcn´ı uzel a ˇz´adn´e jin´e.
◮
Nenaruˇsuje ˇz´adnou informaˇcn´ı mnoˇzinu. Pokud jsou dvˇe historie h a h′ v jedn´e informaˇcn´ı mnoˇzinˇe, pak jsou spolu i v podhˇre.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Podhra ve hˇre s kompletn´ı, ale nedokonalou informac´ı Tˇri hr´aˇci, kaˇzd´y m´a strategie {L, M, R}. Hr´ aˇc 1 m´a jednu informaˇcn´ı mnoˇzinu, hr´ aˇc 2 m´ a dvˇe – {{(L)}, {(M), (R)}}, hr´aˇc 3 m´a ˇctyˇri informaˇcn´ı mnoˇziny.
Hra m´a tedy tˇri podhry: 1) origin´ aln´ı hra, 2) podhra tvoˇren´a histori´ı (L), 3) podhra tvoˇren´ a histori´ı (L, R)
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Opakovan´e hry
◮
Opakovan´a hra je pˇr´ıpad hry v rozˇs´ıˇren´e formˇe (sekvenˇcn´ı hry), kter´a sest´av´ a z koneˇcn´eho/nekoneˇcn´eho opakov´an´ı tzv. z´akladn´ı hry (stage game).
◮
V opakovan´ych hr´ ach (specificky v tˇech nekoneˇcnˇe opakovan´ych) je racion´ aln´ı hr´ at spoleˇcensky optim´aln´ı profil, kter´y se m˚ uˇze znaˇcnˇe liˇsit od NE.
◮
V opakovan´ych hr´ ach s koneˇcn´ym (a pˇredem zn´am´ym) poˇctem opakov´an´ı je racion´ aln´ı hr´ at v posledn´ı hˇre NE a v pr˚ ubˇehu ten koncept (NE, soci´ alnˇe optim´ aln´ı profil), kter´y je v´yhodnˇejˇs´ı s vˇedom´ım budouc´ıho opakov´ an´ı hry. (pˇr. chain-store paradox)
◮
Koneˇcnˇe-opakovan´e hry lze ˇreˇsit zpˇetnou indukc´ı.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı
Pˇr´ıˇstˇe
◮
Kooperativn´ı hry a vyjedn´ av´ an´ı.
◮
Opakovan´e hry a Korelovan´e ekvilibrium.
◮
Mechanism design.
Martin Hrub´ y
Dynamick´ e hry s u ´plnou informac´ı