Funkce více proměnných: 3. Lokální extrémy Definice lokálního extrému se zcela přirozeně přenese do více rozměrů. Definice. Nechť f je funkce definovaná na nějakém okolí bodu ~a ∈ IRn . Řekneme, že f má v ~a lokální maximum nebo že f (~a) je lokální maximum, jestliže existuje okolí U = U (~a) takové, že f (~a) ≥ f (~x) pro všechna x ∈ U . Řekneme, že f má v ~a lokální minimum nebo že f (~a) je lokální minimum, jestliže existuje okolí U = U (~a) takové, že f (~a) ≤ f (~x) pro všechna x ∈ U . Obrázek níže pro případ dvou proměnných ukazuje vlevo dvě lokální maxima a vpravo jedno lokální minimum. z
y x Podobně si to představujeme ve více dimenzích. Lokální maximum má vlastnost, že když skrze něj řízneme graf v libovolném směru (čímž se z toho stane situace funkce jedné proměnné), tak tam pořád máme lokální maximum v klasickém významu. Obdobná vlastnost platí pro lokální minimum. Existuje ještě jeden zajímavý typ chování, který na obrázku vidíme mezi oněmi dvěma kopci. Pokud tam graf řízneme svislou rovinou ve směru vedoucím mezi vrcholy, pak v tom údolíčku mezi nimi vidíme na řezu lokální minimum. Když ale řízneme graf ve směru kolmém, tak v tom údolí uvidíme na řezu lokální maximum. Takovýmto bodům říkáme sedlo či sedlový bod a při zkoumání extrémů se také připlétají do hry, takže se běžně berou jako součást zkoumání extrémů.
Jak lokální extrémy najdeme? Postup je obdobný vyšetřování lokálních extrémů pro funkce jedné proměnné. Zhruba řečeno, nejprve najdeme kandidáty pomocí první derivace, pak je posoudíme pomocí druhé. Když graf řízneme libovolnou svislou rovinou skrz nějaký lokální extrém, bude extrém i na řezu, tedy derivace v tomto směru musí být nulová. Jestliže mají být všechny směrové derivace nulové, pak musí být nulový (jako vektor) i gradient. Jiná úvaha: V lokálním extrému je tečná nadrovina vodorovná, musí tedy mít nor∂f ∂f málový vektor svislý. Normálový vektor je ovšem ∂x (~a), . . . , ∂x (~a), −1 a ten je 1 n ∂f ~ svislý, pokud ∂xi (~a) = 0 pro všechna i neboli ∇f (~a) = 0. Věta. Nechť f je funkce definovaná na nějakém okolí bodu ~a ∈ IRn . Jestliže má f v ~a lokální extrém, pak ∇f (~a) = ~0, pokud gradient v ~a existuje. 1
Bodům, kde ∇f (~x) = ~0, říkáme stacionární body. Najdeme je při troše štěstí ∂f (~x) = 0 o n neznámých x1 , . . . , xn . řešením soustavy n rovnic ∂x 1 Jako obvykle neplatí naopak, že stacionární body dávají lokální extrémy. Například typický sedlový bod u funkce dvou proměnných je také stacionární bod. Když tedy najdeme stacionární body, je potřeba je ještě klasifikovat. K tomu slouží Sylvestrovo kritérium. Je mnohem snažší si jej pamatovat, pokud si umíme představit, co se děje. Lokální maximum se pozná podle toho, že je maximem ve všech řezech, mimo jiné i v řezech rovnoběžných s osami. V situaci jedné proměnné ovšem maximum poznáme snadno podle druhé derivace, takže ve více dimenzích u lokálního maxima očekáváme ∂2f ∂2f a) < 0 pro všechna i. Podobně u lokálního minima zase očekáváme, že ∂x a) > 0 2 (~ ∂xi 2 (~ i pro všechna i. Podívejme se na případ dvou proměnných. Extrém (tedy maximum i minimum) mají společné to, že jsou znaménka nesmíšených druhých derivací podle proměnných shodná, 2 2 2 2 což se dá vyjádřit podmínkou ∂∂xf2 (~a) ∂∂yf2 (~a) > 0. Pokud naopak ∂∂xf2 (~a) ∂∂yf2 (~a) < 0, tak se znaménka musí lišit, tedy v jednom řezu vidíme maximum, v druhém minimum, což ukazuje na sedlo. Součin nesmíšených druhých derivací proto slouží jako prvotní ukazatel, zda máme extrém nebo sedlo. Pokud vyjde, že je extrém, tak se k rozlišení maxima a minima stačí podívat na nějaký řez, tedy stačí uvažovat znaménko libovolné 2 nesmíšené druhé derivace, třeba ∂∂xf2 (~a). Tyto úvahy nejsou zcela špatně, je tu ovšem nepříjemná mezera. Viděli jsme, že extrémy vedou na kladné znaménko součinu těch dvou derivací, ale my bychom potřebovali opačný směr. Jestliže zjistíme, že znaménko toho součinu je kladné, znamená to, že máme lokální extrém? Bohužel ne. Problém je v tom, že je třeba také vzít v úvahu vliv derivace smíšené, tedy musíme uvažovat souhru složek Hessovy matice ! ∂2f ∂2f (x, y) (x, y) ∂x2 ∂y∂x H(x, y) = . ∂2f ∂2f ∂x∂y (x, y) ∂y 2 (x, y) První rozhodnutí mezi extrémem a sedlem jsme před chvílí dělali pomocí součinu hlavní diagonály této matice, což čtenáři doufejme připomnělo determinant. Ukáže se, že to opravdu takto funguje, det(H) > 0 ukazuje na extrém, det(H) < 0 na sedlo. Dostáváme následující algoritmus. Vyšetřování extrémů pro f (x, y). 1. Řešením rovnice ∇f (x, y) = ~0 neboli soustavy ∂f (x, y) = 0 ∂x ∂f (x, y) = 0 ∂y najdeme stacionární body ~a. 2. Pro každý stacionární bod najdeme odpovídající Hessovu matici H = H(~a). 3. Jestliže det(H) < 0, je v ~a sedlový bod. 2 4. Jestliže det(H) > 0, je v ~a lokální extrém. Je to lokální maximum pokud ∂∂xf2 (~a) < 0, a je to lokální minimum pokud
∂2f (~a) ∂x2
> 0. 2
V případech, kdy vychází v klíčových okamžicích nuly, rozhodovací algoritmus selhává, nic nevíme a je třeba použít pokročilejší metody, které jsou za rámec tohoto úvodu. Pokud budeme chtít tento proces zobecnit pro více proměnných, musíme se na něj podívat trochu z jiné strany. Nejprve si všimneme, že ve čtvrtém kroku vlastně také zkoumáme znaménko matice, jmenovitě podmatice H dané levým horním rohem. To je zajímavá inspirace, představíme si rozsáhlou matici H a zeptáme se, co lze čekat od znamének levých horních subdeterminantů, které se tradičně značí ∆i . Abychom se vyhnuli hlubší teorii, zjednodušíme si situaci představou, že všechny smíšené derivace jsou nulové, tedy H je diagonální matice, pak se determinant získá pronásobením diagonály. ∂2f a) < 0 pro všechna i, zatímco u Připomeňme, že u lokálního maxima očekáváme ∂x 2 (~ i lokálního minima zase očekáváme, že
∂2f a) ∂xi 2 (~
> 0 pro všechna i. 2
∂ f • První subdeterminant je dán levým horním rohem H, tedy ∆1 = ∂x a). Pro 2 (~ 1 maximum vychází záporný, pro minimum kladný. • Druhý subdeterminant je dán maticí 2 × 2 v levém horním rohu H, tedy ∆2 = ∂2f ∂2f (~ a ) · a). Pro maximum vychází kladný, pro minimum také kladný. 2 ∂x1 ∂x2 2 (~ • Třetí subdeterminant je dán maticí 3 × 3 v levém horním rohu H, tedy ∆3 = ∂2f ∂2f ∂2f (~a) · ∂x a ) · a). Pro maximum vychází záporný, pro minimum kladný. 2 (~ 2 (~ ∂x1 2 ∂x 2 3 Čtenář si jistě hravě domyslí, jak to funguje dál. Pro maxima se stále střídají znaménka, pro minima jsou všechny detetminanty kladné. Pokud nastane jiná konstelace znamének, pak maximum ani minimum nenastává, pokud někde vyskočí nuly, pak tento rozhodovací proces neuspěl a nevíme, co se v ~a děje. To, co jsme právě odvodili pro případ diagonální H neboli nulových smíšených derivací, platí i obecně.
Věta. (Sylvestrovo kritérium) Nechť f je definováno a má spojité derivace druhého řádu na nějakém okolí bodu ~a, který je pro f stacionární, tedy ∇f (~a) = 0. Nechť H je Hessova matice f v ~a, nechť ∆i jsou její levé horní subdeterminanty. Jestliže ∆i > 0 pro všechna i, pak je f (~a) lokální minimum. Jestliže ∆1 < 0, ∆2 > 0, ∆3 < 0 atd. až (−1)n ∆n > 0, pak je f (~a) lokální maximum. Algorimus na hledání a klasifikaci lokálních extrémů pro f (~x). 1. Řešením rovnice ∇f (~x) = ~0 neboli soustavy ∂f (x1 , . . . , xn ) = 0 ∂x1 .. . ∂f (x1 , . . . , xn ) = 0 ∂xn najdeme stacionární body ~a. 2. Pro každý stacionární bod najdeme odpovídající Hessovu matici H = H(~a). 3. Spočítáme subdeterminanty ∆i neboli determinanty levých horních submatic velikosti i × i. 4. Pokud ∆i pro všechna i, je v bodě ~a lokální minimum. Pokud se znaménka střídají ∆1 < 0, ∆2 > 0, ∆3 < 0, . . . , je v bodě ~a lokální maximum. 3
Příklad. Najdeme a klasifikujeme lokální extrémy funkce f (x, y, z) = 2xy 2 − 4xy + x2 + z 2 − 2z. Nejprve najdeme stacionární body. ∂f = 2y 2 − 4y + 2x = 0 ∂x ∂f = 4xy − 4x = 0 ∂y ∂f = 2z − 2 = 0 ∂z Je to soustava tří rovnic o třech neznámých, to zní nadějně, ale rovnice nejsou lineární, tudíž celá ta krásná teorie nepomůže. Jak řešíme obecné soustavy? My si hned všimneme, že třetí rovnice je nezávislá, tudíž jistě z = 1. Co dál? Nejspolehlivější metoda je eliminační, kdy si postupně vyjdřujeme proměnné a snižujeme počet rovnic. Šlo by například vyjádřit z první rovnice x = 2y − y 2 a dosadit do rovnice druhé, vznikla by tak rovnice třetího stupně s y jako neznámou a to se při troše štěstí a chytrém vytýkání dá umlátit (zkuste to). Vypadá to nicméně dobrodružně a je dobré znát alternativy. Zaměříme se na druhou rovnici, kterou si přepíšeme do tvaru 4x(y − 1) = 0. Pokud se nám podaří vytvořit součin na straně jedné a nulu na straně druhé, bývá to velký bonus. V tomto případě například vidíme, že jsou dvě možnosti, x = 0 a y = 1. V případě y = 1 dává první rovnice −2+2x = 0 neboli x = 1 a máme první stacionární bod, (1, 1, 1). V případě x = 0 první rovnice zní y 2 − 2y = 0 a máme dvě řešení, y = 0 a y = 2. Vzniknou další dva stacionární body, (0, 0, 1) a (0, 2, 1). Teď je třeba všechny tři stacionární body prozkoumat, tedy potřebujeme Hessovu matici. Připravíme si druhé parciální derivace, díky symetrii u smíšených stačí šest: ∂ 2f = 2, ∂x2 ∂ 2f = 4x, ∂y 2 Hessova matice je
A jdeme na to:
∂ 2f = 4y − 4, ∂y∂x ∂2f = 0, ∂z∂y
2 H(x, y) = 4y − 4 0
∂ 2f = 0, ∂z∂x ∂ 2f = 2, ∂z 2
4y − 4 0 4x 0. 0 2
2 0 0 2 0 Bod (1, 1, 1): H = 0 4 0 , tedy ∆1 = 2, ∆2 = det = 8 a ∆3 = 0 4 0 0 2 det(H) = 16. Znaménka jsou postupně +, +, +, v bodě f (1, 1, 1) = −2 je proto lokální minimum. 2 −4 0 2 −4 Bod (0, 0, 1): H = −4 0 0 , tedy ∆1 = 2, ∆2 = det = −16 a −4 0 0 0 2 ∆3 = det(H) = −32. Znaménka jsou postupně +, −, −, v bodě f (0, 0, 1) = −1 proto 4
není lokální extrém. Podle znamének to vypadá, že v některých směrech je minimum a v některých maximum v řezu, u funkce dvou proměnných bychom hovořili o sedlu. 2 4 0 2 4 Bod (0, 2, 1): H = 4 0 0 , tedy ∆1 = 2, ∆2 = det = 16 a ∆3 = 4 0 0 0 2 det(H) = −32. Znaménka jsou postupně +, +, −, v bodě f (0, 2, 1) = 3 proto není lokální extrém, viz předchozí bod. Příklad. 2 Najdeme a klasifikujeme lokální extrémy funkce f (x, y) = xy ex−y /2 . Nejprve najdeme stacionární body. 2 ∂f = (y + xy)ex−y /2 = 0 ∂x 2 ∂f = (x − xy 2 )ex−y /2 = 0 ∂y
Exponenciála je vždy kladná, mohou se jí rovnice vydělit a stačí řešit soustavu (1+x)y = 0 a x(1 − y 2 ) = 0. Rovnice jsme upravili do příznivého tvaru součinu a první dává dvě možnosti. Jestliže y = 0, pak z druhé rovnice x = 0. Jestliže x = −1, pak z druhé rovnice y = ±1. Máme stacionární body (0, 0), (−1, −1), (−1, 1). Připravíme si druhé parciální derivace: 2 ∂ 2f = (2y + xy)ex−y /2 , 2 ∂x 2 ∂ 2f = (1 + x − (y + xy)y)ex−y /2 , ∂x∂y 2 ∂ 2f = (−3xy + xy 3 )ex−y /2 , 2 ∂y
Hessova matice je H(x, y, z) =
2
(2y + xy)ex−y /2 2 (1 + x − (y + xy)y)ex−y /2
(1 + x − (y + xy)y)ex−y 2 (−3xy + xy 3 )ex−y /2
2
/2
.
2
Člen ex−y /2 je vždy kladný, proto jeho vytknutí ze všech členů neovlivní znaménka determinantů, zajímá nás tedy spíše matice xy + 2y 1 + x − xy 2 − y 2 b . H(x, y) = 1 + x − xy 2 − y 2 −3xy + xy 3
Protože jde o funkci dvou proměnných, použijeme první algoritmus, kdy nejprve posoudíme ∆2 . 0 1 Bod (0, 0): H = , tedy ∆2 = −1 < 0 a f (0, 0) = 0 je sedlo. 1 0 1 0 Bod (−1, 1): H = , tedy ∆2 = 2 > 0 a máme lokální extrém. Protože 0 2 −3/2 ∆1 = 1 > 0, je f (−1, 1) = −e lokální minimum. −1 0 Bod (−1, −1): H = , tedy ∆2 = 2 > 0 a máme lokální extrém. Protože 0 −2 ∆1 = −1 < 0, je f (−1, −1) = e−3/2 lokální maximum. 5