Téma: Úvod (Základní pojmy a tvrzení nepodmíněné matematické optimalizace) Zpracoval Doc. RNDr. Zdeněk Hlaváč, CSc
A) Funkce jedné proměnné Definice: Nechť funkce f je definovaná na intervalu I (jakéhokoliv typu). Jestliže pro každé x1 , x2 z I platí x1 < x2 ⇒ f (x1 ) < f (x2 ) ,
říkáme, že funkce f je rostoucí na intervalu I. Jestliže pro každé x1 , x2 z I platí
x1 < x2 ⇒ f (x1 ) > f (x2 ) ,
říkáme, že funkce f je klesající na intervalu I.
Poznámka: Nahradíme-li u funkčních hodnot v definicích výše ostré nerovnice nerovnicemi neostrými, dostáváme v prvním případě definice funkce neklesající na intervalu a ve druhém případě definice funkce nerostoucí na intervalu. Definice: Funkci f nazýváme rostoucí v bodě x0 , jestliže existuje δ > 0 tak, že pro všechna x ∈ (x0 − δ, x0 ) je f (x) < f (x0 ) a zároveň pro všechna x ∈ (x0 , x0 + δ) je f (x) > f (x0 ). Definice: Funkci f nazýváme klesající v bodě x0 , jestliže existuje δ > 0 tak, že pro všechna x ∈ (x0 − δ, x0 ) je f (x) > f (x0 ) a zároveň pro všechna x ∈ (x0 , x0 + δ) je f (x) < f (x0 ). Tvrzení: Nechť derivace funkce f v bodě x0 je kladná (a tudíž existuje - včetně nevlastní), tedy nechť f ′ (x0 ) > 0. Potom f je v bodě x0 rostoucí. Nechť derivace funkce f v bodě x0 je záporná (a tudíž existuje - včetně nevlastní), tedy nechť f ′ (x0 ) < 0. Potom f je v bodě x0 klesající. Tvrzení: Nechť f je spojitá na intervalu I a má derivaci v každém jeho vnitřním bodě. Potom 1. jestliže f ′ (x) > 0 v každém vnitřním bodě I, je f na I rostoucí, 2. jestliže f ′ (x) < 0 v každém vnitřním bodě I, je f na I klesající, 3. jestliže f ′ (x) ≥ 0 v každém vnitřním bodě I, je f na I neklesající, 4. jestliže f ′ (x) ≤ 0 v každém vnitřním bodě I, je f na I nerostoucí. Definice: Nechť x1 , x2 a x3 jsou libovolné body intervalu I, na němž je definovaná funkce f . Jestliže pro případ platnosti x1 < x2 < x3 leží bod [x2 , f (x2 )] pod přímkou spojující body [x1 , f (x1 )] a [x3 , f (x3 )], říkáme, že funkce f je na intervalu I (ryze) 1
konvexní. Nahradíme-li slovo ”pod” slovem ”nad”, dostaneme definici funkce (ryze) konkávní na intervalu I. Poznámka: Rovnice přímky spojující v definici uvedené body má zřejmě tvar f (x3 ) − f (x1 ) (x − x1 ) . x3 − x1 Podmínkou ryzí konvexnosti tedy je podmínka tvaru y − f (x1 ) =
f (x3 ) − f (x1 ) (x2 − x1 .) x3 − x1 Protože x3 − x1 > 0, lze tuto podmínku přepsat jako x1 < x2 < x3 ⇒ f (x2 ) < f (x1 ) +
x1 < x2 < x3 ⇒ f (x2 )(x3 − x1 ) < f (x3 )(x2 − x1 ) + f (x1 )(x3 − x2 ) .
Analogicky podmínkou ryzí konkávnosti je potom podmínka
x1 < x2 < x3 ⇒ f (x2 )(x3 − x1 ) > f (x3 )(x2 − x1 ) + f (x1 )(x3 − x2 ) . Tvrzení: Nechť funkce f je spojitá na intervalu I a má v každém jeho vnitřním bodě druhou derivaci f ′′ . Potom 1. je-li f ′′ (x) > 0 v každém vnitřním bodě intervalu, je f na I ryze konvexní, 2. je-li f ′′ (x) < 0 v každém vnitřním bodě intervalu, je f na I ryze konkávní. Definice: Nechť funkce f má v bodě x0 první derivaci f ′ (x0 ). Jestliže dále existuje δ > 0, že pro všechna x ∈ (x0 − δ, x0 + δ) leží bod [x, f (x)] nad tečnou y = f (x0 ) + f ′ (x0 )(x − x0 ) ,
říkáme, že f je ryze konvexní v bodě x0 . Nahradíme-li slovo ”nad” v definici slovem ”pod”, dostaneme definici ryzí konkávnosti funkce f v bodě x0 . Tvrzení: Nechť je f ′′ (x0 ) > 0. Potom f je v bodě x0 ryze konvexní. Nechť je f ′′ (x0 ) < 0. Potom f je v bodě x0 ryze konkávní. S
Definice: Nechť existuje δ > 0 tak, že pro všechna x ∈ (c−δ, c) (c, c+δ) je f (x) < f (c). Potom říkáme, že funkce f má v bodě c ostré lokální maximum. Nahradíme-li nerovnici mezi funkčními hodnotami nerovnicí opačnou, dostaneme definici ostrého lokálního minima funkce f v bodě c. Poznámka: Budou-li nerovnice mezi funkčními hodnotami v předchozích definicích neostré, dostaneme definice lokálního maxima a lokálního minima (bez dodatku ”ostré”). Tvrzení: Existuje-li f ′ (x0 ) 6= 0 nemá f v bodě x0 ani lokální maximum ani lokální minimum. Stručně řečeno, nemá v tomto bodě lokální extrém. Poznámka: Negací tohoto tvrzení dostáváme podmínku, že lokální extrém může (ale nemusí) mít funkce pouze v takovém bodě, v němž derivace buď neexistuje, nebo je nulová. Tato podmínka je z matematického hlediska nutnou (ale nikoliv postačující) podmínkou lokálního extrému. S
Tvrzení: Nechť x0 ∈ (a, b), f je na (a, b) spojitá a na (a, x0 ) (x0 , b) má derivaci (v samotném bodě x0 ji mít nemusí). Potom existuje-li δ > 0 tak, že pro všechna 2
1. x ∈ (x0 − δ, x0 ) je f ′ (x) > 0 a x ∈ (x0 , x0 + δ) je f ′ (x) < 0, má f v x0 ostré lokální maximum, 2. x ∈ (x0 − δ, x0 ) je f ′ (x) < 0 a x ∈ (x0 , x0 + δ) je f ′ (x) > 0, má f v x0 ostré lokální minimum, S
3. x ∈ (x0 − δ, x0 ) (x0 , x0 + δ) je f ′ (x) > 0, je f v x0 rostoucí, S
4. x ∈ (x0 − δ, x0 ) (x0 , x0 + δ) je f ′ (x) < 0, je f v x0 klesající. Poznámka: Existují funkce, které nezapadají ani do jedné z předchozích čtyř skupin. Jako příklad poslouží funkce f (x) = x2 sin x1 pro x 6= 0 a f (0) = 0. Tato funkce nemá v nule lokální extrém, leč zároveň tam není ani rostoucí ani klesající. Funkce je omezena grafy funkcí f (x) = ±x2 a je zobrazena na obr.1. −3
1
x 10
f(x)
0.5
0
−0.5
−1 −0.03
−0.02
−0.01
0 x
0.01
0.02
0.03
Obrázek 1: Průběh funkce f (x) = x2 sin( x1 )
Tvrzení: Nechť f je definovaná na intervalu I. Má-li v některém bodě největší hodnotu, je tento bod buď lokálním maximem nebo krajním bodem intervalu. Podobné tvrzení platí i pro nejmenší hodnotu. Tvrzení: Spojitá funkce na uzavřeném intervalu na něm nabývá jak své maximální, tak i své minimální hodnoty. Poznámka: Těmito body mohou být buď krajní body intervalu nebo lokální extrémy. Při hledání (globálních) extrémů tedy postačuje srovnat podle velikosti funkční hodnoty v krajních bodech intervalu s funkčními hodnotami z vnitřku intervalu, kde derivace buď neexistuje nebo je tam nulová. Příklad: Hledejme globální extrémy funkce f (x) = x3 − 5x + 10 na intervalu h−3, 3i. Protože se jedná o funkci spojitou (polynom), nabývá na uvedeném intervalu své největší i nejmenší hodnoty. Pro derivaci zřejmě platí f ′ (x) = 3x2 − 5, takže tato všude existuje. Prověřím tedy body, v nichž je derivace nulová. s
5 5 . f (x) = 0 ⇔ x = ⇔ x1,2 = ± 3 3 ′
2
Protože oba nalezené body leží v uvedeném intervalu, stačí srovnat funkční hodnoty 3
s
s √ ! √ ! 5 5 5 5 = 10 1 − = 10 1 + ; f . f (−3) = −2 ; f (3) = 22 ; f − 3 9 3 9
Protože platí
√ ! √ ! 5 5 −2 < 10 1 − < 10 1 + < 22 , 9 9 nabývá funkce (globálního) minima v bodě x0 = −3 o velikosti f (x0 ) = −2 a (globálního) maxima v bodě x0 = 3 o velikosti f (x0 ) = 22. Zkoumaná funkce má tvar podle obr.2.
25 20
f(x)
15 10 5 0 −5 −3
−2
−1
0 x
1
2
3
Obrázek 2: Průběh funkce f (x) = x3 − 5x + 10 Příklad: Hledejme globální extrémy funkce f (x) = |x+1|+|2x+1| na intervalu h−2, 0i. Protože se jedná o funkci spojitou (součet absolutních hodnot), nabývá na uvedeném intervalu své největší i nejmenší hodnoty. Z definice absolutní hodnoty plyne, že tato mění svoje znaménko právě pro nulový argument. První sčítanec funkčního předpisu tedy mění znaménko pro x = −1 a druhý pro x = − 21 . Platí tedy 1. pro x ≤ −1 jsou argumenty obou sčítanců nekladné, pročež podle definice absolutní hodnoty je v tomto případě f (x) = −x − 1 − 2x − 1 = −3x − 2; 2. pro −1 ≤ x ≤ − 21 je argument prvního sčítance nezáporný a druhého nekladný, pročež v tomto případě f (x) = x + 1 − 2x − 1 = −x; 3. pro x ≥ − 12 jsou argumenty obou sčítanců nezáporné, pročež f (x) = x+1+2x+1 = = 3x + 2.
Z tohoto rozboru plyne, že na intervalu h−2, −1) je f ′ (x) < 0, na intervalu −1, − 21
je f ′ (x) < 0 a na intervalu − 12 , 0 je f ′ (x) > 0. V bodech x = −1 a x = − 12 derivace neexistuje. Tyto dva body jsou ”podezřelé” z existence lokálních extrémů v nich. Protože oba nalezené body leží v uvedeném intervalu, pro řešení úlohy tedy stačí srovnat podle velikosti funkční hodnoty
1 1 f (−2) = 4 ; f (−1) = 1 ; f − = ; f (0) = 2 . 2 2 4
Odtud ihned plyne, že zmíněná funkce nabývá na uvedeném intervalu nejmenší hodnoty 1 v bodě x0 = − 12 a největší hodnoty 4 v bodě x0 = −2. V bodě x0 = − 21 má funkce 2 (ostré) lokální minimum, lokální maximum žádné nemá. V bodě x0 = −1 neexistence derivace nemá funkce lokální extrém (je v něm klesající). Zkoumaná funkce má průběh podle obr.3.
4 3.5
f(x)
3 2.5 2 1.5 1 0.5 −2
−1.8
−1.6
−1.4
−1.2
−1 x
−0.8
−0.6
−0.4
−0.2
0
Obrázek 3: Průběh funkce f (x) = |x + 1| + |2x + 1| Definice: Nechť f má v bodě x0 derivaci f ′ (x0 ). Nechť existuje δ > 0 tak, že platí jeden z následujících případů: 1. Pro x ∈ (x0 − δ, x0 ) leží bod [x, f (x)] pod tečnou o rovnici y = f (x0 ) + f ′ (x0 )(x − x0 )
a pro x ∈ (x0 , x0 + δ) leží nad ní;
2. Pro x ∈ (x0 − δ, x0 ) leží bod [x, f (x)] nad zmíněnou tečnou a pro x ∈ (x0 , x0 + δ) leží pod ní. Potom říkáme, že funkce f má v bodě x0 inflexi (nebo že x0 je inflexním bodem funkce f ). Tvrzení: Existuje-li f ′′ (x0 ) 6= 0, nemá f v bodě x0 inflexi.
Poznámka: Inflexe tedy může nastat pouze v bodech, v nichž buď f ′′ neexistuje, nebo je nulová. Tvrzení: Nechť funkce f má v intervalu (a, b) obsahujícím bod x0 spojitou derivaci a má druhou derivaci v každém bodě intervalu, vyjma bodu x0 . (V bodě x0 ji může mít, ale nemusí.) Potom platí: 1. Existuje-li číslo δ > 0 tak, že pro x ∈ (x0 − δ, x0 ) je f ′′ (x) < 0 a pro x ∈ (x0 , x0 + δ) je f ′′ (x) > 0, má funkce f v bodě x0 inflexi; 2. Existuje-li číslo δ > 0 tak, že pro x ∈ (x0 − δ, x0 ) je f ′′ (x) > 0 a pro x ∈ (x0 , x0 + δ) je f ′′ (x) < 0, má funkce f v bodě x0 rovněž inflexi; 3. Existuje-li číslo δ > 0 tak, že pro 0 < |x − x0 | < δ je f ′′ (x) > 0, jest f v bodě x0 ryze konvexní (a tudíž v tomto bodě nemá inflexi); 5
4. Existuje-li číslo δ > 0 tak, že pro 0 < |x − x0 | < δ je f ′′ (x) < 0, jest f v bodě x0 ryze konkávní (a tudíž v tomto bodě nemá inflexi). Poznámka: V předchozí větě uvedené čtyři případy nevyčerpávají všechny možnosti chování funkce v okolí bodu x0 . Existuje funkce, jež v bodě x0 není ani konvexní, ani konkávní, ale ani v něm nemá inflexi. Tvrzení: Nechť existuje přirozené číslo n tak, že f ′ (x0 ) = . . . = f (n−1) (x0 ) = 0 a f (n) (x0 ) = a 6= 0 . Potom platí: 1. Je-li n liché a a > 0, jest f v bodě x0 rostoucí; 2. Je-li n liché a a < 0, jest f v bodě x0 klesající; 3. Je-li n sudé a a > 0, má f v bodě x0 ostré lokální minimum; 4. Je-li n sudé a a < 0, má f v bodě x0 ostré lokální maximum. Tvrzení: Nechť existuje přirozené číslo n > 1 tak, že f ′′ (x0 ) = . . . = f (n−1) (x0 ) = 0 a f (n) (x0 ) = a 6= 0 . Potom platí: 1. Je-li n sudé a a > 0, je funkce f ryze konvexní v bodě x0 ; 2. Je-li n sudé a a < 0, je funkce f ryze konkávní v bodě x0 ; 3. Je-li n liché (a jakékoliv nenulové), má funkce f v bodě x0 inflexi. Poznámka: Všimněte si, že v posledním tvrzení jsme se vůbec nestarali o první derivaci funkce. Příklad: Na kanál šířky a se pravoúhle napojuje kanál šířky b (viz obr.). Určete délku lodě, která může napojením kanálů proplout.
B b
α
C
Y A
Z a
Obrázek 4: Napojení kanálů
Řešení: Nechť loď, znázorněná úsečkou AB v obrázku, se vytáčí napojením kanálů s maximálním využitím prostoru, to jest, dotýká se ”vrcholu” napojení v bodě C. Možná délka lodě s zřejmě závisí na na úhlu α osy lodě s novým směrem plavby. Z pravoúhlých trojúhelníků ACZ a BCY ihned plyne, že s = cosa α + sinb α . Extremální délka lodě pak závisí na úhlu její osy. Příslušná funkce je 6
a b + . cos α sin α Funkční hodnota lokálního minima této funkce bude zřejmě maximální délkou lodě, jež napojením kanálů projede. Derivací podle α dostaneme f (α) =
cos α sin α −b 2 . 2 cos α sin α π Protože hodnoty α = 0 ani α = 2 nepřicházejí v úvahu, je derivace všude definovaná. Jako body ”podezřelé” z lokálních extrémů proto přicházejí do úvahy pouze body, kde je derivace nulová. Jedná se tedy o body, kde f ′ (α) = a
s
sin α b cos α 3 b a 2 = b 2 ⇔ tg3 α = ⇔ α = arctg . cos α a a sin α Kvalitu extrému posoudíme pomocí druhé derivace. Zřejmě je 1 + sin2 α 1 + cos2 α . + b cos3 α sin3 α Protože je a > 0 i b > 0 a α ∈ (0, π2 ), je druhá derivace všude kladná (tedy tím spíše v bodě ”podezřelém” z lokálního extrému). V tomto bodě tedy nastává (podle očekávání) lokální minimum. Určíme ještě jeho funkční hodnotu. Protože pro popisované úhly α platí f ′′ (α) = a
sin α = q
tgα 1 + tg2 α
; cos α = q
1 1 + tg2 α
,
dostáváme pro minimální funkční hodnotu
fmin
q
q
1 + tg α = = a 1 + tg α + b tgα 2
2
q
b 1 + tg α a + tgα 2
!
v u u u = t1 +
b a
!2 3
r
a+b3
a b
.
Příklad: Z bodu P o souřadnicích [0, a] (viz obr.) vystartuje hmotný bod, pohybující se stálou rychlostí v po přímce až do rozhraní, tvořeného osou x. Po dosažení bodu R o souřadnicích [x, 0] pokračuje dále přímočarým pohybem (obecně jinou) rychlostí w až do bodu Q o souřadnicích [d, −b]. Máme určit místo R na rozhraní (tedy parametr x), aby se bod dopravil z místa P do místa Q v nejkratším čase. Řešení: Pro pohyb konstantní rychlostí platí, že čas určíme jako podíl dráhy a rychlosti. Rychlosti jsou dány a dráhy určíme jako vzdálenosti bodů o známých souřadnicích. Výsledný čas pohybu pak získáme jako funkci místa na rozhraní (proměnné x) ve tvaru q
√
b2 + (d − x)2 a2 + x 2 t = f (x) = + . v w Prozkoumáme extrémy této funkce. Pro ověření nutné podmínky extrému vypočítáme derivaci. Dostaneme d−x x q − . f ′ (x) = √ 2 v a + x2 w b2 + (d − x)2 7
y P 0, a α R x, 0
0
x
β Q d, −b Obrázek 5: Zákon lomu světla
Pro x < d je tato derivace spojitá, takže body ”podezřelé” z extrému jsou pouze body nulovosti derivace. Tyto body splňují podmínku q
b2 + (d − x)2 v x =√ 2 · . w d−x a + x2 Umocněním a násobením společným jmenovatelem bychom získali bikvadratickou rovnici, jejíž jedno řešení by splňovalo původní rovnici s odmocninami. Všimněme si však, že podle obrázku platí, že zavedeme-li úhly α a β drah bodu od normály k rozhraní v bodě R, je zřejmě sin α = √ Odtud dostáváme, že
x d−x q . ; sin β = a2 + x 2 b2 + (d − x)2
sin α v = . sin β w Abychom ověřili, že nalezený bod je skutečně minimem času pohybu, stanovme ještě druhou derivaci funkce f . Dostaneme b2 + 2(d2 − x2 )2 a2 + q . f ′′ (x) = q v (a2 + x2 )3 w [b2 + (d − x)2 ]3
Protože výrazy obsahují kvadráty, je pro x > d tato derivace všude kladná. Nalezený bod je tedy skutečně minimem. Poznámka: Pro případ šíření světla zavádíme v optice tzv. index lomu světla v daném prostředí jako n = vc , kde c = 2.9998 · 108 [m/s] je rychlost světla ve vakuu a v je rychlost světla v daném prostředí. Předchozí výsledek pak lze přepsat do tvaru v nw sin α = = sin β w nv neboli do tvaru 8
nv sin α = nw sin β = konst , kde nv a nw jsou indexy lomu světla pro prostředí, v němž se světlo šíří rychlostmi (po řadě) v a w. Takto jest formulován z optiky známý Snellův zákon lomu světla. Implicitní funkce jedné proměnné Tato podkapitola umožní zkoumat na extrémy i funkce, definované implicitně pomocí anulované tzv. tvořící funkce dvou proměnných. Bude to umožněno i v případech, kdy nelze implicitní funkci z tvořící funkce ”osamostatnit”. Základem pro další úvahy je následující tvrzení zásadního významu (tzv. věta o implicitních funkcích jedné proměnné). Tvrzení: Nechť funkce dvou proměnných F (x, y), definovaná v okolí bodu [a, b], ve kterém F (a, b) = 0, má v tomto bodě spojité parciální derivace podle obou proměnných a navíc nechť ∂F (a, b) 6= 0. Potom existují kladná čísla δ1 a δ2 , že pro každé x z δ1 −okolí ∂y bodu a existuje v δ2 −okolí bodu b právě jedno y, pro které platí F (x, y) = 0. Na δ1 − − okolí bodu a je tím definována tzv. implicitní funkce y = f (x). Tato funkce má v bodě a spojitou derivaci f ′ (a), pro kterou platí (a, b) . (a, b) ∂y
∂F
∂x f ′ (a) = − ∂F
(1)
Poznámka: Předchozí výraz získáme snadno tak, že formálně dosadíme za proměnnou y do tvořící funkce implicitní funkci f (x) a vzniklou (anulovanou) funkci jedné proměnné g(x) = F (x, f (x)) = 0 derivujeme podle pravidel o derivaci složené funkce. Dostaneme ∂F ∂F (x, f (x)) + (x, f (x))f ′ (x) = 0 . (2) ∂x ∂y Odtud vzorec ve větě o implicitních funkcích bezprostředně plyne. Tato poznámka má význam ve výpočetní praxi. Derivaci implicitní funkce (která za uvedených předpokladů existuje i na δ1 − okolí bodu a) počítáme podle zde uvedeného pravidla. g ′ (x) =
Poznámka: (Velmi důležitá pro výpočetní praxi) Jestliže tvořící funkce má spojité všechny parciální derivace druhého řádu v bodě [a, b], má i implicitní funkce f (x) spojitou druhou derivaci v bodě a a tato se v δ1 −okolí tohoto bodu určí derivováním výrazu (2) podle x při dodržení pravidel o derivování složených funkcí. Jestliže si uvědomíme, že každá z derivací tvořící funkce opět závisí na obou proměnných x a y, kdy za y dosazujeme f (x), dostaneme derivací (2) (body, ve kterých derivace vyjadřujeme vynechávám a rovněž využívám záměnnosti smíšených derivací, která plyne z jejich spojitosti) !
∂ 2 F ′ ′ ∂F ′′ ∂ 2F ′ ∂2F ∂2F f + + f = 0. + f f + ∂x2 ∂x∂y ∂x∂y ∂y 2 ∂y
(3)
6= 0 a všech druhých parciálních derivací tvořící funkce Z této rovnice při znalosti f ′ , ∂F ∂y snadno určíme druhou derivaci implicitní funkce. Jestliže (za předpokladu spojitosti třetích parciálních derivací tvořící funkce v bodě a) analogicky zderivujeme i rovnici (3), dostaneme !
∂ 3F ∂3F ′ ∂2F ′ ′ ∂ 2 F ′′ ∂3F + f + + f f + f + ∂x3 ∂x2 ∂y ∂x2 ∂y ∂x∂y 2 ∂x∂y 9
"
!
#
∂ 3F ∂ 3F ′ ∂ 3 F ′ ′ ∂ 2 F ′′ ′ ∂3F + f + + f f + f f+ ∂x2 ∂y ∂x∂y 2 ∂x∂y 2 ∂y 3 ∂y 2 !
(4)
!
∂ 2F ∂ 2 F ′ ′′ ∂ 2 F ′ ′′ ∂F ′′′ ∂2F + + f = 0. f f f + f + ∂x∂y ∂y 2 ∂x∂y ∂y 2 ∂y Z této rovnice při znalosti f ′ , f ′′ , ∂F 6= 0 a všech druhých a třetích parciálních derivací ∂y tvořící funkce snadno určíme i třetí derivaci implicitní funkce. Obecně lze (za předpokladu existence spojitých parciálních derivací n−tého řádu tvořící 6= 0) funkce) ze znalosti všech parciálních derivací tvořící funkce řádu n a nižšího (při ∂F ∂y a při znalosti všech nižších derivací implicitní funkce spočítat její derivaci řádu n. Protože nutnou podmínkou existence lokálního extrému diferencovatelné funkce je nulovost první derivace, dostáváme z výrazu (1) ihned nutnou podmínku pro existenci lokálního extrému implicitní funkce jako podmínku ∂F = 0, ∂x = 0. při současném splnění podmínky F (x, f (x)) = 0 a při vyloučení bodů, kde ∂F ∂y Jestliže budeme zkoumat postačující podmínku extrému implicitní funkce, budeme to provádět pouze v bodě ”podezřelém” z extrému (tedy v bodě, ve kterém f ′ = 0). Z rovnice (3) pak plyne, že v tomto bodě platí ′′
f = Pokud tedy
∂2F ∂x2
> 0 a zároveň
∂F ∂y
∂2F 2 − ∂x ∂F ∂y
(5)
.
> 0, je i f ′′ > 0 a v ”podezřelém” bodě nastává lokální 2
< 0. Pokud minimum. Stejná situace nastane i pro případ, že ∂∂xF2 < 0 a zároveň ∂F ∂y popisované derivace budou mít znaménka opačná, bude f ′′ < 0 a implicitní funkce bude mít v ”podezřelém” bodě lokální maximum. Poznámka: Pokud v bodě ”podezřelém” z lokálního extrému (tedy v bodě, kde f ′ = 0, 2 tedy v bodě kde ∂F = 0) je i f ′′ = 0 (tedy ∂∂xF2 = 0), dostáváme podle (4) ∂x 3
∂ F d3 f ′′′ ∂x3 = f = − ∂F . 3 dx ∂y 3
Je-li tedy ∂∂xF3 6= 0, můžeme podle znamének čitatele a jmenovatele posledního zlomku posoudit extrém implicitní funkce (protože vyjadřujeme její derivaci lichého pořadí). Úplně obecně lze zřejmě formulovat tento závěr: Tvrzení: Nechť tvořící funkce má v okolí bodu [a, b] spojité všechny parciální derivace až do řádu n včetně. Nechť v tomto bodě je F (a, b) = 0 a ∂F 6= 0. Nechť dále je ∂y ∂F ∂ n−1 F ∂ nF = ... = = 0 ; 6= 0 . ∂x ∂xn−1 ∂xn v některém bodě okolí bodu a, v němž je definována implicitní funkce f (x). Potom tato implicitní funkce má v tomto bodě n−tou derivaci, pro kterou platí n
∂ F dn f n (n) = f = − ∂x ∂F . n dx ∂y
10
Pokud n je sudé, nemá implicitní funkce ve zkoumaném bodě lokální extrém. Pokud je n n mají stejná znaménka, má ve zkoumaném bodě implicitní funkce lokální liché a ∂∂xFn a ∂F ∂y maximum, pokud předchozí derivace mají rozdílná znaménka, má ve zkoumaném bodě implicitní funkce lokální minimum. Příklad: Mějme tvořící funkci tvaru F (x, y) = x3 − 3xy + y 3 .
Implicitní funkce y = f (x) je definována rovnicí
F (x, y(x)) = 0
(6)
pro body, ve kterých F (x, y) 6= 0. Vylučujeme tedy body, kde ∂F = 3y 2 − 3x = 0 ⇔ x = y 2 . ∂y
(7)
Stacionárním bodem implicitní funkce je zřejmě bod, kde ∂F = 3x2 − 3y = 0 ⇔ y = x2 . ∂x Zároveň ale musí býti splněna tvořící rovnice (6). Po dosazení z (8) dostaneme
(8)
x3 − 3x3 + x6 = 0 ⇔ x3 (x3 − 2) = 0 .
Jedním z reálných řešení této rovnice je x1 = 0. Podle (8) je√i y1 = 0, což však je vzhledem √ k (7) vyloučený bod. Druhým reálným řešením je x2 = 3 2, takže podle (8) y2 = 3 4. Toto jest jediný stacionární bod. Jeho kvalitu určíme na základě dalších derivací tvořící funkce v něm. Zřejmě √ √ √ ∂2F ∂ 2F 3 3 3 2 2 > 0 ; 16 − 2) > 0 . (x , y ) = 3(y − x)| = 3( (x , y ) = 6x| = 6 2 2 2 2 x [x ,y ] 2 2 2 2 ∂x ∂y Druhá derivace implicitní funkce je tedy v ”podezřelém bodě” záporná, takže nalezený stacionární bod je maximem. Vyřešili jsme tedy úlohu nalezení extrému implicitní funkce, aniž bychom ji z tvořící rovnice explicitně vyjadřovali.
B) Funkce více proměnných Definice: Nechť funkce f (x) = f (x1 , . . . , xr ) je definovaná v okolí bodu a = [a1 , . . . , an ]. Jestliže lze volit čísla A1 , . . . , An tak, že funkce η(h) = η(h1 , . . . , hn ) definovaná výrazem f (a + h) − f (a) = A1 h1 + · · · + An hn + ||h|| · η(h) ,
má pro h → 0 limitu nula, říkáme, že funkce f má v bodě a totální (úplný) diferenciál. Výraz A1 h1 + · · · + An hn potom nazveme totálním diferenciálem funkce f v bodě a. Poznámka: Symbol q || . . . || znamená jakoukoliv normu v Eukleidovském prostoru Rn , tedy např. ||h|| = h21 + · · · + h2n . 11
Tvrzení: Čísla Ai v předchozí definici jsou parciálními derivacemi
∂f (a) . ∂xi
Poznámka: Přepíšeme-li vztah v definici totálního diferenciálu do tvaru f (a + h) = f (a) + A1 h1 + · · · + An hn + ||h|| · η(h) ,
ve kterém první dva sčítanci pravé strany představují rovnici tečné nadroviny ke grafu funkce v bodě a, pak vztah nám pak říká, že tečná nadrovina v okolí bodu a dostatečně přesně aproximuje graf dané funkce (přimyká se k němu). Tvrzení: Jestliže f má v bodě a spojité všechny parciální derivace, pak v něm má i totální diferenciál. Poznámka: Řekneme-li o funkci více proměnných, že je v bodě a diferencovatelná, rozumíme tím, že má v tomto bodě totální diferenciál. Silnější podmínkou diferencovatelnosti je tedy spojitost parciálních derivací v příslušném bodě. Existence parciálních derivaci ovšem pro diferencovatelnost nestačí. Vezmeme-li např. ve dvou proměnných funkci, jež na osách souřadnic je nulová a všude jinde jednotková, pak tato funkce má v nule obě parciální derivace (nulové), leč zřejmě tam nemá totální diferenciál, tudíž není diferencovatelná ve smyslu předchozí úmluvy. Pro funkce jedné proměnné je ovšem diferencovatelnost totéž, co existence derivace. Jestliže bychom totiž definici totálního diferenciálu aplikovali na funkci jediné proměnné, dostaneme existenci čísla A a funkce η(h), že f (a + h) − f (a) = Ah + |h|η(h) ; lim η(h) = 0 . h→0
Dělením h odtud získáme f (a + h) − f (a) = A ± η(h) . h Provedením limitního přechodu h → 0 odtud získáváme pro existenci derivace podle její definice vlastnost lim η(h) = 0, což znamená existenci totálního diferenciálu. Rozdíl mezi h→0 funkcemi jedné a více proměnných ve vztahu mezi existencí totálního diferenciálu a derivací je dán rozdílností dimenze okolí bodu při jednotlivých definicích. Zatímco u funkcí jedné proměnné oba pojmy používají jednorozměrné okolí, u funkcí více proměnných existence parciálních derivací říká cosi o vlastnostech této funkce na několika jednorozměrných okolích a existence totálního diferenciálu tvrdí cosi o vlastnostech funkce na n-rozměrném okolí bodu. Definice: Nechť d = [d1 , . . . , dn ] je jednotkový vektor. Polopřímku tvaru x = a + td pro t ≥ 0 nazveme směrem d z bodu a.
Definice: Nechť f je diferencovatelná v bodě a. Utvořme funkci g(t) = f (a + td) . Její (obyčejnou) derivaci v bodě t = 0, tedy limitu
f (a + hd) − f (a) g(h) − g(0) = lim h→0 h→0 h h ′ nazveme derivací funkce f ve směru d v bodě a a značíme ji fd (a). Tvrzení: Jestliže funkce f má v bodě a totální diferenciál, má v tomto bodě derivaci v každém směru. lim
12
Poznámka: Jednotlivé parciální derivace jsou potom derivace ve směrech jednotkových vektorů souřadnicových os. Definice: Nechť existuje δ > 0 tak, že pro všechna x ∈ {x ∈ Rn ; 0 < ||x − a|| < δ} je f (x) < f (a). Potom říkáme, že funkce f má v bodě a ostré lokální maximum. Nahradíme-li nerovnici mezi funkčními hodnotami nerovnicí opačnou, dostaneme definici ostrého lokálního minima funkce f v bodě a. Poznámka: Budou-li nerovnice mezi funkčními hodnotami v předchozích definicích neostré (a potom v normě můžeme připustit i nulu), dostaneme definice lokálního maxima a lokálního minima (bez dodatku ”ostré”). Lokální maximum nebo lokální minimum se souhrnně nazývá lokálním extrémem (ať už ostrým nebo neostrým). ′ Tvrzení: Jestliže existuje směr daný vektorem d, že fd (a) 6= 0, pak f nemá v bodě a lokální extrém.
Poznámka: Negací tohoto tvrzení dostáváme podmínku, že lokální extrém může (ale nemusí) mít funkce pouze v takovém bodě, v němž derivace v každém směru buď neexistuje, nebo je nulová. Tato podmínka je z matematického hlediska nutnou (ale nikoliv postačující) podmínkou lokálního extrému. Speciální nutnou podmínkou (platnou pro funkce s existujícími všemi prvními parciálními derivacemi) extrému je nulovost všech prvních parciálních derivací funkce. ∂f ∂f Definice: Vektor gradf (a) = [ ∂x (a)]T nazveme gradientem funkce f v (a), . . . , ∂x n 1 bodě a.
Tvrzení: Nechť f (x) je v bodě x0 diferencovatelná. Potom směr d = [d1 , . . . , dn ] = gradf (x0 ) je směrem největšího růstu funkce f . = ||gradf (x0 )||
Ověření: Protože funkce je v bodě x0 diferencovatelná, existuje v tomto bodě derivace v libovolném směru daném jednotkovým vektorem d. Mírou růstu funkce v tomto směru je ′ velikost derivace v tomto směru. Porovnáme tedy hodnoty fd (x0 ) pro různá jednotková d. Podle definice je d d ′ fd (x0 ) = f (x0 + td) = f (x01 + td1 , . . . , x0n + tdn ) dt dt v bodě t = 0. Podle pravidla pro derivování složené funkce je n X ∂f d f (x01 + td1 , . . . , x0n + tdn ) = (x0 + td) · di . dt i=1 ∂xi
V bodě nula pak je podle předchozích dvou vztahů ′ fd (x0 ) =
n X ∂f i=1
∂xi
(x0 ) · di .
Zavedením vektoru gradientu lze poslední výraz maticově přepsat jako ′ fd (x0 ) = dT gradf (x0 ) . Maticový součin vpravo lze interpretovat jako skalární součin tam uvedených vektorů. Podle pravidla počítání skalárního součinu odtud dostáváme konečný tvar ′ (x0 ) = |gradf (x0 )| cos ϕd , fd
13
kde ϕd je úhel sklonu směru (charakterizovaného polopřímkou) d od směru gradientu funkce v bodě x0 . Počítaná derivace ve směru má proto největší hodnotu právě když bude cos ϕd = 0, neboli když směr d bude totožný se směrem gradf (x0 ). Tvrzení je tím ověřeno. Poznámka: Směr záporně vzatého gradientu je potom směr největšího spádu funkce v daném bodě. Na této vlastnosti je založena numerická prostá gradientní metoda vícerozměrné minimalizace. Definice: Bod, ve kterém je funkce diferencovatelná (má totální diferenciál) a zároveň nulový gradient se nazývá stacionárním bodem funkce. Stacionárním bodem může být lokální minimum,lokální maximum (souhrnně lokální extrém) nebo tzv. sedlový bod. Poznámka: Pro funkce jedné proměnné je funkce s nulovou první derivací automaticky diferencovatelná, takže takový bod je jejím stacionárním bodem. Tento bod, kromě velké podmnožiny lokálních extrémů, může být už pouze inflexním bodem s vodorovnou tečnou. Stav, kdy u funkcí jedné proměnné stacionární bod není lokálním extrémem, je ”velmi málo pravděpodobný”. Zcela jinak je tomu u funkcí více proměnných. Tam je sedlo dokonce ”pravděpodobnějším” případem stacionárního bodu než lokální extrém. ”Pravděpodobnost” sedla navíc roste s dimenzí úlohy. Nutná podmínka stacionarity bodu funkce více proměnných proto ”zdaleka” není postačující. Tím pádem nabývá na významu formulace postačujících podmínek lokálního extrému takových funkcí. Definice: Matice A (symetrická, čtvercová řádu n) se nazývá pozitivně definitní, jestliže pro každý nenulový vektor x dimenze n je kvadratická funkce (forma) xT Ax kladná a nulová je právě jen pro nulový vektor. Matice se nazývá negativně definitní, je-li příslušná kvadratická funkce záporná a nulová je opět právě jen pro nulový vektor. Jestliže funkce je nekladná a zároveň existuje nenulový vektor x1 , že xT1 Ax1 = 0, nazývá se matice negativně semidefinitní. Je-li funkce nezáporná a zároveň existuje nenulový vektor x1 , že xT1 Ax1 = 0, nazývá se matice pozitivně semidefinitní. Jestliže existují nenulové vektory x1 a x2 , že xT1 Ax1 > 0 a zároveň xT2 Ax2 < 0, nazývá se příslušná matice indefinitní. Definice: Matice H f (x0 ) = x0
h
i
∂2f (x0 ) ∂xi ∂xj
se nazývá Hessovou maticí funkce f v bodě
Poznámka: Jestliže druhé parciální derivace funkce f jsou v bodě x0 spojité, jsou smíšené derivace záměnné, takže Hessova matice je symetrická, čtvercová matice řádu n (pro funkci n proměnných). Tvrzení: Jestliže Hessova matice funkce f je v jejím stacionárním bodě pozitivně definitní, je tento stacionární bod (ostrým) lokálním minimem. Jestliže Hessova matice funkce f je v jejím stacionárním bodě negativně definitní, je tento stacionární bod (ostrým) lokálním maximem. Jestliže Hessova matice funkce f je v jejím stacionárním bodě indefinitní, je tento stacionární bod sedlem. Poznámka: Předchozí tvrzení tvoří jednoduchou postačující podmínku lokálního extrému funkcí více proměnných. Tvrzení neřeší stav semidefinitnosti (ať už pozitivní nebo negativní) Hessovy matice. Poznámka: O definitnosti Hessovy matice se lze v některých případech přesvědčit ”doplněním na kvadrát”. Výhodnější je používat některá matematicky odvozená kriteria. Nejvýhodnější je tzv. Hurwitzovo kriterium. 14
Tvrzení: Matice je pozitivně definitní právě když všechny její rohové hlavní minory jsou kladné. Matice je negativně definitní právě když všechny její rohové hlavní minory lichého řádu jsou záporné a všechny její rohové hlavní minory sudého řádu jsou kladné. Jestliže žádný rohový hlavní minor matice není nulový a zároveň nenastává ani jeden z výše popsaný případů znamének rohových hlavních minorů, je matice indefinitní. Poznámka: Pro kriterium semidefinitnosti nestačí konstruovat pouze rohové hlavní minory. Toto kriterium se pro tento případ stává nepřehledným a tudíž se nepoužívá. Příklad: Hledejme stacionární body funkce f (x, y, z) = x3 + y 3 + z 3 + 3xy + 3xz + 3yz a posuďme jejich kvalitu. Řešení: Protože funkce je polynomem, má všechny parciální derivace spojité. Stacionární body splňují podmínky nulovosti gradientu funkce, tedy podmínky tvaru ∂f ∂f ∂f = 3x2 − 3y − 3z = 0; = 3y 2 − 3x − 3z = 0; = 3z 2 − 3x − 3y = 0 . ∂x ∂y ∂z Z této soustavy ihned plyne
čili
x = z 2 − y = y 2 − z; y = x2 − z = z 2 − x; z = x2 − y = y 2 − x , x(x + 1) = y(y + 1); x(x + 1) = z(z + 1); y(y + 1) = z(z + 1) .
Jedním z řešení je zřejmě x1 = y1 = z1 = 0. Další řešení obdržíme z podmínky x = y = z. Označíme-li tuto společnou proměnnou u, platí pro ni zřejmě u2 − 2u = u(u − 2) = 0. Řešení u = 0 už bylo nalezeno, druhým řešením je x2 = y2 = z2 (= u2 ) = 2. Funkce má tedy dva stacionární body: [0,0,0] a [2,2,2]. Kvalitu těchto bodů určíme pomocí Hessovy matice. Zřejmě ∂2f ∂2f ∂2f ∂ 2f ∂ 2f ∂ 2f = 6x; = 6y; = 6z; = −3; = −3; = −3; . ∂x2 ∂y 2 ∂z 2 ∂x∂y ∂x∂z ∂y∂z Proto
0 −3 −3 H f (0, 0, 0) = −3 0 −3 . −3 −3 0
Tato matice má první rohový hlavní minor M1 = 0, takže Hurwitzovo kriterium v jednoduchém tvaru selhává. Kvadratická funkce (forma) příslušející k této matici má tvar
x [x, y, z]H f (0, 0, 0) y = −6(xy + xz + yz) . z
Protože např. pro x = 0, y = z = 1 má tato funkce zápornou hodnotu (-6) a pro x = 0, y = 1, z = −1 hodnotu kladnou (6), je příslušná matice indefinitní a bod [0,0,0] je sedlem. Dále je
12 −3 −3 H f (2, 2, 2) = −3 12 −3 . −3 −3 12 15
Pro rohové hlavní minory Mk řádu k platí zřejmě M1 = 12; M2 = 153; M3 = 117 · 12 − 54 = 1350 . Všechny tyto minory jsou kladné, takže podle Hurwitzova kriteria je Hessova matice ve stacionárním bodě pozitivně definitní a tento bod jest tedy lokálním minimem. Poznámka: Pokud je Hessova matice ve stacionárním bodě semidefinitní, může v některých případech pomoci následující úvaha. Nechť x0 je stacionární bod funkce f (x). Pro libovolný jednotkový vektor d směru sestrojíme funkci jedné proměnné tvaru gd (t) = f (x0 + td). Z předpokladu stacionarity bodu x0 plyne, že pro každé d je ′ gd (0) = 0. Nula jest tedy stacionárním bodem každé z těchto funkcí. Zkoumejme kvalitu tohoto stacionárního bodu funkce jedné proměnné pro různá d metodikou znaménka vyšších derivací. Jestliže existují dva různé směry s rozdílnými typy stacionárního bodu v nule (lokální maximum, lokální minimum nebo inflexe s vodorovnou tečnou), nebo existuje alespoň jeden směr s inflexí v nule, funkce f (x) zřejmě nemá v bodě x0 lokální extrém a stacionární bod je proto sedlem. Bohužel ovšem, pokud se pro všechny směry potvrdí nula jakožto extrém téže kvality (maximum nebo minimum), nemůžeme říci o kvalitě příslušného stacionárního bodu funkce n proměnných nic. Může se totiž stát, že blížíme-li se k bodu x0 po jiné křivce (než přímka), kvalita nuly jakožto stacionárního bodu příslušné funkce jedné proměnné už bude jiná. Příklad: Určíme kvalitu stacionárních bodů funkce f (x, y) = x3 + y 3 . Řešení: Zřejmě je gradf (x, y) = [3x2 , 3y 2 ]T . Podmínka stacionarity dává gradf = 0 ⇔ x = 0, y = 0 .
Jediným stacionárním bodem je proto bod [0,0]. Pro Hessovu matici máme H f (x, y) = 6
"
x 0 0 y
#
⇒ H f (0, 0) =
"
0 0 0 0
#
.
Protože nulová matice je zaručeně semidefinitní, nelze kvalitu nalezeného stacionárního bodu posoudit. Volme proto jednotkový vektor d = [d1 , d2 ]T . Funkce gd (t) jedné proměnné má tvar gd (t) = f (d1 t, d2 t) = (d31 + d32 )t3 . Zkoumejme nulu jakožto stacionární bod těchto funkcí. Je ′ gd (t) = 3(d31 + d32 )t2 = 0 ⇔ t = 0 tak, jak předpokládáme. Zkoumejme další derivace těchto funkcí v bodě nula. Je ′′ ′′ gd (t) = 6(d31 + d32 )t ⇒ gd (0) = 0 , ′′′ ′′′ gd (t) = 6(d31 + d32 ) ⇒ gd (0) = 6(d31 + d32 ) 6= 0 ,
protože d je jednotkovým vektorem. Vzhledem k tomu, že první nenulová derivace má liché pořadí, má každá funkce gd v nule inflexi s vodorovnou tečnou. Bod [0,0] je tedy sedlem funkce f . Příklad: Určíme kvalitu stacionárních bodů funkce f (x, y) = x3 + y 2 . Řešení: Zřejmě je gradf (x, y) = [3x2 , 2y]T . Podmínka stacionarity dává 16
gradf = 0 ⇔ x = 0, y = 0 .
Jediným stacionárním bodem je proto bod [0,0]. Pro Hessovu matici máme H f (x, y) =
"
6x 0 0 2
#
⇒ H f (0, 0) =
"
0 0 0 2
#
.
Tato matice je evidentně pozitivně semidefinitní, takže kvalitu nalezeného stacionárního bodu nelze posoudit. Volme proto jednotkový vektor d = [d1 , d2 ]T . Funkce gd (t) jedné proměnné má tvar gd (t) = f (d1 t, d2 t) = d31 t3 + d22 t2 . Zkoumejme nulu jakožto stacionární bod těchto funkcí. Je ′ gd (t) = 3d31 t2 + 2d22 t = 0 ⇔ t = 0 2d2
tak, jak předpokládáme. Nenulový stacionární bod te = − 3d32 funkce g nemá pro nás 1 význam. Zkoumejme další derivace těchto funkcí v bodě nula. Je ′′ ′′ (0) = 2d22 . (t) = 6d31 t + 2d22 ⇒ gd gd Pro taková d, pro která d2 6= 0 je druhá derivace ve stacionárním bodě kladná. Všechny takové funkce mají proto v nule lokální minimum. Podívejme se ještě na případ d2 = 0, ′′ tedy d = [d1 , 0]T , d1 6= 0. Pro tato d je gd (0) = 0, takže musíme určit ještě další derivaci. Je ′′′ ′′′ gd (t) = gd (0) = 6d31 6= 0 . Protože se jedná o derivaci lichého řádu, má příslušná funkce gd (t) v nule inflexi. Pro funkci f (x) to znamená, že má ve stacionárním bodě [0,0] sedlo.
Příklad: Prozkoumejme kvalitu stacionárního bodu [0,0] pro funkci f (x, y) = (y − x4 )(y − x2 ) = x6 − x4 y − x2 y + y 2 .
Podmínka stacionarity gradf = 0 dává soustavu rovnic
6x5 − 4x3 y − 2xy = 0 , −x4 − x2 + 2y = 0 .
Tato soustava má evidentně řešení x1 = y1 = 0. Další čtyři řešení, které jsou x2,3 = = ± √12 , y2,3 = 38 a x4,5 = ±1, y4,5 = 1, nás v tuto chvíli nebudou zajímat. Bod [0,0] je tedy zaručeně stacionárním bodem zadané funkce. Prozkoumáme jeho kvalitu. Pro Hessovu matici máme
H f (x, y) =
"
30x4 − 12x2 y − 2y −4x3 − 2x −4x3 − 2x 2
#
⇒ H f (0, 0) =
"
0 0 0 2
#
.
Tato matice je evidentně pozitivně semidefinitní, takže kvalitu nalezeného stacionárního bodu nelze posoudit. Volme proto jednotkový vektor d = [d1 , d2 ]T . Funkce gd (t) jedné proměnné má tvar gd (t) = f (d1 t, d2 t) = d61 t6 − d41 d2 t5 − d21 d2 t3 + d22 t2 . 17
Zkoumejme nulu jakožto stacionární bod těchto funkcí. Je ′ gd (t) = 6d61 t5 − 5d41 d2 t4 − 3d21 d2 t2 + 2d22 t = 0 ⇔ t = 0
tak, jak předpokládáme. Nenulové další stacionární body funkce g nemají pro nás význam. Zkoumejme další derivace těchto funkcí v bodě nula. Je ′′ ′′ gd (t) = 30d61 t4 − 20d41 d2 t3 − 6d21 d2 t + 2d22 ⇔ gd (0) = 2d22 . Pro taková d, pro která d2 6= 0 je druhá derivace ve stacionárním bodě kladná. Všechny takové funkce mají proto v nule lokální minimum. Podívejme se ještě na případ d2 = 0, ′′ tedy d = [d1 , 0]T , d1 6= 0. Pro tato d je gd (0) = 0, takže musíme určit ještě další ′′ 6 4 derivaci. Protože pro taková d je gd (t) = 30d1 t , dostáváme dalšími derivacemi ′′′ ′′′ IV IV gd (t) = 120d61 t3 ⇒ gd (0) = 0 ; gd (t) = 360d61 t2 ⇒ gd (0) = 0 ; V V VI VI gd (t) = 720d61 t ⇒ gd (0) = 0 ; gd (t) = 720d61 ⇒ gd (0) = 720d61 > 0 . Protože se jedná o derivaci sudého řádu, má i tato funkce v nule lokální minimum. Přesto o kvalitě stacionárního bodu [0,0] funkce f (x) nemůžeme říci nic.
Poznámka: Přibližme se k bodu [0,0] po kubické parabole. Zkoumejme tedy funkci jedné proměnné h(t) = f (x, x3 ) = −x7 + 2x6 − x5 na kvalitu nuly, jakožto stacionárního bodu. Zřejmě h′ (x) = −7x6 + 12x5 − 5x4 ⇒ h′ (0) = 0 ,
tak jak předpokládáme. Ostatní dva stacionární body funkce h nás v tuto chvíli nezajímají. Dále je h′′ (x) = −42x5 +60x4 −20x3 ⇒ h′′ (0) = 0 , h′′′ (x) = −210x4 +240x3 −60x2 ⇒ h′′′ (0) = 0 , hIV (x) = −840x3 + 720x2 − 120x ⇒ hIV (0) = 0 ,
hV (x) = −2520x2 + 1440x − 120 ⇒ hV (0) = −120 < 0 .
Protože se jedná o derivaci lichého řádu, má funkce h v nule inflexi a funkce f v bodě [0,0] má sedlo. Tento výsledek je ovšem uměle připravený. Žádného řešitele by nenapadlo po proběhnutí všech funkcí gd zkoumat ještě nějaké jiné funkce jedné proměnné. Speciální postavení mezi funkcemi n proměnných má tzv. kvadratická funkce. Funkce f (x) = f (x1 , . . . , xn ) = c +
n X i=1
bi xi +
n X n X
aij xi xj
i=1 j=1
se nazývá kvadratickou funkcí generovanou skalárem c, vektorem b = [bi ] a (symetrickou) maticí A = [aij ]. Prostřednictvím maticových operací se dá tato funkce bez použití sumací napsat jako f (x) = c + bT x + xT Ax. Určíme pro takto definovanou kvadratickou funkci její gradient a Hessovu matici. Pro libovolné k ∈ (1, . . . , n) zřejmě je n n X X ∂f = bk + aik xi + akj xj . ∂xk i=1 j=1
18
Protože matice A je symetrická a sčítací index lze označit libovolně, máme odtud n X ∂f = bk + 2 akj xj . ∂xk j=1 2
f Dále zřejmě pro libovolné l ∈ (1, . . . , n) je ∂x∂k ∂x = 2akl . Napíšeme-li poslední dva výrazy l pro všechny indexy najednou maticově, dostaneme podle definice gradientu a Hessovy matice funkce f
gradf (x) = b + 2Ax ; H f (x) = 2A . Tvrzení: (Taylorův rozvoj funkce n proměnných) Nechť funkce f (x) = f (x1 , . . . , xn ) (0) má v okolí bodu x0 = [x1 , . . . , x(0) n ] všechny potřebné derivace. Potom pro x z tohoto okolí platí
f (x) = f (x0 ) +
n X ∂f i=1
+
(0)
∂xi
(x0 )(xi − xi ) +
n X n 1X ∂2f (0) (0) (x0 )(xi − xi )(xj − xj ) + · · · + 2 i=1 j=1 ∂xi ∂xj
n n X ∂kf 1 X (0) (0) (x0 )(xi1 − xi1 ) · · · (xik − xik ) + · · · . ··· k! i1 =1 ∂x · · · ∂x i1 ik ik =1
Poznámka: Vezmeme-li z Taylorova rozvoje pouze první dva členy, říkáme, že byla v okolí bodu x0 provedena lineární náhrada funkce. Příslušný vztah má potom tvar f (x) ≈ f (x0 ) +
n X ∂f
i=1 ∂xi
(0)
(x0 )(xi − xi ) ,
takže užitím vektoru gradientu funkce a maticového násobení píšeme f (x) ≈ f (x0 ) + gradT (x0 ) · (x − x0 ) .
Geometricky vzato je graf funkce v okolí zkoumaného bodu nahrazen tečnou nadrovinou (viz také definice totálního diferenciálu). Poznámka: Vezmeme-li z Taylorova rozvoje pouze první tři členy, říkáme, že byla v okolí bodu x0 provedena kvadratická náhrada funkce. Příslušný vztah má potom tvar
f (x) ≈ f (x0 ) +
n X ∂f i=1
∂xi
(0)
(x0 )(xi − xi ) +
n X n 1X ∂ 2f (0) (0) (x0 )(xi − xi )(xj − xj ) , 2 i=1 j=1 ∂xi ∂xj
takže užitím vektoru gradientu funkce, její Hessovy matice a maticového násobení píšeme 1 f (x) ≈ f (x0 ) + gradT f (x0 ) · (x − x0 ) + (x − x0 )T · H f (x0 ) · (x − x0 ) . 2 Geometricky vzato je graf funkce v okolí zkoumaného bodu ideálně nahrazen kvadratickou nadplochou. Připomeňme, že kvadratická náhrada je skutečně kvadratickou funkcí, generovanou skalárem f (x0 ), vektorem gradf (x0 ) a maticí 12 H f (x0 ), posunutou v argumentu o x0 . 19
Implicitní funkce více proměnné Tato podkapitola umožní zkoumat extrémy i funkce, definované implicitně pomocí anulované tzv. tvořící funkce obecně n + 1 proměnných. Bude to umožněno i v případech, kdy nelze implicitní funkci z tvořící funkce ”osamostatnit”. Základem pro další úvahy je následující tvrzení zásadního významu (tzv. věta o implicitních funkcích více proměnných). Tvrzení: Nechť funkce n + 1 proměnných F (x, y) = F (x1 , . . . , xn , y), definovaná v okolí bodu [a, b] = [a1 , . . . , an , b], ve kterém F (a, b) = 0, má v tomto bodě spojité parciální derivace podle všech proměnných a navíc nechť ∂F (a, b) 6= 0. Potom existují kladná ∂y čísla δ1 a δ2 , že pro každé x z δ1 −okolí bodu a existuje v δ2 −okolí bodu b právě jedno y, pro které platí F (x, y) = 0. Na δ1 − okolí bodu a je tím definována tzv. implicitní ∂f funkce y = f (x). Tato funkce má v bodě a spojité první parciální derivace ∂x (a), pro i které platí ∂F (a, b) ∂f ∂xi , i = 1, . . . , n . (a) = − ∂F ∂xi (a, b) ∂y
(9)
Poznámka: Předchozí výraz získáme snadno tak, že formálně dosadíme za proměnnou y do tvořící funkce implicitní funkci f (x) a vzniklou (anulovanou) funkci n proměnných g(x) = F (x, f (x)) = 0 derivujeme podle pravidel o derivaci složené funkce. Dostaneme ∂g ∂F ∂F ∂f (x) = (x, f (x)) + (x) = 0 , i = 1, . . . , n . (x, f (x)) ∂xi ∂xi ∂y ∂xi
(10)
Odtud vzorec ve větě o implicitních funkcích bezprostředně plyne. Tato poznámka má význam ve výpočetní praxi. První parciální derivace implicitní funkce (které za uvedených předpokladů existují i na δ1 − okolí bodu a) počítáme podle zde uvedeného pravidla. Poznámka: (Velmi důležitá pro výpočetní praxi) Jestliže tvořící funkce má spojité všechny parciální derivace druhého řádu v bodě [a, b], má i implicitní funkce f (x) spojité druhé parciální derivace v bodě a a tyto se v δ1 −okolí tohoto bodu určí derivováním výrazu (10) podle xj při dodržení pravidel o derivování složených funkcí. Jestliže si uvědomíme, že každá z derivací tvořící funkce opět závisí na proměnných x = [x1 , . . . , xn ] a y, kdy za y dosazujeme f (x), dostaneme derivací (10) (body, ve kterých derivace vyjadřujeme vynechávám a rovněž využívám záměnnosti smíšených derivací, která plyne z jejich spojitosti) ∂2F ∂2F ∂f ∂ 2F ∂f ∂ 2 F ∂f ∂f ∂F ∂2f ∂2g = + · + · + · + · = 0, · ∂xi ∂xj ∂xi ∂xj ∂xi ∂y ∂xj ∂xj ∂y ∂xi ∂y 2 ∂xi ∂xj ∂y ∂xi ∂xj (11) i, j = 1, 2, . . . , n . Z této rovnice snadno určíme druhé parciální derivace implicitní funkce jako ∂ 2f 1 = − ∂F ∂xi ∂xj ∂y
"
#
∂2F ∂ 2F ∂2F ∂ 2 F ∂f ∂f ∂f ∂f + · + · + · · , ∂xi ∂xj ∂xi ∂y ∂xj ∂xj ∂y ∂xi ∂y 2 ∂xi ∂xj 20
(12)
i, j = 1, 2, . . . , n . Jestliže (za předpokladu spojitosti třetích parciálních derivací tvořící funkce v bodě a) analogicky zderivujeme i rovnici (11), dostaneme (využíváme přitom záměnnosti smíšených derivací) ∂3g ∂3F ∂3F ∂3F ∂f ∂ 3F ∂f = + · + + · 2 ∂xi ∂xj ∂xk ∂xi ∂xj ∂xk ∂xi ∂xj ∂y ∂xk ∂xi ∂xk ∂y ∂xi ∂y ∂xk ∂ 3F ∂f ∂3F + · ∂xj ∂xk ∂y ∂xj ∂y 2 ∂xk
!
∂f ∂ 3 F ∂f ∂3F · + + · ∂xi ∂xk ∂y 2 ∂y 3 ∂xk
∂ 2F ∂2f ∂f ∂2f ∂f + 2 · · + · ∂y ∂xi ∂xk ∂xj ∂xj ∂xk ∂xi +
!
!
∂2F ∂ 2 F ∂f + + · ∂xk ∂y ∂y 2 ∂xk
·
!
·
∂f + ∂xj
∂f ∂f · ∂xi ∂xj
!
·
∂2f + ∂xi ∂xj
∂F ∂3f · = 0 , i, j, k = 1, 2, . . . , n . ∂y ∂xi ∂xj ∂xk
Z této rovnice určíme, při znalosti parciálních derivací tvořící funkce až do řádu tři včetně a při znalosti parciálních derivací implicitní funkce až do řádu dvě včetně, všechny parciální derivace implicitní funkce řádu právě tři. Podobně bychom (kdybychom na to měli dostatek síly a trpělivosti) mohli derivovat dále na vyšší derivace. Protože nutnou podmínkou existence lokálního extrému diferencovatelné funkce více proměnných je nulovost gradientu, dostáváme z výrazu (9) ihned nutnou podmínku pro existenci lokálního extrému implicitní funkce jako podmínku ∂F = 0 , i = 1, . . . , n , ∂xi při současném splnění podmínky F (x, f (x)) = 0 a při vyloučení bodů, kde Stručně lze nutnou podmínku extrému implicitní funkce psát jako
∂F ∂y
= 0.
gradx F (x, y) = 0 , když indexem x u gradientu rozumíme jeho tvorbu pouze vzhledem k prvním n proměnným x = [x1 , . . . , xn ]. Jestliže budeme zkoumat postačující podmínku extrému implicitní funkce, budeme to provádět pouze v bodě ”podezřelém” z extrému (tedy v bodě, ve kterém gradf (x) = 0). Z rovnice (12) pak plyne, že v tomto bodě platí ∂2F
∂2f ∂xi ∂xj = − ∂F . ∂xi ∂xj ∂y
(13)
Stručně můžeme psáti, že pro Hessovu matici implicitní funkce v bodě ”podezřelém z extrému” platí Hf = −
H F,x
21
∂F ∂y
.
Indexem x u Hessovy matice rozumíme její tvorbu pouze vzhledem k prvním n proměnným x = [x1 , . . . , xn ]. Na základě těchto výsledků lze formulovat následující tvrzení: Tvrzení: Nechť [x0 , y0 ] je bod, ve kterém gradxF (x0 , y0 ) = 0 a F (x0 , y0 ) = 0 (tedy bod ”podezřelý” z extrému implicitní funkce o funkční hodnotě y0 = f (x0 )). Potom platí: 1. Jestliže matice H F,x (x0 , y0 ) je pozitivně definitní a funkce f v bodě x0 lokální maximum.
∂F (x0 , y0 ) ∂y
> 0, má implicitní
2. Jestliže matice H F,x (x0 , y0 ) je pozitivně definitní a funkce f v bodě x0 lokální minimum.
∂F (x0 , y0 ) ∂y
< 0, má implicitní
3. Jestliže matice H F,x (x0 , y0 ) je negativně definitní a funkce f v bodě x0 lokální minimum.
∂F (x0 , y0 ) ∂y
> 0, má implicitní
4. Jestliže matice H F,x (x0 , y0 ) je negativně definitní a funkce f v bodě x0 lokální maximum.
∂F (x0 , y0 ) ∂y
< 0, má implicitní
Příklad: Mějme tvořící funkci tří proměnných F (x1 , x2 , y) = x21 +x22 +y 2 −2x1 −2x2 −4y. Určeme, kde je definována implicitní funkce y = f (x1 , x2 ), stanovme body ”podezřelé” z jejího extrému a určeme kvalitu tohoto extrému. Řešení: Vyloučíme body, kde ∂F = 2y − 4 = 0 ⇔ y = 2 . ∂y Nutná podmínka extrému implicitní funkce je
gradx F = 0 ⇔
∂F ∂F = 2x1 − 2 = 0 ; = 2x2 − 2 = 0 ⇔ [x1 , x2 ] = [1, 1] . ∂x1 ∂x2
Zkontrolujeme postačující podmínku. Protože platí ∂2F ∂2F ∂2F = 2 ; = 2, = 0 ; ∂x21 ∂x1 ∂x2 ∂x22 "
#
2 0 je Hessova matice H F,x = pozitivně definitní. Protože je konstantní, má tuto 0 2 vlastnost v libovolném bodě, tedy i v bodě ”podezřelém z extrému”. Abychom mohli vyčíslit ∂F = 2y − 4, musíme z anulované tvořící funkce pro bod ”podezřelý z ex∂y trému” určit příslušnou funkční hodnotu implicitní funkce. Dosazením x1 = x2 = 1 do F (x1 , x2 , y) = x21 + x22 + y 2 − 2x1 − 2x2 − 4y = 0 dostaneme pro funkční hodnotu y implicitní funkce kvadratickou rovnici tvaru y 2 − 4y − 2 = 0 ⇔ y1,2 = 2 ±
√
6.
Získáváme tak v okolí bodu [1,1] vlastně dvě implicitní funkce. Jednu s funkční hodnotou √ √ 2 + 6 a druhou s hodnotou 2 − 6. Hodnota derivace dle y potom je √ ∂F √ ∂F |y=2+√6 = 2 6 ; |y=2−√6 = −2 6 . ∂y ∂y 22
Odtud a ze vztahu pro H f plyne, že pro implicitní funkci se znaménkem plus je H f negativně definitní, takže implicitní funkce má v ”podezřelém” bodě maximum, zatímco pro druhou implicitní funkci je H f positivně definitní, takže tato funkce má v ”podezřelém” bodě minimum. Poznámka: Doplněním tvořící funkce na kvadráty dostaneme F (x1 , x2 , y) = x21 + x22 + y 2 − 2x1 − 2x2 − 4y = (x1 − 1)2 + (x2 − 1)2 + (y − 2)2 − 6 = 0 , √ což je rovnice kulové plochy se středem v bodě [1,1,2] o poloměru r = 6. Horní √ polokoule této kulové plochy tvoří jednu implicitní funkci s maximem o hodnotě 2 + 6v √ bodě [1,1] a spodní polokoule tvoří druhou implicitní funkci s minimem 2 − 6 v tomtéž bodě nabývání. Definice: Nechť F (x) = F (x1 , . . . , xn ) je funkce n proměnných. Množinu {x; F (x) = C}
nazýváme vrstevnicí funkce f příslušející ke konstantě C. Funkce Fb (x) = F (x) − C je tvořící funkcí, pomocí které lze (alespoň v místech, kde ∂F 6= 0), definovat implicitní funkci f (x1 , . . . , xn−1 ). Má-li původní funkce F spojité ∂xn první parciální derivace, má je i implicitní funkce f (x1 , . . . , xn−1 ) a platí ∂F
∂f i = − ∂x ∂F ; i = 1, . . . , n − 1 . ∂xi ∂xn (0)
(14)
(0)
(0)
(0)
Rovnice tečné nadroviny k vrstevnici v bodě [x1 , . . . , xn−1 , f (x1 , . . . , xn−1 )] má zřejmě tvar xn − x(0) n =
n−1 X i=1
∂f (0) (x0 )(xi − xi ) . ∂xi
Podotýkáme, že nadrovina je v tomto případě varietou dimenze n − 1. Dosazením z výrazu (14) dostaneme rovnici tečné nadroviny k vrstevnici jako xn −
x(0) n
=
∂F n−1 X ∂x (x0 ) i − (xi ∂F i=1 ∂xn (x0 )
(0)
− xi ) .
Roznásobením a úpravou odtud získáme rovnici tečné nadroviny ve tvaru n X ∂F
i=1 ∂xi
(0)
(x0 )(xi − xi ) = 0 .
Tato rovnice zůstává ovšem v platnosti i pro případy nadroviny k vrstevnici má v tomto případě tvar n−1 X i=1
∂F ∂xn
(15) = 0 , protože rovnice tečné
∂F (0) (x0 )(xi − xi ) = 0 . ∂xi
Rovnice (15) je proto rovnicí tečné nadroviny k vrstevnici ve všech případech. Pomocí vektoru gradientu ji lze snadno přepsat na gradT F (x0 )(x − x0 ) = 0 . 23
y f = f (x) .
y0
grad F (x 0, y 0) F (x, y) = c
x0
x
Obrázek 6: Vrstevnice funkce dvou proměnných
Interpretací zde popsaného skalárního součinu jsme dokázali, že vektor gradientu funkce F je kolmý k tečné nadrovině k vrstevnici v příslušném bodě. Poznámka: Geometricky názornější situace je pro funkce dvou proměnných F (x, y). Tečnou nadrovinou je potom varieta dimenze 1, tedy tečna (přímka). Vektor gradF (x0 , y0 ) je potom kolmý na tečnu k vrstevnici funkce F (x, y), která přísluší ke konstantě C = = F (x0 , y0 ). Situace jest patrna na obr.6.
24