ˇ A ´ INTELIGENCE KYBERNETIKA A UMEL 8-9. Pravdˇ epodobnostn´ı rozhodov´ an´ı a predikce
laboratory
Gerstner
Gerstnerova laboratoˇr katedra kybernetiky fakulta elektrotechnick´ a ˇ CVUT v Praze
Rozhodov´ an´ı za neurˇ citosti
Dosud v UI pˇredn´aˇsk´ach: − vyhled´av´an´ı co nejlepˇs´ıho ˇreˇsen´ı probl´emu − za deterministick´ ych podm´ınek (bez neurˇcitosti).
D˚ uleˇzitou schopnost´ı inteligentn´ıch syst´em˚ u je ale tak´e schopnost − vybrat co nejlepˇs´ı rozhodnut´ı − za nejist´ ych podm´ınek (s neurˇcitost´ı).
Pˇr´ıklad: Jet z A do B tramvaj´ı, nebo metrem?
− Tramvaj: rychlejˇs´ı cesta dle j´ızdn´ıho ˇr´adu, ale velmi nejist´e dodrˇzen´ı. − Metro: delˇs´ı cesta, ale t´emˇeˇr jist´e dodrˇzen´ı. ˇ Pˇr´ıklad: kam smˇeˇrovat dopis s t´ımto PSC?
− 15700? 15706? 15200? 15206?
Jak se optim´ alnˇ e rozhodnout?
Oba pˇr´ıklady lze formalizovat stejn´ym r´amcem.
Pˇr´ıklad
[Kotek, Vysok´ y, Zdr´ ahal: Kybernetika 1990]
Pan´ı Nov´akov´a se vrac´ı z pr´ace. Co uvaˇr´ı pan Nov´ak k veˇceˇri?
Napadly ho 3 moˇznosti
rozhodnut´ı (d - decision):
− nic . . . neudˇ elat nic ⇒ ˇz´adn´a pr´ace, ale zhorˇs´ı n´aladu p´ı. Nov´akov´e. − pizza . . . ohˇr´ at mraˇ zenou pizzu ⇒ nen´ı pracn´e, ale neohrom´ı. − n.h. . . . nad´ıvan´ a holoubata ⇒ udˇel´a j´ı radost, ale velmi pracn´e.
P. Nov´ak ˇc´ıselnˇe zhodnot´ı m´ıru nepˇr´ıjemnosti zp˚ usobenou jednotliv´ymi rozhodnut´ımi. Ta z´avis´ı na tom, s jakou n´aladou pˇrijde p´ı. Nov´akov´a dom˚ u, coˇz je nezn´ am´ y stav. Rozliˇsme tyto moˇznosti: − dobr´a . . . p´ı. Nov´akov´a m´a dobrou n´aladu. − pr˚ umˇern´a . . . p´ı. Nov´akov´a m´a pr˚ umˇ ernou n´aladu. − ˇspatn´a . . . p´ı. Nov´akov´a m´a ˇspatnou n´aladu.
Pro kaˇzdou z 9 moˇzn´ych situac´ı (3 moˇzn´a rozhodnut´ı × 3 moˇzn´e stavy) je nepˇr´ıjemnost d´ana ztr´ atovou funkc´ı l(d, s) (l - loss): l(d, s) d = nic d = pizza d = n.h. x = dobr´a 0 2 4 x = pr˚ umˇern´a 5 3 5 x = ˇspatn´a 10 9 6
Pˇr´ıklad (pokraˇ cov´ an´ı)
Nezn´am´y stav - n´aladu p´ı. Nov´akov´e - zkus´ı p. Nov´ak odhadnout experimentem: sdˇel´ı j´ı, ˇze ztratil jej´ı obl´ıben´y ˇcasopis a sleduje jej´ı reakci. Pˇredpokl´ad´a 4 moˇzn´e reakce: − m´ırn´a . . . nic se nedˇeje, ˇcasopis najdeme. − podr´aˇzdˇen´a . . . proˇc ned´av´aˇs vˇeci na sv´e m´ısto? − nasupen´a . . . proˇc j´a si toho Nov´aka brala? − hroziv´a . . . rezignovan´e mlˇcen´ı
Reakce je pˇr´ımo pozorovateln´y
pˇr´ıznak (zde n´alady).
Ze zkuˇsenosti p. Nov´ak v´ı, jak jsou jednotliv´e reakce pravdˇepodobn´e pˇri dan´e n´aladˇe: to vystihuje podm´ınˇen´e rozloˇzen´ı P (x|s). P (x|s)
x= x= x= x= m´ırn´a podr´aˇzdˇen´a nasupen´a hroziv´a s = dobr´a 0.5 0.4 0.1 0 s = pr˚ umˇern´a 0.2 0.5 0.2 0.1 s = ˇspatn´a 0 0.2 0.5 0.3
Rozhodovac´ı strategie
Rozhodovac´ı strategie: pravidlo pro v´ybˇer rozhodnut´ı na z´akladˇe pozorovan´eho pˇr´ıznaku.
Tj. funkce d = δ(x).
Pˇr´ıklady moˇzn´ych strategi´ı p. Nov´aka: δ(x) x = m´ırn´a x = podr´aˇzdˇen´a x = nasupen´a x = hroziv´a δ1(x) = nic nic pizza n.h. nic pizza n.h. n.h. δ2(x) = δ3(x) = n.h. n.h. n.h. n.h. δ4(x) = nic nic nic nic
Celkem m´a k dispozici 34 = 81 moˇzn´ych strategi´ı (3 moˇzn´a rozhodnut´ı pro kaˇzdou ze 4 moˇzn´ych hodnot pˇr´ıznaku).
Jak urˇcit, kter´a ze dvou strategi´ı je lepˇs´ı? Obecnˇe: jak strategie uspoˇr´adat dle kvality?
Definujeme
riziko strategie pˇri stavu s: stˇredn´ı hodnota ztr´aty podm´ınˇen´a stavem s. R(δ, s) =
X x
l(δ(x), s)P (x|s)
Krit´ erium MiniMax
Pˇr´ıklad: riziko strategie δ1 pˇri stavu s = dobr´a je
R(δ1, dobr´a) = l(δ1(m´ırn´a), dobr´a)·P (m´ırn´a|dobr´a)+l(δ1(podr´aˇzdˇen´a), dobr´a)·P (podr´aˇzdˇen´a|dobr´a) +l(δ1(nasupen´a), dobr´a) · P (nasupen´a|dobr´a) + l(δ1(hroziv´a), dobr´a) · P (hroziv´a|dobr´a) = l(nic, dobr´a) · 0.5 + l(nic, dobr´a) · 0.4 + l(pizza, dobr´a) · 0.1 + l(n.h., dobr´a) · 0 = 0 · 0.5 + 0 · 0.4 + 2 · 0.1 + 4 · 0 = 0.2
Podobnˇe: R(δ1, pr˚ umˇern´a) = 4.4 a R(δ1, ˇspatn´a) = 8.3
Maxim´ aln´ı riziko strategie δ1 (pˇres vˇsechny moˇzn´e stavy) je tedy 8.3.
Podobnˇe: maxim´aln´ı riziko strategie δ3 je 6.
MiniMaxov´ e krit´erium: ze dvou strategi´ı je lepˇs´ı ta, jej´ıˇz maxim´aln´ı riziko je niˇzˇs´ı.
Tedy podle MiniMaxu je δ3 lepˇs´ı neˇz δ1.
Nejlepˇs´ı strategie δ ∗ je podle MiniMaxu ta, kter´a minimalizuje maxim´ aln´ı riziko: δ ∗ = arg min max R(δ, s) δ
s
Pro jej´ı nalezen´ı bychom v aktu´aln´ım pˇr´ıkladˇe museli spoˇc´ıtat max. rizika vˇsech 81 moˇzn´ych strategi´ı.
Bayesovsk´ e krit´ erium
Co kdyˇz p. Nov´ak v´ı, ˇze p. Nov´akov´a m´a obvykle dobrou n´aladu? Obecnˇeji: v´ı, jak jsou jej´ı jednotliv´e n´alady pravdˇepodobn´e, tj. zn´a rozloˇzen´ı P (s). Napˇr: x = dobr´a s = pr˚ umˇern´a s = ˇspatn´a P (s) = 0.7 0.2 0.1
MiniMaxov´e krit´erium tuto znalost nezohledˇnuje.
D´ıky znalosti P (s) lze spoˇc´ıtat
stˇredn´ı riziko dan´e strategie pˇres vˇsechny moˇzn´e stavy: r(δ) =
X
R(δ, s)P (s)
s
Tedy napˇr. r(δ1) = 0.2 · 0.7 + 4.4 · 0.2 + 8.3 · 0.1 = 1.85 r(δ3) = 4 · 0.7 + 5 · 0.2 + 6 · 0.1 = 4.4
Bayesovsk´ e krit´ erium: ze dvou strategi´ı je lepˇs´ı ta s niˇzˇs´ım stˇredn´ım rizikem. Z Bayesovsk´eho hlediska je tedy δ1 lepˇs´ı neˇz δ3. Opaˇcnˇe proti MiniMaxov´emu krit´eriu!
Bayesovsky optim´ aln´ı strategie
Bayesovsky optim´ aln´ı strategie je ta, kter´a minimalizuje stˇredn´ı riziko. Tj. δ ∗ = arg min r(δ) δ
Protoˇze P (x|s)P (s) = P (s|x)P (x) (Bayesovo pravidlo), plat´ı X XX r(δ) = R(δ, s)P (s) = l(δ(x), s)P (x|s)P (s) s
=
XX s
s
x
l(δ(x), s)P (s|x)P (x) =
X
x
x
P (x)
X
l(δ(x), s)P (s|x)
|s
{z
}
Podm´ınˇen´e riziko
Optim´aln´ı strategii tedy m˚ uˇzeme dostat minimalizac´ı podm´ınˇen´eho rizika zvl´aˇst’ pro kaˇzd´e x: ∗
δ (x) = arg min d
X
l(d, s)P (s|x)
s
Tedy narozd´ıl od MiniMaxov´e optim´aln´ı strategie nemus´ıme poˇc´ıtat riziko pro vˇsechny moˇzn´e strategie. Bayesovsky optim´aln´ı strategii lze “sestrojit bod po bodu” nalezen´ım optim´aln´ıho rozhodnut´ı pro jednotliv´a pozorov´an´ı x.
Statistick´ e rozhodov´ an´ı: shrnut´ı
Zad´ any: − Mnoˇzina moˇzn´ych stav˚ u: S − Mnoˇzina moˇzn´ych rozhodnut´ı: D − Ztr´ atov´ a funkce: zobrazen´ı l : D × S → < (re´aln´a ˇc´ısla) − Mnoˇzina moˇzn´ych hodnot pˇr´ıznaku X − Pravdˇepodobnostn´ı rozloˇzen´ı pˇr´ıznaku za dan´eho stavu P (x|s), x ∈ X , s ∈ S.
Definujeme: − Strategie: zobrazen´ı δ : X → D P − Riziko strategie δ pˇri stavu s ∈ S: R(δ, s) = x l(δ(x), s)P (x|s)
MiniMaxov´ au ´loha: − D´ale zad´ana: mnoˇzina pˇr´ıpustn´ych strategi´ı ∆. ´ − Uloha: nal´ezt optim´aln´ı strategii δ ∗ = arg minδ∈∆ maxs∈S R(δ, s)
Bayesovsk´ au ´loha: − D´ale zad´ano: pravdˇepodobnostn´ı rozloˇzen´ı stav˚ u P (s), s ∈ S. P − D´ale definujeme: stˇredn´ı riziko strategie δ: r(δ) = s R(δ, s)P (s) ´ − Uloha: nal´ezt optim´aln´ı strategii δ ∗ = arg minδ∈∆ r(δ) ˇ sen´ı: δ ∗(x) = arg mind P l(d, s)P (s|x) − Reˇ s
Pˇr´ıznakov´ e rozpozn´ av´ an´ı
Syst´emy pro rozpozn´av´an´ı. Pˇr´ıklad u´lohy:
Lze pˇrev´est na u´lohu statistick´eho rozhodov´an´ı
O jakou jde ˇc´ıslici? Pˇr´ıznak = vektor hodnot pixel˚ u. Pˇr´ıznakov´ e rozpozn´ av´ an´ı ˇc´ıslic: klasifikace do jedn´e ze tˇr´ıd 0 . . . 9 na z´akladˇe vektoru hodnot pixel˚ u.
Speci´aln´ı pˇr´ıpad statistick´eho rozhodov´an´ı:
− Pˇr´ıznakov´y vektor ~x = (x1, x2, . . . ): hodnoty pixel˚ u ˇc. 1, 2, . . . . − Mnoˇzina stav˚ u S = mnoˇzina rozhodnut´ı D = {0, 1, . . . 9}. − Stav = skuteˇcn´a tˇr´ıda, Rozhodnut´ı = rozpoznan´a tˇr´ıda. − Ztr´atov´a funkce: 0, d = s l(d, s) = 1, d 6= s Stˇredn´ı riziko = stˇredn´ı chyba klasifikace.
Bayesovsk´ a klasifikace
Obvykl´e krit´erium: minimalizace stˇredn´ı chyby
Optim´aln´ı klasifikace pˇri pˇr´ıznaku ~x: X ∗ δ (~x) = arg min l(d, s) P (s|~x) = arg max P (s|~x) | {z } s d s
Bayesovsk´a klasifikaˇcn´ı u´loha.
0 pokud d=s
Vol´ıme tedy nejpravdˇepodobnˇejˇs´ı tˇr´ıdu pro danou hodnotu pˇr´ıznakov´eho vektoru. Obvykle ale nen´ı zn´ amo rozloˇzen´ı P (s|~x). Je tˇreba odhadnout z tr´enovac´ıch dat (jiˇz klasifikovan´ych pˇr´ıklad˚ u).
Tr´ enovac´ı data (pˇr´ıklady): (~x1, s1), (~x2, s2), . . . (~xl , sl ).
Odhad:
poˇcet pˇr´ıklad˚ u v nichˇz ~xi = ~x a si = s poˇcet pˇr´ıklad˚ u v nichˇz ~xi = ~x Z´asadn´ı probl´ em pˇr´ıznakov´e klasifikace: P (s|~x) ≈
− Poˇcet pˇr´ıklad˚ u l postaˇcuj´ıc´ı ke spolehliv´emu odhadu P (s|~x) roste exponenci´ alnˇ e s poˇctem sloˇzek vektoru ~x. − tj. napˇr. s rozliˇsen´ım (poˇctem pixel˚ u) v rozpozn´avan´ych obrazc´ıch. − “proklet´ı kombinatorick´e exploze”. Re´aln´e u´lohy: jmenovatel ˇcasto nulov´y! − Bayesovsk´a klasifikace: horn´ı limit kvality klasifikace, v praxi obvykle nedosaˇziteln´y.
Bayesovsk´ a klasifikace
Lze t´eˇz vyuˇz´ıt Bayesova vztahu: P (s|~x) =
P (~x|s)P (s) P (~x)
Odhad P (~x|s): analogicky jako odhad P (s|~x).
Odhad P (s): jako relativn´ı ˇcetnost jednotliv´ych tˇr´ıd s v tr´enovac´ıch datech, tj. P (s) ≈
poˇcet pˇr´ıklad˚ u tˇr´ıdy s l
P (~x) nen´ı tˇreba odhadovat.
Proˇ c?
Tento pˇr´ıstup s´am o sobˇe neˇreˇs´ı probl´em mnoˇzstv´ı dat potˇrebn´ych k odhadu pravdˇepodobnost´ı.
Ale umoˇznˇuje ho “ˇreˇsit” nepˇr´ımo: 1. Hodnoty P (s) jsou ˇcasto explicitnˇ e zn´ amy a nen´ı nutno je odhadovat. ˇ je nejˇcastˇejˇs´ı ˇc´ıslice 1, napˇr P (1) = 0.6. Pˇr´ıklad: pˇri rozpozn´av´an´ı 1. ˇc´ıslice PSC Takto je do klasifikace zapojena apriorn´ı znalost o pravdˇepodobnostech tˇr´ıd. epodobnost’. P (s) . . . ‘apriorn´ı pravdˇ 2. Pˇr´ıstup umoˇznˇuje formulovat zjednoduˇsenou, tzv. naivn´ı Bayesovskou klasifikaci, v n´ıˇz nemus´ıme odhadovat P (~x|s), ale pouze P (x(1)|s), P (x(2)|s), . . ..
Naivn´ı Bayesovsk´ a klasifikace
Ve v´ yjimeˇ cn´ em pˇr´ıpadˇe statistick´ e nez´ avislosti jednotliv´ych pˇr´ıznakov´ych sloˇzek x(i) v r´amci kaˇzd´e tˇr´ıdy s plat´ı P (~x|s) = P (x(1)|s) · P (x(2)|s) · . . .
Staˇc´ı tedy odhadnout P (x(i)|s) zvl´aˇst’ pro kaˇzd´e i (a kaˇzd´e s). − Napˇr: P (x(3)|8) ≈ pod´ıl pˇr´ıpad˚ u ˇc´ıslice 8 s rozsv´ıcen´ym 3. pixelem. ˇ adn´a kombinatorick´a exploze (pouze jednosloˇzkov´e pravdˇepodobnosti). − Z´
V praxi: nez´avislost se ˇcasto pˇredpokl´ad´a, i kdyˇz neplat´ı, pˇr´ıp. plat´ı pˇribliˇznˇe. ˇ − Potom jde o tzv. Naivn´ı Bayesovskou klasifikaci. Casto u´spˇeˇsn´a metoda. Nez´avislost mezi pˇr´ıznakov´ymi sloˇzkami je jen jedn´ım z moˇ zn´ ych pˇredpoklad˚ u, jehoˇz splnˇen´ı vede k zabr´anˇen´ı kombinatorick´e explozi. Alternativn´ı pˇredpoklady jsou napˇr.: − Podobn´e objekty patˇr´ı do stejn´e tˇr´ıdy klasifikace dle nejbliˇ zˇs´ıch soused˚ u. − Tˇr´ıda je plnˇe urˇcena line´arn´ı kombinac´ı sloˇzek pˇr´ıznaku klasifikace dle line´ arn´ıho modelu.
Podobnˇe jako u naivn´ı b.k. se metody zaloˇzen´e na tˇechto pˇredpokladech s u´spˇechem pouˇz´ıvaj´ı, i kdyˇz jsou pˇredpoklady splnˇen´e jen pˇribliˇznˇe.
Klasifikace dle nejbliˇ zˇs´ıch soused˚ u
Podobnost ch´apeme jako malou vzd´alenost v prostoru pˇr´ıznakov´ych hodnot. Funkce mˇeˇr´ıc´ı vzd´alenost dvou pˇr´ıznakov´ych vektor˚ u, tzv. metrika: ρ : X × X → <+ ∪ {0} takov´a, ˇze ∀x, y, z: ρ(x, x) = 0, ρ(x, y) = ρ(y, x), ρ(x, z) ≤ ρ(x, y) + ρ(y, z). Pˇr´ıklad: − Euklidovsk´ a metrika pro vektory ~x1, ~x2 se re´aln´ymi sloˇzkami x1(i) resp. x2(i): pP 2 ρE (~x1, ~x2) = i (x1 (i) − x2 (i)) − Jsou-li sloˇzky bin´arn´ı (z {0, 1}), tak ρE (~x1, ~x2)2 je poˇcet sloˇzek, v nichˇz se ~x1 liˇs´ı od ~x2 tzv. Hammingova metrika.
Klasifikace dle k nejbliˇ zˇs´ıch soused˚ u (k-nearest neighbor classification, k-NN).
Zad´ano:
−k∈ℵ − tr´enovac´ı pˇr´ıklady: (~x1, s1), (~x2, s2), . . . (~xl , sl ) − metrika ρ : X × X → < − neklasifikovan´y objekt s pˇr´ıznakem ~x. ´ Uloha: klasifikovat ~x
Postup: z tr´enovac´ıch pˇr´ıklad˚ u vyber k nejbliˇzˇs´ıch k ~x vzhledem k metrice ρ. Tˇr´ıda, kter´e mezi nimi pˇrevl´ad´a, budiˇz tˇr´ıdou ~x.
Flexibilita klasifikace
Jak volit k? Obecn´a odpovˇed’ neexistuje, z´aleˇz´ı na konkr´etn´ıch datech. Obecn´ y trend: Uvaˇzujme tr´enovac´ı data se dvˇema tˇr´ıdami (ˇcerven´a/zelen´a) a ˇsumem (nˇekter´e si chybn´e). Znaˇcky - tr´enovac´ı data, kˇrivka - hranice klasifikace:
k = 1: Dobr´e pˇrizp˚ usoben´ı tr´enovac´ım dat˚ um. Velk´a citlivost k ˇsumu.
Bayesovsk´a klasifikace: M´enˇe flexibiln´ı neˇz 1-nn, v´ıce neˇz 15-nn.
ˇ k = 15: Spatn´ e pˇrizp˚ usoben´ı tr´enovac´ım dat˚ um. Mal´a citlivost k ˇsumu.
Vzpomeˇnte: Bayesovsk´a klasifikace δ ∗ m´a nejniˇzˇs´ı moˇzn´e stˇredn´ı riziko r(δ ∗). Pozn.: Zn´azornˇen´a Bayesovsk´a vych´az´ı z pˇresn´ych pravdˇepodobnost´ı P (s|~x), kter´e jsou pro klasifikaˇcn´ı algoritmus nezn´am´e! Pozorov´an´ı: pˇr´ıliˇs velk´a flexibilita (mal´e k) i pˇr´ıliˇs mal´a flexibilita (velk´e k) vedou ke klasifik´ator˚ um znaˇcnˇe odliˇsn´ym od Bayesovsk´eho, tedy ke zvyˇsov´an´ı stˇredn´ıho rizika r(δ). Podobn´y trend i klasifikaci zaloˇzen´e na modelech (napˇr. polynomi´aln´ı model flexibilnˇejˇs´ı neˇz line´arn´ı).
Tr´ enovac´ı chyba a stˇredn´ı riziko
Stˇredn´ı riziko r(δ) klasifik´atoru δ odpov´ıd´a relativn´ı ˇcetnosti jeho nespr´avn´ych klasifikac´ı. Definujme empirick´ e stˇredn´ı riziko rE (δ) (t´eˇz: “tr´enovac´ı chyba”) jako relativn´ı ˇcetnost nespr´avnˇe klasifikovan´ych pˇr´ıklad˚ u v tr´ enovac´ıch datech. Je rE (δ) dobr´ym odhadem skuteˇcn´eho stˇredn´ıho rizika r(δ)? Pˇr´ıklad: 1-nn nen´ı dobr´y klasifik´ator (viz minulou stranu), pˇrestoˇze spr´avnˇe klasifikuje vˇsechny tr´enovac´ı pˇr´ıklady, tj. m´a tr´enovac´ı chybu 0. Tr´enovac´ı chyba tedy nen´ı dobr´ym odhadem stˇredn´ıho rizika. Pro jeho odhad je tˇreba − m´ıt k dispozici tr´ enovac´ı mnoˇ zinu (~x1, s1), . . . (~xl , sl ) a nez´avislou testovac´ı mnoˇ zinu (~xl+1, sl+1), . . . (~xl+m, sl+m) − (m˚ uˇze vzniknout rozdˇelen´ım p˚ uvodn´ıch tr´enovac´ıch dat napˇr. v pomˇeru 75% a 25%). − klasifik´ator sestrojit na z´akladˇe tr´enovac´ı mnoˇziny − empirick´e stˇredn´ı riziko tohoto klasifik´atoru spoˇc´ıtat na testovac´ı mnoˇzinˇe.
Empirick´e stˇredn´ı riziko na testovac´ı mnoˇzinˇe je nevych´ ylen´ ym odhadem skuteˇcn´eho stˇredn´ı rizika. (Pozor: nevych´ylen´y neznamen´a pˇresn´y!)
(Umˇ el´ e) neuronov´ e s´ıtˇ e
Inspirov´any poznatky o neuronech a nervov´ych s´ıt´ıch ˇziv´ych organizm˚ u
Schopnost uˇcit se = extrahovat a reprezentovat z´avislosti v datech, kter´e nejsou zˇrejm´e
Schopnost ˇreˇsit silnˇe neline´arn´ı u´lohy – vyuˇzit´ı pro klasifikaci, regresi a predikci ˇcasov´ych ˇrad
Z´akladn´ı v´ypoˇcetn´ı jednotkou je neuron ˇ sen´ı probl´emu: Reˇ − Volba typu s´ıtˇe, metody uˇcen´ı − Regularizace - n´avrh topologie, pˇrizp˚ usoben´ı s´ıtˇe sloˇzitosti u´lohy − Uˇcen´ı - automatick´a optimalizace parametr˚ u (vah) na z´akladˇe tr´enovac´ıch pˇr´ıklad˚ u.
ξ=
Pn
i=1 wi xi
−θ
Sumaˇcn´ı potenci´al f (ξ) =
1 1+e−λξ
Aktivaˇcn´ı funkce Model neuronu. Nervov´a s´ıt’.
Typy neuronov´ ych s´ıt´ı
R˚ uzn´e typy s´ıt´ı pro r˚ uzn´e typ u´loh: − v´ıcevrstv´a perceptonov´a (MLP) - viz. d´ale, − Hopfieldova - autoasociaˇcn´ı, − Kohonenovy mapy - samoorganizuj´ıc´ı se, druh shlukov´e anal´yzy − RBF (Radial Basis Function), . . .
Autoasociativn´ı pamˇet’.
Samoorganizuj´ıc´ı se mapy.
Perceptron vs. v´ıcevrstv´ a s´ıt’
Nejjednoduˇsˇs´ı dopˇredn´a neuronov´a s´ıt’ - pouze dvˇe vrstvy Rosenblatt, 1957 – hlavn´ı pˇr´ınos oproti neuronu je adaptaˇcn´ı pravidlo − wnew = wold + α(outdesired − outactual )input, − α - rychlost uˇcen´ı, konverguje pokud v´ahy existuj´ı
Line´arn´ı (pro jeden v´yst. neuron bin´arn´ı) klasifik´ator Vhodn´a demonstrace pˇrechodu od line´arn´ı k neline´arn´ı klasifikaci
Perceptron.
Minsky, Papert: Perceptrons, 1969
− Z´asadn´ı omezen´ı perceptron˚ u, nelze implementovat mj. funkci XOR ˇ sen´ı aˇz v 80. letech - v´ıcevrstv´a s´ıt’ (nav´ıc skryt´a vrstva) Reˇ
Uˇcen´ı algoritmem zpˇetn´eho ˇs´ıˇren´ı (backpropagation) − Pˇrirozen´e rozˇs´ıˇren´ı metody nejmenˇs´ıch ˇctverc˚ u − Gradientn´ı optimalizace, chyba je zpˇetnˇe ˇs´ıˇrena od v´ystup˚ u na vnitˇrn´ı neurony ∂J − ∆w = −η ∂w , η - rychlost uˇcen´ı, J chybov´a funkce
Aktivaˇcn´ı funkc´ı typicky sigmoida nebo tanh (derivovatelnost)
Perceptron vs. v´ıcevrstv´ a s´ıt’
XOR jako v´ıcevrstv´a s´ıt’.
[Duda, Hart, Stork: Pattern Classification].
Neline´ arn´ı aproximace v´ıcevrstvou s´ıt´ı
Aproximace neline´arn´ı funkce MLP s´ıt´ı s architekturou 2-4-1. Je vyuˇzito ˇctyˇr protilehle um´ıstˇen´ych sigmoid´aln´ıch fc´ı vnitˇrn´ıch neuron˚ u. [Duda, Hart, Stork: Pattern Classification].
Neline´ arn´ı aproximace v´ıcevrstvou s´ıt´ı
Sloˇzitˇejˇs´ı architektury mohou implementovat libovoln´e rozhodovac´ı hranice (nekonvexn´ı, oddˇelen´e apod.) [Duda, Hart, Stork: Pattern Classification].