DIZERTACˇNI´ PRA´CE
Pouzˇitı´ neuronovy´ch sı´tı´ v analy´ze obrazu
Mgr. Marek Maly´ Katedra elektroniky a vakuove´ fyziky Matematicko-fyzika´lnı´ fakulta Univerzity Karlovy
Sˇkolitel prof. RNDr. Rudolf Hrach, DrSc. Katedra elektroniky a vakuove´ fyziky MFF UK Praha
f11 – Matematicke´ a pocˇ´ıtacˇove´ modelova´nı´ Praha 2006
Souhlası´m se zapu˚jcˇova´nı´m dizertacˇnı´ pra´ce.
Prohlasˇuji, zˇe jsem dizertacˇnı´ pra´ci vypracoval samostatneˇ a pouzˇil pouze literaturu uvedenou v seznamu.
2
Deˇkuji sve´mu sˇkoliteli prof. RNDr. Rudolfu Hrachovi, DrSc. za odborne´ vedenı´ pra´ce, cenne´ na´meˇty, prˇipomı´nky a prˇedevsˇ´ım za cˇas, ktery´ mi veˇnoval.
Da´le deˇkuji doc. RNDr. Dusˇanovi Novotne´mu, CSc. za vstrˇ´ıcnost a ochotu, s jakou se mnou danou problematiku te´zˇ konzultoval.
3
Obsah 1
´ vod U
6
2
Prˇehled vy´sledku˚ z literatury
9
2.1
Matematicka´ morfologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
2.1.1
´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . U
9
2.1.2
Popis vybrany´ch metod pro morfologickou analy´zu vysoke´ u´rovneˇ . . . . . . . . . . 10
2.2
Neuronove´ sı´teˇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.2.1
´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 U
2.2.2
Neurofyziologicke´ motivace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.3
Biologicky´ neuron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.4
Matematicky´ model neuronu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5
Geometricka´ interpretace funkce neuronu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.6
Neuronova´ sı´t’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Za´kladnı´ terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Vı´cevrstva´ neuronova´ sı´t’ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Ucˇenı´ vı´cevrstve´ neuronove´ sı´teˇ - Backpropagation . . . . . . . . . . . . . . . . . . . . . 30
3
Cı´le pra´ce
34
4
Vlastnı´ vy´sledky
35
4.1
Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚ . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 4.1.1
´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 U
4.1.2
Hard-disk model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 4
Obsah
4.1.3
Aplikace neuronove´ sı´teˇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 ´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 U Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1.4
Diskuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Vy´sledky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2
Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´ . . . . . 53 4.2.1
´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 U
4.2.2
Modelove´ struktury . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.3
Aplikace neuronove´ sı´teˇ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 ´ vod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 U Preprocessing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.2.4
Postup rˇesˇenı´ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Vy´sledky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5
Za´veˇr
66
Pouzˇita´ a doporucˇena´ literatura
69
5
Kapitola 1 ´ vod U Zpracova´nı´ obrazu patrˇ´ı mezi velmi du˚lezˇite´ smeˇry pocˇ´ıtacˇove´ fyziky, nebot’ obrazova´ informace je za´kladnı´ (neˇkdy i jedina´) v mnoha oblastech fyziky i v dalsˇ´ıch oborech veˇdy a techniky – biologii, medicı´neˇ, strojı´renstvı´, atd. Pod pojmem zpracova´nı´ obrazu zde rozumı´me urcˇitou posloupnost operacı´, ktera´ se lisˇ´ı v za´vislosti na rˇesˇene´m proble´mu. Nı´zˇe je popsa´no neju´plneˇjsˇ´ı mozˇne´ schema zpracova´nı´ obrazu cˇi te´zˇ obrazove´ analy´zy (v ra´mci anglicke´ho na´zvoslovı´ jsou pro tuto veˇdnı´ disciplı´nu usta´leny na´zvy „Image processing“ cˇi „Image analysis“). 1. Digitalizace 2. Analy´za nı´zke´ u´rovneˇ (a) Geometricke´ transformace (b) Filtrace (c) Binarizace (d) Rozpozna´va´nı´ objektu˚ 3. Analy´za vysoke´ u´rovneˇ (a) Integra´lnı´ informace (b) Informace o jednotlivy´ch objektech (c) Informace o rozlozˇenı´ objektu˚ 4. Zı´ska´va´nı´ odborny´ch informacı´. Uvedeny´ vy´cˇet operacı´, ze ktery´ch se mu˚zˇe obrazova´ analy´za skla´dat (prˇedevsˇ´ım bod 4), jizˇ dostatecˇneˇ naznacˇuje jejı´ hlavnı´ vy´znam, ktery´ tkvı´ v mozˇnosti zı´ska´va´nı´ nejru˚zneˇjsˇ´ıch informacı´ o vlastnostech syste´mu˚ (fyzika´lnı´ch, biologicky´ch atd.) pouze na za´kladeˇ jejich obrazu˚, tedy bez nutnosti prˇ´ımy´ch meˇrˇenı´ (zkoumany´ch vlastnostı´), ktera´ jsou mnohdy dosti obtı´zˇneˇ realizovatelna´, poprˇ. cˇasoveˇ i financˇneˇ 6
na´rocˇna´. Prˇ´ıslusˇne´ obrazy jsou v dane´m kontextu porˇizova´ny jako fotografie z dalekohledu˚ prˇi sledova´nı´ astronomicky´ch objektu˚, fotograie z opticky´ch mikroskopu˚ v biologii, medicı´neˇ, metalurgii nebo fyzice pevny´ch la´tek, mikrofotografie z transmisnı´ch elektronovy´ch mikroskopu˚ ve fyzice tenky´ch vrstev nebo metalurgii, obrazy z STM nebo AFM mikroskopu˚ ve fyzice povrchu˚, apod. Obrazova´ analy´za dnes jizˇ zahrnuje mnozˇstvı´ oboru˚ z nichzˇ neˇktere´ sta´ly u samotne´ho zrodu te´to disciplı´ny (matematicka´ morfologie, geometricka´ pravdeˇpodobnost, atd.), ale take´ metodiky mladsˇ´ı, ktere´ se bud’ „odsˇteˇpily“ od jednoho ze za´kladnı´ch stavebnı´ch kamenu˚ a dnes jizˇ tvorˇ´ı samostatne´ specializovane´ obory, nebo to jsou metodiky, ktere´ do obrazove´ analy´zy prˇisˇly pozdeˇji z jiny´ch veˇdnı´ch oblastı´. Mezi prvnı´ skupinu patrˇ´ı naprˇ. stereologie jezˇ spada´ pod obecneˇjsˇ´ı stochastickou geometrii a jejı´zˇ vznik je historicky spjat nejvı´ce pra´veˇ s geometrickou pravdeˇpodobnostı´. Stereologie je dnes jizˇ samostatny´ obor zkoumajı´cı´ vztah mezi statisticky´m popisem geometricky´ch vlastnostı´ 3D syste´mu˚ na za´kladeˇ jejich 2D rˇezu˚, pru˚meˇtu˚ cˇi dokonce 1D (linea´rnı´ch) sond. Stereologie je tedy za´rovenˇ jednı´m z na´stroju˚ obrazove´ analy´zy, ktery´ je pouzˇ´ıva´n pro statisticke´ vyhodnocenı´ geometricky´ch pomeˇru˚ 3D syste´mu˚ a to nejcˇasteˇji na za´kladeˇ obrazu˚ neˇkolika jejich rˇezu˚, cˇi pru˚meˇtu˚ [1]. Do druhe´ skupiny patrˇ´ı naprˇ. teorie perkolace [2, 3], frakta´lnı´ analy´za, ru˚zne´ transformace (Fourierova, Ga´borova, waveletova´ [4, 5]), ale take´ teorie neuronovy´ch sı´tı´ jejichzˇ uzˇitı´m v analy´ze obrazu se zaby´va´ tato pra´ce. Na rozdı´l od pocˇ´ıtacˇove´ grafiky 1 , kde jizˇ byly vytvorˇeny kvalitnı´ komercˇnı´ programy cˇi soubory programu˚ a uzˇivatel proto potrˇebuje pouze za´kladnı´ znalosti, v oblasti zpracova´nı´ obrazu je situace zcela jina´. I zde sice existujı´ spolecˇne´ proble´my pro uzˇivatele z nejru˚zneˇjsˇ´ıch oblastı´ veˇdy, a proto pro jejich rˇesˇenı´ i zde vznikl kvalitnı´ software na komercˇnı´ u´rovni (to se ty´ka´ zejme´na oblasti prˇedzpracova´nı´ obrazu, naprˇ. odstranˇova´nı´ sˇumu). V dalsˇ´ıch krocı´ch se vsˇak potrˇeby ru˚zny´ch uzˇivatelu˚ natolik lisˇ´ı, zˇe komercˇnı´ programove´ soubory nemohou na vsˇechny tyto pozˇadavky reagovat a uzˇivatel si proto musı´ specializovane´ programy napsat sa´m. Z tohoto du˚vodu patrˇ´ı metodika zpracova´nı´ obrazu mezi du˚lezˇite´ smeˇry pocˇ´ıtacˇove´ fyziky, ktery´ se navı´c sta´le jesˇteˇ vyvı´jı´. Tato du˚lezˇitost je samozrˇejmeˇ hodnocena ru˚zneˇ uzˇivateli z ru˚zny´ch oblastı´ veˇdy a techniky. Jak jizˇ na´zev napovı´da´, je tato pra´ce urcˇitou sondou do problematiky vyuzˇitı´ neuronovy´ch sı´tı´ v analy´ze obrazu a to ve dvou konkre´tnı´ch oblastech. V prvnı´ cˇa´sti pra´ce (resp. kapitoly 4) je popsa´na navrzˇena´ metodika pouzˇitı´ neuronovy´ch sı´tı´ pro urcˇova´nı´ mı´ry usporˇa´danosti mnohaobjektovy´ch syste´mu˚ (obrazova´ analy´za vysoke´ u´rovneˇ). V cˇa´sti druhe´ je pak rozpracova´na metodika pouzˇitı´ neuronovy´ch sı´tı´ pro rekonstrukci obrazu˚ zrnity´ch struktur (obrazova´ analy´za nı´zke´ u´rovneˇ). Rˇesˇenı´ prvnı´ho proble´mu bylo inspirova´no fyzikou tenky´ch vrstev, kde jsou mimorˇa´dneˇ podstatne´ informace o rozlozˇenı´ objektu˚ po povrchu, nebot’z tohoto rozlozˇenı´ lze usuzovat na fyzika´lnı´ procesy 1
Pocˇ´ıtacˇova´ grafika se zaby´va´ grafickou reprezentacı´ resp. zobrazova´nı´m dat.
7
probı´hajı´cı´ prˇi nukleaci 2 a na´sledne´m ru˚stu vrstev. Motivem pro rˇesˇenı´ proble´mu druhe´ho pak byl zna´my´ fakt, zˇe velikost zrn krystalicky´ch la´tek (naprˇ. oceli) prˇ´ımo urcˇuje jejich mechanicke´ vlastnosti (naprˇ. tvrdost), prˇicˇemzˇ kvantitativnı´ vztahy mezi velikostı´ zrn a danou fyzika´lnı´ velicˇinou jsou jizˇ dnes cˇasto dobrˇe popsa´ny [6]. Tudı´zˇ ke zkouma´nı´ teˇchto materia´lovy´ch vlastnostı´ mu˚zˇe by´t uzˇito obrazove´ analy´zy, aplikovane´ na mikrofotografie vy´brusu˚ cˇi rˇezu˚ dany´mi materia´ly. Klasicke´ morfologicke´ metody (Chord-length distribution cˇi rozdeˇlenı´ efektivnı´ch pru˚meˇru˚ zrn zı´skane´ z vy´pocˇtu jejich ploch), vsˇak lze aplikovat pouze na bina´rnı´ obrazy, kde jedna barva je vyuzˇita pro vykreslenı´ hranic zrn a druha´ je barva pozadı´. Po binarizaci rea´lny´ch mikrofotografiı´ vsˇak cˇasto vznikajı´ obrazy degradovane´ s neu´plny´mi hranicemi a zatı´zˇene´ sˇumem. Druha´ cˇa´st pra´ce je tedy veˇnova´na studiu mozˇnosti pouzˇitı´ neuronovy´ch sı´tı´ pro rekonstrukci takto narusˇeny´ch, zrnity´ch struktur. Dalsˇ´ı mozˇnostı´, jak vyuzˇ´ıt neuronove´ sı´teˇ v te´to problematice, je jejich prˇ´ıme´ pouzˇitı´ pro analy´zu velikostı´ zrn, a to na za´kladeˇ degradovany´ch struktur, resp. vhodny´ch charakteristik na tyto struktury aplikovany´ch (Chord-length distribution, kovariance, frakta´lnı´ analy´za). Tento prˇ´ıstup, ktery´ vyuzˇ´ıva´ stejne´ schema, jake´ bylo uzˇito k rˇesˇenı´ proble´mu urcˇova´nı´ mı´ry usporˇa´danosti, vsˇak jizˇ nenı´ soucˇa´stı´ te´to pra´ce a bude prˇedmeˇtem dalsˇ´ıho studia.
2
Tento termı´n oznacˇuje pocˇa´tecˇnı´ fa´zi ru˚stu tenky´ch vrstev prˇi nı´zˇ jsou vytva´rˇeny za´rodky budoucı´ch ostru˚vku˚, jezˇ se na´sledneˇ ve fa´zi zvane´ koalescence sle´vajı´ v jednolitou vrstvu.
8
Kapitola 2 Prˇehled vy´sledku˚ z literatury 2.1
Matematicka´ morfologie
2.1.1
´ vod U
Vznik matematicke´ morfologie [7] je sva´za´n s rokem 1964, kdy byl Georges Matheron (1930-2000) pozˇa´da´n o prozkouma´nı´ vztahu˚ mezi geometriı´ pore´znı´ho dielektrika a jeho permeabilitou a dalsˇ´ı zakladatel te´to disciplı´ny Jean Serra (*1940) byl poveˇrˇen studiem morfologie zˇelezne´ rudy resp. souvislostı´ mezi usporˇa´da´nı´m/strukturou tohoto materia´lu a obsahem Fe cˇi jeho pevnostı´.
G. Matheron
J. Serra
9
2.1. Matematicka´ morfologie
Oba tito pa´nove´ tehdy zacˇali budovat dnes jizˇ rozvinutou a rozveˇtvenou disciplı´nu spadajı´cı´ pod obecneˇjsˇ´ı obrazovou analy´zu, kde je vyuzˇ´ıva´na jako jeden z mocny´ch na´stroju˚. Hlavnı´m cı´lem matematicke´ morfologie je pak prˇedevsˇ´ım kvantifikace strukturnı´ch vlastnostı´ ru˚zny´ch materia´lu˚ cˇi obecneˇsˇ´ıch syste´mu˚ (naprˇ. i z oblasti biologie, astronomie atd.) a dost cˇasto i hleda´nı´ souvislostı´ mezi takovy´mito morfologicky´mi charakteristikami a jejich fyzika´lnı´mi cˇi jiny´mi vlastnostmi. Matematicka´ morfologie zahrnuje mj. charakterizaci velikostı´ a tvaru˚ strukturnı´ch prvku˚ dane´ho syste´mu cˇi jejich rozlozˇenı´.
2.1.2
Popis vybrany´ch metod pro morfologickou analy´zu vysoke´ u´rovneˇ
a) Radia´lnı´ distribucˇnı´ funkce (RDF) Radia´lnı´ distribucˇnı´ funkce [8] na´lezˇ´ı k tzv. bodovy´m metoda´m. Jedna´ se tedy o metodu umozˇnˇujı´cı´ charakterizaci rozlozˇenı´ bodovy´ch objektu˚. V prˇ´ıpadeˇ, zˇe na´s zajı´ma´ rozlozˇenı´ objektu˚ s nenulovou plochou, lze RDF pouzˇ´ıt k chrakterizaci rozmı´steˇnı´ teˇzˇisˇt’ (u symetricky´ch objektu˚ jsou to tedy gemetricke´ strˇedy) teˇchto objektu˚. RDF vyjadrˇuje za´vislost relativnı´ 1 hustoty objektu˚ na vzda´lenosti od prˇedem zvolene´ho (vztazˇne´ho) objektu, ktera´ je navı´c pru˚meˇrovana´ a to prˇes vsˇechny uvazˇovane´ objekty. Vzorec pro vy´pocˇet RDF vypada´ tedy na´sledovneˇ:
P (r) =
N 1 X i P (r), N i=1
(2.1)
1 ∆ni , %0 2πr∆r
(2.2)
kde N je pocˇet objektu˚ v pracovnı´ oblasti a P i (r) =
prˇicˇemzˇ i znacˇ´ı index vztazˇne´ho objektu 2 , ∆ni je pocˇet objektu˚ v mezikruzˇ´ı o polomeˇrech r a r + ∆r. ∆n Strˇed tohoto mezikruzˇ´ı sply´va´ s polohou vztazˇne´ho objektu cˇi obecneˇji s jeho teˇzˇisˇteˇm. Zlomek 2πr∆r tedy prˇedstavuje loka´lnı´ hustotu objektu˚ ve vzda´lenosti r od vztazˇne´ho objektu 3 , %0 pak znacˇ´ı hustotu objektu˚ spocˇ´ıtanou z cele´ pracovnı´ oblasti tzn. %0 = NS , kde S je plocha pracovnı´ oblasti. RDF tedy uda´va´ jak se pru˚meˇrna´ loka´lnı´ hustota pocˇ´ıtana´ ve vzda´lenosti r od objektu˚ lisˇ´ı od hustoty strˇednı´ tzn. spocˇ´ıtane´ z cele´ pracovnı´ oblasti. Z RDF tak lze naprˇ. vycˇ´ıst zda se v usporˇa´da´nı´ syste´mu vyskytuje neˇjaka´ pravidelnost/periodicita, zda syste´m obsahuje neˇjake´ shluky atd. V prˇ´ıpadeˇ zcela na´hodne´ bodove´ struktury je RDF konstantou (jednicˇka) modifikovanou sˇumem, zatı´mco pro cˇa´stecˇneˇ usporˇa´dane´ objekty vznikajı´ na grafu RDF oscilace, viz obr. 2.1. Polohy a velikost Hustota spocˇ´ıtana´ z mezikruzˇ´ı r azˇ r + ∆r se deˇlı´ strˇednı´ hustotou %0 . Kazˇdy´ objekt v pracovnı´ oblasti se v pru˚beˇhu vy´pocˇtu RDF pro dane´ r stane pra´veˇ jednou vztazˇny´m objektem. 3 Plochu mezikruzˇ´ı lze pocˇ´ıtat jako 2πr∆r jen pro r >> ∆r. Pro male´ hodnoty r resp. hodnoty r srovnatelne´ s ∆r je potrˇeba pouzˇ´ıt prˇesny´ vztah tzn. 2πr∆r + ∆r2 1
2
10
2.1. Matematicka´ morfologie teˇchto oscilacı´, jakozˇ i poloha prvnı´ nenulove´ hodnoty RDF , mohou by´t vyuzˇity pro charakterizova´nı´ na´hodnosti usporˇa´da´nı´ objektu˚ v pracovnı´ oblasti.
Obra´zek 2.1: Radia´lnı´ distribucˇnı´ funkce pro trˇi struktury – zcela na´hodnou (nahorˇe), s DZrel = 0.3 (uprostrˇed) a maxima´lneˇ usporˇa´danou (DZrel = 1, dole). r0 znacˇ´ı mrˇ´ızˇkovou konstantu pro usporˇa´da´nı´ dane´ho syste´mu v sˇesterecˇne´ soustaveˇ, cozˇ je jaky´si limitnı´ stav ktere´ho pomocı´ hard-disk modelu nelze prakticky dosa´hnout ani pro velke´ DZ. (O difuznı´ zo´neˇ DZ resp. o relativnı´ difuznı´ zo´neˇ DZrel blı´zˇe v kapitole 4.1.2).
11
2.1. Matematicka´ morfologie At’je usporˇa´da´nı´ jake´koli, pro velke´ hodnoty r by se hodnoty RDF meˇly blı´zˇit cˇ´ıslu 1, nebot’s rostoucı´m r se prˇi konstantnı´m ∆r zveˇtsˇuje i plocha mezikruzˇ´ı, v ra´mci neˇhozˇ tuto hustotu pocˇ´ıta´me. Loka´lnı´ hustota se tedy pro velka´ r nutneˇ musı´ blı´zˇit hustoteˇ %0 spocˇ´ıtane´ z cele´ prac. oblasti. Na za´veˇr dodejme, zˇe radia´lnı´ distribucˇnı´ funkce se samozrˇejmeˇ nepouzˇ´ıva´ jen k popisu rozlozˇenı´ objektu˚ ve 2D, ale samozrˇejmeˇ i pro charakterizaci rozlozˇenı´ objektu˚ ve 3D. Mezikruzˇ´ı jsou pak nahrazena kulovy´mi vrstvami a tudı´zˇ 2πr∆r prˇejde na 4πr2 ∆r a %0 prˇejde z NS na N , kde V je objem V pracovnı´ oblasti.
b) Rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ (DNN) Pod pojmem rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ i-te´ho rˇa´du rozumı´me rozdeˇlenı´ vzda´lenostı´ ve ktery´ch majı´ objekty sve´ho i-te´ho nejblizˇsˇ´ıho souseda [9]. Jestlizˇe nenı´ zmı´neˇn rˇa´d, jedna´ se automaticky rozdeˇlenı´ nejblizˇsˇ´ıch (a to doslovneˇ) sousedu˚ neboli o rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ prvnı´ho rˇa´du. Chceme-li sestrojit toto rozdeˇlenı´, nale´za´me postupneˇ pro kazˇdy´ uvazˇovany´ objekt jeho i-te´ho nejblizˇsˇ´ıho souseda prˇicˇemzˇ z prˇ´ıslusˇny´ch vzda´lenostı´ sestavı´me histogram, jehozˇ j-ty´ sloupec vyjadrˇuje relativnı´ cˇetnost s jakou vzda´lenost i-te´ho nejblizˇsˇ´ıho souseda naby´va´ hodnoty v rozmezı´ rj azˇ rj + ∆r, kde v prˇ´ıpadeˇ obvykle´ho ekvidistantnı´ho deˇlenı´ je rj = j∆r. DN N je charakteristika, kterou, lze pouzˇ´ıt jak pro analy´zu rozlozˇenı´ bodovy´ch objektu˚, tak i pro analy´zu rozlozˇenı´ objektu˚ s nenulovou plochou. V prˇ´ıpdeˇ nebodovy´ch objektu˚ pak existujı´ dveˇ varianty DN N . V ra´mci jedne´ je vzda´lenost dvou objektu˚ definova´na jako vzda´lenost jejich teˇzˇisˇt’ a v ra´mci druhe´ jako vzda´lenost jejich hranic. Vzda´lenost hranic dvou objektu˚ je obvykle definova´na jako minimum ze vzda´lenostı´ |AB|, kde A je libovolny´ hranicˇnı´ bod prvnı´ho objektu a B je libovolny´ hranicˇnı´ objektu druhe´ho. Subor histogramu˚ vzda´lenostı´ nejblizˇsˇ´ıch sousedu˚ prvnı´ho, druhe´ho, trˇetı´ho ... rˇa´du ma´ stejnou vypovı´dacı´ hodnotu jako RDF , kterou lze z te´to se´rie histogramu˚ rekonstruovat [10]. Na obra´zku 2.2 jsou pro ilustraci zobrazeny RDF a histogramy DN N neˇkolika rˇa´du˚ odpovı´dajı´cı´ch trˇem ru˚zny´m struktura´m.
12
2.1. Matematicka´ morfologie
Obra´zek 2.2: Cˇtyrˇi ru˚zne´ struktury a jejich vyhodnocenı´ pomocı´ RDF a DN N (rˇa´d 1, 5, 10, 20, 50).
13
2.1. Matematicka´ morfologie
c) Wiegnerovy-Seitzovy bunˇky (WS bunˇky) V te´to metodeˇ se pracovnı´ oblast s objekty rozdeˇlı´ na tzv. Wiegnerovy-Seitzovy bunˇky. Vytvorˇena´ struktura W S buneˇk se te´zˇ nazy´va´ Voronoiovo dla´zˇdeˇnı´ (V T ) [11, 12, 13], cozˇ velmi prˇile´haveˇ vystihuje vizua´lnı´ podobu struktury W S buneˇk, jezˇ je generova´na prˇ´ıslusˇnou mnozˇinou objektu˚. Jedna Wigner-Seitzova bunˇka prˇ´ıslusˇejı´cı´ k dane´mu objektu, je mnozˇina vsˇech bodu˚, jejichzˇ vzda´lenost od hranice tohoto objektu je mensˇ´ı, nezˇ vzda´lenost od hranice objektu˚ ostatnı´ch. Na obra´zku 2.3 je zna´zorneˇna modelova´ struktura kruhovy´ch objektu˚ doplneˇna´ prˇ´ıslusˇny´m Voronoiovy´m dla´zˇdeˇnı´m.
Obra´zek 2.3: Modelova´ struktura kruhovy´ch objektu˚ doplneˇna´ prˇ´ıslusˇny´m Voronoiovy´m dla´zˇdeˇnı´m. Rozdeˇlenı´ u´hlu˚ stran, velikostı´ ploch, tvarovy´ch faktoru˚ 4 , atd. jednotlivy´ch buneˇk V T lze vyuzˇ´ıt k charakterizaci rozlozˇenı´ objektu˚, ktere´ dane´ V T generujı´. V neda´vne´ dobeˇ byl mj. pomocı´ rozdeˇlenı´ tvarovy´ch faktoru˚ Wigner-Seitzovy´ch buneˇk u´speˇsˇneˇ detekova´n fa´zovy´ prˇechod ve 2D modelu vody [14]. V prˇ´ıpadeˇ bodovy´ch syste´mu˚ cˇi syste´mu˚ kruhovy´ch objektu˚ se stejny´m polomeˇrem, se hranice jednotlivy´ch buneˇk V T skla´dajı´ z u´secˇek. V prˇ´ıpadeˇ syste´mu kruhovy´ch objektu˚ s ru˚zny´mi polomeˇry je obecneˇ hranice kazˇde´ bunˇky slozˇena ze zakrˇiveny´ch cˇar. Tvarovy´ faktor (F F ) ma´ za u´kol charakterizovat odchylky tvaru dane´ho objektu od kruhu. Zava´dı´me jej obvykle tak, aby pro kruh naby´val hodnoty jedna a s ru˚stem deformace objektu (odchylky od kruhu) aby jeho hodnota klesala k nule. Te´to definici vyhovuje vztah: F F = 4π OS2 , kde S je plocha objektu a O jeho obvod. 4
14
2.1. Matematicka´ morfologie
d) Quadrat Counts (QC) Tato metoda se od prˇedchozı´ch lisˇ´ı v tom, zˇe shrnuje informaci o rozlozˇenı´ objektu˚ do jedine´ho cˇ´ısla [15, 16]. Analy´za pomocı´ QC probı´ha´ na´sledovneˇ. Nejprve je v ra´mci pracovnı´ oblasti na´hodneˇ umist’ova´n tzv. testovacı´ cˇtverec a vzˇdy jsou spocˇ´ıta´ny objekty (bodove´ objekty cˇi teˇzˇisˇteˇ objektu˚ nebodovy´ch) jezˇ padly do tohoto cˇtverce. Pocˇet objektu˚ lezˇ´ıcı´ch ve cˇtverci tak prˇedstavuje na´hodnou velicˇinu ξ. Vy´sˇe zmı´neˇne´ cˇ´ıslo, charakterizujı´cı´ rozlozˇenı´ objektu˚ je pak definova´no na´sledovneˇ: QC =
D(ξ) , E(ξ)
(2.3)
kde D(ξ) je rozptyl a E(ξ) strˇednı´ hodnota na´hodne´ velicˇiny ξ. Pro zcela na´hodnou5 strukturu je QC = 1 6 . Naopak pro zcela usporˇa´danou (rovnomeˇrneˇ) strukturu je QC = 0. Citlivost metody (na zmeˇnu na´hodnosti usporˇa´da´nı´ objektu˚) je samozrˇejmeˇ za´visla´ na de´lce strany testovacı´ho cˇtverce resp. na strˇednı´m pocˇtu objektu˚ N = E(ξ) v testovacı´m cˇtverci, viz obr. 2.4. Prˇi analy´ze stupneˇ usporˇa´danosti se snazˇ´ıme najı´t takovou velikost cˇtverce prˇi nı´zˇ bude metoda QC vykazovat stejnou citlivost pro ru˚zne´ u´rovneˇ usporˇa´danosti (zde reprezentovane´ hodnotou DZ resp. DZ ) analyzovany´ch syste´mu˚. Jiny´mi slovy snazˇ´ıme se volit velikost testovacı´ho cˇtverce tak, aby DZmax byl pru˚beˇh QC v za´vislosti na stupni usporˇa´danosti co mozˇna´ nejvı´ce linea´rnı´. Na obr. 2.4 je graf QC s optima´lnı´m pru˚beˇhem (N = 50) zna´zorneˇn pra´zdny´mi cˇtverci.
5 6
Objekty jsou bodove´ a jejich sourˇadnice jsou generova´ny na´hodneˇ s rovnomeˇrny´m rozdeˇlenı´m. Platı´ jen v prˇ´ıpadeˇ velke´ho pocˇtu objektu˚ v testovacı´m cˇtverci, nebot’pak ma´ na´hodna´ velicˇina ξ Poissonovo rozdeˇlenı´.
15
2.1. Matematicka´ morfologie
Obra´zek 2.4: Kalibrace metody QC pomocı´ hard-disk modelu s difusnı´ zo´nou DZ, N zde oznacˇuje strˇednı´ pocˇet objektu˚ v testovacı´ch cˇtvercı´ch. (O difuznı´ zo´neˇ DZ a o hard-disk modelu blı´zˇe v kapitole 4.1.2)
16
2.2. Neuronove´ sı´teˇ
2.2
Neuronove´ sı´teˇ
2.2.1
´ vod U
Vznik neuronovy´ch sı´tı´ byl motivova´n snahou cˇloveˇka o vytvorˇenı´ tzv. umeˇle´ inteligence. Pocˇa´tek tohoto veˇdnı´ho oboru je spojen s pracı´ Warrena McCullocha a Waltera Pittse z roku 1943 „A logical calculus of the ideas immanent in nervous activity“, ve ktere´ popsali velmi jednoduchy´ matematicky´ model za´kladnı´ bunˇky nervove´ho syste´mu zvane´ neuron. Dnes je jizˇ teorie neuronovy´ch sı´tı´ velmi propracovana´ a dı´ky technicky´m mozˇnostem dnesˇnı´ doby i prakticky aplikovatelna´. Neuronove´ sı´teˇ [17] prˇedstavujı´ v dnesˇnı´ dobeˇ skupinu inteligentnı´ch technologiı´ pro analy´zu dat, jezˇ se lisˇ´ı od ostatnı´ch klasicky´ch technik prˇedevsˇ´ım tzv. adaptacˇnı´ fa´zı´, ve ktere´ se neuronova´ sı´t’ ucˇ´ı z vhodneˇ zvoleny´ch tre´ninkovy´ch vzoru˚, ktery´mi je reprezentova´n dany´ proble´m. Tyto vzory tvorˇ´ı tzv. tre´ninkovou mnozˇinu. Velmi cˇasto se pouzˇ´ıva´ tzv. ucˇenı´ s ucˇitelem, ktere´ prˇedpokla´da´ zˇe kazˇdy´ tre´ninkovy´ vzor je tvorˇen usporˇa´danou dvojicı´ (vstup sı´teˇ; pozˇadovany´ vy´stup sı´teˇ ), resp. (ota´zka; spra´vna´ odpoveˇd’). Vstup i vy´stup sı´teˇ jsou obecneˇ usporˇa´dane´ n-tice rea´lny´ch cˇ´ısel. Pro lepsˇ´ı pochopenı´ uved’me jeden typicky´ prˇ´ıklad pouzˇitı´ neuronovy´ch sı´tı´ (NS) v oblasti rozpozna´va´nı´ pı´sma. Jestlizˇe budeme chtı´t naucˇit NS rozpozna´vat naprˇ. pı´smeno „a“, bude tre´ninkova´ mnozˇina slozˇena ze vzoru˚ ve tvaru (pı´smeno; pravdivostnı´ hodnota). Pı´smeno bude samozrˇejmeˇ vhodneˇ upraveno do maticove´, resp. vektorove´ podoby (viz obr. 2.5) a pravdivostnı´ hodnota uda´va´, zda prˇedlozˇene´ pı´smeno je „a“, cˇi nikoli. Tato konkre´tnı´ sı´t’by tedy meˇla dimenzi vstupnı´ho vektoru 16 a jednodimenziona´lnı´ vy´stup. Na digitalizaci rucˇneˇ psane´ho pı´sma, by byla vhodneˇjsˇ´ı sı´t’, jejı´mzˇ vstupem by opeˇt byla maticova´ reprezentace dane´ho znaku a vy´stup by meˇl dimenzi rovnou pocˇtu vsˇech uvazˇovany´ch znaku˚. Vy´stupnı´ vektor reprezentujı´cı´ pı´smeno „a“ resp. „b“ by mohl vypadat takto: (1 0 0 0 0 ...) resp. (0 1 0 0 0 ...).
´ prava pı´smene „a“ do podoby vhodne´ pro zpracova´nı´ neuronovou sı´tı´. Obra´zek 2.5: U Cela´ sı´t’ se skla´da´ z elementa´rnı´ch vy´pocˇetnı´ch jednotek nazy´vany´ch, stejneˇ jako ve fyziologicke´m prˇ´ıpadeˇ, neurony, ktere´ jsou v prˇ´ıpadeˇ nejcˇasteˇji pouzˇ´ıvany´ch doprˇedny´ch sı´tı´ usporˇa´da´ny do vrstev (viz kapitoly 2.2.4 a 2.2.6). Jak jizˇ naznacˇil uvedeny´ prˇ´ıklad, neuronove´ sı´teˇ se pouzˇ´ıvajı´ pro rˇesˇenı´ proble´mu˚, u ktery´ch nenı´ zna´m algoritmus rˇesˇenı´, nebo jejich analyticky´ popis je pro pocˇ´ıtacˇove´ 17
2.2. Neuronove´ sı´teˇ
zpracova´nı´ prˇ´ılisˇ komplikovany´. Typicky se neuronove´ sı´teˇ dajı´ pouzˇ´ıt vsˇude tam, kde jsou k dispozici prˇ´ıkladova´ data (tre´ninkova´ mnozˇina), ktera´ dostatecˇneˇ pokry´vajı´ proble´movou oblast. Neuronove´ sı´teˇ jsou dnes standardneˇ pouzˇ´ıva´ny mj. v na´sledujı´cı´ch oblastech: • Rozpozna´va´nı´ obrazcu˚
• Rˇ´ızenı´ slozˇity´ch zarˇ´ızenı´ v dynamicky se meˇnı´cı´ch podmı´nka´ch (regulace da´vkova´nı´ ru˚zny´ch vstupnı´ch surovin ve vy´robeˇ, autopilot ...).
• Predikce a prˇ´ıpadne´ na´sledne´ rozhodova´nı´ (prˇedpoveˇd’ pocˇası´, vy´voj cen akciı´ na burze, spotrˇeba elektricke´ energie ...).
• Komprese dat
• Transformace signa´lu˚ (prˇevod psane´ho textu na mluveny´ ...)
• Analy´za signa´lu˚ (EKG ...)
• Expertnı´ syste´my (urcˇova´nı´ diagno´zy ...)
2.2.2 Neurofyziologicke´ motivace Motivacı´ pro vznik tohoto dnes jizˇ propracovane´ho veˇdecke´ho oboru bylo pochopit a modelovat funkce lidske´ho mozku. Nove´ poznatky z neurofyziologie umozˇnily vznik zjednodusˇeny´ch matematicky´ch modelu˚ neuronu˚ resp. neuronovy´ch sı´tı´. Neurofyziologie tak poskytla urcˇity´ zdroj inspiracı´ (struktura a funkce neuronu, interakce jednotlivy´ch neuronu˚ v ra´mci nervove´ tka´neˇ). Navrzˇene´ modely neuronovy´ch sı´tı´ byly pak da´le rozvı´jeny cˇasto jizˇ bez ohledu na to, zda modelujı´ lidsky´ mozek. Za´kladnı´m cı´lem rozvoje neuronovy´ch sı´tı´ se stala schopnost rˇesˇit prakticke´ u´lohy z ru˚zny´ch oboru˚ lidske´ cˇinnosti (viz u´vod), cozˇ vedlo ke vzniku rozmanity´ch typu˚ neuronovy´ch sı´tı´.
2.2.3
Biologicky´ neuron
Biologicky´ neuron (viz obr. 2.6) je za´kladnı´m stavebnı´m prvkem nervove´ soustavy. V mozkove´ ku˚rˇe cˇloveˇka jich je 13 azˇ 15 × 109 , prˇicˇemzˇ kazˇdy´ mu˚zˇe by´t spojen s prˇiblizˇneˇ 5000 dalsˇ´ımi neurony. Hlavnı´ 18
2.2. Neuronove´ sı´teˇ
funkcı´ neuronu˚ je prˇenos, zpracova´nı´ a uchova´nı´ informacı´ nutny´ch pro realizaci zˇivotnı´ch funkcı´ organismu. Neuron se skla´da´ z vlastnı´ho teˇla (soma) a prˇenosovy´ch kana´lu˚ a to vstupnı´ch (dendrity) a vy´stupnı´ho (axon).
Obra´zek 2.6: Schema biologicke´ho neuronu. Axon je zakoncˇen vy´beˇzˇky (termina´ly) jezˇ jsou vesmeˇs napojeny pomocı´ specia´lnı´ho rozhranı´ (synapse) na dendrity jiny´ch neuronu˚ (viz obr. 2.7), cozˇ umozˇnˇuje prˇenos informace z jednoho neuronu na druhy´. Synapse deˇlı´me na excitacˇnı´ a inhibicˇnı´. Excitacˇnı´ synapse podporujı´ sˇ´ırˇenı´ vzruchu nervovou soustavou na rozdı´l od synapsı´ inhibicˇnı´ch, ktere´ majı´ tlumı´cı´ u´cˇinek. Zjednodusˇene´ schema sˇ´ırˇenı´ informace vypada´ na´sledovneˇ. Soma i axon jsou obaleny membra´nou se schopnostı´ generovat elektricke´ impulsy, ktere´ jsou pak prˇena´sˇeny na dendrity jiny´ch neuronu˚. Intenzita podra´zˇdeˇnı´ dalsˇ´ıch neuronu˚ je urcˇena propustnostı´ synapticky´ch bran. Podra´zˇdeˇne´ neurony prˇi dosazˇenı´ urcˇite´ hranicˇnı´ meze, tzv. prahu, samy generujı´ impuls a zajisˇt’ujı´ tak sˇ´ırˇenı´ prˇ´ıslusˇne´ informace. Po kazˇde´m pru˚chodu signa´lu neuronem se synapticka´ propustnost meˇnı´, cozˇ je prˇedpokladem pameˇt’ove´ schopnosti neuronu˚.
19
2.2. Neuronove´ sı´teˇ
Obra´zek 2.7: Schema biologicke´ neuronove´ sı´teˇ.
20
2.2. Neuronove´ sı´teˇ
2.2.4
Matematicky´ model neuronu
Matematicky´ model neuronu, tzv. forma´lnı´ neuron viz obr. 2.8, je za´kladnı´ jednotkou matematicke´ho modelu neuronove´ sı´teˇ. Jedna´ se o prˇeformulova´nı´ zjednodusˇene´ funkce fyziologicke´ho neuronu do matematicke´ho jazyka.
Obra´zek 2.8: Schema forma´lnı´ho neuronu. Toto prˇeformulova´nı´ je patrne´ z tabulky 2.1. Kazˇda´ sourˇadnice xi vstupnı´ho vektoru dane´ho neuronu je asociova´na s prˇ´ıslusˇnou va´hou wi , cozˇ je obecneˇ rea´lne´ cˇ´ıslo, ktere´ se nastavı´ v pru˚beˇhu ucˇebnı´ho procesu (adaptaptacˇnı´ fa´ze) tak, aby celkova´ chyba naucˇene´ sı´teˇ vzhledem k dane´ mnozˇineˇ tre´ninkovy´ch vzoru˚ byla minima´lnı´. Vy´znamoveˇ tyto va´hy korespondujı´ s funkcı´ synapsı´ viz kapitola 2.2.3. Prˇedpokla´dejme, zˇe dimenze vstupnı´ho vektoru x pro dany´ neuron je n .Vy´pocˇet vy´stupnı´ hodnoty tohoto n P neuronu pak probı´ha´ v na´sledujı´cı´ch dvou krocı´ch. V prvnı´ fa´zi se spocˇ´ıta´ va´zˇena´ suma ξ = wi xi i=0
tzv. potencia´l. Na za´kladeˇ tohoto cˇ´ısla je pak vypocˇtena vy´stupnı´ hodnota y jako f (ξ), kde f je tzv. aktivacˇnı´ nebo te´zˇ prˇenosova´ funkce. Velmi cˇasto se jako prˇenosova´ funkce pouzˇ´ıva´ tzv. sigmoida´lnı´ funkce, viz obr. 2.11.
21
2.2. Neuronove´ sı´teˇ
Dendrity Synapticke´ bra´ny (propustnost) Celkove´ podra´zˇdeˇnı´ neuronu ( u´hrny´ el. potencia´l)
n obecneˇ rea´lny´ch vstupu˚ x1 , x2 , ..., xn n obecneˇ rea´lny´ch va´hovy´ch koeficientu˚ tzv. vah w1 , w2 , ..., wn (Za´porne´ va´hy inhibicˇnı´ a kladne´ excitacˇnı´ ) Potencia´l neuronu n n P P ξ= wi xi resp. ξ = wi xi kde w0 = −h a x0 = 1 i=1
Prahova´ hodnota vzruchu Elektricky´ impuls axonu indukovany´ po dosazˇenı´ prahove´ hodnoty vzruchu
i=0
Pra´h h Vy´stup (stav) neuronu y = σ(ξ) σ ... aktivacˇnı´ (prˇenosova´) funkce
Tabulka 2.1: Porovna´nı´ biologicke´ho a forma´lnı´ho neuronu.
σ σ(ξ) = 1
(
1, 0,
ξ≥0 ξ<0
ξ
Obra´zek 2.9: Ostra´ nelinearita.
0,
σ
σ(ξ) = ξ, 1,
1
ξ<0 0≤ξ≤1 ξ>1
1
Obra´zek 2.10: Saturovana´ linea´rnı´ funkce.
22
ξ
2.2. Neuronove´ sı´teˇ
σ σ(ξ) = 1
1 1+e−λξ
ξ
Obra´zek 2.11: Standardnı´ (logisticka´) sigmoida.
σ σ(ξ) = 1
1−e−ξ 1+e−ξ
ξ
-1
Obra´zek 2.12: Hyperbolicky´ tangens.
23
2.2. Neuronove´ sı´teˇ
Jak je patrne´ z obr. 2.8 a 2.9, prˇecha´zı´ se obvykle k nulove´mu „prahu“. Jelikozˇ porovna´vat prahem h je tote´zˇ jako porovna´vat
n P
n P
w i xi s
i=1
wi xi − h s nulou, zavede se forma´lnı´ vstup x0 , jenzˇ se polozˇ´ı
i=1
roven jedne´. Da´le je definova´na va´ha w0 tzv. bias takto: w0 = −h. Upraveny´ potencia´l, ktery´ v prˇ´ıpadeˇ n P ostre´ nelinearity porovna´va´me jizˇ s nulou vypada´ tedy na´sledovneˇ: σ(ξ) = wi xi . Vy´znam biasu i=0
resp. prahu je popsa´n v na´sledujı´cı´ podkapitole. U neˇktery´ch typu˚ neuronovy´ch sı´tı´ (asociativnı´ sı´teˇ...) se biasy neuvazˇujı´, u jiny´ch je vy´pocˇet potencia´lu ξ zcela odlisˇny´ (RBF sı´teˇ...) a interpretace tudı´zˇ te´zˇ poneˇkud vzda´lena´ od pu˚vodnı´ biologicke´ motivace. Teˇmito sı´teˇmi se vsˇak v te´to pra´ci nebudeme zaby´vat.
2.2.5 Geometricka´ interpretace funkce neuronu Vstupy neuronu x1 , ..., xn (tedy kromeˇ x0 ) lze interpretovat jako sourˇadnice bodu v n rozmeˇrne´m n P wi xi + w0 = 0 (v E2 euklidovske´m prostoru (tzv. vstupnı´ prostor). Rovnice nadroviny ξ = 0 tzn. i=1
prˇ´ımka, v E3 rovina ...) rozdeˇluje vstupnı´ prostor na dveˇ cˇa´sti. Pro vsˇechny body x z prvnı´ cˇa´sti platı´ ξ(x ) < 0 a analogicky ve druhe´m poloprostoru pro kazˇdy´ bod platı´ ξ(x ) ≥ 0, viz obr. 2.13.
Obra´zek 2.13: Geometricka´ interpretace funkce neuronu. Uvazˇujeme-li jako prˇenosovou funkci ostrou nelinearitu (viz obr. 2.9), bude prvnı´ poloprostor neuronem klasifikova´n hodnotou 0 a druhy´ cˇ´ıslem 1. Prˇi pouzˇitı´ naprˇ. logisticke´ sigmoidy (viz obr. 2.11) bude neuron pro body z prvnı´ho poloprostoru vracet hodnoty mensˇ´ı nezˇ 0,5 a pro body z druhe´ho poloprostoru hodnoty veˇtsˇ´ı nezˇ 0,5.
24
2.2. Neuronove´ sı´teˇ
Jeden neuron s vhodneˇ nastaveny´mi va´hami (koeficienty deˇlı´cı´ nadroviny) mu˚zˇeme tedy vyuzˇ´ıt ke klasifikaci objektu˚, ktere´ lze rozdeˇlit do dvou trˇ´ıd, jezˇ jsou v ra´mci vstupnı´ho prostoru linea´rneˇ separabilnı´, tzn. lze je od sebe odeˇlit neˇjakou nadrovinou, viz obr. 2.14. Jako prˇenosovou funkci zde uvazˇujeme ostrou nelinearitu, viz obr. 2.9.
Obra´zek 2.14: Separace obrazu˚ „A“, „B“ pomocı´ neuronu. Jak je patrne´ z obra´zku 2.15, pomocı´ jednoho neuronu lze realizovat naprˇ. neˇktere´ jednoduche´ logicke´ funkce. V nasˇem kontextu se jedna´ o nalezenı´ prˇ´ıslusˇne´ nadroviny oddeˇlujı´cı´ dveˇ skupiny bodu˚ ve vstupnı´m prostoru {[0,0],[0,1],[1,0]} a {[1,1]}. Z obra´zku 2.15 a) je zrˇejme´, zˇe prˇ´ımek oddeˇlujı´cı´ch dveˇ vy´sˇe uvedene´ mnozˇiny bodu˚ je nekonecˇneˇ mnoho. Jednou z nich mu˚zˇe by´t naprˇ. i prˇ´ımka x1 +x2 −2 = 0. Odpovı´dajı´cı´ schema forma´lnı´ho neuronu realizujı´cı´ho funkci AND nad {0, 1}2 pomocı´ te´to prˇ´ımky je pak zna´zorneˇno na obr. 2.15 b). Jako prˇenosovou funkci zde samozrˇejmeˇ uvazˇujeme ostrou nelinearitu, viz obr. 2.9. Bohuzˇel ne kazˇda´ jednoducha´ logicka´ funkce je realizovatelna´ pomocı´ jednoho neuronu. Ucˇebnicovy´m prˇ´ıkladem je funkce XOR. Cˇtena´rˇ lehce nahle´dne, zˇe prˇ´ıslusˇne´ dveˇ mnozˇiny bodu˚ {(0,0), (1,1)} a {(0,1), (1,0)} klasifikovane´ pomocı´ te´to logicke´ funkce v dane´m porˇadı´ hodnotami 0 a 1 nejsou linea´rneˇ separabilnı´. Jiny´mi slovy neexistuje prˇ´ımka, kterou bychom tyto dveˇ mnozˇiny od sebe oddeˇlili. V tomto prˇ´ıpadeˇ je potrˇeba pouzˇ´ıt neurony trˇi usporˇa´dane´ do dvou vrstev viz obra´zky 2.16 a), 2.16 b). Je zde vyuzˇito „triku“, zˇe body, ktere´ majı´ by´t klasifikova´ny hodnotou 1 jsou vy´stupnı´m neuronem uzavrˇeny do pru˚niku (proto AND) dvou poloprostoru˚, vymezeny´ch prvnı´mi dveˇma neurony a klasifikovany´ch v obou prˇ´ıpadech hodnotou 1 7 . Prˇ´ıslusˇne´ prˇ´ımky jsou da´le voleny tak, aby zbyle´ dva body (0,0) a (1,1) do tohoto pru˚niku nena´lezˇely. Body (0,0), (1,1) pak na´lezˇ´ı do zbyly´ch dvou pru˚niku˚ prˇ´ıslusˇny´ch Klasifikaci dane´ho poloprostoru hodnotou 1, lze vzˇdy zajistit. Nevyhovujı´-li aktua´lnı´ koeficienty, deˇlı´cı´ nadroviny, vyna´sobı´me je vsˇechny cˇ´ıslem −1. Rovnice nadroviny se tı´m nezmeˇnı´ ovsˇem „polarita prˇ´ıslusˇny´ch poloprostoru˚“ se zmeˇnı´ na opacˇnou. 7
25
2.2. Neuronove´ sı´teˇ
a)
b)
Obra´zek 2.15: Realizace logicke´ funkce AND pomocı´ neuronu.
a)
b)
Obra´zek 2.16: Realizace logicke´ funkce XOR pomocı´ 3 neuronu˚.
26
2.2. Neuronove´ sı´teˇ
poloprostoru˚ ovsˇem vzˇdy v jednom poloprostoru tvorˇ´ıcı´m dany´ pru˚nik je vy´raz
n P
wi xi pro dany´ bod
i=0
za´porny´ a tudı´zˇ jej prˇ´ıslusˇny´ neuron klasifikuje hodnotou 0. Vy´znam biasu (w0 = −h) pro rozlisˇitelnost dvou linea´rneˇ separabilnı´ch mnozˇin bodu˚ ze vstupnı´ho prostoru je ilustrova´n obra´zkem 2.17. Z obra´zku je patrne´, zˇe kdyby bias resp. pra´h v nasˇem matematicke´m modelu neuronu chybeˇl, musela by kazˇda´ nadrovina, dana´ va´hami neuronu procha´zet pocˇa´tkem. Bez tohoto n plus prve´ho stupneˇ volnosti by tudı´zˇ neuron nebyl schopen neˇktere´ linea´rneˇ separabilnı´ mnozˇiny bodu˚ oddeˇlit.
Obra´zek 2.17: Vy´znam biasu.
27
2.2. Neuronove´ sı´teˇ
2.2.6
Neuronova´ sı´t’
Za´kladnı´ terminologie Syste´m vza´jemneˇ propojeny´ch neuronu˚ se nazy´va´ neuronova´ sı´t’. Propojenı´ je realizova´no tak, zˇe vy´stupnı´ hodnota kazˇde´ho neuronu je prˇiva´deˇna na vstup neuronu˚ jiny´ch event. i na vstup vlastnı´ (Hopfieldova sı´t’atd.). Naprˇ´ıklad v doprˇedne´ vı´cevrstve´ sı´ti (viz obr. 2.19) je vy´stup kazˇde´ho neuronu v dane´ vrstveˇ prˇiva´deˇn na vstup kazˇde´ho z neuronu˚ vrstvy na´sledujı´cı´. Pocˇet neuronu˚ a jejich vza´jemne´ propojenı´ urcˇuje tzv. architekturu neboli topologii sı´teˇ. Z tohoto hlediska rozezna´va´me dva za´kladnı´ typy neuronovy´ch sı´tı´: • s cyklickou architekturou, • s acyklickou architekturou. Sı´t’ma´ cyklickou architekturu, obsahuje-li alesponˇ jednu smycˇku, viz obr. 2.18 a). V opacˇne´m prˇ´ıpadeˇ mluvı´me o sı´ti s topologiı´ acyklickou , viz obr. 2.18 b). Takovouto sı´t’lze vzˇdy usporˇa´dat po vrstva´ch.
a)
b)
Obra´zek 2.18: Prˇ´ıklad sı´teˇ s cyklickou a) a acyklickou b) strukturou. Stav neuronove´ sı´teˇ je vektor stavu˚ vsˇech neuronu˚ v sı´ti (tzn. hodnot jejich vy´stupu˚). Konfiguracı´ neuronove´ sı´teˇ rozumı´me vektor vsˇech vah sı´teˇ (vcˇetneˇ biasu˚). Dynamiku neuronove´ sı´teˇ neboli jejı´ vy´voj v cˇase deˇlı´me na organizacˇnı´, aktivnı´ a adaptivnı´. Organizacˇnı´ dynamika definuje zmeˇny topologie sı´teˇ. Aktivnı´ dynamika postihuje zmeˇny stavu sı´teˇ neboli vlastnı´ vy´pocˇet vy´stupu sı´teˇ na za´kladeˇ zadane´ho vstupu. Adaptivnı´ dynamikou oznacˇujeme zmeˇny konfigurace sı´teˇ (proces ucˇenı´).
28
2.2. Neuronove´ sı´teˇ
Vı´cevrstva´ neuronova´ sı´t’ Ve vı´cevrstve´ neuronove´ sı´ti jsou neurony usporˇa´da´ny do vrstev. Pojem vı´cevrstva´ neuronova´ sı´t’ se obcˇas uprˇesnˇuje na doprˇedna´ vı´cevrstva´ neuronova´ sı´t’aby se zdu˚raznilo, zˇe vylucˇujeme jake´koli cykly (naprˇ. zpeˇtne´ vazby) v ra´mci sı´teˇ. V dalsˇ´ım textu se budeme zaby´vat vy´hradneˇ doprˇednou neuronovou sı´tı´ a pro strucˇneˇjsˇ´ı vyjadrˇova´nı´ budeme v textu psa´t pouze vı´cevrstva´ sı´t’. V tomto typu neuronove´ sı´teˇ je vy´stup kazˇde´ho z neuronu˚ v dane´ vrstveˇ je prˇiva´deˇn na vstupy vsˇech neuronu˚ ve vrstveˇ na´sledujı´cı´, viz obr. 2.19. V te´to souvislosti mluvı´me o takzvany´ch spojı´ch mezi neurony, cozˇ jsou mysˇlene´ orientovane´ cˇa´ry spojujı´cı´ neurony v dane´ vrstveˇ s neurony ve vrstveˇ na´sledujı´cı´. Spoj neuronu i v dane´ vrstveˇ s neuronem j ve vrstveˇ na´sledujı´cı´ je asociova´n s prˇ´ıslusˇnou va´hou wji viz obr. 2.19. Potencia´l neuronu j nevstupnı´ vrstvy (viz da´le) se pak spocˇ´ıta´ na´sledovneˇ: ξj =
n X
wji yi
(2.4)
i=0
kde n je pocˇet neuronu˚ v prˇedcha´zejı´cı´ vrstveˇ a y0 je jednicˇkovy´ vstup „zva´zˇeny´“ biasem wj0 . Hodnoty yi pro i ∈ {1, 2, ..., n} jsou vy´stupnı´ hodnoty neuronu˚ v prˇedcha´zejı´cı´ vrstveˇ.
Obra´zek 2.19: Prˇ´ıklad architektury vı´cevrstve´ neuronove´ sı´teˇ. Neurony dle umı´steˇnı´, resp. funkce, v ra´mci sı´teˇ rozdeˇlujeme na vstupnı´, pracovnı´ (skryte´, mezilehle´) a vy´stupnı´. Vstupnı´ neurony slouzˇ´ı pouze k zavedenı´ signa´lu do sı´teˇ. Inicializujı´ se hodnotami jednotlivy´ch slozˇek vstupnı´ho vektoru (signa´lu) a nepodı´lı´ se tudı´zˇ na vy´pocˇtu. Jedna´ se o analogii k biologicky´m receptoru˚m. Pracovnı´ neurony slouzˇ´ı k prˇenosu a transformaci pu˚vodnı´ho signa´lu, jenzˇ je naposled zpracova´n neurony vy´stupnı´mi. Vy´sledek vy´pocˇtu neuronove´ sı´teˇ je reprezentova´n pra´veˇ vektorem vy´stupnı´ch hodnot vy´stupnı´ch neuronu˚. Specia´lnı´m prˇ´ıpadem vı´cevrstve´ sı´teˇ je sı´t’jednovrstva´ jezˇ obsahuje pouze vstupnı´ a vy´stupnı´ vrstvu. I kdyzˇ se ve skutecˇnosti skla´da´ ze dvou vrstev, mluvı´me 29
2.2. Neuronove´ sı´teˇ
o sı´ti jednovrstve´, vstupnı´ vrstva se v tomto kontextu vypousˇtı´ a to zrˇejmeˇ proto, zˇe se nejedna´ o plnohodnotne´ neurony, ktere´ na za´kladeˇ vstupu vypocˇ´ıtajı´ neˇjaky´ vy´stup, ale jedna´ se o pouhe´ kontejnery na vstupnı´ data. Mluvı´me-li tedy obecneˇ o m-vrstve´ sı´ti, jedna´ se ve skutecˇnosti o sı´t’ majı´cı´ vrstev m + 1 (vstupnı´ vrstva, m − 1 skryty´ch vrstev a vy´stupnı´ vrstva). V ra´mci sche´maticke´ho oznacˇenı´ jezˇ uda´va´ celkovy´ pocˇet vrstev a pocˇet neuronu˚ v nich se jizˇ vstupnı´ vrstva nevynecha´va´ takzˇe trˇ´ıvrstva´ neuronova´ sı´t’, jezˇ je zna´zorneˇna na obr. 2.19 se da´ jednodusˇe popsat takto: 3–4–3–2 .
Ucˇenı´ vı´cevrstve´ neuronove´ sı´teˇ - Backpropagation Cı´lem ucˇenı´ (adaptace) neuronove´ sı´teˇ je nalezenı´ takove´ konfigurace (takovy´ch vah) aby sı´t’realizovala co nejprˇesneˇji prˇedepsanou funkci. Funkce, kterou ma´ sı´t’ po skoncˇenı´ adaptace realizovat je zada´na ve formeˇ tzv. tre´ninkove´ mnozˇiny (TRM). Pro ucˇenı´ doprˇedne´ vı´cevrstve´ sı´teˇ se pouzˇ´ıva´ tzv. ucˇenı´ s ucˇitelem cozˇ znamena´, zˇe tre´ninkova´ mnozˇina je slozˇena z usporˇa´dany´ch dvojic (xk , dk ), kde xk ∈ Rn je vstup sı´teˇ a dk ∈ Rm je jejı´ pozˇadovany´ vy´stup prˇicˇemzˇ k ∈ {1, 2...p}, kde p je pocˇet vzoru˚. Pocˇet a vy´beˇr tre´ninkovy´ch vstupu˚ xk ma´ samozrˇejmeˇ vliv na tvar funkce, kterou bude naucˇena´ sı´t’realizovat, podobneˇ jako naprˇ. prˇi interpolaci je interpolacˇnı´ funkce ovlivneˇna vy´beˇrem a pocˇtem interpolovany´ch bodu˚. Nejcˇasteˇji vybı´ra´me tre´ninkove´ vstupy xk rovnomeˇrneˇ z cele´ oblasti, kterou ma´ naucˇena´ sı´t’ zobrazovat. Beˇhem ucˇenı´ se upravujı´ vsˇechny va´hy sı´teˇ tak, aby celkova´ chyba sı´teˇ na tre´ninkove´ mnozˇineˇ byla minima´lnı´. Chyba sı´teˇ vzhledem ke vstupu xk je definova´na takto: m
Ek =
1X (yj (w , xk ) − dkj )2 , 2 j=1
(2.5)
kde y ∈ Rm je prˇ´ıslusˇny´ vy´stup sı´teˇ. Chyba sı´teˇ vzhledem ke tre´ninkove´ mnozˇineˇ je pak rovna soucˇtu teˇchto dı´lcˇ´ıch chyb.
E=
p X
Ek
(2.6)
k=1
Va´hy sı´teˇ se po vy´pocˇtu te´to celkove´ chyby upravı´ tak, aby jejı´ hodnota byla prˇi dalsˇ´ım pru˚chodu tre´ninkovou mnozˇinou mensˇ´ı. Tyto dva kroky (vy´pocˇet chyby E, modifikace vah) se opakujı´ tak dlouho, dokud chyba neklesne pod prˇedem urcˇenou mez cˇi pokud se jejı´ hodnota meˇnı´ s cˇasem jen minima´lneˇ a je zrˇejme´, zˇe pod stanovenou mez se nedostanem vu˚bec (naprˇ. uvı´znutı´ v loka´lnı´m minimu) cˇi za daleko veˇtsˇ´ı cˇas nezˇ jsme ochotni adaptaci sı´teˇ veˇnovat. Za´kladnı´ algoritmus pro ucˇenı´ vı´cevrstve´ sı´teˇ se nazy´va´ Backpropagation a je zalozˇen na gradientnı´ minimalizaci celkove´ chyby E. Gradient se vztahuje ke konfiguraci w (vektoru vsˇech vah) nebot’prˇi pevneˇ stanovene´ tre´ninkove´ mnozˇineˇ a topologii sı´teˇ za´visı´ chyba E pouze na vaha´ch E = E(w ).
30
2.2. Neuronove´ sı´teˇ
Za´kladnı´ adaptacˇnı´ vzorec tedy vypada´ na´sledovneˇ:
w
(t)
=w
(t−1)
∂E (t−1) −ε ∂w
(2.7)
Kazˇda´ va´ha, prˇ´ıslusˇna´ spoji vedoucı´mu z i-te´ho do j-te´ho neuronu se tedy adaptuje takto: (t) wji
=
(t−1) wji
∂E (t−1) −ε ∂wji
(2.8)
kde t znacˇ´ı cˇ´ıslo pru˚chodu tre´ninkovou mnozˇinou a ε ∈ (0, 1i je tzv. rychlost ucˇenı´. Odvozenı´ vztahu˚ ∂E v ru˚zny´ch vrstva´ch sı´teˇ lze prove´st dveˇma zpu˚soby. Jednak lze jı´t cestou pro parcia´lnı´ derivace ∂w ji postupne´ho dosazova´nı´ do vztahu (2.5) za yj a na´sledneˇ i za ξj . Tı´mto zpu˚sobem mu˚zˇeme Ek vyja´drˇit ve tvaru, ktery´ obsahuje va´hy libovolne´ vrstvy neuronu˚ a automaticky i va´hy neuronu˚ ve vrstva´ch na´sledujı´cı´ch. Odvozenı´ za´vislosti dı´lcˇ´ı chybove´ funkce Ek na vaha´ch neuronu˚ vy´stupnı´ vrstvy je uka´za´no ve (2.9)
Ek =
m 1X
2
(yJ − dkJ )2 =
J=1
m µ 1X
2
J=1
1 − dkJ 1 + e−λξJ
¶2 =
m 1X
2
2 1
J=1
1+e
−λ
n P I=0
wJI yI
− dkJ
(2.9)
kde yJ jsou vy´stupy neuronu˚ ve vy´stupnı´ vrstveˇ (odpovı´dajı´cı´ vstupu sı´teˇ xk ) a yI jsou vstupy teˇchto neuronu˚ (vcˇetneˇ forma´lnı´ho jednotkove´ho vstupu y0 ) resp. vy´stupy neuronu˚ ve vrstveˇ prˇedchozı´. Jako prˇenosovou funkci jsme pouzˇili nejcˇasteˇji pouzˇ´ıvanou standardnı´ sigmoidu. Postupny´m dosazova´nı´m za vy´stupy neuronu˚ v jednotlivy´ch vrstva´ch bychom nakonec obdrzˇeli funkci, v nı´zˇ by figurovaly pouze va´hy sı´teˇ jakozˇto promeˇnne´, prˇ´ıslusˇny´ vstupnı´ vektor xk a koeficient λ prˇ´ıpadneˇ koeficienty λj . Komplikovanost vy´sledne´ho vztahu by za´visela na pocˇtu vrstev sı´teˇ. Vy´sledny´ tvar v (2.9) jizˇ umozˇnˇuje prˇ´ımy´ vy´pocˇet parcia´lnı´ch derivacı´ chybove´ funkce Ek podle vah vy´stupnı´ch neuronu˚ ∂Ek = ∂wji
1 1+e
−λ
n P I=0
wjI yI
−1
− dkj
−λ
(1 + e
n P I=0
e wjI yI
−λ
n P I=0
wjI yI
(−λ)yi .
(2.10)
)2
Po zpeˇtne´m dosazenı´ obdrzˇ´ıme: ∂Ek (1 − yj ) = (yj − dkj ) yj2 λyi = (yj − dkj )yj (1 − yj )λyi ∂wji yj
(2.11)
∂Ek Pro odvozenı´ vztahu ∂w v prˇ´ıpadeˇ, zˇe wji jsou va´hy neuronu˚ ve skryte´ vrstveˇ, bychom museli prove´st ji jesˇteˇ jednu u´rovenˇ dosazenı´ ve vztahu (2.9) tzn. za yI , tento vztah opeˇt zderivovat, prove´st zpeˇtne´ dosazenı´ a obdrzˇeny´ vy´sledek (pro prˇedposlednı´ vrstvu) zobecnit. Poneˇkud me´neˇ pracne´ odvozenı´ (bez nutnosti konstrukce vztahu pro Ek v neˇmzˇ by figurovaly prˇ´ıslusˇne´ va´hy) lze realizovat pouzˇitı´m pravidla o derivaci slozˇene´ funkce. Zaved’me nejprve dalsˇ´ı znacˇenı´, jezˇ pouzˇijeme prˇi tomto odvozova´nı´.
31
2.2. Neuronove´ sı´teˇ X – mnozˇina n vstupnı´ch neuronu˚ Y – mnozˇina m vy´stupnı´ch neuronu˚ →j
– mnozˇina neuronu˚ z nichzˇ vede spoj do neuronu j
j → – mnozˇina neuronu˚ do nichzˇ vede spoj z neuronu j Do mnozˇiny → j je zahrnut i forma´lnı´ neuron s konstatntnı´m jednotkovy´m vy´stupem tzn. 0 ∈→ j jemuzˇ prˇ´ıslusˇ´ı va´ha (bias) wj0 . S ohledem na (2.6) mu˚zˇeme psa´t:
p
X ∂Ek ∂E = . ∂wji ∂w ji k=1
(2.12)
Prˇ´ıslusˇnou derivaci rozepı´sˇeme za pouzˇitı´ pravidla o derivaci slozˇene´ funkce: ∂Ek ∂Ek ∂yj ∂ξj = . ∂wji ∂yj ∂ξj ∂wji
(2.13)
Derivova´nı´m potencia´lu ξj viz (2.4) podle va´hy wji obdrzˇ´ıme na´sledujı´cı´ vy´sledek: ∂ξj = yi . ∂wji
(2.14)
∂y
Parcia´lnı´ derivaci ∂ξjj zı´ska´me derivacı´ prˇenosove´ (aktivacˇnı´) funkce. V nasˇem prˇ´ıpadeˇ uvazˇujeme logistickou sigmoidu viz obr. 2.11. ∂yj λe−λξj 2 −λξj 2 (1 − yj ) = = λy e = λy = λyj (1 − yj ) j j −λξ 2 ∂ξj (1 + e j ) yj
(2.15)
Dosazenı´m (2.15) a (2.14) do (2.13) obdrzˇ´ıme: ∂Ek ∂Ek = λyj (1 − yj )yi . ∂wji ∂yj Pokud je yj vy´stupnı´ hodnota vy´stupnı´ho neuronu, tzn. j ∈ Y , lze prˇ´ımo: ∂Ek = yj − dkj . ∂yj Srovnej obdrzˇeny´ vy´sledek ( (2.16) + (2.17) ) s (2.11).
32
(2.16) ∂Ek ∂yj
s ohledem na (2.5) spocˇ´ıtat
(2.17)
2.2. Neuronove´ sı´teˇ V prˇ´ıpadeˇ skryte´ho neuronu tzn. j 6∈ X ∪ Y pouzˇijeme pro vy´pocˇet slozˇene´ funkce
∂Ek ∂yj
opeˇt pravidlo pro derivova´nı´
X ∂Ek ∂yr ∂ξr X ∂Ek ∂Ek = = λyr (1 − yr )wrj . ∂yj ∂y ∂ξ ∂y ∂y r r j r → → r∈j r∈j
(2.18)
Pra´veˇ uvedeny´ vztah v podstateˇ rˇ´ıka´, zˇe zmeˇna vy´stupu j-te´ho neuronu ∆yj , v dane´ skryte´ vrstveˇ, jezˇ vyvola´ prˇ´ıslusˇnou zmeˇnu ∆Ek , vyvola´ nejprve zmeˇny ∆ξr potencia´lu˚ neuronu˚ v na´sledujı´cı´ vrstveˇ a ty jsou na´sledneˇ prˇ´ıcˇinou zmeˇn ∆yr vy´stupnı´ch hodnot teˇchto neuronu˚. Kazˇda´ zmeˇna ∆yr ma´ pak za na´sledek dı´lcˇ´ı zmeˇnu ∆Ekr . Zmeˇnu ∆Ek lze tedy vyja´drˇit pomocı´ zmeˇn ∆yj , ∆ξr , ∆yr , ∆Ekr . ∂Ek k Vy´pocˇty derivacı´ ∂E resp. ∂w se tedy prova´dı´ postupneˇ smeˇrem od vy´stupnı´ vrstvy, kde lze vy´pocˇet ∂yj ji prove´st prˇ´ımo viz ( (2.16) + (2.17) ), smeˇrem k vrstveˇ vstupnı´ prˇicˇemzˇ prˇi vy´pocˇtu derivacı´ v dane´ skryte´ vrstveˇ vyuzˇ´ıva´me jizˇ vypocˇ´ıtane´ hodnoty prˇ´ıslusˇny´ch derivacı´ ve vrstveˇ s o jednicˇku vysˇsˇ´ım porˇadovy´m cˇ´ıslem. Proto se tomuto adaptacˇnı´mu algoritmu rˇ´ıka´ metoda zpeˇtne´ho sˇ´ırˇenı´, anglicky backpropagation, nebot’ prˇi vy´pocˇtu derivacı´ nutny´ch ke korekci vah sı´teˇ postupujeme obra´ceny´m smeˇrem nezˇ ktery´m probı´ha´ vy´pocˇet sı´teˇ v aktivnı´m rezˇimu.
Toto je tedy za´kladnı´ podoba ucˇebnı´ho algoritmu. Jeho slabinou je samozrˇejmeˇ mozˇnost uvı´znutı´ v loka´lnı´m minimu chybove´ funkce E(w ). Tuto nevy´hodu lze minimalizovat naprˇ. opakovany´m spusˇteˇnı´m ucˇebnı´ho procesu tzn. z ru˚zny´ch pocˇa´tecˇnı´ch konfiguracı´ w 0 , ktere´ se generujı´ na´hodneˇ zpravidla 0 tak aby wji ∈ h0, 1i. Da´le mu˚zˇeme algoritmus vylepsˇit vhodny´mi modifikacemi rychlosti ucˇenı´ ε cˇi dokonce zmeˇnami topologie sı´teˇ beˇhem adaptacˇnı´ho procesu. Jine´ alternativy ucˇenı´ neuronovy´ch sı´tı´ poskytujı´ naprˇ. geneticke´ algoritmy, simulovane´ zˇ´ıha´nı´ atd., se ktery´mi ovsˇem autor nema´ v tomto kontextu zkusˇenost. Naucˇena´ sı´t’by meˇla by´t dostatecˇneˇ prˇesna´ na tre´ninkove´ mnozˇineˇ, ale za´rovenˇ by meˇla mı´t pozˇadovanou schopnost zobecneˇnı´ jiny´mi slovy pro neˇjake´ x ∈ / T RM dostatecˇneˇ blı´zke´ neˇjake´mu xk ∈ T RM , ocˇeka´va´me hodnotu vy´stupu y dostatecˇneˇ blı´zkou hodnoteˇ vy´stupu yk . To jakou funkci bude naucˇena´ sı´t’ na dane´ oblasti Ω realizovat za´visı´, kromeˇ vy´beˇru tre´ninkovy´ch vstupu˚ xk ∈ Ω, i na zvolene´ topologii sı´teˇ tzn. v nasˇem prˇ´ıpadeˇ na pocˇtu vrstev a pocˇtu neuronu˚ v jednotlivy´ch vrstva´ch. Jestlizˇe sı´t’ bude prˇ´ılisˇ jednoducha´, nebude k dispozici dostatecˇny´ pocˇet parametru˚ (vah) pro minimalizaci chyby na T RM . Bude-li naopak topologie sı´teˇ prˇ´ılisˇ bohata´, je zde dobry´ prˇedpoklad pro dosazˇenı´ velmi nı´zke´ chyby na T RM ovsˇem za´rovenˇ je dosti pravdeˇpodobne´, zˇe dojde k tzv. prˇeucˇenı´ sı´teˇ a sı´t’bude sˇpatneˇ zobecnˇovat. Tento stav je analogicky´ situaci, kdy bychom hledali aproximacˇnı´ funkci (naprˇ. pro neˇkolik hodnot linea´rnı´ za´vislosti) v podobeˇ polynomu s vysky´m stupneˇm. Bohuzˇel nenı´ prˇedem zna´mo jaka´ architektura sı´teˇ bude vhodna´ pro rˇesˇenı´ dane´ho proble´mu, takzˇe je trˇeba na zacˇa´tku trochu experimentovat. Nejle´pe se zrˇejmeˇ topologie sı´teˇ zoptimalizuje tak, zˇe se jı´ snazˇ´ıme s ohledem na velikost chyby E modifikovat prˇ´ımo v ra´mci ucˇebnı´ho procesu, tzn. kdyzˇ se chyba prˇi dane´ topologii dostatecˇneˇ nesnizˇuje, zkusı´me prˇidat jeden cˇi neˇkolik neuronu˚, atd.
33
Kapitola 3 Cı´le pra´ce Navrzˇenı´ novy´ch metod zpracova´nı´ obrazu zalozˇeny´ch na pouzˇitı´ neuronovy´ch sı´tı´ a to ve dvou konkre´tnı´ch oblastech: 1) pro vyhodnocova´nı´ stupneˇ usporˇa´danosti mnohaobjektovy´ch syste´mu˚, 2) a pro rekonstrukci obrazu˚ zrnity´ch struktur.
34
Kapitola 4 Vlastnı´ vy´sledky 4.1
Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
4.1.1
´ vod U
V mnoha veˇdnı´ch oborech, naprˇ. v astronomii, metalurgii, fyzice tenky´ch vrstev, biologii, atd., jsou cˇasto studova´ny syste´my sesta´vajı´cı´ z mnoha objektu˚. Cı´lem obrazove´ analy´zy takovy´chto syste´mu˚ je prˇedevsˇ´ım poskytnutı´ informace o rozdeˇlenı´ velikostı´ objektu˚ a o jejich prostorove´m rozlozˇenı´, prˇ´ıpadneˇ informace o jejich tvaru. Prostrˇednictvı´m teˇchto charakteristik pak mu˚zˇeme studovat vliv ru˚zny´ch cˇinitelu˚ (naprˇ. fyzika´lnı´ch) na dany´ syste´m. Neuronova´ sı´t’ prˇedstavuje novy´ na´stroj, ktery´ umozˇnˇuje zı´skat informace skryte´ v morfologicky´ch charakteristika´ch. K obrazove´ analy´ze struktur skla´dajı´cı´ch se z mnoha objektu˚ se standardneˇ pouzˇ´ıvajı´ ru˚zne´ morfologicke´ charakteristiky (rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ – DN N , radia´lnı´ distribucˇnı´ funkce – RDF , rozdeˇlenı´ ploch, poprˇ. tvarovy´ch faktoru˚ Wiener-Seitzovy´ch buneˇk – WS , WF F , Quadrat-Count - QC, atd. Kromeˇ metody QC mu˚zˇeme kazˇdou z uvedeny´ch charakteristik zna´zornit grafem, ze ktere´ho vsˇak lze jen zrˇ´ıdka kdy urcˇit prˇ´ımo vsˇechny parametry analyzovane´ho syste´mu, ktere´ na´s zajı´majı´. V tomto ohledu je zrˇejmeˇ informacˇneˇ nejprˇ´ınosneˇjsˇ´ı kovariance C(h ), jezˇ uda´va´ za´vislost normalizovane´ plochy prˇekrytı´ (pru˚niku) pu˚vodnı´ struktury s jejı´m posunuty´m obrazem, na velikosti posunutı´ h. Z grafu te´to funkce se da´ prˇ´ımo urcˇit mı´ra pokrytı´ obra´zku objekty dane´ struktury, strˇednı´ velikost objektu˚ ve smeˇru kolme´m na posunutı´ h . Je-li struktura ve smeˇru posunutı´ h periodicka´, je samozrˇejmeˇ periodicka´ i jejı´ kovariance prˇicˇemzˇ jejı´ perioda uda´va´ te´zˇ periodu struktury v dane´m smeˇru (tj. rozmeˇr opakujı´cı´ho se u´seku struktury ve smeˇru h ). Obecneˇ lze rˇ´ıci, zˇe zmeˇnı´me-li neˇjaky´ strukturnı´ parametr, zmeˇnı´ se i tvar prˇ´ıslusˇne´ morfologicke´ charakteristiky. Parametr, ktery´ jsme pouzˇili k ovlivnˇova´nı´ usporˇa´danosti modelovy´ch struktur jsme nazvali relativnı´ difuznı´ zo´na DZrel . Tento parametr vyjadrˇuje minima´lnı´ vzda´lenost ve ktere´ lze generovat dva body dane´ho syste´mu, vztazˇenou k maximu te´to minima´lnı´ vzda´lenosti pro dany´ pocˇet bodu˚ a velikost pracovnı´ plochy (viz na´sledujı´cı´ kapitola). Vliv tohoto 35
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
parametru na usporˇa´danost syste´mu je dobrˇe patrny´ z obra´zku 4.1. Na obra´zku 4.2 je pak zrˇejme´ jak se tento parametr promı´tl do tvaru vhodneˇ normovane´ho rozdeˇlenı´ vzda´lenostı´ nejblizˇsˇ´ıch sousedu˚.
Obra´zek 4.1: Dveˇ struktury se dveˇma tisı´ci body rozlozˇeny´mi v pracovnı´ oblasti 500 × 500 jednotek (vlevo DZrel = 0 resp. DZ = 0, vpravo DZrel = 1 resp. DZ = DZmax ).
Obra´zek 4.2: Vhodneˇ normovane´ grafy rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ pro 10000 objektu˚ (vlevo DZrel = 0, vpravo DZrel = 1).
4.1.2
Hard-disk model
Hard-disk model je zrˇejmeˇ nejjednodusˇsˇ´ı model, ktery´ lze pouzˇ´ıt k modelova´nı´ ostru˚vkovy´ch struktur zna´zornˇujı´cı´ch naprˇ. povrch tenke´ vrstvy v urcˇite´ fa´zi vy´voje. Tento model je zada´n pracovnı´ oblastı´, pravdeˇpodobnostnı´m rozdeˇlenı´m polomeˇru˚ kruhovy´ch objektu˚, jezˇ jsou do pracovnı´ oblasti generova´ny a te´zˇ minima´lnı´ vzda´lenostı´ (difuznı´ zo´nou DZ) ve ktere´ se dva nagenerovane´ objekty mohou nacha´zet 1 . Te´zˇ je prˇedem zna´m pocˇet objektu˚, ktere´ majı´ by´t do oblasti nagenerova´ny. Prˇ´ıklad ostru˚vkove´ struktury 1
Jedna´ se o vzda´lenost hranic objektu˚.
36
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
vytvorˇene´ tı´mto zpu˚sobem je zna´zorneˇn na obra´zku 4.3. Generova´nı´ objektu˚ do vznikajı´cı´ struktury probı´ha´ v na´sledujı´cı´ch krocı´ch: 1) Vygenerova´nı´ polomeˇru dle dane´ho pravdeˇpodobnostnı´ho rozdeˇlenı´. 2) Navrzˇenı´ sourˇadnic strˇedu prˇida´vane´ho objektu.2 3) Oveˇrˇenı´, zda objekt umı´steˇny´ do navrzˇene´ho mı´sta, je od ostatnı´ch objektu˚ vzda´len alesponˇ o DZ. Dvojice kroku˚ 2), 3) je opakova´na tak dlouho, dokud se nepodarˇ´ı objekt umı´stit, prˇ´ıpadneˇ dokud nevycˇerpa´me prˇedem stanoveny´ maxima´lnı´ pocˇet pokusu˚.
Obra´zek 4.3: Prˇ´ıklad Hard-disk modelove´ struktury. Pro testova´nı´ neuronovy´ch sı´tı´ k urcˇova´nı´ stupneˇ usporˇa´danosti mnohaobjektovy´ch syste´mu˚, byl pouzˇit bodovy´ hard-disk model, tzn. vsˇechny objekty dane´ho syste´mu meˇly nulovy´ polomeˇr, viz obr. 4.1. Jestlizˇe je u tohoto specia´lnı´ho modelu pevneˇ stanovena velikost pracovnı´ oblasti a pocˇet objektu˚ (bodu˚), jezˇ hodla´me do oblasti nagenerovat, je mı´ra usporˇa´danosti pouze funkcı´ minima´lnı´ povolene´ vzda´lenosti, tzn. difuznı´ zo´ny. Z obra´zku 4.1 je dobrˇe patrne´, zˇe s rostoucı´ DZ roste i usporˇa´danost 2
Sourˇadnice prˇida´vane´ho objektu jsou generova´ny jako hodnoty na´hodne´ velicˇiny rovnomeˇrneˇ rozdeˇlene´ na dane´m intervalu hodnot.
37
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚ T 3 syste´mu. Prˇi nulove´ DZ je syste´m dokonale na´hodny´, prˇi dosazˇenı´ maxima´lnı´ difuznı´ zo´ny DZmax vykazuje syste´m v ra´mci dane´ho modelu maxima´lnı´ usporˇa´danost. Definice maxima´lnı´ difuznı´ zo´ny je poneˇkud problematicka´ (alesponˇ pro konecˇnou pracovnı´ oblast). Mu˚zˇeme ji teoreticky definovat tak, T zˇe pro DZ > DZmax uzˇ se na´m nepodarˇ´ı prˇedem stanoveny´ pocˇet bodu˚ do dane´ oblasti nagenerovat ´ pocˇet bodu˚ resp. dosa´hnout prˇedem dane´ hustoty syste´mu ρ = obsahcelkovy . Naopak pro libovolnou plochy pracovnı´ oblasti T DZ < DZmax se pozˇadovany´ pocˇet objektu˚ nagenerovat podarˇ´ı. Urcˇita´ problematicˇnost definice T T DZmax plyne ze stochasticke´ho za´kladu modelu. Vy´sˇe definovana´ DZmax za´visı´ sice na husteˇ syste´mu ρ, avsˇak nejedna´ se prˇ´ımo o funkci te´to hustoty. Jiny´mi slovy, kdyzˇ bychom neˇkolikra´t realizovali pocˇ´ıtacˇovy´ experiment pro jejı´ zjisˇteˇnı´ a to prˇi stejne´ hustoteˇ ρ dospeˇli bychom (na konecˇne´ pracovnı´ T oblasti) pokazˇde´ k poneˇkud odlisˇne´ hodnoteˇ. Z tohoto pohledu je tedy DZmax prˇi dane´ hustoteˇ na´hodna´ velicˇina, jejı´zˇ rozptyl se snizˇuje s rostoucı´m ρ. V nasˇem prˇ´ıpadeˇ jsme definovali DZmax (ρ) jako odhad T strˇednı´ hodnoty z DZmax prˇi hustoteˇ ρ. Odhad proto, zˇe tato strˇednı´ hodnota byla prˇi dane´ hustoteˇ T spocˇ´ıta´na jako aritmeticky´ pru˚meˇr neˇkolika odhadu˚ DZmax . Tyto odhady byly vy´sledkem pocˇ´ıtacˇovy´ch experimentu˚, kdy byly generova´ny prˇ´ıslusˇne´ bodove´ syste´my prˇi postupneˇ se zveˇtsˇujı´cı´ difuznı´ zo´neˇ T DZ. Odhad jedne´ konkre´tnı´ hodnoty na´hodne´ velicˇiny DZmax prˇi dane´ hustoteˇ ρ pak byl urcˇen, jako poslednı´ (nejveˇtsˇ´ı) DZ, prˇi ktere´ byl nagenerova´n cely´ syste´m a to tak, aby k umı´steˇnı´ kazˇde´ho bodu v ra´mci tohoto syste´mu bylo potrˇeba maxima´lneˇ Nmax pokusu˚. Je evidentnı´, zˇe i DZmax (ρ) je na´hodna´ velicˇina, jelikozˇ se jedna´ pouze o odhad strˇednı´ hodnoty, ovsˇem jisteˇ se znatelneˇ nizˇsˇ´ım rozptylem nezˇ T ma´ DZmax , resp. jejı´ prakticky zjisˇt’ovane´ odhady. Mı´ra usporˇa´danosti definovana´ dle nı´zˇe uvedene´ho vztahu pomocı´ DZmax (ρ) je tedy reprezentativneˇjsˇ´ı nezˇ kdyby byla prˇi dane´ hustoteˇ definova´na pomocı´ T 4 jedne´ hodnoty na´hodne´ velicˇiny DZmax . To, zˇe DZmax (ρ) uvazˇujeme uzˇ i formou za´pisu jako funkci hustoty ρ tedy znamena´, zˇe rozptyl te´to ve skutecˇnosti na´hodne´ velicˇiny zanedba´va´me. Opra´vneˇnost T tohoto zanedba´nı´ samozrˇejmeˇ roste s pocˇtem odhadu˚ DZmax , ktere´ pouzˇijeme prˇi dane´ hustoteˇ k vy´pocˇtu DZmax (ρ), s rostoucı´m Nmax a samozrˇejmeˇ se zveˇtsˇujı´cı´ se hustotou. Podstatne´ je, zˇe realizacı´ jedne´ hodnoty DZmax (ρ) jsme zı´skali jaky´si rozumny´ odhad hornı´ hranice difuznı´ zo´ny prˇi dane´ hustoteˇ. Rozsah difuznı´ zo´ny, v ra´mci neˇhozˇ byly na´sledneˇ generova´ny bodove´ syste´my pouzˇite´ pro ucˇenı´ a analy´zu neuronovou sı´tı´, byl tak zu´zˇen na interval h0, DZmax (ρ)i. Mı´ra usporˇa´danosti pak byla , naby´vajı´cı´ hodnot 0 azˇ 1. Dva syste´my s definova´na jako tzv. relativnı´ difuznı´ zo´na DZrel = DZDZ max hustotami ρ1 a ρ2 majı´ tedy dle nasˇ´ı definice stejnou hodnotu usporˇa´danosti, jestlizˇe byly vytvorˇeny prˇi stejne´ relativnı´ difuznı´ zo´neˇ DZrel . Rozumnost te´to definice byla potvrzena i dobrou korespondencı´ ru˚zny´ch morfologicky´ch (vhodneˇ normovany´ch) charakteristik sestrojeny´ch pro syste´my s ru˚zny´mi hustotami avsˇak stejnou hodnotou DZrel . Nutno jesˇteˇ zdu˚raznit, zˇe difuznı´ zo´na je parametr modelu, ktery´ samozrˇejmeˇ koreluje s minima´lnı´ hodnotou vzda´lenosti mezi objekty vytvorˇene´ho syste´mu, ovsˇem tato nameˇrˇena´ minima´lnı´ vzda´lenost je vzˇdy veˇtsˇ´ı nebo rovna difuznı´ zo´neˇ.
Horni index T oznacˇuje, zˇe se jedna´ o teoretickou resp. prˇesnou hodnotu. T Mimo jine´ i proto, zˇe v prˇ´ıpadeˇ pouzˇitı´ odhadu jedne´ hodnoty DZmax , by mohlo by´t problematicke´ vu˚bec nagenerovat . bodovy´ syste´m s DZrel = 1. 3
4
38
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
4.1.3
Aplikace neuronove´ sı´teˇ
´ vod U Jak jizˇ bylo uvedeno v kapitole 4.1.1, mnohaobjektove´ syste´my resp. jejich obrazy se studujı´ pomocı´ ru˚zny´ch morfologicky´ch charakteristik (DN N , RDF , atd.), ktere´ odra´zˇejı´ vlastnosti teˇchto syste´mu˚ a potazˇmo i podmı´nky, za ktery´ch dany´ (modelovy´ cˇi experimenta´lneˇ vytvorˇeny´) syste´m vznikal. Jako ilustrativnı´ fyzika´lnı´ prˇ´ıklad mu˚zˇeme vzı´t syste´m naparˇeny´ch atomu˚ cˇi jizˇ ostru˚vkovou strukturu (rana´ fa´ze vzniku tenke´ vrstvy), kdy naprˇ. teplota, rychlost naparˇova´nı´, tlak, atd. ovlivnı´ mı´ru usporˇa´danosti dane´ho syste´mu. V tomto prˇ´ıpadeˇ se samozrˇejmeˇ podmı´nky vzniku dane´ho syste´mu promı´tnou nejen do morfologicky´ch charakteristik, ale soucˇasneˇ i do fyzika´lnı´ch vlastnostı´ dane´ho syste´mu. Neuronovou sı´t’ lze pak dokonce pouzˇ´ıt jako jaky´si prˇevodnı´k mezi podmı´nkami vzniku dane´ho syste´mu a jeho fyzika´lnı´mi vlastnostmi. V nasˇem prˇ´ıpadeˇ, tzn. bez prˇ´ıme´ vazby na experiment, jsme se spokojili pouze s testova´nı´m schopnosti neuronove´ sı´teˇ urcˇit vy´sˇe definovanou mı´ru usporˇa´danosti modelovy´ch struktur (bodovy´ Hard-disk model). Jedna´ se tedy o pouzˇitı´ neuronove´ sı´teˇ jakozˇto prˇevodnı´ku mezi obrazem bodove´ struktury a hodnotou dane´ho charakterizacˇnı´ho parametru (relativnı´ difuznı´ zo´na).
Preprocessing Preprocessing (prˇedzpracova´nı´) je veˇtsˇinou nezbytna´ cˇa´st rˇesˇenı´ proble´mu pomocı´ neuronove´ sı´teˇ. Cı´lem preprocessingu je prˇedevsˇ´ım minimalizace dimenze vstupnı´ho prostoru (prostoru vstupu˚ neuronove´ sı´teˇ). Tato minimalizace vsˇak nesmı´ by´t na u´kor ztra´ty informacı´, jezˇ na´s zajı´majı´ resp. jezˇ ma´ vracet neuronova´ sı´t’. Preprocessing je te´zˇ cˇasto prova´deˇn s cı´lem zlepsˇit zobecnˇovacı´ vlastnosti neuronove´ sı´teˇ. Da´ se pomocı´ neˇj naprˇ. zajistit invariantnost upraveny´ch vstupu˚ vu˚cˇi ru˚zny´m transformacı´m aplikovany´ch na vsupy pu˚vodnı´ (neprˇedzpracovane´). V nasˇem prˇ´ıpadeˇ jsou zpracova´va´ny obrazy bodovy´ch struktur a to z hlediska jejich usporˇa´danosti, tudı´zˇ je jisteˇ zˇa´doucı´ jejich u´prava s cı´lem redukovat pu˚vodnı´ neu´nosneˇ velikou dimenzi vstupnı´ho prostoru (naprˇ. v prˇ´ıpadeˇ bitmapy 500 × 500 pixelu˚ je to 250000) a zajistit invariantnost upraveny´ch vstupu˚ vu˚cˇi neˇktery´m prostorovy´m transformacı´m. Takte´zˇ je zrˇejme´, zˇe by prˇi pevneˇ dane´ relativnı´ difuznı´ zo´neˇ upravene´ vstupy nemeˇly za´viset na hustoteˇ zdrojovy´ch struktur. Jiny´mi slovy upravene´ vstupy by se meˇly v idea´lnı´m prˇ´ıpadeˇ meˇnit jen se zmeˇnou DZrel , nikoli s hustotou. Tento pozˇadavek je du˚lezˇity´ pro dosazˇenı´ co nejlepsˇ´ıch ucˇebnı´ch i zobecnˇovacı´ch (generalizacˇnı´ch) vlastnostı´ neuronove´ sı´teˇ jejı´mzˇ u´kolem je pra´veˇ urcˇit k dane´mu vstupu mı´ru jeho usporˇa´danosti, tj. DZrel . Pra´veˇ transformace vysˇetrˇovany´ch struktur do podoby vybrany´ch morfologicky´ch charakteristik (DN N , RDF , atd., viz kapitola 4.1.1), navı´c vhodneˇ normovany´ch (za u´cˇelem minimalizace vlivu hustoty vysˇetrˇovane´ struktury na fina´lnı´ tvar pouzˇite´ charakteristiky), na´m poslouzˇila jako vhodny´ preprocessing. Cely´ postup analy´zy bodove´ struktury je zobrazen na obra´zku 4.4. Bodova´ struktura je nejprve prˇetransformova´na do podoby vhodneˇ upravene´ morfologicke´ charakte-
39
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Obra´zek 4.4: Schema analy´zy bodove´ struktury.
40
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚ ristiky (na obra´zku 4.4 se jedna´ o DN N ), jezˇ pak slouzˇ´ı jako vstup pro neuronovou sı´t’. Na obra´zku je vyobrazena cˇtyrˇvrstva´ sı´t’se trˇiceti, dvaceti a deseti neurony ve skryty´ch vrstva´ch a s jednı´m (sı´t’vracı´ jediny´ u´daj DZrel ) neuronem ve vrstveˇ vy´stupnı´. Prˇesnost s jakou je neuronova´ sı´t’schopna urcˇit DZrel je samozrˇejmeˇ za´visla´ mj. i na jemnosti deˇlenı´ rozsahu velicˇiny, jejı´zˇ rozdeˇlenı´ dana´ charakteristika prˇedstavuje. V prˇ´ıpadeˇ DN N se jako optima´lnı´ uka´zala jemnost deˇlenı´ prˇiblizˇneˇ 80, tzn. rozdeˇlenı´ rozsahu na ose x na 80 intervalu˚. Vliv jemnosti deˇlenı´ dane´ charakteristiky, jezˇ za´rovenˇ uda´va´ dimenzi vstupu neuronove´ sı´teˇ, ale i architektury neuronove´ sı´teˇ poprˇ. zvolene´ morfologicke´ charakteristiky na prˇesnost analy´zy, je podrobneˇ diskutova´na v kapitole 4.1.4.
4.1.4 Diskuse V ra´mci rˇesˇenı´ analy´zy usporˇa´danosti bodovy´ch struktur jsme se zaby´vali vlivem trˇ´ı za´kladnı´ch parametru˚ nastı´neˇne´ metodiky. a) Architektura N S tzn. pocˇet vrstev a pocˇet neuronu˚ v jednotlivy´ch vrstva´ch N S. b) Typ pouzˇite´ morfologicke´ charakteristiky. c) Jemnost vzorkova´nı´ te´to charakteristiky. ad. a) Architektura neuronove´ sı´teˇ znacˇneˇ ovlivnˇuje kvalitu rˇesˇenı´ dane´ho proble´mu. Prˇ´ılisˇ mohutna´ N S s mnoha vrstvami a mnoha neurony v ra´mci teˇchto vrstev ma´ sklon k tzv. prˇeucˇenı´, tj. velmi prˇesneˇ se naucˇ´ı vzory z tre´ninkove´ mnozˇiny, ale sˇpatneˇ zobecnˇuje (tato vlastnost se testuje pomocı´ vzoru˚ z tzv. testovacı´ mnozˇiny). Od dobrˇe naucˇene´ N S ocˇeka´va´me, zˇe prˇedlozˇ´ıme-li jı´ postupneˇ dva blı´zke´ vstupnı´ vektory ze vstupnı´ho prostoru, cozˇ je obecneˇ neˇjaka´ podmnozˇina Rn , obdrzˇ´ıme dva podobne´ vy´stupy a to bez ohledu na to, zda neˇktery´ ze vstupu˚ byl obsazˇen v tre´ninkove´ mnozˇineˇ cˇi nikoli. U prˇeucˇene´ sı´teˇ nemusı´ by´t tento prˇirozeny´ pozˇadavek uspokojiveˇ splneˇn. Prˇeucˇena´ sı´t’ rˇesˇ´ı na´sˇ proble´m stejneˇ sˇpatneˇ jako polynom vysoke´ho stupneˇ aproximuje jinak naprˇ. linea´rnı´ za´vislost zadanou souborem hodnot. Take´ cˇasove´ na´roky na ucˇenı´ mohutne´ sı´teˇ jsou pochopitelneˇ vysˇsˇ´ı nezˇ v prˇ´ıpadeˇ sı´teˇ jednodusˇsˇ´ı. Bude-li N S naopak moc jednoducha´, nebudou zde proble´my s generalizacı´, ale s prˇ´ılisˇ velkou chybou jak na tre´ninkove´, tak na testovacı´ mnozˇineˇ. Urcˇit optima´lnı´ nebo alesponˇ uspokojivou architekturu N S k dane´mu proble´mu nenı´ jednoduche´ a pouhy´ popis rˇesˇene´ problematiky cˇasto nestacˇ´ı. K urcˇenı´ vyhovujı´cı´ architektury N S se tudı´zˇ cˇasto pouzˇ´ıva´ heuristicky´ch postupu˚, ktere´ zacˇ´ınajı´ od jednoduche´, resp. mohutne´, architektury, jezˇ je na´sledneˇ s ohledem na uspokojivost dosazˇeny´ch vy´sledku˚ obohacova´na, resp. redukova´na a to bud’to automaticky v ra´mci adaptacˇnı´ fa´ze (ucˇenı´) sı´teˇ, a nebo naopak samotny´m uzˇivatelem, v prˇ´ıpadeˇ pevne´ topologie v ra´mci ucˇebnı´ho procesu. Po testech neˇkolika architektur se jako postacˇujı´cı´ pro rˇesˇenı´ nasˇeho proble´mu uka´zala cˇtyrˇvrstva´ N S X-30-20-10-1, viz obr. 4.4, 4.5, kde X je pocˇet vstupnı´ch neuronu˚ neboli dimenze vstupnı´ho prostoru. Optima´lnı´ hodnota tohoto parametru je pro DN N preprocessing diskutova´na nı´zˇe a cˇinı´ prˇiblizˇneˇ 80.
41
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Obra´zek 4.5: Korespondence mezi rea´lny´mi hodnotami DZrel (osa x) a vy´stupy vra´ceny´mi neuronovou sı´tı´ (osa y) v prˇ´ıpadeˇ HDED preprocessingu (viz na´sledujı´cı´ strana) pro trˇi ru˚zne´ architektury neuronove´ sı´teˇ na testovacı´ mnozˇineˇ struktur. Zleva vy´sledky sı´tı´ 100-1, 100-10-1, 100-30-20-10-1, kde prvnı´ cˇ´ıslo (100) oznacˇuje dimenzi vstupu a da´le na´sledujı´ pocˇty neuronu˚ v jednotlivy´ch vrstva´ch. ad. b) V ra´mci vy´zkumu byly porovna´va´ny na´sledujı´cı´ morfologicke´ charakteristiky, ktere´ lze aplikovat na bodove´ struktury: rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ (DN N ), radia´lnı´ distribucˇnı´ funkce (RDF ), rozdeˇlenı´ ploch (WS ), obvodu˚ (WP ), tvarovy´ch faktoru˚ (WF F ) Wiener-Seitzovy´ch buneˇk, HDED, kde HDED je histogram rozdeˇlenı´ vzda´lenostı´ mezi sousedy na extre´mneˇ kra´tke´ krˇivce, kterou lze bodovy´m syste´mem prolozˇit (viz obr. 4.6). HDED prˇedstavuje nasˇi origina´lnı´ morfologickou charakteristiku, kterou lze na rozdı´l od DN N pouzˇ´ıt i k charakterizaci klastrove´ struktury. Azˇ na RDF se vzˇdy jedna´ o rozdeˇlenı´ relativnı´ch cˇetnostı´ neˇjake´ charakteristicke´ velicˇiny, naprˇ. u DN N na´s zajı´ma´ rozdeˇlenı´ relativnı´ch cˇetnostı´ vzda´lenostı´ nejblizˇsˇ´ıch sousedu˚, atd. Jemnostı´ deˇlenı´ (vzorkova´nı´) rozumı´me pocˇet intervalu˚, do ktery´ch rozdeˇlı´me maxima´lnı´ rozsah velicˇiny o jejı´zˇ rozdeˇlenı´ se jedna´. Porovna´va´nı´ morfologicky´ch metod (kromeˇ RDF ) bylo realizova´no prˇi jemnosti deˇlenı´ 50 a 80. Vy´sledky tohoto porovna´nı´ jsou prezentova´ny v podobeˇ grafu 4.7 resp. tabulky 4.1. 5
5
Z du˚vodu porovnatelnosti prˇesnosti sı´teˇ na tre´ninkove´ i testovacı´ mnozˇineˇ je chyba prˇepocˇtena na jeden tre´ninkovy´ s N P 1 resp. testovacı´ vzor tzn. err = yi − di , kde N je pocˇet vzoru˚ v tre´ninkove´ resp. testovacı´ mnozˇineˇ. Strˇednı´ N i=0
hodnota cˇtverce rozdı´lu mezi vy´stupem sı´teˇ yi a pozˇadovany´m vy´stupem di je navı´c odmocneˇna pro lepsˇ´ı porovnatelnost s pozˇadovany´mi hodnotami DZrel .
42
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Obra´zek 4.6: Extre´mneˇ kra´tka´ krˇivka, prolozˇena´ bodovou strukturou.
Tabulka 4.1: Tabulkove´ porovna´nı´ neˇkolika morfologicky´ch metod z hlediska vhodnosti jejich pouzˇitı´ jako preprocessingu vhodne´ho k analy´ze usporˇa´danosti bodovy´ch struktur pomocı´ N S.
43
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Obra´zek 4.7: Graficke´ porovna´nı´ neˇkolika morfologicky´ch metod z hlediska vhodnosti jejich pouzˇitı´ jako preprocessingu vhodne´ho k analy´ze usporˇa´danosti bodovy´ch struktur pomocı´ N S.
44
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚ Mı´ra vhodnosti dane´ metody je da´na velikostı´ strˇednı´ kvadraticke´ chyby neuronove´ sı´teˇ Etr , resp. Etest , na tre´ninkove´, resp. testovacı´, mnozˇineˇ. Tre´ninkova´ mnozˇina se v nasˇem prˇ´ıpadeˇ skla´dala z usporˇa´dany´ch dvojic (histogram; DZrel ), prˇicˇemzˇ jednotlive´ histogramy byly pocˇ´ıta´ny z bodovy´ch struktur cˇ´ıtajı´cı´ch 1000 a 10000 bodu˚ generovany´ch do pracovnı´ oblasti 500 × 500 jednotek. Krokova´nı´ parametru DZrel prˇi kazˇde´ z teˇchto hustot bylo 0,02. Prˇi kazˇde´ usporˇa´dane´ dvojici (%, DZrel ), kde % znacˇ´ı hustotu bodove´ struktury, byly vygenerova´ny 3 struktury a sestrojeny prˇ´ıslusˇne´ histogramy a to z toho du˚vodu, zˇe dana´ struktura a ani prˇ´ıslusˇny´ histogram nejsou pra´veˇ uvedenou dvojicı´ vstupnı´ch parametru˚ nasˇeho bodove´ho hard-disk modelu jednoznacˇneˇ urcˇeny, cozˇ je zpu˚sobeno cˇa´stecˇneˇ na´hodny´m zpu˚sobem generova´nı´ struktury (viz vy´sˇe). Tre´ninkova´ mnozˇina tedy cˇ´ıtala 2 × 3 × 51 = 306 tre´ninkovy´ch vzoru˚. Testovacı´ mnozˇina byla slozˇena ze 101 usporˇa´dany´ch dvojic (histogram; DZrel ), prˇi pocˇtu objektu˚ 5500 a kroku DZrel 0,01. Ucˇenı´ sı´teˇ bylo definova´no 150 000 iteracˇnı´mi cykly s rychlostı´ ucˇenı´ ε = 0,03 a 20000 cykly s ε = 0,003. Z tabulky 4.1 je patrne´, zˇe prˇi obou jemnostech byly nejlepsˇ´ı vy´sledky dosazˇeny pro DN N . To, zˇe je proti ocˇeka´va´nı´ ve vsˇech prˇ´ıpadech chyba dosazˇena´ na testovacı´ mnozˇineˇ (Etest ) nizˇsˇ´ı nezˇ chyba na mnozˇineˇ tre´ninkove´ (Etr ), je zpu˚sobeno tı´m, zˇe soucˇa´stı´ tre´ninkove´ mnozˇiny jsou histogramy zı´skane´ prˇi pocˇtu 1000 objektu˚, kdy je samozrˇejmeˇ veˇtsˇ´ı variabilita prˇ´ıslusˇne´ morfologicke´ charakteristiky prˇi pevneˇ dane´ DZrel nezˇ v prˇ´ıpadeˇ pocˇtu 5500 objektu˚. Jiny´mi slovy, kdyby testovacı´ mnozˇina byla konstruova´na prˇi pocˇtu objektu˚ 1000, byla by situace v souladu s nasˇ´ım ocˇeka´va´nı´m (Etr < Etest ). Radia´lnı´ distribucˇnı´ funkce vznika´ poneˇkud jiny´m zpu˚sobem. Pro dane´ r uda´va´ strˇednı´ hodnotu relativnı´ hustoty pro mezikruzˇ´ı o vnitrˇnı´m polomeˇru r a vneˇjsˇ´ım polomeˇru r + ∆r, prˇicˇemzˇ strˇed tohoto mezikruzˇ´ı je postupneˇ ztotozˇnˇova´n s jednotlivy´mi body nasˇ´ı struktury. Velikost ∆r je da´na maxima´lnı´m polomeˇrem rmax mezikruzˇ´ı a jemnostı´ deˇlenı´ tohoto parametru, tj. pocˇtu mezikruzˇ´ı. Jestlizˇe chceme porovna´vat RDF pouze z hlediska parametru DZrel , je zˇa´doucı´ eliminovat vliv hustoty tı´m, zˇe zajistı´me, aby se strˇednı´ pocˇet bodu˚ v i-te´m mezikruzˇ´ı co nejme´neˇ meˇnil se zmeˇnou hustoty struktury. To znamena´, zˇe uvazˇuji-li libovolne´ dveˇ struktury, pak plochy mezikruzˇ´ı se stejny´m indexem musı´ by´t v prˇevra´cene´m pomeˇru, nezˇ ve ktere´m jsou hustoty dany´ch struktur. Z pra´veˇ rˇecˇene´ho plyne, zˇe parametr rmax si mohu zvolit pouze u jedne´ hustoty (z prakticky´ch du˚vodu˚ je vhodne´ zvolit jako vztazˇnou nejmensˇ´ı hustotu). Da´le je zrˇejme´, zˇe ekvidistantnı´ deˇlenı´ tohoto parametru pak mohu zajistit pra´veˇ pouze u vztazˇne´ hustoty. Vliv parametru rmax a pocˇtu mezikruzˇ´ı na chybu neuronove´ sı´teˇ je naznacˇen v grafu 4.8, resp. tabulce 4.2. Z tabulky je patrne´, zˇe RDF je prˇi vhodneˇ zvoleny´ch parametrech velmi vhodna´ pro prˇedzpracova´nı´ struktury z hlediska detekce DZrel neuronovou sı´tı´. Varianta (50 × 100) je zrˇetelneˇ lepsˇ´ı nezˇ DN N prˇi obou zvoleny´ch jemnostech a dodejme, zˇe pro DN N je jemnost deˇlenı´ 80 te´meˇrˇ optima´lnı´, viz da´le. Povsˇimneˇme si te´zˇ, zˇe zde platı´ (Etr < Etest ) cozˇ znamena´, zˇe tato charakteristika je obecneˇ me´neˇ variabilnı´ pro ru˚zne´ struktury generovane´ za ty´chzˇ parametru˚ (%, DZrel ). Nevy´hodou RDF je jejı´ pomeˇrneˇ velka´ cˇasova´ na´rocˇnost pro struktury s mnoha body (5000 a vı´ce). ad. c) 45
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Obra´zek 4.8: Graficke´ porovna´nı´ neˇkolika variant RDF preprocessingu. Prvnı´ cˇ´ıslo v za´vorce uda´va´ velikost maxima´lnı´ho vnitrˇnı´ho polomeˇru mezikruzˇ´ı rmax prˇi nejmensˇ´ı hustoteˇ (1000 bodu˚), druha´ hodnota vyjadrˇuje pocˇet mezikruzˇ´ı.
46
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Tabulka 4.2: Tabulkove´ porovna´nı´ neˇkolika variant RDF preprocessingu. Prvnı´ cˇ´ıslo v za´vorce uda´va´ velikost maxima´lnı´ho vnitrˇnı´ho polomeˇru mezikruzˇ´ı rmax prˇi nejmensˇ´ı hustoteˇ (1000 bodu˚), druha´ hodnota vyjadrˇuje pocˇet mezikruzˇ´ı. Vliv jemnosti vzorkova´nı´ dane´ charakteristiky (jemnost histogramu˚) jsme zkoumali zatı´m pouze u DN N , avsˇak prˇedpokla´da´me, zˇe za´veˇry ucˇineˇne´ na za´kladeˇ obdrzˇeny´ch vy´sledku˚ budou mı´t obecnou platnost. Vyhodnocenı´ dane´ za´vislosti jsme realizovali pro jemnosti deˇlenı´ (10, 20, 30, 50, 80, 100, 120), obdrzˇene´ vy´sledky jsou graficky zna´zorneˇny na obr. 4.9.
Obra´zek 4.9: Za´vislost chyby neuronove´ sı´teˇ na jemnosti deˇlenı´ histogramu˚ rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ (DN N ).
47
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Vsˇimneˇme si, zˇe dane´ za´vislosti nejsou klesajı´cı´, jak bychom mohli prˇedpokla´dat. Zobrazene´ funkce majı´ v souladu s nasˇ´ım ocˇeka´va´nı´m nejprve klesajı´cı´ tendenci, ale od urcˇite´ jemnosti (zhruba 80) se tato tendence meˇnı´ na mı´rneˇ rostoucı´. Tento poneˇkud prˇekvapivy´ fakt si lze vysveˇtlit na´sledujı´cı´m zpu˚sobem. Se zvysˇujı´cı´ se jemnostı´ histogramu se samozrˇejmeˇ zvysˇuje i jeho citlivost na zmeˇny ve strukturˇe. Jak jizˇ bylo zmı´neˇno vy´sˇe, na´sˇ model nenı´ cˇisteˇ deterministicky´. Vygenerujeme-li neˇkolik struktur s ty´mizˇ parametry (%, DZrel ) budou se na´sledneˇ zkonstruovane´ histogramy lisˇit. Tento fenome´n mu˚zˇeme na za´kladeˇ teˇchto neˇkolika histogramu˚ kvantifikovat naprˇ. pomocı´ jejich rozptylu, prˇicˇemzˇ tento definujeme jako soucˇet rozptylu˚ jednotlivy´ch sloupcu˚ histogramu. Tento efekt stochasticke´ho prvku hard-disk modelu se bude projevovat vı´ce prˇi pouzˇitı´ histogramu˚ s vysˇsˇ´ı jemnostı´, nebot’ty jsou citliveˇjsˇ´ı na zmeˇny ve strukturˇe. Jestlizˇe bude jemnost histogramu prˇ´ılisˇ vysoka´ a vzorkova´nı´ parametru, ktery´ se snazˇ´ıme pomocı´ N S detekovat, prˇ´ılisˇ jemne´, mu˚zˇe se sta´t, zˇe zmeˇna tohoto parametru o vzorkovacı´ krok (u na´s 0,01 resp. 0,02) bude srovnatelna´ s pra´veˇ popsanou na´hodnou fluktuacı´ a pro N S je v takove´ situaci dosti teˇzˇke´ odlisˇit naprˇ. dva histogramy asociovane´ se strukturami generovany´mi prˇi te´zˇe dvojici parametru˚ (%, DZrel ) a histogramy, jezˇ prˇ´ıslusˇ´ı struktura´m, z nichzˇ jedna byla generova´na s parametry (%, DZrel ) a druha´ s parametry (% , DZrel + ∆DZrel ). Nasˇe pozˇadavky na sı´t’ se zde dosta´vajı´ do rozporu. Na jedne´ straneˇ chceme, aby sı´t’ byla do urcˇite´ mı´ry robustnı´, tj. aby tolerovala urcˇity´ rozptyl ve vstupnı´ch vektorech v jednom bodeˇ (%, DZrel ). Na druhe´ straneˇ bychom ra´di, aby detekovala velmi male´ zmeˇny parametru DZrel . Je tedy zrˇejme´, zˇe zvysˇova´nı´ citlivosti histogramu nemusı´ ve´st v nasˇem prˇ´ıpadeˇ ke snizˇova´nı´ chyby neuronove´ sı´teˇ, jak by tomu bylo v situaci, kdyby byl na´sˇ model cˇisteˇ deterministicky´. Pro oveˇrˇenı´ vy´sˇe uvedene´ argumentace byla navrzˇena charakteristika, jezˇ kvantifikuje informacˇnı´ prˇ´ınos dane´ jemnosti deˇlenı´ histogramu˚ vzhledem k parametru DZrel a ktera´ velmi dobrˇe koresponduje s vy´sledky neuronove´ sı´teˇ (obr.4.9 – cˇa´rkovana´ krˇivka). Jedna´ se o graf funkce 1.2 × 10−5 × ef f −1 , viz 6 .
Vy´sledky Pro u´cˇel detekce mı´ry usporˇa´danosti bodovy´ch struktur (DZrel ) bylo testova´no neˇkolik morfologicky´ch charakteristik a neuronovy´ch sı´tı´, viz kapitola 4.1.4. Nejlepsˇ´ıch vy´sledku˚ bylo dosazˇeno pro vhodneˇ upravene´ charakteristiky DN N a RDF . Na obra´zcı´ch 4.10 a 4.12 jsou zobrazeny pra´veˇ tyto charakteristiky a to pro 3 ru˚zne´ hustoty maxima´lneˇ a minima´lneˇ usporˇa´dany´ch bodovy´ch struktur. Z obra´zku˚ Mı´ru µR vlivu na´hodnosti obsazˇene´ v algoritmu hard-disk modelu na variabilitu histogramu˚ odpovı´dajı´cı´ch dane´mu bodu (%, DZrel ) lze kvantifikovat jako rozptyl histogramu˚ (suma rozptylu˚ jednotlivy´ch sloupcu˚) odpovı´dajı´cı´ch struktura´m vygenerovany´m v tomto bodeˇ. V tom same´m bodeˇ lze mı´ru µD s jakou parameter DZrel determinuje tvar histogramu definovat na´sledovneˇ: Uvazˇujme dva body (%, DZrel ) a (%, DZrel + ∆DZrel ). V obou teˇchto bodech spocˇ´ıtejme z neˇkolika histogramu˚ strˇednı´ histogram H a to s cı´lem minimalizovat vliv na´hodnosti a µD definujme na´sledovneˇ µD = M P µiD |H(%,DZrel )−H(%,DZrel +∆DZrel )| . Sumu lze povazˇovat za mozˇnou mı´ru informacˇnı´ efektivity (ef f ) vzhledem k ∆DZrel µi 6
i=0
R
DZrel prˇi dane´ hustoteˇ % a jemnosti deˇlenı´ M . Jelikozˇ pracujeme s histogramy normovany´mi tak, aby byl maxima´lneˇ potlacˇen vliv hustoty bodove´ struktury na jejich tvar, mu˚zˇeme vy´sledky zı´skane´ touto analy´zou pro jednu zvolenou hustotu % zobecnit.
48
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚ je dobrˇe patrny´ vliv mı´ry usporˇa´danosti resp. DZrel na jejich tvar. Schopnost naucˇene´ neuronove´ sı´teˇ detekovat z dany´ch charakteristik parametr DZrel je ilustrova´na na obr. 4.11 a 4.13. Jak je patrne´ z obra´zku˚, vy´sledky neuronove´ sı´teˇ jsou uspokojive´ pro oba zpu˚soby preprocessingu a to jak na tre´ninkove´, tak i na testovacı´ mnozˇineˇ dat, viz kapitola 2.2.6. Za´vislost vy´sledku˚ sı´teˇ na skutecˇne´ hodnoteˇ DZrel se nejvı´ce lisˇ´ı od idea´lnı´ho vy´sledku (identita) v okolı´ nuly, cozˇ je pochopitelne´, nebot’pra´veˇ prˇi maly´ch hodnota´ch DZrel jsou prˇ´ıslusˇne´ morfologicke´ charakteristiky pro pevneˇ zvolene´ DZrel nejvı´ce variabilnı´ cˇi fluktuujı´cı´, viz kapitola 4.1.4.
Obra´zek 4.10: Vhodneˇ normovane´ grafy rozdeˇlenı´ nejblizˇsˇ´ıch sousedu˚ pro 1000, 5500 a 10000 objektu˚ (vlevo DZrel = 0, vpravo DZrel = 1).
Obra´zek 4.11: Korespondence mezi rea´lny´mi hodnotami DZrel (osa x) a vy´stupy vra´ceny´mi neuronovou sı´tı´ (osa y) v prˇ´ıpadeˇ DN N preprocessingu (vlevo vy´sledky na tre´ninkove´, vpravo na testovacı´ mnozˇineˇ struktur), pouzˇita´ sı´t’80-30-20-10-1.
49
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
RDF Obra´zek 4.12: Vhodneˇ normovane´ ( RDF ) grafy Radia´lnı´ distribucˇnı´ funkce pro 1000, 5500 a 10000 max objektu˚ (vlevo DZrel = 0, vpravo DZrel = 1), pouzˇita´ sı´t’100-30-20-10-1.
Obra´zek 4.13: Korespondence mezi rea´lny´mi hodnotami DZrel (osa x) a vy´stupy vra´ceny´mi neuronovou sı´tı´ (osa y) v prˇ´ıpadeˇ RDF preprocessingu (vlevo vy´sledky na tre´ninkove´, vpravo na testovacı´ mnozˇineˇ struktur).
50
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Za´veˇrem lze tedy rˇ´ıci, zˇe testova´nı´ neuronove´ sı´teˇ pro tento typ obrazove´ analy´zy dopadlo u´speˇsˇneˇ. Nejveˇtsˇ´ı prˇ´ınos vsˇak autor nespatrˇuje v te´to konkre´tnı´ aplikaci, ny´brzˇ v jejı´m mozˇne´m zobecneˇnı´ resp. v zobecneˇnı´, metodiky ilustrovane´ obra´zkem 4.4 a to pro zı´ska´va´nı´ i neˇkolika neza´visly´ch parametru˚ rozlicˇny´ch syste´mu˚ cˇi struktur. Autor aktua´lneˇ pracuje na analogicke´ aplikaci v nı´zˇ se neuronova´ sı´t’ pouzˇ´ıva´ pro odhad koeficientu˚ figurujı´cı´ch v matematicke´m modelu enzymaticke´ho, amperometricke´ho biosenzoru. Neuronova´ sı´t’ zde analyzuje proudovou odezvu biosenzoru, cozˇ je charakteristika, kterou lze zı´skat jak z experimentu, tak i z prˇ´ıslusˇne´ho modelu. Jedna´ se o jediny´ spojovacı´ mu˚stek mezi rea´lny´m experimentem a modelem, resp. mezi typem pouzˇity´ch chemicky´ch slozˇek (enzym, substra´t, aj.) a jejich numericky´m obrazem (otiskem) v podobeˇ prˇ´ıslusˇny´ch konstant vystupujı´cı´ch v soustaveˇ diferencia´lnı´ch rovnic, popisujı´cı´ch matematicky´ model biosenzoru. Fitova´nı´ prˇ´ıslusˇny´ch koeficientu˚ na za´kladeˇ porovna´va´nı´ modelove´ proudove´ odezvy s odezvou experimenta´lnı´ tak sky´ta´ jedinou mozˇnost nastavenı´ prˇ´ıslusˇny´ch konstant tak, aby model prˇesneˇ odpovı´dal konkre´tnı´ fyzika´lnı´ konfiguraci. Za´kladnı´ schema je opeˇt stejne´ jako v prˇ´ıpadeˇ urcˇova´nı´ mı´ry usporˇa´danosti bodovy´ch struktur, jen zde mı´sto bodove´ struktury figuruje biosenzor, morfologicka´ charakteristika je zde nahrazena proudovou odezvou (viz obr. 4.14) a mı´sto jednoho parametru DZrel popisujı´cı´ho mı´ru usporˇa´danosti bodove´ho syste´mu je zde hned neˇkolik parametru˚, jezˇ spolu s pocˇa´tecˇnı´mi a okrajovy´mi podmı´nkami jednoznacˇneˇ urcˇujı´ vlastnosti modelu, a ktere´ bud’to nelze zı´skat experimenta´lnı´ cestou vu˚bec nebo jen velmi obtı´zˇneˇ a mnohdy navı´c s neuspokojivou prˇesnostı´. Neuronova´ sı´t’zde prˇedstavuje vedle geneticky´ch algoritmu˚, simulovane´ho zˇ´ıha´nı´, apod. nadeˇjny´ prostrˇedek pro tuto analy´zu (viz obr. 4.15), ktery´ je navı´c ve vy´pocˇetnı´m rezˇimu daleko rychlejsˇ´ı nezˇ oba zmı´neˇne´ algoritmy.
51
4.1. Urcˇova´nı´ mı´ry usporˇa´danosti komplexnı´ch syste´mu˚
Obra´zek 4.14: Schema zı´ska´va´nı´ koeficientu˚ matematicke´ho modelu amperometricke´ho biosenzoru z proudove´ odezvy biosenzoru.
Obra´zek 4.15: Vy´sledek testu neuronove´ sı´teˇ, urcˇene´ k vy´pocˇtu koeficientu k1 na za´kladeˇ proudove´ odezvy biosenzoru. Osa x reprezentuje skutecˇne´ hodnoty koeficientu k1 , osa y pak hodnoty vra´cene´ neuronovou sı´tı´. 52
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
4.2
Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
4.2.1
´ vod U
Fyzika´lnı´ charakteristiky pevny´ch la´tek (mechanicke´, opticke´, vodivostnı´, atd.) jsou urcˇeny jejich mikrostrukturou. Proto studium te´to mikrostruktury (2D rˇezy, vy´brusy, povrchy tenky´ch vrstev) umozˇneˇne´ optickou, AFM cˇi transmisnı´ mikroskopiı´ na´m mu˚zˇe poskytnout cenne´ informace o neˇktery´ch materia´lovy´ch vlastnostech, bez toho abychom museli sledovanou vlastnost zjisˇt’ovat mnohdy cˇasoveˇ i financˇneˇ na´kladneˇjsˇ´ı experimenta´lnı´ cestou. Naprˇ´ıklad u veˇtsˇiny polykrystalicky´ch materia´lu˚ je vy´sˇe zmı´neˇna´ 1 souvislost (velikost zrn × tvrdost) dobrˇe popsa´na zna´my´m vztahem (Hall-Petch) H = H0 + kd− 2 , kde H je tvrdost materia´lu, H0 a k jsou materia´love´ konstanty a d je strˇednı´ pru˚meˇr zrn [6]. Potrˇebne´ u´daje charakterizujı´cı´ zrnitou strukturu (velikost, tvar, rozlozˇenı´ zrn) lze zı´skat obrazovou analy´zou za pouzˇitı´ rozlicˇny´ch morfologicky´ch metod. Aplikace teˇchto metod na fotografie rˇezu˚, vy´brusu˚, atd. je vsˇak podmı´neˇna dostatecˇnou kvalitou prˇ´ıslusˇny´ch snı´mku˚. V nasˇem kontextu se jedna´ hlavneˇ o pozˇadavek celistvy´ch hranic zrn. Bohuzˇel ne vzˇdy lze tak kvalitnı´ snı´mky zı´skat. Hranice zrn mohou by´t mı´sty i znacˇneˇ narusˇeny, poprˇ. sˇpatneˇ rozpoznatelne´ od barvy pozadı´. Navı´c mu˚zˇe by´t obra´zek zatı´zˇen sˇumem. Kvalita (z hlediska rozpoznatelnosti hranic) takove´ho obra´zku jesˇteˇ poklesne jeho binarizacı´ (prˇevedenı´m na cˇernobı´ly´ obraz), cozˇ je v prˇ´ıpadeˇ takove´to analy´zy nedı´lna´ soucˇa´st morfologicke´ analy´zy, ktera´ jednoznacˇneˇ definuje hranice zrn. Tento proble´m je dobrˇe ilustrova´n obra´zkem 4.16 na neˇmzˇ je zna´zorneˇna mikrofotografie ocelove´ho vy´brusu a podoba tohoto obra´zku po binarizaci. Proble´m spocˇ´ıva´ v tom, zˇe barvu (u´rovenˇ sˇedi) hranice nelze jednoznacˇneˇ odlisˇit od barvy pozadı´, takzˇe binarizujeme-li s jaky´mkoli prahem 7 , vzˇdy docha´zı´ k dalsˇ´ı ztra´teˇ informace. Mikrostruktura samotny´ch zrn se promı´tne do mı´sty i znacˇne´ho rozsahu odstı´nu˚ sˇedi na male´ plosˇe. Po binarizaci se tato mikrostruktura projevı´ jako sˇum. Eliminace sˇumu, a hlavneˇ spra´vne´ doplneˇnı´ chybeˇjı´cı´ch hranic v pomeˇrneˇ komplikovane´ zrnite´ strukturˇe nenı´ trivia´lnı´ proble´m, ktery´ byl ve vy´sˇe ilustrovane´m prˇ´ıpadeˇ rˇesˇen zkusˇeny´m „dokreslovacˇem“, tedy cˇloveˇkem. Da´le se budeme zaby´vat mozˇny´m pouzˇitı´m vhodne´ neuronove´ sı´teˇ na automatizovane´ rˇesˇenı´ tohoto proble´mu.
4.2.2 Modelove´ struktury Jak jizˇ bylo rˇecˇeno drˇ´ıve, chceme-li aby se neuronova´ sı´t’naucˇila uspokojiveˇ rˇesˇit dany´ proble´m, musı´me jı´ poskytnout dostatecˇneˇ reprezentativnı´ tre´ninkovou mnozˇinu, pomocı´ ktere´ vlastneˇ definujeme dany´ proble´m. Bohuzˇel nebylo k dispozici pro tento u´cˇel dostatecˇne´ mnozˇstvı´ fotografiı´ na ktery´ch by se neuronova´ sı´t’ mohla ucˇit rekonstruovat rea´lne´ zrnite´ struktury. Z tohoto du˚vodu byly opeˇt pouzˇity 7
Hodnota definujı´cı´ u´rovenˇ sˇedi, pod kterou se v cˇernobı´le´m obra´zku vsˇe promı´tne na cˇernou barvu, a obra´ceneˇ, nad nı´zˇ se odstı´ny sˇedi zobrazı´ v cˇernobı´le´m obra´zku na bı´lou.
53
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Obra´zek 4.16: Mikrofotografie ocelove´ho vy´brusu prˇed (vlevo) a po (vpravo) binarizaci. struktury modelove´. Jako modelove´ zrnite´ struktury dobrˇe poslouzˇily struktury Wigner-Seitzovy´ch buneˇk zna´my´ch te´zˇ pod na´zvem „Voronoi tessellation“ (Voronoiovo dla´zˇdeˇnı´, da´le jen V T ), viz kapitola 2.1.2. Jsou-li objekty kruhove´ a s ru˚zny´mi polomeˇry, je obecneˇ hranice kazˇde´ bunˇky slozˇena ze zakrˇiveny´ch cˇar. Vhodnou volbou distribuce polomeˇru˚ objektu˚ generujı´cı´ch V T 8 lze pak zajistit aby prˇ´ıslusˇne´ V T bylo, v ra´mci testova´nı´ N N pro dany´ u´cˇel, dostacˇneˇ veˇrnou na´hradou za rea´lne´ struktury. Vytvorˇenou modelovou strukturu (V T ) lze pak dle potrˇeby degradovat, tzn. narusˇit hranice jednotlivy´ch zrn naprˇ. pomocı´ na´hodne´ho generova´nı´ bı´ly´ch kruhovy´ch tercˇ´ıku˚, poprˇ. obra´zek navı´c zasˇumeˇt. Tı´mto zpu˚sobem lze vytvorˇit libovolne´ mnozˇstvı´ dvojic: (pu˚vodnı´ (nenarusˇeny´) obra´zek V T , degradovany´ obra´zek V T ), cˇ´ımzˇ je splneˇn za´kladnı´ prˇedpoklad aplikovatelnosti N N , tzn. prˇedpoklad dostatecˇneˇ reprezentativnı´ tre´ninkove´ mnozˇiny.
4.2.3 Aplikace neuronove´ sı´teˇ ´ vod U Neuronova´ sı´t’v tomto prˇ´ıpadeˇ zpracova´vala prˇ´ımo 9 obrazovou informaci. Vstupem sı´teˇ samozrˇejmeˇ nebyl cely´ obra´zek (1000 × 1000 pixelu˚), uzˇ proto, zˇe by pameˇt’ove´ na´roky znacˇneˇ prˇekrocˇily mozˇnosti dostupne´ vy´pocˇetnı´ techniky. Obraz cele´ struktury byl tedy analyzova´n pomocı´ maly´ch oke´nek, kon8
V nasˇem prˇ´ıpadeˇ bylo pouzˇito gausovske´ rozdeˇlenı´ polomeˇru˚. Nikoli zprostrˇedkovaneˇ prˇes neˇjakou charakteristiku jezˇ by na za´kladeˇ pu˚vodnı´ho obra´zku vznikla, jak tomu bylo v prˇedchozı´ aplikaci. 9
54
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´ kre´tneˇ 40 × 40 a 25 × 25 pixelu˚. Velikost oke´nek byla zvolena s ohledem na velikost zrn, resp. jejich poruch, ktere´ meˇla neuronova´ sı´t’ odstranit. Opeˇt bylo otestova´no neˇkolik architektur N N . Vybra´na byla nakonec dvouvrstva´ neuronova´ sı´t’ X − 100 − X, kde X bylo 1600 (v prˇ´ıpadeˇ vstupu 40 × 40 pixelu˚) a 625 (v prˇ´ıpadeˇ vstupu 25 × 25 pixelu˚).
Preprocessing Preprocessing v tomto prˇ´ıpadeˇ spocˇ´ıval ve vy´beˇru odpovı´dajı´cı´ch velikostı´ „vzorkovacı´ch oke´nek“ (vzorkovacı´ch matic) a ve vhodny´ch modifikacı´ch z pu˚vodnı´ho obrazu snı´many´ch vzorku˚. Tre´ninkove´ vzory tedy byly ve tvaru usporˇa´dany´ch dvojic (oke´nko s narusˇenou strukturou, oke´nko s pu˚vodnı´ nenarusˇenou strukturou ) obeˇ oke´nka samozrˇejmeˇ z te´zˇe pozice analyzovane´ho obrazu. Prˇ´ıklad takove´ho tre´ninkove´ho vzoru(nemodifikovane´ho) je zna´zorneˇn na obra´zku 4.17.
Obra´zek 4.17: Prˇ´ıklad tre´ninkove´ho vzoru pro aplikaci neuronove´ sı´teˇ na rekonstrukci zrnity´ch struktur.
4.2.4
Postup rˇesˇenı´
ˇ esˇenı´ pomocı´ jedne´ neuronove´ sı´teˇ a) R Pu˚vodnı´ mysˇlenka byla pouzˇ´ıt pro rekonstrukci struktur jedinou neuronovou sı´t’. Prˇi tomto postupu byly vzorky snı´mane´ z degradovane´ho obrazu (leva´ polovina obr. 4.17) modifikova´ny v ra´mci preprocessingu na´sledovneˇ: 1) Posun teˇzˇisˇteˇ V ra´mci vzorku bylo spocˇ´ıta´no teˇzˇisˇteˇ T 10 , a objekt obsazˇeny´ ve vzorku, byl na´sledneˇ posunut o vektor −→ T S = S −T 11 , kde S je geometricky´ strˇed vzorkovacı´ho oke´nka, a to s cı´lem redukovat pocˇet navza´jem ru˚zny´ch vzorku˚ prˇedkla´dany´ch ke zpracova´nı´ neuronove´ sı´ti. Vsˇechny mozˇne´ vzorky lisˇ´ıcı´ se pouze 10
Jedna´ se o teˇzˇisˇteˇ objektu, ktere´ je vsˇak za´rovenˇ teˇzˇisˇteˇm cele´ho vzorku, nebot’ hodnoty prvku˚ matice reprezentujı´cı´ vzorek jsou mimo objekt nulove´. 11 Realizovane´ posunutı´ objektu bylo samozrˇejmeˇ celocˇ´ıselne´ tzn. o zaokrouhlene´ hodnoty T Sx a T Sy .
55
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
polohou teˇzˇisˇteˇ se pak zobrazı´ na jeden jediny´. Pra´veˇ popsana´ mysˇlenka je dobrˇe ilustrova´na obra´zkem 4.18.
Obra´zek 4.18: Redukce odlisˇny´ch vzorku˚ posunem teˇzˇisˇteˇ. V cˇa´sti obra´zku oznacˇene´ jako a) jsou zobrazeny trˇi dvoubodove´ objekty, umı´steˇne´ ve vzˇdy tak, zˇe se lisˇ´ı pouze polohou sve´ho teˇzˇisˇteˇ v ra´mci tohoto vzorku. Cˇa´st b) ukazuje situaci po posunu. Prˇ´ıklad mozˇne´ho vy´stupu neuronove´ sı´teˇ je v tomto prˇ´ıpadeˇ je zobrazen v cˇa´sti c). Vy´sledny´ objekt je na´sledneˇ −→ posunut zpeˇt tedy o vektor −T S. Aby byla vyuzˇita pokud mozˇno maxima´lnı´ plocha vzorku a sı´t’se tak mohla ucˇit z reprezentativnı´ch vzorku˚ (vzorku˚ s maxima´lnı´m kontextem), byly pozdeˇji zpracova´va´ny pouze vzorky, jejichzˇ teˇzˇisˇteˇ jizˇ prˇi sejmutı´ bylo v neˇjake´m blı´zke´m okolı´ ε geometricke´ho strˇedu vzorku12 . Tato mysˇlenka je ilustrova´na obra´zkem 4.19, v jehozˇ leve´ polovineˇ je dvoubodovy´ vzorek. Kromeˇ vy´sˇe popsane´ho posunu objektu ve vzorku zajisˇt’ujı´cı´ho invariaci upraveny´ch vzorku˚ vu˚cˇi posunutı´ vzorku˚ pu˚vodnı´ch byla testova´na i jednoducha´ mozˇnost jak te´meˇrˇ zajistit invariantnost upraveny´ch vzorku˚ vu˚cˇi otocˇenı´ vzorku˚ pu˚vodnı´ch. Algoritmus byl implementova´n tak, zˇe posunute´ vzorky13 byly postupneˇ ota´cˇeny o u´hel ϕi = i∆ϕ a v kazˇde´ poloze byl vyhodnocen moment setrvacˇnosti objektu obsazˇene´ho ve vzorku, vzhledem k ose procha´zejı´cı´ jeho teˇzˇisˇteˇm a kolme´ k vodorovny´m strana´m vzorku. Vy´sledna´ modifikace pu˚vodnı´ho vzorku pak spocˇ´ıvala v jeho natocˇenı´ o u´hel ϕimax takovy´, zˇe prˇ´ıslusˇny´ moment setrvacˇnosti Ji vzhledem k vy´sˇe popsane´ ose byl maxima´lnı´. Bohuzˇel tento krok, podstatneˇ zpomalujı´cı´ jak preprocessing tak zpeˇtnou rekonstrukci, neprˇinesl zrˇetelne´ zlepsˇenı´ ocˇeka´vane´ prˇedevsˇ´ım prˇi rekonstrukci testovacı´ch vzorku˚, nebot’ vy´sledky prˇi rekonstrukci vzorku˚ tre´ninkovy´ch byly velmi uspokojive´ i bez ota´cˇenı´. Ocˇeka´vane´ vylepsˇenı´ zobecnˇovacı´ch vlastnostı´ neuronove´ sı´teˇ se tedy bohuzˇel neprojevilo. Zjisˇteˇny´ fakt si autor neumı´ zcela uspokojiveˇ vysveˇtlit. Cˇa´stecˇneˇ byl tento dı´lcˇ´ı neu´speˇch zpu˚soben urcˇitou deformacı´ tvaru objektu, zobrazene´ho na diskre´tnı´ mrˇ´ızˇce, prˇi otocˇenı´ o u´hel ϕimax . Nicme´neˇ tento negativnı´ jev by meˇl by´t dle autora zanedbatelny´ v porovna´nı´ s prˇ´ınosem . ε = 0.2d, kde d je de´lka strany vzorku. 13 Prˇi ota´cˇenı´ se uvazˇovala jen ta cˇa´st posunute´ho objektu, ktera´ se prˇi libovolne´m natocˇenı´ vesˇla do vzorku. 12
56
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Obra´zek 4.19: Neprˇijaty´ (vlevo) a prˇijaty´ (vpravo) vzorek. (te´meˇrˇ zajisˇteˇnı´ rotacˇnı´ invariantnosti), obzvla´sˇteˇ pak v kontextu s na´sledny´m rozmaza´nı´m objektu, viz da´le. 2) Rozmaza´nı´ objektu˚ Na obra´zku 4.20 jsou zobrazeny trˇi prˇekryte´ vzorky 25 × 25 A, B, C. V kazˇde´m z nich je jiny´ objekt. Vzorky A, B jsou si na prvnı´ pohled dosti podobne´, avsˇak vzorek C se od obou vizua´lneˇ dost lisˇ´ı (viz te´zˇ hornı´ cˇa´st obra´zku 4.22). Uvazˇujme nynı´ tyto vzorky jako matice, jejichzˇ prvky majı´ hodnotu 1 odpovı´dajı´-li pixelu objektu a hodnotu 0 v opacˇne´m prˇ´ıpadeˇ. Z hlediska euklidovske´ metriky je pak vzorek (matice) C blizˇsˇ´ı vzorku A nezˇ matice B 14 , cozˇ je naprosto v rozporu s vizua´lnı´m vjemem. Na´s ovsˇem zajı´ma´ pohled neuronove´ sı´teˇ. Jak ta „vidı´“ podobnost cˇi naopak rozdı´lnost vzorku˚ A, B, C, resp. v jake´ relaci budou hodnoty |A0 − B 0 |, |A0 − C 0 |, |B 0 − C 0 |, kde A0 , B 0 , C 0 jsou vy´stupy sı´teˇ odpovı´dajı´cı´ vstupu˚m A, B, C ? Na tuto ota´zku nelze v obecne´ rovineˇ jednoznacˇneˇ odpoveˇdeˇt, takzˇe naprˇ. z |A − B| < |A − C|, jesˇteˇ automaticky neplyne, zˇe |A0 − B 0 | < |A0 − C 0 | za´lezˇ´ı samozrˇejmeˇ na tom, jak jsou u dane´ sı´teˇ nastaveny va´hy, cozˇ zase za´visı´ na tom na jake´ tre´ninkove´ mnozˇineˇ se sı´t’ucˇila. Obecna´ limitnı´ odpoveˇd’vsˇak znı´: Pro kazˇdy´ vstup neuronove´ sı´teˇ A ∈ Rn existuje δ ∈ R, takove´, zˇe pro vsˇechna X z δ-okolı´ bodu A bude neuronova´ sı´t’hodnotit vstupy v naproste´m souhlasu s euklidovskou metrikou, tzn. bude-li pro libovolne´ dva body X1 , X2 z δ-okolı´ bodu A platit |A − X2 | < |A − X1 |, pak bude platit i |A0 − X20 | < |A0 − X10 |, nebot’funkce f : Rn → Rm , kterou uvazˇovana´ neuronova´ sı´t’ realizuje, je spojita´15 . Objekty ve vsˇech trˇech vzorcı´ch jsou slozˇeny ze 12-ti pixelu˚ ovsˇem dvojice objektu˚ z A,C ma´ narozdı´l od objektu˚ √ √ v A,B nenulovy´ pru˚nik, takzˇe |A − C| = 22 < |A − B| = 24 15 Jak potencia´l ξ, tak prˇenosova´ funkce σ(ξ) kazˇde´ho neuronu, jsou spojite´ funkce. 14
57
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Obra´zek 4.20: Trˇi ru˚zne´, navza´jem prˇekryte´ vzorky (25 × 25 pixelu˚) A, B, C. Vrat’me se vsˇak nynı´ k nasˇim trˇem konkre´tnı´m vzorku˚m A, B, C a uvazˇujme v u´vodu specifikovanou sı´t’urcˇenou na zpracova´nı´ vzorku˚ 25 × 25, tzn. dvouvrstvou sı´t’625-100-625 16 , jejı´mzˇ u´kolem je rekonstrukce (doplneˇnı´) narusˇeny´ch objektu˚ obsazˇeny´ch ve vzorcı´ch. Budeme-li takovou sı´t’ucˇit rekonstrukci pouze na jednoprvkove´ tre´ninkove´ mnozˇineˇ {hA, dA i}, kde dA je pozˇadovany´ vy´stup pro vstup A, nemu˚zˇeme od te´to sı´teˇ ocˇeka´vat o mnoho uspokojiveˇjsˇ´ı rekonstrukci vzorku B nezˇ u jake´hokoli jine´ho vzorku, obsahujı´cı´ho dvana´cti-pixelovy´ objekt. K tomu aby sı´t’uspokojiveˇ zvla´dla rekonstrukci vzorku B, by ve tre´ninkove´ mnozˇineˇ musel by´t obsazˇen takovy´ tre´ninkovy´ vzor, ktery´ by ve vstupnı´m vzorku obsahoval objekt do znacˇne´ mı´ry se prˇekry´vajı´cı´ s objektem v B, nebo by zde muselo by´t vı´ce takovy´ch tre´ninkovy´ch vzoru˚, ktere´ by obsahovaly ve vstupnı´ch vzorcı´ch objekty, ktere´ by se s objektem v B prˇekry´valy alesponˇ na neˇkolika ru˚zny´ch mı´stech. Velikost a tvar tre´ninkovy´ch objektu˚ by meˇl zhruba odpovı´dat objektu B, jinak naprˇ. prˇi znatelneˇ veˇtsˇ´ıch objektech by prˇi rekonstrukci vzorku B hrozilo zasˇumeˇnı´, cozˇ je samozrˇejmeˇ nezˇa´doucı´ jev, byt’doprova´zejı´cı´ celkem uspokojivou rekonstrukci prˇ´ıslusˇne´ho objektu. Cely´ proble´m neuspokojive´ reprezentativnosti vzorku A vzhledem k vzorku B tkvı´ v tom, zˇe objekty ve vzorcı´ch A, B jsou disjunktnı´ a acˇ se z opticke´ho hlediska te´meˇrˇ kopı´rujı´, „neveˇdı´ o sobeˇ“. Jednou z mozˇnostı´ jak tento proble´m minimalizovat je, zˇe pu˚vodneˇ bina´rnı´ vzorek poneˇkud rozmazˇeme resp. vhodneˇ rozsˇ´ırˇ´ıme informaci o objektu i do jeho okolı´. Euklidovska´ metrika resp. neuronova´ sı´t’je pak schopna dı´vat se na takove´ vzorky „lidsky´ma“ ocˇima, ma´ lepsˇ´ı zobecnˇovacı´ vlastnosti a ucˇebnı´ proces le´pe konverguje. Z obra´zku 4.21 je patrne´, jak blahoda´rny´ vliv ma´ na vzorky A, B, C laplaceovske´ rozsˇirˇova´nı´ informace 16
625 = 252
58
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
o objektu do jeho okolı´. Tato u´prava spocˇ´ıva´ v iteracˇnı´m procesu, ktery´ se beˇzˇneˇ pouzˇ´ıva´ k numericke´mu vy´pocˇtu elektricke´ho potencia´lu v ohranicˇene´ oblasti, zna´me-li hodnotu potencia´lu na jejı´ hranici, tzn. k rˇesˇenı´ Laplaceovy rovnice. V pru˚beˇhu kazˇde´ iterace se za hodnotu kazˇde´ho pixelu, resp. cˇlenu odpovı´dajı´cı´ matice, dosadı´ pru˚meˇrna´ hodnota jeho sousedu˚. Vidı´me, zˇe s prˇiby´vajı´cı´mi iteracemi, ktere´ postupneˇ rozsˇirˇujı´ informaci o objektu po cele´m vzorku a v kazˇde´m jeho bodeˇ zprˇesnˇujı´ platnost vztahu Xij = 14 (Xi−1,j + Xi+1,j + Xi,j−1 + Xi,j+1 ), se euklidovska´ vzda´lenost vzorku˚ A, B snizˇuje a naopak vzda´lenost vzorku˚ A, C a B, C se zvysˇuje. Euklidovska´ norma ma´ na takto upraveny´ch vzorcı´ch lepsˇ´ı rozlisˇovacı´ schopnost, jezˇ je o pozna´nı´ blı´zˇe vnı´ma´nı´ lidske´ho oka a vy´sledky neuronove´ sı´teˇ se pak vı´ce blı´zˇ´ı k tomu, co bychom ocˇeka´vali resp. k vy´sledku˚m k nimzˇ by dosˇel naprˇ. ten zkusˇeny´ dokreslovacˇ, zmı´neˇny´ v u´vodu.
Obra´zek 4.21: Vy´voj vzda´lenostı´ modifikovany´ch vzorku˚ A, B, C v pru˚beˇhu Laplaceovske´ho rozmaza´nı´. Sada pu˚vodnı´ch a modifikovany´ch vzorku˚ A, B, C je zobrazena na obra´zku 4.22. Vhodne´ rozmaza´nı´ vzorku˚ tedy jednak urychluje ucˇebnı´ fa´zi (podobne´ vzorky si „vı´ce poma´hajı´“) a jednak jsou po ukoncˇenı´ ucˇebnı´ fa´ze lepsˇ´ı i zobecnˇovacı´ vlastnosti sı´teˇ (viz vy´sˇe). Mozˇnostı´ jak rozsˇ´ırˇit informaci o objektu do jeho okolı´, je samozrˇejmeˇ mnoho naprˇ. prˇi zpracova´va´nı´ 59
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Obra´zek 4.22: Trˇi ru˚zne´ vzorky prˇed a po laplaceovske´m rozmaza´nı´ (200 iteracı´). vzorku˚ odpovı´dajı´cı´ publikovany´m vy´stupu˚m viz kapitola 4.2.4, bylo vyuzˇito jednora´zove´ho pouzˇitı´ konvolucˇnı´ masky o straneˇ cca 0.25× strana vzorku. Vy´sˇe popsane´ laplaceovske´ rozmı´tnutı´, autor testoval azˇ dodatecˇneˇ a to hlavneˇ pro zjisˇteˇnı´ vy´voje vzda´lenostı´ vzorku˚ A, B, C v za´vislosti na velikosti okolı´ do neˇhozˇ byly prˇ´ıslusˇne´ objekty rozmaza´ny. Tento zpu˚sob u´pravy vzorku˚ bude pro dany´ u´cˇel patrneˇ vhodneˇjsˇ´ı nebot’se mj. ukazuje, zˇe je prˇ´ınosne´ vhodneˇ rozprostrˇ´ıt objekt po cele´m vzorku. ˇ esˇenı´ pomocı´ vı´ce neuronovy´ch sı´tı´ b) R Vy´sˇe uvedeny´ posun teˇzˇisˇteˇ vzorku byla u´prava redukujı´cı´ pocˇet navza´jem ru˚zny´ch vstupu˚ neuronove´ sı´teˇ v ra´mci tre´ninkove´ mnozˇiny. Vzorky lisˇ´ıcı´ se pu˚vodneˇ pouze polohou teˇzˇisˇteˇ splynuly, a vzorky s tvaroveˇ podobny´mi a stejneˇ natocˇeny´mi objekty se promı´tly na sobeˇ blizˇsˇ´ı vzorky, cˇ´ımzˇ se i urychlil ucˇebnı´ proces. Upravene´ vzorky se staly invariantnı´mi vu˚cˇi posunutı´ vzorku˚ pu˚vodnı´ch. Jiny´mi slovy, upravena´ tre´ninkova´ mnozˇina pak le´pe odpovı´dala nasˇemu proble´mu spocˇ´ıvajı´cı´mu v rozpozna´va´nı´ objektu˚ rozlicˇny´ch tvaru˚ a jejich prˇ´ıpadne´ rekonstrukci. Proble´m redukce tre´ninkove´ mnozˇiny lze vsˇak vyrˇesˇit i zcela jiny´m zpu˚sobem, spocˇ´ıvajı´cı´m ve vhodne´m rozdeˇlenı´ vsˇech myslitelny´ch vzorku˚ do neˇkolika disjunktnı´ch trˇ´ıd, v du˚sledku cˇehozˇ se jaka´koli pu˚vodnı´ tre´ninkova´ mnozˇina rozdeˇlı´ na neˇkolik disjunktnı´ch podmnozˇin, ktere´ poslouzˇ´ı jako tre´ninkove´ mnozˇiny pro prˇ´ıslusˇny´ pocˇet neuronovy´ch sı´tı´. Kazˇda´ neuronova´ sı´t’se pak bude ucˇit jen na urcˇite´ podmnozˇineˇ 60
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
pu˚vodnı´ tre´ninkove´ mnozˇiny a bude na´sledneˇ pouzˇita pouze pro rekonstrukci takovy´ch vzorku˚, ktere´ ´ speˇsˇnost tohoto prˇ´ıstupu pak zjevneˇ souvisı´ pra´veˇ s volbou splnˇujı´ prˇ´ıslusˇne´ klasifikacˇnı´ krite´rium. U vhodny´ch klasifikacˇnı´ch krite´riı´. Na obra´zku 4.23 je zna´zorneˇno testovane´ rozdeˇlenı´ vsˇech myslitelny´ch vzoru˚ do devı´ti17 disjunktnı´ch trˇ´ıd dle pozice teˇzˇisˇteˇ vzorku.
Obra´zek 4.23: Rozdeˇlenı´ vzorku˚ do devı´ti trˇ´ıd dle pozice teˇzˇisˇteˇ vzorku. Na vzorky ve vsˇech trˇ´ıda´ch bylo stejneˇ jako v prˇ´ıpadeˇ zpracova´nı´ jednou neuronovou sı´tı´ aplikova´no rozmaza´nı´ pomocı´ konvolucˇnı´ masky. Rekonstrukce obrazu Rekonstrukce obrazu narusˇene´ zrnite´ struktury probı´hala v obou prˇ´ıpadech analogicky. Postupneˇ snı´mane´ vzorky byly nejprve vy´sˇe popsany´m zpu˚sobem modifikova´ny a na´sledneˇ prˇedlozˇeny k vyhodnocenı´ neuronove´ sı´ti (sı´tı´m). Kazˇdy´ pixel tak byl vyhodnocen neˇkolikra´t, vzˇdy na jine´ pozici ve vzorku. Naprˇ´ıklad kazˇdy´ pixel vzorku, jehozˇ vzda´lenost od kazˇde´ strany vzorku byla veˇtsˇ´ı nebo rovna straneˇ vzorku d, byl vyhodnocen d2 kra´t. Jelikozˇ byla jako prˇenosova´ funkce pouzˇita logisticka´ sigmoida, byla dane´mu pixelu prˇi kazˇde´m vyhodnocenı´ prˇideˇlena hodnota z intervalu (0, 1). Vy´sledna´ hodnota dane´ho pixelu byla urcˇena jako strˇednı´ hodnota ze vsˇech hodnot, jezˇ mu byly beˇhem rekonstrukce postupneˇ prˇideˇleny. Tato hodnota pak samozrˇejmeˇ take´ na´lezˇela do intervalu (0, 1). Poslednı´ fa´ze rekonstrukce tudı´zˇ spocˇ´ıvala v prahova´nı´ (binarizaci) spocˇ´ıvajı´cı´ v prˇevedenı´ sta´vajı´cı´ch hodnot pixelu˚ na hodnoty 0, 1 pomocı´ vhodneˇ zvolene´ prahove´ hodnoty P T ∈ (0, 1). Jelikozˇ prˇi pra´ci s modelovy´mi strukturami jsou k dispozici vzˇdy obeˇ struktury (narusˇena´ a pu˚vodnı´ nenarusˇena´), mohla by´t optima´lnı´ prahova´ hodnota zjisˇteˇna experimenta´lneˇ jako hodnota prahu, prˇi jehozˇ pouzˇitı´ byl rekonstruovany´ obraz nejblı´zˇe 17
Prˇesneˇji rˇecˇeno do deseti trˇ´ıd, avsˇak vzorky jejichzˇ teˇzˇisˇteˇ padlo do bı´le´ho prostoru nebyly bra´ny do u´vahy.
61
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
pu˚vodnı´mu (nenarusˇene´mu) obrazu zrnite´ struktury.
Vy´sledky Vy´sledky na tre´ninkove´ mnozˇineˇ Vy´sledky neuronovy´ch sı´tı´ (prˇi obou prˇ´ıstupech) dosazˇene´ na tre´ninkovy´ch vzorech byly velmi uspokojive´. Jiny´mi slovy, naucˇena´ sı´t’byla schopna velmi dobrˇe si zapamatovat jak ma´ rekonstruovat narusˇene´ vzorky z tre´ninkove´ mnozˇiny. Na obra´zku 4.24 vidı´me, jak rekonstrukci narusˇeny´ch vzorku˚ 40 × 40, resp. vstupu˚ N N z „obrˇ´ı“ trˇ´ıtisı´cove´18 tre´ninkove´ mnozˇiny, zvla´dla sı´t’v ra´mci prvnı´ho prˇ´ıstupu (jedna sı´t’, posun teˇzˇisˇteˇ, rozmaza´nı´). Vzorky ktere´ poslouzˇily ke tvorbeˇ tre´ninkovy´ch vzoru˚ (viz obr. 4.17) byly odebı´ra´ny z ru˚zny´ch, na´hodneˇ voleny´ch pozic narusˇene´ho a nenarusˇene´ho, obrazu modelove´ struktury. Po ukoncˇenı´ adaptacˇnı´ fa´ze (ucˇenı´) sı´teˇ, jı´ byly postupneˇ prˇedkla´da´ny narusˇene´ vzory z tre´ninkove´ mnozˇiny, ktere´ sı´t’ na´sledneˇ vyhodnotila resp. zrekonstruovala. Mnozˇina vsˇech takto rekonstruovany´ch19 tre´ninkovy´ch vstupu˚ je zobrazena v prave´ cˇa´sti obra´zku 4.24. Dı´ky jejich mnozˇstvı´ pokry´vajı´ i prˇes svu˚j na´hodny´ vy´beˇr cely´ pu˚vodnı´ obraz (1000 × 1000 pixelu˚), jenzˇ je takrˇka k nerozpozna´nı´ od obrazu pu˚vodnı´ nenarusˇene´ struktury. Rekonstrukce na tre´ninkove´ mnozˇineˇ pomocı´ druhe´ho prˇ´ıstupu (9 sı´tı´) dopadla obdobneˇ.
Pocˇet vsˇech polohou se lisˇ´ıcı´ch vzorku˚ 40 × 40 je 9602 = 921600 19 V pojmu „rekonstruovany´“ je uzˇ zahrnuto za´veˇrecˇne´ prahova´nı´. 18
62
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Obra´zek 4.24: Narusˇena´ struktura (vlevo) a jejı´ rekonstruovana´ podoba (vpravo). Rekonstrukce spocˇ´ıvala ve vyhodnocenı´ 3000 na´hodneˇ vybrany´ch vzorku˚ obsazˇeny´ch v tre´ninkove´ mnozˇineˇ.
63
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Vy´sledky na testovacı´ mnozˇineˇ Vy´sledky na testovacı´ch mnozˇina´ch byly jizˇ uspokojive´ poneˇkud me´neˇ a to v ra´mci obou prˇ´ıstupu˚. Na obra´zku 4.25 je zobrazen typicky´ pru˚beˇh chyb na tre´ninkove´ (Etrm ) a na testovacı´ (Etest ) mnozˇineˇ prˇi ucˇenı´ neuronove´ sı´teˇ na vy´sˇe uvedeny´ch vzorcı´ch. Zpocˇa´tku obeˇ chyby klesajı´, a to te´meˇrˇ stejneˇ rychle, avsˇak od urcˇite´ho okamzˇiku klesajı´cı´ tendence chyby Etest takrˇka mizı´ a dokonce mu˚zˇe dojı´t i k jejı´mu ru˚stu. Jedna´ se o tzv. projev prˇeucˇenı´ sı´teˇ (viz kapitola 2.2.6), ktery´ obecneˇ za´visı´ na bohatosti architktury neuronove´ sı´teˇ, resp. pocˇtu volny´ch parametru˚ sı´teˇ (vah), ale i na de´lce ucˇebnı´ho procesu. Jakmile se tedy v ra´mci ucˇenı´ sı´teˇ monitorovana´ chyba Etest prˇestane uspokojiveˇ snizˇovat, cˇi se dokonce zacˇne zvysˇovat, nema´ smysl da´le pokracˇovat v ucˇenı´ sı´teˇ, i kdyby chyba Etrm sta´le klesala dostatecˇneˇ rychle, nebot’ dalsˇ´ı ucˇenı´ by jizˇ te´meˇrˇ (cˇi vu˚bec) nezlepsˇovalo zobecnˇovacı´ schopnosti sı´teˇ – spı´sˇe naopak. Pra´veˇ architektura sı´teˇ a preprocessing majı´ (v ra´mci dane´ aplikace) rozhodujı´cı´ vliv na to, kdy a prˇi jaky´ch hodnota´ch se ony pomyslne´ nu˚zˇky mezi Etrm a Etest zacˇnou rozevı´rat.
Obra´zek 4.25: Grafy za´vislostı´ chyby neuronove´ sı´teˇ na pocˇtu absolvovany´ch tre´ninkovy´ch cyklu˚ a to jednak na tre´ninkove´ (Etrm ), tak i na testovacı´ mnozˇineˇ(Etest ). Mı´ra u´speˇsˇnosti rekonstrukce narusˇene´ struktury vyhodnocenı´m vsˇech 921 600 polohou se lisˇ´ıcı´ch vzorku˚ 20 40 × 40 a to pro oba prˇ´ıstupy je ilustrova´na obra´zkem 4.26. Jak vidno v ra´mci obou prˇ´ıstupu˚ byl uspokojiveˇ odstraneˇn sˇum. Jiny´mi slovy schopnost identifikovat nezˇa´doucı´ shluky rozpty´leny´ch bodu˚ byl dobrˇe zobecneˇn. Na druhe´ straneˇ zobecneˇnı´ rekonstrukcˇnı´ schopnosti je jizˇ uspokojive´ me´neˇ a od vy´sledku˚ rekonstrukce pouze pomocı´ tre´ninkovy´ch vzoru˚ se zrˇetelneˇ lisˇ´ı. Nicme´neˇ obdrzˇene´ vy´sledky ukazujı´, zˇe pouzˇitı´ neuronovy´ch sı´tı´ pro rekonstrukci obrazu zrnity´ch (prˇ´ıpadneˇ i jiny´ch) struktur naznacˇeny´m zpu˚sobem je mozˇne´. Jedna´ se vsˇak o velmi komplexnı´ proble´m jehozˇ uspokojive´ rˇesˇenı´ je za´visle´ prˇedevsˇ´ım na nalezenı´ vhodne´ho preprocessingu (zde prˇedzpracova´nı´ obrazove´ informace), ktery´ mu˚zˇe zahrnovat nejen vhodne´ u´pravy pu˚vodnı´ obrazove´ informace, ale prˇ´ıpadneˇ i jejı´ transformaci (Fourierova, waveletova´ [4, 5], aj.) a pra´ci s takto transformovanou reprezentacı´. Jak jizˇ bylo rˇecˇeno v kap. 4.1.3, preprocessing by meˇl prˇedevsˇ´ım vhodneˇ (tak aby zu˚stala zachova´na dostatecˇna´ informace o vlastnostech, ktere´ ma´ neuronova´ sı´t’analyzovat) redukovat pu˚vodnı´ (bez preprocessingu) dimenzi vstupu neuronove´ sı´teˇ, a tı´m mj. minimalizovat rozlicˇnost mnozˇiny vsˇech myslitelny´ch vstupu˚ neuronove´ sı´teˇ, cozˇ pozitivneˇ ovlivnˇuje zobecnˇovacı´ vlastnosti naucˇene´ sı´teˇ. V prˇ´ıpadeˇ rekonstrukce obrazu zrnity´ch struktur prˇedstavuje pra´veˇ splneˇnı´ tohoto cı´le preprocessingu dosti 20
prˇesneˇji rˇecˇeno teˇch, ktere´ prosˇly prˇ´ıslusˇny´m ε-krite´riem
64
4.2. Rekonstrukce degradovany´ch obrazu˚ zrnity´ch struktur pomocı´ neuronovy´ch sı´tı´
Obra´zek 4.26: Narusˇena´ struktura (vlevo), vy´sledek jejı´ rekonstrukce pomocı´ jedne´ neuronove´ sı´teˇ (uprostrˇed), vy´sledek rekonstrukce pomocı´ devı´ti neuronovy´ch sı´tı´ (vpravo). na´rocˇny´ proble´m, jehozˇ uspokojive´ rˇesˇenı´ bude cı´lem dalsˇ´ıho vy´zkumu. Jak bylo uvedeno v u´vodu kapitoly 4.2, rekonstrukce obrazu˚ zrnity´ch struktur zde prˇedstavovala jen urcˇity´ mezikrok pro jejich dalsˇ´ı analy´zu. V tomto prˇ´ıpadeˇ byla rekonstrukce nutny´m krokem pro zı´ska´nı´ informace o rozdeˇlenı´ efektivnı´ch pru˚meˇru˚ 21 zrn, ze ktery´ch byla struktura slozˇena. Pro takove´to prˇ´ıpady se v souvislosti s pouzˇitı´m neuronovy´ch sı´tı´ nabı´zı´ mysˇlenka vynecha´nı´ rekonstrukcˇnı´ fa´ze a pouzˇitı´ neuronove´ sı´teˇ prˇ´ımo pro urcˇova´nı´ cı´love´ analyzovane´ vlastnosti na za´kladeˇ neu´plne´ (degradovane´) obrazove´ informace. Jednalo by se tedy o stejny´ prˇ´ıstup, ktery´ byl navrzˇen a u´speˇsˇneˇ otestova´n v prˇ´ıpadeˇ urcˇova´nı´ mı´ry usporˇa´danosti mnohaobjektovy´ch syste´mu˚. Vhodny´m preprocessingem by pak mohla by´t opeˇt neˇktera´ z klasicky´ch morfologicky´ch charakteristik (naprˇ. kovariance cˇi Chord-length distribution, frakta´lnı´ analy´za atd.). I tento „bezrekonstrukcˇnı´ “ prˇ´ıstup bude prˇedmeˇtem dalsˇ´ıho studia.
21
Jedna´ se o pru˚meˇr kruhu, jehozˇ obsah je totozˇny´ s obsahem dane´ho zrna.
65
Kapitola 5 Za´veˇr V te´to pra´ci byla rozpracova´na metodika pouzˇitı´ neuronovy´ch sı´tı´ ve dvou oblastech obrazove´ analy´zy. Jednak byla navrzˇena a u´speˇsˇneˇ otestova´na metodika pouzˇitı´ neuronovy´ch sı´tı´ pro analy´zu mı´ry usporˇa´danosti mnohaobjektovy´ch syste´mu˚, da´le pak byla studova´na mozˇnost vyuzˇitı´ neuronovy´ch sı´tı´ pro rekonstrukci obrazu˚ zrnity´ch struktur, kde bylo dosazˇeno pouze dı´lcˇ´ıho u´speˇchu, ktery´ vsˇak jasneˇ naznacˇuje, zˇe rozpracovany´ zpu˚sob rekonstrukce obrazu je smysluplny´. Dosazˇenı´ uspokojiveˇjsˇ´ıch vy´sledku˚ pra´veˇ v oblasti rekonstrukce obrazu je podmı´neˇno prˇedevsˇ´ım nalezenı´m optima´lnı´ho preprocessingu, cˇemuzˇ je trˇeba veˇnovat jesˇteˇ urcˇite´ u´silı´. Pro aplikace, kde rekonstrukce obrazu tvorˇ´ı jen urcˇity´ mezicˇla´nek obrazove´ analy´zy (cozˇ je i tento prˇ´ıpad), se pak alternativneˇ nabı´zı´ mysˇlenka vypusˇteˇnı´ rekonstrukcˇnı´ fa´ze a pouzˇitı´ neuronove´ sı´teˇ prˇ´ımo pro analy´zu pozˇadovany´ch parametru˚ (jako zde naprˇ. strˇednı´ hodnota pru˚meˇru zrn, viz za´veˇr kapitoly 4.2.4). Metodika navrzˇena´ pro urcˇova´nı´ mı´ry usporˇa´danosti mnohaobjektovy´ch syste´mu˚ prˇinesla naopak velmi uspokojive´ vy´sledky a po jejı´m u´speˇsˇne´m otestova´nı´ na modelovy´ch hard-disk struktura´ch ji lze nynı´ pouzˇ´ıt i k analy´ze rea´lny´ch fotografiı´, naprˇ. prˇi studiu nespojity´ch Ag vrstev prˇipraveny´ch na dielektricky´ch podlozˇka´ch, pro sledova´nı´ zmeˇn usporˇa´da´nı´ kovovy´ch ostru˚vku˚ beˇhem ru˚stu vrstvy, apod. Hlavnı´ mysˇlenkou tohoto prˇ´ıstupu je aplikace neuronove´ sı´teˇ na vybranou morfologickou charakteristiku, ktera´ zde hraje roli preprocessingu. V ra´mci pra´ce bylo vzhledem k tomuto u´cˇelu testova´no hned neˇkolik morfologicky´ch charakteristik, prˇicˇemzˇ nejlepsˇ´ıch vy´sledku˚ bylo dosazˇeno s RDF a DN N . Da´le byla vyvinuta i zcela origina´lnı´ morfologicka´ charakteristika (HDED, viz kapitola 4.1.4) poskytujı´cı´ na rovnomeˇrneˇ rozlozˇeny´ch struktura´ch podobne´ vy´sledky jako DN N , ovsˇem le´pe pouzˇitelna´ pro studium struktur klasterizovany´ch. Postup analy´zy byl da´le optimalizova´n jak vzhledem k architekturˇe neuronove´ sı´teˇ, tak i vzhledem k jemnosti vzorkova´nı´ morfologicky´ch charakteristik. Nemaly´ vy´znam autor prˇikla´da´ i mozˇne´mu zobecneˇnı´ te´to metodiky a jejı´mu pouzˇitı´ pro urcˇova´nı´ nejru˚zneˇjsˇ´ıch parametru˚ fyzika´lnı´ch a jiny´ch syste´mu˚. V soucˇasne´ dobeˇ autor pracuje mj. na implementaci te´to metodiky v oblasti biosenzoru˚, a jizˇ prvnı´ vy´sledky jsou velmi slibne´ (viz 66
za´veˇr kapitoly 4.1.4). Autor te´zˇ zamy´sˇlı´ pouzˇ´ıt podobny´ postup v oblasti modelova´nı´ polymernı´ch nanokompozitu˚ 1 . Prˇi analy´ze rea´lny´ch syste´mu˚ pomocı´ neuronovy´ch sı´tı´, jezˇ byly tre´nova´ny (ucˇeny) na modelovy´ch struktura´ch, je vsˇak vzˇdy trˇeba urcˇite´ obezrˇetnosti, nebot’ interpretace vy´sledku˚ vra´ceny´ch neuronovou sı´tı´ je samozrˇejmeˇ za´visla´ na veˇrnosti pouzˇite´ho modelu. V prˇ´ıpadeˇ, zˇe se neuronova´ sı´t’mu˚zˇe ucˇit prˇ´ımo z rea´lny´ch dat (skutecˇne´ fotografie, experimenta´lneˇ zı´skane´ (nameˇrˇene´) hodnoty parametru˚, ktere´ ma´ neuronova´ sı´t’urcˇovat), tento proble´m samozrˇejmeˇ odpada´. Neuronove´ sı´teˇ postupneˇ pronikly do mnoha oboru˚ lidske´ cˇinnosti. V poslednı´ dobeˇ se tento fenome´n objevuje sta´le cˇasteˇji i v souvislosti s nejru˚zneˇjsˇ´ımi fyzika´lnı´mi aplikacemi, cozˇ dobrˇe ilustruje obr. 5.1 prˇevzaty´ z [18].
Obra´zek 5.1: Schema pouzˇitı´ neuronove´ sı´teˇ pro vy´pocˇet indexu lomu SiN vrstev.
1
Neuronove´ sı´teˇ zde budou pouzˇity k predikci vy´sledny´ch vlastnostı´ nanokompozitu a to na cely´ch spojity´ch oblastech ´ cˇelem vstupnı´ch parametru˚ (mnozˇstvı´ nanocˇa´stic, teplota, hustota monomeru˚, parametry interakcˇnı´ch potencia´lu˚ atd.). U te´to predikce bude stanovenı´ vstupnı´ch parametru˚ tak, aby se vlastnosti vy´sledne´ho nanokompozitu co nejvı´ce blı´zˇily vlastnostem pozˇadovany´m.
67
Tato pra´ce z oblasti obrazove´ analy´zy, ktera´ je postavena´ prˇedevsˇ´ım na autorovy´ch origina´lnı´ch vy´sledcı´ch z let 2000 – 2003, je jen maly´m prˇ´ıspeˇvkem k mnohem sˇirsˇ´ı a obecneˇjsˇ´ı problematice. Pozorne´mu cˇtena´rˇi vsˇak mu˚zˇe nastı´nit mozˇnosti vyuzˇitı´ neuronovy´ch sı´tı´ i pro rˇesˇenı´ zcela jiny´ch fyzika´lnı´ch a dalsˇ´ıch proble´mu˚.
68
Pouzˇita´ a doporucˇena´ literatura [1] Nova´k S., Hrach R., Sobotka M. : Morphology of composite films: a computer study, Superficies y Vacı´o 9, 248–252, Diciembre (1999). [2] Yu X., P. M. Duxbury , G. Jeffers , M. A. Dubson: Coalescence and percolation in thin metal films, Phys. Rev. B 44, Issue 23, 13163‚-13166 (1991). [3] Ebeling H., Wiedenmann G.: Detecting structure in two dimensions combining Voronoi tessellation and percolation, Phys. Rev. E 47, Issue 1, 704–710 (1993). [4] Boldys, J. Hrach, R. : Multiscale semicontinuous thin film descriptors, Cent. Eur. J. Phys., 2 (4): pp. 645–659, (2004). [5] Boldysˇ J., Hrach R. : Thin film description by wavelet coefficients statistics, Czechoslovak Journal of Physics, Vol. 55, No. 1., pp. 55–64, (2005) [6] Linchun Wang, D.Y. Li: Mechanical, electrochemical and tribological properties of nanocrystalline surface of brass produced by sandblasting and annealing, Surface and Coatings Technology Vol. 167, pp. 188–196, (2003) [7] Serra, J.: Image Analysis and Mathematical Morphology, Academic Press, London (1982). [8] Hrach R.; Novotny D.; Novak S.; Pavlik J.: Morphological study of discontinuous and semicontinuous metal films, Vacuum, Vol. 50, Issues 1–2: 175–178, (1998). [9] Bhattacharjee B.: nth-nearest-neighbor distribution functions of an interacting fluid from the pair correlation function: A hierarchical approach, Phys. Rev. E 67, 041208, (2003). [10] Hrach R., Novotny´ D., Nova´k S., Pavlı´k J.: Computer simulation of semicontinuous and continuous metal film morphology , Vacuum,Vol. 50, Issues 3–4, pp. 289–292 (1998). [11] Brostow W. : Voronoi polyhedra and Delaunay simplexes in the structural analysis of moleculardynamics-simulated materials, Phys. Rev. B 57, 13448–13458 (1998). [12] Jing-Ping Shih, Sheh-Yi Sheu, and Chung-Yuan Mou : A Voronoi polyhedra analysis of structures of liquid water, The Journal of Chemical Physics,Vol. 100, Issue 3, pp. 2202–2212., (1994). 69
Pouzˇita´ a doporucˇena´ literatura
[13] R. Y. Yang, R. P. Zou, and A. B. Yu : Voronoi tessellation of the packing of fine uniform spheres, Phys. Rev. E 65,Issue 4, 041302 (2002). [14] Moucˇka F., Nezbeda I.: Detection and characterization of structural changes in the hard-disk fluid under freezing and melting conditions., Phys. Rev. Lett. 94(4):040601, (2005) [15] Hrach R., Novotny D., Sobotka M., Vicher M., Kostern M. : Characterisation of degree of arrangement in image analysis of complex systems, Proc. CCP 2001 Europhysics Conference on Computational Physics, Aachen, Germany 5–8 September 2001, p. B107. ISBN 3-00-008236-0. [16] Hrach R.; Simek J.; Kostern M.: Study of thin film growth by means of computer simulation and image analysis, Vacuum, Vol. 67, No. 2, 13 September 2002, pp. 229–233, (2002). [17] Sˇ´ıma J., Neruda R.: Teoreticke´ ota´zky neuronovy´ch sı´tı´, Matfyzpress, Praha, (1996). [18] Byungwhan Kim, Sungmo Kim, Wan-Shick Hong: Use of Neural Network to Control a Refractive Index of SiN Film Deposited by Plasma Enhanced Chemical Vapor Deposition, Plasma Chemistry and Plasma Processing, Vol. 24, No. 1, 200403, pp. 29–40, (2004).
70