Geostatisztika II. MSc geográfus mesterszak hallgatóinak
Dr. Szabó Norbert Péter egyetemi adjunktus
Miskolci Egyetem Geofizikai Intézeti Tanszék e-mail:
[email protected]
Ajánlott irodalom
Horvai György, 2001. Sokváltozós adatelemzés (kemometria). Nemzeti tankönyvkiadó, Budapest Steiner Ferenc, 1990. A geostatisztika alapjai. Tankönyvkiadó, Budapest Dobróka Mihály, 2001. Bevezetés a geofizikai inverzióba. Miskolci Egyetemi Kiadó William Menke, 1984. Geophysical data analysis: Discrete inverse theory. Academic Press Álmos Attila, 2002. Genetikus Algoritmusok. Typotex Kiadó, Budapest Lukács Ottó, 2002. Matematikai statisztika (Bolyai-könyvek). Műszaki Könyvkiadó
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
Tematika
Többdimenziós eloszlások. Sokváltozós adatelemzés: az adatok elrendezése, jellemzése, skálázás Sokváltozós adatelemzés: faktor- és főkomponens analízis Sokváltozós adatelemzés: klaszteranalízis A lineáris inverz feladat megoldása. Gauss-féle legkisebb négyzetek módszere, súlyozott megoldások Az adatok hibájának felhasználása a becsült modell pontosságának, megbízhatóságának jellemzésében Nemlineáris inverz modellezés. Globális szélsőértékkereső eljárások: a Simulated Annealing módszer és a Genetikus Algoritmus Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
A valószínűségi vektorváltozó
Relatív gyakoriság: az A esemény (adat) bekövetkezésének száma arányítva az összes kísérlet (mérés) számához (nA/n). Valószínűség: egyre több kísérlet esetén a relatív gyakoriság a P(A) számérték körül ingadozik, mely megadja az A esemény bekövetkezésének arányát az összes kísérlethez viszonyítva. Valószínűségi változó: olyan mennyiség, amelynek számértéke valamilyen véletlen esemény kimenetelétől függ. A pk valószínűség xk (k=1,2,…,n) diszkrét valószínűségi változó esetén p k P( x x k ),
n
p k 1
k
1
Az (x,y) kétdimenziós valószínűségi változót valószínűségi vektorváltozónak nevezzük, melynek együttes valószínűsége pik P(x x i , y y k ),
p i
ik
1
k
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Az együttes eloszlásfüggvény
Az x és y változó vetület- vagy peremeloszlásai, melyek önmagában vizsgálják x vagy y eloszlását P(x x i ) pik
P(y y k ) pik
k
i
Az x és y változó együttes eloszlásfüggvénye diszkrét esetben F(x0 , y0 ) P(x x 0 , y y0 )
ik x i x 0 , y k y0
Az x és y változó peremeloszlás-függvényei diszkrét esetben F( x 0 , ) P( x x 0 , y ) F(, y 0 ) P( x , y y 0 )
p
P( x x i )
xi x 0
P( y y k )
yk y0
Az x és y változó együttes sűrűségfüggvénye folytonos esetben (f(x,y) felület alatt elhelyezkedő térfogat=1) 2 F(x, y) f(x, y) xy
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Kétváltozós Gauss-eloszlás
Megfigyelhető: kétváltozós normális eloszlás esetén az x és y változó peremsűrűség-függvényei (1, 2 szórások és m1, m2 várható értékek ismeretében) is normális eloszlásúak f G (x) f G (y)
1 e 1 2 1 2 2
x -m1 2
e
2 12
y - m 2 2 2 22
Lukács,1987
A normális eloszlás együttes sűrűségfüggvénye (ahol r az x és y valószínűségi változók korrelációs együtthatója) f G ( x , y)
1 21 2 1 r 2
e
1 2 1 r 2
x m1 2 x m1 ym 2 ym 2 2 2 r 2 1 2 22 1
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
A korrelációs együttható
Az x és y valószínűségi változók együttváltozásának az egyik legegyszerűbben képzett mérőszáma a kovariancia
cov(x, y) Ex E(x)Ey E( y)
Az x és y valószínűségi változók közötti (lineáris) kapcsolat szorosságát a korrelációs együtthatóval (szórások szorzatával normált kovariancia) mérjük r ( x , y)
cov( x, y) ( x )( y)
Szabó, 2009
Az r egy -1 és 1 közötti szám. Ha r=1, akkor az x és y változók teljes korrelációjáról, r=0 esetén azok lineáris függetlenségről beszélünk (0<r0.35 esetén gyenge, 0.35<r0.65 esetén közepes, 0.65<r1 esetén erős a korreláció mértéke)
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Többváltozós kapcsolatok korrelációja
Tekintsük az x(x1,x2,…,xn) n-dimenziós valószínűségi vektorváltozót, ahol tételezzük fel hogy ismerjük a peremeloszlások várható értékeit és szórásait! A kovariancia mátrix a változók páronkénti együttváltozását adja meg. A kovariancia mátrix szimmetrikus, mivel COV(xi,xj)=COV(xj,xi) σ 2 x1 cov( x1 , x 2 ) cov( x 2 , x1 ) σ 2 x 2 COV cov( x n , x1 )
cov( x1 , x n ) σ 2 x n
A korrelációs mátrix a változók páronkénti (lineáris) kapcsolatának az erősségét adja meg. Szimmetrikus mátrix, mivel R(xi,xj)=R(xj,xi) r ( x1 , x 2 ) 1 r(x , x ) 1 R 2 1 r ( x n , x1 )
r ( x1 , x n ) 1
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Adatok jellemzése és elrendezése
Rögzített értékek formájában rendelkezésre álló megfigyelési eredményeinket adatoknak nevezzük. Földtani szerkezetkutatás során az adatrendszer többféle mérésfajtát ill. nagy kiterjedésű területen (felszínen vagy felszín alatt) elhelyezkedő nagyszámú geológiai objektumot foglalhat magában Az adatoknak két jellemzőjük van. Objektum: a földtani képződmények sokaságának egy eleme, amit megfigyelünk. Tulajdonság: a sokaság eleméhez tartozó jellemző (változó) Rendezzük az I számú objektum J különböző tulajdonságára vonatkozó adatokat a D adatmátrixba! d11 D d i1 d I1
d1 j
d ij
d Ij
d1J d iJ d IJ
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Az adatok jellemzése és elrendezése
Az D adatmátrixból képzett i-edik objektumvektor az i-edik objektum tulajdonságait, a j-edik tulajdonságvektor pedig a j-edik tulajdonság különböző objektumoknál megvalósult értékeit tartalmazza (o) d i d i1 , d i 2 , , d iJ ,
(t) dj
d1 j d 2j d Ij
Például: fúrásos geofizikai kutatás során az i-edik objektum egy kőzetréteg, a j-edik tulajdonság pedig egy fizikai mennyiség - pl. természetes potenciál (SP) vagy természetes gamma (GR) vagy sűrűség (ρ) vagy akusztikus terjedési idő (Δt) vagy fajlagos ellenállás (R) stb. -, melyet a rétegsorban egy speciális mérőberendezéssel (szonda) regisztrálunk. A regisztrátumot szelvénynek nevezzük, mely a mélység függvényében rögzíti az egyes rétegekre vonatkozó mérési eredményeket
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Léptékváltás (skálázás)
A tulajdonságvektorok különböző nagyságrendű és mértékegységű jellemzőket tartalmazhatnak. Statisztikai becsléseknél szükség lehet azonos nagyságrendű ill. dimenziótlan adatrendszerre. Az adatok ezen transzformációját skálázásnak nevezzük. Centrálás: skálaeltolás nulla középre, mely az elemek konstans eltolását jelenti. Ekkor a j-edik tulajdonságvektor elemeinek számtani közepe 0 lesz, de az adatok szórása nem változik dij d ij d j ,
1 I d j d ij I i 1
Standardizálás: skálázás nulla középre és egységnyi szórásra, mely konstans eltolást és nyújtást jelent. Ekkor a j-edik tulajdonságvektor elemeinek számtani közepe 0, valamint szórása 1 lesz. A standardizált változó dimenziótlan (és σn-1 miatt torzítatlan) dij
d ij d j , j
j
1 I dij d j I 1 i 1
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
2 ME 2010
Léptékváltás (skálázás)
Maximum skálázás: léptékváltás a legnagyobb értékre, amely konstans zsugorítást jelent. Ekkor a j-edik tulajdonságvektor legnagyobb eleme 1 lesz. A skálázott változó dimenziótlan dij
max( d ij )
Terjedelem skálázás: léptékváltás [0,1] intervallumba, mely konstans eltolást és zsugorítást jelent. A j-edik tulajdonságvektor elemei [0,1] határok közé kerülnek. A skálázott változó dimenziótlan d min d dij
d ij
ij
ij
max d ij min d ij
Léptékváltás [A,B] intervallumba: léptékváltás tetszőleges Aj (alsó) és Fj (felső) határok közé
dij A j Fj A j
max d min d ij ij d ij min d ij
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
Példa: fúrási geofizikai adatok standardizálása tul.v. 1. SP1 D SPi SPI
* i
SP
GR
* i
2.
3.
4.
5.
GR1
1
t1
GR i
i
t i
GR I
I
t I
R 1 1. R i i. R I I. obj.v.
SP SP , i
SP
* i
GR
t *i R *i
i
GR
GR
,
i
t R
,
1 I SP SPi , I i 1 1 I GR GR i , I i 1 1 I i , I i 1
t , t
t
1 I t i , I i 1
t , R
R
1 I Ri, I i 1
i
i
SP1* * D SPi* SP * I
GR1*
1*
t1*
GR *i
*i
t *i
GR *I
*I
t *I
SP
1 I SPi SP I 1 i 1
GR
1 I GR i GR I 1 i 1
2
R 1* R *i R *I
2
2 1 I , i I 1 i 1
t
1 I t i t I 1 i 1
R
1 I Ri R I 1 i 1
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
2
2
ME 2010
Melléklet: mátrixok szorzási szabálya
A( IJ ) B( JL) C( IL) a11 a C 21 a 31 a 41
a12
a13
a 22 a 23 a 32
a 33
a 42 a 43
a14 b1 c1 a 24 b 2 c 2 a 34 b 3 c3 a 44 b 4 c 4
I 4, J 4, L 1
1. Többdimenziós eloszlások. Az adatok elrendezése, jellemzése, skálázás
ME 2010
2. Faktoranalízis és főkomponens analízis
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
A faktoranalízis célja
Feladat: a mérés során megfigyelt nagyszámú, egymással összefüggő vagy független változót szeretnénk néhány (lehetőleg korrelálatlan) változóval ún. közös faktorral (amit nem lehet közvetlen módon megfigyelni) helyettesíteni Tulajdonságmátrix: egyenértékű a D adatmátrix-szal, mely N sorból (objektumból) és M oszlopból (változóból) áll x11 x X 21 x N1
x12
x 22
x N2
x1M x 2 M x NM
Megvalósítás: az M változó által kifeszített teret alacsonyabb dimenziójú térbe vetítjük, ahol könnyebb az értelmezhető csoportosulások felfedezése. Feltétel: a tulajdonságmátrixban ne legyen 5%-nál nagyobb adathiány ill. nem hiányozhat egy sorból vagy oszlopból az elemeknek több mint a fele. A hiányzó helyekre sorok vagy oszlopok átlagát írjuk be (torzítás!)
2. Faktoranalízis és főkomponens analízis
ME 2010
A faktoranalízis modellje
Az adatok előkészítése (skálázás) után a kiindulási változókat tartalmazó X tulajdonságmátrixot fel szeretnénk bontani az A közös komponens mátrix (NM) és az E hibakomponens mátrix (NM) összegére
X AE
Az A mátrixot a db faktor lineáris kombinációjával fejezzük ki, ahol F a faktorok mátrixa (Na) és L a faktorsúlyok (faktoregyütthatók) mátrixa (Ma)
A FL
T
A közös faktorok számát (a) előre kell rögzíteni, melynek felső korlátja
a 0.5 2M 1 8M 1
2. Faktoranalízis és főkomponens analízis
ME 2010
Faktortípusok és megoldhatóság
Négyféle faktortípust különböztetünk meg egymástól. Általános faktor: összes változóhoz kapcsolódó közös faktor. Közös faktor: legalább két faktoregyütthatója különbözik nullától. Egyedi faktor: egy változót befolyásoló faktor. Maradékfaktor: mérési pontatlanságból vagy a korrelációs együttható becslési hibájából származó egyedi hibafaktor Probléma: az A mátrix felbontása nem egyértelmű, mert bármely B mátrix (aa) esetén fennáll 1
A FBB L
T
Kérdés: létezik-e megoldás? A szükséges feltétel az, hogy bármely B mátrixra L*B (Ma) oszlopaiban legalább három nem 0 elem legyen. Elégséges feltétel az, hogy L mátrix bármelyik sorát elhagyva két azonos a rangú (lineárisan független oszlopok maximális száma) mátrixot tudjunk képezni a sorokból
2. Faktoranalízis és főkomponens analízis
ME 2010
A mért változók korrelációja
Tételezzük fel, hogy az A közös komponens és az E hibamátrix korrelálatlan (ATE=ETA=0), továbbá az E hibamátrix elemei függetlenek (ETE/N=U2 az MM méretű kovariancia mátrix) és a faktorok lineárisan függetlenek (FTF/N=I egységmátrix) 12 0 1 T 2 U E E N 0
0
22 0
0 0 2M
A fentiek teljesülése esetén, a mért változók páronkénti korrelációs együtthatóit tartalmazó R korrelációs mátrix (MM) felírható 1 T 1 T X X A A U2 N N T 1 R FL T FL T U 2 LL T U 2 N R
A faktoregyütthatókkal (L mátrix elemei) a mért változók közötti korreláció kifejezhető. A változók szórásnégyzeteinek a közös faktorokkal nem értelmezhető része az U2 mátrix főátlóbeli elemei
2. Faktoranalízis és főkomponens analízis
ME 2010
A kommunalitások
Az R korrelációs mátrix diagonális elemei 1-gyel egyenlők, ezek képviselik a mért változók standardizált (σ=1) szórásnégyzeteit. Az LLT faktoregyütthatókkal képzett redukált korrelációs mátrix elemei a mért változók és a faktorok közötti korrelációs együtthatók h12 r 2 2 T R U R I H L L 12 r1M R LL U T
r12
h 22
r2 M
r1M r2 M h 2M
M
h i2 lij2 1
2
j1
Kommunalistások: az LLT mátrix főátlójában szereplő elemek (h2), melyek a mért változók standardizált szórásnégyzeteinek a közös faktorokkal magyarázott része (I az egységmátrix) U IH H IU 2
2
2
2
A H2 kommunalitások mátrixa MM méretű. Ha h2 kicsi, akkor a mért változónak kevés köze van a faktorhoz
2. Faktoranalízis és főkomponens analízis
ME 2010
A faktoregyütthatók meghatározása
A faktoregyütthatók L mátrixának (Ma) meghatározása sajátérték feladatra vezet, melynek megoldása a szimmetrikus mátrixok spektrál felbontásával a következő LL R U T
L L Z Z T
L Z
T
1/ 2
LT Z
2
Z
1/ 2 T
1/ 2 T
T
1/ 2
ZT
A megoldásban szereplő Z mátrix az R-U2 sajátvektor-mátrixa (Ma), ahol a sajátvektorokat a mátrix oszlopai tartalmazzák. A az R-U2 sajátérték-mátrixa (aa), melynek főátlója tartalmazza a λ saját-értékeket (ezért is ii1/2 =√λi) Az eddigiekben az U2 mátrixot ismertnek tételeztük fel, azonban a gyakorlatban a hibavarianciákat nem ismerjük, ezért azokat becsléssel kell meghatározni
2. Faktoranalízis és főkomponens analízis
ME 2010
Faktorelemző eljárások
Főkomponens analízis: E=0 választással elkerüljük az U2 mátrix becslését, így az R-U2 mátrix helyett R-et hozzuk kapcsolatba a faktoregyütthatókkal. Mivel a változók szórásnégyzeteinek a közös faktorokkal nem értelmezhető részét elhanyagoljuk, így a kapott főkomponensek nem a teljes varianciát teszik ki Főfaktor analízis: az LLT mátrix rangját minimalizáló eljárással maximális kommunalitásokat határozunk meg, azaz minimális számú közös faktorral magyarázzuk a mért változók varianciáinak lehető legnagyobb hányadát. A szélsőérték-feladat optimumát becsléssel határozzuk meg: a korrelációs mátrix diagonális elemeit kicseréljük a becsült kommunalitásokra a legnagyobb korrelációk módszerével (I.), vagy a triádmódszerrel (II., ahol l és k az i-vel legjobban korreláló elemek indexe) vagy az átlagos korrelációk módszerével (III.) Maximum likelihood 2 I . h max rij i eljárás: valószínűségi j függvényt optimalizál
2. Faktoranalízis és főkomponens analízis
II.
r r h ik il rkl 2 i
III.
M 1 h rij M 1 j1 2 i
j i
ME 2010
A faktorok értelmezése
A k-adik faktor értelmezése az lik faktoregyüttható nagysága és előjele alapján történik. Minél nagyobb az lik együttható értéke, annál szorosabban kapcsolódik a k-adik faktor az i-edik mért változóhoz. Általános faktorra nagy relatív faktorsúlyok és azonos előjelek utalnak Egyszerű struktúra (1-hez és 0-hoz közeli faktoregyütthatók) esetén a faktorok könnyen értelmezhetők (fizikai tartalommal ruházhatók fel) Ha a faktorok nem értelmezhetők, szemléletesebb jelentésű faktorokká történő átalakításukhoz forgatási (rotációs) módszereket alkalmazunk Az ortogonális rotációs módszerek korrelálatlan faktorokat eredményeznek. Pl. a varimax módszer célja, hogy minél több 0-hoz
közeli faktorsúlyt állítson elő. Ekkor kialakul az egyszerű struktúra, azaz azon változók száma kevés lesz, melyhez sok faktor nagy súllyal kapcsolódik. Az eredeti változó egy vagy kis számú faktorhoz kapcsolódik és mindegyik faktor csak kevés számú változót reprezentál (gyakran különböző előjellel). A módszer a faktoregyütthatók négyzetének varianciáját maximalizálja 2. Faktoranalízis és főkomponens analízis
ME 2010
Példa: Niger folyó, Nigéria
Factor 1
Olobaniyi és Owoyemi, 2006 Faktor 1: tengervíz intrúzió (Na, K, Cl) Faktor 2: talaj és édesvíz kölcsönhatása (PH, Mg, Ca, HCO3) Faktor 3: ipari tevékenység és savas esők (SO4)
2. Faktoranalízis és főkomponens analízis
ME 2010
A főkomponens elemzés célja
A főkomponens elemzés amellett, hogy a faktoranalízis egyik
gyakorlati megvalósítása, önállóan alkalmazható adatstruktúra elemző módszer is egyben Célja: az X tulajdonságmátrix változóinak (tulajdonság-vektorainak) transzformációja kevesebb számú, új korrelálatlan változóvá. Az új változókat főkomponenseknek nevezzük, melyeket úgy rendezzük sorba, hogy közülük az első néhány az eredeti változók varianciájának a legnagyobb részét magyarázza Fejezzük ki az X tulajdonságmátrixot (NM) a T főkomponens mátrix (Nr) és a PT főkomponens-együttható mátrix transzponáltjának (rM) a szorzatával!
X TP
T
A fenti egyenletrendszernek mindig létezik megoldása
2. Faktoranalízis és főkomponens analízis
ME 2010
A főkomponens elemzés sémája
Nézzük az ábrát! Az adatokat tartalmazó X kiindulási mátrix felbontható a T*PT mátrixszorzat (r számú főkomponens és főkomponensegyüttható vektor szorzatának szuperpozíciójával) és az E reziduum mátrix összegére. Ez utóbbi nem egyezik meg a faktoranalízis hibakomponens mátrix-szával, hanem a zajt (mérési hibát) testesíti meg a szórást legkevésbé magyarázó főkomponens elemek szerepeltetésével. Az i-edik főkomponenst a ti oszlopvektor (N1) képviseli
Horvai, 2001 2. Faktoranalízis és főkomponens analízis
ME 2010
A főkomponens elemzés geometriája
Az X tulajdonságmátrix N db objektumát vetítjük az r dimenziós altérbe (r<M) a PT vetítési-mátrix segítségével. A kapott r db főkomponens az M db tulajdonság-vektornak az új koordinátarendszer tengelyeire eső vetülete. Az első főtengely az az egyenes, amelynek irányában a legnagyobb az eredeti változók szórása, a második főtengely az elsőre merőleges egyenesek közül ugyanilyen tulajdonságú stb. A főkomponens elemzés az eredeti objektumok koordinátáit adja meg a főkomponensek által kifeszített új koordinátarendszerben, azaz a főtengelyek irányába forgatja az eredeti változókat
http://cnx.org/content/m11461/latest 2. Faktoranalízis és főkomponens analízis
ME 2010
A főkomponensek meghatározása
Szorozzuk meg az X=T*PT egyenletet jobbról a P mátrix-szal! A pi vektor (M1) ortonormált (mivel piTpj=1, ha i=j egyébként piTpj=0), innen a főkomponens mátrix (Nr) könnyen képezhető
T XP
A főkomponensek az eredeti változók lineáris kombinációi. Például az első főkomponens elemeit szolgáltató lineáris egyenletrendszer a következő t11 x11p11 x12 p 21 x1M p M1 t 21 x 21p11 x 22 p 21 x 2 M p M1 t N1 x N1p11 x N 2 p 21 x NM p M1 A T mátrix oszlopvektorait képező új változók (főkomponensek) egymással korrelálatlanok (mivel t vektor is ortonormált)
2. Faktoranalízis és főkomponens analízis
ME 2010
Megvalósítás sajátérték elemzéssel
Centráljuk az X tulajdonságmátrix elemeit! Ekkor a j-edik tulajdonságvektor elemeinek számtani közepe 0 lesz, de az adatok szórása nem változik A COV az eredeti változók kovariancia mátrixa (MM) COV X X T
Az Ax=λx sajátérték feladat analógiája alapján határozzuk meg a COV mátrix sajátvektorait és sajátértékeit a szimmetrikus mátrixok spektrál-felbontásának módszerével! COV Z Z
/ ZZ I
COV Z Z
T
T
A Z ortonormált mátrix a sajátvektorok mátrixa (Mr), a sajátértékek mátrixa (rr) és I az egységmátrix (MM). A sajátvektorokat a Z mátrix oszlopai tartalmazzák, a sajátértékek pedig a mátrix főátlóbeli elemei
2. Faktoranalízis és főkomponens analízis
ME 2010
Megvalósítás sajátérték elemzéssel
Szinguláris érték szerinti felbontás (SVD): az X tulajdonságmátrix felbontható az U (N×M) és V (M×M) ortonormált, valamint a Γ (M×M) diagonális mátrixok szorzatára. A Γ mátrix elemei pozitívak vagy 0-ák, melyeket szinguláris értékeknek nevezzük X U V
T
X V U T
T
COV X X V U U V V V T
T
T
2
T
A COV mátrix j-edik főátlóbeli eleme a σj2 variancia, a Γ mátrix tartalmazza az COV mátrix j-edik λj sajátértékének a négyzetgyökét A főkomponenseket a kovariancia mátrix sajátértékeinek nagysága alapján állítjuk sorrendbe. A legnagyobb szórás irányát a legnagyobb sajátértékhez tartozó sajátvektor jelöli ki. Ez az első főirány. Ezután megkeressük a második legnagyobb sajátértéket és az lesz a második főirány stb. A j-edik sajátvektor a V mátrix j-edik oszlopvektora (λj≠0 sajátérték esetén)
2. Faktoranalízis és főkomponens analízis
ME 2010
Példa: X(10×2) mátrix főkomponensei
Lindsay Smith, 2002 2. Faktoranalízis és főkomponens analízis
ME 2010
Példa: MATLAB program 1000 adatra clc; clear all; n=1000; mu=[0,0]; covar=[4 1;1 2]; X=mvnrnd(mu,covar,n); [Fi Fk Saje Hott]=princomp(X); [Coeff,Var,percent]=pcacov(covar), Fi, Saje, v=zeros(2,301); figure; axis([-8 8 -5 5]); hold on; plot(X(:,1),X(:,2),'c.','LineWidth',2); xlabel('x_1'); ylabel('x_2'); hold on; grid on; for i=1:2 for j=1:2 v(j,:)=(0:Fi(j,i)/100:3.*Fi(j,i))*sqrt(Saje(i)); end plot(v(1,:),v(2,:),'b-','LineWidth',2); hold on; end
2. Faktoranalízis és főkomponens analízis
Stoyan Gisbert, 2005 Foirany=
Var=
Sajatert=
Percent=
0.9127 -0.4086
4.4142
4.4250
73.5702
0.4086 0.9127
1.5858
1.5781
26.4298
ME 2010
3. Klaszteranalízis
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
Csoportosítás
Klaszter (csoport): olyan elemek együttese, melyek egy jól definiált szempont szerint tekintve hasonlóak. A tulajdonságtérben a csoportok lehetnek elszigeteltek, átfedőek és kizáróak (diszjunkt halmazok). Klaszteranalízis: olyan csoportosító eljárás, mellyel elemeket próbálunk valamilyen szempont szerint homogén csoportokba rendezni. A csoportosítás alapja egy adott metrika szerinti közelség ill. egy hasonlósági mérték szerinti hasonlóság. Kiugró adatokra érzékeny (nem rezisztens) eljárás, ahol az eltérő nagyságrendű és dimenziójú adatok torzíthatják a becslést Az X tulajdonságmátrix részhalmazokra való bontása során teljesüljön: minden elem tartozzon bele egy klaszterbe, egy elem csak egy klaszterbe tartozzon, ne legyen olyan klaszter, amely nem tartalmaz elemet és a klaszterek összessége fedje le az összes elemet www.cse.unr.edu
3. Klaszteranalízis
ME 2010
A csoportok jellemzése
Átmérő: a csoport két legtávolabbi elemének a távolsága. Súlypontvektor: megadja a csoport helyét a térben. Sugár: a csoportsúlypont és az attól legtávolabbi elem távolsága. Centroid: a g-edik csoport cg súlypontja a csoport elemszáma (ng) ismeretében a következő n Csoportok közötti távolság definiálása: 1 cg x i( g ) n g i 1 (1) Minkowski-távolság: Lp-norma (2) Euklideszi-távolság: L2-norma T x x1 , x 2 , , x n T (3) Cityblock-távolság: L1-norma y y1 , y 2 , , y n n (4) Mahalanobis-távolság: amikor x és y p p (1) d ( x , y) x i y i változók nem függetlenek egymástól, i 1 n akkor a korreláció mértékét is be kell 2 ( 2) d ( x , y) x i y i venni a számításba (osztanunk kell a i 1 n kovarianciákkal). Előnye: ha a változók (3) d( x , y ) x y i i i 1 különböző nagyságrendje és dimenziója T 1 2 miatt a távolságok nem összemérhetők, (4) d ( x, y) x y COV x y akkor (4) kedvezően normál
3. Klaszteranalízis
g
ME 2010
A távolságmátrix
Távolságmátrix: a dij elem megadja az i-edik és j-edik adatpontok közötti távolságot (ahol dii=0) d11 d D 21 d n1
d12
d 22 dn2
d1n d 2 n d nn
www.emeraldinsight.com
A klaszterképzés kritériuma az, hogy az osztálybeli elemek között a távolság minimális és az osztályok közötti távolság maximális legyen http://zoonek2.free.fr/UNIX/48_R
3. Klaszteranalízis
ME 2010
Hierarchikus klaszterező eljárások
Az egymásba ágyazott ún. hierarchikus klaszterezés előnye, hogy nem kell előre ismernünk a létrehozandó klaszterek számát. Hátránya az időigényesség, ezért csak kis mintaelemszám esetén használjuk őket (tárolni kell a mintaelemek egymástól mért távolságainak mátrixát). Zaj és kiugró adatokra érzékeny eljárások Agglomeratív eljárás: kezdetben N számú klaszterünk van (ahány adat annyi klaszter van). Az első lépésben a két legközelebb álló klasztert egyesítjük, így eggyel csökken a klaszterek száma. Lépésenként csökkentjük a klaszterek számát. Az utolsó lépésnél minden adat egy csoportba gyűjtve egyetlen klasztert alkot. Az eljárás hierarchikus, mert egyszerre csak két klaszter egyesítése történik, és ezek már együtt maradnak az utolsó lépésig Divizív eljárás: kiinduláskor egy klaszterünk van, amely az összes adatot tartalmazza. A folyamat során különválasztjuk azokat az eseteket, amelyek a legjobban különböznek a többi által alkotott csoporttól
3. Klaszteranalízis
ME 2010
Hierarchikus klaszterező eljárások
A klaszterezés algoritmusa: először kiszámítjuk a kezdeti konfigurációra a távolságmátrixot. Ekkor még minden adat önmaga alkot egy egyelemű klasztert. Ezután összevonjuk a két legközelebb álló adatot. A távolságmátrixot újraszámoljuk. A fenti lépéseket addig ismételjük, amíg már csak egy klaszter marad Dendrogram: A hierarchikus klaszterező eljárás az adatelemeket ún. fastruktúrába rendezi. A fa minden belső ága megfelel egy-egy klaszternek, melynek végein találhatók az összetartozó elemek. A módszer az elemek egymáshoz tartozását szemlélteti, de nem alkalmas a csoportok térbeli elhelyezkedésének szemléltetésére
Tan, 2006 3. Klaszteranalízis
ME 2010
Klaszterek egyesítése
Nézzük a felső ábrát! Kiinduló helyzetben 12 különálló elem látható (p1-p12). Számítsuk ki a távolságmátrixot, majd egyesítsük a legközelebb elhelyezkedő elemeket! Tekintsük az alsó ábrát, mely egy köztes állapotot tükröz! Az aktuális lépésben a C2 és a C5 klaszter egyesítése történik. E két klaszter helyezkedik el a legközelebb egymáshoz. A fő kérdés az, hogyan definiáljuk a klaszterek hasonlóságát?
Tan, 2004
3. Klaszteranalízis
ME 2010
Klaszterek hasonlósága
A csoportok egyesítésére többféle klaszterező eljárás ismeretes, melyek különböző jellemzők alapján értelmezik a klaszterek közötti hasonlóságot Egyszerű lánc módszer (simple linkage): a csoportok legközelebbi elemeinek a távolságát vizsgálja. Teljes lánc módszer (complete linkage): a legtávolabbi elemek távolságát figyeli. Csoportátlag módszer (average linkage): a két csoport elemei közötti távolságok átlagát tekinti alapul. Súlypont módszer (centroid linkage): a csoportok súlypontjainak távolságát nézi. Ward-módszer (Ward linkage): az új, g-edik csoporton belül az (xi-cg) eltérések négyzetösszegét minimalizálja (ahol cg a csoport súlypontja)
Tan, 2006 3. Klaszteranalízis
ME 2010
Példa: hierarchikus klaszterezés
Centroid módszer
Obádovics, 2009
Dendrogram: függőleges tengelyen az adatok sorszáma szerepel az összekapcsolódás sorrendjében. A vízszintes tengelyen követhetjük a klaszterezés lépéseit valamint a centroidok közötti távolságértéket
3. Klaszteranalízis
ME 2010
Példa: MATLAB program 10 elemre clc; clear all; subplot(2,2,1); X = 10*rand(10,1); Y = pdist(X,'mahalanobis'); Z = linkage(Y,'single'); [H,T] = dendrogram(Z,'colorthreshold','default'); set(H,'LineWidth',2); xlabel('Elemszám'); ylabel('Centroidok távolsága'); subplot(2,2,2); Y = pdist(X,'mahalanobis'); Z = linkage(Y,'average'); [H,T] = dendrogram(Z,'colorthreshold','default'); set(H,'LineWidth',2); xlabel('Elemszám'); ylabel('Centroidok távolsága'); subplot(2,2,3); Y = pdist(X,'mahalanobis'); Z = linkage(Y,'centroid'); [H,T] = dendrogram(Z,'colorthreshold','default'); set(H,'LineWidth',2); xlabel('Elemszám'); ylabel('Centroidok távolsága'); subplot(2,2,4); Y = pdist(X,'mahalanobis'); Z = linkage(Y,'ward'); [H,T] = dendrogram(Z,'colorthreshold','default'); set(H,'LineWidth',2); xlabel('Elemszám'); ylabel('Centroidok távolsága');
3. Klaszteranalízis
x 6.81 2.34
4.56
3.85
5.39
9.92 7.55
9.80
2.35
5.29
T
Szabó, 2010 ME 2010
Példa: MATLAB program 30 elemre 9.79 8.49 0.51 4.66 3.26 6.30 2.30 5.80 6.03 6.00 4.48 0.35 5.13 4.10 1.08 x 4.60 4.51 5.51 8.05 7.01 8.72 0.52 2.20 4.60 9.59 7.90 4.52 3.33 0.59 7.41
Szabó, 2010 3. Klaszteranalízis
ME 2010
Nem hierarchikus klaszterezés
Az iterációs elven működő, partícionáló vagy más néven nem hierarchikus klaszterezés fő jellemzője, hogy előre meg kell adni a kialakítandó klaszterszámot. Gyors eljárás, viszont zajérzékeny és az eredményt befolyásolja a centroidok kezdeti megadása K-középpontú klaszterezés: válasszuk ki a klaszterek számát és K db kezdő centroidot! Alakítsunk ki K db csoportot úgy, hogy minden egyes elemet soroljunk a hozzá legközelebb eső centroidú klaszterbe! Számoljuk ki az új klaszter középpontokat! Konvergencia kritérium teljesüléséig iteráljunk! Számítsuk ki az elemek és a legközelebbi centroidok közötti távolságok négyzetösszegét! K SSE
d 2 ci , x
i 1 xK i
Az optimális klaszterszám relative kicsi, melyhez kis SSE érték (szóródás) tartozik Tan, 2006
3. Klaszteranalízis
ME 2010
Példa: nem hierarchikus klaszterezés Futtatás 1
Tényleges csoportok
Futtatás 2
Tan, 2004
3. Klaszteranalízis
ME 2010
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
Sokváltozós adat-modell kapcsolatok
Sokváltozós problémák esetén közvetlenül nem mérhető mennyiségek meghatározása céljából modellt alkotunk. A modell a valóság egyfajta leegyszerűsítése, mely kvantitatív módon írja le a vizsgált objektumot. A földtudományi modellt kőzetfizikai (pl. porozitás, víztelítettség, szeizmikus hullámterjedési sebesség, fajlagos ellenállás, kőzetalkotó ásványok részaránya stb.) és geometriai paraméterek alkotják. Geometria szempontjából a modellek 1,2,3 (független geometriai változók száma a modellben) dimenziósak lehetnek (4-D modelleknél az idő is változik) A vizsgált objektum megfigyelése során adatokat gyűjtünk (pl. gravitációs, elektromos, elektromágneses, nukleáris, szeizmikus stb). Az adatok és a modellparaméterek matematikai kapcsolatát leíró összefüggéseket válaszfüggvényeknek nevezzük Direkt feladat: modell paraméterek >> válaszegyenletek >> számított (elvi) adatok. Inverz feladat: mért adatok >> válaszegyenletek >> modell paraméterek. Inverziós eljárás: matematikai (optimalizációs) módszer, mely a mért és a számított adatok illesztésével határozza meg a földtani valóságnak leginkább megfelelő modellparaméter értékeket
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Az inverzió folyamatábrája Modellalkotás
Mérési adatok, a priori ismeretek
Elvi adatok számítása
A modell finomítása Nem
Mérési és elvi adatok összehasonlítása
Elfogadható az egyezés? Szabó, 2010
Igen
A modell paraméterek elfogadása
Térkép szerkesztés, Földtani interpretáció
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
A válaszfüggvények típusai
Modellvektor: a földtani modellt leíró paraméterek oszlopvektora, ahol M a modell-paraméterek száma és T a transzponált jelölése
m [m1 , m 2 ,, m M ]T
Adatvektor: a mérési adatokat tartalmazó oszlopvektor, ahol N az adatok száma
d [d1 , d 2 ,, d N ]T
A modell- és az adatvektor kapcsolatát jellemző válaszfüggvények típusai: implicit nemlineáris (1), explicit nemlineáris (2) és explicit lineáris (3)
(1) f d, m 0
(2) d g(m)
(3) d G m
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
A direkt és inverz feladat
1 mg d
m1 m2 . . .
Inverz feladat
d1 d2 Direkt feladat
mM
. . .
dN d gm
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Az inverz probléma linearizálása
Linearizáljuk a d=g(m) nemlineáris függvénykapcsolatot! Állítsunk fel egy kezdeti (start-) modellt (m0), amit iteratív eljárásban finomítsunk a modellkorrekció-vektorral (m)!
m m0 m
Alkalmazzunk Taylor-sorfejtést a startmodell környezetében! d k0 g k m 0 , d k d k d k0 d g ( m) 0 M g k d k g k m i 1 m i
m i , (k 1,2,, N) mo
Mivel a G Jacobi (érzékenységi) mátrix (NM) független a m vektortól, így az adat- és a modellparaméter eltérések között lineáris kapcsolat van
* d G m d G m*
G ki
g k m i
d1* * m*1 d 2 G m* 1 * d N m1*
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
mo
d1* m*2 d *2 m*2 d *N m*2
d1* m*M d *2 m*M d *N m*M ME 2010
Az inverz probléma típusai
Egyértelműen meghatározott inverz feladat (N=M) Túlhatározott inverz feladat (N>M) Alulhatározott inverz feladat (N<M) Kevert határozottságú inverz feladat (N≠M)
ahol N a független adatok száma, M az inverziós ismeretlenek (a modell paramétereinek) száma
Szabó, 2005
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
A mért és számított adatok eltérése
Eltérésvektor (e): a mért és számított adatok eltérését (illeszkedését) megadó mennyiség (m) d
d1( m ) d1(sz) (sz) d (2m ) d (2sz) d e e 0 (m) ( sz ) d N d N
Célfüggvény: az e eltérésvektor valamely vektornormája, mely egyetlen skalárral jellemzi az illeszkedést. Az inverz feladat megoldása e függvény minimumához köthető
( m ) (sz) E E d d min
N e 1 ei , e 2 i 1
e , e p p N
i 1
2 i
p e , e max ei i N
i 1
i 1...N
Szabó, 2005 4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
A Gauss-féle legkisebb négyzetek módszere
A túlhatározott inverz problémának (adat>ismeretlen) nem létezik algebrai megoldása (független egyenletek számaismeretlenek száma) A megoldást az L2-normanégyzet (mérési és számított adatok eltérésének négyzetösszege) minimumához kötjük, mivel ( m) (sz) ( m) e d d d Gm 0
Az LSQ (Least Squares) eljárás minimalizálandó célfüggvénye e1 e N T E e e e1 , e 2 ,, e N 2 ei2 min i 1 e N
Az inverz feladat megoldásával (E/m=0) kapjuk az optimális (becsült) modell paramétereket ( b) 1 T ( m ) T m
G G G d
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Levezetés: a legkisebb négyzetek módszere
Írjuk fel részletesen az LSQ-módszer célfüggvényét! e1 e N N M M T 2 2 (m) (m) E e e e1 , e 2 ,, e N e k (d k G ki m i )(d k G kj m j ) k 1 i 1 j1 k 1 e N
Az E szélsőérték meghatározásának feltétele a következő E 0, (l 1,2,, M) m l E E E 0, 0, , 0 m1 m 2 m M Szabó, 2005
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Levezetés: a legkisebb négyzetek módszere
Deriváljuk az E célfüggvényt (ij=mi/mj=1, ha i=j, egyébként ij=0) N
E (d k 1
M
(m) k
G kim i )(d i 1
M
(m) k
G kjm j ) j1
N M N M M N 2 (m) d 2 d G m m m G G k k kj j i j ki kj 0 m l k 1 k 1 j1 k 1 i 1 j1
M
N
j1
k 1
2 jl G kjd
(m) k
N
2 G kl d k 1
(m) k
M M
N
M
N
i 1 j1
k 1
i 1
k 1
(mi jl m jil ) G ki G kj 2 mi G ki G kl
Az egyenlet rendezése után adódik a megoldás mátrix-vektor alakja N
M
N
2 G kl G ki m i 2 G kl d (km ) 0 k 1
i 1
k 1
N
M
N
k 1
i 1
k 1
(m) G kl G ki m i G kl d k
/ G G T
1
T (m) G Gm G d 1 T ( m ) T m G G G d
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
T
ME 2010
Lineáris regresszió inverziós megoldása
Tételezzük fel, hogy a hőmérsékletmélység kapcsolat lineáris! Ennek megfelelően a modell-egyenlet
T(z) m1 m2 z
Az ismeretlen modell-paraméterek vektora m1 m m 2 A mért hőmérséklet adatok vektora (m) d
T1( m ) (m) T 2 (m) TN
Szabó, 2005
T1( m ) 1 (m) T 1 d Gm 2 T ( m ) 1 N
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
z1 z 2 m1 m2 z N ME 2010
Lineáris regresszió inverziós megoldása 1 z1 N 1 1 ... 1 1 z 2 T G G N z1 z 2 ... z N 1 z z i i 1 N
z i i 1 N 2 z i i 1 N
T1( m ) N ( m ) ( m ) Ti 1 1 ... 1 T2 i 1 T G d N z1 z 2 ... z N z T ( m ) i i T ( m ) i 1 N
(b) 1 T ( m ) ( b ) m1 T m G G G d m(b) 2
Szabó, 2005
N N z i i 1
z i i 1 N 2 z i i 1 N
1
N (m) Ti i 1 N (m) z i Ti i 1
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
2-D lineáris regresszió inverziós megoldása
A regressziós sík egyenlete, mint az inverziós modell d(x, y) m1 m2 x m3 y
Az ismeretlen modell-paraméterek vektora m1 m m 2 m 3
A mérési adatok N dimenziós oszlopvektora (m) (m) d
d1 (m) d 2 (m) d N
Szabó, 2005
d1( m ) 1 x1 (m) d 2 1 x 2 d ( m ) 1 x N N
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
y1 m1 y 2 m2 m 3 y N ME 2010
2-D lineáris regresszió inverziós megoldása
1 1 1 1 1 T G G x1 x 2 x N y y y N 1 2 1
m(b)
N x1 y1 x 2 y 2 N xi i 1 x N y N N yi i 1
x y i i i 1 i 1 N N 2 x i x i yi i 1 i 1 N N x i yi yi2 i 1 i 1 N
m1( b ) 1 T ( m ) T (b) m 2 G G G d (b) m3
N (m) di d1( m ) i 1 1 1 1 ( m ) N d 2 T (m) G d x1 x 2 x N x idi y y y i 1 N ( m ) 1 2 N d N y d (m) i i i 1
N
N N xi i 1 N y i i 1
x y i i i 1 i 1 N N 2 x i x i yi i 1 i 1 N N 2 x i y i y i i 1 i 1 N
N
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
1
N (m) di i 1 N (m) x idi i 1 N (m) y i d i i 1
ME 2010
Példa: Kutatók éjszakája, Miskolc 2009
Ormos és Szabó, 2009
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Példa: szeizmikus adatok inverziója
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Példa: szeizmikus adatok inverziója geofon 1.0000 2.0000 3.0000 4.0000 5.0000 6.0000 7.0000 8.0000 9.0000 10.0000 11.0000 12.0000 13.0000 14.0000 15.0000 16.0000 17.0000 18.0000 19.0000 20.0000 21.0000 22.0000 23.0000 24.0000
x-koord 0 2.0000 4.0000 6.0000 8.0000 10.0000 12.0000 12.0000 12.0000 12.0000 12.0000 12.0000 12.0000 10.0000 8.0000 6.0000 4.0000 2.0000 0 0 0 0 0 0
y-koord 0 0 0 0 0 0 0 2.0000 4.0000 6.0000 8.0000 10.0000 12.0000 12.0000 12.0000 12.0000 12.0000 12.0000 12.0000 10.0000 8.0000 6.0000 4.0000 2.0000
t_mért 141.5121 136.4190 132.4577 128.4965 128.4965 131.8918 136.4190 130.1942 127.3647 125.1011 129.0624 133.0236 138.1167 133.5895 130.7601 129.0624 130.1942 132.4577 137.5508 135.2872 131.3260 130.7601 133.0236 138.1167
Startmodell = 5 5 200 2 Kezdeti_adattávolság = 95.7570 Adattávolság = 1.3495 A robbantás koordinátái: x = 6.5896
y =6.0322
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
v = 252.5935
t0 = 105.0583
ME 2010
Adattérben súlyozott megoldások
Az inverzióba bevont adatok pontossága (megbízhatósága) eltérő lehet (mérési hiba). Ha van előzetes (a priori) információnk az adatok megbízhatóságáról, akkor azt figyelembe vehetjük az inverz feladat megoldása során Konstruáljunk N×N-es W(d) adattérbeli súlymátrixot (mely korrelálatlan adatok esetén diagonális mátrix), melyben az egyes adatok hibája szerinti súlyok szerepeljenek! Minél megbízhatóbb az adat annál nagyobb súlyt adjunk neki!
W
(d )
12 1 0 0 0 2 0 ( d ) , W 0 0 0 0 1 0
0 2 2 0
e1 1 0 0 0 (d) , W 0 N2 0
e2 0
0 0 0 1 e N
0 1
Az inverz feladat megoldása adattérben súlyozott LSQ-módszerrel T (d ) 1 T ( b) T (d) (d ) ( m) L e W e min m G W G G W d
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Modelltérben súlyozott megoldások
Az inverzió során az egyes modell-paramétereket eltérő súllyal is figyelembe vehetjük, sőt bizonyos paraméter-tartományokat kizárhatunk a megoldásból. Ezt korlátozott (constrained) inverziónak nevezzük. Ilyen esetet képez, pl. amikor egy referencia modellhez tereljük, vagy egy előírt tartományba kényszerítjük a megoldást, valamint csökkentjük a szomszédos modell-paraméterek egyenetlenségeit és simítjuk azok térbeli „eloszlását” Konstruáljunk M×M-es W(m) modelltérbeli súlymátrixot! 1 1 0 1 (m) W m 0 0
0 0 0 m1 m 2 m1 1 2 1 0 0 m1 m1 2m 2 m3 m m 2 m m 1 0 0 m 2 m3 m 2 0 1 2 1 0 2 (m) 2 3 4 , W m m m m 2 m m 0 1 1 mM M 0 0 0 1 2 1 m M M 2 M 1 M 1 M
Az inverz feladat megoldása Lagrange-féle multiplikátorok módszerével T ( m) T ( b) 1 T 1 T 1 ( m ) m W m e min m W G G W G d
4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
Példa: a mélyfúrási geofizikai inverzió
Dobróka és Szabó 2004
Halliburton Co. 4. A lineáris inverz feladat megoldása. Az LSQ módszer, súlyozott megoldások
ME 2010
5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
Az általánosított inverz mátrix
A mérési adatokat mindig hiba terheli, amely az inverzió során (az inverzió egyenletein keresztül) áttranszformálódik a modelltérbe. Ennek eredménye az, hogy az inverzióval becsült modell-paraméterek is hibával terheltek lesznek. Másrészt a kezdeti modell, mivel a valóságnak csak közelítése szintén hibaforrás. Így a válaszegyenleteken (közelítő mennyiségeken) keresztül modellezési hiba is terheli az inverziós eredményeket. E két független hibamennyiség összeadódik és alkotja az adathibát (σd), mely az inverzió bemenő hibajellemzője Általánosított inverz (M): MN méretű mátrix, mely az inverzió során kapcsolatot teremt a modell és az adatok között m Md v Legyen v=0, így az adat-modell kapcsolat lineáris. Ekkor, pl. az LSQ ( m) módszer esetén az M mátrix ( b) 1 T T m
Md
, ahol M G G G
5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Az adat- és modell-kovariancia kapcsolata
Lineáris kapcsolat esetén az átlagértékekkel együtt is fennáll m m M(d d ) Az i-edik és j-edik modellparaméter esetén indexekkel (i=j=1,2,…,M) mi m M ik d k d , m j m M jl d l d
N
N
k 1
l 1
Képezzük az i-edik és j-edik modellparaméter kovarianciáját!
mi m m j m Mik Mil d k d d l d Mik COVd kl Mil N
N
k 1 l 1
N
N
k 1 l 1
Az adat- és modell-kovariancia kapcsolat alapján a bemenő adatok hibájának (σd) ismeretében meghatározhatjuk az inverzióval becsült modell-paraméterek hibáját az ún. becslési hibát (σm) COVm MCOVd M , ahol mi (COVm )ii és d k (COVd ) kk T
5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Az LSQ-módszer becslési hibája
Ha az adatok korrelálatlanok és azonos szórásúak (d2), akkor a modell-kovariancia mátrix egyszerűbbé válik
COVm M d2 I M
T
A Gauss-féle legkisebb négyzetek módszere esetén a modellkovariancia T
1
1
COVm G G G G G G 2 d
T
T
T
Alkalmazzuk az alábbi algebrai azonosságot!
AB
T T
T
BA, A G G T
1
és B G
Ezzel a modell-kovariancia mátrix egyszerűbb alakot ölt
1
COVm G G G G G G 2 d
T
T
T
1
G G 2 d
T
5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
1
ME 2010
Példa: mélyfúrási geofizikai inverzió σ d21 0 COVd 0
0 0 σ d2 N
0 σ d2 2 0
N N
σ 2m1 0 COVm 0
0 σ 2m 2 0
0 0 σ 2m M
M M
Baker Atlas, 1996 5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Az illeszkedés jellemzése
Adattávolság: a mérési (d(m)) és az aktuális modellen számított (d(sz)) adatok eltérése 1 N (m) (sz) 2 Dd
N
d k 1
k
dk
Szintetikus inverziós kísérletek az inverziós eljárás konvergenciáját és pontosságát vizsgálják. Ennek keretében zajjal terhelt szintetikus adatokat invertálunk az egzaktul ismert modell meghatározása céljából (hogyan tudjuk rekonstruálni az ismert modellt) Modelltávolság: az ismert (m(e)) és a becsült (m(b)) modell eltérése Dm
1 M mi(e) mi(b) M i 1
2
http://geosphere.gsapubs.org
5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Az inverziós eljárás konvergenciája
Divergens eljárás: az iterációs lépésszám növekedésével fokozatosan növekednek az illeszkedési jellemzők. Eközben egyre távolodunk az optimális megoldástól és az inverziós eljárás instabillá válik Konvergens eljárás: az iterációs lépésszám növekedésével fokozatosan közelítünk az optimum felé. Egyre csökken az adattávolság és az eljárás az optimumban stabilizálódik
Dobróka és Szabó, 2006 5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
A megbízhatóság jellemzése
Az inverzióval becsült modell megbízhatóságát a korrelációs mátrixszal jellemezzük. Alacsony korrelációs együtthatók megbízható megoldást jelentenek: a modell-paraméterek egymástól függetlenek, egyedileg meghatározhatók, az interpretációt nem terheli ekvivalencia
Szabó 2004 5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Az együttes inverzió
Több, különböző fizikai elven mért adatrendszert egy ún. együttes inverziós eljárásban egyesítünk és szimultán dolgozunk fel. Az együttes inverzió célja az egyedi inverziós eljárásokkal szemben (ahol egyfajta adatrendszert invertálunk) a stabilitás és a pontosság növelése (becslési hiba csökkentése). Az együttes inverzió kevésbé zajérzékeny és megbízhatóbb inverziós eredményt szolgáltat Technikailag egyesítjük a modellvektorokat, és a direkt feladatokat is. A kombinált modellvektor tartalmazza az összes ismeretlent, a kombinált adatvektor pedig az összes adatot. Az eljárás hatékonysága függ a közös ismeretlenek számától. Ha nincs közös ismeretlen, nem lesz hatékonyabb, mint az egyedi inverzió. A legjobb az, ha a közös ismeretlenek minél inkább „átfedik” az egyesített direkt problémát A problémára vonatkozó összes információt bevisszük az inverziós eljárásba, ennek ekvivalencia feloldó hatása is lehet Az eljárás gyorsasága függ az egyesített direkt feladat időigényétől, általában nem sokkal lassabb, mint az egyedi inverzió
5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Példa: VESZ és szeizmikus együttes inverzió VESZ mérés
1-D geofizikai modell
www.nga.com
h1
vp1, 1
h2
vp2, 2
h3=
vp3, 3
Szeizmikus mérés
h - rétegvastagság - fajlagos ellenállás vp - longitudinális hullám terjedési sebessége www.dme.qld.gov.au 5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
Példa: VESZ és szeizmikus együttes inverzió Egyedi VESZ inverzió eredménye
VESZ és szeizmikus együttes inverzió eredménye
Korrelációs mátrix
Korrelációs mátrix
Kiss Márta, 1998 5. Az adatok hibájának felhasználása a becsült modell pontosságának jellemzésében
ME 2010
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
Globális optimumkeresés
A lineáris inverziós módszerek kedvezően megválasztott startmodell esetén (az eljárást a megoldástól nem túl távol eső pontból indítva) kielégítő és gyors megoldást szolgáltatnak
Távoli startmodell esetén azonban az LSQ-eljárás a nagyszámú helyi szélsőértékkel rendelkező célfüggvény valamely lokális minimumához rendeli a megoldást (gradiens módszer) A globális szélsőérték-kereső eljárások megfelelő folyamatjellemző (paraméter) beállítások mellett képesek a célfüggvény abszolút (globális) minimumát meghatározni Szabó, 2004
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
A Simulated Annealing eljárás
A Simulated Annealing (SA) egy a fémek speciális hőkezelési technikája alapján tervezett hatékony (robusztus) globális optimalizációs módszer. Modernebb változatait a futási idő csökkentése céljából fejlesztették ki Az SA-algoritmus felhasználható az inverz feladat megoldására. Ennek alapja a hűtés időtartamától és ütemétől függően kialakuló fémrács atomi összenergiája (energiafüggvény) és az inverz feladat minimalizálandó célfüggvényének az analógiája A kohászatban a fémek lágyítását az olvadt állapothoz közeli hőmérsékletről történő lassú hűtéssel valósítják meg. Ennek hatására a nagyszámú atom fokozatosan veszít mozgási energiájából, a fém kristályosodni kezd. A kialakuló fémrács atomi összenergiája a hűtés időtartamának a függvénye. Elvileg végtelen lassú hűtés eredményezné a minimális energiájú (tökéletes) rácsszerkezetet, mely analóg a geofizikai inverz probléma E célfüggvényének globális minimumban való stabilizálódásával. A gyakorlatban ilyen lassú hűtés nem valósítható meg, ezért gyorsabb hűtési eljárás szükséges
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
A Simulated Annealing eljárás
Gyorsabb hűtés következtében a kristályszerkezetben rácshibák alakulnak ki, és a fém egy magasabb energiaszinten fagy (tökéletlen) rácsba. Ez megfelel az inverziós eljárás lokális minimumban való stabilizálódásának. Az atomok azonban speciális hőkezelés (annealing) hatására kiszabadulnak a magasabb energiaszintű kristályszerkezetből, és megfelelő hűtés mellett elérik az abszolút minimális energiájú rácsszerkezetet. Az SA-eljárás e folyamatot algoritmizálja a célfüggvény globális minimumának megtalálására Az optimális modell konvergens eljárásban az ún. Gibbs-féle eloszláshoz tart (termikus egyensúly), melynek valószínűségsűrűség függvénye E m
Pm
(i )
e S
(i)
e
T
E m( j) T
j1
ahol P(m(i)) az i-edik modell valószínűsége, S a lehetséges modellek száma és T folyamatszabályzó (általánosított) hőmérséklet 6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
,
A Metropolis SA eljárás
Energiafüggvény: a mért és számított adatok eltérését jellemző függvény. Ha az adatok eloszlása normális, akkor az eltérésvektor L2normanégyzetének alkalmazása vezet optimális megoldásra
1 N ( m) E 2 d k d (ksz) N k 1
2
min
Kiugró adatok esetén az L1-norma alkalmazása célszerű
Szabó I., 2003
1 N ( m) E1 d k d (ksz) min N k 1
Az MSA-eljárás véletlen keresést hajt végre a paramétertérben, miközben a modell-paramétereket iterációról-iterációra változtatja ( új) ( régi) mi
mi
b,
0 b bmax
ahol b a paraméter-változtatás mértéke (bmax(új)=bmax(régi), 0<1) 6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
.,
A Metropolis SA eljárás
Energiakülönbség: a régi (előző iteráció) és az új (aktuális iteráció) modellparaméterekkel számított energiafüggvény értékek különbsége. Ha ΔE<0, akkor javult a mért és számított adatok illeszkedése, ellenkező esetben romlott (új) (régi) E E m
E m
Metropolis kritérium: az új modell elfogadására vonatkozó valószínűségi szabály. Ha P elfogadási valószínűség nagyobb vagy egyenlő, mint az U[0,1] szám, akkor az új modellt elfogadjuk, ellenkező esetben elvetjük (ΔE>0 esetén is van elfogadás → kiszabadulás a lokális minimumból) E 0 1, P(E) E T e , E 0
Az SA-eljárás elején (magas T-en) sokféle modellt elfogadunk, később az optimum közelében (alacsony Ten) nem engedünk meg nagy perturbációkat (konvergencia)
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
Szabó I., 2003 ME 2010
A hűtési ütem
Hűtési ütem: a T általánosított hőmérséklet iterációs eljárásban történő csökkentése, mely nagymértékben befolyásolja az SA-eljárás konvergenciáját. A globális minimumhoz történő konvergencia szükséges és elégséges feltétele a következő hűtési mechanizmus alkalmazása Tq
T0 ln q
(q 1)
A T0 kezdeti hőmérséklet megadása empirikusan vagy próbafuttatásokkal történik (q az iterációs lépésszám) Az energiaátlagok módszerével kiszámítjuk különböző hőmérsékleteknél az elfogadott modellekhez tartozó energiafüggvény értékek számtani átlagát. Ahol a fenti átlaghibák értéke minimális, azt a hőmérséklet értéket állítjuk be T0 kezdeti hőmérsékletnek
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
Kiss, 1998 ME 2010
Az SA-algoritmus folyamatábrája Inicializálás
Kezdeti hőmérséklet
Paraméter-változtatás Nem
Teljesül a Metropolis kritérium?
Teljesül ΔE≤0? Igen
Nem Igen
Új paraméter elfogadása Hőmérséklet csökkentése Előírt lépésszám? Nem Igen
Maximális lépésszám? Nem
Optimális modell Igen
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
Gyors Simulated Annealing módszerek
A Metropolis SA-algoritmus hűtési üteme nagyon lassú. Az optimumkeresés nagyságrendekkel tovább tart, mint lineáris módszerek esetén Az FSA (Fast SA) és a VFSA (Very Fast SA) módszer gyors hűtést alkalmaz, amellett hogy a konvergencia és a globális optimum megtalálása biztosított marad. Az FSA 1/q függvény szerint hűt és Cauchyhoz közeli eloszlásból veszi a mintát. A VFSA e-q hűtést alkalmaz és előírt értéktartományból választja a modell paramétereket
Szabó I., 2003 6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
Példa: SA startmodell-függetlensége Adatrendszer (I) 0% Gauss zaj (II) 2% Gauss zaj (III) 6% Gauss zaj
Dd,0[%] Dm,0[%] 24.47 20.00 63.90 50.01 182.53 150.00 24.47 20.00 63.90 50.01 182.53 150.00 24.47 20.00 63.90 50.01 182.53 150.00
Dd[%] Dm[%] 0.001 0.002 0.001 0.002 0.001 0.002 2.37 3.44 2.36 3.44 2.37 3.44 6.95 9.95 6.96 9.96 6.96 9.96
Dd,0 - startmodellen számított és mért adatok távolsága Dm,0 - startmodell és az egzakt modell távolsága Dd - inverzióval becsült modellen számított és mért adatok távolsága Dm - az inverzióval becsült és egzakt modell távolsága
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
A Genetikus Algoritmus
A Genetikus Algoritmus (GA) biológiai analógián alapuló, robusztus globális optimalizációs eljárás. Rendkívüli adaptációs képességgel rendelkezik („változó körülmények között elfogadható teljesítmény”) Darwini alapgondolat: a természetben elsősorban azok az élőlények maradnak fenn és szaporodnak, melyek az adott körülmények között erre a legalkalmasabbnak bizonyulnak. A GA a természetes szelekciót és az öröklődés genetikai mechanizmusát alkalmazza mesterséges populációk (rendszerek vagy modellek) optimalizációjára A mesterséges populációk egyedeinek genetikai információit a DNSlánc analógiája alapján kódolt számsorozatok (kromoszóma) hordozzák, melyek egyértelműen definiálják az optimalizációs probléma paramétereit. Mesterséges öröklődéskor a GA véletlen populációból választja ki a legalkalmasabb egyedeket, azok között genetikus információcserét és mutációt hajt végre (a géneken) egy alkalmasabb generáció létrehozása érdekében. A GA a populációt genetikus operátorok (véletlen műveletek) alkalmazásával iteratív úton javítja
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
A Genetikus Algoritmus
A GA felhasználható a földtudományi inverz feladat megoldására. Az inverz probléma modellvektorát egy adott modellpopuláció egyedeként azonosítjuk. A populáció minden egyedéhez hozzá rendelhetünk egy ún. fitness (alkalmassági) értéket, mely az egyed túlélési képességeit számszerűen jellemzi. Minél nagyobb az alkalmassági érték, az egyed annál nagyobb valószínűséggel és nagyobb számban szaporodik. Lényegében a fitness függvény határozza meg, hogy az egyedek bekerülnek-e a következő generációba vagy elpusztulnak A GA az optimalizációs eljárás során a fitness, mint célfüggvény maximalizálására törekszik a legalkalmasabb modell megtartása érdekében. Az iterációs eljárás során konvergenciáról akkor beszélünk, ha az egymást követő populációk átlagos fitness-értéke nő Az inverz feladat megoldása céljából a fitness-függvényt úgy kell megválasztanunk, hogy azzal a mért és a számított adatok eltérése mérhető legyen, és annak globális maximumához tartozzon az optimális megoldás
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
.
A fitness függvény
Az inverziós módszerek elméletében az E(i) skalár (vektornorma) jellemzi a d(m) mérési és az i-edik modell alapján (a g(i)-edik direkt feladat keretében) számított d(sz) adatok eltérését
( m) (sz) ( m) i E E d d E d g m i
A GA inverziós eljárásban az E célfüggvény minimumát keressük. Így a maximalizálandó fitness-függvényt többféleképpen képezhetjük F(m i ) E i vagy F(m i )
1 E i 2
ahol 2 a fitness-t felülről szabályozó pozitív konstans
Benedek, 2000
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
A genetikus operátorok
Inicializálás: a kezdeti véletlen populáció (startmodell) létrehozása. Ehhez előre meg kell adni a modellparaméterek lehetséges tartományát Kódolás: a modell paramétereit kódolt számsorozatokká alakítjuk Szelekció: a legalkalmasabb egyedek kiválasztása a populációból Keresztezés: genetikus információcsere két kiinduló egyed között, melynek eredménye két teljesen új egyed Mutáció: az egyed egy génjét véletlenül megváltoztatjuk. Lényeges a mutációs arány (mutált egyedszám/összes egyedszám) előzetes megadása, mely a populáció homogenizációját akadályozza meg Reprodukció: az új generáció összetételét alakítja ki. Általában az átmeneti (genetikus műveleteken átesett) populáció egyedeiből építjük fel az új generációt. Azonban léteznek olyan algoritmusok is, melyek megtartják a régi populáció legjobb (legnagyobb fitness értékű) egyedét és kicserélik azt az átmeneti populáció legrosszabb (legkisebb fitness értékű) egyedére. Ez utóbbi műveletet elitizmusnak nevezzük
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
A klasszikus Genetikus Algoritmus Kódolás
Roulette-szelekció P=F/F
Keresztezés
0001101011 126+125+123+121+120 =107
Mutáció
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
http://www.edc.ncl.ac.uk
ME 2010
A valós-kódolású Genetikus Algoritmus
A klasszikus GA időigényes, mert minden iterációs lépésben dekódolást kell alkalmazni az elvi adatok számítása miatt A valós GA közvetlenül valós modell-paraméterekkel számol, nem kódokkal dolgozik. Minden paraméter egy-egy valós intervallumból kerül ki, így a paramétertér finomabban felbontható, mint bináris kódolással A valós algoritmus megegyezik a klasszikuséval, csak az operációk valós műveletek (CPU idő sokkal kisebb, mint a klasszikus GA esetén)
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
Szabó, 2004 ME 2010
A GA, SA és LSQ összehasonlítása
A GA nagyszámú modellt (30-100) tökéletesít, míg az LSQ és SA módszer csak egyetlen modellt. A GA az eljárás végén optimális modellek sorozatát szolgáltatja, de ezzel együtt a leglassúbb módszer. A lineáris inverziós módszereknél általában 5-20, SA-nál 5000-10000, GA-nál 10000-100000 iterációs lépés szükséges az optimum meghatározásához Mivel GA-nál a véletlen keresés nem pontról-pontra történik a paramétertérben, hanem több pontot szimultán megvizsgálunk, ezzel még hatékonyabban el tudjuk kerülni a lokális szélsőérték helyeket. Ráadásul a modell-paraméterek lehetséges tartományát előre megadva egyes hipersík-partíciók azonnal kiszelektálódnak A GA nem alkalmaz linearizálást, mint LSQ, így a deriváltak számítása szükségtelen (csak a kódokkal és a célfüggvény értékkészletével dolgozik). A GA és SA derivált és startmodell-független A GA és SA konvergenciája nagymértékben függ a folyamatjellemző paraméterek beállításától (SA - hőmérséklet, GA - operátorok jellemzői)
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
Példa: 1-D geoelektromos globális inverzió
Sen és Stoffa, 1995
6. Nemlineáris inverz modellezés. Globális szélsőérték-kereső eljárások
ME 2010
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010
A neurális hálózatok módszere
A mesterséges intelligencia (Artificial Intelligence) kutatáshoz kapcsolódnak olyan matematikai módszerek, melyek meghatározott tanulási folyamat elvégzése után képesek önálló döntéshozatalra Neurális hálózatok (Artificial Neural Network): párhuzamos (elosztott működésre képes) információ feldolgozást végző számítási módszerek, melyek biológiai rendszerek analógiáján alapulnak. Az emberi idegsejtek működését másoló neurális hálózatok tanítható rendszerek, jó adaptációs képesség és gyorsaság jellemzi őket Működésük: kezdetben a bemenetet (bemenő adatok) és a kimenetet (kimenő adatok) kell megadni. Az eljárás a kettő közötti ismeretlen függvény-kapcsolatot (fekete doboz) fejti meg, majd ezután egy újabb bemenet megadása esetén (a tanulási fázist követően) becslést végez a kimenetre vonatkozóan A számításokat egymással összekapcsolt kis feldolgozó-egységek, mesterséges idegsejtek végzik, melyek az adott feladattól függően sokféleképpen kapcsolhatók hálózatba
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neuron biológiai modellje
A neurális hálózat alapeleme a neuron. A bejövő inger feldolgozását a sejtmag végzi, és az eredményt az axonon keresztül juttatja el a többi neuronhoz. Az axon végződése (szinapszis) a másik neuron dendritjéhez csatlakozik. A dendritekhez több neuron is kapcsolódik sűrű hálózatot alkotva
http://www.web.eku.edu
A bejövő információt a dendritek továbbítják a sejtmagba. Ha az inger meghalad egy küszöbértéket, akkor a neuron továbbküld egy jelet abba a neuronba, amellyel összeköttetésben van. Egy ilyen neuronba több neuron is küldhet impulzust. Ha ezek összessége meghaladja a neuron ingerküszöbét, akkor ez a neuron is továbbküld egy impulzust a következõ neuronba stb. Végül az impulzus eljut az utolsó neuronokhoz és az idegrendszer választ ad az inputra
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A mesterséges neuron modellje
Az egyes neuronok több más neuronnak is adhatnak impulzust, akár visszafelé is (visszacsatolt hálózatok). Minden szinapszisnak (neuronokat összekötő élek) meghatározott az impulzusátadási hatásfoka, azaz meghatározott erővel (súlyozással) továbbítja az információt. Az ingereket fogadó neuronokat különböző mértékű (intenzitású) ingerek érhetik, továbbá az ingerek továbbítására nem egy egyszerű küszöbérték-meghaladási kritérium létezik, hanem ún. ingerküszöb függvények segítik meghatározni a kimenő impulzus mértékét A legegyszerűbb, tanulási algoritmussal ellátott neuron modellt perceptronnak nevezzük. Egy többdimenziós bemenet komponenseinek súlyozott összegét állítja elő (lineáris kombinációt követő hálózat), amelyet nemlineáris leképezés követ A tanulás mechanizmusát matematikai statisztikai módszerek szabályozzák
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A perceptron skalár outputtal
Legyen a neurális hálózat bemenete az x N dimenziós adatvektor és kimenete az y skalár! T x x1 , x 2 ,, x N
A perceptron kimenete nemlineáris kapcsolatban van a bemenettel N
y f (s), s w i x i
x1
w1
x2
w2
i 1
x3
w3
...
...
A wi az i-edik bemenethez (xi) tartozó súly, mely megadja, hogy az i-edik bemenet milyen mértékben vesz részt a neuron y válaszában
xN
wN
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
∑
s=wTx f(s)
y ME 2010
A perceptron vektor outputtal
Legyen a neurális hálózat bemenete (x) és kimenete (y) is N dimenziós oszlopvektor! T x x1 , x 2 ,, x N T y y1 , y 2 ,, y N
A perceptron kimenete nemlineáris kapcsolatban van a bemenettel N
y j f (s j ), s j Wij x i
x1
W1j
x2
W2j
i 1
x3
W3j
...
...
A Wij az i-edik bemenethez (xi) tartozó súly, mely megadja, hogy az i-edik bemenet milyen mértékben vesz részt a neuron yj válaszában (j=1,2,…,N)
xN
WNj
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
∑
s=WTx f(s)
y1
y2
…
yN
ME 2010
Az aktivációs függvény
A nemlineáris leképezést meghatározó f(s) függvényt aktivációs függvénynek (másnéven transzfer vagy ingerküszöb függvény) nevezzük. Az aktiváció egy megfelelő határérték felett (ingerküszöb) érhető el A gyakorlatban legtöbbször a szigmoid (I), lineáris (II), lépcsős (III), Gauss (IV), szinusz (V) és tangenshiperbolikus (VI) típusú aktivációs függvényeket alkalmazzuk
Benedek, 2000
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neuronok hálózatba kapcsolása
Komplex feladatok megoldása céljából a neuronokat hálózatba kapcsoljuk. Ezt azért tesszük, mert bebizonyítható, hogy megfelelően kapcsolt neurális hálózat képes bármilyen nemlineáris leképezés tetszőleges pontosságú közelítésére. Ez a kiváló függvényapproximációs képesség teszi lehetővé a statikus és dinamikus rendszerek modellezését A neurális hálózat szerkezetileg különböző rétegekből áll. Rétegnek nevezzük a hasonló információ feldolgozásában részt vevő neuronok együttesét. Egy-egy réteg kimenetei egy másik réteg bemeneteihez kapcsolódnak vagy a teljes hálózat kimeneteit alkotják. A bemeneti réteg információt nem dolgoz fel, csak továbbít, bemenete az egész hálózat bemenete. A rejtett réteg bemenete és kimenete kizárólag a környezet neuronjaihoz csatlakoznak, míg a kimeneti réteg a teljes hálózat kimeneteit tartalmazzák. Strukturális szempontból a neurális hálózatok abban különböznek egymástól, hogy az őket felépítő neuronok milyen kapcsolati rendszerben vannak egymással
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neurális hálózatok tanítása
A neurális hálózat tanítása az összetartozó bemeneti és kimeneti adatpárok létezése esetén lehetséges. Tanításkor egy adott bemenet esetén feltételezzük, hogy a kimeneten a kívánt válasz jelenik meg A tanítás során egy iteratív (optimalizációs) eljárásban a fenti két adatrendszert illesztjük, azaz egy megfelelően megválasztott illesztési kritérium-függvényt (célfüggvényt) minimalizálunk. A tanítandó hálózat működését úgy kívánjuk elérni, hogy az a lehető legjobban közelítse a vizsgált rendszer működését Az optimalizációs módszertől is függ az eredmény. Alkalmazhatunk lokális (pl. Gauss-féle LSQ módszer) vagy globális optimalizációs (Simulated Annealing, Genetikus Algoritmus) módszereket A tanítás sikeressége kvantitatív módon jellemezhető, mivel a bemeneti és kimeneti adatsor eltérése (hibája, megbízhatósága) mérhető pl. az adattávolság, korrelációs együttható segítségével
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neurális hálózatok tanítása
A rendszert paraméterei egyértelműen jellemzik. E paraméterek a kritérium-függvény független változói, melyek egy modellt határoznak meg. A modell paraméterei a neurális hálózat w súlyértékei. Az optimalizáció során ezeket változtatjuk (finomítjuk), majd az eljárás végén megkapjuk a súlyvektor elemeinek optimális kombinációját. A meghatározott súlyokkal az adott hálózati konfiguráció az új bemeneti adatsorra megfelelő választ, azaz kimeneti adatsort ad
Input
Rendszer
Teljesül a kritérium?
Optimális súlyok
Tanítás vége
Igen Nem
Modell
Súlyok módosítása
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neurális hálózatok típusai
Előrecsatolt hálózatok: a leggyakrabban alkalmazott előrecsatolt többrétegű neurális hálózat a többrétegű perceptron (MLP: MultiLayer Perceptron). Az MLP rétegeiben egyszerű perceptronokat kötünk hálózatba különböző súlyokon keresztül. Pl. a háromrétegű MLP-nek egy rejtett rétege van, a négyrétegűnek kettő stb. A háromrétegű MLP hálózat bármilyen minta osztályozására alkalmas
Szabó, 2010
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neurális hálózatok típusai
Előrecsatolt hálózatok: az MLP mellett gyakran alkalmazzák a radiális bázisfüggvény hálózatokat (RBF: Radial Basis Function network). Az RBF hálózat egyetlen rejtett réteget tartalmaz, ahol körszimmetrikus aktivációs függvények nemlineárisan képezik le a bemenetet. Egy hálózatban általában egyfajta aktivációs függvényt használnak, de azok paraméterei neurononként változhatnak. A súlyozott összeget a kimeneti rétegben állítjuk elő
Veres, 2002
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neurális hálózatok típusai
Visszacsatolt hálózatok: összetett feladatok megoldására alkalmazzák őket. Lehetnek lokálisan (rétegbeli) valamint globálisan (kimenetről bemenetre) visszacsatolt hálózatok, melyek igen jó függvényközelítő képességekkel rendelkeznek Pl. egyrétegű egyszerű visszacsatolt hálózat a Hopfield-hálózat, mely egy rétegből áll (bemenet és kimenet). A hálózatban minden neuron mindegyikkel kapcsolatban van Benedek 2000
A Hopfield-hálózatot nem-ellenőrzött tanulás jellemezi. Ekkor nem a súlyok optimalizálódnak a tanulás folyamán, hanem az y értékek. A w súlyokat és a kezdeti x értékeket becsléssel határozzuk meg. Ezután alkalmazva a hálót, megkapjuk az első iteráció y értékeit. A következő iterációban az y-ok lesznek a bementi változók (x=y), és így kapjuk a második közelítés eredményét stb.
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
A neurális hálózatok típusai
Önszervező hálózatok: bonyolult feladatok pl. az agyműködés modellezésére alkalmazzák. A Kohonen-hálóban pl. csak input és output neuronok vannak. A klaszteranalízis példájára hatékony csoportosítást végezhetünk vele A többrétegű hálózatok alkalmazásánál több olyan hálózati jellemző beállítása szükséges, mely később kihatással lesz a kimeneti értékek meghatározásában. Ezek pl. az adatszám (tanításkor), a rétegek száma, a neuronok száma (különböző rétegeken belül), a tanító lépések száma, a kezdeti súlyok, a hibajellemző (célfüggvény), vagy az optimalizációs algoritmus (lineáris vagy globális) Benedek, 2000
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
ME 2010
Példa: GIS alapú ANN tanítása Output max Class
Classification error min. between input and output
Class 0
Vegetation type
1 2 3 4
Dry Sclerophyll Eucalyptus botryoides Lower slope wet Wet E. maculata
5 6 7 8 9
Dry E. maculata Rainforest Ecotone Rainforest Paddock Ocean
7. Sokváltozós mennyiségi összefüggések elemzése neurális hálózatokkal
Laffan, 1998 ME 2010
Köszönöm a figyelmet! Jó szerencsét!
Geostatisztika II. c. tárgy az MSc geográfus mesterszak hallgatóinak
ME 2010