Geostatisztika I. BSc geográfus alapszak hallgatóinak
Dr. Szabó Norbert Péter egyetemi adjunktus
Miskolci Egyetem Geofizikai Intézeti Tanszék e-mail:
[email protected]
Ajánlott irodalom
Steiner Ferenc, 1990. A geostatisztika alapjai. Tankönyvkiadó, Budapest Lukács Ottó, 1987. Matematikai statisztika (Bolyai könyvek). Műszaki Könyvkiadó, Budapest Ferenc Steiner, 1997. Optimum methods in statistics. Akadémiai Kiadó, Budapest Edward H. Isaacs, R. Mohan Srivastava, 1989. An introduction to applied geostatistics. Oxford University Press Szabó Norbert Péter, 2006. Geoinformatikai szoftverfejlesztés. Oktatási segédlet Stoyan Gisbert, 2005. Matlab, frissített kiadás. Typotex
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Milyen kérdésekre ad választ a geostatisztika?
Milyen gyakran fordul elő egy bizonyos adat az adatrendszerben? Egy bizonyos érték alatt hány adat fordul elő? Hogyan modellezhető matematikailag az adatok gyakorisága? Mi a legjellemzőbb érték a területen? Milyen mértékben szórnak az adatok? Hogyan kezeljük a hibás adatokat? Hogyan becsülhetjük be nem mért pontok értékeit a többi mérés ismeretében? Milyen kapcsolatban van egy bizonyos adat a többivel?
Isaaks and Srivastava, 1989 Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Milyen kérdésekre ad választ a geostatisztika?
Isaaks and Srivastava, 1989
Mi az adatok együttes előfordulásának a valószínűsége? Mutat-e kapcsolatot a két adatrendszer vagy függetlenek egymástól? Milyen erős az adatrendszerek közti kapcsolat és mi az előjele? Hogyan írjuk le matematikailag ezt a függvénykapcsolatot és interpolálhatjuk az eredményeket be nem mért tartományokra? Hogyan következtethetünk az adatokból a földtani modell jellemzőire? Mi a következtetés hibája? Sok adat esetén hogyan osztályozhatjuk az adatokat?
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Tematika
Adatrendszerek, hisztogramok és sűrűségmodellek A legjellemzőbb érték meghatározása Az adatrendszerben rejlő bizonytalanság jellemzése Statisztikai becslések, becslések határeloszlása Statisztikai próbák és illeszkedés-vizsgálatok A kovariancia és a korreláció fogalma A lineáris függés mérőszámának meghatározása Következtetés be nem mért térrészek jellemzőire krigeléssel Kiegyenlítések, lineáris és nemlineáris regresszió Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
1. Adatrendszerek, hisztogramok, sűrűségmodellek
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Adatrendszer ábrázolása számegyenesen
Ábrázoljuk adataink mindegyikét rövid vonalként a számegyenesen! Adatrendszer: ismételt radioaktív mérés azonos kőzetmintán, azonos műszerrel, azonos körülmények között Megfigyelés: azonos időtartam alatt különböző számú részecskét érzékelt a műszer
Steiner, 1990
Oka: atommagok bomlása során a kibocsájtott ɣ-részecskék száma azonos idő alatt nem állandó Jelenség: a mért értékek egy jellemző érték (várható érték) körül szórnak
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Adatrendszer ábrázolása számegyenesen
Tapasztalat: ha I az adott idő alatt mért beütésszámok középértéke, akkor ±√I a statisztikus ingadozás mértéke. A ±√I/I relatív hiba értéke I növelésével csökken, ezért a hiba úgy csökkenthető, hogy a megfigyelést hosszú időre (nagy beütésszám) terjesztjük ki
Steiner, 1990
Megfigyelhető: a számegyenesen balról jobbra nő az adatsűrűség, majd a maximum elérése után ismét csökken. Az [a,b] intervallum helyétől függő gyakorisággal várhatunk adatokat. Mérés ismétlésekor az adatszám változik az egyes intervallumokban, a teljes adatsűrűség-változás azonban nem
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Adatok előfordulási számának ábrázolása
Figyelem: a mérés során többször is előfordulhat ugyanaz az adat! Ábrázoljuk az előfordulási számot az adat értékek függvényében!
Steiner, 1990
Példa: Borsod II. széntelep Múcsony területére vonatkozó vastagság adatai (x: telepvastagság, y: előfordulás darabszámban megadva)
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Adatrendszer ábrázolása hisztogrammal
Jelöljük n-el az összes adatszámot, ni-vel pedig az i-edik részintervallumba eső adatszámot! Ábrázoljuk a darabszámot h hosszúságú részintervallumonként! Módszer: az y tengelyen az adott darabszámnak megfelelő magasságban x tengellyel párhuzamos egyenest húzzunk minden egyes részintervallumon. A kapott lépcsős függvényt hisztogramnak (tapasztalati sűrűségfüggvénynek) nevezzük
Steiner, 1990 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Adatrendszer ábrázolása hisztogrammal
Ábrázoljuk az ordinátán az ni/n arányt, ez a relatív gyakoriság! Ekkor a hisztogram adatszámtól független lesz (adatsűrűség-eloszlás sem változik). A 100*ni/n megadja, hogy az összes adat hány százaléka esik az i-edik részintervallumba Ábrázoljuk az ordinátán ni/(n*h) arányt! Ekkor a hisztogram oszlopainak összterülete 1 lesz. Az i-edik téglalap területe arányos az i-edik részintervallumra eső adatszámmal A h rossz megválasztása. Nagy h esetén torzul a globális adatsűrűség kép, kis h esetén nagy amplitúdójú fluktuációk zavarják az adatelemzést
1. Adatrendszerek, hisztogramok, sűrűségmodellek
Steiner, 1990 ME 2010
Példa: Walker Lake, Nevada
Isaaks and Srivastava, 1989 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
A sűrűségfüggvény
Illesszünk függvénygörbét a hisztogram (xi,yi) adatpárjainak pontjaihoz! A legjobban illeszkedő f(x) függvényt az adott adateloszlás sűrűségfüggvényének nevezzük Helyparaméter (T): kijelöli a sűrűségfüggvény helyét az x-tengelyen, a maximális sűrűség helye. Szimmetrikus eloszlásnál a szimmetriapontot jelöli (aszimmetrikus adateloszlásnál nem) Skálaparaméter (S): a sűrűségfüggvény szélességét jellemzi. Növekvő S-eknél nagyobb az adatok bizonytalansága
Steiner, 1990
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
A sűrűségfüggvény tulajdonságai
A teljes görbe alatti terület (biztos esemény)
f(x)dx 1
-
Annak valószínűsége, hogy az adat a mérés során az [a,b] intervallumba esik b
P(a x b) f(x)dx a
Steiner, 1990
Standard alak: a szimmetriapont T=0-nál van, a szélességet szabályzó paraméter pedig S=1 Általános alak: a standard alakból x→(x-T)/S és f(x)→f(x)/S transzformációval képezzük. Ekkor a szimmetriapont x=T-be kerül, ahol a sűrűségfüggvény S-szeresen nyújtott függvény lesz az xtengely irányában
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Nevezetes sűrűségfüggvények
Egyenletes eloszlás: az adatok L hosszúságú intervallumban egyenletesen helyezkednek el (pl. lottóhúzás) A sűrűségfüggvény L L 1 , T x T f u (x) L 2 2 0 , egyébként
A sűrűségfüggvény teljes számegyenesre vett integrálja (görbe alatti területe) = 1 Steiner, 1990
Példa: egyenletes eloszlású sűrűségfüggvény illesztése a Borsod II. széntelep telepvastagság adatrendszerére (gyenge közelítés)
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Nevezetes sűrűségfüggvények
Gauss-eloszlás: más néven normális eloszlás, a mérési hibák tipikus (elfogadott) eloszlása A sűrűségfüggvény standard alakja
1 fG (x) e 2
x2 2
A sűrűségfüggvény általános alakja
1 f G (x) e S 2
( x T ) 2 2S2
Steiner, 1990
Példa: Gauss sűrűségfüggvény illesztése a Borsod II. széntelep telepvastagság adatrendszerére (jobb közelítés az egyenletes eloszláshoz képest)
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Nevezetes sűrűségfüggvények
Laplace-eloszlás: a Gauss-eloszlásnál szélesebb „szárnyú” sűrűségfüggvény jellemzi (x2-es gyors csökkenés helyett x szerint csökkennek zérusra a függvény értékek) A sűrűségfüggvény standard alakja
1 x f L (x) e 2
A sűrűségfüggvény általános alakja
f L (x)
1 e 2S
x T S
Steiner, 1990
Példa: Laplace sűrűségfüggvény illesztése a Borsod II. széntelep telepvastagság adatrendszerére (legjobb illeszkedés, bár a hegyes maximum kevésbé realisztikus)
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Nevezetes sűrűségfüggvények
Cauchy-eloszlás: Laplace sűrűségfüggvényhez képest kevésbé hegyes csúcs, valamint súlyosabb szárnyak jellemzik A sűrűségfüggvény standard alakja f C (x)
1 1 1 x2
A sűrűségfüggvény általános alakja f C (x)
1 S
1 x T 1 S
2
1 S S2 x T 2 Steiner, 1990
Példa: Cauchy sűrűségfüggvény illesztése a Borsod II. széntelep telepvastagság adatrendszerére (majdnem a legjobb illeszkedés, viszont realisztikusabb a Laplace-eloszlásnál)
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Sűrűségfüggvény illesztése az adatrendszerre
Az illesztés követelménye: a hisztogram pontjai összességükben lehető legközelebb legyenek a sűrűségfüggvényhez Jelölések: xi az i-edik adat, yi=ni/(nh) az i-edik relatív gyakoriság, f(x,T,S) a kiegyenlítő (analitikus) sűrűségfüggvény Legkisebb négyzetek elve (Least Squares Method): az illeszkedés annál a T, S értékpárnál a legjobb, ahol a mérésből (hisztogramból) meghatározott yi-k és a f(xi,T,S) modellből számított relatív gyakoriság értékek eltéréseinek négyzetösszege minimális. Az optimalizációs feladat célfüggvénye N
2 y f x , T , S min i i i 1
A feladatot általánosan sorfejtés alkalmazásával oldjuk meg (nem ismerjük az eloszlás típusát), mely egy lineáris egyenletrendszerre vezet. A megoldásfüggvény paramétereit az egyenletrendszer megoldásával származtatjuk
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Szimmetrikus szupermodellek
A sűrűségfüggvényeket modellcsaládokba rendezhetjük, ezeket szupermodelleknek nevezzük. A sűrűségfüggvény analitikusan felírható és a típusparaméter változtatásával más-más sűrűségfüggvényt kapunk. A szupermodellek szimmetrikusak és aszimmetrikusak lehetnek fa
fp
Steiner, 1990
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Aszimmetrikus szupermodellek Weibull
Gamma
Lognorm
F
Steiner 1990 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
A χ2 - eloszlás
A χ2-eloszlás: egymástól független standard Gauss-eloszlást követő valószínűségi változók négyzetösszegének az eloszlása. Szabadsági fok: a standard Gauss-eloszlású változók száma Teintsük az ábrát! A: helyparaméter, B: skálaparaméter, C: szabadsági fokok száma, Y: valószínűségi változó, PDF: valószínűség-sűrűség függvény. Alkalmazás: χ2 tesztek
McLaughlin, 1999 5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Kumulatív gyakoriság jellemzése
Adjuk meg milyen arányban várhatók egy kitüntetett x0-nál kisebb adatok! Kumulatív gyakorisági hisztogram (tapasztalati eloszlásfüggvény): az a lépcsős függvény, mely minden x-nél megadja hány ennél kisebb adatunk van. Egy új mérési adat megjelenése esetén az ordinátán a gyakoriság „ugrásszerűen” megnő
Steiner, 1990 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Példa: Walker Lake, Nevada
Isaaks and Srivastava 1989 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Az eloszlásfüggvény
Eloszlásfüggvény: nagy adatszám esetén számítható analitikus függvény, mely megadja, hogy mekkora valószínűséggel vesz fel a valószínűségi változó kisebb értéket, mint x0. Adatok milyen arányban kisebbek valamely x0 értéknél? F( x 0 )
x0
f (x)dx
http://evolution-textbook.org 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Az eloszlásfüggvény tulajdonságai
Az eloszlásfüggvény a sűrűségfüggvény primitív függvénye dF( x ) f (x) dx
Mivel f(x) 1-re normált, ezért F(x) értékkészlete 0≤F(x)≤1
Az f(x)0 miatt F(x) monoton növekvő, azaz F(x1) ≤ F(x2), ha x1<x2
Milyen arányban fordulnak elő x0-nál nagyobb adatok? 1-F(x)
Milyen arányban fordulnak elő [a,b] intervallumon adatok? F(b)-F(a)
Adataink hány százaléka kisebb, mint x? 100*F(x)
1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
Példa: szemeloszlás görbék
Sűrűségfüggvény: egy adott méretű szemcséből mennyi van a kőzetmintában Eloszlásfüggvény: egy adott szemcseméretnél mennyi kisebb szemcse van a kőzetmintában
Freudlund et al., 2000 1. Adatrendszerek, hisztogramok, sűrűségmodellek
ME 2010
2. A legjellemzőbb érték meghatározása
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Indikátor térképek
Isaaks and Srivastava ,1989
2. A legjellemzőbb érték meghatározása
ME 2010
A minta legjellemzőbb értékei
Számtani átlag (mintaátlag): azonos súllyal veszi figyelembe az adatokat 1 n xn xk n k 1 Súlyozott átlag: az adatokat a priori súlyokkal (q) veszi figyelembe n
x n,w
w k 1 n
xk
w k 1
k
k
Medián: ennél nagyobb és kisebb elem ugyanannyi van a mintában n páratlan x ( n 1) / 2 , med n x n / 2 x ( n 2) / 2 , n páros 2
2. A legjellemzőbb érték meghatározása
ME 2010
Példa: Walker Lake, Nevada
Isaaks and Srivastava ,1989
V1 V2 V100 1 100 V V 97.55 ppm k 100 k 1 100 med 2. A legjellemzőbb érték meghatározása
V50 V51 100.50 ppm 2 ME 2010
A dihézió
Képezzük a súlyozott átlagot az alábbi szimmetrikus súlyfüggvénnyel! Adatok zömétől távol eső pontoknak kis súlyt, a legnagyobb adatsűrűségi helyen nagy súlyt adunk (az M helyen max=1) n
M
x i 1 n
i 1
i
i
, i
ε2 i 2 2 ε x i M
Nagy : minden adathoz közel ugyanakkora súlyt rendel (1. és 2. eset), kieső (kiugró) adatok (outlier-ek) elrontják az M jellemző érték becslését
Steiner,1990
Kis : a centrumhoz közeli pontok is figyelmen kívül maradnak (4. eset) Dihézió (): az adatok tömörödési tendenciájával (kohézió) fordítottan arányos skálaparaméter jellegű mennyiség
2. A legjellemzőbb érték meghatározása
ME 2010
A leggyakoribb érték
Leggyakoribb érték (Mn): iterációs eljárással számítható helyparaméter jellegű mennyiség (a minta „legjellemzőbb” értéke) „Ping-pong” iterációs eljárás: általános esetben M-et és -t együttesen határozzuk meg (j: iterációs lépésszám). Első közelítésben M-re a mintaátlagot vagy a mediánt fogadjuk el, valamint az első közelítését a mintaterjedelemből becsüljük (j=1 esetben)
3 max x i min x i 2
ezután j≥2 esetben 2 xi M n, j 3 2 2 2 i 1 j x i M n , j n
2j1
n
i 1
x 2j
1
i
M n, j
2 2
2. A legjellemzőbb érték meghatározása
n
M n, j1
2 i 1
j1
2j1
x i M n, j
2
n
2j1
i 1
j1 x i M n , j
2
xi
2
ME 2010
A legjellemzőbb értékek összehasonlítása
Tekintsük az alábbi hat adatból álló mintát, melyben egy kiugró adat is szerepel! Kiugró adatok forrása lehet a hibás műszer, elrontott mérés, adattovábbítás vagy rögzítés stb. Megállapítható: a mintaátlag igen érzékeny a kiugró adat jelenlétére, a medián és a leggyakoribb érték reálisabb becslést adott a legjellemzőbb értékre
Steiner,1990
Rezisztencia: a becslési eljárás kiugró adatra szinte teljesen érzéketlen Robusztusság: a becslési eljárás tág eloszlástípus-tartományon megbízható eredményt ad
2. A legjellemzőbb érték meghatározása
ME 2010
Valószínűségi változó várható értéke
Relatív gyakoriság: az A esemény (adat) bekövetkezésének száma arányítva az összes kísérlet (mérés) számához (nA/n). Valószínűség: egyre több kísérlet esetén a relatív gyakoriság a P(A) számérték körül ingadozik, mely megadja, hogy az A esemény az összes kísérletnek várhatóan hányad részében következik be. Valószínűségi változó: olyan mennyiség, amelynek számértéke valamilyen véletlen esemény kimenetelétől függ. A pk valószínűség xk (k=1,2,…,n) diszkrét valószínűségi változó esetén (n a lehetséges események száma) p k P( x x k ),
n
p k 1
k
1
Várható érték (En): az a szám, amely körül a valószínűségi változó megfigyelt értékeinek (mérési adatok) átlagértéke ingadozik n
En x k pk k 1
E(cx) cE(x),
c : konstans
E(xy) E(x)E(y),
x és y : független
E(x y) E(x) E(y), x és y : nem független E(ax b) aE(x) b,
2. A legjellemzőbb érték meghatározása
a és b : konstans ME 2010
Várható érték a sűrűségfüggvény ismeretében
Mekkora a valószínűsége, hogy az adat [x0,x0+h] intervallumba esik? P( x 0 x x 0 h )
x 0 h
f(x)dx f(x 0 )h f (x 0 )
x0
P( x 0 x x 0 h ) h
Lukács,1987
Az intervallumba esés valószínűsége közelítőleg egyenlő a relatív gyakorisággal (n0 és n az intervallumba eső és az összes adat száma) n n n0 f (x 0 ) h x k f (x k ) x k p k E n nh k 1 k 1
2. A legjellemzőbb érték meghatározása
ME 2010
A legjellemzőbb érték folytonos esetben
Ha h részintervallum-hosszt minden határon túl csökkentjük, akkor a várható érték
E( x ) xf ( x )dx
A medián esetén med-nél nagyobb és kisebb elem 50%-os relatív gyakorisággal fordul elő, azaz med
f (x)dx 0.5
A leggyakoribb érték és a dihézió folytonos formulája
x 2 x M 2 f (x)dx M , 1 2 x M 2 f (x)dx 2. A legjellemzőbb érték meghatározása
2 x M 3 f ( x )dx 2 2 2 x M 2
1
x M
2
2 2
f ( x )dx
ME 2010
3. Az adatrendszerben rejlő bizonytalanság jellemzése
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
A hiba megjelenése az adatrendszerben
Szisztematikus hiba: Determinisztikus okai vannak, rendszeres hiba. Azonos körülmények között végzett méréseknél nagysága és előjele nem változik. Ilyenek a mérőeszköz tökéletlenségéből származó hibák (a működés ill. hitelesítés pontatlanságai), mérési módszerek specifikus hibái, vagy az elhanyagolt külső hatásokból (nyomás, hőmérséklet, páratartalom) eredő bizonytalanság. Részben korrigálható Véletlen hiba: A mérést befolyásoló külső okok együttes következményeként lép fel és minden egyes mérésnél másképp jelentkezik. Előjele negatív és pozitív egyaránt lehet. Véletlenszerűen fellépő környezeti hatások, mérőműszer működési hibája, beállítási- és leolvasási pontatlanságok. Nem küszöbölhető ki teljes mértékben, csak az átlagos hatásuk becsülhető Statisztikus hiba: Nagyszámú egymástól független esemény megfigyelésekor lép fel. Ilyen például a részecskeszámlálásnál észlelt hiba (statisztikus ingadozás). A mérési adatszám növelésével csökkenthető
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
Az adatrendszer távolság definíciói
Ha ismernénk valamely mennyiség pontos értékét (xpontos), majd egyetlen mérést végeznénk erre a mennyiségre, akkor mérésünk x eredményének a valódi hibája |x-xpontos| lenne. Mivel a mennyiség pontos értéket nem ismerjük, így azt az En, medn vagy Mn-el helyettesítjük. Ezek eltérése miatt a hibajellemzők értéke is különbözik Definiáljuk egyetlen x adat távolságát az x0 legjellemzőbb értéktől!
x x0
(p 0)
Az x=[x1, x2,…, xn] adatrendszer x0-tól való távolsága n
x i 1
p
i
x0
p
p 1:
n
x i 1
i
x 0 vagy p 2 :
n
x i 1
x0
2
i
Látható, hogy ha az xi távol van a leggyakrabban előforduló x-ek tartományától a távolságok nagyok. A nagy eltérések hatását csökkenthetjük alkalmasan választott 2-el és szorzással
x n
i 1
3. Az adatrendszerben rejlő bizonytalanság jellemzése
x0
2
2
i
ME 2010
Az adatrendszer távolság definíciói
Függetlenítsük a jellemző távolságot n-től és a mértékegységét azonosítsuk x mértékegységével! 1 n p Lp x i x 0 n i 1
1/ p
1 n p 1 : L1 x i x 0 n i 1 1 n x i x 0 2 p 2 : L2 n i 1
x x 0 Pk 1 i i 1 k n
2
1 2n
x x i 0 k 1 : P 1 1 i 1 n
2
n x x 0 k 2 : P2 1 i 2 i 1
2
1 2n
1 2n
A fenti vektor-normák x0-szerinti minimumhelyeit az adatrendszer jellemző értékeként fogadjuk el. L1-norma x0-szerinti minimumhelye a medián, L2-norma x0-szerinti minimumhelye a számtani átlag, valamint P1-norma x0-szerinti minimumhelye a leggyakoribb érték
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
Hibaformulák
Ha a minimumhely értékét x0 helyébe írjuk, egyetlen távolságjellegű adatot kapunk, mely az adatoknak a minimumhelytől való távolságát jellemzi. A fenti mennyiség a határozatlansággal áll kapcsolatban (nagy átlagos távolság esetén nagy a határozatlanság) Ha egyetlen adatot fogadunk el jellemző értéknek, akkor a távolság a hiba mértékének tekinthető. Nem a medn, En vagy Mn jellemzőknek, hanem az egyes adatok hibájáról (az adatrendszer bizonytalanságáról) beszélünk 1 n d emp x i med n Hibaformulák: n i 1 - Közepes eltérés (L1-norma) - Empirikus szórás (L2-norma) - Empirikus határozatlanság (P2-norma)
emp
1 n x i E n 2 n i 1
x M n U emp 1 i i 1 2 n
2
1 2n
Folytonos eloszlás (integrál formulák) esetén elméleti szórásról stb. beszélünk
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
Hibaformulák összehasonlítása
Számítsuk ki az xi (i=1,2,…,6) adatsorra az L1-, L2- és P-normák értékváltozásait különböző x0-akra (x0=4-től kezdve)! Az adott norma minimumhelyén az ordinátáról leolvashatjuk az adatrendszerre jellemző hiba mértékét. Megállapítható, hogy a kiugró adat nélkül a hiba értékek közel esnek egymáshoz, míg annak jelenlétében nagy eltérés tapasztalható. A L2-norma igen érzékeny a kiugró adatra, míg a P-norma rezisztens ( értéke szinte változatlan)
Steiner,1990 3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
Korrigált empirikus hibaformulák
Az empirikus szórás (n) torzított becslése az elméleti szórásnak (), mivel E(n): E
2n
A korrigált empirikus szórás definíciója n 1
n 1 2 1 n x i x 2 , n n n i1
1 n x i x 2 , n 1 i 1
2n 1
n 2n n 1
A korrigált empirikus szórás már torzítatlan becslése az elméleti szórásnak, mivel E(n-1)=. Bizonyítás
n n n 1 2 n 2 E 2n 1 E n E 2n 2 n 1 n n 1 n 1
Megjegyzés: a korrigált empirikus szórás nevezőjében (n-1) szerepel, mivel meghatározása (n-1) független adatból történik (a számtani közép függ a mintaelemektől és egy adatot kiszámíthatóvá tesz)
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
Valószínűségi változó varianciája
A szórásnégyzet (variancia) a valószínűségi változó várható értékétől való eltérését jellemzi (a várható értéktől való átlagos négyzetes eltérés mértéke). Diszkrét és folytonos valószínűségi változó esetén n
x k E n p k , 2 n
(x)
2
2
k 1
2 x E ( x ) f ( x )dx
A szórásnégyzetre vonatkozó tételek
2 ( x ) E x E( x ) E( x 2 ) E 2 ( x ),
2
2 (ax b) a 2 2 ( x ),
a és b : állandó
2 ( x y) 2 ( x ) 2 ( y),
x és y : független
Csebisev-egyenlőtlenség: a valószínűségi változó várható érték körüli szóródására ad felvilágosítást 2 (x) P x E ( x ) 2
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
A mérési hiba terjedése
Ha a q mennyiség függ más mennyiségektől azaz q=q(x,y,…), akkor x,y,… mérésével és Δx, Δy,… mérési (véletlen) hibák ismeretében q átlagértéke és annak Δq maximális abszolút hibája (q lineáris közelítéséből) meghatározható
q q q q q, ahol q q( x, y,) és q x y x y
Független valószínűségi változók esetén érvényes 2 c11 c 2 2 ci2 2 i i
A Gauss-féle hibaterjedési törvény kvadratikus abszolút hibája q2
2
2
q q q q 2x 2y q x 2 y 2 x y x x , y, y x , y, 2
3. Az adatrendszerben rejlő bizonytalanság jellemzése
2
ME 2010
Példa: Walker Lake, Nevada 1 100 V Vk 97.55 ppm 100 k 1 1 100 Vk V 2 688 ppm2 100 k 1 2 n
1 100 2 n V V 688 ppm2 26.23 ppm k 100 k 1 f G (V)
Isaaks and Srivastava ,1989 3. Az adatrendszerben rejlő bizonytalanság jellemzése
1 e ( V ) 2
( V E ( V )) 2 2( V )
2
1 e 26.23 2
( V 97.55) 2 226.232
Szabó, 2010 ME 2010
Konfidencia-intervallumok
A dihézió nagysága a leggyakoribb előfordulás intervallumát is jellemzi. Arról informál, hogy az adatok hány százaléka várható a dihézió valamilyen többszörösét kitevő hosszúságú intervallumon Konfidenciaszint: százalékos előfordulási gyakoriság. Konfidenciaintervallum: a konfidenciaszinthez tartozó intervallum
Steiner,1990 3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
Konfidencia-intervallumok
Az interszeksztilis intervallumban [-Q,Q] az adatok 2/3-ada (66% konfidenciaszint), az interkvartilis intervallumban [-q,q] azok fele (50% konfidenciaszint) várható. Hibajellemző mennyiségek az interkvartilis félterjedelem (q) és az interszextilis félterjedelem (Q) A –q az alsó kvartlis (adatok ¼-e ennél kisebb), q a felső kvartilis (adatok ¼-e ennél nagyobb). A –Q az alsó szextilis (adatok 1/6-a ennél kisebb), Q a felső szextilis (adatok 1/6-a ennél nagyobb)
Steiner,1990 3. Az adatrendszerben rejlő bizonytalanság jellemzése
Isaaks and Srivastava ,1989 ME 2010
Példa: fG(x) konfidencia-intervallumai Standard Gauss-eloszlás sűrűségfüggvénye
http://www.mfk.unideb.hu 3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
A ferdeség
A k-adik centrális momentum: E((x – E(x))k), ahol k pozitív egész. A szórásnégyzet azonos a második centrális momentummal (k=2) Ferdeség (skewness): a szimmetriától való eltérés mérőszáma (3-adik centrális momentum és a szórás köbének hányadosa)
1 n x i x 3 n i 1 3 2
1 n x i x 2 n i 1
Martin H. Trauth, 2006
A =0 esetén a sűrűségfüggvény szimmetrikus, >0 esetén annak alakja a szimmetrikushoz képest jobbra, <0 esetén balra „nyúlik” el
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
A lapultság
Lapultság (kurtosis): a vizsgált sűrűségfüggvény „csúcsossága” hogyan viszonyul a Gauss sűrűségfüggvényéhez képest (4-edik centrális momentum és a szórásnégyzet négyzetének hányadosa)
1 n 4 x x i n i 1 1 x i x 2 n i 1 n
2
3
Martin H. Trauth, 2006
A =0 esetén a sűrűségfüggvény Gauss-eloszlású, >0 esetén a normál eloszlástól csúcsosabb, <0 esetén a normál eloszlástól lapultabb
3. Az adatrendszerben rejlő bizonytalanság jellemzése
ME 2010
4. Maximum likelihood becslés, becslések határeloszlása
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Sűrűségeloszlás paramétereinek becslése
Tegyük fel: ismerjük az f(x) sűrűségfüggvény típusát és skálaparaméterét (S). Határozzuk f(x) helyparaméterét (T)! Keressük meg az a T-t, melynél az n db adat bekövetkezése a legnagyobb valószínűséggel megy végbe. A paraméterbecslési eljárást maximum likelihood módszernek nevezzük Tekintsünk egy S=1 skálaparaméterű Cauchy-eloszlásból származó 10 elemű adatsort! Válasszunk kis x-et és képezzük az adathelyeken az f(xi)∙x valószínűségeket! A teljes adatsorra képzett valószínűségek szorzatának maximumánál adódik a keresett (optimális) T érték
4. Maximum likelihood becslés, becslések határeloszlása
Steiner,1990 ME 2010
A likelihood és log-likelihood függvény
A maximum likelihood elv szerinti optimum feltétele (ahol az f(xi)∙x valószínűségek n-szeres szorzatában megjelenő xn szorzótényezőt elhagyhatjuk, mivel az T-től független konstans) n
L f x i , T max i 1
Vegyük az L célfüggvény logaritmusát! n
L lnf x i , T max *
i 1
Az L* célfüggvény maximális, ahol az ismeretlen paraméterek szerinti parciális deriváltak zérus értékűek A fenti feltételből származó egyenletek megoldásával kapjuk a keresett paramétereket
4. Maximum likelihood becslés, becslések határeloszlása
Szabó, 2009 ME 2010
Példa: fG(x) paramétereinek becslése
A maximum likelihood függvény (alkalmazzuk a hatványozás azonosságait!) n
n
L f G x i , S, T i 1
i 1
1 e S 2
1 2S
x i T 2 2
S
1 2
n
e
1 2 S2
n
xi T 2 i 1
Vegyük az L célfüggvény logaritmusát! n 1 L ln L n ln S ln 2 2 2 2S *
2 x T max i n
i 1
Képezzük a parciális deriváltakat és fejezzük ki T-t és S-et! L* 1 n x i T 0 T S2 i 1 x1 T x 2 T x n T 0 1 n T xi x En n i 1
4. Maximum likelihood becslés, becslések határeloszlása
L* n 1 n 2 3 x i T 0 S S S i 1 1 n x i T 2 n S n i 1
ME 2010
Becslések határeloszlása
Becslések eloszlása növekvő minta elemszám (n→) esetén az ún. határeloszláshoz tart. Tetszőleges eloszlásból származó mintából meghatározott számtani átlagok (mintaátlagok) határeloszlásának hely- és skálaparamétere (T=E és S=σ)
1 x ... x n 1 E x E 1 Ex1 ... Ex n n Ex Ex E x Ex n n n 1 2 1 2 x σx 2 2 x1 ... x n 2 2 σ x σx 2 x1 ... x n 2 n x n n n n n
A centrális határeloszlástétel alapján kimondható, hogy az átlagok (mint becslések) eloszlása határesetben, véges szórás esetén a fenti paraméterekkel jellemzett Gauss-eloszlást közelíti. Ha egy becslés eloszlása A/n szórású Gauss-eloszlás, akkor A-t aszimptotikus szórásnak nevezzük Nagy számok törvénye alapján szintén kimondható, hogy az átlagképzés nagy n-ek és véges szórás esetén n-el arányos pontosságnövekedést mutat
4. Maximum likelihood becslés, becslések határeloszlása
ME 2010
Példa: minta és mintaátlagok eloszlása
Szabó, 2009 4. Maximum likelihood becslés, becslések határeloszlása
ME 2010
5. Statisztikai próbák és illeszkedés-vizsgálatok
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Statisztikai próbák
Statisztikai próba: olyan teszt eljárás, amely valamilyen statisztikai feltevésnek az ellenőrzését teszi lehetővé a minta alapján Paraméteres próbák: ismert eloszlástípus esetén a mintából származó információk alapján döntünk az eloszlás ismeretlen paramétereire tett feltevés elfogadásáról. Fajtái: egymintás (egy adatsor), kétmintás próbák (két adatsor) és többmintás próbák (varianciaanalízis) Nemparaméteres próbák: ismeretlen eloszlástípus esetén alkalmazzuk. Vizsgálhatjuk, hogy a mérési adatokból előállított empirikus sűrűségfüggvény egy adott elméleti sűrűségfüggvénnyel leírható-e vagy sem (illeszkedésvizsgálat). Vizsgálhatjuk, hogy két külön mérési eljárásból származó adatsor függetlennek tekinthető-e vagy sem (függetlenség vizsgálat). Vizsgálhatjuk, hogy két külön mérési eljárásból származó adatsor azonos eloszlású-e vagy sem (homogenitás vizsgálat)
5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Hipotézis vizsgálat
Statisztikai hipotézis: a megfigyelt mennyiség eloszlásának a típusára vagy az eloszlás paramétereire tett feltevés (mivel statisztikában az igazságot abszolút bizonyossággal nem tudjuk megállapítani, az állításokat hipotéziseknek nevezzük). Nullhipotézis (H0): az előzetes feltevést igaznak tételezzük fel (azaz a vizsgált eltérés 0). Ellenhipotézis (H1): a nullhipotézissel szembenálló más feltételezés Példa: legyen ismert az x mennyiség eloszlása (pl. normális) és szórása. A változóra vett mintában az átlag x . Igaz, hogy az egész sokaság várható értéke T0? Vizsgáljuk meg: a mintabeli tapasztalat alátámasztja a következő nullhipotézist? H 0 : E( x ) T0 H1 : E( x ) T0
Mivel nincs a teljes sokaság a birtokunkban, ezért kevés mérésre tudjuk csak a nullhipotézis fennállását vizsgálni
5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Egymintás u-próba
Statisztikai függvény (statisztika): számítási utasítás, mely egyetlen adatot számít n db adat alapján. A statisztikai próba feladata megtalálni a statisztikai függvényt, amelynek eloszlását H0 fennállása esetén ismerjük Válasszuk statisztikai függvénynek a következőt, mely előállítja az u véletlen változót! Az u is Gauss-eloszlást követ ( x standardizáltja)
u
1 n x i T0 n i 1 / n
Megbízhatósági intervallum: [-u, u], ahol u nagy valószínűséggel esik x T0 x T0 P u u P u 1 / n / n
ahol a kritikus tartományra esés valószínűsége és (1-) a szignifikancia-szint 5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Egymintás u-próba
Ha H0 nullhipotézis igaz, akkor u nagy (1-) valószínűséggel esik a megbízhatósági tartományba, azaz kis () valószínűséggel a kritikus tartományba Ha u a kritikus tartományban van, akkor H0 nullhipotézist elvetjük, ha azonban u a megbízhatósági tartományon belül van, akkor elfogadjuk
Steiner,1990 5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Statisztikai próba hibafogalmai
Elsőfajú hiba: ha u a kritikus tartományba esik és H0–t elvetjük akkor valószínűséggel követünk el hibát, ha H0 mégis igaz. Másodfajú hiba (): ha elfogadjuk H0-t valószínűség mellett, azonban H0 nem igaz
Steiner,1990
Vigyázat: H0 elfogadása annál nagyobb kockázattal jár, minél nagyobb az (1-), ezért nem célszerű a biztonsági szintet túl magasra állítani!
5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Grafikus illeszkedés-vizsgálat
Grafikus normalitásvizsgálat: a minta Gauss-eloszlásból származik? Gauss-papír: abszcisszán a valószínűségi változó értékei, ordinátán a (x) standard Gauss eloszlásfüggvény átskálázott értékei szerepelnek. Ábrázoljuk úgy a pontokat, hogy (1) 0.5-től egy távolságegységgel feljebb, (-1) egy távolságegységgel lejjebb, (2) kettővel feljebb, (-2) kettővel lejjebb stb. legyen!
xm Fx Fm 0, Fm 1
Képezzük (x)-ből F(x)-et az xtengely menti egységek -ra változtatásával és az ordinátatengely -m eltolásával! A Gauss-papíron az m várható Lukács,1987 értékű, szórású F(x) normális eloszlású adatsor képe egyenes
5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
Példa: ɣ-intenzitás és telepvastagság adatok Fa(x), a=5
Steiner,1990 5. Statisztikai próbák és illeszkedés-vizsgálatok
ME 2010
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Korrelálatlan adatok eloszlása
Legyen x(x1,x2,…,xn) n-dimenziós valószínűségi vektorváltozó! Az f(x1,x2,….,xn) együttes valószínűség-sűrűség függvény megadja, hogy az első mérés milyen valószínűséggel esik x1, a második x2, …. stb. környezetébe Az együttes sűrűségfüggvény korrelálatlan adatok esetén n
f ( x1 , x 2 , , x n ) f ( x i ) i 1
Nézzük az ábrát! Látható, hogy pl. nagy x2 értékek esetén ugyanaz a valószínűsége, hogy x1 értéke kicsi vagy nagy. Nincs együttváltozás, ekkor azt mondjuk, hogy az adatok korrelálatlanok
Menke,1984
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
Korrelált adatok eloszlása
Korrelált adatok együttes eloszlása esetén bizonyos nagyságú x1 értékek környezetében csak bizonyos x2 értékek szerepelnek azonos valószínűséggel. Ekkor az adatok együttváltozása figyelhető meg Nézzük az ábrát! Látható, hogy pl. nagy x2 értékekhez csak nagy x1 értékek tartoznak (ahol a korreláció mértékével arányos szög)
Menke,1984 6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
Az együttváltozás mérőszáma
Osszuk fel az x1 x2 síkot négy síknegyedre! Ezután képezzük az adatokból az 𝐱𝟏 − 𝐱𝟏 𝐱𝟐 − 𝐱𝟐 egyszerű függvényt! Szorozzuk össze ezt a függvényt a sűrűségfüggvény értékekkel, majd adjuk össze előjelesen a területeket. Az így kapott kovariancia a két valószínűségi változó együttváltozásának a mérőszáma
Menke,1984
Korrelálatlan változóknál cov=0, mivel a négy síknegyedre azonos nagyságú értékek esnek. Korrelált változók esetén cov≠0 és pozitív (azonos irányú) vagy negatív (ellentétes irányú) előjelű a változás
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
A kovariancia tulajdonságai
A kovariancia valószínűség-elméleti formulája és tulajdonságai cov( x, y) Ex E( x ) Ey E( y) cov( x, y) E( xy ) E( x )E( y) 2 x y 2 x 2 y 2 cov x, y cov x, y x y
cov( x, x ) 2 x
A kovariancia empirikus formulája 1 n cov xy x i x yi y n k 1
Látható, hogy x=y esetén a kovariancia megegyezik az empirikus szórásnégyzettel cov xx 2 n
1 n 2 x i x n k 1
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
A lineáris függés mérőszáma
Korrelációs együttható: két változó közötti (lineáris) kapcsolat szorosságát mérő szám (normált kovariancia) n
r ( x , y)
cov( x, y) 2 ( x ) 2 ( y )
, rxy
x k 1
n
x k 1
k
x y k y
x
2
k
n
y k 1
y
2
k
Az rxy egy -1 és 1 közötti szám. Ha rxy =1 teljes korrelációról, rxy=0 esetén lineáris függetlenségről beszélünk. A korreláció erőssége 0 < r 0.35: gyenge korreláció 0.35 < r 0.65: közepes korreláció 0.65 < r 1: erős korreláció
A korrelációs együttható előjele a két változó együttváltozásának az irányáról tájékoztat
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
Többváltozós lineáris kapcsolatok
Tekintsük az x(x1,x2,…,xn) n-dimenziós valószínűségi vektorváltozót, ahol tételezzük fel hogy ismerjük a peremeloszlások várható értékeit és szórásait! A kovariancia mátrix a változók páronkénti együttváltozását adja meg. A kovariancia mátrix szimmetrikus, mivel COV(xi,xj)=COV(xj,xi) σ 2 x1 cov( x1 , x 2 ) cov( x 2 , x1 ) σ 2 x 2 COV cov( x n , x1 )
cov( x1 , x n ) σ 2 x n
A korrelációs mátrix a változók páronkénti (lineáris) kapcsolatának az erősségét adja meg. Szimmetrikus mátrix, mivel R(xi,xj)=R(xj,xi) r ( x1 , x 2 ) 1 r(x , x ) 1 R 2 1 r ( x n , x1 )
r ( x1 , x n ) 1
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
Néhány általános eset
A korrelációs együttható megadja a lineáris kapcsolat irányát, arányos a zaj mértékével, de nem adja meg önmagában a regressziós egyenes meredekségét Négy különböző függvénykapcsolat esetén az R(x,y) korrelációs együttható azonos nagyságú. Az xi és yi változók átlagértéke 9.0 és 7.5, szórása 11.0 és 4.12, korrelációs együtthatója 0.816. A regressziós egyenes: y=3+0.5x
http://en.wikipedia.org
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
A nemlineáris kapcsolat mérőszáma
Rendezzük az xi (i=1,2,…,n) adatokat növekvő sorrendbe! A legkisebb érték kapjon 1-es rangot a legnagyobb pedig n-et. Végezzük el ugyanezt yi (i=1,2,…,n) adatsoron is. Számítsuk ki a rang értékek átlagértékét és szórását! Rang korrelációs együttható: két változó közötti nemlineáris kapcsolatot jellemző mérőszám
rank x rank x rank y rank y n
ρ xy
k 1
k
k
σ rank x σ rank y
A rang korrelációs együtthatót kevésbé befolyásolják a kiugró értékű adatpárok, mint a hagyományos korrelációs együtthatót Példa: y=x2 nemlineáris kapcsolat esetén rxy~0, míg ρxy=1 Minél nagyobb az |ρxy| értéke, y változó annál pontosabban becsülhető x változó segítségével
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
Példa: Walker Lake, Nevada U 100
rUV
k 1
U 100 k 1
k
U Vk V
U
2
k
V 100 k 1
k
V
0.84
2
Isaaks and Srivastava ,1989
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
Példa: egy finnországi fúrás
Szabó, 2009
6. A kovariancia és a korreláció fogalma. A lineáris függés mérőszámának meghatározása
ME 2010
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Problémafelvetés
Feladat: legyen Z vizsgált mennyiség ismert a Zi (i=1,2,…,7) mérési pontokban. Határozzuk meg ugyanezen mennyiség értékét a Z0 pontban! Hagyományos interpolációs eljárással meghatározható Z0 értéke, ahol a Z0-tól való távolság szerint súlyozzuk a környező Zi értékeket n
Z0 w i Zi , ahol w i i 1
1 di n
1 i 1 d i
Zhang, 2009
A Z4 és Z6 pontoknak nagyobb súlyt kellene adni, mint Z1 és Z2-nek, mivel Z0-al azonos földtani egységbe (homok) tartoznak. Hogyan érvényesíthetnénk ezt a geológiai információt az interpoláció során?
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
A térbeli korreláció
Bohling, 2005
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
A variogram
Tételezzük fel, hogy az adatok Gauss-eloszlást követnek és ingadozásuk a szórással jellemezhető! Feladat: A kérdéses mennyiség pontbeli értékét a környező (ismert) adatok súlyozott átlagaként számítjuk. Válasszunk olyan súlyokat, mellyel az eredmény szórása minimális lesz (ez lesz a krigelés alapja)! Félvariogram: (h) görbe, mely a h távolság függvényében megadja a vizsgált Z mennyiség értékkülönbség négyzetösszegének a felét
1 n h Zri Zri h 2 h 2n h i1 ahol h: két vizsgált pont távolsága (térben h vektor abszolút értéke) n(h): egymástól h távolságban lévő összes pontpár száma Z(ri): a vizsgált mennyiség értéke az ri helyzetű pontban Z(ri+h): a vizsgált mennyiség értéke az ri ponttól h távolságra ri: i-edik pont helyzete (térben a helyvektora) 7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
A variogram tulajdonságai
Megfigyelhető: [Z(ri)-Z(ri+h)] (-1)-szeres értékre vált, amikor a két pont helyet cserél a térben. A különbségek átlagértéke ezért zérus. Az egyes különbségek így az átlagértéktől való eltérésként foghatók fel, azaz a variogram megegyezik az empirikus szórásnégyzet értékének a felével h
1 VAR Zr Zr h 2
Minél közelebb vannak a pontok egymáshoz a Z értékek annál jobban korrelálnak. 0 távolságnál a variancia VARZr COVZr , Zr H
ahol H a hatástávolság. A korreláció két pont között csak ezen távolságon belül áll fenn (ezen belül lehet pontot választani az interpolációhoz) COVZr , Zr h H h
Bohling 2005
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
Variogram modellek
A mérési eredményekből számított tapasztalati variogram pontjaira elméleti függvények ún. variogram modellek illeszthetők Az exponenciális, szférikus és Gauss modelleket alkalmazzák leggyakrabban 3 h h C 1.5 0.5 , SZ h H H C, h A E h C 1 e ,
hH 0hH
h G h C 1 e A
2
A ɣ(h) elméleti görbék C-hez tartanak, ahol H-t kiegyenlítéssel számítjuk ki C H VARZr
Bohling, 2005
A kriegeléshez szükséges kovarianciát a variogramból számíthatjuk ki COVZr , Zr h C h
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
A variogram irányfüggése
izotrop Isaaks and Srivastava ,1989
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
anizotrop ME 2010
A krigelés
Krigelés: robusztus súlyozott becslési eljárás be nem mért pontok jellemzőinek a meghatározására (nem érzékeny a variogram modellre, valamint tekintetbe veszi annak irányfüggését is) Közelítsük P0 pontban az ismeretlen Z(P0) értéket n db közeli Pi pont Z(Pi) értékének súlyozott átlagával! n
ZP0 w i ZPi i 1
A wi súlyok összege 1, így a becslés torzítatlan (ha pl. minden környező érték egyforma lenne, csak ebben az esetben kapnánk a kérdéses pontban is ugyanazt az értéket) Kössük a wi súlyok meghatározását a becslés szórásnégyzetének (valódi és becsült érték eltérésének a varianciája) minimumához! n VAR ZP0 w i ZPi min i 1
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
A krigelés
A Lagrange multiplikátorok (µ) módszerével végzett minimalizálás a KW=D lineáris egyenletrendszerre vezet (K az ún. Krige-mátrix) c11 c12 c 21 c 22 c31 c32 c n1 c n 2 1 1
c13 c1n c 23 c 2 n c33 c3n
c n 3 c nn 1
1
1 w1 c 01 1 w 2 c 02 1 w 3 c 03 1 w n c 0 n 0 1
A K mátrixban található kovarianciákat a variogramból számítjuk ki
cij COV ZPi , Z Pj C h P P , cii VAR ZPi C,
i j
c0i COVZP0 , ZPi C h P P . 0 i
A súlyokat a W=K-1D egyenletrendszerből határozzuk meg, ezzel előállíthatjuk a megoldást, azaz Z(P0) értékét. A becslési hibát (becslés szórásnégyzetét) a =WTD segítségével kapjuk
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
Példa: Walker Lake, Nevada
Isaaks and Srivastava ,1989 exponenciális
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
Példa: Walker Lake, Nevada
Isaaks and Srivastava ,1989
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
Példa: a mágneses mérés elve
http://www.scifun.ed.ac.uk
7. Következtetés be nem mért térrészek jellemzőire krigeléssel
http://www.earthsci.unimelb.edu.au/ES304
ME 2010
Példa: mágneses mérés, Nyékládháza
__ m
__ m
Szabó 2004 7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
Példa: mágneses adatok interpolációja
Szabó, 2004 7. Következtetés be nem mért térrészek jellemzőire krigeléssel
ME 2010
8. Kiegyenlítések, lineáris és nemlineáris regresszió
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
A lineáris regresszió
Regresszió számítással függvénykapcsolatot keresünk tapasztalati úton megfigyelt mennyiségek között. Egyváltozós esetben keressük az y=f(x) regressziós függvényt A legegyszerűbb egyváltozós feladat a lineáris regresszió. Keressük meg az (xi(m),yi(m)) (i=1,2,…,n) mérési pontpárokra legjobban illeszkedő egyenest és határozzuk meg az egyenletét!
y m x a
A képletben m a regressziós egyenes meredeksége (x változó értékének egységnyi megváltozása mekkora változást idéz elő y változóban) és a az egyenes ordináta-metszete A fenti egyenlet (regressziós modell) segítségével (xi(sz),yi(sz)) (i=1,2,…,n) számított adatsort állíthatunk elő, melynek a mért adatoktól való eltérése az m ill. a paraméterek megválasztásától függ A mérési és a számított adatok eltérésének minimumánál kapjuk a mérési adatokra legjobban illeszkedő egyenest
8. Kiegyenlítések, lineáris és nemlineáris regresszió
ME 2010
A lineáris regresszió
Szabó, 2010 8. Kiegyenlítések, lineáris és nemlineáris regresszió
ME 2010
A lineáris regresszió
Számítsuk ki az yi(sz) adatokat az xi(m) (i=1,2,…,n) abszcissza értékeknél a regressziós modell segítségével!
yi(sz) m x i( m) a
Határozzuk meg az m és a paraméterek optimális értékét a legkisebb négyzetek módszerével! Az illeszkedés a mért és számított adatok között ott a legjobb, ahol az E(m,a) célfüggvény értéke minimális n
E y i 1
(m) i
y
y mx
( sz) 2 i
n
i 1
i
a min 2
i
A minimalizálást végrehajtva kapjuk az m és a regressziós koefficiensek optimális értékét, mely kifejezhető az x és y változó korrelációs együtthatója (rxy) és szórásai (x és y) segítségével m rxy
y x
8. Kiegyenlítések, lineáris és nemlineáris regresszió
, a y mx ME 2010
Rezisztens kiegyenlítő eljárások
A legkisebb négyzetes (L2-normán alapuló) kiegyenlítésnek jelentős hátránya az, hogy igen érzékenyen reagál a kiugró adatokra és az adatok eloszlás típusának változására is p 1 n (m) L p y i f x i n i 1
1/ p
1 n (m) p 1 : L1 y i f x i n i 1
2 1 n (m) p 2 : L2 y i f x i n i 1
p : L max y i( m ) f x i n
i 1
Szabó, 2005
Az L1-normán vagy P-normán alapuló kiegyenlítési eljárások kevésbé érzékenyek a kiugró adatokra. Pl. L1-norma célfüggvénye R számú A(p)=0 mellékfeltétel előírása mellett (ahol p ismeretlenek vektora, Lagrange multiplikátorok) n R E yi( m ) f x i , p r Ap min i 1
8. Kiegyenlítések, lineáris és nemlineáris regresszió
r 1
ME 2010
Nemlineáris regresszió
Nemlineáris regressziószámítást akkor alkalmazunk, ha az adatokra legjobban illeszkedő függvény nem lineáris. Gyakran alkalmazzuk a polinomok (pl. hatványfüggvények) szerinti kiegyenlítést
y N
i 1
(m) i
2 f ( x i , p) min
J f ( x, p) f ( x, p1 , p 2 ,..., p J ) p j x j j 0
Linearizálni is lehet az y=f(x) függvénykapcsolatot. Az eredeti változók helyett, velük összefüggő, de egymással lineáris kapcsolatban lévő változókat vezetünk be y ae bx ln y ln a bx Y ln y, X x Y A BX a eA , b B
(Többváltozós adat-modell összefüggésekkel az MSc tananyagban foglalkozunk) 8. Kiegyenlítések, lineáris és nemlineáris regresszió
ME 2010
Példa: kőzetfizikai alkalmazás
Dobróka és Szabó, 2007 ln( K ) 3.2088 4.3756 POR - 0.0776 SWIRR 16.8436 POR 2 6.7329 POR SWIRR - 2.5573 SWIRR 2 44.0552 POR 3 5.0006 POR 2 SWIRR - 12.6079 POR SWIRR 2 5.8270 SWIRR 3 12.9346 POR 4 129.8712 POR 3 SWIRR 110.1269 POR 2 SWIRR 2 7.4378 POR SWIRR 3 9.6925 SWIRR 4
8. Kiegyenlítések, lineáris és nemlineáris regresszió
ME 2010
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010
Bevezetés a MATLAB programnyelvbe
GEOINFORMATIKAI SZOFTVERFEJLESZTÉS I-II.
OKTATÁSI SEGÉDLET
Írta:
DR. SZABÓ NORBERT PÉTER Egyetemi tanársegéd
Miskolci Egyetem Geofizikai Tanszék Miskolc 2006.
www.uni-miskolc.hu/~geofiz/segedlet.html 9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: adateloszlások jellemzői
Generáljunk 200-200 elemű mintát [-1,1] intervallumból egyenletes és E=0 várható értékű, =1/3 szórású normális eloszlásból! Ábrázoljuk a két sűrűségfüggvényt, végezzünk grafikus normalitás vizsgálatot és hasonlítsuk össze az empirikus jellemzőket! 200 elemű minta generálása egyenletes és normál eloszlásból x unifrnd (1,1,200,1); y normrnd(0,1 / sqrt(3),200,1);
A normál eloszlás sűrűségfüggvénye és ábrázolása t normpdf ([1 : 0.1 : 1],0,1 / sqrt(3)); plot([1 : 0.1 : 1], t );
Az egyenletes eloszlás sűrűségfüggvénye és ábrázolása k unifpdf ([1 : 0.1 : 1],1,1); plot([1 : 0.1 : 1], k );
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: adateloszlások jellemzői
Ábrázoljuk az empirikus eloszlásfüggvényt Gauss-papíron! Ha az adatok jól illeszkednek a szaggatott vonallal jelölt egyenesre, akkor Gauss-eloszlásról van szó normplot( x ); normplot( y);
Rendezzük az adatokat a Z200×2 mátrixba! A számtani közepet, mediánt, empirikus szórásnégyzetet és a szórást számító beépített függvények Z [ x , y]; szkozep mean ( Z); med median ( Z); empva var( Z); szor std( Z);
A terjedelem, lapultság, kovariancia és korrelációs mátrix számítása terj range ( Z); lap kurtosis( Z) 3; kov cov( Z); korr corrcoef ( Z);
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: adateloszlások jellemzői szkozep = -0.0268
0.0008
med = 0.0353
0.0371
empvar = 0.3650
0.2941
szor = 0.6042
0.5423
terj = 1.9979
3.1038
lap =
-1.3064
0.0721
kov = 0.3650 -0.0083 -0.0083 0.2941 korr = 1.0000 -0.0254 -0.0254 1.0000
Szabó, 2009
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: ɣ-intenzitás mérés, Mályi 2965 2906 3092 2983 2985 2939 3046 3029 2986 3081 3069 3062 2971 beutes 2959 3041 2890 3007 2968 2951 3035 2777 2843 27491281
Pethő és Szabó, 2002
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: ɣ-intenzitás mérés, Mályi clc; figure(1); stem([1:length(beutes)]',beutes(:,1)); xlabel('Mérés sorszáma'); ylabel('Gamma beütés/perc'); figure(2); normplot(beutes); figure(3); subplot(2,1,1); [n,a]=hist(beutes,(2600:30:3200)); bar(a,n/128); xlabel('\gamma'); ylabel('f(\gamma)'); grid on; hold on; [m,szigma,konf_m,konf_szigma]=normfit(beutes); lapultsag=kurtosis(beutes)-3, ferdeseg=skewness(beutes), m, szigma, konf_m, konf_szigma, prob=normpdf((2600:30:3200),m,szigma); plot((2600:30:3200),30*prob,'r'); subplot(2,1,2); s=cumsum(n); bar(a,s/128); xlabel('\gamma'); ylabel('F(\gamma)'); grid on; hold on; eloszfgv=normcdf((2600:30:3200),m,szigma); plot((2600:30:3200),eloszfgv,'r');
Szabó, 2009
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: ɣ-intenzitás mérés, Mályi lapultsag = -0.1694
ferdeseg =
f ()
1 84 2
e
( 2944 ) 2 14112
-0.3262 m= 2944.1 szigma = 84.0745 konf_m (95%) =
2.929.4 2.958.8 konf_szigma (95%) = 74.8841 95.8567
Szabó, 2009 9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: korreláció számítás clc; clear all; x=[1 2 3 4 5], y=[-1 3 5 6 9.4], N=length(x); xatls=0; for i=1:N xatls=xatls+x(i); end xatl=xatls/N; yatls=0; for i=1:N yatls=yatls+y(i); end yatl=yatls/N; s1=0; for k=1:N s1=s1+((x(k)-xatl)^2); end kov11=s1/(N-1); szorx=sqrt(kov11); s2=0; for k=1:N s2=s2+((x(k)-xatl)*(y(k)-yatl)); end kov12=s2/(N-1); kov21=s2/(N-1); s3=0; for k=1:N s3=s3+((y(k)-yatl)^2); end kov22=s3/(N-1); szory=sqrt(kov22); kovariancia=[kov11 kov12;kov21 kov22], korr11=kov11/(szorx*szorx); korr12=kov12/(szorx*szory); korr21=korr12; korr22=kov22/(szory*szory); korrelacio=[korr11 korr12;korr21 korr22],
x= 1
2
3
4
5
y= -1.0000
3.0000
kovariancia =
2.5000 5.9500 5.9500 14.7520
korrelacio = 1.0000 0.9798
5.0000
6.0000
9.4000
szoras_x=
1.5811
szoras_y= 0.9798 1.0000
3.8408
Szabó, 2009
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: mágneses adatok korrelációja
__ m
Szabó, 2004
kovariancia = 23099 12635
12635 13041
korrelacio = 1.0000 0.7280
szoras_x= 151.98
szoras_y= 0.7280 1.0000
114.19
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Példa: lineáris regresszió clc; clear all; x=[0:10]; y_mert=[-1 0.56 1.3 3.4 4 5.6 … 7.8 7.9 8.3 9 9.8]; eh=polyfit(x,y_mert,1); y_szam=polyval(eh,x); plot(x,y_mert,'*'); hold on; plot(x,y_szam); xlabel('x'); ylabel('y'); title('Lineáris regresszió'); m=eh(1), a=eh(2), R=corrcoef(x,y_mert), Szigmax=std(x), Szigmay=std(y_mert), m_R=R(2,1)*std(y_mert)/std(x), a_atl=mean(y_mert)-m*mean(x),
Szabó, 2009 R= 1.0000 0.9822 m = 1.1051
Szigmax =
Szigmay =
3.3166
3.7317
m_R =
a_atl =
0.9822 1.0000 a= -0.3745
9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
1.1051
-0.3745
ME 2010
Példa: mágneses bázismérés, Nyékládháza
Szabó, 2006 9. Bevezetés a MATLAB programnyelvbe. A Statistics Toolbox néhány eleme
ME 2010
Köszönöm a figyelmet! Jó szerencsét!
Geostatisztika c. tárgy a BSc geográfus alapszak hallgatóinak
ME 2010