METEOROLÓGIAI INTERPOLÁCIÓS RENDSZER (MISH) ÉGHAJLATI INFORMÁCIÓK FELHASZNÁLÁSÁVAL Szentimrey Tamás és Bihari Zita Országos Meteorológiai Szolgálat (OMSZ)
Összefoglalás – Bemutatjuk az OMSZ-nál kifejlesztett MISH interpolációs rendszer elvét, matematikai alapjait és főbb jellemzőit. Hangsúlyozzuk, hogy a GIS térinformatikai rendszerekbe beépített geostatisztikai interpolációs módszerek nem képesek a hosszú meteorológiai adatsorokban meglévő értékes éghajlati információ felhasználására, mivel ezeket az eljárásokat nem ilyen célra fejlesztették.
1. BEVEZETÉS Manapság a meteorológia területén általában a GIS (Geographical Information Sytems) térinformatikai rendszerekbe beépített interpolációs módszereket alkalmazzák, pl. ordinary kriging, universal kriging stb.. A probléma az, hogy ezek a matematikai szempontból korrekt, geostatisztikai (Cressie, 1991) interpolációs módszerek nem képesek a hosszú adatsorokban meglévő éghajlati információ felhasználására, következésképpen meteorológiai szempontból nem tekinthetők optimálisnak. Ezért történt az OMSZ-nál a MISH rendszer (Meteorological Interpolation based on Surface Homogenized Data Basis) kifejlesztése, meteorológiai elemek földfelszíni értékeinek interpolációjára (Szentimrey és Bihari, 2004, 2005, 2006). Rendszerünkben törekszünk a meteorológiai információk együttes felhasználására. Ez a meteorológiának egy olyan lehetősége, amivel más tudományok általában nem rendelkeznek, azonban a hatékony felhasználáshoz természetesen megfelelő matematika is szükséges. 2. FÖLDFELSZÍNI METEOROLÓGIAI ADATOK A földfelszíni értékekre vonatkozó információk két alapvető típusa egyrészt a pontszerű mérési értékek, másrészt az ezeknél sűrűbben, általában rácshálózatokra adott háttérinformációk. Ennek illusztrálására szolgál az 1. ábra. : Megszűnt régi állomás, hosszú adatsorral (Térbeli és időbeli minta!) : Új automata állomás, rövid adatsorral (prediktor) : Megszűnt régi állomás és új automata állomás (prediktor) (Térbeli és időbeli minta!) : Tetszőleges hely, adat nélkül (prediktandus)
+
: Rácspontok háttérinformációval, pl. előrejelzés, műhold, radar
1. ábra. Földfelszíni értékekre vonatkozó információk
Az interpoláció célja, hogy egy adott meteorológiai elem esetén, az ismert prediktor értékek alapján becslést adjunk az ismeretlen prediktandus értékre a rendelkezésre álló háttérinformációk felhasználásával. A feladat megoldása szempontjából értékes éghajlati információt tartalmaznak a hosszú adatsorok, melyek ezzel kapcsolatban térbeli és időbeli mintának tekinthetők. 3. INTERPOLÁCIÓS MÓDSZEREK A gyakorlatban sokféle interpolációs módszer létezik, kérdés, hogy mi is a különbség közöttük. A térbeli interpolációs feladat szerint az ismeretlen Z (s0 , t ) prediktandust az ismert Z (s i , t ) ( i = 1,..., M ) prediktorok valamilyen függvényével kívánjuk becsülni, ahol s helyvektor és t idő. Az adekvát függvény – illetve interpolációs formula – típusa az adott meteorológiai elem jellege, valószínűségi eloszlása alapján határozható meg. 3.1. Additív interpolációs formula Normális eloszlás esetén (pl. hőmérséklet) az additív formula a megfelelő, azaz a becslés: ∧
M
Z (s 0 , t ) = w0 + ∑ wi ⋅ Z (s i , t ) i =1
, ahol
M
∑ i =1
wi = 1 , wi ≥ 0
( i = 1,..., M ) ,
(1)
és w0 , wi ( i = 1,..., M ) interpolációs paraméterek. Interpolációs hiba (RMSE) és reprezentativitás: ERR (s 0 ) ERR(s 0 ) , REP (s 0 ) = 1 − , ahol D (s 0 ) a prediktandus szórása. D (s 0 ) A matematikailag optimális interpolációs paramétereket, azaz amelyekre az interpolációs hiba minimális, a lokális statisztikai paraméterek (várható értékek, szórások) és a sztochasztikus kapcsolatok (korrelációk) egyértelműen meghatározzák! A különböző geostatisztikai módszerek – pl. kriging, detrendezett kriging stb. – ugyanebből a fenti additív formulából és interpolációs hibából indulnak ki, a különbség csupán az optimális interpolációs paraméterek modellezésében van. A problémát alapvetően az okozza, hogy ezek az eljárások nem tételeznek fel időbeli mintát, tehát viszonylag kevés információval rendelkeznek. Ezzel szemben, tekintettel a hosszú adatsorokra, a meteorológiának megvan a lehetősége a szükséges lokális paraméterek és sztochasztikus kapcsolatok modellezésére. A meteorológiában ezek a paraméterek éghajlati statisztikai paraméterek, melyeknek tehát ismert függvényei az optimális interpolációs paraméterek. 3.2. Multiplikatív interpolációs formula Kvázi lognormál eloszlás esetén (pl. csapadékösszeg) a multiplikatív formula a megfelelő, azaz a becslés: w ∧ qi ⋅ Z (s i , t ) i qi ⋅ Z (s i , t ) Z (s 0 , t ) = ϑ ⋅ ⋅ w + w ⋅ (2) , ∑ i i q ⋅Z ∏ q ⋅Z (∑ ϑ ϑ ) ( ) s , t ≥ ϑ q ⋅ Z s , t < ϑ ( ) s , t ≥ ϑ i i i i i i ahol ϑ > 0 , qi > 0 ,
M
∑w i =1
i
= 1 és wi ≥ 0
( i = 1,..., M ) ,
és qi , wi ( i = 1,..., M ) az interpolációs paraméterek. Ez esetben is, az optimális interpolációs paramétereket bizonyos éghajlati statisztikai paraméterek – lokális statisztikai paraméterek, sztochasztikus kapcsolatok – egyértelműen meghatározzák!
2
4. TÉMÁK, RENDSZEREK LEHETSÉGES KAPCSOLATA Meteorológiai elemek interpolációjánál tehát kulcskérdés az éghajlati statisztikai paraméterek, karakterisztikák modellezése, mégpedig a hosszú adatsorok alapján, melyek ez esetben a térbeli és időbeli mintát jelentik. Mielőtt a modellezésre térnénk, bemutatunk egy blokk-diagramot (2. ábra) annak illusztrálására, hogy különböző fontos meteorológiai témák – köztük az interpoláció is – milyen kapcsolatban vannak, illetve lehetnek egymással. Ezeket a témákat általában külön-külön szokták kezelni, pedig ezek együtt egy komplex rendszert képeznek.
2. ábra. Témák, rendszerek kapcsolata
3
5. TÉRBELI INTERPOLÁCIÓ OPTIMÁLIS PARAMÉTEREKKEL Amennyiben jól, hatékonyan használható interpolációs paraméterekhez kívánunk jutni, akkor először meg kell vizsgálnunk az optimális interpolációs paramétereket, melyek ismert függvényei az éghajlati statisztikai paramétereknek. Jelen írásunkban csupán az (1) additív formula szerinti interpolációval foglalkozunk részletesebben. Jelölések: Z (s0 , t ) : prediktandus, Z (s i , t ) ( i = 1,..., M ) : prediktorok ERR (s 0 ) : interpolációs hiba (RMSE) E (s ) : várható érték, D(s ) : szórás, r (s1 ,s 2 ) : korreláció ahol az s helyvektorok az adott D térség elemei. Optimális interpolációs hiba és reprezentativitás: , ERROP (s 0 ) = minimum ERR (s 0 ) REPOP (s 0 ) = 1 − ERROP (s 0 ) D (s 0 ) Az optimális interpolációs paraméterek szerkezete: Az optimális minimális hiba az optimális interpolációs paraméterekkel nyerhető. Az optimális w0 konstans tag a várható értékek E (s 0 ) − E (s i ) ( i = 1,..., M ) különbségeitől függ, az optimális wi ( i = 1,., M ) súlytényezők és az optimális REPOP (s 0 ) reprezentativitás pedig a szórások D (s 0 ) D (s i ) ( i = 1,., M ) hányadosainak és az r (s i , s j ) ( i, j = 0,..., M )
korrelációknak a függvényei. Ez azt jelenti, hogy az optimális interpolációs paraméterek és az optimális reprezentativitás csupán a korrelációszerkezettől, valamint a lokális éghajlati statisztikai paraméterek térbeli változásától függenek. Ebből, bizonyos elég általános feltételek teljesülése esetén, az is következik, hogy a havi interpolációs paraméterek napi értékek interpolálására is alkalmazhatók. Optimális interpolációs paraméterek: bebizonyítható, hogy w0 =
M
∑ w (E (s ) − E (s )) i
0
i
,
i =1
−1 C −pr1 11T C −pr1 c 0, pr , C pr − + 1T C −pr1 1 1T C −pr1 1 a megfelelő prediktandus-prediktor kovariancia vektor, illetve prediktor-
továbbá a nullától különböző súlytényezők vektora w = ahol c 0, pr , C pr
C −pr1 1
prediktor kovariancia mátrix, és az 1 az azonosan egy vektor.
6. ÉGHAJLATI STATISZTIKAI PARAMÉTEREK TÉRBELI MODELLEZÉSE 6.1. A modellezéshez használható ismert statisztikai paraméterek Alapvetően a hosszú adatsorok használhatók fel az éghajlati statisztikai paraméterek modellezéséhez. Ugyanis, ha az S j ( j = 1,..., N ) (S ∈ D ) állomások hosszú havi adatsorokkal rendelkeznek, akkor az
E (S j ), D (S j )
( j = 1,..., N )
lokális paraméterek,
valamint az r (S j1 , S j 2 ) ( j1 , j2 = 1,..., N ) korrelációk a klasszikus statisztikai módszerekkel
becsülhetők. Következésképpen ezek a paraméterek lényegében ismertnek tekinthetők, és ezek jelentik az alapvető információt a modellezés számára. Újra felhívnánk figyelmet, hogy a GIS térinformatikai rendszerekbe beépített geostatisztikai interpolációs módszerek nem képesek a hosszú adatsorokban meglévő éghajlati információ felhasználására, mivel ezeket az eljárásokat nem ilyen célra fejlesztették.
4
6.2. Az éghajlati statisztikai paraméterek környezetenkénti modellezése Az eddigiek szerint, tehát az ismert éghajlati statisztikai paraméterek jelentik az alapvető információt a korrelációszerkezet, valamint a lokális éghajlati statisztikai paraméterek térbeli változásának modellezéséhez. A környezetenkénti modellezés lényege a következőképpen foglalható össze. Legyenek P (s ) , Q (s ) , ~ rs0 (s1 , s 2 ) ( s , s 0 , s1 , s 2 ∈ D ) bizonyos függvényei különböző modellváltozóknak, melyekre teljesülnek az alábbi tulajdonságok: (a) P (S j1 ) − P (S j 2 ) ≈ E (S j1 ) − E (S j 2 ) (b)
Q (S j1 )
Q (S j 2 )
≈
D (S j1 )
D (S j 2 )
rs0 (S j1 , S j 2 ) ≈ r (S j1 , S j 2 ) (c) ~
, ha
S j1 − S j 2 < d 0
, ha
S j1 − S j 2 < d 0
, ha
S j1 − s 0 < d 0 és
S j 2 − s0 < d 0
Modellváltozók lehetnek: magasság, topográfia (pl. AURELHY-féle főkomponensek, Benichou, P. and Le Breton, O., 1987), tengertől való távolság stb.. 7. TÉRBELI INTERPOLÁCIÓ MODELLEZETT PARAMÉTEREKKEL
~ = [w ~ ,...., w ~ ]T modellezett optimális súlytényezők és a Az 5., 6.2. fejezetek szerint, a w 1 M mod (s 0 ) modellezett optimális reprezentativitás, az alábbi értékekből származtatható: REPOP Q(s 0 ) Q(s i )
( i = 1,..., M ) ,
~ rs0 (s i , s j ) ( i, j = 0,..., M ) .
Ezek felhasználásával kapjuk az alábbiakat. Interpoláció modellezett paraméterekkel: ∧
M
M
M
i =1
i =1
i =1
~ + w Z (s 0 , t ) = w ∑ ~i Z (s i , t ) = ∑ w~i (P(s 0 ) − P(s i )) + ∑ w~i Z (s i , t ) 0 A modellezett interpolációs paraméterekhez tartozó reprezentativitás-érték: REPMP (s 0 ) = 1 −
ERRMP (s 0 ) , D (s 0 )
ahol ERRMP (s 0 ) a modellezett interpolációs paraméterekhez tartozó hiba (RMSE). A lokális éghajlati statisztikai paraméterek modellezése hasonló módon történik. Havi várható érték modellezése (additív formula): E
mod
K
(s 0 ) = ∑ k =1
~ (P (s ) − P (S )) + w 0 k jk
K
∑ w~ E (S ) k
jk
k =1
Q(s 0 ) Havi szórás modellezése (multiplikatív formula): D mod (s 0 ) = ∏ ⋅ D(S jk ) k =1 Q (S jk ) K
5
~ w k
8. PÉLDÁK MAGYARORSZÁG TERÜLETÉRE
Magyarország: félperces (0,5’ x 0,5’) felbontás, kb. 300 000 rácspont. 1. Példa Havi középhőmérséklet: 57 állomás homogenizált havi adatsorokkal (1971-2000). Minden rácsponthoz egy-egy modell a legközelebbi 10 állomás alapján, ami az állomások megközelítően 600 kombinációjának vizsgálatát jelenti.
3. ábra. A havi középhőmérséklet modellezett várható értéke szeptemberben
4. ábra. A havi középhőmérséklet modellezett szórása szeptemberben
5. ábra. Napi középhőmérséklet interpolációja 2004. szeptember 29-én (100 megfigyelés)
6
2. Példa Havi csapadékösszeg: 500 állomás homogenizált havi adatsorokkal (1971-2000). Minden rácsponthoz egy-egy modell a legközelebbi 30 állomás alapján, ami az állomások megközelítően 18000 kombinációjának vizsgálatát jelenti.
6. ábra. A havi csapadékösszeg modellezett várható értéke júliusban
7. ábra. A havi csapadékösszeg modellezett szórása júliusban
8. ábra. Napi csapadékösszeg interpolációja 2004. július 27-én (103 megfigyelés)
7
9. A MODELLEZÉSI EREDMÉNYEK TESZTELÉSE (BENCHMARK STUDY)
A modellezési eredmények együttes kiértékelése, tesztelése az állomások adatsorainak egymás közötti interpolációjával, és az így kapott ERR (S j ) ( j = 1,.., N ) interpolációs hibák, avagy a REP (S j ) ( j = 1,.., N ) reprezentativitás-értékek vizsgálata alapján lehetséges.
A reprezentativitás-érték egy igen szemléletes statisztikai mérőszám, az „egy” és a relatív hiba különbsége. Átlagos havi reprezentativitás-értékek vizsgálata Ábráinkon (9., 10. ábra) a középhőmérsékletre (57 állomás) és a csapadékösszegre (500 állomás) kapott átlagos havi reprezentativitás-értékeket mutatjuk be. Az interpolációt, illetve a reprezentativitás-értékekre vonatkozó számításokat kétféle módon végeztük el: REPop : interpoláció optimális paraméterekkel, REPmp : interpoláció a modellezett paraméterekkel.
Az középhőmérséklet interpolációja az additív formula (1), míg a csapadékösszeg interpolációja a multiplikatív formula (2) alapján történt. A középhőmérsékletnél bemutatjuk az inverz távolság módszerével – melynek formulája szintén additív – kapott REPinv reprezentativitás-értékeket is. 1 0.9 0.8 0.7
REPop REPmp REPinv
0.6 0.5 0.4 0.3 1
2
3
4
5
6
7
8
9
10
11
12
9. ábra. Átlagos havi reprezentativitás-értékek; középhőmérséklet, 57 állomás 0.9 0.8 0.7 REPop REPmp
0.6 0.5 0.4 0.3 1
2
3
4
5
6
7
8
9
10
11
12
10. ábra. Átlagos havi reprezentativitás-értékek; csapadékösszeg, 500 állomás
8
10. INTERPOLÁCIÓ HÁTTÉRINFORMÁCIÓ FELHASZNÁLÁSÁVAL
A háttérinformációk – mint pl. műhold, radar, előrejelzés – használata lehetővé teszi az interpolációs hibák eseteleges csökkentését. Jelen írásunkban csupán az additív modellre, illetve normális eloszlásra vonatkozó eljárást mutatjuk be. Tételezzük fel, hogy Z (s j , t ) ( j = 1,..., N ) az állomásokhoz tartozó megfigyelési értékek, Z (s 0 , t ) a prediktandus és Z (s ji , t ) ( i = 1,..., M ) a prediktorok, ahol az s helyvektorok az adott
térség elemei. Legyen továbbá G (s, t ) (s ∈ D ) egy sűrű rácshálózatra adott háttérinformáció. A Z (s, t ) -nek a G (s, t ) -re vonatkozó feltételes várható értéke lineáris esetben,
D
E(Z (s, t ) G (s, t )) = E (s ) + γ 0 + γ 1 ⋅ (G (s, t ) − E (s ))
(s ∈ D ) ,
ahol E (s ) a térbeli várható érték (lásd 5. fejezet). Az ismeretlen γ 0 , γ 1 regressziós paraméterekre és az R = corr (Z (s, t ), G (s, t )) korrelációra, a Z (s j , t ) , G (s j , t ) ( j = 1,..., N értékek, valamint az
E mod (s j ) ( j = 1,..., N
)
)
modellezett várható értékek (lásd 7.2.)
felhasználásával adható becslés. Megint a 7.2. fejezet szerint a háttérinformáció nélküli interpolációs formula ~ + Z (s 0 , t ) = w ∑ w~ ji ⋅ Z (s ji , t ) . 0 ∧
M
i =1
Ugyanezt a formulát a háttérinformációkra alkalmazva kapjuk, hogy ~ + G (s 0 , t ) = w ∑ w~ ji ⋅ G (s ji , t ) . 0 ∧
M
i =1
Végezetül az alábbi, a háttérinformációt is felhasználó interpolációs formulát nyerjük: ∧ ∧ ∧ Z G (s 0 , t ) = Z (s 0 , t ) + γ 1 ⋅ G (s 0 , t ) − G (s 0 , t ) .
A 11. ábrán egy példát mutatunk be. Az 5. ábrához való hasonlósága a megfigyelések és a háttérinformáció közötti gyenge korrelációs kapcsolat (R) következménye.
11. ábra. Napi középhőmérséklet interpolációja 2004. szeptember 29-én, 24 órás előrejelzési háttérinformációval (100 megfigyelés; korreláció: 0,479)
9
11. PROGRAMRENDSZER: MISHv1.01
Röviden összefoglaljuk a MISHv1.01 programrendszerrel kapcsolatos legfontosabb tudnivalókat. A rendszer tulajdonképpen két részre bontható, nevezetesen modellező és interpolációs részre. Az interpolációs rendszer a modellező rendszer eredményei alapján működik. Modellező programrendszer (az éghajlati statisztikai paraméterekre) – Hosszú homogenizált adatsorok és determinisztikus modellváltozók (pl. topográfia) alapján működik. – A modellezést csak egyszer kell elvégezni az interpolációs alkalmazások előtt. Interpolációs programrendszer – Additív (pl. hőmérséklet) vagy multiplikatív (pl. csapadék) modell és interpolációs formula alkalmazható, a meteorológiai elem eloszlásától függően. – Napi, havi értékek és sokévi átlagok interpolálhatók. – Kevés prediktor is elegendő, tekintettel a korábbi modellezésre. – Becslés az interpolációs hibákra, pontosabban a reprezentativitás értékekre. – Lehetőség háttérinformáció használatára, pl. műhold, radar, előrejelzés. – Képesség adatsorok rácspontokba való interpolációjára. 12. KONKLÚZIÓ
A GIS térinformatikai rendszerek igen hasznos eszközt jelenthetnek a meteorológiai kutatások számára. Azonban tisztában kell lennünk a korlátokkal is, nevezetesen, hogy a beépített, rendelkezésre álló programrendszerek esetleg nem kielégítők a meteorológiai célok, alkalmazások szempontjából. Ilyennek látjuk a térbeli interpoláció kérdését is. A problémákat egyedileg kell vizsgálni, kezelni és megoldani, nincsenek mindenre jó – fogyasztói – csodaszerek. Irodalom Benichou, P. and Le Breton, O., 1987: Prise en compte de la topographie pour la cartographie des champs pluviométriques statistiques, La Météorologie, 7e série, No 19 Bihari, Z., 2005: „Lokális éghajlati karakterisztikák modellezése a MISH interpolációs rendszerben”, OMSZ Beszámolókötet 2004 Birszki, B., 2005: „A MISH az adatbázisban”, OMSZ Beszámolókötet 2004 Cressie, N., 1991: „Statistics for Spatial Data.”, Wiley, New York, 900p. Szentimrey, T., 1999: „Multiple Analysis of Series for Homogenization (MASH)”, Proceedings of the Second Seminar for Homogenization of Surface Climatological Data, Budapest, Hungary; WMO, WCDMPNo. 41, pp. 27-46. Szentimrey, T., 2002: „Statistical problems connected with the spatial interpolation of climatic time series.”, Home page:http://www.knmi.nl/samenw/cost719/documents/Szentimrey.pdf Szentimrey, T., 2003: „Homogenization software MASHv2.03”, Home page:http://www.wmo.ch/web/wcp/clips2001/html/MASH_software.htm Szentimrey T., 2005: „Meteorológiai interpolációs rendszer (MISH) éghajlati és előrejelzési információk felhasználásával”, OMSZ Beszámolókötet 2004 Szentimrey, T., Bihari, Z., 2005: „Manual of homogenization software MISHv1.01” Szentimrey, T., Bihari, Z., 2006: „Mathematical background of the spatial interpolation methods and the software MISH (Meteorological Interpolation based on Surface Homogenized Data Basis)”, Proceedings of the Conference on Spatial Interpolation in Climatology and Meteorology. Budapest, Hungary, 24-29 October 2004, (in print)
10