Kontrola kvality dat Homogenizace časových řad
Petr Štěpánek Český hydrometeorologický ústav, p. Brno
Klimatologické studie naměření
a sběr dat
Klimatologické studie pořízení
dat kontrola kvality dat a homogenizace 10.0 8.0
0 .8 0 .6 0 .4
6.0
0 .2
4.0
0 .0
2.0
-0 .2
0.0
-0 .4 -0 .6
-2.0 -4.0 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000
-0 .8 -1 .0 19 11
1 91 5 1 91 9 1 92 3
19 27
1 931
1 93 5 1 93 9
19 43
19 47
Klimatologické studie pořízení
dat homogenizace analýza dat 2 .0
1 .0
0 .0
-1 .0
-2 .0
-3 .0 1848
1868
1888
1908
1928
1948
1968
1988
Měsíční, sezonní a roční průměry
Zpracování dat Kontrola kvality vychýlené hodnoty
Mezikvart. odchylka
Porovnání se sousedy
Navazání řad sousedních stanic
Testování homogenity
Alexanderssonův test
Bivariační test
t-test
Mann-Whitney-Pettit
Referenční řady
pomocí korelací
pomocí vzdáleností
Vyhodnocení nehomogenit
Oprava dat
Doplnění chybějících hodnot
Pravděpodobnost
Několik iterací
Kontrola kvality dat Nalezení vychýlených hodnot
10.0 8.0 6.0 4.0 2.0 0.0 -2.0 -4.0 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000
Kontrola kvality dat Nalezení vychýlených hodnot
1. Limitní hodnoty získané z mezikvartilové odchylky – řada poměrů (logaritmů) mezi testovanou a referenční řadou – referenční řada vytvořená jako průměr 5 nejvíce korelovaných stanic, max. vzdálenost 35 km
– hranice: koeficient (násobek) = 3.0
2. Porovnání hodnot s hodnotami sousedních stanic – – – –
porovnání s … nejbližšími stanicemi řady standardizovaných poměrů (logaritmy poměrů) počet případů překračujících 95% meze spolehlivosti výpočet očekávané hodnoty ze standardizovaných řad
Příklad: Porovnání hodnot s hodnotami sousedních stanic ID B1BLAT01 B1HLUK01 B1VELV01 B1STRZ01 B1BZEN01 B1RADE01
B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01 B1BLAT01
REMARK ST_1 225.0 211.0 Altitudes,limits st_1, distance:6.8 st_2, distance: st_3, distance: st_4, distance: st_5, distance: 21.7 14.5 33.7 39.2 20.4 15.1 56.1 57.7 62.6 73.5 208.3 148.3 89.2 77.5 23.4 29.3 12.2 12.4 51.7 56.0 54.5 60.8 32.5 45.5 26.3 12.5 27.3 28.9 47.0 49.5 51.3 44.1 111.6 113.2 24.1 29.2 157.1 143.1 58.4 51.1 39.9 39.6 43.8 44.5
YEAR MONTH ST_BASE
1961 1961 1961 1961 1961 1961 1961 1961 1961 1961 1961 1961 1962 1962 1962 1962 1962 1962 1962 1962 1962 1962
1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10
ST_2 ST_3 ST_4 ST_5 280.0 176.0 190.0 240.0
Rat1_STND Rat2_STND Rat3_STND Rat4_STND Rat5_STND CDF_MAX
1.960
1.960
1.960
1.960
1.960
1.140 -0.646 0.560 -0.042 -0.601 1.305 0.475 -0.654 0.125 -0.406 -0.643 -1.565 2.264 -0.178 -0.540 0.575 0.000 -0.504 0.284 0.614 0.191 -0.070
-0.365 0.467 0.389 -2.589 0.891 -0.135 0.988 0.829 0.769 0.651 1.751 -1.319 -2.377 1.064 -0.427 0.666 0.294 -1.225 -2.197 -3.961 -0.815 0.298
0.769 0.233 0.516 -1.295 1.322 -1.805 1.549 0.567 -0.202 1.419 0.775 -1.066 0.492 0.977 -0.293 0.555 0.495 1.036 -1.579 -3.217 0.145 0.674
1.817 -0.088 1.344 2.145 0.239 -0.915 0.604 0.212 0.862 1.770 -0.505 -1.436 -0.493 -0.371 -0.369 0.282 0.918 -1.138 0.947 -2.477 0.061 0.162
0.911 0.312 1.180 -1.126 1.718 -2.374 1.658 0.372 0.148 1.182 1.479 -0.641 -0.106 1.217 -0.394 0.247 0.038 0.131 -0.881 -3.306 -0.329 0.447
No_sign.
8.9 10.4 12.2 13.3 16.9 15.5 23.7 19.6 63.1 40.9 39.5 49.0 21.0 14.9 21.2 22.2 34.5 34.7 105.3 44.6 95.9 96.3 71.1 114.6 158.3 79.4 101.2 76.2 106.9 102.3 86.0 123.2 42.8 34.2 30.9 35.6 16.3 10.3 13.3 12.2 77.6 74.1 81.4 82.7 99.5 65.0 55.8 79.6 48.4 35.3 33.6 45.1 8.7 12.5 11.3 13.0 55.4 37.1 26.6 46.7 55.9 43.7 44.4 49.4 70.8 49.6 43.2 54.5 129.3 115.5 137.7 110.7 23.9 39.5 18.6 29.6 103.3 84.7 177.8 115.8 13.9 14.1 18.8 14.9 36.0 35.8 36.8 33.3 55.5 47.7 45.4 50.2
0.965 0.950 0.911 1.000 0.957 1.000 0.951 0.951 0.885 0.962 0.960 0.995 1.000 0.915 0.938 0.774 0.841 0.987 0.999 1.000 0.965 0.858
2 1
2
1 4
Navázaní měření sousedních stanic
Navázaní měření sousedních stanic (příklad)
Výběr sousedů do 5 km Mezera mezi dvěma řadami: maximálně 4 roky Výsledná řada: dlouhá minimálně 30 roků
Záznam do metadat, zohlednění při homogenizace
Homogenizace časových řad
Quality control Homogenization Data Analysis
Homogenizace změna
podmínek na stanici
nehomogenity
Detekce nehomogenit Testy
absolutní homogenity 3,0
Praha - Klementinum
2,0 1,0 0,0 -1,0 -2,0 -3,0 -4,0 1771
1791
1811
1831
1851
1871
1891
1911
1931
1951
1971
1991
Detekce nehomogenit Testy
absolutní homogenity Testy relativní homogenity 1,5 1,0
Diference Praha - Klementinum a průměrovaná řada okolí ČR
0,5 0,0 -0,5 -1,0 -1,5 -2,0 1771
1791
1811
1831
1851
1871
1891
1911
1931
1951
1971
1991
Homogenizace – postup Tvorba
(testová (testováni relativní relativní homogenity)
referenčních řad
2 .0
0 .8
1 .5 0 .6 1 .0 0 .4
0 .5
0 .2
0 .0 -0 .5
0 .0
-1 .0
-0 .2
-1 .5
-0 .4
-2 .0
-0 .6
-2 .5
-0 .8
-3 .0
-1 .0 1 91 1
19 15
1 91 9
1 92 3
1 927
1 93 1
1 93 5
1 93 9
1 94 3
1 94 7
19 11
1 915
1 91 9 1 92 3
19 27
19 31
19 35
19 39
19 43
1 94 7
Homogenizace Tvorba
referenčních řad Testování homogenity 0 . 8 0 . 6 0 . 4 0 . 2 0 . 0 - 0 . 2 - 0 . 4 - 0 . 6 - 0 . 8 - 1 . 0 1 9 1 1
1 9 1 5
1 9 1 9
1 9 2 3
1 9 2 7
1 9 3 1
1 9 3 5
1 9 3 9
1 9 4 3
1 9 4 7
40 35 30 25 20 15 10 5 0 1911 1914 1917 1920 1923 1926 1929 1932 1935 1938 1941 1944 1947
Homogenizace Tvorba
referenčních řad Testování homogenity Posouzení nehomogenit v řadách - Metadata
- fyzikálně zdůvodnitelné (“nezpochybnitelné”) nehomogenity 0 .8 0 .6 0 .4 0 .2 0 .0 -0 .2 -0 .4 -0 .6 -0 .8 -1 .0 1911
1915
1919
1923
1927
1931
1935
1939
1943
1947
Homogenizace Tvorba
referenčních řad Testování homogenity Posouzení homogenity řad - Metadata
- fyzikálně zdůvodnitelné (“nezpochybnitelné”) nehomogenity 0 .8 0 .6 0 .4 0 .2
Oprava
řad
0 .0 -0 .2 -0 .4 -0 .6 -0 .8 -1 .0 1 91 1
1 91 5
19 1 9
19 2 3 1 9 27
1 9 31
1 93 5
1 93 9
19 4 3
19 4 7
Možné přístupy k homogenizaci nehomogenizovat
vůbec použít statistické testy a věřit, že jejich výsledky jsou „svaté“ ?
Spolehlivost detekce nehomogenit
Inhomogeneities Detecting by SNHT (p=0.05, 950 series)
generated series of random numbers (properties of air temperature series for year, summer and winter, CZ) introduced steps with various amount of change in level various position of the steps various lengths of the series
Schopnost detekce nehomogenit SNHT (p=0.05, 950 series) 100 80 >2 2 1 0
60 40 20 0 ,1
,2
,3
,4
,5
,6
,7
,8
Velikost změny v průměru /C Změna: - velikost nehomogenity - délka řad - poloha v řadě
,9 1,0
Chyba detekce /roky
Detekce / % případů
120
Problémy při vyhodnocování nehomogenit
většinou jsou metadata nekompletní jsme tedy závislí pouze na výsledcích statistických testů
ale správná detekce nehomogenit pomocí testů je často problematická (splnění všech podmínek aplikace testů, problémy v řadách, …)
Navržené řešení Statistické zpracování velkého množství výsledků testování pro každou testovanou řadu (ensemble)
pravděpodobnost dané nehomogenity poměr počtu detekovaných nehomogenit na počtu všech teoreticky možných detekcí (pro každý rok, skupinu roků, celé období)
Jak zvýšit spolehlivost testování homogenity (bez metadat )
měsíční,
sezónní, roční průměry různé referenční řady různé testy homogenity 40-ti leté úseky několik kroků - iterací
Měsíční, sezonní a roční průměry
Zpracování dat Kontrola kvality vychýlené hodnoty
Mezikvart. odchylka
Porovnání se sousedy
Navazání řad sousedních stanic
Testování homogenity
Alexanderssonův test
Bivariační test
t-test
Mann-Whitney-Pettit
Referenční řady
pomocí korelací
pomocí vzdáleností
Vyhodnocení nehomogenit
Oprava dat
Doplnění chybějících hodnot
Pravděpodobnost
Několik iterací
Výhody statistického zpracování známe závažnost každé nehomogenity (pravděpodobnost) můžeme ohodnotit kvalitu měření dané stanice jako celku (součet všech nehomogenit)
Referenční řady
Quality control Homogenization Data Analysis
Referenční řady Regionální průměr
3 0.0 2 0.0 1 0.0 0.0 -1 0.0 -2 0.0 -3 0.0 -4 0.0 1
3
5
7
9
11 1 3 1 5 17 1 9 21 2 3 25 2 7 29 3 1 33 3 5 37 3 9
Referenční řady Regionální průměr
Průměr stanic s nejvyššími korelacemi
2 .0 1 .5 1 .0 0 .5 0 .0 -0 .5 -1 .0 -1 .5 -2 .0 -2 .5 -3 .0 1 91 1
1 915
1 91 9
1 923
1 92 7
1 93 1
1 93 5
1 93 9
1 94 3
1 94 7
Referenční řady Regionální průměr
Průměr stanic s nejvyššími korelacemi
Průměr nejbližších stanic
Referenční řady Regionální průměr
Průměr stanic s nejvyššími korelacemi
Průměr nejbližších stanic
+ možné nehomogenity jsou nejlépe potlačeny
+ vytvořená ref. řada se nejvíce podobá test. řadě
+ zachována geografická blízkost
- ref. řada je nejméně korelovaná s test. řadou
-podobné nehomogenity s testovanou řadou
- různé klimatické podmínky
(řady prvních diferencí)
pros and cons
Referenční řady se liší diference testované a jejích referenčních řad 10 8
A VG
6
correlations
4
distance
2 0 -2 -4 -6 -8 -10 1950
1954
1958
1962
1966
1970
1974
1978
1982
1986
Example: Proposed list of stations used for creating reference series ID_1
ID_2
B1BLAT01
BEGIN END LENGTH REMARK
B1HLUK01 B1VELV01 B1STRZ01 B1UHBR01 B1RADE01
1961 1961 1961 1961 1961 1961
2000 2000 2000 2000 2000 2000
40 5st. (l:0.88 40 y. comm.p 40 y. comm.p 40 y. comm.p 40 y. comm.p 40 y. comm.p
B1STRN01 B1STHR01 B1LUHA01 B1VIZO01 B1UHBR01
1961 1961 1961 1961 1961 1961
2000 2000 2000 2000 2000 2000
40 5st. (l:0.89 40 y. comm.p 40 y. comm.p 40 y. comm.p 40 y. comm.p 40 y. comm.p
B1BOJK01 O3ZDEC01 O3HUSL01 B1HLHO01 B1STHR01
1961 1961 1961 1961 1961 1961
1994 2000 2000 2000 2000 2000
B1STME01 B2KYJO01 B2KORC01 B1BZEN01 B1NAPA01
1961 1961 1961 1961 1961 1961
2000 2000 2000 2000 2000 2000
B1BOJK01
B1BRBY01
B1BUCH01
CORREL DISTANCE
ALT_1 ALT_2
6.78 8.94 10.39 17.11 13.32
211 211 211 211 211 211
225 280 176 222 240
0.920 0.917 0.908 0.895 0.891
16.55 7.29 9.62 21.20 11.68
302 302 302 302 302 302
385 412 254 315 222
34 5st. (l:0.87 34 y. comm.p 34 y. comm.p 34 y. comm.p 34 y. comm.p 34 y. comm.p
0.888 0.886 0.881 0.875 0.873
16.54 18.34 23.66 17.36 18.59
350 350 350 350 350 350
302 520 450 340 412
40 5st. (l:0.86 40 y. comm.p 40 y. comm.p 40 y. comm.p 40 y. comm.p 40 y. comm.p
0.919 0.879 0.873 0.869 0.869
7.29 16.54 11.72 12.44 17.08
280 280 280 280 280 280
235 195 305 190 205
0.931 0.921 0.910 0.901 0.884
Selection according to correlations
Testy homogenity Alexanderssonův test (SNHT)
Alexandersson Standart Normal Homogeneity Test (Single shift test)
Reference series: k
k
qi = Yi /{[ ∑ ρ j X ji Y / X j ] / ∑ ρ j } 2
j =1 k
2
j =1
k
qi = Yi − {∑ ρ j [ X ji − X j + Y ] / ∑ ρ j } 2
j =1
2
j =1
Null and alternative hypothesis: i ∈ {1,..,n} . H0 : zi ∈N(0,1), H1 : zi ∈ N(µ 1,1), i ∈ {1,..,a} , zi ∈ N(µ 2,1), i ∈ {a+1,..,n} , for 1 ? a < n a µ1 ? µ 2 .
40 35 30 25
zi = (qi -
20
q
)/sq , zi ∈ N(0,1)
15
Test statistic: 2 2 {Ta } = max {a z 1 + ( n − a ) z 2 } T 0 = 1max ≤ a < n −1 1≤ a < n −1
10 5
1 a where 1 = ∑ z i a í =1 n z 1 ∑ zi 2= (n − a ) í = a +1 z
0 1911 1914 1917 1920 1923 1926 1929 1932 1935 1938 1941 1944 1947
kumulativní odchylky diferencí testované a referenční řady
z , ( 1? µ 1) ,Quality control
Homogenization z , ( 2 ? µ 2) .
Data Analysis
Testy homogenity Alexandersson SNHT
Bivariate Test Bivariate Test Null and alternative hypothesis: H0 : vectors {xi,yi} bivariate normal distributed N(µ x, µ y, σx2, σy2, ρ) H1 : pro 0
i0. Test statistic: T0 = max {Ti }
40 35 30
i< n
i
25
i
where: Xi = 1 / i ∑ x j , Yi = 1 / i ∑ y j ,
20
j =1
15
j =1
n
2 Sx = ∑ ( x j − X ) , Sy =
10
j =1
5 0 1911 1914 1917 1920 1923 1926 1929 1932 1935 1938 1941 1944 1947
X = X n , Y = Yn
n
∑ ( y j − Y ) 2 , Sxy= j =1
2 Fi = S x − ( X i − X ) ni /( n − i ) , i
[
]
Ti = i (n − i ) Di Fi /( S x S y − S xy ) 2
2
n
∑ (x j =1
j
− X )( y j − Y ) ,
Testy homogenity Alexandersson SNHT
Bivariate Test
Vincent Technique
0 .8
Easterling and Peterson
0 .6 0 .4
Test statistic: U = [(RSS1-RSS2)/3]/[RSS2/(n-4)] ? F(3,n-4)
0 .2 0 .0
t-test: differences of levels before and after a discontinuity
-0 .2 -0 .4 -0 .6
dvoufázová lineární regrese
-0 .8 -1 .0 1 91 1
1 91 5
1 91 9
1 92 3
1 92 7
1 93 1
1 93 5
1 93 9
1 94 3
1 94 7
Testy homogenity Alexandersson SNHT
Bivariate Test
Vincent Technique
40-ti leté úseky řad (30-40 let na jednu nehomogenitu, Auer et al., 2001)
Posouzení nehomogenit
(výstupy ze softwarů)
Čáslav, 3. část, 1911-1950, n=40 Test A A A A A A B B B B B B B V V V V V
Ref avg
I 1927
corr
1927
dist
1927
avg
1927
1928 1930 1928
corr
1927
dist
1927 1930
corr
dist
II 1929 1930 1927
III 1927
IV 1927
V 1927
VI 1928
VII 1927
VIII 1926
IX 1926
X 1926
XI 1926
XII 1926
Win 1927
Spr 1927
Sum 1927
Aut 1926
Year 1927
1927 1939 1927
1927
1928 1939 1928
1927 1940 1927
1926 1922 1926
1926
1926
1926
1926
1927
1926
1926
1926
1927
1927 1937 1927
1927
1927
1927
1928
1927
1926
1926
1926
1927
1927
1927
1926
1927 1935 1927 1918 1927
1927
1927 1936
1927
1927 1938
1928 1939
1927 1944
1926
1926
1926
1926
1927 1935
1927 1937
1927 1937
1926
1927 1935
1928
1927
1927
1927
1928
1927
1926 1922 1926 1922 1937 1926
1926 1940 1926
1927 1937 1927
1926
1927
1927 1938 1927
1926
1926 1940
1926
1926
1927 1931 1927
1927
1927
1926 1913 1926
1927 1918
1937
1922 1937 1927
1927
1927
1926
1935
1918
Quality control Homogenization Data Analysis
Posouzení nehomogenit Begin
End
Length
1911
1950
40
InHomogen Number eity 1927 1926 1928 1937 1922 1935 1918 1930 1939 1940 1938 1913 1929 1931 1936 1944
1926 1926 1935 1911 1921 1931 1941
1927 1931 1940 1920 1930 1940 1950
2 6 6 10 10 10 10
140 60 37 9 7 4 4 3 3 3 3 2 1 1 1 1 1 97 111 20 4 114 21 1
% detected % possible inhom inhom
100 43 26 6 5 3 3 2 2 2 2 1 1 1 1 1 1 69 79 14 3 81 15 1
120 51 32 8 6 3 3 3 3 3 3 2 1 1 1 1 1 83 95 17 3 97 18 1
End
Missin g
4
2 3
3
Vyhodnocení nehomogenit
Použití několika výstupů (sumace počtu detekcí v daném roce, použití metadat, grafy poměrů, …)
ID ELEM YEAR_INHOM BEGINEND x B1BOJK01 x 1985 B1BOJK01 x 1985 B1BYSH01 x 1978 ? B1BYSH01 x 1979 ? B1BYSH01 x 1980 ? B1HLHO01 x 1965 B1HOLE01 x 1976 B1KROM01 x 1977 1978 x B1RADE01 x 1994 B1RADE01 x 1994 x B1RYCH01 x 1973 B1RYCH01 x 1973 xx? B1STRZ01 x 1987 B1STRZ01 x 1988 B1UHBR01 x 1983 B1UHBR01 x 1983 x B1UHBR01 x 1984 B1UHBR01 x 1984 B1VELI01 x 1978 ? B1VELI01 x 1977 1978 ? B1VKLO01 x 1984 x B1VYSK01 x 1999 B1VYSK01 x 1999 B2BOSK01_rx 1968 B2BREC01 x 1968 B2BRUM01 x 1989 B2BRUM01 x 1989
YEAR_COUNT Y_POSSIBL
41 41 37 33 43 31 33 31 44 44 49 49 53 30 31 31 77 77 31 44 29 32 32 33 35 51 51
14.24 14.24 12.85 11.46 14.93 10.76 11.46 10.76 15.28 15.28 17.01 17.01 18.40 10.42 10.76 10.76 26.74 26.74 10.76 15.28 10.07 11.11 11.11 11.46 12.15 17.71 17.71
YEAR_END MISSVALS X_BEGIN_DA X_END_DATE X_BEGIN X_END LATITUDE LONGITUDE ALTITUDE B_FULLNAME REMARKC_OBSERVER C_ID 12 23.3.1984 31.3.2003 # # Bojkovice change 12 23.3.1984 31.12.9999 # # obs Vladimˇr B1BOJK01 Maz lek
4
1
2 2
1.1.1994 31.12.9999 # # 1.1.1994 31.12.9999 # # 1.5.1973 28.2.1991 # # 1.9.1972 28.2.1991 # #
18.2.1984 18.2.1984 18.2.1984 18.2.1984
31.1.1999 12.5.1993 31.1.1999 12.5.1993
# # # #
# # # #
Radýjov change obs Josef B1RADE01 Pˇ§a VyÜkov, changeRychtß°ov, Marie B1RYCH01 Hor kov obs
Uhersk change Josef B1UHBR01 Kudela obs Uhersk change Josef B1UHBR01 Kudela obs 0 .8 0 .6
-1 -1
1.4.1998 31.12.9999 # # 1.4.1998 31.12.9999 # #
0 .4
VyÜkov, changeDukelskß 12 0 .2 obs Vojt B1VYSK01 0 .0 -0 .2 -0 .4
1.2.1989 1.2.1989
31.3.1994 # # 31.3.1994 # #
Brumov change -0 .6 -0 .8 obs Marta B2BRUM01 Paýˇzkov -1 .0 1911
1915
1919
1923
1927
1931
1 9 35
1 9 39
1943
1947
Oprava nehomogenit
z diferencí (poměrů) mezi opravovanou a referenční řadou pomocí referenční řady vypočtené jako průměr z nejlépe korelovaných stanic k dané stanici shlazení měsíčních hodnot oprav (1-2-1) (eliminace náhodných chyb)
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
Příklad:
Oprava nehomogenit - vyhodnocení
Doplnění chybějících hodnot
Před homogenicí: vliv na správnou detekci nehomogenit Po homogenizaci: přesnější - neovlivněné případnými posuny v řadách
Závislost testované na referenční řadě
Doplnění chybějících hodnot - pomocí lineární regrese - referenční řada jako průměr nejlépe korelovaných stanic
- výpočet „očekávané hodnoty“ při porovnání se sousedy
Homogenizace časových řad v České republice
Homogenizace teplotních řad
měsíční průměry teploty vzduchu téměř 200 stanic měřící v různém období v průběhu přístrojových měření testování změny v úrovní (průměru)
Počet klimatických stanic v ČR od roku 1864 300 250 200 150
1976 1916-1920
100
1940-44 1942-44
50 0 1864 18741884 189419041914 19241934 19441954 19641974 19841994
1945-47 1948-1960 1961
Jahrbücher der k. k. Zentral-Anstalt für Meteorologie und Erdmagnetismus 1848-1915. Wien. Bericht der meteorologischen Commission des naturforschenden Vereines in Brünn 1881-1911. Brünn 1882-1917. Ročenka povětrnostních pozorování meteorologických stanic 1916-1960. Praha 1934-1966.
Prostorové rozložení stanic ČR End of měření: measurement Konec
140
100 90 80 70 60 50 40 30 20 10 0
120 80 počet
60
počet 61-90
40
prům. min. vzdál.
20
1981 1991
1961 1971
1951
1941
1931
1921
1901 1911
1881 1891
1871
1861
1851
1831 1841
1811 1821
1801
1791
1781
0 1771
Počet
100
Prům. min. vzdálenost /km
měření / roky
Homogenizace - přehled Přehled počtu zpracovávaných řad při homogenizaci (ČR) Charakteristika
Data původní
Počet stanic Počet 40-ti letých úseku řad Počet oprav Počet testovaných řad celkem Počet významných nehomogenit (p=0.05) Podíl význ. nehomogenit na počtu řad
40716 32445
opravená 174 307 231 35919 13802
79,7%
38,4%
192 348
Počet testovaných řad – původní data Test A B V Celkem
Měsíce 12 12
Sezóny a rok 5 5 5
Typy ref.
řad 3 3 3
40-ti leté úseky řad 348 348 348
Počet řad pro test 17748 17748 5220 40716
Velké množství nehomogenit po opravě?
40% nehomogenních řad po homogenizaci (80% před)
Šumová složka řad: nehomogenity pro skok menší než 0.5 °C jsou správně detekovány v méně než 50% případů 120
Case s/ %
100 80
Fault /y ear s >2
60
2 1
40
0 20 0 .1
.2
.3
.4
.5
.6
.7
.8
Am ount of change /C
.9 1 .0
Počet významných nehomogenit detekovaných před a po homogenizaci (p=0.05) 2500
Before
After
2000 1500 1000 500 0 I
II
III
IV
V
VI
VII
3500
Before
After
3000 2500 2000 1500 1000 500 0 Win
Spr
Sum
Aut
Year
VIII
IX
X
XI
XII
Velikost opravy homogenizovaných řad (absolutní hodnoty) median 0.6
°C
0.4 0.2 0.0 I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
Korelační koeficienty mezi testovanými a referenčními řadami před a po homogenizaci (median) 1.00
Before
After
0.98 0.96 0.94 0.92 0.90 I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
Nehomogenity v létě versus v zimě
Změna měřících podmínek na stanici (přemístění atd.) se projevuje především v létě
v zimě: menší role aktivního povrchu, převládají cirkulační faktory, v létě: větší role aktivního povrchu, převládají radiační faktory
Přechod na automatická měření konsekvence
Zatím je příliš brzy na opravu řad - je k disposici málo hodnot (ale nehomogenity způsobené přechodem na AMS jsou již detekovatelné)
Nemohou se připojit nová měření
Homogenizace srážkových řad
měsíční sumy (+sezónní a roční sumy), sezónní a roční počty srážkových dnů (s denními úhrny srážek ≥ 0,1, 1,0, 5,0 a 20,0 mm)
období 1961-2003 589 stanic – 566 řad s měřeními delšími více než 30 let (přerušení měření nesmělo být delsí než 4 roky)
– 23 řad vytvořené kombinací sousedních stanic – 457 stanic má měření delší více než 40 let
průměrná minimální vzdálenost: 7.5 km
Prostorové uspořádání použitých srážkoměrných stanic ČR měřících v období 1961-2000
600
8.3
580
8.2
560
8.1 8.0
540
7.9
520
7.8
500
7.7
480
7.6
Počet stanic
460
Minimální vzdálenost
7.5
Průměrná minimální vzdálenost použitých stanic: 7.5 km
2000
1997
1994
1991
1988
1985
1982
1979
1976
1973
1970
1967
1964
7.4 1961
440
Vzdálenost / km
Počet stanic
Počet použitých stanic (s minimální délkou pozorování 30 let) a průměrná minimální vzdálenost těchto stanic v jednotlivých letech v období 1961-2000.
Tvorba referenčních řad: Statistika pro výběry nejlépe korelovaných stanic (pro všechny testované řady)
Boxplots:
0.920
- Median 0.900
- Upper and lower quartiles
0.880
(for 589 testes series)
0.860 0.840 0.820
25.0
0.800
Vzdálenosti:
Distances / km
20.0
1
2 15.0
3 4 5 Order of selected stations
all
Rozdíl v nadm. výšce (absolutní hodnoty)
10.0
160.0
5.0
- coincidence with selection by means of distances
0.0 1
- but still a little bit different
2
3 4 5 Order of selected stations
all
Altitude difference / m
Correlation coefficient
0.940
140.0 120.0 100.0 80.0 60.0 40.0 20.0 0.0 1
2
3
4
5
Stations selection
Korelační koeficienty mezi testovanými a referenčními řadami (referenční řada počítána podle korelací) 1.000
Correlation coefficient
Boxplots: - Median
0.950
- Upper and lower quartiles (for 589 testes series)
0.900
0.850
0.800
0.750 I
II
III
IV
V
VI VII Month
VIII
IX
X
XI
XII
Výsledky testování homogenity Počet detekovaných nehomogenit (stat. významných) 6000 5000 Number of detections
4000 3000 2000 1000 0 I
II
III
IV
V
VI VII Month
VIII
IX
X
XI
XII
Velikost opravy (poměry - standardizace na >1.0 ) (referenční řada počítána podle korelací) 1.250
Boxplots:
1.200
- Median 1.150
- Upper and lower quartiles
1.100
(for 589 testes series)
1.050 1.000 I
II
III
IV
V
VI
VII
VIII
IX
X
XI
I
II
XII
0.025
Vzrůst korelačních koeficientů
0.020 Correlation increase
Amount of change (standardized)
1.300
0.015 0.010 0.005 0.000
-0.005
III
IV
V
VI
VII
VIII
IX
X
XI
XII
Nehomogenity v létě versus v zimě
Změna měřících podmínek na stanici (přemístění atd.) se projevuje především v zimě
v zimě: větší chyby při měření (tuhé srážky – vítr, …)
Závěr, poznámky
kontrola kvality dat před samotnou homogenizací je velmi důležitá
použití stanic z okolí ČR (měřící především v záčátcích přístrojových pozorování) testování v několika iteracích
– několik iterací testování homogenity a opravy řad
(3 iterace byly v tomto
případě dostačující)
– problém homogenity referenčních řad je tímto vyřešen: • jednak jsou možné nehomogenity eliminovány použitím průměrů několika sousedních stanic • pokud toto není splněno: pří dalším kroku (iteraci) by sousedé měly být již homogenní
doporučeno testovat jednotlivé klimatické termíny problémy spojené s automatizací měření v posledních letech
Závěr
roční chod počtu statisticky významných detekcí nehomogenit a velikostí oprav nehomogenit
ensembly: pomocí pravděpodobnosti dané nehomogenity (závažnosti) – kvalitnější vyhodnocení, ohodnocení měření dané stanice jako celku (případně různých období měření)
…
Software použitý pro zpracování dat
LoadData - aplikace pro staženi dat z centrální databáze (např. Oraclu)
ProClimDB software pro zpracování celé databáze (nalezení vychýlených hodnot, navázání sousedních řad, tvorba referečních řad, příprava dat pro testování homogenity, …)
AnClim software pro testování homogenity
http://www.klimahom.com/software
AnClim software
AnClim software
ProClimDB software
ProcData software