O DHADY NÁVRATOVÝCH HODNOT PRO SRÁŽKOVÁ A TEPLOTNÍ DATA
Jan Picek Katedra aplikované matematiky ˇ e-humanitní ˇ Fakulta pˇrírodovedn a pedagogická Technická univerzita v Liberci
Novohradské statistické dny
Ú VOD
Velká pozornost v analýze extrémních dat (napˇr. záplavy) je ˇ venována odhadum ˚ T -leté úrovnˇe (návratová hodnota, T -letá voda). ˇ jednou za T let. Pˇredstava: úrovenˇ opakující se v prum ˚ eru
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
Ú VOD
Velká pozornost v analýze extrémních dat (napˇr. záplavy) je ˇ venována odhadum ˚ T -leté úrovnˇe (návratová hodnota, T -letá voda). ˇ jednou za T let. Pˇredstava: úrovenˇ opakující se v prum ˚ eru ˇ Z pohledu statistiky: vysoký kvantil rozdelení náhodné veliˇciny (prutoku). ˚ 1 u(T ) = F −1 1 − T P (X > u(T )) = 1 − F (u(T )) =
Jan Picek
1 T
Odhady návratových hodnot pro srážková a teplotní data
ˇ P RÍKLAD Pˇríklad: Roˇcní maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky)
10
20
100
1000
34.1
34.9
36.3
37.9
ˇ GEV rozdelení ˇ metoda max. verohodnosti
Maximální dosažená hodnota za sledované období 36.2.
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
Z ÁKLADNÍ PRINCIPY ˇ Necht’ X1 , X2 , . . . jsou nezávislé stejneˇ rozdelené náhodné veliˇciny s distribuˇcní funkcí F . Necht’ Mn = max(X1 , . . . , Xn ). Pˇredpokládejme, že existuje posloupnost reálných cˇ ísel an > 0 a bn tak, že posloupnost (Mn − bn )/an konverguje v distribuci, t.j. P ((Mn − bn )/an ≤ x) = F n (an x + bn ) → G(x), n → ∞, ˇ pro nejakou nedegenerovanou d.f. G(x) Jestliže podmínka platí, ˇríkáme, že F je ve sféˇre pˇritažlivosti G (maximum domain of attraction), F ∈ MDA(G).
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
Z ÁKLADNÍ PRINCIPY ˇ F ISHEROVA -T IPPETTOVA V ETA (1928)
Jestliže F ∈ MDA(G) potom G je typu jedné z následujících tˇrí d.f. 0, x≤0 γ>0 Fréchet Φ1/γ (x) = −1/γ , x>0 exp −x exp −(−x)1/γ , x ≤ 0 Weibull Ψ1/γ (x) = γ>0 1 x>0 Gumbel Λ(x) = exp (−e−x ) , x ∈ R.
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
Z ÁKLADNÍ PRINCIPY ˇ F ISHEROVA -T IPPETTOVA V ETA (1928)
Jestliže F ∈ MDA(G) potom G je typu jedné z následujících tˇrí d.f. 0, x≤0 γ>0 Fréchet Φ1/γ (x) = −1/γ , x>0 exp −x exp −(−x)1/γ , x ≤ 0 Weibull Ψ1/γ (x) = γ>0 1 x>0 Gumbel Λ(x) = exp (−e−x ) , x ∈ R. ˇ ENKO ˇ G N ED (1943)
ˇ Limitní rozdˇelení je zobecnˇené rozdelení extrémních hodnot. γ = 0 exp −(1 + γx)−1/γ G(x) = Gγ (x) = , γ=0 exp(−e−x ) kde 1 + γx > 0 G je urˇcena jednoznaˇcneˇ až na parametr polohy a mˇeˇrítka. Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
M ETHOD OF BLOCK MAXIMA Pˇredpokládáme, že data rozdˇelíme do bloku˚ obsahující n (velké) hodnot, bereme maximum v každém bloku a využijeme limitní ˇ výsledek, t.j. GEV rozdelení. Užití limitního rozdˇelení: Mn − bn ≤ x ≈ Gγ (x). P an n = Gγ,bn ,an (y). y = an x + bn ⇒ P (Mn ≤ y) ≈ Gγ y−b an Parametry odhadneme, napˇr. metodou maximální vˇerohodnosti
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
M ETHOD OF BLOCK MAXIMA zi − b L(b, a, γ) = −m log a − (1 + 1/γ) log 1 + γ a i=1 m
−1/γ m
zi − b − 1+γ a i=1
pro γ = 0 L(b, a) = −m log a −
m
zi − b i=1
a
−
m
i=1
exp
zi − b a
.
Neexistuje analytické ˇrešení.
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
L- MOMENTOVÁ METODA ˇ s distribuˇcní funkcí F (x) a Necht’ X1 , X2 , . . . Xn je náhodný výber kvantilovou funkcí Q(u) a necht’ X1:n ≤ X2:n ≤ Xn:n jsou poˇrádkové statistiky. L-momenty: λr =
r−1 r−1 1
(−1)k EXr−k:r , k r
r = 1, 2, . . .
k=0
EXj:r =
r! (j − 1)!(r − j)!
x (F (x))j−1 (1 − F (x))r−j dF (x)
λ1 = EX = λ2 = λ3 =
1
0
1 E(X2:2 − X1:2 ) = 2
Q(u)du
1 E(X3:3 − 2X2:3 + X1:3 ) = 3 Jan Picek
1 0
0
Q(u)(2u − 1)du 1
Q(u)(6u2 − 6u + 1)du
Odhady návratových hodnot pro srážková a teplotní data
L- MOMENTOVÁ METODA ˇ ˇ Pˇríklady L-momentu˚ nekterých rozdelení: ˇ Rovnomerné na (a, b) λ1 = 12 (a + b), λ2 = 16 (b − a), τ3 = 0, τ4 = 0 Normální N (µ, σ2 )
λ1 = µ, λ2 =
ˇ Gumbelovo rozdelení
F (x) = exp[− exp(−(x − ξ)/α)]
σ π , τ3
= 0, τ4 = 0.1226
λ1 = ξ + αγ, λ2 = α log 2, τ3 = 0.1699, τ4 = 0.1504, γ = 0.5772... konst. ˇ ˇ Zobecnené rozdelení extrémních hodnot (GEV)
1
F (x) = exp[−(1 − k(x − ξ)/α) k ] λ1 = ξ + α(1 − Γ(1 + k))/k, λ2 = α(1 − 2−k )Γ(1 + k)/k, τ3 = 2(1 − 3−k )/(1 − 2−k ) − 3, τ4 = . . . k > −1, Γ(.) oznaˇcuje gamma funkci Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
L- MOMENTOVÁ METODA ˇ Odhady: Výberový L−moment: lr =
−1
r−1
n r−1 ... r−1 (−1)k Xir−k :n , r k 1≤i1
k=0
r = 1, 2, . . . , n. Speciálnˇe: 1
Xi , n i=1 n
l1 =
l2 =
−1 1 n 2 2
(Xi:n − Xj:n )
i>j
−1
1 n l3 = (Xi:n − 2Xj:n + Xk:n ) 3 3 i>j>k
−1
1 n l4 = (Xi:n − 3Xj:n + 3Xk:n − Xl:n ) 4 4 i>j>k>l
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
L- MOMENTOVÁ METODA Odhady paramteru˚ – L-momentová metoda ˇ Rovnomerné na (a, b) a ˆ = l1 − 3l2 , a ˆ = l1 + 3l2 Normální N (µ, σ2 )
µ ˆ = l1 , = σ ˆ = π 1/2 l2
ˇ Gumbelovo rozdelení
F (x) = exp[− exp(−(x − ξ)/α)] ξˆ = l1 − αγ, ˆ α ˆ = l2 / log 2 γ = 0.5772... konst.
ˇ ˇ Zobecnené rozdelení extrémních hodnot (GEV)
1
F (x) = exp[−(1 − k(x − ξ)/α) k ] z = 2/(3 + t3 ) − log 2/ log 3, kˆ = 7.8590z + 2.9554z 2, ˆ ˆ ˆ − 2−k )Γ(1 + k)], α ˆ = l2 k/[(1 ˆ ˆ ˆ ˆ + k) − 1]/k ξ = l1 + α[Γ(1 Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
L- MOMENTOVÁ METODA Výhody:
ˇ u˚ odhady mohou mít lepší Pro malé a stˇrední rozsahy výber vlastnosti než metoda maximální vˇerohodnosti napˇr. simulaˇcní studie (Hosking, Wallis, Wood) ukazuje, že pro všechna k GEV z ˇ do 100 mají odhady menší cˇ i intervalu (-0.5,0.5) a rozsah výberu srovnatelnou stˇrední kvadratickou chybu ve srovnání s odhady ˇ maximální verohodností Výpoˇcetneˇ jednoduchá, metoda maximální vˇerohodnosti pro ˇ ˇ nekterá rozdelení obtížnˇe aplikovatelná Ve srovnání s konvenˇcní metodou momentu˚ ménˇe citlivá na odlehlá pozorování (u vyšších momentu), ˚ Neexistence vyšších konven cˇ ních momentu, ˚ L-momenty ano. napˇr. GEV pro k < −1/3 neexistují tˇretí a cˇ tvrté momenty
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
ˇ P RÍKLAD Pˇríklad: Roˇcní maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky)
10
20
100
1000
ˇ metoda max. verohodnosti
34.1
34.9
36.3
37.9
L-momentová metoda
34.2
35.0
36.7
38.6
ˇ GEV rozdelení
Maximální dosažená hodnota za sledované období 36.2.
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
ˇ P RÍKLAD Pˇríklad: Roˇcní maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky)
10
20
100
1000
ˇ metoda max. verohodnosti
34.1
34.9
36.3
37.9
L-momentová metoda
34.2
35.0
36.7
38.6
ˇ metoda max. verohodnosti
34.4
35.3
38.4
42.2
L-momentová metoda
34.2
35.0
37.8
41.4
ˇ GEV rozdelení
ˇ Gumbelovo rozdelení
Maximální dosažená hodnota za sledované období 36.2. Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
50
100
150
200
250
300
ˇ P RÍKLAD
1961
1970
1980
1990
2000
Maximální tˇrídenní úhrny srážek v letech 1961-2000 ve Valašském Mezi ˇríˇcí
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
S RÁŽKY - L IBERECKO Stanice
srpen 2010
roky (bez)
roky (s)
Hejnice
179.0
156.9 (53.4 - 24 809)
78.2 (36.8 - 2 612.5)
Mníšek
160.0
305.4 (67.8 - 95 119)
89.9 (38.2 - 8 117.3)
Chrastava
135.5
1337.9 (87.1 - 1.848x106 )
66.1 (28.9 - 4 427.8)
Maˇrenice
124.2
1250.8 (140.6 - 1.608x106 )
153.0 (54.6 - 23 530)
Bedˇrichov
112.0
17.3 (13.1 - 42.7)
15.9 (12.3 - 36.2)
Liberec
98.9
45.0 (24.8 - 535.1)
35.2 (21.4 - 200.6)
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
S RÁŽKY - L IBERECKO
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
POT METODA ˇ Necht’ X1 , X2 , . . . jsou nezávislé stejneˇ rozdelené náhodné veliˇciny s ditr. funkcí F . Je "rozumné" zahrnovat všechny hodnoty pˇrekraˇcující daný vysoký práh (threshold) u. Chování extrémních událostí je dáno ˇ podmínˇenou pravdepodobností P (Xi > y|Xi > u) a P (Xi < y|Xi > u) → H(y), u → uend , ˇ Paretovo rozdelení ˇ zobecnené ⎧ −1/γ ⎪ ⎨ 1 − 1 + γ x−µ σ H(x) = ⎪ x−µ ⎩ 1 − e −( σ ) kde 1 + γ
x−µ σ
γ = 0 , γ=0
> 0.
ˇ než dostateˇcneˇ vysoký práh (threshold) a Uvažujeme hodnoty vetší pˇredpokládáme, že asymptotický výsledek je pˇribližnˇe pravdivý, tj. ˇ ˇ užijeme zobecnené Paretovo rozdelení jako vhodný model. Metoda je známa jako ‘peaks-over-threshold’ (POT). Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
POT Pˇríklad: Roˇcní maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky)
10
20
100
1000
34.2
35.0
36.7
38.6
treshold 26.50
34.1
34.6
35.5
36.7
treshold 29.37
34.3
34.9
36.1
37.5
ˇ GEV rozdelení L-momentová metoda POT
Maximální dosažená hodnota za sledované období 36.2. Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
T REND V DATECH
When a significant trend is present in the data, no fixed threshold in the POT models is suitable over longer periods of time: there are either too few (or no) exceedances over the threshold in an earlier part of records or too many exceedances towards the end of the examined period.
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
T REND V DATECH Studovány maximální denní teploty v Evropˇe v letech 1961-2100 za úˇcelem odhadnout vysoké kvantily vysokých teplot. Použity výstupy ze dvou GCMs (‘Global Climate Models CM2.0 and CM2.1.) - denní simulovaná data pokrývající období 1961-2100 CM2.0 a CM2.1 jsou modely NOAA Geophysical Fluid Dynamics Laboratory. Mají horizontální rozlišení 2.5 × 2.0◦ (délka x šíˇrka) a 24 vertikálních úrovní. Pˇredpokládají vzrust ˚ koncentrace skleníkových plynu˚ - uvažuje se ˇ nekolik (7) scénáˇru. ˚ Pro každý uzlový bod a každý scénáˇr za období 2001-2100 byl threshold odhadnut jako 95% regresní kvantil. Soustˇredili jsme se 20-ti letou teplotu (20-yr return values), tj. na 95% kvantil (1-1/20) a srovnávali s "klasickými" POT modely uvažující 30leté periody 2021-2050 a 2071-2100 (jako threshold brán obvyklý 95% kvantil z dat daného období) Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
T REND V DATECH
Mean annual number of exceedances above the threshold (averaged over gridpoints) for the 95% regression quantile and the 95% quantile.
Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
T REND V DATECH
Differences between 20-yr return values of TMAX estimated using non-stationary POT model for year 2050 and stationary POT model over 2021-2050. Large (small) crosses mark gridpoints in which the estimated 90% (80%) CIs do not overlap. Jan Picek
Odhady návratových hodnot pro srážková a teplotní data
T REND V DATECH
Differences between 20-yr return values of TMAX estimated using non-stationary POT model for year 2100 and stationary POT model over 2071-2100. Large (small) crosses mark gridpoints in which the estimated 90% (80%) CIs do not overlap. Jan Picek
Odhady návratových hodnot pro srážková a teplotní data