ESTIMASI PARAMETER COPULA ARCHIMEDEAN DAN APLIKASINYA PADA KLIMATOLOGI Irwan Syahrir1 Ismaini Zaini, Heri Kuswanto2 1 Mahasiswa Magister Jurusan Statistika ITS, 2 Dosen Jurusan Statistika ITS. email :
[email protected]
ABSTRAK Dalam analisis hubungan antara dua variabel random dependen asumsi dasar yaitu data berdistribusi normal. Umumnya untuk mengetahui dependensi antara dua variabel digunakan korelasi Pearson. Namun seringkali dijumpai data yang tidak berdistribusi normal. Sebagai contoh data pada bidang klimatologi atau meteorologi. Dalam kasus data yang berdistribusi tidak normal dependensi antara kedua variabel tidak dapat dijelaskan hanya dengan korelasi Pearson. Untuk mengatasi masalah dependensi data yang tidak berdistribusi normal dapat digunakan pendekatan copula. Pendekatan pada copula memiliki kelebihan yaitu dapat menjelaskan dependensi antara variabel yang distribusinya tidak normal. Pada penelitian ini akan dikaji bagaimana estimasi parameter copula Archimedean khususnya pada model parametrik. Pendekatan metode copula akan diterapkan pada data iklim, yaitu kecepatan angin maksimum dan tekanan udara diatas permukaan air laut yang merupakan data observasi harian dari Stasiun Surabaya/Perak. Struktur model dependensi terbaik diberikan oleh copula Archimedean pada keluarga frank yang memberikan hasil estimasi parameter θ = 0,806412 dan nilai loglikelihood sebesar 14,80836. Kata kunci : distribusi tidak normal, korelasi Pearson, copula Archimedean, frank, klimatologi, parametrik
1.
Pendahuluan Di dalam analisis statistik biasanya diperlukan asumsi bahwa variabel randomnya
berdistribusi normal. Dalam kenyataannya sering pula ditemukan data yang tidak berdistribusi normal. Hal ini mengakibatkan beberapa permasalahan pada saat pengujian statistik. Pada kasus multivariat metode analisis yang sering dilakukan adalah dengan asumsi bahwa variabel randomnya berdistribusi normal multivariat. Pada penelitian di bidang meteorologi atau klimatologi seringkali dijumpai ketidaknormalan
dalam data. Sebagai contoh, data curah hujan, suhu, kelembaban
udara, tekanan udara, kecepatan angin. Menurut Schölzel (2008), data iklim seringkali 1
menghasilkan non Gaussian, misal curah hujan, kecepatan angin, liputan awan, atau kelembaban relatif, yang memiliki distribusi yang finite atau skew. Asumsi kenormalan distribusi dalam metode analisis statistik sangat diperlukan, karena untuk memudahkan dalam perhitungan metode estimasi. Misalnya korelasi Pearson yang digunakan untuk mencari hubungan antara 2 variabel yang diasumsikan berdistribusi normal. Padahal dalam data iklim banyak yang tidak memiliki distribusi normal, sehingga diperlukan metode pendekatan yang dapat menjelaskan hubungan antara 2 variabel yang tidak memiliki distribusi normal. Pada umumnya, kasus-kasus yang distribusinya tidak normal tidak terlalu diperhatikan atau bahkan dipaksakan dengan asumsi berdistribusi normal. Salah satu metode yang dapat digunakan untuk mengatasi masalah tersebut, yaitu pendekatan Copula (Sklar,1959). Metode ini memiliki flesibilitas, dimana distribusi marginal dari variabel-variabelnya dapat dibedakan atau bahkan dapat mengetahui distribusi variabel yang tidak diketahui. Teori tentang copula pertama kali diperkenalkan oleh Sklar (1959), kemudian berkembang dan diaplikasikan dalam berbagai bidang, misalnya: bidang keuangan, asuransi, ekonometrika, time series, dan lain sebagainya. Penelitian dengan pendekatan Copula di bidang hidrology dilakukan oleh Favre et al. (2004) dan Genest et al. (2007). Cherubini et al. (2004) dan Mcneil et al. (2005) juga melakukan penelitian dengan pendekatan copula di bidang keuangan dan asuransi. Copula dapat pula diaplikasikan dibidang ekonometrika dan time series, misalnya Patton (2002;2009). Penelitian di bidang klimatologi adalah dilakukan oleh Schölzel (2008). Schölzel (2008) menjelaskan pola distribusi dan fungsi densitas dari variabel random multivariat pada data temperatur, curah hujan dan kecepatan angin. Metode estimasi parameter copula dapat didekati pada model parametrik, semiparametrik dan non parametrik (Choroś et al. ,2010). Menurut Choroś et al. (2010), estimasi parameter copula dapat diperoleh dengan metode Maximum Likelihood Etimation (MLE). Sedangkan Charpentier et.al. (2006) memperkenalkan macam-macam prosedur estimasi densitas fungsi copula. Dalam bidang klimatologi, penelitian dengan menggunakan pendekatan copula belum banyak dilakukan. Pada penelitian iklim biasanya data diasumsikan berdistribusi normal, pada kenyataannya tidak berdistribusi normal. Asumsi kenormalan ini dilakukan 2
untuk memudahkan dalam perhitungan estimasinya. Pada pendekatan copula dependensi antara variabel yang distribusinya tidak normal dapat diatasi, sehingga estimasi parameternya dapat diketahui tanpa mengabaikan asumsi ketidaknormalan distribusinya. Dalam makalah ini akan dikaji estimasi parameter dependensi pada copula, khususnya copula archimedean. Struktur dependensi antara variabel iklim yaitu kecepatan angin maksimum dan tekanan udara diatas permukaan air laut akan dideskripsikan melalui pendekatan copula. Manfaat yang diharapkan dalam penelitian ini adalah memperkenalkan penggunaan metode copula sebagai metode alternatif untuk memodelkan struktur dependensi antara variabel iklim yang memiliki distribusi yang tidak normal, khususnya pada kasus bivariat. 2.
Teori Copula Diasumsikan suatu
d
dimensi vektor random X dengan fungsi distribusi
kumulatif marginal (marginal cumulative distribution) FX1 ,....., FXd dengan domain ℜ , yaitu nondecreasing FX1 (−∞) = 0 dan FX1 (∞) =1 . Teorema Sklar (1959) menyatakan bahwa
distribusi bersama FX dari vektor
random dapat ditulis sebagai fungsi dari
distribusi marginalnya sebagai berikut:
FX ( x) = C X ( FX1 ( x1 ),...., FX d ( xd ))
.................................................. (1)
dimana C X : [ 0,1] x... x [ 0,1] → [ 0,1] adalah fungsi distribusi bersama dari transformasi variabel random U j = FX j ( X j ) untuk j=1,…,d. Pada transformasi ini Uj selalu memiliki distribusi marginal yang uniform. Jika distribusi marginal kontinu, fungsi copula adalah unik (Nelsen,2006). Untuk penyederhanaan distribusi marginal diasumsikan kontinu dan fungsi distribusi FX1 ,....., FX m dapat diturunkan, meskipun
pendekatan ini dapat
diperluas pada campuran dari variabel random diskret dan kontinu. Dalam kasus ini, CX adalah uniq dan dapat dijelaskan dengan u1
um
0
0
C X (u1 ,..., ud ) = ∫ ... ∫ c X (u1 ,..., ud )d 1...uud ……………......……….. (2)
3
dimana u j = FX j ( x j ) . Fungsi CX dikatakan suatu copula dan cX merupakan persamaan densitas copula. Kadang-kadang densitas copula disebut juga dengan fungsi dependensi, karena menunjukkan dependensi antara variabel random. Berdasarkan teorema Sklar bahwa setiap densitas joint probabilitas
dapat
dituliskan sebagai hasil dari densitas marginal probabilitas dan densitas copula.
f X ( x) = f x1 ( x1 )... f X d ( xd ).c X (u1 ,..., ud ) …………..........……………….(3) Dari persamaan (3) tampak bahwa fungsi copula adalah fungsi distribusi multivariat dengan marginal uniform standar. Definisi dari bentuk parameter fungsi copula atau densitas copula terdiri dari beberapa kelompok yang merupakan keluarga copula. Dua kelompok penting yaitu keluarga elliptical copula dan archimedean copula. 2.1. Copula ellip (Elliptical Copula) Copula ellip adalah copula dengan distribusi ellip. Jika ada d dimensi copula ellip maka akan memiliki paling sedikit d(d-1)/2 parameter. Yang termasuk tipe copula ellip adalah copula normal atau Gaussian dan copula student-t. 2.2. Copula Archimedean (Archimedean Copula) Menurut Nielsen (1999), definisi copula archimedean ada 2 yaitu : Definisi 1 : Misal φ : [0,1]→[0,∞] adalah kontinu, menurun dan fungsi konvek sedemikian hingga φ (1) = 0 dan φ∞.(0)Fungsi = φ mempunyai invers φ [0,∞]→[0,1] dengan memiliki kesamaan seperti φ, kecuali bahwa
-1
:
φ (0) = 1 dan -1
φ-1(∞) = 0. Definisi 2 : Fungsi C :[0,1]d →[0.1] didefinisikan oleh:
C (u1 ,..., = ud ) φ −1 (φ (u1 ) + ... + φ (ud )) ......................................................(8) Persamaan (8) dikatakan sebagai copula Archimedean d-dimensi jika dan hanya jika φ −1 adalah monotonik sempurna pada [0,∞], yaitu
(−1) k
∂ k −1 φ (u ) ≥ 0 untuk k ∈ ∂u k .........................................................(9)
Menurut Nelsen (2006), fungsi φ dikatakan sebagai generator copula, dengan asumsi bahwa generator φ hanya memiliki satu parameter, yaitu θ. Copula Archimedean paling banyak digunakan dalam kasus bivariat. 4
a. Clayton
(b) Frank
(c) Gumbel
Gambar 1. Probabilitas fungsi densitas keluarga Archimedian (sumber : Schölzel,C., 2008) Gambar 1 menunjukkan perilaku tail yang berbeda-beda dari keluarga copula archimedean. Copula Clayton memiliki tail dependence lebih ke bawah, copula Frank tanpa tail dependence, dan copula Gumbel hanya memiliki tail dependence lebih ke atas. Keluarga copula Archimedean dapat diaplikasikan dengan baik pada bermacam-macam masalah riil dunia, seperti halnya bidang analisis risiko (Embrechts et al.,2001) dan juga dapat diaplikasikan pada bidang geosciences, klimatologi/meteorologi, dan lain-lain. Fleksibilitas copula Archimedean diberikan oleh fungsi generator φ , misal dari copula Clayton, frank dan Gumbel (Schölzel, 2008)
= φC (u )
1
θc
(u −θC − 1) , θ c > 0
(Clayton)
eθ F u − 1 = φF (u ) log θ F , θF ≠ 0 e −1 (− log u )θG , θG ≥ 1 φG (u ) =
(Frank)
………...…......…….(10)
(Gumbel)
Untuk copula archimedean pada kasus bivariat persamaan (8) dapat ditulis sebagai berikut,
C = (u1 , u2 ) φ −1 (φ (u1 ) + φ (u2 ) ) ...........................................................(11)
3. Estimasi Copula Menurut Mikosch (2006) estimasi parameter copula dapat diperoleh dengan metode Maximum Likelihood Estimation (MLE). Dengan mendeskripsikan parameter yang diberikan
copula
dan
distribusi
marginal,
memaksimumkan fungsi log likelihood.
5
estimasi
ML
diperoleh
dengan
Menurut teori Sklar(1959), f densitas dari d-dimensi F dengan margin univariat F1,F2,…,Fd dan densitas univariat f1,f2,…,fd dapat ditulis sebagai berikut. d
f ( x1 , x2 ,..., xd ) = c( F1 ( x1 ), F2 ( x2 ),..., Fd ( xd )∏ fi ( xi ) ………………............….(12) i =1
∂ d C (u1 , u2 ,..., ud ) Dimana c(u1 , u2 ,..., ud ) = adalah densitas dari d-dimensi copula ∂u1∂u2 ,..., ∂ud
C (u1 , u2 ,..., ud ;θ ) . Untuk kasus bivariat dengan d = 2, maka fungsi densitas marginal f1 dan f2 merupakan fungsi dari vektor parameter yang tidak diketahui θ ∈ ℜ p , c adalah densitas copula dan
f
adalah fungsi densitas bersama dengan vektor parameter tambahan
ρ ∈ ℜq , sehingga model fungsi likelihood dapat ditulis sebagai berikut
ln= h( x1 , x2 ;θ , ρ ) ln c( F1 ( x1 ;θ ), F2 ( x2 ;θ ); ρ ) + ln f1 ( x1 ;θ ) + ln f 2 ( x2 ;θ ) ............(13)
dimana parameter ρ menunjukkan dependensi keseluruhan antara dua variabel random. 4.
Estimasi Parameter Copula Archimedean Misal sampel (X1,Y1), (X2,Y2),...,(Xn,Yn) merupakan salinan iid (X,Y) dan
diasumsikan bahwa copula C yang berhubungan dengan (X,Y) adalah Archimedean dengan parameter α. Menurut Genest dan rivest (1993) untuk mengkonstruksi estimasi parameter α menggunakan observasi nilai Kendall’s tau. Pada copula Archimedean, Kendall’s tau dapat dihitung melalui persamaan berikut
φ (u ) du ........................................................................(14) φ ′(u ) 0
1
τ = 1 + 4∫
Estimasi parameter copula Archimedean pada keluarga clayton dapat diperoleh dengan persamaan (14). Jika fungsi generator copula Clayton adalah= φC (u )
φC′ (u ) = −u −θ
C −1
1
θc
(u −θC − 1) dan
, maka parameternya adalah
τ = 1 + 4∫
1
0
φ (u ) du φ ′(u )
(u −θC − 1) / θ c θ =1+4 ∫ du = C −θC −1 0 θC + 2 −u 1
6
.......................................................(15)
Untuk
copula
φG′ (u ) = −
gumbel
θG (− log(u ))θ u
τ = 1 + 4∫
1
0
fungsi
generatornya
adalah
φG (u ) = (− log u )θ
G
dan
G −1
, sehingga parameter dependensinya adalah sebagai berikut
φ (u ) du φ ′(u )
θ −1 (− log u )θG =1+4 ∫ du = G 0 −θ ( − log(u ))θG −1 / u θG G
..............................................(16)
1
5. Aplikasi dan Pembahasan Dalam penelitian ini akan diaplikasikan pendekatan copula pada data klimatologi. Variabel yang digunakan adalah variabel kecepatan angin maksimum dan tekanan udara diatas permukaan air laut. Sumber data diambil dari stasiun Surabaya/Perak yang merupakan data observasi harian selama 5 tahun yaitu dari tahun 2005-2009. Tekanan udara dan kecepatan angin merupakan bagian dari unsur iklim. Umumnya data pada unsur iklim memiliki distribusi yang tidak normal. Kedua variabel iklim tersebut memiliki hubungan yang saling mempengaruhi. Apabila tekanan udara di suatu daerah mengalami peningkatan atau perbedaan yang cukup tinggi, maka akan mengakibatkan terjadinya aliran udara yang bergerak dari daerah yang bertekanan udara tinggi ke daerah yang bertekanan udara rendah. Aliran udara atau yang disebut angin akan bergerak sesuai dengan besarnya perbedaan tekanan udara. Semakin tinggi perbedaan tekanan udara disuatu daerah semakin cepat pergerakan angin. Untuk mengetahui kenormalan data dan distribusi marginal dapat dilakukan dengan membuat histogram dari masing-masing variabel. Jika bentuk histogram simetri maka dikatakan data berdistribusi normal, tapi jika bentuk histogram tidak simetri dan memiliki tail yang panjang maka dikatakan data berdistribusi tidak normal. Hasil histogram dari kedua variabel menunjukkan ketaknormalan data.
7
Gambar 2. Histogram variabel kecepatan angin maksimum (wind_max) dan tekanan udara diatas permukaan air laut (SLP)
Untuk mengetahui pola hubungan kedua variabel dapat dibentuk scatter plot antar kedua variabel. Hasil scatter plot pada gambar 3, menunjukkan adanya plot-plot yang terkonsentrasi pada interval tertentu dan ada pula plot-plot yang outlier. Plot-plot yang terkonsentrasi dalam satu area menunjukkan adanya korelasi yang berdekatan. Sedangkan plot-plot yang outlier menunjukkan hubungan yang sangat jauh antar kedua variabel. Hubungan dependensi antar kedua variabel tidak dapat hanya dideskripsikan dengan korelasi pearson karena banyaknya outlier pada scatter plot. Untuk mengatasi hal tersebut maka struktur dependensi dapat dijelaskan dengan korelasi yang berbasis pada rank yaitu korelasi kendall tau atau spearman.
Gambar 3. Scatter plot antara Wind_max dengan SLP 8
Salah satu metode alternatif yang dapat digunakan untuk mengatasi permasalahan tersebut diatas, yaitu metode Copula. Pendekatan pada copula memiliki keuntungan yaitu dapat mendeskripsikan struktur dependensi antara kedua variabel yang memiliki perbedaan marginal dan bentuk tail dependen. Langkah pertama yang dilakukan untuk menganalisis menggunakan copula adalah mentransformasi variabel-variabelnya kedalam distribusi marginal uniform. Bentuk scatter plot hasil transformasi kedua variabel pada domain [0,1] adalah sebagai berikut:
Gambar 4. Scatter plot antara Wind_max dengan SLP pada transformasi uniform[0,1] Pada gambar 4 ditunjukkan bahwa kedua variabel adalah dependen, meskipun tingkat dependensinya kecil. Plot antar keduanya menunjukkan terkonsentrasi pada beberapa ruang interval yaitu pada ujung scatter, tetapi pada bagian interval tertentu diantara keduanya plot tidak jelas. Bagian plot yang tidak jelas mengindikasikan tail dependence. Dari sini dapat didefinisikan beberapa copula yang memiliki karakteristik bentuk tail dependence. Untuk mendapatkan informasi bentuk karakteristik keluarga copula, maka perlu dilakukan fitting model dengan plot yang men-generate 1759 sampel data dari kedua variabel, seperti gambar berikut:
9
(a). Copula Gumbel
(b) Copula Clayton
(c) Frank Copula
Gambar 5. Realisasi plot sampel dari keluarga gumbel ,clayton dan frank dengan θ =4 Pada gambar 5. ditunjukkan bahwa masing-masing keluarga copula archimedean memiliki karakteristik tail dependence yang berbeda. Copula gumbel memiliki tail dependence keatas, sedangkan copula clayton mempunyai tail dependence kebawah. Sebelum melakukani fitting model copula maka terlebih dulu mengestimasi koefisien korelasi dari kedua variabel tersebut dengan 3 metode, yaitu Pearson, Spearman dan Kendall. Tabel 1. Koefisien korelasi dengan 3 pengukuran Pearson
Kendall
Spearman
Correlation
0,1029126
0,09297176
0,1271521
p-value
1,528 x 10-5
5,398 x 10-8
8,759 x 10-8
Hasil pengukuran koefisien korelasi menunjukkan Spearman memiliki nilai yang paling besar sedangkan nilai Kendall paling kecil dibandingkan dengan lainnya. P-value dari ketiga pengukuran koefisien korelasi menunjukkan signifikan ( α <0,05), artinya antara kedua variabel memiliki korelasi. Estimasi parameter θ dan nilai loglikelihood dihitung untuk mengetahui model struktur dependensi yang terbaik pada copula. Hasil perhitungan pada copula archimedean keluarga Gumbel,Clayton dan Frank diperoleh sebagai berikut:
10
Tabel 2. Model fitting untuk copula archimedean Copula
Parameter θ
Z
Log likelihood
1,080630
64,80587
13,49719
Clayton
0,1192973
4,098504
8,338797
Frank
0,806412
5,6946
14,80836
Gumbel
Berdasarkan hasil tabel 2, maka model terbaik ditunjukkan oleh nilai log likelihood yang paling besar, yaitu model copula Frank. Dengan demikian dapat disimpulkan bahwa model yang paling tepat untuk menjelaskan struktur dependensi antara variabel kecepatan angin maksimum dan tekanan udara adalah model copula Archimedean pada keluarga Frank, yaitu dengan parameter θ =0,806412 dan nilai log likelihood sebesar 14,80836.
6. Kesimpulan Copula Archimedean dapat diaplikasikan untuk memodelkan struktur dependensi antara wind_maks dan SLP yang memiliki distribusi yang tidak normal. Copula dapat pula menangkap tail dependence dari kedua variabel. Copula Archimedean dari keluarga frank merupakan model terbaik untuk menjelaskan struktur dependensi antara variabel kecepatan angin maksimum (wind_max) dan tekanan udara diatas permukaan air laut (SLP).
7. Daftar Pustaka [1] Charpentier, A.,Fermanian,J.D., Scaillet, O. (2006). The Estimation of Copula: Theory and Practice, HEC Genève and Swiss Finance Institute. [2] Cherubini, U., Luciano, E. and Vecchiato, W. (2004).Copula Methods in Finance, Wiley. [3] Choroś,B.,Ibragimov, R.,Permiakova, E. (2010). Copula Estimation, Institute for statistics and Econometrics of Humboldt-Universität zu Berlin, Germany. [4] Embrechts, P., Lindskog, F., and McNeil, A. (2001). Modelling Dependence with Copulas and Applications to Risk Management, in: Handbook of Heavy Tailed Distributions in Finance, edited by: Rachev, S., 329–384., Elsevier. [5] Embrechts, P., Kl¨uppelberg, C., and Mikosch, T. (2003). Modelling Extremal Events for Insurance and Finance, Springer, Berlin. [6] Favre, A.C. - Adlouni, S. El. - Perreault, L. - Thiémonge, N. - Bobée, B. (2004)Multivariate Hydrological Frequency Analysis Using Copulas. Water Resour. Res., 40. 11
[7] [8]
[9] [10]
[11] [13] [12] [13] [14]
[15] [16]
[17]
Fermanian, J.-D. (2005). “Goodness-of-Fit Tests for Copulas”, J. Multivariat Anal., 95, 119–152. Frahm, G., Junker, M., and Schmidt, R. (2005), “Estimating The Taildependence Coefficient: Properties and pitfalls, Insurance”: Mathematics and Economics, 37, 80–100. Genest, C. and Favre, A.-C. (2007). “Everything You Always Wanted to Know about Copula Modeling but Were Afraid to Ask”, J. Hydrol.Eng.; 12;347–368. Genest, C., Favre, A.-C., B´eliveau, J., and Jacques, C. (2007), “Metaelliptical Copulas and Their Use in Frequency Analysis of Multivariat Hydrological data, Water Resour”. Res., 43, W09401, doi:10.1029/2006WR005275. Heffernan, J. E. (2000), “A Directory of Coefficients of Tail Dependence, Extremes”, 3, 279–290, doi:10.1023/A:1011459127975. McNeil, A.J., Frey, R. and Embrechts, P. (2005), “Quantitative Risk Management: Concepts,Techniques”, Tools. Princeton University Press, Princeton. Mikosch, T.: Copulas: Tales and facts, Extremes, 9, 3–20, doi:10.1007/s10687006-0015-x, 2006. Nelsen, R. B. (2006), “An Introduction to Copulas”, Springer, New York, 2nd edn. Patton, A. J. (2009). Copula-Based Models for Financial Time Series, 2009, in T.G.Andersen, R.A. Davis, J.-P. Kreiss and T. Mikosch (eds.) Handbook of Financial Time Series, Springer Verlag. Savu,C and Trede Mark (2006), “ Hierarchical archimedean Copulas”, Institute of Econometrics, University of Munster. Schölzel,C. (2008), “Multivariat non-normally distributed random variabel in climate research-introduction to the copula approach”, University of Born, Germany. Sklar,A. (1959), “Function de r’epartition ‘a n dimensionset leurs marger”, Publ. Inst. Statics. Univ Paris 8, 229-231.
12