Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
(S.4) PENDEKATAN METODE ALGORITMA GENETIK UNTUK IDENTIFIKASI MODEL ARIMA
Jimmy Ludin
Mahasiswa Program Magister Jurusan Statistika Fakultas Matematika Dan Ilmu Pengetahuan Alam Institut Teknologi Sepuluh Nopember Surabaya 2010 ABSTRAK Identifikasi model merupakan tahapan yang sangat penting dalam membangun model ARIMA karena kesalahan pada identifikasi model akan menyebabkan kesalahan pada tahap berikutnya yang mengakibatkan tingkat akurasi dari model yang dihasilkan sangat rendah. Metode yang biasa digunakan untuk mengidentifikasi model ARIMA yaitu metode correlogram yang mempunyai kelemahan yaitu plot-nya kadang tidak bisa menghasilkan lag yang jelas untuk diidentifikasi sehingga keputusan yang diambil biasanya bersifat subjektif. Untuk itu digunakan pendekatan metode Algoritma Genetika untuk mengidentifikasi model ARIMA secara efektif dan efisien. Dari penggunaan metode algoritma genetika tersebut, akan dilihat tingkat akurasinya dengan membandingkan terhadap metode correlogram. Hasil dari penelitian ini sangat bermanfaat untuk mengidentifikasi model ARIMA dan penerapannya. Kata Kunci : Deret Waktu, ARIMA, Algoritma Genetika.
1.
Pendahuluan
Pemodelan dari suatu data yang bersifat deret waktu sering digunakan pada berbagai bidang yang tujuannya antara lain untuk peramalan. ARIMA (Autoregressive Integrated Moving Average) merupakan metode yang diperkenalkan oleh Box–Jenkins untuk menganalisa dan memodelkan data deret waktu. Ada tiga tahap untuk membangun model ARIMA : (1) identifikasi model, (2) estimasi model dan (3) validasi model. Identifikasi model merupakan tahap yang paling penting dalam membangun model ARIMA, karena kesalahan pada identifikasi model akan menyebabkan kesalahan pada tahap estimasi model dan selanjutnya yang mengakibatkan tingkat akurasi dari model yang dihasilkan sangat rendah (Chatfield, C, 2000). Salah satu metode yang biasa digunakan untuk mengidentifikasi model ARIMA yaitu menggunakan plot fungsi autokorelasi partial (PACF) dan fungsi autokorelasi (ACF) atau disebut sebagai metode correlogram. Metode ini diperkenalkan oleh Box dan Jenkins yang digunakan untuk mengidentifikasi autoregressive (AR) dan moving average (MA) dari model ARIMA. Metode correlogram mempunyai beberapa kelemahan yaitu plot-nya kadang tidak bisa menghasilkan lag yang jelas untuk diidentifikasi sehingga keputusan yang diambil biasanya bersifat subjektif yang akan membuat hasilnya tidak stabil (Chatfield,
Manajemen Risiko di Bidang Perbankan dan Asuransi | 216
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
C, 2000), sehingga harus mencoba beberapa model ARMA untuk menghasilkan model terbaik. Cara ini sangat tidak efektif dan tidak efisien. Untuk mengatasi kelemahan tersebut, beberapa metode dapat digunakan untuk mendapatkan hasil identifikasi model ARIMA yang lebih efektif dan efisien. Salah satu metode yang bisa digunakan yaitu metode Algoritma Genetika yang telah banyak digunakan untuk membangun model ARIMA. Chen, dkk (2002) menggunakan metode algoritma genetika untuk mengestimasi maximum likelihood parameter dari model FARIMA. Kemudian Ong, dkk (2005) menggunakan metode algoritma genetika untuk mengidentifikasi model ARIMA. Pada makalah ini digunakan metode algoritma genetika untuk mengidentifikasi model ARIMA. Disamping itu, model hasil identifikasi menggunakan metode algoritma genetika akan dilihat tingkat akurasinya dengan membandingkannya dengan metode correlogram dengan menggunakan data jumlah penumpang angkutan udara yang datang dari luar negeri di bandara Soekarno Hatta Jakarta.
2.
Data Deret Waktu
Data deret waktu adalah sekumpulan data observasi yang variabelnya diukur dalam urutan periode waktu, misalnya bulanan, triwulanan, tahunan, dan sebagainya. Tujuan dari pengukuran data deret waktu adalah untuk menemukan pola data secara historis dan menerapkan pola tersebut untuk peramalan. Peramalan deret waktu didasarkan pada nilai variabel yang telah lalu. Pada makalah ini yang digunakan adalah deret waktu diskrit dimana observasinya tersusun berdasarkan periode bulanan.
2.1. Stasioner Menurut Box, Jenkins, dan Reissel (1994), untuk menggunakan model ARIMA, maka syarat utama yang harus dipenuhi adalah stasioneritas, baik dalam ratarata maupun varians. Data deret waktu dikatakan stasioner dalam varians jika variansnya tidak dipengaruhi oleh deret waktu atau variansnya konstan. Stastioner dalam rata-rata yaitu jika nilai rata-ratanya konstan dan tidak dipengaruhi oleh deret waktu (Makridakis dkk.,1999). Untuk mengatasi data yang tidak stasioner dalam varians, dapat dilakukan transformasi pada data. Transformasi yang biasa digunakan adalah transformasi BoxCox. Untuk mengatasi ketidakstasioneran data dalam rata-rata, maka dapat dilakukan proses differencing (Box, Jenkins, dan Reissel., 1994)
2.2. Model ARIMA Model ARIMA merupakan penggabungan antara model AR(p) dan MA(q) serta proses differencing orde d pada data deret waktu. Bentuk umum dari model ARIMA(p,d,q) adalah sebagai berikut : d φ p ( B )( 1 − B ) Z t = θq ( B ) at (1) dimana : φ p ( B ) =1 − φ1 B − ... − φ p B p
θq ( B ) =1 − θ1 B − ... − θ p B q (1 − B)d merupakan operator untuk differencing orde d.
Manajemen Risiko di Bidang Perbankan dan Asuransi | 217
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Jika pada data deret waktu terdapat komponen musim (s), maka model ARIMA akan menjadi Seasonal ARIMA atau biasa disingkat menjadi SARIMA dengan ordo ( P, D, Q) s . Bentuk umum dari model SARIMA adalah sebagai berikut : (2) Φ P ( B s )(1 − B s ) D Z t = Θ Q ( B s ) at dimana : Φ P = parameter seasonal autoregressive Θ Q = parameter seasonal moving average Dengan menggabungkan persamaan (2.13) dengan (2.14), maka akan diperoleh model multiplicative dengan bemtuk umumnya sebagai berikut : D
φ p ( B ) Φ P ( B s ) (1 − B ) (1 − B s ) Zt = θq ( B ) ΘQ ( B s ) at d
(3)
dimana : φ p ( B ) dan θq ( B ) , adalah polynomial dengan ordo p dan q untuk non-
seasonal, Φ P ( B s ) , dan Θ Q ( B s ) adalah polynomial dengan ordo P dan Q untuk seasonal, d dan D merupakan bentuk non-seasonal dan seasonal dari differencing yang digunakan. 2.3. Identifikasi model ARIMA menggunakan Correlogram Identifikasi model ARIMA bisa dilakukan dengan melihat plot ACF dan plot PACF yang dinamakan sebagai correlogram. Correlogram digunakan antara lain untuk menentukan lag yang signifikan dan untuk menentukan ordo p dan q dari model ARIMA. Bentuk-bentuk plot ACF dan PACF dalam mengindentifikasi model ARIMA adalah seperti pada Tabel 2.1. Tabel 2.1 Bentuk ACF dan PACF untuk model ARIMA Model
ACF
PACF
AR(p)
turun cepat secara eksponensial / sinusoidal
terputus setelah lag p
MA(q)
terputus setelah lag q
turun cepat secara eksponensial / sinusoidal
AR(p) atau MA(q)
terputus setelah lag q
terputus setelah lag p
ARMA(p,q)
turun cepat setelah lag (q-p)
turun cepat setelah lag (pq)
Sumber : (Wei, 1990).
2.4. Estimasi Parameter model ARIMA Dalam menaksir parameter model ARIMA ada beberapa metode yang dapat dilakukan, salah satunya yaitu metode Conditional Least Squares (Box, Jenkins, dan Reissel., 1994). Untuk mengetahui apakah parameter model ARIMA yang telah diestimasi signifikan atau tidak maka dilakukan pengujian signifikansi parameter dengan menggunakan uji-t.
2.5. Uji Asumsi Residual
Manajemen Risiko di Bidang Perbankan dan Asuransi | 218
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
White noise dilakukan untuk melihat apakah error yang dihasilkan memiliki varians konstan (identik) dan tidak ada autocorrelation. Hipotesisnya adalah sebagai berikut : H0 : ρ1 = ρ2 = ... = ρk = 0 H1 : minimal ada satu ρm yang tidak sama dengan nol untuk m = 1,2,...,k .
2.6. Akurasi Peramalan Data Time Series Akurasi peramalan dapat diukur dari nilai berikut diantaranya : - Mean Squared Error (MSE) yaitu rata-rata jumlah kuadrat error peramalan. Rumusnya adalah sebagai berikut : 2 1 n MSE = ∑ Zt − Zˆt (4) n t =1
(
3.
)
Algoritma Genetika
Algoritma Genetika menerapkan proses biologi dari rekombinasi genetika, mutasi, dan seleksi untuk mendapatkan solusi optimum. Algoritma Genetika sangat efektif dan efisien serta memiliki kemungkinan yang besar untuk mendapat solusi global optimum (Palit dan Popovic, 2005). Solusi yang didapatkan dengan algoritma genetika berupa kromosom yang disebut sebagai struktur data. Kromosom dapat berupa nilai biner, Integer, atau bilangan riil. Setiap kromosom mempunyai nilai ukuran berupa nilai fitness yang menyatakan solusi dari suatu permasalahan.
3.1. Representasi Kromosom Representasi kromosom adalah pembentukan dan pengkodean kromosom. Dalam satu kromosom terdapat beberap gen yang jumlahnya ditentukan sesuai kebutuhan. Kumpulan dari kromosom yang dibentuk merupakan populasi atau disebut sebagai generasi. Kromosom 1 Kromosom 2 Populasi Kromosom 3 Kromosom 4
1 0 0 1 1 0 0 1 1 0 1 1 1 0 0 1 1 0 0 0 1 1 1 1 0 0 0 1 1 1 0 0 1 1 0 0 1 1 0 0
Gambar 2.1. Populasi dengan kromosom bilangan biner Untuk membangun model ARIMA, maka didekati dengan model ARMA terlebih dahulu. Ada empat bagian dalam setiap kromosom yang harus dibentuk untuk menghasilkan bentuk AR, MA, seasonal AR dan seasonal MA. Misalnya, jika kromosom yang dihasilkan adalah (10110; 01010; 10001; 01110), maka model nya adalah SARMA (p,q)(P,Q)s yaitu SARMA ([1, 3, 4], [2, 4])([1, 5], [2, 3, 4])s.
Manajemen Risiko di Bidang Perbankan dan Asuransi | 219
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
3.2. Fungsi Fitness Fungsi fitness merupakan probabilitas suatu kromosom dapat tetap terpilih dalam generasi berikutnya. Semakin tinggi nilai fitness menunjukkan kromosom tersebut dapat bertahan dalam generasinya, sebaliknya semakin rendah nilai fitness maka suatu kromosom tidak dapat bertahan dalam generasinya. Fungsi fitness yang digunakan pada penelitian ini adalah : 1 f ( x) = (5) MSE
3.3. Seleksi Seleksi adalah proses memilih dua kromosom induk dari populasi yang akan digunakan dalam proses berikutnya yaitu crossover. Proses seleksi yang akan digunakan pada penelitian ini yaitu seleksi Boltzmann. Pada seleksi Boltzmann kemungkinan kromosom terpilih berdasarkan nilai fitness tiap kromosom dalam suatu populasi, makin besar nilai fitness, maka makin besar kemungkinan terpilih. Rumusnya adalah sebagai berikut : P( xi ) = exp[−( fmax − f ( xi )) / T ] (6) dimana : f ( xi ) adalah nilai fitness kromosom ke-i ; i = 1,2, … , G f max adalah nilai maksimum dari f ( xi )
T = T0 (1 − α ) k k = (1 + 100 g / G) g = current generation number G = nilai maksimum dari g α bernilai antara 0 dan 1 T0 bernilai antara 5 dan 100 3.4. Crossover Crossover mengkombinasikan dua induk hasil seleksi untuk mendapatkan keturunan. Tujuannya yaitu untuk memilih bagian terbaik dari kromosom sebelumnya. Salah satu proses crossover yaitu multi point crossover dimana ditentukan beberapa titik potong. Kemudian kromosom induk hasil seleksi dipotong. Kromosom baru dibentuk dari kromosom dari induk A sebelum titik potong dan dari induk B setelah titik potong dan sebaliknya. Ilustrasinya adalah sebagai berikut : Induk A Induk B Keturunan A Keturunan B
0 1 1 1 0 1
0 0 1 1 1 1
0 0
0 1 1 0 0 0
0 1 1 1 1 1 0 0 0 0 1 0 1 0 0 1 0 0 1 1
Gambar 2.2. Multi Point Crossover.
3.5. Mutasi
Manajemen Risiko di Bidang Perbankan dan Asuransi | 220
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Mutasi adalah proses menukar satu atau lebih gen dengan gen yang lain pada populasi untuk menghasilkan populasi baru. Banyaknya gen yang akan dimutasi tergantung besarnya persentase mutasi (Pm) dari jumlah gen dalam populasi. Mutasi dilakukan untuk mencegah terjebak pada solusi lokal optimum. Mutasi biasanya dilakukan dengan nilai Pm yang kecil. Kromosom 1 0 0 1 1 0 1 Kromosom 1 1 1 0 0 1 2 Populasi Kromosom 1 1 1 1 0 0 3 Kromosom 0 0 1 1 0 0 4 dilakukan mutasi menjadi Kromosom 1 1 0 1 1 0 1 Kromosom 1 1 1 1 0 1 2 Populasi Kromosom 1 1 1 1 0 0 3 Kromosom 0 0 0 1 0 0 4
0 1 1 0 1 0 0 0 0 1 1 1 1 1 0 0
0 0 1 0 1 0 0 0 1 1 1 1 1 1 0 0
Gambar 2.3. Proses Mutasi
3.6. Penghentian Proses (Kriteria Konvergen) Kriteria penghentian proses pencarian solusi antara lain yaitu jumlah maksimum generasi, lamanya waktu proses, dan tidak ada perubahan yang signifikan pada nilai fitness. Kriteria penghentian bisa juga merupakan gabungan dari kriteria tersebut dengan urutan tertentu. Pada penelitian ini proses akan dihentikan dengan menentukan jumlah maksimum generasi 50 dan 100. Pemilihan solusi optimum yaitu memilih satu kromosom dari generasi terakhir yang mempunyai nilai fitness maksimum.
4.
Metodologi
Metode penelitian yang digunakan sebagai langkah-langkah untuk mencapai tujuan dari penelitian ini adalah sebagai berikut : 1. Mengidentifikasi model ARIMA menggunakan metode correlogram dengan langkah sebagai berikut : a. Melihat stasioneritas data terhadap varians dan rata-rata. b. Identifikasi beberapa kemungkinan model yang bisa dibentuk dengan melihat lag yang signifikan pada plot ACF dan plot PACF. c. Mengestimasi Parameter menggunakan metode Conditional Least Square d. Menguji signifikansi parameter dari masing-masing model e. Memeriksa asumsi dari error dengan uji white noise dan uji Kolmogorov Smirnov. Bila tidak memenuhi asumsi, maka model diidentifikasi dengan model ARIMA yang lain.
Manajemen Risiko di Bidang Perbankan dan Asuransi | 221
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Membandingkan nilai MSE dari masing-masing model. Model yang menghasilkan nilai MSE minimum merupakan model terbaik. 2. Identifikasi model ARIMA menggunakan metode algoritma genetika dengan langkah-langkah sebagai berikut : a. Representasi kromosom dan menginisialisasikan jumlah kromosom dalam populasi. b. Menentukan dan Menghitung Fungsi Fitness c. Seleksi kromosom menggunakan seleksi Boltzmann d. Melakukan crossover terhadap kromosom hasil seleksi dengan metode multi point crossover e. Melakukan mutasi kromosom. f. Menghentikan proses jika sudah mencapai jumlah generasi maksimum g. Menentukan model terbaik berdasarkan nilai fitness yang paling besar 3. Membandingkan nilai MSE yang dihasilkan. Nilai yang minimum menunjukkan tingkat akurasi yang lebih tinggi. f.
Hasil dan Pembahasan Pertama yaitu melihat stasioneritas terhadap varians yang dapat dilihat pada gambar berikut :
Box-Cox Plot of JArr Lower CL
Time Series Plot of JArr
Upper CL Lambda
47500
400000
(using 95.0% confidence)
45000
Estimate
-0.52
Lower CL Upper CL
-2.03 1.14
Rounded Value
-0.50
350000
JArr
42500 StDev
5.
300000
40000 250000
37500 Limit
35000 -5.0
-2.5
0.0 Lambda
2.5
5.0
200000 Jan
Jul
Jan
Jul
Jan
Jul Jan Month
Jul
Jan
Jul
Jan
(b) (a) Gambar 5.1.(a). Melihat Stasioneritas terhadap Varians. (b). Melihat Stasioneritas terhadap Rata-rata. Pada gambar 5.1.(a) diatas terlihat bahwa nilai Lambda terletak antara -2,03 dan 1,14 yang berarti bahwa data tersebut sudah statsioner terhadap varians. Sehingga tidak perlu dilakukan transformasi terhadap data. Kemudian yang berikutnya yaitu melihat stasioneritas terhadap rata-rata dengan melihat plot data deret waktu pada gambar 5.1.(b). Pada gambar tersebut terlihat bahwa data tersebut tidak stasioner terhadap rata-rata, sehingga perlu dilakukan proses differencing 1 dan 12 terhadap data. Plot ACF dan plot PACF data deret waktu setelah dilakukan proses differencing yaitu sebagai berikut :
Manajemen Risiko di Bidang Perbankan dan Asuransi | 222
Partial Autocorrelation Function for C7
Autocorrelation Function for C7
(with 5% significance limits for the partial autocorrelations)
(with 5% significance limits for the autocorrelations)
1.0
1.0
0.8
0.8
0.6
0.6
0.4
0.4
Autocorrelation
Partial Autocorrelation
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
0.2 0.0 -0.2 -0.4
0.2 0.0 -0.2 -0.4
-0.6
-0.6
-0.8
-0.8
-1.0
-1.0
1
5
10
15
20
25 Lag
30
35
40
45
1
5
10
15
20
25 Lag
30
35
40
45
(a) (b) Gambar 5.2.(a). Plot Partial Autocorrelation Function. (b). Plot Autocorrelation Function. Berdasarkan plot ACF dan plot PACF diatas, maka model yang terbaik dengan metode Correlogram adalah model ARIMA (2,1,0)(1,1,1)12, sedangkan jika menggunakan metode Algoritma Genetika, maka model terbaiknya setelah dilakukan 12 generasi adalah SARIMA(0,1,1)(1,1,[3,4])12. Setelah menghitung kriteria pemilihan model terbaik, maka perbandingannya adalah sebagai berikut: Tabel 5.1. Perbandingan Model Correlogram dengan Model Algoritma Genetika Metode
Correlogram
Algoritma Genetika
Model
MSE
ARIMA(2,1,0)(2,1,1)12
505875660
ARIMA(2,1,0)(2,1,0)12
576576870
ARIMA(2,1,0)(0,1,1)12
524261720
ARIMA(2,1,0)(1,1,1)12
470685810
ARIMA(2,1,1)(1,1,1)12
526676055
ARIMA(0,1,1)(1,1,[3,4])12
458875974
ARIMA(1,1,0)(0,1,[1,3,4,5])12
502443463
ARIMA(0,1,1)([4],1,0)12
493225943
ARIMA(0,1,[1,3,5])(0,1,0)12
467770803
ARIMA(0,1,3)(0,1,0)12
459528628
Berdasarkan tabel diatas, identifikasi model menggunakan metode Algoritma Genetika dapat menghasilkan hasil yang lebih baik dibanding dengan metode correlogram. Kemudian hasil dari uji white noise menunjukkan bahwa asumsi tidak ada autokorelasi pada error di semua lag bisa dipenuhi, sehingga model identifikasi menggunakan Algoritma Genetika sesuai untuk data tersebut. Hasil uji asumsi error dengan uji white noise adalah sebagai berikut:
Manajemen Risiko di Bidang Perbankan dan Asuransi | 223
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Modified Box-Pierce (Ljung-Box) Chi-Square statistic Lag 12 24 36 48 Chi-Square 4.5 16.5 24.2 57.8 DF 8 20 32 44 P-Value 0.811 0.685 0.835 0.079 Terlihat diatas bahwa nilai P-value semuanya diatas 0,05 yang menunjukkan bahwa asumsi tidak ada korelasi antar error sudah terpenuhi.
6.
Kesimpulan dan Saran
Pada makalah ini digunakan pendekatan metode Algoritma Genetika untuk mengidentifikasi model ARIMA dari data deret waktu. Metode Algoritma Genetika menghasilkan tingkat akurasi yang lebih tinggi dibandingkan dengan metode correlogram. Pendekatan metode Algoritma Genetika ini bisa dikembangkan dengan menggunakan beberapa tipe operator yang digunakan dalam proses genetika dan membandingkan tingkat akurasi dan tingkat efisiensi dari penggunaan operator yang berbeda tersebut.
DAFTAR PUSTAKA
Box, G.E.P., Jenkins, G.M., dan Reissel, G.C., 1994. Time Series Analysis Forecasting and Control, edisi ketiga. Englewood Cliffs : Prentice Hall. Badan Pusat Statistik, 2004 – 2010, Indikator Ekonomi, Buletin Statistik Bulanan, Jakarta Chan, W.S, 1999, A comparison of some of pattern identification methods for order determination of mixed ARMA models, Statistics & Probability Letters 42 (1) 69–79. Chatfield, C, 2000, Time-Series Forecasting, Chapman &C Hall/CRC Chen, B.S., Lee, B.K., Peng, S.C., 2002, Maximum Likelihood Parameter Estimation of F-ARIMA Processes Using the Genetic Algorithm in the Frequency Domain, IEEE Transaction on Signal Processing, vol. 50 Gen, M., dan Cheng, R., 2000. Genetic Algorithms and Engineering Optimization, John Wiley & Son Inc, Canada. Makridakis, S., Wheelwright, S.C., dan McGee, V.E., 1999. Metode dan Aplikasi Peramalan, Jilid 1 Edisi Kedua, Terjemahan Ir. Hari Suminto, Bina Rupa Aksara, Jakarta.
Manajemen Risiko di Bidang Perbankan dan Asuransi | 224
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Ong, C.S., Huang, J.J., dan Tzeng G.H., 2005. Model identification of ARIMA family using genetic algorithms, Journal Applied Mathematics and Computation, 164, 885-912 Palit, A.K., Popovic, D., 2005, Computational Intelligence in Time Series Forecasting, Theory and Engineering Applications, Springer, Berlin Heidelberg New York Sivanandam, S.N., Deepa, S.N., 2008, Introduction to Genetic Algorithms, With 193 Figures and 13 Tables, Springer-Verlag Berlin Heidelberg Wei, W.W.S., 1990. Time Series Univariate and Multivariate Methods, Addison Wesley Publishing Company Inc, Canada. Wu, B., Chang, C.L., 2002, Using Genetic Algorithms to Parameter (d, r) Estimation for Threshold Autoregressive Models, Journal Computational Statistics and Data Analysis, 38, 315 – 330.
Manajemen Risiko di Bidang Perbankan dan Asuransi | 225