ESTIMASI DATA YANG HILANG DENGAN MENGGUNAKAN PROSES PENYARINGAN DALAM PEMODELAN DATA TIME SERIES Rais1 1Jurusan
Matematika FMIPA Universitas Tadulako, email:
[email protected]
Abstrak Makalah ini mengusulkan sebuah metode baru untuk memperkirakan data yang hilang dengan menggunakan proses penyaringan. Kami menggunakan data asli dan data yang hilang secara acak untuk mengevaluasi metode estimasi baru dengan menggunakan teknik pemodelan Box-Jenkins untuk memprediksi rata-rata curah hujan bulanan untuk Kota Palu. Data curah hujan dikumpulkan dari 1 Oktober 1973 sampai 31 Mei 2011 di Stasiun Badan Meteorologi Kota Palu. Data yang digunakan dalam pengembangan model untuk memprediksi curah hujan ditunjukkan oleh model autoregressive integrated moving average (ARIMA). Model untuk kedua kumpulan data adalah ARIMA(1,1,0)(0,1,1)12. Hasil peramalan diperiksa dengan uji sesungguhnnya, dengan menggunakan statistik Thiel’s dan diperoleh U = 0.895766 untuk data asli dan U = 0.726352 untuk data yang hilang, ini menunjukkan bahwa keduanya adalah model yang terbaik. Kata kunci: Model ARIMA, rata-rata curah hujan bulanan, proses penyaringan dan metode peramalan.
I.
Pendahuluan Time series adalah serangkaian pengamatan tercatat dalam suatu waktu. Model
Autoregressive Integrated Moving Average (ARIMA) sangat cocok untuk peramalan jangka pendek karena model ARIMA disusun dengan logis dan secara statistik akurat, memasukkan banyak informasi dari data historis, serta menghasilkan kenaikan akurasi peramalan dan pada waktu yang sama menjaga jumlah parameter seminimal mungkin (Jarret, 1991: 317). Sebuah data runtun waktu diamati secara teoritis terdiri dari dua bagian yaitu bagian pertama adalah data runtun waktu yang dihasilkan oleh proses umum dan data runtun waktu kedua yang merupakan hasil dari gangguan luar. Penghapusan kebisingan/gangguan adalah merupakan tujuan utama dari analisis time series. Dimana awal perkembangannya tujuannya untuk menghilangkan gangguan yang timbul dengan pendekatan autoregresif dan moving average teritegrasi atau pendekatan (ARIMA). Prosedur Box-Jenkins terdiri dari pelaksanaan atau penyelesaian dari beberapa langkah, atau tahap: Rumuskan model umum dan uji stasioner data, identifikasi model tentatif, estimasi parameter atas model tentatif, uji diagnostik apakah model sudah tepat jika ya maka gunakan model untuk peramalan dan jika tidak maka kembali ke identifikasi model tentatif. Dalam menguji kestasioneran suatu data dan menentukan model tentatif Box Jenkins melakukan dengan menganalisis fungsi autokorelasi (ACF) dan fungsi autokorelasi parsial (PACF) (2, 5). Estimasi untuk konstan dan parameter dari persamaan tersebut harus diperoleh. Metode ini menggunakan pendekatan iteratif yang mengidentifikasi kemungkinan model yang bermanfaat. Model terpilih, kemudian, dicek kembali
Estimasi Data Yang Hilang Dengan Menggunakan Proses Penyaringan Dalam Pemodelan Data Time Series
dengan data historis apakah telah mendeskripsikan data tersebut dengan tepat. Model “terbaik” akan diperoleh apabila residual antara model peramalan dan data historis memiliki nilai yang kecil, distribusinya random, dan independen (Hanke & Reitsch, 1998: 408). Tujuan utama dari penelitian ini adalah untuk menganalisis data yang dikumpulkan secara otomatis dan untuk mengevaluasi model prediktif dan kemudian menghasilkan seperangkat perkiraan untuk data stasiun metereologi di mana data yang dikumpulkan. Menurut Pankratz, di ruang kerjanya, metode Box-Jenkins menghasilkan ramalan yang terbaik untuk 74% dari data runtun waktu yang ia dievaluasi (4). Biaya yang terkait dengan pendekatan Box-Jenkins memberikan situasi tertentu umumnya lebih besar daripada banyak metode kuantitatif lainnya. Model Box-Jenkins adalah cara yang paling umum untuk mendekati peramalan dan tidak seperti model lainnya, tidak memerlukan asumsi, awalnya pola tetap dan tidak terbatas pada jenis pola tertentu. Model ini dapat dipasang untuk setiap himpunan data time series dengan memilih yang sesuai dengan nilai parameter p, d, q sesuai deret/series individu. Permasalah yang sering dihadapi dalam pengumpulan data adalah data observasi yang hilang atau pengamatan yang mungkin hampir mustahil untuk diperoleh, baik karena waktu atau kendala biaya. Dalam rangka untuk menggantikan observasi, ada beberapa pilihan yang tersedia bagi peneliti. Pertama, ganti dengan rata-rata seri. Kedua mengganti dengan bagian tengah ramalan. Bisa juga ganti dengan perkiraan trend sederhana. Atau ganti dengan rata-rata dua pengamatan terakhir yang diketahui dengan pengamatan yang hilang. II.
Deskripsi Pengumpulan Data Data
curah
hujan
dikumpulkan
dari
01
Oktober
1973
sampai
dengan
31
Mei
2011 di stasiun Meteorologi Kota Palu. Dalam penelitian ini data curah hujan dikumpulkan dan dicatat setiap hari. Jumlah bulanan dihitung dengan menjumlah semua jumlah curah hujan di bulan tersebut untuk setiap tahun. III. Metodologi Pengamatan Data yang Hilang Masalah yang sering dihadapi dalam pengumpulan data adalah serangkaian data yang hilang selama observasi. Dalam rangka untuk menggantikan pengamatan tersebut, ada beberapa pilihan berbeda tersedia untuk para peneliti. Pertama, ganti dengan rata-rata seri. Berarti ini dapat dihitung atas seluruh rentang sampel. Kedua, ganti dengan perkiraan yang sesungguhnya. Model yang sesungguhnya adalah bentuk paling sederhana dari model peramalan univariat, model ini menggunakan nilai periode waktu saat ini untuk peroide waktu berikutnya, yaitu
. Juga,
ganti dengan perkiraan trend sederhana. Ini adalah penyempurnaan dengan mengestimasi persamaan regresi dari bentuk Yt = a + b.t (dimana t adalah waktu) untuk periode sebelum nilai data yang hilang. Kemudian gunakan persamaan agar sesuai dengan periode waktu yang hilang, atau ganti dengan rata-rata dua pengamatan terakhir yang diketahui dengan pengamatan yang data yang
42
JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51
hilang. Makalah ini menyarankan metode baru untuk memperkirakan data yang hilang dengan menggunakan proses penyaringan (1). Proses penyaringan adalah: = Dimana
(1)
adalah bobot/berat dan M adalah jumlah pengamatan pada moving average.
Selanjutnya subtitusi
dimana
adalah korelasi keseluruhan data input. selanjutnya model
moving average (MA) dapat ditulis sebagai berikut: (2) Dimana
adalah data pengamatan. Selanjutnya untuk mengubah data lengkap menggunakan
persamaan (2) dan selanjutnya membangun model yang tepat. Selanjutnya diasumsikan bahwa ada jarak lubang secara acak dalam data. Jika
yang terlewat (dimana s adalah indeks dari lubang),
kita subtitusi rata-rata data lengkap bukan
lalu kita menghitung nilai masa depan, berdasarkan
persamaan (3) berikut: (3) Kemudian kami membangun model untuk data yang berisi lubang. Menerapkan model yang sama pada data baru, selanjutnya membandingkan hasil model untuk kedua kumpulan data dengan menggunakan model Box-Jenkins ARIMA pada bagian berikutnya. IV.
Model Box-Jenkins Model ARIMA Metode Box - Jenkins adalah sebuah prosedur untuk menentukan nilai model untuk masa
yang lalu pada data time series dan nilai-nilai kesalahan yang lalu. Pendekatan Box-Jenkins terdiri dari prediksi ekstra dari data yang diamati melalui serangkaian iterasi. Model ARIMA yang paling umum mempunyai tiga parameter yaitu p, d, dan q dimana p adalah jumlah parameter autoregressive, d adalah jumlah parameter pembeda dan q adalah jumlah parameter moving average. Secara umum model ARIMA(p,d,q) adalah: (4) Dimana :
dan
Dalam hal ini: adalah operator autoregressive yang diasumsikan stasioner,
adalah operator moving
average diasumsikan dapat diinverskan. Dari persamaan (4) model ARIMA(p,d,q)
dapat ditulis
sebagai berikut: (5) Dimana:
t : adalah waktu periodik,
: adalah nilai numerik dari pengamatan
: untuk i = 1, 2, ... p adalah parameter autoregressive : untuk j = 1, 2, ..., q adalah parameter moving average,
43
: adalah nilai eror/galak pada waktu t
Estimasi Data Yang Hilang Dengan Menggunakan Proses Penyaringan Dalam Pemodelan Data Time Series
Untuk mengestimasi parameter
dan
untuk campuran p tetap dan q kita melakukan persamaan
regresi linear berganda dengan metode kuadrat terkecil (6) G a mb a r 1 : Plo t D a t a T ime Se r ie s C u r a h H u ja n 400
Curah Hujan
300
200
100
0 1
45
90
135
180
225 Har i
270
315
360
405
450
Ada dua tahap untuk mengidentifikasi dengan tepat sebuah model Box-Jenkins: mengubah data jika perlu menjadi data time series yang stasioner dan menentukan Model tentatif dengan mengamati perilaku pada fungsi autokorelasi (ACF) dan autokorelasi parsialnya (PACF). Data time series stasioner adalah bahwa data tersebut tidak mengandung nilai tren, yaitu, data tersebut berfluktuasi disekitar nilai rata-rata konstan. Dengan melihat pada suatu kurun waktu plot (lihat gambar 1 plot data tanpa transformasi). Dari gambar 1 terlihat bahwa data curah hujan tidak stasioner sehingga membutuhkan transformasi untuk membuat data menjadi stasioner. Dengan menggunakan transformasi differencing maka data menjadi stasioner seperti seperti terlihat pada gambar (2).
Gambar 2: Plot Data Hasil Transformasi
800,000 600,000 400,000 200,000 0 -200,000 -400,000 -600,000 -800,000 1975
1980
1985
1990
1995
2000
2005
2010
44
JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51
Perbedaan yang pertama adalah untuk bagian musiman oleh pengurangan nilai dari dua pengamatan berdekatan dalam seri yaitu, perbedaan dengan operator pembeda sebagai berikut
untuk musiman. Kita dapat menulis . Setelah transformasi, jelas bahwa
pengamatan berfluktuasi sekitar rata-rata konstan. Box-Jenkins menunjukkan bahwa jumlah lag yang diperlukan dalam analisis tidak lebih dari n/4 dimana n adalah banyaknya data pengamatan, ukuran koefisien autokorelasi diukur berdasarkan korelasi antara beberapa pengamatan dan sekumpulan pengamatan yang tertinggal dalam sebuah time series. Autokorelasi antara ukuran korelasi antara pasangan Koefisien
adalah sebuah perkiraan
dan
. Sampel autokorelasi. dimana (7)
dengan :
: data dari time series stasioner.,
: data dari periode waktu k didepan t
: rata-rata dari time series stasioner. Tabel 1: Plot ACF dan PACF untuk data asli
Estimasi fungsi autokorelasi parsial PACF digunakan sebagai panduan, selanjutnya dengan fungsi autokorelasi diperkirakan ACF, digunakan untuk memilih satu atau lebih Model ARIMA yang mungkin cocok dengan data yang tersedia. Gagasan analisis autokorelasi parsial adalah bahwa kita
45
Estimasi Data Yang Hilang Dengan Menggunakan Proses Penyaringan Dalam Pemodelan Data Time Series
ingin mengukur
seberapa besar keterkaitan antara
dan
. Persamaan yang memberikan
perkiraan yang baik dari autokorelasi parsial adalah (8) untuk k, = 3, 4, ...; j = 1, 2, ..., k-1. Kita bisa menemukan bentuk ACF dan PACF dalam sebuah model musiman seperti pada gambar (3) dan (4). Jadi, perkalian musiman model ARIMA(p, d, q)×(P, D, Q)s adalah generalisasi dan dianggap sebagai perpanjangan metode untuk barisan dimana pola musiman berulang dari waktu ke waktu, dimana parameter (p,d,q) adalah bukan untuk data musiman dan parameter (P, D, Q)s adalah untuk data musiman. Setelah data time series stasioner (pemotongan ACF berhenti atau menurun dengan cepat), kita bisa mengidentifikasi model sementara dengan memeriksa perilaku ACF dan PACF. Dalam model campuran baik ACF dan PACF menurun secara eksponensial. Angka-angka dari ACF dan PACF seperti pada tabel 1. V.
Hasil Statistik-t seperti pada Tabel 2 dan juga dalam Tabel 3. terkait dengan
dan
yang lebih
besar dari nilai mutlak 2, hal ini menunjukkan bahwa parameter harus disimpan dalam model untuk kedua kumpulan data. Kami menyimpulkan dari tabel 2 dan 3 bahwa model pertama untuk data lengkap adalah , dan model untuk data yang hilang adalah . Tabel 2: Estimasi Parameter Untuk Data Asli
Pada tahapan estimasi, kita mendapatkan perkiraan yang tepat dari jumlah parameter. Berdasarkan plot ACF terlihat nilai puncak pada lag 1, sementara PACF meluruh secara uniform (tabel 1), sehingga model yang tepat untuk menggambarkan data ini adalah MA(1) . sementara jika diamati lag 12, 24 36 terlihat adanya komponen musiman, menidikasikan perlunya komponen musiman dalam model, baik dalam bentuk perkalian atau penjumlahan. Disimpulkan bahwa model yang tepat adalah ARIMA(1,1,0) (0, 1, 1)12. Kami cocok model ini untuk data untuk mendapatkan estimasi parameter yang tepat:
untuk bagian AR nonmusiman, dan
average untuk parameter musiman. Nilai rata-rata
untuk koefisien moving
dari model sejak rata-rata seri bekerja sebesar 46
JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51
0,00207 dan standar deviasi sebesar 0.897664 untuk data lengkap dan untuk kumpulan data yang hilang rata-rata sebesar -0,00051 dan standar deviasi sebesar 0,889339. Tabel 3: Estimasi Parameter Untuk Data Yang Dibangkitkan
V.1 Pengujian Diagnostik Tahap selanjutnya adalah pemeriksaan diagnostik, kami menggunakan statistik Ljung-Box dinotasikan dengan Q* seperti pada Persamaan (9) untuk memeriksa kecocokan/keakuratan model dengan memeriksa residual autokorelasi ACF dan residual autokorelasi parsial PACF. (9) dimana n' = (n-d) dengan n adalah jumlah observasi dalam data time series asli,
adalah
sampel autokorelasi dari residual pada lag l dan d adalah derajat differencing nonmusiman digunakan untuk mengubah nilai-nilai data time series nonstasioner menjadi data time series stasioner. Nilai p-value mempunyai hubungan dengan Q* menunjukkan bahwa model. adalah cukup untuk data lengkap selanjutnya karena nilai p lebih besar dari 0,05 dan kurang dari chi square untuk nilai K sebesar 6,12, 18, 24 dan 36. Nilai p adalah area di bawah kurva distribusi chi-kuadrat yang memiliki 5 derajat kebebasan di sebelah kanan Q* = 7,2364 dengan nilai p adalah 0,065, ini menunjukkan bahwa p-value = 0,065 > 0,05 =
, kita tidak dapat menolak kecukupan model dengan mengambil nilai
menunjukkan bahwa membandingkan p-value dengan seperti membandingkan Q* dengan
=0,05 ini
menghasilkan kesimpulan yang sama
. Disini terlihat ACF dan PACF tidak signifikan,
yakni residual dari model bersifat white noise, dan statistik Q* (amati lag > 3 dengan taraf signifikan ) pada tabel 4 di atas, bersifat tidak signifikan karena nilai probabilitasnya lebih dari 0,05, kecuali pada lag 3 dan 4. Menurut hipotesis H0 diterima, artinya tidak terdapat korelasi serial dalam residual dari hasil estimasi dengan model yang diamati. Demikian pula kita mendapatkan Q* untuk model dengan data yang hilang. Dalam rangka untuk memperkirakan logaritma alami dari jumlah curah hujan bulanan dalam 2 tahun ke depan (bulan 451 sampai 470), kami mencatat bahwa sejak dimana Dan model 47
kita dapat mengekspresikan model untuk data lengkap
Estimasi Data Yang Hilang Dengan Menggunakan Proses Penyaringan Dalam Pemodelan Data Time Series
untuk data dengan lubang. Untuk mengestimasi parameter model digunakan metode kuadrat terkecil, ramalan ditunjukkan dalam tabel (5). Beberapa model diperiksa. Hasil estimasi jumlah curah hujan bulanan peramalan curah hujan dengan interval kepercayaan 95% adalah disajikan dalam tabel (5).
Tabel 4: Plot ACF dan PACF of residual untuk data asli Q-statistic probabilities adjusted for 2 ARIMA term(s)
V.2 Statistik Theil's untuk Akurasi Ramalan Ketepatan ramalan itu diperiksa dengan menggunakan uji Theil's U yang membandingkan akurasi model ARIMA dengan model sesungguhnya. Untuk menguji akurasi model digunakan nilai aktual untuk jangka waktu terkahir
sebagai perkiraan untuk
, untuk menghitung nilai Theils U
dapat menggunakan persamaan (10) sebagai berikut (10) 48
JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51
dimana (RMSE) adalah Akar dari Rata-rata Squared Error, secara matematis didefinisikan seperti persamaan. (11). Berikut ini (11) dimana n adalah jumlah observasi dan e adalah kesalahan error, Tabel 5 : Hasil ramalan data asli dan data yang hilang Priode
Data Asli (95% Limits) Ramalan
Lower
Upper
Data yang Hilang (95% Limits) Aktual
Ramalan
Lower
Upper
Aktual
451
54.676
-29.788
139.141
36.58
39.653
-43.345
122.652
36.58
452
49.508
-36.866
135.882
56.64
35.734
-47.827
119.294
56.64
453
48.131
-39.261
135.524
27.43
40.654
-42.906
124.215
27.43
454
44.79
-43.151
132.731
40.937
-42.623
124.497
455
43.455
-44.782
131.692
43.341
-40.22
126.901
456
42.818
-45.579
131.215
45.438
-38.122
128.998
457
40.514
-47.971
128.998
43.868
-39.692
127.429
458
35.286
-53.246
123.817
39.365
-44.195
122.925
459
33.032
-55.525
121.589
37.152
-46.408
120.712
460
34.145
-54.426
122.716
38.843
-44.717
122.403
461
41.44
-47.138
130.019
47.497
-36.063
131.057
462
37.075
-51.508
125.657
43.61
-39.95
127.17
463
34.27
-54.725
123.265
39.128
-44.856
123.112
464
33.065
-55.956
122.086
38.474
-45.516
122.464
465
31.651
-57.384
120.687
36.932
-47.058
120.922
466
31.113
-57.93
120.156
36.843
-47.147
120.833
467
30.473
-58.575
119.52
36.09
-47.9
120.08
468
29.926
-59.124
118.975
35.432
-48.558
119.422
469
29.92
-59.131
118.971
35.924
-48.066
119.914
470
30.68
-58.372
119.731
37.336
-46.654
121.326
Hasil peramalan dapat dilahat pada gambar 3 untuk kedua model ARIMA(1,1,0) (0, 1, 1)12 dan untuk model sesungguhnya MSE dan RMSE.statistik Theil adalah U = 0.895766 untuk data asli dan U = 0.726352 untuk data yang hilang. Ini adalah kurang dari 1, berarti model yang dipilih adalah model yang baik. Statistik Theil's U jika nilainya besar dari 1 menunjukkan bahwa model peramalan lebih buruk daripada model sesungguhnya, dan jika nilai kurang dari 1 mengindikasikan bahwa lebih baik. U dekat dengan 0 model yang terbaik yang kita miliki. Kami mengamati bahwa nilai-nilai sekitar
49
Estimasi Data Yang Hilang Dengan Menggunakan Proses Penyaringan Dalam Pemodelan Data Time Series
dekat satu sama lain yang berarti bahwa metode yang digunakan untuk memperkirakan data yang hilang lebih baik setidaknya pada data yang digunakan dalam jurnal ini. 400
Curah Hujan
300
200
100
0
1
36
72
108
144
180
216 252 H ar i
288
324
360
396
432
468
Gambar 3. Grafik hasil peramalan untuk data asli VI.
Kesimpulan Makalah ini menyelidiki penerapan teknik Box dan Jenkins untuk meramalkan bulanan rata-
rata curah hujan di stasiun Pinang dengan menggunakan saran baru metode untuk memperkirakan nilai hilang. Model parameter tersebut diestimasi dengan menggunakan model Autoregresif Integrated Moving Average (ARIMA) dalam suatu periode dari 1 Oktober 1973 sampai 31 Mei 2011. Model diuji dalam peramalan dengan mengamati jumlah curah hujan bulanan pada periode yang sama. hasil estimasi parameter model ARIMA untuk peramalan jumlah curah hujan bulanan adalah model ARIMA(1,1,0) (0, 1, 1)12. Selanjutnya dibandingkan hasil dari model tersebut kedalam dua kumpulan data yaitu data asli dan data yang hilang. Persamaan untuk model data asli adalah , dan model dengan data yang hilang adalah Hasilnya diperiksa sehubungan dengan uji sesungguhnya, yaitu nilai Theil U = 0.895766 untuk data asli dan untuk data yang hilang nilai Theil U = 0,726352 itu berarti hasilnya tertutup satu sama lain, artinya model ARIMA(1,1,0) (0, 1, 1)12
adalah model yang baik. Hasil penelitian
menunjukkan bahwa teknik deret waktu dapat digunakan untuk mengembangkan akurat perkiraan jangka pendek dari jumlah curah hujan bulanan tergantung pada pengamatan terakhir untuk stasiun Meteorologi Kota Palu. VII.
Daftar Pustaka
1 Gencay R., Selcuk F. and Whitcher B. (2002). An Introduction to Wavelets and other filtering
methods in finance and economics, Permissions Department, Harcourt, Inc. 50
JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51
2 James W. T. and Kurtz, T. G. (2007). A Comparison of Univariate Time Series Methods for
Forecasting Intraday Arrivals at a Call Center. Said Business School, University of Oxford. Mahir & Al-Khazaleh /Estimation of missing data by using the filtering process in
a time serie1s2 3 John C. B. and David A. D. (2003). SAS for Forecasting Time Series, Second Edition. Cary, NC: Institute Inc. 4 Pankratz A. (1983). Forecasting with Univariate Box-Jenkins Models, Wiley New York. 5 Patricia E G. (1994). Introduction to Time Series Modeling and Forecasting in Business and
Economics, Cgraw-Hill M. Inc. 6 Richard T. B.,Sfetsos A. and Sang-Kuck Ch.(2002). Modeling and forecasting from trend-
stationary long memory models with applications to climatology 1. International Journal of Forecasting, Vol. 18, issue 2 pp. 215-226. 7 Rais, 2005, Kriteria Kesesuaian Model Untuk Penentuan Arsitektur Optimal Pada Neural Network
Untuk Pemodelan Time Series, Tesis Yogyakarta. 9
......... 2008, Kriteria Kesesuaian Model Untuk Penentuan Arsitektur Optimal Model Neural
Network Backpropagation Untuk Indeks Harga Saham Gabungan , Jurnal Ilmiah Matematika dan Terapan Vol. 5 No. 1 hal 1 – 11. 8
Sabry M.,Abd - El - 1 1 Latif H. ,Yousif S. and Badra N.(2007). Use of Univariate Box and
Jenkins Time Series Technique in Rainfall Forecasting 1 . Australian Journal of Basic and Applied Sciences, (4) pp. 386-394.
51