ESTIMASI DATA YANG HILANG DENGAN MENGGUNAKAN PROSES PENYARINGAN DALAM PEMODELAN DATA TIME SERIES

ESTIMASI DATA YANG HILANG DENGAN MENGGUNAKAN PROSES PENYARINGAN DALAM PEMODELAN DATA TIME SERIES Rais1 1Jurusan

Matematika FMIPA Universitas Tadulako, email: [email protected]

Abstrak Makalah ini mengusulkan sebuah metode baru untuk memperkirakan data yang hilang dengan menggunakan proses penyaringan. Kami menggunakan data asli dan data yang hilang secara acak untuk mengevaluasi metode estimasi baru dengan menggunakan teknik pemodelan Box-Jenkins untuk memprediksi rata-rata curah hujan bulanan untuk Kota Palu. Data curah hujan dikumpulkan dari 1 Oktober 1973 sampai 31 Mei 2011 di Stasiun Badan Meteorologi Kota Palu. Data yang digunakan dalam pengembangan model untuk memprediksi curah hujan ditunjukkan oleh model autoregressive integrated moving average (ARIMA). Model untuk kedua kumpulan data adalah ARIMA(1,1,0)(0,1,1)12. Hasil peramalan diperiksa dengan uji sesungguhnnya, dengan menggunakan statistik Thiel’s dan diperoleh U = 0.895766 untuk data asli dan U = 0.726352 untuk data yang hilang, ini menunjukkan bahwa keduanya adalah model yang terbaik. Kata kunci: Model ARIMA, rata-rata curah hujan bulanan, proses penyaringan dan metode peramalan.

I.

Pendahuluan Time series adalah serangkaian pengamatan tercatat dalam suatu waktu. Model

Autoregressive Integrated Moving Average (ARIMA) sangat cocok untuk peramalan jangka pendek karena model ARIMA disusun dengan logis dan secara statistik akurat, memasukkan banyak informasi dari data historis, serta menghasilkan kenaikan akurasi peramalan dan pada waktu yang sama menjaga jumlah parameter seminimal mungkin (Jarret, 1991: 317). Sebuah data runtun waktu diamati secara teoritis terdiri dari dua bagian yaitu bagian pertama adalah data runtun waktu yang dihasilkan oleh proses umum dan data runtun waktu kedua yang merupakan hasil dari gangguan luar. Penghapusan kebisingan/gangguan adalah merupakan tujuan utama dari analisis time series. Dimana awal perkembangannya tujuannya untuk menghilangkan gangguan yang timbul dengan pendekatan autoregresif dan moving average teritegrasi atau pendekatan (ARIMA). Prosedur Box-Jenkins terdiri dari pelaksanaan atau penyelesaian dari beberapa langkah, atau tahap: Rumuskan model umum dan uji stasioner data, identifikasi model tentatif, estimasi parameter atas model tentatif, uji diagnostik apakah model sudah tepat jika ya maka gunakan model untuk peramalan dan jika tidak maka kembali ke identifikasi model tentatif. Dalam menguji kestasioneran suatu data dan menentukan model tentatif Box Jenkins melakukan dengan menganalisis fungsi autokorelasi (ACF) dan fungsi autokorelasi parsial (PACF) (2, 5). Estimasi untuk konstan dan parameter dari persamaan tersebut harus diperoleh. Metode ini menggunakan pendekatan iteratif yang mengidentifikasi kemungkinan model yang bermanfaat. Model terpilih, kemudian, dicek kembali

Estimasi Data Yang Hilang Dengan Menggunakan Proses Penyaringan Dalam Pemodelan Data Time Series

dengan data historis apakah telah mendeskripsikan data tersebut dengan tepat. Model “terbaik” akan diperoleh apabila residual antara model peramalan dan data historis memiliki nilai yang kecil, distribusinya random, dan independen (Hanke & Reitsch, 1998: 408). Tujuan utama dari penelitian ini adalah untuk menganalisis data yang dikumpulkan secara otomatis dan untuk mengevaluasi model prediktif dan kemudian menghasilkan seperangkat perkiraan untuk data stasiun metereologi di mana data yang dikumpulkan. Menurut Pankratz, di ruang kerjanya, metode Box-Jenkins menghasilkan ramalan yang terbaik untuk 74% dari data runtun waktu yang ia dievaluasi (4). Biaya yang terkait dengan pendekatan Box-Jenkins memberikan situasi tertentu umumnya lebih besar daripada banyak metode kuantitatif lainnya. Model Box-Jenkins adalah cara yang paling umum untuk mendekati peramalan dan tidak seperti model lainnya, tidak memerlukan asumsi, awalnya pola tetap dan tidak terbatas pada jenis pola tertentu. Model ini dapat dipasang untuk setiap himpunan data time series dengan memilih yang sesuai dengan nilai parameter p, d, q sesuai deret/series individu. Permasalah yang sering dihadapi dalam pengumpulan data adalah data observasi yang hilang atau pengamatan yang mungkin hampir mustahil untuk diperoleh, baik karena waktu atau kendala biaya. Dalam rangka untuk menggantikan observasi, ada beberapa pilihan yang tersedia bagi peneliti. Pertama, ganti dengan rata-rata seri. Kedua mengganti dengan bagian tengah ramalan. Bisa juga ganti dengan perkiraan trend sederhana. Atau ganti dengan rata-rata dua pengamatan terakhir yang diketahui dengan pengamatan yang hilang. II.

Deskripsi Pengumpulan Data Data

curah

hujan

dikumpulkan

dari

01

Oktober

1973

sampai

dengan

31

Mei

2011 di stasiun Meteorologi Kota Palu. Dalam penelitian ini data curah hujan dikumpulkan dan dicatat setiap hari. Jumlah bulanan dihitung dengan menjumlah semua jumlah curah hujan di bulan tersebut untuk setiap tahun. III. Metodologi Pengamatan Data yang Hilang Masalah yang sering dihadapi dalam pengumpulan data adalah serangkaian data yang hilang selama observasi. Dalam rangka untuk menggantikan pengamatan tersebut, ada beberapa pilihan berbeda tersedia untuk para peneliti. Pertama, ganti dengan rata-rata seri. Berarti ini dapat dihitung atas seluruh rentang sampel. Kedua, ganti dengan perkiraan yang sesungguhnya. Model yang sesungguhnya adalah bentuk paling sederhana dari model peramalan univariat, model ini menggunakan nilai periode waktu saat ini untuk peroide waktu berikutnya, yaitu

. Juga,

ganti dengan perkiraan trend sederhana. Ini adalah penyempurnaan dengan mengestimasi persamaan regresi dari bentuk Yt = a + b.t (dimana t adalah waktu) untuk periode sebelum nilai data yang hilang. Kemudian gunakan persamaan agar sesuai dengan periode waktu yang hilang, atau ganti dengan rata-rata dua pengamatan terakhir yang diketahui dengan pengamatan yang data yang

42

JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51

hilang. Makalah ini menyarankan metode baru untuk memperkirakan data yang hilang dengan menggunakan proses penyaringan (1). Proses penyaringan adalah: = Dimana

(1)

adalah bobot/berat dan M adalah jumlah pengamatan pada moving average.

Selanjutnya subtitusi

dimana

adalah korelasi keseluruhan data input. selanjutnya model

moving average (MA) dapat ditulis sebagai berikut: (2) Dimana

adalah data pengamatan. Selanjutnya untuk mengubah data lengkap menggunakan

persamaan (2) dan selanjutnya membangun model yang tepat. Selanjutnya diasumsikan bahwa ada jarak lubang secara acak dalam data. Jika

yang terlewat (dimana s adalah indeks dari lubang),

kita subtitusi rata-rata data lengkap bukan

lalu kita menghitung nilai masa depan, berdasarkan

persamaan (3) berikut: (3) Kemudian kami membangun model untuk data yang berisi lubang. Menerapkan model yang sama pada data baru, selanjutnya membandingkan hasil model untuk kedua kumpulan data dengan menggunakan model Box-Jenkins ARIMA pada bagian berikutnya. IV.

Model Box-Jenkins Model ARIMA Metode Box - Jenkins adalah sebuah prosedur untuk menentukan nilai model untuk masa

yang lalu pada data time series dan nilai-nilai kesalahan yang lalu. Pendekatan Box-Jenkins terdiri dari prediksi ekstra dari data yang diamati melalui serangkaian iterasi. Model ARIMA yang paling umum mempunyai tiga parameter yaitu p, d, dan q dimana p adalah jumlah parameter autoregressive, d adalah jumlah parameter pembeda dan q adalah jumlah parameter moving average. Secara umum model ARIMA(p,d,q) adalah: (4) Dimana :

dan

Dalam hal ini: adalah operator autoregressive yang diasumsikan stasioner,

adalah operator moving

average diasumsikan dapat diinverskan. Dari persamaan (4) model ARIMA(p,d,q)

dapat ditulis

sebagai berikut: (5) Dimana:

t : adalah waktu periodik,

: adalah nilai numerik dari pengamatan

: untuk i = 1, 2, ... p adalah parameter autoregressive : untuk j = 1, 2, ..., q adalah parameter moving average,

43

: adalah nilai eror/galak pada waktu t


Untuk mengestimasi parameter

dan

untuk campuran p tetap dan q kita melakukan persamaan

regresi linear berganda dengan metode kuadrat terkecil (6) G a mb a r 1 : Plo t D a t a T ime Se r ie s C u r a h H u ja n 400

Curah Hujan

300

200

100

0 1

45

90

135

180

225 Har i

270

315

360

405

450

Ada dua tahap untuk mengidentifikasi dengan tepat sebuah model Box-Jenkins: mengubah data jika perlu menjadi data time series yang stasioner dan menentukan Model tentatif dengan mengamati perilaku pada fungsi autokorelasi (ACF) dan autokorelasi parsialnya (PACF). Data time series stasioner adalah bahwa data tersebut tidak mengandung nilai tren, yaitu, data tersebut berfluktuasi disekitar nilai rata-rata konstan. Dengan melihat pada suatu kurun waktu plot (lihat gambar 1 plot data tanpa transformasi). Dari gambar 1 terlihat bahwa data curah hujan tidak stasioner sehingga membutuhkan transformasi untuk membuat data menjadi stasioner. Dengan menggunakan transformasi differencing maka data menjadi stasioner seperti seperti terlihat pada gambar (2).

Gambar 2: Plot Data Hasil Transformasi

800,000 600,000 400,000 200,000 0 -200,000 -400,000 -600,000 -800,000 1975

1980

1985

1990

1995

2000

2005

2010

44

JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51

Perbedaan yang pertama adalah untuk bagian musiman oleh pengurangan nilai dari dua pengamatan berdekatan dalam seri yaitu, perbedaan dengan operator pembeda sebagai berikut

untuk musiman. Kita dapat menulis . Setelah transformasi, jelas bahwa

pengamatan berfluktuasi sekitar rata-rata konstan. Box-Jenkins menunjukkan bahwa jumlah lag yang diperlukan dalam analisis tidak lebih dari n/4 dimana n adalah banyaknya data pengamatan, ukuran koefisien autokorelasi diukur berdasarkan korelasi antara beberapa pengamatan dan sekumpulan pengamatan yang tertinggal dalam sebuah time series. Autokorelasi antara ukuran korelasi antara pasangan Koefisien

adalah sebuah perkiraan

dan

. Sampel autokorelasi. dimana (7)

dengan :

: data dari time series stasioner.,

: data dari periode waktu k didepan t

: rata-rata dari time series stasioner. Tabel 1: Plot ACF dan PACF untuk data asli

Estimasi fungsi autokorelasi parsial PACF digunakan sebagai panduan, selanjutnya dengan fungsi autokorelasi diperkirakan ACF, digunakan untuk memilih satu atau lebih Model ARIMA yang mungkin cocok dengan data yang tersedia. Gagasan analisis autokorelasi parsial adalah bahwa kita

45


ingin mengukur

seberapa besar keterkaitan antara

dan

. Persamaan yang memberikan

perkiraan yang baik dari autokorelasi parsial adalah (8) untuk k, = 3, 4, ...; j = 1, 2, ..., k-1. Kita bisa menemukan bentuk ACF dan PACF dalam sebuah model musiman seperti pada gambar (3) dan (4). Jadi, perkalian musiman model ARIMA(p, d, q)×(P, D, Q)s adalah generalisasi dan dianggap sebagai perpanjangan metode untuk barisan dimana pola musiman berulang dari waktu ke waktu, dimana parameter (p,d,q) adalah bukan untuk data musiman dan parameter (P, D, Q)s adalah untuk data musiman. Setelah data time series stasioner (pemotongan ACF berhenti atau menurun dengan cepat), kita bisa mengidentifikasi model sementara dengan memeriksa perilaku ACF dan PACF. Dalam model campuran baik ACF dan PACF menurun secara eksponensial. Angka-angka dari ACF dan PACF seperti pada tabel 1. V.

Hasil Statistik-t seperti pada Tabel 2 dan juga dalam Tabel 3. terkait dengan

dan

yang lebih

besar dari nilai mutlak 2, hal ini menunjukkan bahwa parameter harus disimpan dalam model untuk kedua kumpulan data. Kami menyimpulkan dari tabel 2 dan 3 bahwa model pertama untuk data lengkap adalah , dan model untuk data yang hilang adalah . Tabel 2: Estimasi Parameter Untuk Data Asli

Pada tahapan estimasi, kita mendapatkan perkiraan yang tepat dari jumlah parameter. Berdasarkan plot ACF terlihat nilai puncak pada lag 1, sementara PACF meluruh secara uniform (tabel 1), sehingga model yang tepat untuk menggambarkan data ini adalah MA(1) . sementara jika diamati lag 12, 24 36 terlihat adanya komponen musiman, menidikasikan perlunya komponen musiman dalam model, baik dalam bentuk perkalian atau penjumlahan. Disimpulkan bahwa model yang tepat adalah ARIMA(1,1,0) (0, 1, 1)12. Kami cocok model ini untuk data untuk mendapatkan estimasi parameter yang tepat:

untuk bagian AR nonmusiman, dan

average untuk parameter musiman. Nilai rata-rata

untuk koefisien moving

dari model sejak rata-rata seri bekerja sebesar 46

JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51

0,00207 dan standar deviasi sebesar 0.897664 untuk data lengkap dan untuk kumpulan data yang hilang rata-rata sebesar -0,00051 dan standar deviasi sebesar 0,889339. Tabel 3: Estimasi Parameter Untuk Data Yang Dibangkitkan

V.1 Pengujian Diagnostik Tahap selanjutnya adalah pemeriksaan diagnostik, kami menggunakan statistik Ljung-Box dinotasikan dengan Q* seperti pada Persamaan (9) untuk memeriksa kecocokan/keakuratan model dengan memeriksa residual autokorelasi ACF dan residual autokorelasi parsial PACF. (9) dimana n' = (n-d) dengan n adalah jumlah observasi dalam data time series asli,

adalah

sampel autokorelasi dari residual pada lag l dan d adalah derajat differencing nonmusiman digunakan untuk mengubah nilai-nilai data time series nonstasioner menjadi data time series stasioner. Nilai p-value mempunyai hubungan dengan Q* menunjukkan bahwa model. adalah cukup untuk data lengkap selanjutnya karena nilai p lebih besar dari 0,05 dan kurang dari chi square untuk nilai K sebesar 6,12, 18, 24 dan 36. Nilai p adalah area di bawah kurva distribusi chi-kuadrat yang memiliki 5 derajat kebebasan di sebelah kanan Q* = 7,2364 dengan nilai p adalah 0,065, ini menunjukkan bahwa p-value = 0,065 > 0,05 =

, kita tidak dapat menolak kecukupan model dengan mengambil nilai

menunjukkan bahwa membandingkan p-value dengan seperti membandingkan Q* dengan

=0,05 ini

menghasilkan kesimpulan yang sama

. Disini terlihat ACF dan PACF tidak signifikan,

yakni residual dari model bersifat white noise, dan statistik Q* (amati lag > 3 dengan taraf signifikan ) pada tabel 4 di atas, bersifat tidak signifikan karena nilai probabilitasnya lebih dari 0,05, kecuali pada lag 3 dan 4. Menurut hipotesis H0 diterima, artinya tidak terdapat korelasi serial dalam residual dari hasil estimasi dengan model yang diamati. Demikian pula kita mendapatkan Q* untuk model dengan data yang hilang. Dalam rangka untuk memperkirakan logaritma alami dari jumlah curah hujan bulanan dalam 2 tahun ke depan (bulan 451 sampai 470), kami mencatat bahwa sejak dimana Dan model 47

kita dapat mengekspresikan model untuk data lengkap


untuk data dengan lubang. Untuk mengestimasi parameter model digunakan metode kuadrat terkecil, ramalan ditunjukkan dalam tabel (5). Beberapa model diperiksa. Hasil estimasi jumlah curah hujan bulanan peramalan curah hujan dengan interval kepercayaan 95% adalah disajikan dalam tabel (5).

Tabel 4: Plot ACF dan PACF of residual untuk data asli Q-statistic probabilities adjusted for 2 ARIMA term(s)

V.2 Statistik Theil's untuk Akurasi Ramalan Ketepatan ramalan itu diperiksa dengan menggunakan uji Theil's U yang membandingkan akurasi model ARIMA dengan model sesungguhnya. Untuk menguji akurasi model digunakan nilai aktual untuk jangka waktu terkahir

sebagai perkiraan untuk

, untuk menghitung nilai Theils U

dapat menggunakan persamaan (10) sebagai berikut (10) 48

JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51

dimana (RMSE) adalah Akar dari Rata-rata Squared Error, secara matematis didefinisikan seperti persamaan. (11). Berikut ini (11) dimana n adalah jumlah observasi dan e adalah kesalahan error, Tabel 5 : Hasil ramalan data asli dan data yang hilang Priode

Data Asli (95% Limits) Ramalan

Lower

Upper

Data yang Hilang (95% Limits) Aktual

Ramalan

Lower

Upper

Aktual

451

54.676

-29.788

139.141

36.58

39.653

-43.345

122.652

36.58

452

49.508

-36.866

135.882

56.64

35.734

-47.827

119.294

56.64

453

48.131

-39.261

135.524

27.43

40.654

-42.906

124.215

27.43

454

44.79

-43.151

132.731

40.937

-42.623

124.497

455

43.455

-44.782

131.692

43.341

-40.22

126.901

456

42.818

-45.579

131.215

45.438

-38.122

128.998

457

40.514

-47.971

128.998

43.868

-39.692

127.429

458

35.286

-53.246

123.817

39.365

-44.195

122.925

459

33.032

-55.525

121.589

37.152

-46.408

120.712

460

34.145

-54.426

122.716

38.843

-44.717

122.403

461

41.44

-47.138

130.019

47.497

-36.063

131.057

462

37.075

-51.508

125.657

43.61

-39.95

127.17

463

34.27

-54.725

123.265

39.128

-44.856

123.112

464

33.065

-55.956

122.086

38.474

-45.516

122.464

465

31.651

-57.384

120.687

36.932

-47.058

120.922

466

31.113

-57.93

120.156

36.843

-47.147

120.833

467

30.473

-58.575

119.52

36.09

-47.9

120.08

468

29.926

-59.124

118.975

35.432

-48.558

119.422

469

29.92

-59.131

118.971

35.924

-48.066

119.914

470

30.68

-58.372

119.731

37.336

-46.654

121.326

Hasil peramalan dapat dilahat pada gambar 3 untuk kedua model ARIMA(1,1,0) (0, 1, 1)12 dan untuk model sesungguhnya MSE dan RMSE.statistik Theil adalah U = 0.895766 untuk data asli dan U = 0.726352 untuk data yang hilang. Ini adalah kurang dari 1, berarti model yang dipilih adalah model yang baik. Statistik Theil's U jika nilainya besar dari 1 menunjukkan bahwa model peramalan lebih buruk daripada model sesungguhnya, dan jika nilai kurang dari 1 mengindikasikan bahwa lebih baik. U dekat dengan 0 model yang terbaik yang kita miliki. Kami mengamati bahwa nilai-nilai sekitar

49


dekat satu sama lain yang berarti bahwa metode yang digunakan untuk memperkirakan data yang hilang lebih baik setidaknya pada data yang digunakan dalam jurnal ini. 400

Curah Hujan

300

200

100

0

1

36

72

108

144

180

216 252 H ar i

288

324

360

396

432

468

Gambar 3. Grafik hasil peramalan untuk data asli VI.

Kesimpulan Makalah ini menyelidiki penerapan teknik Box dan Jenkins untuk meramalkan bulanan rata-

rata curah hujan di stasiun Pinang dengan menggunakan saran baru metode untuk memperkirakan nilai hilang. Model parameter tersebut diestimasi dengan menggunakan model Autoregresif Integrated Moving Average (ARIMA) dalam suatu periode dari 1 Oktober 1973 sampai 31 Mei 2011. Model diuji dalam peramalan dengan mengamati jumlah curah hujan bulanan pada periode yang sama. hasil estimasi parameter model ARIMA untuk peramalan jumlah curah hujan bulanan adalah model ARIMA(1,1,0) (0, 1, 1)12. Selanjutnya dibandingkan hasil dari model tersebut kedalam dua kumpulan data yaitu data asli dan data yang hilang. Persamaan untuk model data asli adalah , dan model dengan data yang hilang adalah Hasilnya diperiksa sehubungan dengan uji sesungguhnya, yaitu nilai Theil U = 0.895766 untuk data asli dan untuk data yang hilang nilai Theil U = 0,726352 itu berarti hasilnya tertutup satu sama lain, artinya model ARIMA(1,1,0) (0, 1, 1)12

adalah model yang baik. Hasil penelitian

menunjukkan bahwa teknik deret waktu dapat digunakan untuk mengembangkan akurat perkiraan jangka pendek dari jumlah curah hujan bulanan tergantung pada pengamatan terakhir untuk stasiun Meteorologi Kota Palu. VII.

Daftar Pustaka

1 Gencay R., Selcuk F. and Whitcher B. (2002). An Introduction to Wavelets and other filtering

methods in finance and economics, Permissions Department, Harcourt, Inc. 50

JIMT, Vol. 8, No.1, Mei 2011 : 41 – 51

2 James W. T. and Kurtz, T. G. (2007). A Comparison of Univariate Time Series Methods for

Forecasting Intraday Arrivals at a Call Center. Said Business School, University of Oxford. Mahir & Al-Khazaleh /Estimation of missing data by using the filtering process in

a time serie1s2 3 John C. B. and David A. D. (2003). SAS for Forecasting Time Series, Second Edition. Cary, NC: Institute Inc. 4 Pankratz A. (1983). Forecasting with Univariate Box-Jenkins Models, Wiley New York. 5 Patricia E G. (1994). Introduction to Time Series Modeling and Forecasting in Business and

Economics, Cgraw-Hill M. Inc. 6 Richard T. B.,Sfetsos A. and Sang-Kuck Ch.(2002). Modeling and forecasting from trend-

stationary long memory models with applications to climatology 1. International Journal of Forecasting, Vol. 18, issue 2 pp. 215-226. 7 Rais, 2005, Kriteria Kesesuaian Model Untuk Penentuan Arsitektur Optimal Pada Neural Network

Untuk Pemodelan Time Series, Tesis Yogyakarta. 9

......... 2008, Kriteria Kesesuaian Model Untuk Penentuan Arsitektur Optimal Model Neural

Network Backpropagation Untuk Indeks Harga Saham Gabungan , Jurnal Ilmiah Matematika dan Terapan Vol. 5 No. 1 hal 1 – 11. 8

Sabry M.,Abd - El - 1 1 Latif H. ,Yousif S. and Badra N.(2007). Use of Univariate Box and

Jenkins Time Series Technique in Rainfall Forecasting 1 . Australian Journal of Basic and Applied Sciences, (4) pp. 386-394.

51

ESTIMASI DATA YANG HILANG DENGAN MENGGUNAKAN PROSES PENYARINGAN DALAM PEMODELAN DATA TIME SERIES

Recommend Documents