Pemodelan Data Runtun Waktu : Kasus Data Tingkat Pengangguran di Amerika Serikat pada Tahun 1948 – 1978. Adi Setiawan Program Studi Matematika, Fakultas Sains dan Matematika Universitas Kristen Satya Wacana, Jl. Diponegoro 52-60 Salatiga 50711 Abstrak Data yang diperoleh dari pengamatan atas suatu fenomena selama waktu tertentu merupakan data yang banyak dijumpai. Dalam makalah ini, dijelaskan tentang bagaimana memodelkan data runtun waktu, melakukan diagnosi dan pemilihan ulang model sampai diperoleh model sesuai yang diharapkan serta menggunakan model tersebut untuk memprediksi data pada waktu yang akan datang. Pemodelan yang digambarkan masih terbatas pada data yang dapat dimodelkan dengan menggunakan model ARIMA. Untuk penelitian selanjutnya dapat digunakan data yang lain atau data yang tidak bisa digunakan model ARIMA. Kata kunci : data runtun waktu, pemodelan, diagnosis, prediksi
1. Pendahuluan Data yang diperoleh dari pengamatan atas suatu fenomena selama waktu tertentu merupakan data yang banyak dijumpai. Dalam bisnis dan ekonomi, kita mengamati laju tingkat suku bunga mingguan, harga saham pada penutupan hari, indeks harga bulanan, penjualan tahunan dan sebagainya. Dalam bidang meteorologi, kita mengamati tinggi rendah temperatur, indeks kekeringan dan kecepatan angin tiap jam. Tujuan dari analisis runtun waktu secara umum adalah untuk mengerti atau memodelkan mekanisme stokastik yang muncul pada deretan atau runtun pengamatan dan untuk memprediksi atau meramalkan nilai yang akan datang dari runtun waktu berdasarkan pada sejarah dari runtun waktu tersebut. Dalam makalah ini, dijelaskan tentang bagaimana memodelkan data runtun waktu, melakukan diagnosi dan pemilihan ulang model sampai diperoleh model sesuai yang diharapkan serta menggunakan model tersebut untuk memprediksi data pada waktu yang akan datang. Kasus digunakan untuk menggambarkan bagaimana data digunakan dalam menjelaskan langkahlangkah pemodelan data runtun waktu. 2. Dasar Teori Dasar teori yang digunakan dalam makalah ini sebagian besar diambil dari pustaka Cryer (1986) sedangkan pustaka Cryer dan Chan (2008) digunakan untuk memperkaya bahan acuan. 1
Penemuan model yang sesuai untuk runtun waktu merupakan tugas yang tidak ringan. Kita akan mengembangkan suatu strategi pembangunan model seperti yang disarankan oleh Box dan Jenkins (1976). Terdapat tiga langkah utama dalam prosedur ini, masing-masing dapat digunakan beberapa kali : 1. Identifikasi atau spesifikasi model 2. Model fitting 3. Model diagnosis Dalam identifikasi model, kelas dari model runtun waktu dipilih yang mungkin sesuai untuk data runtun waktu yang diberikan. Dalam langkah ini kita melihat pada diagram dari runtun waktu dan menghitung banyak statistik berdasarkan data dan juga menggunakan daerah subyek dari mana data muncul, seperti ekonomi, fisika, kimia atau biologi. Seharusnya ditekankan bahwa model yang dipilih pada hal ini adalah tentatif dan harus diubah dalam analisis kemudian. Dalam pemilihan model, kita akan berusaha untuk tetap menggunakan prinsip parsimoni yaitu bahwa model seharusnya menggunakan banyak parameter sekecil mungkin yang sesuai untuk model. Albert Einstein seperti yang dikutip oleh Parzen (1982) menyatakan bahwa ”segala sesuatu seharusnya dibuat sesederhana mungkin tetapi tidak sepele”. Model akan menggunakan satu atau lebih parameter yang nilainya harus diestimasi dari deret pengamatan. Model fitting terdiri dari penentuan estimasi yang mungkin dan terbaik dari parameter yang tidak diketahui dalam model yang diberikan. Kita akan memperhatikan kriteria seperti jumlah kuadrat terkecil dan MLE untuk estimasi. Model diagnosis melakukan analisis kualitas model yang telah diidentifikasi dan diestimasi. Seberapa baik model sesuai dengan data? Apakah anggapan dari model dipenuhi secara beralasan? Jika tidak ada kesesuaian model ditemukan, model dapat dianggap lengkap dan model dapat digunakan untuk meramal nilai deret yang akan datang. Sebaliknya kita dapat memilih model lain sehingga sesuai dengan data dan kita kembali mengidentifikasi. Dalam cara ini kita mengulangi langkah sampai model yang dapat diterima diperoleh.
2
Karena perhitungan yang harus dilakukan untuk setiap langkah dalam pembangunan model cukup berat maka dipercayakan pada paket program yang dapat digunakan. Dalam hal ini digunakan paket program R yang dapat digunakan untuk mengolah data runtun waktu. Model ARMA Model ARMA (autoregressive moving average) dengan orde p dan q dan disingkat dengan ARMA(p,q) mempunyai bentuk umum :
Z t = φ1 Z t −1 + φ2 Z t −2 + .... + φ p Z t − p + at −θ1 at −1 − θ 2 at −2 − ...... −θ q at −q
.
Misalkan diinginkan untuk mendiskusikannya sebagai kasus khusus yang pertama yaitu ARMA(1,1). Model ARMA(1,1)
Persamaan yang dimaksud dapat dituliskan sebagai Z t = φ Z t −1 + at −θ1 at −1
(1)
Untuk menurunkan tipe persamaan Yule-Walker, kita mencatat bahwa E[ at Z t ] = E[ at ( φ Z t −1 + at −θ1 at −1 )] = σ 2 dan E[ at −1 Z t ] = E[ at −1 ( φ Z t −1 + at −θ at −1 )] = φ σ 2 − θ σ 2 = (φ −θ ) σ 2 . Jika kita mengalikan persamaan (1) dengan Zt-k dan mengambil nilai harapannya, kita akan mempunyai kovariansi pada lag 0 atau variansi dari Zt yaitu
γ 0 = φ γ 1 + [1−θ (φ −θ )]σ 2 , k = 0 Selanjutnya kovariansi pada lag 1 dan kovariansi pada lag k dengan k ≥ 2 berturut-turut adalah
γ 1 = φ γ 0 −θ σ 2 , k = 1
3
γ k = φ γ k −1 , k ≥ 2 . Dengan menyelesaikan dua persamaan pertama maka akan diperoleh
γ0 =
(1 − 2θ φ + θ 2 ) 2 σ 1− φ 2
dan kemudian menyelesaikan rekursi sederhana akan memberikan
γk =
(1 − θ φ ) (φ − θ ) k −1 2 φ σ ,k ≥ 1 1 − 2θ φ + θ 2
atau
ρk =
(1 − θ φ ) (φ − θ ) k −1 φ ,k ≥ 1 1 − 2θ φ + θ 2 .
Perlu dicatat bahwa fungsi autokorelasi meluruh secara eksponensial sebagaimana lag k naik. Faktor penurunan adalah tetapi peluruhan mulai dari nilai awal yang juga tergantung pada θ. Hal ini bertentangan dengan autokorelasi AR(1) yang juga meluruh dengan faktor peluruhan sebesar φ tetapi selalu dari nilai awal ρ0 = 1. Sebagai contoh, jika φ = 0.8 dan θ = 0.4 maka
ρ1 = 0,523, ρ2 = 0,418, ρ3 = 0.335 dan seterusnya. Beberapa ukuran untuk ρk adalah mungkin tergantung pada tanda ρ dan tanda dari φ.
Bentuk linear umum dari model dapat diperoleh. Kita menemukan ∞
Z t = at + ( φ −θ ) ∑φ j −1 at − j j =1
yaitu
ψ j = (φ −θ ) φ j −1 , j ≥ 1 Kita seharusnya menyebutkan syarat stasioner yaitu | φ | < 1 atau ekuivalen dengan akar dari persamaan karakteristik AR 1 – φ x = 0 harus melampaui satuan dalam nilai mutlaknya.
4
Untuk model ARMA(p,q), kita menyatakan kenyataan berikut tanpa bukti : dengan syarat at tidak tergantung pada Zt-1, Zt-2, .... penyelesaian stasioner {Zt } memenuhi persamaan 4.35 ada jika dan hanya jika akar dari persamaan karakteristik AR φ(x) = 0 semua melampaui satuan dalam modulus. Secara detail untuk pemilihan model, estimasi parameter, diagnosis dan prediksi data untuk waktu mendatang dapat digunakan pustaka Cryer (1986) dan pustaka Cryer dan Chan (2008). 3. Metode Penelitian Dalam makalah ini, digunakan data tingkat pengangguran kuartalan dari tahun 1948 kuartal I sampai dengan tahun 1978 kuartal I di Amerika Serikat seperti yang ada pada Cryer (1986). Spesifikasi model dari data tersebut dilakukan untuk memilih model yang terbaik. Selanjutnya dilakukan diagnosis, dan apabila dalam diagnosis ternyata model yang terpilih belum sesuai dengan asumsi yang digunakan maka dilakukan spesifikasi model dan diagnosis model sampai diperoleh model yang memenuhi asumsi yang disyaratkan. Akhirnya, dengan menggunakan model terpilih dapat dilakukan peramalan untuk waktu yang akan datang.
4. Hasil dan Pembahasan
Berdasarkan data tingkat pengangguran yang telah dijelaskan di atas maka
diperoleh plot data runtun waktu pada Gambar 1. Terlihat bahwa tidak terdapat trend naik dalam data tersebut. Fungsi autokorelasi dan fungsi autokorelasi parsial digunakan dalam pemilihan model dan dinyatakan pada Gambar 2. Gambar 2 bagian atas menyatakan fungsi autokorelasi sampai lag 20 sedangkan bagian bawah menyatakan fungsi autokorelasi parsial sampai lag 20. Terlihat bahwa fungsi autokorelasi makin lama makin kecil sedangkan fungsi autokorelasi parsial yang bernilai di atas garis biru adalah lag 1 dan lag 2. Dalam hal ini, karena datanya mempunyai panjang
n = 121
maka
garis
biru
adalah
garis dengan
persamaan
y = 2/√121 = 0,18 dan y = - 2/√121 = - 0,18. Hal itu berarti kita memilih spesifikasi model AR(2) sebagai pilihan pertama. 5
3
4
5
6
7
T ingkatP engangguran(dalam prosen)
8
9
0
20
40
60
80
100
120
Tahun 1948:1 - 1978:1
Gambar 1. Tingkat Pengangguran di Amerika Serikat 1948:1 – 1978:1
0.4 0.8 -0.2
ACF
Fungsi autokorelasi sampai lag 20
0
5
10
15
20
Lag
0.5 -0.5
Partial ACF
Fungsi autokorelasi sampai lag 20
5
10
15
20
Lag
Gambar 2. Grafik fungsi autokorelasi (atas) dan fungsi autokorlasi parsial (bawah) sampai lag ke 20
6
Dengan memilih model AR(2) untuk data tersebut, selanjutnya dilakukan estimasi
parameter dari model AR(2) yaitu Z t = ϕ + φ1 Z t −1 + φ2 Z t −2 + at
dengan at saling bebas, mempunyai mean 0 dan variansi σ2. Dengan menggunakan paket program R diperoleh estimasi dari parameter φ1 adalah 1,5456 dengan standard error estimasi 0,0684 dan estimasi dari parameter φ2 adalah -0,6430 dengan standard error estimasi 0,0689 serta estimasi interceptnya adalah 5,0826 dengan standard error estimasi 0,3285. Terlihat bahwa nilai mutlak dari rasio antara estimasi dan standard errornya berturut-turut adalah 22,5965, 9,3324 dan 15,4722. Hal itu berarti bahwa koefisien dalam model AR(2) tersebut penting atau harus ada. Akibatnya diperoleh model AR(2) sebagai berikut : Z t = 5,0826 + 1,5456 Z t −1 − 0,643 Z t −2 + at .
Berdasarkan output paket program R juga diperoleh estimasi yaitu 0,1292 dan AIC (Aikike Information Criteria) bernilai 107,04.
Dengan menggunakan model terpilih maka dilakukan diagnosis dari residunya. Gambar 3 memperlihatkan hasil diagnosi dari residu. Terlihat bahwa residu terstandard (standardized residuals) nilainya berkisar antara -3 sampai 3 sehingga cukup realistis untuk menganggap bahwa residu terstandard berdistribusi normal. Apabila residu terstandard dilakukan uji Kolmogorov-Smirnov maka akan diperoleh nilai-p yaitu 0,0754 sehingga tidak ada alasan untuk menolak normalitas dari residu terstandard. Di samping itu autokorelasi dari residu sampai lag 20 mempunyai nilai diantara garis biru sehingga cukup beralasan bahwa residu memenuhi asumsi kesaling-bebasan. Hal itu juga didukung oleh nilai-p dari statistik Ljung-Box yang tidak ada yang lebih kecil dari tingkat signifikansi 5 %.
7
-2
0
2
Standardized Residuals
0
20
40
60
80
100
120
Time
0.4 0.8 -0.2
ACF
ACF of Residuals
0
5
10
15
20
Lag
0.8 0.4 0.0
p value
p values for Ljung-Box statistic
2
4
6
8
10
lag
Gambar 3. Grafik hasil diagnosis residu
Dengan menggunakan model terpilih AR(2) dengan intercept, selanjutnya model digunakan untuk memprediksi tingkat pengangguran 8 kuartal mendatang sehingga diperoleh prediksi beserta nilai standard error-nya yang dinyatakan dalam Tabel 1. Hasil prediksi tersebut juga dapat dinyatakan dalam plot beserta dengan batas
prediksinya dengan koefisien
kepercayaan 95 % pada Gambar 4. Terlihat bahwa makin jauh dari data realnya makin lebar batas prediksinya.
Tabel 1. Tabel hasil prediksi berdasarkan model AR(2)
Prediksi S.E.
1978:2 5,81 0,36
1978:3 5,50 0,66
1978:4 5,25 0,91
1979:1 5,08 1,10
8
1979:2 4,96 1,23
1979:3 4,90 1,30
1979:4 4,88 1,35
1980:1 4,89 1,37
9 8 7 6 5 4 3
Tingkat Pengangguran (dalam prosen) & prediksinya
0
20
40
60
80
100
120
Tahun 1948:1 - 1978:1 Gambar 3. Grafik tingkat pengangguran di Amerika Serikat pada tahun 1948:1 sampai 1978:1 dan prediksinya dari 1978:2 sampai 1980:1.
5. Kesimpulan
Dalam makalah di atas telah dijelaskan bagaimana memodelkan data runtun waktu. Pemodelan yang digambarkan masih terbatas pada data yang dapat dimodelkan dengan menggunakan model ARIMA. Untuk penelitian selanjutnya dapat digunakan data yang lain atau data yang tidak bisa digunakan model ARIMA. 9
6. Daftar Pustaka
Cryer, J. D. , 1986, Time Series Analysis, PWS-Kent Publishing Company, Boston. Cryer, J. D. dan Kung-Sik Chan, 2008, Time Series Analysis with Application in R, Springer, New York.
10