PEMODELAN RESIDUAL REGRESI YANG MENGANDUNG MISSING OBSERVATIONS DAN LONG MEMORY Studi Kasus : Polusi Udara di Kota Surabaya Nurbaety Basmar1, Irhamah2 Mahasiswa S2 Jurusan Statistika FMIPA ITS (1308201018) 2 Dosen Jurusan Statistika FMIPA ITS 1 Email:
[email protected],
[email protected]
1
ABSTRAK Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive Integrated Moving Avarage (ARIMA). Ada beberapa data yang tidak stasioner tetapi plot ACFnya tidak turun secara eksponensial melainkan secara hiperbolik. Data seperti inilah yang dikategorikan sebagai data deret berkala jangka panjang yang dapat dimodelkan menggunakan ARFIMA (Autoregressive Fractionally Integrated Moving Avarage). Tujuan dari penelitian ini adalah untuk membandingkan beberapa metode estimasi data hilang dan memodelkan residual regresi yang diterapkan pada data polusi udara di Kota Surabaya yang mengandung beberapa data hilang. Hasil dari penelitian ini menunjukkan model ARFIMA lebih baik dibandingkan dengan model ARIMA dalam memodelkan residual regresi. Diperoleh model terbaik yaitu model ARFIMA(1,d,1) dengan outlier t=804. Kata Kunci : ARIMA, ARFIMA, long memory, missing observations
1. Pendahuluan Time series (deret berkala) merupakan serangkaian data pengamatan yang terjadinya berdasarkan urutan waktu. Beberapa metode pemodelan time series telah dikembangkan antara lain ekponensial, smoothing, winter, Holt dan yang paling umum digunakan adalah Autoregressive Integrated Moving Avarage (ARIMA). ARIMA sangat efektif digunakan untuk memodelkan data time series yang tidak stasioner, yang ditunjukkan oleh plot Autocorrelation Function (ACF) yang turun secara eksponensial atau sinusoidal. Ada beberapa data yang tidak stasioner tetapi plot ACFnya tidak turun secara eksponensial melainkan turun secara hiperbolik. Data seperti inilah yang dikategorikan sebagai data deret berkala jangka panjang (long memory). Untuk memodelkan deret berkala jangka panjang, Hosking (1981) telah memperkenalkan model ARFIMA (Autoregressive Fractionally Integrated Moving Avarage) yang dapat mengatasi kelemahan model ARIMA, dimana ARIMA hanya dapat menjelaskan deret berkala jangka pendek (short memory) sedangkan ARFIMA dapat menjelaskan baik short memory maupun long memory. Beberapa penelitian dilakukan tentang ARFIMA, baik tentang identifikasi, metode pendugaan parameter, maupun aplikasi ARFIMA pada data riil. Penelitian tentang estimasi parameter model ARFIMA dengan Exact Maximum Likelihood Estimation dan kriteria pemilihan model dilakukan oleh Lardic, S. dan Mignon, V. (2003). Doornik, J. A. dan Ooms, M. (2001) menganalisa aspek komputasi dari Maximum Likelihood Estimation pada model ARFIMA. Hauser (1998) melakukan studi simulasi Monte Carlo dengan Maximum Likelihood Estimators pada model ARMA dan ARFIMA. Analisis regresi merupakan salah satu analisis yang digunakan untuk mengetahui estimasi pola hubungan antara variabel prediktor ( ) dan variabel respon ( ). Salah satu hal penting dalam analisis regresi adalah pemeriksaan residual, hal ini terkait dengan kelayakan model regresi. Asumsi-asumsi residual yang harus dipenuhi dalam analisis regresi adalah IIDN yaitu residual identik, independen dan berdistribusi Normal 0, . Sebuah deret waktu yang diamati seringkali mengandung beberapa data hilang (missing observations). Banyak metode yang bisa digunakan untuk mengatasi masalah missing
1
observations, pada penelitian ini akan dibandingkan metode mean (rata-rata), minimum (nilai paling kecil) dan maximum (nilai paling besar). Pada penelitian ini, akan memodelkan residual dari model regresi yang memiliki pola jangka panjang dengan menggunakan pendekatan ARFIMA. Data yang digunakan adalah data polusi udara di Kota Surabaya. Data ini mengandung missing observations (data hilang). Dalam penganalisaannya, digunakan teknik single imputation untuk mengatasi masalah data hilang tersebut. 2. Analisis Regresi Analisis regresi merupakan analisis untuk mendapatkan model dan hubungan antara variabel respon (Y) dengan satu atau lebih variabel prediktor (X). Hubungan antara respon dan prediktor yang mempengaruhinya dapat dituliskan dalam bentuk persamaan regresi (2.1), (Draper dan Smith 1992). Dalam persamaan regresi, dinotasikan sebagai variabel respon dan sebagai taksirannya, sedangkan variabel prediktor adalah X. Parameter regresi disimbolkan β dan taksirannya adalah . Residual dari persamaan regresi dinotasikan ε yang diasumsikan IIDN (0,σ2) ∑ (1) Taksiran persamaan (2.1) adalah ∑ (2) dengan i = 1,2 …..n dan j = 1,2,….k, dengan n adalah banyaknya pengamatan dan (k+1) adalah banyaknya parameter. Asumsi residual dalam analisis regresi meliputi uji independen, identik dan berdistribusi normal 0, . 3. Model Autoregressive Integrated Moving Average (ARIMA) Model ARIMA pertama kali diperkenalkan oleh Box-Jenkins (1970). Bentuk umum ARIMA (p,d,q) adalah suatu model campuran antara autoregressive (AR) orde p dengan moving average (MA) orde q dengan difference d sebagai berikut. 1 (3) dengan, adalah koefisien komponen MA dengan orde 1 adalah koefisien komponen AR dengan orde 1 Tahap-tahap pembentukan model ARIMA (p,d,q) adalah identifikasi model, Uji signifikansi model ARIMA, dan cek diagnosa (Wei, 1990). Identifikasian model ARIMA dapat dilakukan dengan melihat plot time series, plot ACF (Autocorrelation Function), dan plot PACF (Partial Autocorrelation Function). Secara teoritis, bentuk-bentuk plot ACF dan PACF dari model ARIMA adalah seperti pada Tabel 2.1 sebagai berikut (Bowerman dan O’Connel, 1993). Tabel 2.1 Bentuk ACF dan PACF untuk model ARIMA Model ACF
PACF
AR(p): autoregressive orde p
Dies down
Cuts off after lag p
MA(q): moving average orde q
Cuts off after lag q
Dies down
AR(p) or MA(q)
Cuts off after lag q
Cuts off after lag p
Dies down
Dies down
No spike
No spike
ARMA(p,q): mixed autoregressive-moving average orde (p,q) No order AR or MA (White Noise or Random process)
2
Pada permodelan data dengan menggunakan Time Series, terdapat benyak kemungkinan model yang menghasilkan model yang sesuai dengan kriteria semua parameternya signifikan, residual memenuhi asumsi white noise serta berdistribusi normal. Sehingga diperlukan kriteria untuk menentukan model terbaik dari beberapa model yang memenuhi syarat tersebut. Terdapat 2 keriteria antara lain kriteria In-sample dan Out-sample. Kriteria In-sample adalah kriteria yang biasa digunakan untuk memilih model berdasarkan residual, antara lain AIC (Akaike’s Information Criterion. 4. Deret Berkala Jangka Panjang Deret berkala jangka panjang ditandai oleh fungsi autokorelasi yang turun lambat secara hiperbolik. Sebaliknya, ACF dari proses jangka pendek turun secara eksponensial (Iglesias, Jorquera dan Parma, 2005). Fungsi autokovarians sebuah proses ARFIMA ( , , ) dapat ditemukan dalam Sowell (1992). Untuk proses fraktional noise, yaitu ARFIMA 0, , 0 , fungsi autokovarians dapat ditulis sebagai berikut: (4) Suatu proses stasioner dengan fungsi autokorelasi dikatakan sebagai proses memori jangka | tidak konvergen (Hosking, 1981). panjang jika ∑∞ | 5. Model Autoregressive Fractionally Integrated Moving Average (ARFIMA) Model ARIMA memiliki tiga parameter yaitu p, d dan q dimana p adalah parameter autoregressive, q adalah parameter moving average dan d adalah difference. Demikian juga pada model ARFIMA memiliki tiga parameter yaitu p, d dan q dimana p adalah parameter autoregressive, q adalah parameter moving average, dan d mempunyai nilai bilangan riil antara 0 dan 1. Model ARFIMA merupakan pengembangan dari model ARIMA dimana parameter d bernilai bilangan riil. Secara umum model ARFIMA dapat ditulis sebagai, Z µ θ B ε , t 1,2, , T (5) Filter pembeda dalam ARFIMA menggambarkan adanya ketergantungan jangka panjang dalam deret. Filter ini diekspansikan sebagai deret binomial. ∑∞
1
1
(6)
!
dengan,
!
dan
!
merupakan fungsi Gamma sehingga, 0 !
1 !
! !
!
1 1 (Hosking, 1981)
1
1
2
! !
!
!
1 1
1 !
2 1
3
!
1
!
1 2
(7)
6. Single Imputation Seringkali, nilai-nilai yang hilang diabaikan karena alasan kenyamanan, yang mungkin dapat diterima ketika bekerja dengan dataset besar dan jumlah data hilang yang relatif kecil. Selain itu, ketika berhadapan dengan dataset relatif kecil menjadi praktis hanya mengabaikan nilai-nilai yang hilang untuk menghapus pengamatan tidak lengkap dari dataset. Dalam situasi ini, metode imputasi lebih handal, walaupun ada metode yang berbeda untuk menangani data yang hilang. Di
3
samping itu, metode imputasi juga dapat menangani masalah data hilang pada dataset yang besar tanpa mengurangi keakuratannya. Salah satu pendekatan umum adalah single imputation, yaitu dengan mengganti nilai yang hilang dengan nilai yang pasti mengikuti prosedur yang ditetapkan. 7. Tinjauan non statistik tentang polusi udara Pada tahun-tahun terakhir ini pertumbuhan Kota Surabaya mengalami kemajuan yang sangat pesat baik dari segi aspek fisik maupun non fisik, hal ini disebabkan oleh fungsi kota yang multi dimensi sebagai akibat kemudahan-kemudahan dan kondisi yang kondusif dalam pertumbuhan kota. Pertumbuhan sektor industri yang cukup fantastis membawa implikasi sangat besar ke semua sektor dan konsekuensinya akan menimbulkan dampak positif dan negatif terhadap lingkungan hidup di Kota Surabaya. Industri-industri yang ada banyak menghasilkan polusi udara, dan juga daya tarik kegiatannya terhadap kebutuhan transportasi dan orang cukup besar. Faktor-faktor yang menyebabkan pencemaran udara merupakan faktor yang secara tidak langsung menjadi sumber terjadinya pencemaran udara. Banyak faktor yang dapat menyebabkan pencemaran udara secara tidak langsung, namun faktor-faktor yang memilki pengaruh sangat dominan antara lain: 1. Tingginya kuantitas pergerakan kendaraan, dari, ke, dan di dalam Kota Surabaya. 2. Penyebaran fasilitas perkotaan yang tidak merata dan berkurangnya Ruang Terbuka Hijau. 3. Konsumsi energi yang lebih tinggi dan ketergantungan sektor transportasi terhadap minyak bumi. 4. Masalah komitmen perilaku masyarakat/aparat/industri untuk melakukan tindak nyata ramah lingkungan. 8. Metodologi Penelitian Data yang digunakan adalah data polusi udara per hari di Kota Surabaya pada bulan Januari 2006 – Desember 2008. Dari data yang digunakan dapat disusun beberapa variabel yang akan dijadikan obyek penelitian, yaitu polusi udara Kota Surabaya terdiri dari: i. Particular Matter (PM) sebagai varibael dependent (Y) ii. Karbon Monoksida (CO) dan Ozon (O3) sebagai variabel independent (X) Data dari ketiga variabel di atas, diambil berdasarkan rata-rata harian polusi udara Kota Surabaya, pada bulan Januari 2006 – Desember 2008. Data dibagi menjadi 2 (dua), yaitu data in sample dan out sample. Yang dipakai sebagai data in sample berjumlah 1080 pengamatan dimulai dari pengamatan pertama sampai pengamatan ke-1080, dan data out sample berjumlah 16. Secara umum, tahapan pada penelitian ini adalah sebagai berikut: 1. Statistika deskriptif 2. Membandingkan beberapa metode estimasi data hilang pada data polusi udara di Kota Surabaya. 3. Meregresikan variabel dependent (Y) dengan variabel-variabel independent (X) 4. Uji Signifikansi parameter 5. Uji asumsi residual, meliputi uji identik, independen dan berdistribusi normal (0, . 6. Pemodelan residual regresi dengan ARIMA Langkah-langkah ARIMA untuk residual regresi adalah sebagai berikut: i. Identifikasi Model ii. Penaksiran Parameter iii. Uji Diagnostik iv. Pemilihan Model Terbaik 7. Pemodelan residual regresi dengan ARFIMA Langkah-langkah pemodelan residual regresi dengan ARFIMA hampir sama dengan langkah-langkah pemodelan residual dengan ARIMA. Perbedaannya hanya pada tahap identifikasi, dimana untuk pemodalan ARFIMA terdapat pengujian long memory. 9. Statistika deskriptif Hasil statistika deskriptif dapat dilihat pada Tabel 2
4
Tabel 2 Statistik Deskriptif Data Polusi Udara Variabel
Total
Total Non Mising
Total Mising
Mean
Standar deviasi
Minimum
Maksimum
PM10
1096
940
156
54,903
21,154
11,48
311,96
CO
1096
1053
43
1,2347
0,5246
0,1
4,46
O3
1096
1071
25
64,5
38,42
17,77
723,19
Berdasarkan hasil di atas dapat diketahui bahwa jumlah data sebanyak 1096 yang merupakan data harian polusi udara mulai dari Januari 2006 sampai Desember 2008, dengan variabel respon PM10 dan variabel bebas CO dan O3. Varibel respon PM10 memiliki missing observations sebanyak 156, variabel CO sebanyak 43 pengamatan dan variabel O3 sebanyak 25 pengamatan. 10. Missing observations Penelitian ini menggunakan data polusi udara di Kota Surabaya pada bulan Januari 2006 sampai dengan bulan Desember 2008. Pada data tersebut terdapat beberapa data yang hilang (missing observations). Untuk menangani masalah tersebut, digunakan metode imputasi yang terdapat pada paket statistika SAS. Ada beberapa metode yang digunakan yaitu dengan menggunakan nilai mean (rata-rata), nilai minimum (nilai paling kecil), dan nilai maksimum (nilai paling besar) dari data tersebut untuk setiap variabel. Analisis yang digunakan yaitu, dengan mengganti nilai-nilai yang hilang dengan rata-rata dari data yang ada pada tiap-tiap variabel. Analisis ini juga dilakukan pada metode minimum dan maksimum. Kemudian, data lengkap yang telah diperoleh diregresikan antara variabel dependen dengan variabel-variabel bebasnya. Ketiga metode ini akan dibandingkan dengan menggunakan nilai MSE yang terkecil. Hasil dari output MINITAB dapat dilihat pada Tabel 3 berikut: Tabel 3 Perbandingan Metode imputasi Metode MSE MEAN 374.7 MIN 595 MAX 8098 Dari Tabel 3 diperoleh nilai MSE terkecil yaitu dengan menggunakan metode MEAN. Sehingga untuk tahap selanjutnya, data yang digunakan yaitu data yang sudah lengkap, dimana data yang hilang diganti dengan rata-rata dari data polusi udara pada tiap-tiap variabel. 11. Pemodelan Data Polusi Udara Pemodelan Data Polusi Udara diperoleh dengan cara meregresikan variabel dependen (Particular Matter 10) dengan semua variabel bebas (CO dan O3). Dari hasil model lengkap diperoleh persamaan sebagai berikut: (8) dimana t= 1, 2, ….,1096. Pengujian Asumsi Residual Model regresi dikatakan baik, jika memenuhi asumsi residual. Asumsi residual dalam analisis regresi meliputi uji identik, independen dan berdistribusi normal 0, . a.
Uji Asumsi Residual Independen Sehubungan dengan data penelitian ini, maka dengan bantuan MINITAB 14 diperoleh nilai Durbin-Watson sebesar 1.0663, dengan nilai dL=1,8988772 dan nilai dU=1,9025316. Karena nilai dW < dL, maka tolak H0, sehingga dapat disimpulkan bahwa residual terdapat autokorelasi atau asumsi independen tidak terpenuhi.
5
b. Uji Asumsi Identik Residuals Versus the Fitted Values (response is PM10) 10.0
Standardized Residual
7.5 5.0 2.5 0.0 -2.5 -5.0 0
20
40
60
80 100 Fitted Value
120
140
160
180
Gambar 1 Residual Versus Fit Pada Gambar 1, terlihat bahwa pola residual versus fit tidak membentuk pola corong, sehingga dapat dikatakan bahwa varians residual homogen (residual identik). Dan dapat dikatakan bahwa asumsi identik telah terpenuhi. c.
Uji Asumsi Residual Berdistribusi Normal Selanjutnya, asumsi lain yang perlu dipenuhi adalah residual berdistribusi normal. Uji kenormalan residual ini dapat dilakukan dengan uji Anderson Darling. Berikut merupakan Probability Plots dari residual dengan menggunakan Uji Anderson Darling.. Pada Gambar 2, diperoleh p_value <0,005, yang berarti bahwa residual tidak berdistribusi normal pada tingkat kepercayaan 5%.. Dari gambar 2 juga dapat dilihat bahwa residual mendekati garis lurus, namun karena ada outlier sehingga menyebabkan distribusi residual menjadi tidak normal. Probability Plot of RESI2 Normal 99.99
Mean StDev N AD P-Value
99
Percent
95
1.789388E-13 19.34 1096 10.084 <0.005
80 50 20 5 1
0.01 -100
0
100 RESI2
200
300
Gambar 2 Probability Plot residual Anderson Darling Dari beberapa pengujian asumsi di atas, hanya asumsi identik yang terpenuhi, sehingga residual dari model regresi tersebut perlu dianalisis lebih lanjut. Plot ACF menunjukkan bahwa masih terdapat lag-lag yang signifikan yang dapat diartikan bahwa masih terdapat pengaruh residual pada periode pengamatan saat ini (t) dengan residual pada pengamatan sebelumnya (t-k). Selanjutnya residual dari model regresi dimodelkan dengan pemodelan timeseries. Pada penelitian kali ini akan dilakukan pemodelan pada residual dengan pendekatan ARIMA dan ARFIMA. Model yang terbaik adalah model yang menghasilkan kesalahan yang lebih kecil.
6
12
Pemodelan ARIMA Tahap ini meliputi identifikasi model, penaksiran parameter, uji diagnostik, pemilihan model terbaik dan peramalan. Identifikasi Model Pertama-tama, data dibagi dua menjadi data in sample dan out sample. Pada umumnya, tahapan identifikasi yang pertama kali dilakukan dalam pemodelan time series adalah melihat plot time series in sample seperti pada gambar 2. ARIMA mengasumsikan kondisi stasioner, sehingga perlu diuji stasioner dalam varian dan mean. Dilihat dari TS plot dan ACF Plot terlihat bahwa data telah stasioner dalam varian dan mean. Untuk menguji kestasioneran dalam mean digunakan uji Dickey Fuller dengan ∆ 1 Didapatkan hasil sebagai berikut Tabel 4 Uji Dickey Fuller Koefisien SE Koefisien T -0,54331 0,02708 -20,06
Prediktor
P_value 0,000
Sehingga data telah stasioner, sebab signifikan dengan alpha 0.05. Karena residual model regresi sudah stasioner dalam mean dan varian, maka dapat dilakukan penentuan orde dari model AR atau MA. Berikut adalah plot ACF dan PACF dari residual regresi. Gambar 3 (a) dan Gambar 3 (b) dapat ditentukan dugaan orde untuk model ARIMA dari residual model regresi. Dari bentuk plot ACF dilihat bahwa plotnya cenderung dies down dan dari plot PACF dapat dilihat bahwa lag-lag yang signifikan yaitu pada lag 1,2,3,5,8,9,11,12. Sehingga, dapat dilakukan pendugaan model yaitu ARIMA ([1,2,3,5,8,9,11,12],0,0). Autocorrelation Function for Insample
Partial Autocorrelation Function for Insample (with 5% significance limits for the partial autocorrelations)
1.0
1.0
0.8
0.8
0.6
0.6
Partial Autocorrelation
Autocorrelation
(with 5% significance limits for the autocorrelations)
0.4 0.2 0.0 -0.2 -0.4
0.4 0.2 0.0 -0.2 -0.4
-0.6 Setelah diperoleh model dugaan, selanjutnya dilakukan pengujian signifikansi parameter -0.8 -0.8 model. Taksiran parameter dari model serta pengujian signifikansi parameter adalah ARIMA -1.0 -1.0 ([1,2,3,5,8,9,11,12],0,0). Setelah diestimasi dan dilakukan1 pengujian signifikansi parameter, 1 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 Lag signifikan. Parameter yang tidak signifikan dikeluarkan Lag terdapat parameter yang tidak dari model satu persatu dimulai dari yang memiliki nilai p_value terbesar. Sehingga diperoleh model yang (a) yaitu model ARIMA ([1,2,5,12],0,0). Estimasi dan(b) signifikan semua parameternya pengujian
-0.6
Gambar 3 Plot ACF dan PACF residual Regresi Dari Tabel 5 dapat dilihat bahwa semua parameter untuk model ARIMA ([1,2,5,12],0,0) signifikan pada 5%. Karena model sudah signifikan pada tingkat kesalahan 5%, maka dapat dilanjutkan pada pengujian berikutnya. Tabel 5. Estimasi Parameter untuk Model ARIMA ([1,2,5,12],0,0) Parameter
Estimasi
T_hit
P_value
φ1
0,37403
12,44
<0,001
φ2
0,09073
2,98
0,0029
φ3
0,11098
3,99
<0,001
φ4
0,11651
3,84
0,001
7
Pada cek disgnosa dilakukan pengujian terhadap residual dari model, yaitu uji white noise yaitu residual bersifat identik dan independen serta pengujian terhadap asumsi kenormalan residual. Pengujian yang digunakan untuk uji asumsi independensi adalah Ljung Box. Nilai statistic uji Chi-Square dengan 5% untuk pengujian residual ditampilkan pada Tabel 6 berikut ini. Tabel 6 Nilai Statistik Uji Chi-Square Residual Model ARIMA ([1,2,5,12],0,0) Lag p_value Kesimpulan 6 4,76 0,0925 Gagal Tolak Ho 12 11,57 0,1714 Gagal Tolak Ho 18 13,18 0,5127 Gagal Tolak Ho 24 16,21 0,7033 Gagal Tolak Ho 30 20,10 0,7869 Gagal Tolak Ho 36 28,64 0,6371 Gagal Tolak Ho 42 32,26 0,7314 Gagal Tolak Ho 48 40,10 0,6396 Gagal Tolak Ho Dari Tabel 4.9 dapat dilihat bahwa dari residual ARIMA ([1,2,5,12],0,0) memenuhi asumsi white noise karena semua p_value lebih besar dari yaitu 5%. Karena model telah memenuhi asumsi white noise, maka dapat dilanjutkan ke pengujian yang berikutnya. Setelah diketahui bahwa residual memenuhi asumsi white noise, selanjutnya akan diuji apakah residual dari model berdistribusi normal atau tidak. Pengujiannya adalah dengan menggunakan uji Kolmogorov-Smirnov. Hasil perhitungan Kolmogorov-Smirnov dengan tingkat signifikansi kesalahan 5% untuk pengujian kenormalan residual dapat dilihat pada Tabel 7 Tabel 7 Pengujian Kenormalan Residual untuk Model Model Statistik Uji D p-value ARIMA ([1,2,5,12],0,0) 0,09659 <0,0100 Tabel 7 menunjukkan bahwa nilai p_value untuk uji Kolmogorov-Smirnov (<0,0100) lebih kecil dari yaitu 5%, maka dapat disimpulkan bahwa residual untuk model ARIMA ([1,2,5,12],0,0) tidak berdistribusi normal pada tingkat signifikansi kesalahan 5%. Sehingga model terbaik untuk residual regresi adalah model ARIMA ([1,2,5,12],0,0) dengan persamaan sebagai berikut: = 0.37403 0.09073 0.11098 0.11651 (9) dengan AIC sebesar 9159,503 dan MSE pada criteria out sample sebesar 537.5336. Sebagaimana pada pemodelan ARIMA (0,1,[1,2,4]), diperoleh hasil bahwa residual model ARIMA ([1,2,5,12],0,0) tidak memenuhi asumsi normal karena terdapat outlier. Untuk lebih jelasnya, dapat dilihat pada Gambar 4. Time Series Plot of Aktual, Ramalan Outsample 250
Variable Ak tual Ramalan Outsample
200
Data
150 100 50 0 -50 1
110
220
330
440
550 Index
660
770
880
990
Gambar 4.10 Plot Aktual dan Ramalan pada pemodelan ARIMA ([1,2,5,12],0,0).
8
13. Pemodelan ARFIMA Tahap-tahap dalam pemodelan ARFIMA sama dengan tahap pemodelan pada ARIMA. Identifikasi Model Tahapan identifikasi pada ARFIMA hamper sama dengan tahapan identifikasi pada ARIMA. Yaitu pertama-tama melihat plot time series. Selanjutnya, dilakukan identifikasi long memory pada data untuk mengetahui ada tidaknya ketergantungan jangka panjang. Ketergantungan jangka panjang dapat dilihat dari plot ACF residual regresi. Long memory dapat dilihat dari plot ACF yang autokorelasinya turun lambat secara hiperbolik. Hal ini tidak terlihat pada Gambar 4.8(a). Selain dengan plot ACF, cara untuk melihat ketergantungan jangka panjang dapat juga melalui periodogram. Ternyata bentuk periodogram yang meningkat menuju nilai yang sangat besar tetapi berhingga untuk frekuensi yang semakin mendekati nol (Gambar 4.8 (b)) menunjukkan adanya ketergantungan jangka panjang. Berdasarkan identifikasi plot periodogram, residual regresi memiliki ketergantungan jangka panjang, sehingga dapat dimodelkan dengan menggunakan ARFIMA. Time S e r ie s P lot of per iodogr am 2000000
periodogram
1500000
1000000
500000
0 1
55
110
165
220
275 Inde x
330
385
440
495
Gambar 4.11 Plot Periodogram Residual Regresi Estimasi Parameter Model Langkah pertama yang dilakukan untuk mengestimasi parameter model adalah estimasi nilai d. Pada penelitian ini ditentukan terlebih dahulu nilai parameter differencing d pada data keseluruhan (data in sample), sehingga dalam estimasi parameter dari model-model awal ARFIMA menggunakan nilai d yang sama. Data in sample residual regresi memiliki nilai d sebesar 0.331096. Ini dilihat dari nilai p_value = 0,000 yang lebih kecil dari nilai 0,05. Selanjutnya dilakukan estimasi aspek jangka pendek yaitu parameter p dan q dilihat dari plot ACF (Gambar 4.5 a) dan PACF (Gambar 4.5 b) . Taksiran parameter beberapa model ditampilkan dalam Tabel 4.6 berikut.
No 1 2 3
Tabel 4.12 Estimasi parameter model ARFIMA Model φ1 φ2 φ3 ARFIMA -0,880165 [1],d,[1] [0.000] 0.720971 -0.577182 [1,2],d,[1] [0.000] [0.059] [1,2,3],d,[1]
0,686064 [0,003]
-0,0503132 [0,183]
-0,0110528 [0,744]
θ1 0.919562 [0.000] -0.688728 [0.000] -0,654334 [0,000]
Keterangan: […] : p_value uji-t dengan 0.05 Dari Tabel 4.12 dilihat bahwa hanya parameter φ1 dan parameter θ1 di semua model yang signifikan. Sehingga, model dugaan adalah ARFIMA (1,d,1).
9
Uji Diagnostik Setelah diperoleh parameter model ARFIMA yang signifikan, akan dilanjutkan dengan pemeriksaan diagnostik. Pemeriksaan diagnostik meliputi uji asumsi white noise dan uji normal residual. Pemeriksaan diagnostik untuk residual model dijelaskan pada Tabel 9 berikut. Tabel 9 Uji Asumsi Residual Model ARFIMA (1,d, 1) Model ARFIMA Normal ARCH 1-1 Portmanteau ARFIMA
[0.000]**
[0.0183]*
[0.8670]
([1],d,[1]) Dari tabel dapat diketahui bahwa residual untuk model ARFIMA (1,d, 1) memenuhi asumsi white noise dan homogen varians, tetapi tidak memenuhi asumsi kenormalan. Pemilihan Model Terbaik Seperti pada pemilihan model terbaik ARMA pada tahap sebelumnya, hanya diperoleh satu model yang parameternya signifikan. Sehingga model terbaik untuk residual regresi adalah model ARFIMA (1, d, 1) dengan AIC sebesar 9159,00399 dan MSE pada kriteria out sample sebesar 280,337. Persamaan Model ARFIMA (1,d, 1) diberikan sebagai berikut: 1 1 1 , 10 1 0,919562 1 0,880165 1 , Dengan menggunakan persamaan (2.12), 1 dapat dijabarkan sebagai berikut 1 , 1 0,331096 0,331096 1 0,331096 1 2 1 0,331096 1 0,331096 6 Pada ARFIMA ([1],d,1) tidak memenuhi asumsi normal, sehingga analisis dilanjutkan dengan pendeteksian outlier. Pemodelan ARFIMA dengan Deteksi Outlier Adanya outlier pada data menyebabkan ketidaknormalan. Outlier dapat dideteksi dengan menggunakan Boxplot seperti pada Gambar 6. Pada penelitian ini, di ambil dua buah outlier yang paling ekstrim yaitu data ke-804 dan data ke-1070. Boxplot of Resi 250
1070
200
Resi
150 100
804 616 1059 907 756 803 46 18 374 816 806 706 278 1039 202 437 20 893 891 892 827 825 782 103 669 455 458 898 125 63 711 851 392 411 1045 154 67 854 787 738 753 824 1043
50 0
388 843 805 617 575 460 129 515 942 899 828 896 810 707 1072 909 1073 1071
-50 -100
Gambar 6 Boxplot Residual Model ARFIMA (1,d, 1) Variabel dummy dimasukkan satu per satu pada model, dimulai dari t terkecil, maka dummy data ke-804 dimasukkan terlebih dahulu. Diperoleh hasil bahwa semua parameter sudah signifikan, seperti terlihat pada Tabel 10 berikut.
10
Tabel 4.14 Signifikansi Parameter Model ARFIMA (1,d, 1) dengan outlier t=804 Parameter Estimasi t-hit P_value -0,800973 -7,15 0,000 φ1 0,849818 8,60 0,000 θ1 92,1031 6,04 0,000 Model di atas sudah memenuhi asumsi white noise dan homogenitas, tetapi belum memenuhi uji normality test sebesar 1024,3 dengan pasumsi distribusi normal. Ini dapat dilihat dari nilai _value sebesar 0,000 berarti H0 ditolak pada nilai 0,05. Persamaan model ARFIMA (1,d, 1) dapat dituliskan sebagai berikut. , 92,1031 1 0,849818 11 1 0,800973 1 Selanjutnya, memasukkan variabel dummy untuk data ke-1070, tetapi terdapat variabel yang tidak signifikan, sehingga analisis tidak dapat dilanjutkan lagi, dan model (4.3) yang akan dianalisis lebih lanjut lagi. Model (11) sudah memenuhi asumsi residual yang white noise. Nilai AIC dan MSE pada model (11) di atas juga lebih kecil dari nilai AIC dan MSE pada model (10) yaitu sebesar 9125,61531 dan 271,304. Tetapi model (11) di atas belum memenuhi asumsi berdistribusi normal. Dari gambar di bawah dapat diketahui bahwa nilai skewness yaitu 3,4151. Ketidaknormalan data juga dapat dilihat dari nilai kurtosis yaitu 46,9632 (berdistribusi normal bila nilai kurtosis adalah nol). Pada penelitian ini, residual model ARFIMA (1,d, 1) dengan outlier t=804 memiliki kurtosis positif, yang biasa disebut dengan leptoturtic. Untuk melihat karakteristik residual dari model ARFIMA (1,d,1), maka dapat dilihat pada Gambar 7 di bawah. Summary for REsi5 A nderson-Darling N ormality Test
-50
0
50
100
150
200
250
A -S quared P -V alue <
19.98 0.005
M ean S tD ev V ariance S kew ness Kurtosis N
0.173 16.478 271.524 3.4151 46.9632 1080
M inimum 1st Q uartile M edian 3rd Q uartile M aximum
-62.447 -8.353 -0.551 6.889 246.490
95% C onfidence Interv al for M ean -0.811
1.156
95% C onfidence Interv al for M edian -1.114
0.068
95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter vals
15.811
17.204
Mean Median -1.0
-0.5
0.0
0.5
1.0
Gambar 4.13 Grafik Summary Residual Model ARFIMA (1,d, 1) dengan Outlier t=804. Ketidaknormalan yang terjadi pada residual dari model ARFIMA ini disebabkan karena terdapat banyak outlier di pengamatannya. 4.6
Perbandingan Model ARIMA dan ARFIMA Dari pemodelan ARIMA dan ARFIMA di atas, diperoleh perbandingan nilai AIC dan MSE pada kriteria out sample Tabel 11 Perbandingan model ARIMA dan ARFIMA Model AIC MSE ARIMA ([1,2,5,12],0,0) 9259,903 537,5336 ARFIMA (1,d, 1) dengan outlier 9125,61531 271,304 t=804
11
Dari Tabel 11 dilihat bahwa model ARFIMA (1,d,1) dengan outlier t=804 memiliki nilai AIC dan MSE yang lebih kecil dibandingkan dengan model ARIMA ([1,2,5,12],0,0). Sehingga model terbaik untuk pemodelan residual regresi adalah model ARFIMA (1,d, 1). Berikut ini adalah model regresi untuk pemodelan polusi udara: 67,444 6,024 (12) Dengan mengikuti model ARFIMA sebagai berikut: , 92,1031 1 0,849818 1 0,800973 1
KESIMPULAN Berdasarkan perhitungan MSE model regresi dengan error, pemodelan residual regresi dengan ARFIMA memberikan nilai MSE yang jauh lebih kecil dibandingkan pemodelan dengan ARIMA, sehingga dapat dikatakan bahwa model ARFIMA merupakan metode terbaik yang memodelkan residual regresi pada pemodelan data polusi udara di Kota Surabaya. Model terbaik yang diperoleh adalah model ARFIMA (1,d,1) dengan outlier t=804. , 1 0,800973 1 1 0,849818 (13) 92,1031
DAFTAR PUSTAKA Doornik, J. A. dan Ooms, M. (2001) Computational Aspects of Maximum Likelihood Estimation of Autoregressive Fractionaly Integrated Moving Average models. Nuffield College, University of Oxford, Oxford OXI 1NF, UK and Departemen of Econometrics, Free University of Amsterdam 1081 HV Amsterdam, Te Nederlands. Hauser, M. A. (1998). Maximum Likelihood Estimators for ARMA and ARFIMA Models : A Monte Carlo Study. University of Econometrics and Business Administraton, Department of Statistics, Vienna. Iglesias, P., Jorquera, H., dan Palma, W. (2005). Data Analysis Using Regression Model with Missing Observations and Long-memory: An Application Study. Journal of Computational Statistics and Data Analysis 50, 2028–2043. Lardic S. dan Mignon V. (2003). The Exact Maximum Likelihood Estimation of ARFIMA Processed and Model Selection Criteria: A Monte Carlo Study. MODEM- CNRS, University of Paris X. Sowell, F. (1992). Maximum likelihood estimation of stationary univariate fractionally integrated models. J. Econometrics 53, 165–188. Wei, W.W.S. (1990), Time Series Analysis.Canada: Addison Wisley Pubblishing Company.
12