ANALISA DAN PEMBAHASAN
STATISTIK DESKRIPTIF Statistik Deskriptif Data Polusi Udara Total
Total Non Mising
Total Mising
Mean
Standar deviasi
Minimum
Maksimum
PM10
1096
940
156
54.903
21.154
11.48
311.96
CO
1096
1053
43
1.2347
0.5246
0.1
4.46
O3
1096
1071
25
64.5
38.42
17.77
723.19
Variabel
MISSING OBSERVATIONS • Pada data terdapat beberapa data yang hilang (missing observations) • U Untuk t k menanganii masalah l h tersebut, t b t digunakan di k metode t d imputasi i t i yang terdapat pada paket statistika SAS Perbandingan Metode imputasi
Metode
MSE
MEAN
, 374,7
MIN
595
MAX
8098
• MSE terkecil yaitu dengan menggunakan metode MEAN
• . untuk tahap selanjutnya, data yang hilang diganti dengan rata-rata dari data polusi udara pada tiaptiap variabel.
PEMODELAN DATA POLUSI UDARA Pemodelan Data Polusi Udara Setelah diregresikan antara variabel independent (X) dan variabel dependent (Y) (Y), diperoleh model sebagai berikut : dimana t= 1, 2, ….,1096. Nilai estimasi dari tiap-tiap variabel diberikan pada tabel berikut: Prediktor
Koefisien
SE
T
P
Constant
47,444 ,
1,521 ,
31,20 ,
0,000 ,
CO
6,024
1,139
5,29
0,000
O3
0,00465
0,01542
0,30
0,763
Variabel yang tidak signifikan dikeluarkan dari model, model dan dilakukan pemodelan regresi yang melibatkan variabel yang berpengaruh.Sehingga, diperoleh model untuk polusi udara di Kota Surabaya adalah sebagai berikut:
PENGUJIAN ASUMSI RESIDUAL Asumsi residual dalam analisis regresi meliputi uji independen identik dan berdistribusi normal (0 independen, (0, σ2). )
Uji Asumsi Independen Dengan melihat hasilnya, nilai Durbin-Watson akan kecil jika terdapat korelasi positif, dan besar jika terdapat korelasi negatif. Sehubungan dengan data di atas, maka dengan bantuan MINITAB 14 diperoleh nilai Durbin-Watson sebesar 1.0663. dengan nilai dL=1,8988772 dan nilai dU=1,9025316. Karena nilai dW < dL, maka tolak H0, sehingga dapat disimpulkan bahwa residual terdapat autokorelasi atau asumsi independen tidak terpenuhi. Selain menggunakan Uji Durbin-Watson, keberadaan autokorelasi juga dapat dilihat dari plot ACF (Autocorrelation Function).
PENGUJIAN ASUMSI RESIDUAL (2)
Uji Asumsi Independen
Autocor r e lation F unction for R ES IDU AL (w ith 5% significance lim its for the a utocorrelations) 1.0 0.8
Autocorrelation n
0.6 0.4 0.2 0.0 -0.2 -0.4 -0.6 0 6 -0.8 -1.0 1
10
20
30
40
50 La g
60
70
80
90
100
PENGUJIAN ASUMSI RESIDUAL (3)
Uji Asumsi Identik Salah satu uji untuk menguji heteroskedastisitas ini adalah dengan melihat scatter plot dari varians residual tersebut. Jika dari scatter plot terlihat bahwa penyebaran residual tidak teratur, maka dapat disimpulkan bahwa varian homoskedastisitas atau asumsi dipenuhi. Berikut ditampilkan output residual versus fit untuk mengetahui kehomogenan pada residual regresi.
PENGUJIAN ASUMSI RESIDUAL (4)
Uji Asumsi Identik
Residuals Versus the Fitted Values (response is PM10) 10.0
Standardized Residual
7.5 5.0 2.5 0.0 -2.5 -5.0 0
20
40
60
80 100 Fitted Value
120
140
160
180
PENGUJIAN ASUMSI RESIDUAL (5) Uji Asumsi Berdistribusi Normal Selanjutnya, asumsi lain yang perlu dipenuhi adalah residual berdistribusi normal. Berikut merupakan Probability Plots dari residual. Probability Plot of RESI2 Normal 99.99
Mean StDev N AD P-Value
99
P Percent
95 80 50 20 5 1
0.01 -100
0
100 RESI2
200
300
1.789388E-13 19.34 1096 10.084 <0.005
PENGUJIAN ASUMSI RESIDUAL (5) Dari beberapa pengujian asumsi di atas, hanya asumsi identik yang terpenuhi sehingga residual dari model regresi tersebut perlu dianalisis terpenuhi, lebih lanjut. Plot ACF menunjukkan bahwa masih terdapat lag-lag yang signifikan yang dapat diartikan bahwa masih terdapat pengaruh residual pada periode pengamatan saat ini (t) dengan residual pada pengamatan sebelumnya (t-k). Selanjutnya residual dari model regresi dimodelkan dengan pemodelan timeseries. Pada penelitian kali ini akan dilakukan pemodelan pada residual dengan pendekatan ARIMA dan ARFIMA. Model yang terbaik adalah model yang menghasilkan kesalahan yang lebih kecil.
PEMODELAN ARIMA Tahap ini meliputi identifikasi model, penaksiran parameter, uji diagnostik, pemilihan model terbaik dan peramalan.
Identifikasi Model Pertama-tama, data dibagi dua menjadi data in sample dan out sample. Pada umumnya, tahapan identifikasi yang pertama kali dilakukan dalam pemodelan time series adalah melihat plot time series in sample. Time S e r ie s P lot of Ins a mple 250 200
Ins sample
150 100 50 0 -50 1
108
216
324
432
540 In d e x
648
756
864
972
1080
PEMODELAN ARIMA(2) ARIMA mengasumsikan kondisi stasioner, sehingga perlu diuji stasioner dalam varian dan mean. mean Dilihat dari TS plot dan ACF Plot terlihat bahwa data telah stasioner dalam varian dan mean. Untuk menguji kestasioneran dalam mean digunakan uji Dickey Fuller dengan
Didapatkan hasil sebagai berikut : Prediktor
Koefisien
SE Koefisien
T
P value P_value
Yt-1
-0,54331
0,02708
-20,06
0,000
Sehingga data telah stasioner, sebab δ signifikan dengan alpha 0.05.
PEMODELAN ARIMA(3)
Autocorrelation Function for Insample
Partial Autocorrelation Function for Insample
(with 5% significance limits for the autocorrelations)
(with 5% significance limits for the partial autocorrelations)
1.0
1.0
0.8
0.8
0.6
0.6
Partial A utocorrelation
Autoc correlation
Karena residual model regresi sudah stasioner dalam mean dan varian, maka dapat dilakukan penentuan orde dari model AR atau MA. MA Berikut adalah plot ACF dan PACF dari residual regresi.
0.4 0.2 0.0 -0.2 02 -0.4 -0.6
0.4 0.2 0.0 -0.2 02 -0.4 -0.6
-0.8
-0.8
-1.0
-1.0 1
5
10
15
20
25
30
35
40 Lag
45
50
55
60
65
70
75
1
5
10
15
20
25
30
35
40 Lag
Plot ACF dan PACF residual Regresi
Sehingga, dapat dilakukan pendugaan model yaitu : ARIMA ([1,2,3,5,8,9,11,12],0,0) ([1 2 3 5 8 9 11 12] 0 0)
45
50
55
60
65
70
75
PEMODELAN ARIMA(4) Penaksiran Parameter dan Uji Signifikansi Parameter Setelah diperoleh model dugaan, selanjutnya dilakukan pengujian ssignifikansi g s p parameter e e model. ode Taksiran s parameter p ee d dari model ode se serta pengujian signifikansi parameter adalah ARIMA ([1,2,3,5,8,9,11,12],0,0). Setelah diestimasi dan dilakukan pengujian signifikansi parameter, terdapat parameter yang tidak signifikan. Parameter yang tidak signifikan dikeluarkan dari model satu persatu dimulai dari yang memiliki nilai p_value terbesar.
SIGNIFIKANSI PARAMETER ARIMA Sehingga diperoleh model yang semua parameternya signifikan yaitu model ARIMA ([1,2,5,12],0,0). Estimasi dan pengujian signifikansi parameter model ARIMA ([1,2,5,12],0,0) ([1 2 5 12] 0 0) ditampilkan pada berikut. berikut Tabel. Estimasi Parameter untuk Model ARIMA ([1,2,5,12],0,0) Parameter
Estimasi
T_hit
P_value
φ1
0,37403
12,44
<0,001
φ2
0,09073
2,98
0,0029
φ3
0,11098
3,99
<0,001
φ4
0,11651
3,84
0,001
Dari tabel 4.4 dapat dilihat bahwa semua parameter untuk model ARIMA ([1 2 5 12] 0 0) signifikan ([1,2,5,12],0,0) i ifik pada d α=5% 5% .
CEK DIAGNOSA RESIDUAL ARIMA
Cek Diagnosa Pada tahap p ini dilakukan p pengujian g j terhadap p residual dari model,, y yaitu uji j white noise yaitu residual bersifat identik dan independen serta pengujian terhadap asumsi kenormalan residual.
Uji Asumsi White Noise Pengujian yang digunakan untuk uji asumsi independensi adalah Ljung Box.
CEK DIAGNOSA RESIDUAL ARIMA(2) Tabel Nilai Statistik Uji Chi-Square Residual Model ARIMA ([1,2,5,12],0,0) Lag
p_value
Kesimpulan
6
4,76
0,0925
Gagal Tolak Ho
12
, 11,57
0,1714 ,
Gagal g Tolak Ho
18
13,18
0,5127
Gagal Tolak Ho
24
16,21
0,7033
Gagal Tolak Ho
30
20 10 20,10
0 7869 0,7869
Gagal Tolak Ho
36
28,64
0,6371
Gagal Tolak Ho
42
32,26
0,7314
Gagal Tolak Ho
48
40,10
0,6396
Gagal Tolak Ho
Dari Tabel di atas dapat dilihat bahwa dari residual ARIMA ([1,2,5,12],0,0) memenuhi asumsi white noise karena semua p-value lebih besar dari α=5%.
CEK DIAGNOSA RESIDUAL ARIMA(3) Pengujian Kenormalan Residual Hasil perhitungan Kolmogorov-Smirnov dengan tingkat signifikansi kesalahan 5% untuk pengujian kenormalan residual dapat dilihat pada Tabel berikut. Pengujian Kenormalan Residual untuk Model
Model ARIMA ([1,2,5,12],0,0)
Statistik Uji D
p-value
0 09659 0,09659
<0,0100 0 0100
nilai p_value p value untuk uji Kolmogorov Kolmogorov-Smirnov Smirnov ((<0,0100) 0,0100) lebih kecil dari α α=5%, 5%, maka dapat disimpulkan bahwa residual untuk model ARIMA ([1,2,5,12],0,0) tidak berdistribusi normal pada tingkat signifikansi kesalahan 5%.
MODEL ARIMA TERBAIK Model terbaik untuk residual regresi adalah model ARIMA ([1,2,5,12],0,0) ൌ
AIC sebesar 9159,503 dan MSE out sample sebesar 537.5336 residual model ARIMA ([1 ([1,2,5,12],0,0) 2 5 12] 0 0) tidak memenuhi asumsi normal karena terdapat outlier Time S e r ie s P lot of Aktual, R a ma la n O uts a mple 250
V ar iab le A k tu al Ram alan O u tsamp le
200
Da ata
150 100 50 0 -50 50 1
110
220
330
440
550 Inde x
660
770
880
990
PEMODELAN ARFIMA Time Series Plot of periodogram
Autocorrelation Function for Insample
2000000
(with 5% significance limits for the autocorrelations) 1.0 0.8
1500000 periodogram
Autocorrelation
06 0.6 0.4 0.2 0.0 -0.2 -0.4
1000000
500000
-0.6 06 -0.8
0
-1.0 1
5
10
15
20
25
30
35
40 Lag
( ) (a)
45
50
55
60
65
70
75
1
55
110
165
220
275 330 Index
385
440
495
(b)
Long memory dapat dilihat dari plot ACF yang autokorelasinya turun lambat secara hiperbolik Selain itu dengan melihat bentuk periodogram. Bentuk periodogram yang meningkat menuju nilai yang sangat besar tetapi berhingga untuk frekuensi yang semakin mendekati nol (Gambar (b)) menunjukkan adanya ketergantungan jangka panjang
ESTIMASI PARAMETER MODEL ARFIMA Langkah-langkah: 1. estimasi nilai d. Pada penelitian ini ditentukan terlebih dahulu nilai parameter differencing d pada data keseluruhan (data in sample), sehingga dalam estimasi parameter dari model-model awal ARFIMA menggunakan nilai d yang sama. Data in sample residual regresi memiliki nilai d sebesar 0.331096. Ini dilihat dari nilai p_value = 0,000 yang lebih kecil dari nilai .
2. Estimasi aspek jangka pendek yaitu parameter p dan q dilihat dari plot ACF
ESTIMASI PARAMETER MODEL ARFIMA (2)
No
1
2
3
Model ARFIMA 1,d, , , 1]]
φ1
φ2
φ3
θ1
-0,880165
0.919562
[0.000]
[0.000]
0.720971
-0.577182
-0.688728
[0 000] [0.000]
[0 059] [0.059]
[0 000] [0.000]
0,686064
-0,0503132
-0,0110528
-0,654334
[0 003] [0,003]
[0 183] [0,183]
[0 744] [0,744]
[0 000] [0,000]
[1,2],d, 1
[1,2,3],d, 1
model dugaan adalah ARFIMA (1,d,1).
UJI ASUMSI RESIDUAL ARFIMA (1, d, 1)
Model ARFIMA
Normal
ARCH 1-1
Portmanteau
ARFIMA
[0 000]** [0.000]
[[0.0183]* ]
[0 8670] [0.8670]
(1,d, 1)
Residual untuk model ARFIMA (1,d, (1 d 1) memenuhi asumsi white noise, tetapi tidak memenuhi asumsi kenormalan.
MODEL ARFIMA TERBAIK
AIC 9159,00399 MSE outsample 280,337 Pada ARFIMA (1,d,1) tidak memenuhi asumsi normal, sehingga analisis dilanjutkan dengan pendeteksian outlier.
PEMODELAN ARIMA DENGAN DETEKSI OUTLIER Outlier pada data menyebabkan ketidaknormalan. Outlier dapat dideteksi dengan menggunakan Boxplot P d penelitian Pada liti i i di ambil ini, bil dua d b h outlier buah tli yang paling li ekstrim yaitu data ke-804 dan data ke-1070. B ox plot of R e s i 250
1070
200
Resi
150 100 50
804 616 1059 907 756 803 46 18 806 816 374 706 278 1039 437 202 20 893 891 892 827 825 782 669 455 458 103 898 711 63 125 851 392 411 1045 67 154 854 787 738 753 1043 824
0 -50 -100 00
388 843 805 617 460 575 942 129 515 899 828 896 810 707 1072 909 1073 1071
SIGNIFIKANSI PARAMETER ARFIMA Parameter
Estimasi
t-hit
P_value
φ1
-0 800973 -0,800973
-7,15 ,
0 000 0,000
θ1
0,849818
8,60
0,000
92 1031 92,1031
6 04 6,04
0 000 0,000
Model di atas sudah memenuhi asumsi white noise dan homogenitas tetapi belum memenuhi asumsi distribusi normal Persamaan model ARFIMA (1,d, 1) dapat dituliskan g berikut sebagai
AIC = 9125,61531 9125 61531 dan MSE sebesar 271,304 271 304
HISTOGRAM RESIDUAL ARFIMA Summary for REsi5 A nderson-D arling N ormality Test
-50
0
50
100
150
200
250
A -S quared P -V alue <
19.98 0.005
M ean S tDev V ariance S kew ness Kurtosis N
0.173 16.478 271.524 3.4151 46.9632 1080
M inimum 1st Q uartile M edian 3rd Q uartile M aximum
-62.447 -8.353 -0.551 6.889 246.490
95% C onfidence Interv al for M ean -0.811
1.156
95% C onfidence Interv al for M edian -1.114
0.068
95% C onfidence Interv al for S tD ev
9 5 % C onfidence Inter vals
15.811
17.204
Mean Median -1.0
-0.5
0.0
0.5
1.0
Ketidaknormalan data juga dapat dilihat dari nilai kurtosis yaitu 46,9632 (berdistribusi normal bila nilai kurtosis adalah nol). Pada p penelitian ini,, residual model ARFIMA ( (1,d,1) , , ) dengan g outlier t=804 memiliki kurtosis positif, yang biasa disebut dengan leptoturtic
PERBANDINGAN MODEL ARIMA DAN ARFIMA Model ARIMA ([1,2,5,12],0,0) ARFIMA (1,d, 1) dengan outlier
AIC
MSE
9259,903
537,5336
9125,61531
271,304
t=804 model regresi untuk pemodelan polusi udara
mengikuti g model ARFIMA sebagai g berikut:
KESIMPULAN 1. Metode yang paling baik untuk mengatasi missing observations pada data penelitian ini adalah metode MEAN jika dibandingkan dengan metode MINIMUM dan MAKSIMUM.
2. Berdasarkan perhitungan MSE model regresi dengan error,
kombinasi model regresi dan ARFIMA memberikan nilai MSE yang jauh lebih kecil dibandingkan model dengan kombinasi regresi dan ARIMA, sehingga dapat dikatakan bahwa model regresi dengan ARFIMA merupakan metode terbaik untuk memodelkan polusi udara di Kota Surabaya
3. Model terbaik yang diperoleh adalah model ARFIMA(1,d, 1) dengan outlier tt=804 804
SARAN Saran yang dapat direkomendasikan untuk penelitian selanjutnya adalah dengan menambah variabel prediktor untuk mendapatkan pemodelan yang lebih sesuai.
DAFTAR PUSTAKA
Dahlhaus, R., 1995. Efficient location and regression estimation for long range dependent regression models. Ann.Statist. 23, 1029–1047. Doornik, J. A. dan Ooms, M. (2001) Computational Aspects of Maximum Likelihood Estimation of Autoregressive Fractionaly Integrated Moving Average models. Nuffield College, University of Oxford, Oxford OXI 1NF, UK and Departemen of Econometrics, Free University of Amsterdam 1081 HV Amsterdam, T N Te Nederlands. d l d Granger, C. W. J. (1980), An Introduction to Long-Memory Time Series Models and Fractional Differencing. Journal of Time Series Analysis, 1, 15-39 Hall, P., Lahiri, S.N. dan Polzehl, J., 1995. On bandwidth choice in nonparametric regression with both short and longrange dependency errors. Ann. Statist. 23, 1921–1936. Hanea, R., 2005. Data assimilation Concept and the Kalman Filter Approach for an Atmospheric Application. Bahan RWS, TU Delft. Hauser, M. A. (1998). Maximum Likelihood Estimators for ARMA and ARFIMA Models : A Monte Carlo Study. University of Econometrics and Business Administraton, Department of Statistics, Vienna. Iglesias, P., Jorquera, H., dan Palma, W. (2005). Data Analysis Using Regression Model with Missing Observations and Long-memory: g y An Application pp Study. y Journal of Computational p Statistics and Data Analysis 50, 2028–2043. Irhamah. (2001). Perbandingan Metode – metode Pendygaan Parameter Model ARFIMA. Tesis Magister (tidak dipublikasikan). Institut Teknologi Sepuluh Nopember. Surabaya. John, H.R., John H R 1971. 1971 Spectrum Estimation With Missing Observations. Observations Air Force Office of Scientific Research, Research Office of Aerospace Research, United Related Fields 95, 538-553. Koul, H.L. dan Mukherjee, K., 1993. Asymptotics of R-, MD- and LAD estimators in linear regression with long range dependent errors. Probab. Theory Related Fields 95, 538–553.
DAFTAR PUSTAKA
Lardic S. dan Mignon V. (2003). The Exact Maximum Likelihood Estimation of ARFIMA Processed and Model Selection Criteria: A Monte Carlo Study. MODEM- CNRS, University of Paris X. Palma, W. dan Chan, N.H., 1997. Estimation and forecasting of long-memory processes with missing values. J. Forecasting 16, 395–410. Palma, W. dan Del Pino, G., 1999. Statistical analysis of incomplete long-range dependent data. Biometrika 86, 165–172. Robinson, P.M. dan Hidalgo, F.J., 1997. Time series regression with long-range dependence. Ann. Statist. 25, 77 77–104. 104. Sowell, F., 1992. Maximum likelihood estimation of stationary univariate fractionally integrated models. J. Econometrics 53, 165–188 Wei, W.W.S. (1990), Time Series Analysis.Canada: Addison Wisley Pubblishing Company. Widarjono, A., 2007. Ekonometrika. Teori dan Aplikasi untuk Ekonomi dan Bisnis. Ekonisia. Yogyakarta. Yajima, Y., 1988. On estimation of a regression model with long-memory stationary errors. Ann. Statist. 16, 791–807. Yajima,Y. dan Nishino, H., 1999. Estimation of the autocorrelation function of a stationary time series with missing observations. Sankhy¯a Ser. A 61, 189–207.