Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
BAGGING MARS UNTUK PENGEMBANGAN MODEL RAMALAN ANOMALI LUAS PANEN PADI DI KABUPATEN GUNUNGKIDUL 1
Alif Yuanita, 2Bambang Widjanarko Otok, dan 3Sutikno
1
Mahasiswa Statistika, Institut Teknologi Sepuluh Nopember 2,3 Dosen Statistika, Institut Teknologi Sepuluh Nopember 1
[email protected], 2
[email protected], 3
[email protected] Abstrak Produksi dan luas panen padi berhubungan erat dengan iklim. Salah satu upaya untuk mendukung ketahanan pangan adalah diperlukannya informasi tentang ramalan produksi padi dan luas panen padi kedepan. Sehingga dilakukan pemodelan antara anomali luas panen per periode dengan curah hujan terboboti. Metode bagging MARS digunakan untuk menyelesaikan masalah tersebut. MARS merupakan pendekatan untuk regresi multivariate yang digunakan untuk mengatasi kelemahan Recursive Partitioning Regression yang masih memiliki kelemahan dimana model yang dihasilkan tidak kontinu pada knots. Untuk mendapatkan error yang lebih kecil digunakan metode bagging. Pada pembentukan model bagging MARS didapatkan nilai koefisien determinasi yang cukup tinggi. Nilai koefisien determinasi yang dihasilkan dengan metode bagging MARS lebih tinggi daripada nilai koefisien determinasi dengan menggunakan metode Robust Bootstrap LTS yang dilakukan oleh Amir (2009). Kata kunci : Anomali luas panen, bagging, MARS
1. Pendahuluan Padi merupakan makanan utama bagi orang Indonesia, yang menyediakan pendapatan secara musiman dan tenaga kerja untuk masyarakat pedesaan. Salah satu faktor yang berpengaruh terhadap kegagalan produksi pertanian di Indonesia adalah kejadian ektrim El-Nino dan La-Nina. Penyimpangan iklim yang seperti ini dapat mengancam sistem produksi pertanian terutama padi. Hal ini disebabkan curah hujan yang tidak menentu yang mengakibatkan penurunan luas panen produksi padi nasional secara signifikan (Balitklimat, 2009). Produksi dan luas panen padi berhubungan erat dengan iklim. Salah satu upaya untuk mendukung ketahanan pangan adalah diperlukannya informasi tentang ramalan produksi padi dan luas panen padi kedepan. Oleh karena itu perlu dilakukan permodelan luas panen padi yang handal terhadap kejadian-kejadian ekstrim. Berbagai model produksi padi dengan menggunakan indikator iklim telah dikembangkan di Indonesia, salah satunya dengan menggunakan peubah indikator ENSO (Naylor,
1
Falcon, Wada & Rochberg, 2002). Pendekatan lain yang diperkirakan lebih baik dalam menduga produksi padi nasional ialah dengan menggunakan indeks hujan terboboti (weighted rainfall index: WRI) yang dikembangkan di Australia oleh Stephen, Walker dan Lyons (1994). Sutikno (2008) melakukan permodelan regresi anomali luas panen per periode (AnLPp) dan indeks curah hujan terboboti (weighted rainfall index: WRI). Multivariate Adaptive Regression Splines (MARS) adalah salah satu prosedur dalam regresi non parametrik. Pendekatan non parametrik digunakan jika tidak ada informasi tentang bentuk fungsi/kurva serta tidak tergantung pada asumsi bentuk kurva tertentu (Eubank, 1988). Data yang digunakan dalam penelitian ini adalah data anomali luas panen selama 11 tahun, data tersebut terbilang cukup sedikit apabila dimodelkan menggunakan MARS. Oleh karena itu, dilakukan metode resampling dalam penyusunan modelnya untuk mendapatkan jumlah sampel yang sesuai. Metode resampling yang digunakan adalah bootstrap aggregating (bagging). Diharapkan bagging MARS ini mampu memberikan nilai error yang lebih kecil dibandingkan dengan pemodelan lainnya (Scholz, 2007). Makalah ini bertujuan untuk menyusun model hubungan antara anomali luas panen padi per periode (AnLPp) dan curah hujan teroboboti (WRI) dengan metode bagging MARS di Kabupaten Gunungkidul. Selain itu membandingkan keakuratan model bagging MARS dengan hasil prediksi model yang sudah ada dengan menggunakan Robust Bootstrap LTS. 2. Tinjauan Pustaka Secara umum regresi adalah menganalisis hubungan dan pengaruh variabel prediktor terhadap variabel respon. Terdapat dua pendekatan estimasi model dalam analisis regresi, yaitu pendekatan parametrik dan pendekatan nonparametrik. MARS adalah salah satu model regresi nonparametrik yang tidak mengasumsikan bentuk hubungan fungsional antara variabel respon dan prediktor serta mempunyai bentuk fungsional yang fleksibel. 2.1 MARS MARS merupakan pendekatan untuk regresi multivariate nonparametrik yang dikembangkan oleh Friedman (1991). Metode ini digunakan untuk menyelesaikan dua permasalahan utama dalam statistika, yaitu respon kontinu dan kategorik. MARS merupakan pengembangan dari pendekatan Recursive Partitioning Regression (RPR) yang masih memiliki kelemahan dimana model yang dihasilkan tidak kontinu pada knots. Selain itu RPR tidak bisa mengidentifikasi adanya fungsi linear dan aditif. Untuk mengatasi kelemahan RPR dalam mengidentifikasi fungsi linier dan aditif, Friedman mengusulkan untuk tidak menghapus induk (parent) region selama pemilahan subregion berlangsung. Jadi pada iterasi berikutnya, parent dan pilahan subregion dapat dipilah lebih lanjut, sehingga diperoleh subregion yang saling tumpang tindih. Namun modifikasi tersebut masih belum bisa mengatasi adanya diskontinu yang disebabkan perkalian fungsi univariat. Oleh karena itu, Friedman mengusulkan untuk mengganti perkalian fungsi univariat dengan regresi linier splines (ordo satu) dengan sisi kiri (-) dan sisi kanan (+) truncated splines.
2
dengan jumlah pilahan subregion ke– dari domain , merupakan knot dari peubah prediktor nilainya +1 jika knotnya terletak di kanan atau –1 , dan jika knotnya terletak di kiri subregion. Modifikasi dalam algoritma RPR menghasilkan estimator model umum persamaan MARS sebagai berikut.
Dengan fungsi,
dimana
adalah koefisien konstanta dari basis fungsi
. Koefisien
ditentukan dengan menggunakan metode kuadrat terkecil. Dengan menggunakan persamaan (5) maka model untuk MARS adalah
2.2 Bootstrap Bootstrap pertama kali diperkenalkan oleh Efron pada tahun 1979. Bootstrap merupakan metode penaksiran nonparametrik yang dapat menaksir parameterparameter dari suatu distribusi, variansi dari sampel median, serta dapat menaksir error (Efron & Tibshirani, 1993). Metode bootstrap juga mampu memberikan estimasi terbaik dengan mengurangi kebiasan dari hasil estimasinya. Pada metode bootstrap dilakukan pengambilan sampel dengan pengembalian pada sampel data. Secara singkat algoritma bootstrap dapat dinyatakan sebagai berikut (Efron & Tibshirani, 1993). 1. Sampel data didefinisikan sebagai data sampel berukuran n yang terdiri dari dengan sebagai vektor data pengamatan. 2. Sampel data diambil secara acak dengan pengembalian sebanyak kali. Diperoleh data sampel baru yang didefinisikan sebagai . Sampel data terdiri dari anggota data asli, akan tetapi mungkin beberapa data asli tidak akan muncul, atau muncul hanya satu kali atau dua kali, tergantung dari randomisasinya. 3. Langkah (2) dilakukan secara berulang sebanyak sehingga didapatkan himpunan data bootstrap . Setiap sampel bootstrap merupakan sampel acak yang saling independen.
3
4. Menentukan nilai statistik dengan bootstrap yaitu
dan
2.3 Bagging Bagging adalah metode statistik yang dirancang untuk meningkatkan akurasi model peramalan yang dipilih berdasarkan aturan-aturan keputusan yang tidak stabil. Pada intinya, bagging melibatkan model unrestricted atau model tertutup yang meliputi semua prediktor yang potensial untuk sampel asli, mengenerate sejumlah bootstrap resamples dari data, menerapkan aturan pengambilan keputusan untuk setiap resamples, dan rata-rata prakiraan model yang dipilih berdasarkan aturan pengambilan keputusan untuk setiap sampel bootstrap. Dengan menghitung rata-rata semua resamples, bagging secara efektif dapat menghilangkan ketidakstabilan aturan pengambilan keputusan. Oleh karena itu, harapannya varians dari model bagging lebih kecil dari model yang menggunakan data asli. Berikut ini merupakan langkah-langkah yang digunakan dalam metode bagging (Buhlmann & Yu, 2002). 1. Mengkonstruk sampel bootstrap menurut distribusi empiris pada pasangan 2. Menghitung estimator bootstrap dengan prnsip plug-in yaitu dengan 3. Menentukan estimator bagging . Secara heuristik kinerja variansi estimator bagging adalah sama dengan atau lebih kecil dibandingkan estimator asli 3. Data dan Metode Data yang digunakan dalam penelitian ini adalah data sekunder BPS dan Dinas Tanaman Pangan Kabupaten Gunungkidul D.I Yogyakarta, serta BMKG Stasiun Klimatologi Semarang Jawa Tengah. Variabel respon yang digunakan adalah anomali luas panen padi per periode yang meliputi AnLP1 (anomali luas panen periode 1, yaitu bulan Januari-April), AnLP2 (anomali luas panen periode 2, yaitu bulan Mei-Agustus), dan AnLP3 (anomali luas panen periode 3, yaitu bulan September-Desember). Sedangkan variabel prediktornya adalah curah hujan terboboti (WRI) periode 1 yang terdiri dari WRI1 (Bulan Januari), WRI2 (Bulan Februari), WRI3 (Bulan Maret), dan WRI4 ( Bulan April), WRI Periode 2 yang terdiri dari WRI5 (Bulan Mei), WRI6 (Bulan Juni), WRI7 (Bulan Juli), dan WRI8 ( Bulan Agustus) serta WRI pada periode 3 yang terdiri dari WRI9 (Bulan September), WRI10 (Bulan Oktober), WRI11 (Bulan November), dan WRI12 (Bulan Desember). Untuk membangun model, terlebih dahulu dilakukan bagging terhadap prediktor dengan 50,60,70,80,90,100,150, dan 200 replikasi bootstrap. Selanjutnya memodelkan MARS dengan terlebih dahulu menentukan maksimum jumlah basis fungsi (BF), maksimal interaksi (MI) dan minimum jumlah observasi antar knot (MO). 4. Hasil dan Pembahasan Pada bagian ini akan dijelaskan tentang deskriptif data, pembentukan model anomali luas panen terhadap curah hujan terboboti dengan menggunakan bagging MARS, serta membandingkan keakuratan model bagging MARS dengan hasil
4
prediksi model yang sudah ada dengan menggunakan Robust Bootstrap LTS yang telah dilakukan oleh Amir (2009). 4.1 Deskriptif Data Kabupaten Gunungkidul terletak antara 7 o 46’- 8o 09’ Lintang Selatan dan 110o 21’ - 110o 50’ Bujur Timur, yang berbatasan dengan Kabupaten Klaten dan Kabupaten Sukoharjo, Propinsi Jawa Tengah di sebelah utara. Produksi padi di Kabupaten Gunungkidul dalam tiga tahun terakhir mencapai sekitar 200.000 ton per tahun. Jika dilihat produksi per periode, produksi tertinggi terjadi pada periode 1 yaitu pada bulan Januari sampai April. Berdasarkan Tabel 1, sejak tahun 1990 sampai dengan tahun 2008, Kabupaten Gunungkidul mampu menghasilkan ratarata produksi padi sebesar 136.897 ton dengan luas panen 41.046 hektar. Pada periode 2 rata-rata produksi padi mengalami penurunan cukup drastis yaitu 19.156 ton dengan luas panen 4.336 hektar. Sedangkan rata-rata produksi padi pada periode 3 merupakan rata-rata produksi terendah dalam setahun yaitu hanya 1.917 ton dengan luas panen 417 hektar. Produktifitas padi per periode selama tahun 1990 sampai dengan 2008 terlihat bahwa pada periode 1 merupakan yang terendah berkisar 33,19 Kw/Ha. Sedangkan pada periode 3 justru merupakan yang tertinggi yaitu 45,27 Kw/Ha. Tabel 1. Nilai Rataan, Simpangan Baku, Minimum dan Maksimum Produksi, Produktifitas, dan Luas Panen Padi di Kabupaten Gunungkidul per Periode Tahun 1990 – 2008 Periode Rataan Simpangan Minimum Maksimum Baku Produksi (ton) 1 136897 28679 105571 206203 2 19156 7490 7162 35654 3 1917 908 402 4217 Produktivitas 1 33.19 6.03 26.14 44.90 (Kw/Ha) 2 43.33 6.07 36.41 56.06 3 45.27 7.19 35.69 66.68 Luas Panen (Ha) 1 41046 1599 37580 45926 2 4336 1249 1916 6717 3 417 168 83 858
4.2 Pembentukan Model Anomali Luas Panen terhadap Curah Hujan Terboboti dengan Metode Bagging MARS Identifikasi awal hubungan anomali luas panen padi per periode (AnLPp) dengan curah hujan terboboti (WRI) dapat diketahui dengan membuat plot antara variabel AnLP per periode dan WRI untuk masing-masing bulan. Pada Gambar 1 terlihat bahwa hampir semua mempunyai pola acak, sehingga tidak diketahui pola hubungan yang jelas antara variabel WRI dan variabel AnLP. Selanjutnya data yang digunakan dalam penelitian ini selama 11 tahun, namun data tersebut terbilang cukup sedikit. Oleh karena itu, dilakukan metode resampling dalam penyusunan modelnya untuk mendapatkan jumlah sampel yang sesuai. Metode resampling yang digunakan adalah bootstrap aggregating (bagging) yang merupakan pengambilan sampel dengan pengembalian untuk data set yang terdiri dari variabel respon (y)
5
dan variabel prediktor (x). Sampel bootstrap diambil sebanyak n data, kemudian direplikasi bootstrap sebanyak 50, 60, 70, 80, 90, 100, 150, dan 200. Pada setiap pengambilan sampel akan dibentuk model MARS sehingga akan diperoleh nilai koefisien determinasi R2 sebanyak B dalam setiap B replikasi bootstrap. Perhitungan R2 dilakukan pada setiap pengambilan sampel. Scatterplot of AnLP SR 1 vs WRI 1, AnLP SR 1 vs WRI 2, AnLP SR 1 vs WR AnLP SR 1*WRI 1 2000 0
5
AnLP SR 1*WRI 2
3 6 7
109 4 8 1
9 11 11 7
3 5
AnLP SR 1*WRI 3 3
4 8
1
6
10 11 8 1
6
9
5
74
AnLP SR 1*WRI 4 3 6 5 9 10 10 4 7 8 1
11
-2000
Anomali Luas Panen
2
0.0
2
0.8 1.6 AnLP SR 2*WRI 5 11 5
10 9
8
6
7
1
3
11
5
4 10 6 2
2
0.6 1.2 1.8 AnLP SR 2*WRI 6
5 11
4
2
10 15 0 10 20 AnLP SR 2*WRI 7 AnLP SR 2*WRI 8 11 5
46 10
78 9 1 3
78 1
2
5 10
9 3
2
6
7 9 8 3
2000
4 1
2
0 -2000
0.000 0.025 0.050 0.0 0.2 0.4 0.00 0.25 0.50 AnLP SR 3*WRI 9 AnLP SR 3*WRI 10 AnLP SR 3*WRI 11 2000 0
2 11 10 5 6 7 3 4 9 1
11 68 8 10
7 1
43 5
2
9
10 9 11
2 5 4 3 76 1
0.00
8
0.02 0.04 AnLP SR 3*WRI 12
2 54 63 87 1 9
11
10
-2000 0.0000
0.0002
0.0004 0
20
40 0
80
1600
50
100
Curah hujan terboboti
Gambar 1. Diagram Pencar antara WRI dengan AnLP per Periode Dalam pembentukan model MARS dilakukan dengan trial and error terhadap maksimum basis fungsi, maksimum interaksi dan minimal jumlah pengamatan diantara knots atau minimum observasi sampai diperoleh model optimal dengan nilai R2 yang optimum. Tabel 2 merupakan hasil dari bagging MARS dengan 50, 60, 70, 80, 90, 100, 150 dan 200 replikasi bootstrap untuk model anomali luas panen pada periode 1. Tabel 2. Hasil Bagging MARS untuk Periode 1 Replikasi Bootstrap R2 Replikasi 50 kali 77,8 % Replikasi 60 kali 33,1 % Replikasi 70 kali 91,7% Replikasi 80 kali 27,5 % Replikasi 90 kali 95,4 % Replikasi 100 kali 30,8 % Replikasi 150 kali 91,8 % Replikasi 200 kali 70 % Tabel 2 memberikan informasi bahwa dengan 90 replikasi bootstrap diperoleh R2 terbesar yaitu sebesar 95,4 %, sehingga berdasarkan hasil diatas maka dapat disimpulkan bahwa diperoleh bagging prediktor terbaik adalah pada replikasi bootstrap sebanyak 90 kali. Model bagging MARS yang diperoleh dari
6
bagging prediktor terbaik untuk anomali luas panen pada periode pertama adalah sebagai berikut. Y = -10881.916 - 2683.722 BF1 + 611.606 BF2 + 5618.453 BF3 + 2492.531 BF4 + 2529.131 BF5 - 200.816 BF7 - 234.726 BF8; Dengan, BF1 = max(0, WRI3 - 11.660); BF2 = max(0, 11.660 - WRI3 ); BF3 = max(0, WRI2 - 0.969) BF2; BF4 = max(0, 0.969 - WRI2 ) BF2; BF5 = max(0, WRI3 - 6.797); BF7 = max(0, WRI4 - 3.435); BF8 = max(0, 3.435 - WRI4 ); Tabel 3. Hasil Bagging MARS untuk Periode 2 Replikasi Bootstrap R2 Replikasi 50 kali 37 % Replikasi 60 kali 87,2 % Replikasi 70 kali 64,5 % Replikasi 80 kali 63,2 % Replikasi 90 kali 86,8 % Replikasi 100 kali 72,7 % Selanjutnya untuk model anomali luas panen pada periode 2 diperoleh hasil seperti ditunjukkan pada Tabel 3. Terlihat bahwa degan replikasi 60 kali didapatkan nilai R2 paling besar, yaitu sebesar 87,2 %. Dan model untuk bagging MARS sebagai berikut. Y = -802.151 - 5836417.000 BF2 - 294013.156 BF3 + 124829.188 BF4 - 35343.574 BF5 + 37457.789 BF6; Dengan, BF1 = max(0, WRI8 - .166459E-08); BF2 = max(0, WRI5 - .114626E-08) BF1; BF3 = max(0, WRI6 - 0.002) BF1; BF4 = max(0, WRI6 - 0.002); BF5 = max(0, WRI7 - .489807E-08); BF6 = max(0, WRI5 - .114626E-08); Seperti pada Tabel 2 dan Tabel 3, pada Tabel 4 terlihat bahwa didapatkan nilai R paling besar pada replikasi bootstrap sebanyak 60 kali yaitu sebesar 90,4 %. Dengan model untuk bagging MARSnya adalah sebagai berikut. 2
Y = -182.848 + 19.779 BF1 + 116.783 BF2 - 35.371 BF3 - 11.062 BF4 - 32.240 BF6 + 28.666 BF7; Dengan, BF1 = max(0, WRI10 - 7.642);
7
BF2 = max(0, 7.642 - WRI10 ); BF3 = max(0, WRI11 - 63.952); BF4 = max(0, 63.952 - WRI11 ); BF6 = max(0, 10.016 - WRI12 ); BF7 = max(0, WRI11 - 59.418); Tabel 4. Hasil Bagging MARS untuk Periode 3 Replikasi Bootstrap R2 Replikasi 50 kali 82,9 % Replikasi 60 kali 90,4 % Replikasi 70 kali 58,9 % Replikasi 80 kali 48,6 % Replikasi 90 kali 80,4 % Replikasi 100 kali 53,2 % Replikasi 150 kali 64 % Secara umum hasil ini menunjukkan kinerja yang lebih baik jika dibandingkan dengan metode Robust Bootstrap for LTS (Amir, 2009). Tabel 5 terlihat bahwa, pada periode 1 dan 3 nilai R2 untuk bagging MARS lebih besar dari pada R2 untuk Robust Bootstrap LTS. Akan tetapi pada periode 2 nilai R 2 untuk Robust Bootstrap LTS lebih tinggi daripada bagging MARS. Tabel 5. Perbandingan antara Bagging MARS dan Robust Bootstrap LTS R2 Periode Bagging MARS Robust Bootstrap LTS Periode 1 95,4 % 87,18 % Periode 2 87,2 % 95,52 % Periode 3 90,4 % 85,89 %
5. Kesimpulan Pada pembentukan model bagging MARS untuk anomali luas panen pada periode 1, dengan 90 replikasi bootstrap diperoleh R2 terbesar yaitu sebesar 95,4 %. Sedangkan pada periode 2 diperlukan replikasi sebanyak 60 kali untuk mendapatkan R2 sebesar 87,2 %. Dan untuk periode 3, didapatkan nilai R 2 paling besar pada replikasi bootstrap sebanyak 60 kali yaitu sebesar 90,4 %. Dari nilai koefisien determinasi tersebut, metode bagging MARS mempunyai kinerja yang cukup baik dalam memodelkan anomali luas panen padi per periode.
Daftar Pustaka
Amir, M.M. (2009). Prediksi Produksi Padi Menggunakan Weighted Rainfall Index dengan Pendekatan Fast and Robust Bootstrap for Least Trimmed Square (Studi Kasus di Kabupaten Gunung Kidul). Seminar Tesis Program Pascasarjana, Institut Teknologi Sepuluh Nopember.
8
[Balitklimat] Balai Penelitian Agroklimat dan Hidrologi. (2009). Model Prediksi Anomali Iklim untuk Mengurangi Resiko Pertanian. (http://balitklimat. litbang.deptan.go.id/index.php?option=com_content&task=view&id=106&It e mid=9). Download tanggal 6 Juli 2009 jam 15:35 [BMKG] Badan Meteorologi, Klimatologi, dan Geofisika. (2009). (www.bmg.go.id). Download tanggal 30 Maret 2009 jam 13:20. [Deptan dan BPS] Departemen Pertanian and Badan Pusat Statistik. (2003). Buku Pedoman Petugas Kabupaten/Kota dan Propinsi, Pengumpulan Data Tanaman Pangan dan Holtikultura. Jakarta: BPS dan Departemen Pertanian. Abraham, A., & Steinberg, D. (2001). MARS: Still an Alien Planet in Soft Computing?. School of Computing and Information Technology, Salford System. Inc, USA Breiman, L. (1994). Bagging Prediktor. Technical report No.421. Department of statistiks University of California. Buhlmann, P., & Bin Y. (2002). Analyzing Bagging. Annals of Statistiks, 30, 927961 Efron, B. & Tibshirani, R.J. (1993), An Introduction to the Bootstrap, New York: Chapman & Hall, Inc. Eubank,R.L.,(1988), Spline Smoothing and Nonparametric Regression, New York: Mercel Dekker. Friedman, J.H., (1991), Multivariate Adaptive Regression Splines. The Annals of Statistiks. Vol. 19 No.1 Nash, M.S. & Bradford, D.F. (2001), Parametric and Non Parametric Logistic Regression for Prediction of Precense/ Absence of an Amphibian. Las Vegas: Nevada. Naylor RL, Falcon WP, Wada N, & Rochberg D. (2002). Using El Niño-Southern Oscillation Climate Data To Improve Food Policy Planning In Indonesia. Bulletin of Indonesian Economic Studies 38: 75–91. Scholz, F.W. (2007). The Bootstrap Small Sample Properties. University of Washington. Sephton, P. (2001). Forecasting Recessions: Can We Do Better on MARS. The Federal Reserve Bank of St. Louis. Sutikno. (2008). Statistikal Downscaling Luaran GCM dan Pemanfaatannya untuk Peramalan Produksi Padi [Disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.
9