METODE POHON REGRESI UNTUK EKSPLORATORI DATA DENGAN PEUBAH YANG BANYAK DAN KOMPLEKS Regression Trees Method for Data Mining on Wide and Complex Variables Wieta B. Komalasari Fungsional Statistisi Pusat Data dan Informasi Pertanian
ABSTRACT Regression trees are used to predict membership of cases or objects in the classes of a categorical dependent variable from their measurements on one or more predictor variables. Regression tree analysis is one of the main techniques used in so-called data mining. The goal of regression trees is to predict or explain responses on a categorical dependent variable. The flexibility of regression trees make them a very attractive analysis option, but this is not to say that their use is recommended to the exclusion of more traditional methods. Indeed, when the typically more stringent theoretical and distributional assumptions of more traditional methods are met, the traditional methods may be preferable. But as an exploratory technique, or as a technique of last resort when traditional methods fail, regression trees are, in the opinion of many researchers, unsurpassed. This research used data from survey on farmer income conducted by BPS-Statistics Indonesia (for Jawa Timur Province) in 2004, and regression method based on tree structure with CART algorithm to build a model. The results show that farmer’s income is interconnected with expenditure of farming activities and land ownership. Despitefully, there are other non-technical factors that also can influence the income. This factors among others the social condition of pertinent agriculture household, for example, education level, age and also other external factors such as soft loan from government and agriculture counseling. These matters indicate that the earnings from farming activities is represented by the function of those factors.
Informatika Pertanian Volume 16 No. 1, Juli 2007
967
PENDAHULUAN Pada umumnya analisis regresi digunakan untuk mencari peubah-peubah yang dapat menerangkan keragaman respon dan dapat digunakan dalam kajian lebih lanjut. Dengan kata lain, analisis regresi digunakan untuk mengetahui pengaruh peubah-peubah penjelas terhadap peubah respon. Dalam perkembangannya analisis regresi dapat juga sebagai alat yang digunakan untuk eksplorasi data. Keabsahan penggunaan analisis regresi sangat bergantung pada banyak asumsi, sehingga untuk mendapatkan dugaan persamaan regresi yang memenuhi semua asumsi menjadi sangat sulit. Masalah ini dapat diatasi dengan metode regresi yang tidak lagi harus memenuhi asumsi-asumsi tadi, diantaranya adalah dengan metode pohon regresi (regression trees method). Pohon regresi ini merupakan salah satu metode eksplorasi nonparametrik yang dapat digunakan untuk melihat hubungan antara peubah respon kontinu dengan peubah-peubah penjelas yang berukuran besar dan kompleks. Kekomplekan tersebut dapat berupa dimensinya yang besar atau jenis peubahnya campuran, misalnya kontinyu dan kategorik, baik nominal maupun ordinal. Sama halnya dengan metode regresi biasa, pohon regresi juga menjelaskan bagaimana hubungan antara peubah respon dan peubah-peubah penjelasnya. Perbedaannya adalah bahwa pada metode pohon regresi, pengaruh peubah penjelas serta pendugaan responnya dilakukan pada kelompok-kelompok pengamatan yang ditentukan berdasarkan peubah-peubah penjelas, sehingga interpretasi hasil dari metode ini lebih mudah dilakukan. Hal ini karena identifikasi pengaruh dari peubah penjelas dari pohon regresi dilakukan dalam masing-masing subgrup data bukan dalam keseluruhan data seperti halnya regresi biasa. Di samping itu pohon regresi dapat mengatasi masalah adanya pencilan. Perhitungan statistik yang dilakukan dalam metode pohon regresi ini juga tidak rumit sehingga menjadi kelebihan lainnya dari metode ini. Tujuan penulisan ini adalah untuk menunjukkan CART sebagai suatu metode alternatif dalam regresi yang melibatkan peubah-peubah penjelas yang banyak dan kompleks, dimana beberapa asumsi yang harus dipenuhi untuk penggunaan regresi konvensional mungkin tidak bisa dipenuhi oleh peubah-peubah tadi. Adapun manfaat tulisan ini diharapkan dapat membantu para peneliti bagaimana mengeksplorasi data yang kompleks berdasarkan hasil metode regresi pohon. 968
Metode Pohon Regresi untuk Eksplorasi Data
Dalam tulisan ini gambaran penerapan analisis pohon regresi dilakukan untuk eksplorasi penciri tingkat pendapatan usaha tani di Jawa Timur. Data yang digunakan adalah data hasil Survei Pendapatan Petani 2004 yang dilaksanakan oleh Badan Pusat Statistik, survei ini merupakan salah satu bagian dari kegiatan Sensus Pertanian 2003 di Indonesia. METODOLOGI CART (Classification and Regression Trees) adalah salah satu metode atau algoritma dari salah satu teknik eksplorasi data yaitu teknik pohon keputusan. Metode ini dikembangkan oleh Leo Breiman, Jerome H. Friedman, Richard A. Olshen dan Charles J. Stone sekitar tahun 1980-an. Menurut Breiman et al. (1993), CART merupakan metodologi statistik nonparametrik yang dikembangkan untuk topik analisis klasifikasi, baik untuk peubah respon kategorik maupun kontinu. CART menghasilkan suatu pohon klasifikasi jika peubah responnya kategorik, dan menghasilkan pohon regresi jika peubah responnya kontinu. Tujuan utama CART adalah untuk mendapatkan suatu kelompok data yang akurat sebagai penciri dari suatu pengklasifikasian. Bentuk dari CHART adalah seperti berikut ini : node/simpul A Ya
tidak
cabang
x1≤ α ?
B
C Ya
tidak x2 ≤ β ?
C
C
Simpul akhir
Gambar 1 Diagram CHART.
Pada Gambar 1 di atas A, B dan C merupakan peubahpeubah penjelas yang terpilih untuk menjadi simpul. A merupakan simpul induk, sementara B dan C merupakan simpul anak dimana C juga merupakan simpul akhir yang tidak bercabang lagi. Sementara α dan β merupakan suatu nilai yang Informatika Pertanian Volume 16 No. 1, Juli 2007
969
merupakan nilai tengah antara dua nilai amatan peubah x j secara berurutan. Diagram yang dihasilkan oleh CART ini merupakan suatu model, biasanya diinterpretasikan ke dalam suatu tabel untuk penjelasannya. Hal ini berbeda dengan regresi konvensional dimana model regresi dapat dituliskan menjadi model matematik atau persamaan regresinya. Pembangunan pohon dilakukan melalui penyekatan gugus data dengan sederetan penyekat biner sampai dihasilkan simpul akhir. Tahapannya adalah sebagai berikut: 1. Tentukan semua kemungkinan penyekatan pada tiap peubah penjelas. Tiap penyekatan ini bergantung pada nilai yang berasal dari satu peubah penjelas. Untuk peubah kontinu x j , penyekatan yang diperbolehkan adalah x j ≤ c dan x j ≥ c, dimana c adalah nilai tengah antara dua nilai amatan peubah x j secara berurutan. Jadi jika x j mempunyai sebanyak n nilai yang berbeda maka akan ada n-1 penyekatan. 2. Untuk peubah kategorik, penyekatan yang terjadi berasal dari semua kemungkinan penyekatan berdasarkan terbentuknya dua anak gugus yang saling lepas (disjoint). Jika x j peubah kategorik nominal dengan L kategori, maka akan ada 2 L-1 – 1 penyekatan, sedangkan jika x j adalah peubah kategorik ordinal maka akan ada L – 1 penyekatan. 3. Hitung kehomogenan simpul berdasarkan jumlah kuadrat dalam simpul, JKS(t), dimana jumlah kuadrat sisaan pada simpul t dinyatakan sebagai:
[
JKS (t ) = ∑ ( yi ( t ) − y(t )
]
2
dengan i = 1,2,…, N t
xn ∈t
dimana y i(t) = nilai individu peubah respon pada simpul ke-t dan y(t ) = nilai tengah peubah respon pada simpul ke-t. N t adalah jumlah data yang ada pada simpul ke-t. 4. Lakukan untuk semua peubah penjelas sehingga didapat peubah sebagai penyekat terbaik dimana kehomogenannya maksimum. Misalkan ada penyekatan s yang menyekat t menjadi simpul anak kiri t L dan simpul anak kanan t R , fungsi penyekatan yang digunakan adalah: φ ( s, t ) = JKS (t ) − {JKS (t L ) + JKS (t R )} dan penyekat terbaik s* adalah
φ ( s*, t ) = max φ ( s, t ) s∈Ω
dengan Ω adalah gugus yang
berisi semua kemungkinan penyekatan. 970
Metode Pohon Regresi untuk Eksplorasi Data
5. Jika simpul induk telah didapat, maka simpul anak kiri dan kanan dibuat dengan cara yang sama untuk semua peubah penjelas berdasarkan data yang sudah dikelompokkan oleh simpul induk. 6. Pembentukan pohon dilakukan sampai dipenuhi suatu aturan penghentian tertentu. Dalam kasus ini aturan yang digunakan adalah jika jumlah amatan dalam simpul hanya mencapai 1 amatan atau mencapai nilai fungsi penyekatan Ф tertentu. 7. Pemangkasan pohon dilakukan untuk mendapatkan pohon akhir yang lebih sederhana. Pemangkasan pohon dilakukan dengan cross-validation atau sampel tes terpisah untuk mengukur keterandalan pohon. Metode pemangkasan pohon dengan training sample 50% dipilih sebagai metode pemangkasan karena ukuran sampel yang besar, sehingga memungkinkan untuk membagi sampel tadi menjadi subsampel training sample dan testing sample masingmasing 50% dari seluruh data yang ada. Proses pemangkasan pohon yang terjadi adalah dengan membangun pohon menggunakan training sample kemudian menggunakan pohon yang terbentuk tadi untuk subsampel testing sample. Dalam hal ini metode kuadrat terkecil menggunakan kuadrat tengah galat (KTG) untuk mengukur ketelitian dugaan. Pohon optimal adalah pohon dengan nilai KTG terkecil. 8. Dari pohon optimal yang terpilih, untuk setiap subpohon, CART menghitung ringkasan statistiknya dari simpul-simpul terakhir. Pada metode kuadrat terkecil untuk aturan penyekatan, maka hitung rataan dan standar deviasi dari pubah respon. Nilai rataan dari simpul akhir merupakan nilai dugaan dari peubah respon pada kasus simpul akhir tersebut. Tahapan-tahapan di atas dilakukan secara otomatis oleh komputer dengan menggunakan software SPSS Answer Tree versi 2.01. Sementara bahan atau data yang digunakan dalam penelitian ini adalah data primer yang dikumpulkan pada pelaksanaan Survei Pendapatan Petani 2004, Sensus Pertanian 2003. Data diperoleh dari Pusat Data dan Informasi Pertanian, Departemen Pertanian, yang bekerjasama dengan Badan Pusat Statistik. Peubah-peubah yang digunakan dalam penelitian ini adalah sebagai berikut :
Informatika Pertanian Volume 16 No. 1, Juli 2007
971
Tabel 1 Daftar Peubah, Kode, Jenis dan Kategorinya No
Kode
1. 2.
income kom
Pendapatan Komoditas yang diusahakan
kontinu diskret
3. 4.
sawah nonswh
kontinu kontinu
5.
nonpert
kontinu
-
6. 7. 8. 9. 10.
lspanen bibit pupuk upah sewa
kontinu kontinu kontinu kontinu kontinu
-
11.
lain
kontinu
-
12. 13.
anggkel jenkel
Luas sawah yang dikuasai (m 2 ) Luas lahan non sawah yang dikuasai (m 2 ) Luas lahan non pertanian yang dikuasai (m 2 ) Luas pengusahaan lahan Pengeluaran untuk bibit Pengeluaran untuk pupuk Pengeluaran untuk upah pekerja Pengeluaran untuk sewa lahan, barang modal dan pajak tidak langsung Pengeluaran lain (sewa alat, irigasi, dll) Jumlah anggota keluarga Jenis kelamin kepala keluarga
Padi sawah Padi ladang Jagung Kedele Cabe merah Cabe Rawit Bawang merah Tebu Tembakau -
14 15.
umur pddk
Umur kepala keluarga Pendidikan tertinggi kepala keluarga
kontinu diskret
16.
kredit
Penerimaan kredit dari pemerintah
diskret
17. 18.
jumkre bantu
kontinu diskret
19.
penyul
20.
frekpny
Jumlah kredit yang diterima Penerimaan bantuan lain dari pemerintah selain kredit Pernah mengikuti penyuluhan pertanian Frekuensi penyuluhan
972
Peubah
Jenis
diskret diskret
diskret diskret
Kategori
Laki-laki Perempuan Tidak sekolah SD SLTP SLTA Di atas SLTA Ya Tidak Ya Tidak Ya Tidak 1 kali 2 kali 3 kali 4 kali
Metode Pohon Regresi untuk Eksplorasi Data
HASIL DAN PEMBAHASAN Metode CART menghasilkan model yang sederhana dan mudah untuk diinterpretasikan. Model yang dihasilkan berupa pohon regresi dengan peubah-peubah yang berpengaruh sebagai penciri menjadi simpul-simpulnya. Peubah yang paling berpengaruh akan menjadi simpul pertama yang dihasilkan. Dalam kasus pendapatan petani, penggunaan pupuk merupakan peubah yang paling berpengaruh terhadap hasil usahatani sehingga berpengaruh juga terhadap pendapatannya. Metode CART memilih 9 peubah dari 20 peubah yang mempengaruhi pendapatan usaha tani. Masalah pencilan data dapat diselesaikan dengan cara yang sederhana oleh metode CART. Pencilan akan diisolasi ke dalam simpul tertentu sehingga tidak mempengaruhi penyekatan. Misalnya pada kasus data Jawa Timur, beberapa data yang jauh di luar kisaran akan dikelompokkan ke dalam simpul tertentu yang langsung menjadi simpul akhir (Gambar 2).
Gambar 2. Contoh Simpul yang Merupakan Pencilan
Hasil akhir dari metode CART ini tidak didasarkan pada model probabilistik, sehingga hal ini menjadi salah satu kelemahannya. Pada metode CART tidak ada tingkat probabilitas atau selang kepercayaan yang berhubungan dengan dugaan untuk pengelompokkan data baru. Tingkat kepercayaan dan keakuratan hasil dari CART benar-benar hanya didasarkan pada keakuratan saat pembuatan pohon, seberapa baik hal ini telah dilakukan untuk menduga peubah respon seperti yang diinginkan. Informatika Pertanian Volume 16 No. 1, Juli 2007
973
Gambar 3a. Pohon Regresi Metode CART
Pada tahap awal, CART menghasilkan pohon maksimal berukuran 19 simpul akhir (Lampiran 1) dengan proporsi keragaman yang dapat dijelaskan oleh model sebesar 55,77%. Nilai proporsi ini menunjukkan pohon regresi yang terbentuk mampu menangkap lebih dari 50% keragaman pendapatan usahatani. Proses pemangkasan tidak dilakukan untuk pohon regresi awal ini, karena pemangkasan dengan metode training sampel 50% menurunkan proporsi keragaman menjadi sekitar 40%. Algoritma CART dengan 19 simpul akhir ini menghasilkan pengeluaran untuk pupuk sebagai peubah penyekat pertama (Gambar 3a). Sebanyak 3 simpul merupakan pencilan. Gambar 3a dan 3b menunjukkan cabang A dimana penciri yang muncul adalah pengeluaran untuk pupuk, upah dan jenis komoditas yang ditanam. Pada Tabel 2 hal ini dapat dilihat untuk simpul ke-1, 2 dan 3. Satu kelemahan dari data yang ada, pengeluaran untuk pupuk tidak dapat menunjukkan komposisi pupuk yang digunakan, hanya pengeluaran rupiah per hektarnya saja. Berdasarkan hasil CART, dapat dilakukan kajian yang lebih mendalam untuk penggunaan pupuk ini. Pada Gambar 3b terlihat jenis komoditi menjadi simpul terakhir, dimana skala usahatani dengan struktur pengeluaran per m 2 untuk pupuk kurang dari Rp.327,- serta pengeluaran untuk tenaga kerja kurang dari Rp.3.260,-, sub sektor hortikultura, perkebunan dan tanaman pangan (padi sawah) menunjukkan pendapatan yang lebih tinggi dari petani yang 974
Metode Pohon Regresi untuk Eksplorasi Data
menanam komoditas tanaman pangan lainnya (jagung, kedele dan padi ladang). Hal ini menjadi dasar untuk melakukan pengolahan data lebih lanjut, misalnya dengan membangun pohon regresi menurut jenis tanaman yang diusahakan petani, sehingga pengaruh struktur ongkos pengeluaran dan faktor lainnya terhadap pendapatan usahatani dapat lebih jelas terlihat. Pada hasil CART nilai dugaan peubah respon dapat dilihat dari nilai rataan yang dihasilkan.
Gambar 3b. Pohon Regresi Metode CART (Cabang A)
Peubah lainnya yang muncul dapat dilihat pada cabang B (Gambar 3c), yaitu pengeluaran untuk bibit, pengeluaran lainnya, penyuluhan dan luas pengusahaan lahan. Pada Tabel 2 simpul yang ditunjukkan cabang B ini adalah simpul ke-4 sampai ke-8. Skala usahatani dengan struktur pengeluaran per m 2 untuk pupuk antara Rp.327,- dan Rp.970,- serta pengeluaran untuk tenaga kerja kurang dari Rp.3.260,- dan luas panen sempit (kurang dari 50 m 2 ), program penyuluhan dapat meningkatkan pendapatan petani. Cabang C menunjukkan peubah-peubah yang hampir sama dengan cabang A dan B muncul juga di sini. Peubah umur petani muncul sebagai penciri dengan simpul akhir ke-14 sampai ke-16 (Gambar 3d). Pada Tabel 2 cabang C ini meliputi simpul ke-10 sampai ke-16. Skala usahatani dengan struktur pengeluaran per m 2 untuk pupuk lebih dari Rp.970,-, ditentukan 2 oleh luas panennya (lebih dari 3 m ) serta pengeluaran untuk bibit (kurang dari Rp.400,-). Pada skala usahatani ini tembakau memberikan pendapatan lebih tinggi dari jenis komoditi lain. Informatika Pertanian Volume 16 No. 1, Juli 2007
975
Sementara itu umur petani juga menjadi penyekat pada skala usahatani ini, dimana petani dengan umur ≤ 34,5 tahun memiliki penghasilan yang lebih tinggi dari usahanya. Petani dengan umur > 34,5 tahun, dapat meningkatkan penghasilannya jika luas panen yang digarapnya kurang dari 35 m 2 .
Gambar 3c. Pohon Regresi Metode CART (Cabang B)
Gambar 3d. Pohon Regresi Metode CART (Cabang C) 976
Metode Pohon Regresi untuk Eksplorasi Data
Tabel 2. Karakteristik kelompok pendapatan dari usahatani berdasarkan hasil algoritma CART Simpul
N
Dugaan y
1.
16984
159.51
2.
19263
381.81
3. 4.
3 34
23 344.43 2 660.54
5.
3
15 017.77
6.
517
1 284.14
7.
122
1 976.68
8.
42
3 304.69
9. 10.
5 6
26 900.00 5 915.89
11.
64
2 135.68
12
40
3 872.73
13.
10
9 948.43
14.
4
22 750.00
15.
12
11 755.66
16.
24
5 525.10
Peubah Penciri Pupuk ≤ Rp326.57 ; upah ≤ Rp3 263 ; komoditi jagung, kedele, padi ladang Pupuk ≤ Rp326.57 ; upah ≤ Rp3 263.00 ; komoditi cabe rawit, tembakau, tebu, cabe merah, padi sawah, bawang merah Pupuk ≤ Rp326.57 ; upah > Rp3 263.00 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen ≤ 51.5 m 2 ; bibit ≤ Rp1 100 ; belum pernah ikut penyuluhan Rp326.57 < pupuk ≤ Rp970.00 ; luas panen ≤ 51.5 m 2 ; bibit ≤ Rp1 100 ; pernah ikut penyuluhan Rp326.57 < pupuk ≤ Rp970.00 ; luas panen > 51.5 m 2 ; upah ≤ Rp563.4 ; sawah ≤ 32 150 m 2 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen > 51.5 m 2 ; upah > Rp563.4 ; lain ≤ Rp236.11 Rp326.57 < pupuk ≤ Rp970.00 ; luas panen > 51.5 m 2 ; upah > Rp563.4 ; lain > Rp236.11 Pupuk > Rp970.00 ; luas panen ≤ 3 m 2 Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk ≤ Rp1 699.25 ; bibit ≤ Rp402.97 ; komoditi tembakau, padi ladang Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk ≤ Rp1 699.25 ; bibit ≤ Rp402.97 ; komoditi padi sawah, jagung, kedele, bawang merah, cabe merah, cabe rawit, tebu, tembakau Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk ≤ Rp1 699.25 ; bibit > Rp402.97 ; upah ≤ Rp1 483.35 Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk ≤ Rp1 699.25 ; bibit > Rp402.97 ; upah > Rp1 483.35 Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk > Rp1 699.25 ; umur ≤ 34.5 tahun Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk > Rp1 699.25 ; umur > 34.5 tahun ; luas panen ≤ 35 m 2 Pupuk > Rp970.00 ; luas panen > 3 m 2 ; pupuk > Rp1 699.25 ; umur > 34.5 tahun ; luas panen > 35 m 2
Informatika Pertanian Volume 16 No. 1, Juli 2007
977
Berdasarkan hasil yang didapat ini, ada beberapa fenomena yang menarik untuk dicermati. Kegiatan berproduksi merupakan kegiatan dalam lingkup yang agak sempit sehingga banyak membahas aspek mikro. Dalam mempelajari aspek ini, peranan hubungan faktor produksi sebagai masukan dan pendapatan sebagai keluaran perlu mendapatkan perhatian utama. Peranan faktor produksi harus ditinjau dari segi macamnya atau tersedia dalam waktu yang tepat serta efisiensi penggunaannya. Faktor ini menjadi salah satu penyebab adanya kesenjangan produktivitas, dalam hal ini pendapatan per satuan unit lahan, antara produktivitas yang seharusnya dan produktivitas yang dihasilkan oleh petani. Kendala biologi dan sosial-ekonomi merupakan faktor lainnya yang menyebabkan adanya perbedaan produktivitas di atas. Perbedaan jenis komoditi yang diusahakan serta varietasnya merupakan kendala biologi yang muncul sebagai penciri pada pohon regresi dan secara tidak langsung menentukan besarnya hasil yang diterima petani. Sementara kendala sosial ekonomi yang muncul diantaranya adalah struktur biaya usaha tani, umur petani dan program penyuluhan yang pernah diikuti petani. Aspek sumberdaya yang muncul pada model regresi berstruktur pohon, adalah luas lahan. Luas lahan pertanian mempengaruhi skala usahatani yang dilakukan, dan pada akhirnya mempengaruhi efisien atau tidaknya suatu usaha pertanian. Berdasarkan hasil analisis di Jawa Timur ini, makin luas lahan yang dipakai sebagai usaha pertanian, akan menurunkan pendapatan petani terutama untuk petani dengan umur lebih dari 34,5 tahun. Hal ini sesuai dengan konsep efisiensi lahan dimana semakin luas lahan maka semakin tidak efisien lahan tersebut. Luasnya lahan tersebut mengakibatkan upaya melakukan tindakan yang mengarah pada segi efisiensi akan berkurang. Lahan yang luas mengakibatkan lemahnya pengawasan terhadap penggunaan faktor produksi seperti bibit dan pupuk. Efisiensi pada lahan yang luas juga akan terhambat karena terbatasnya persediaan tenaga kerja dan modal yang dimiliki.
978
Metode Pohon Regresi untuk Eksplorasi Data
KESIMPULAN CART dapat melakukan eksplorasi data untuk penyusunan model regresi yang melibatkan banyak peubah dengan ukuran besar dan kompleks. Eksplorasi data ini dapat dilakukan dengan lebih mudah untuk melihat hubungan antara peubah respon kontinu dengan peubah-peubah penjelasnya. Kekomplekan tersebut dapat berupa dimensinya yang besar atau jenis peubahnya campuran, misalnya kontinu dan kategorik, baik nominal maupun ordinal. Metode CART ini dapat menjadi satu alternatif jika beberapa asumsi seperti kenormalan, multikolinieritas dan heterokedastisitas untuk model regresi tidak dipenuhi oleh beberapa peubah-peubanhnya. Eksplorasi data hasil Survei Pendapatan Petani 2004 menggunakan metode pohon regresi dengan algoritma CART menghasilkan model dengan proporsi keragaman yang dapat diterangkan berkisar antara 50% sampai 80%. Regresi pohon dengan algoritma CART menghasilkan model dimana pendapatan usahatani hortikultura lebih tinggi dari sub sektor lainnya seperti tanaman pangan dan perkebunan. Berdasarkan hasil analisis pohon regresi, pendapatan petani dari usahataninya dipengaruhi oleh beberapa faktor seperti struktur pembiayaan faktor produksi, jenis komoditi yang diusahakan, luas lahan yang dikuasai, faktor kondisi sosial rumah tangganya seperti umur, tingkat pendidikan, serta faktor eksternal seperti penyuluhan dan penerimaan bantuan kredit dari pemerintah. DAFTAR PUSTAKA BPS.
2004. Pedoman Teknis BPS Propinsi dan BPS Kabupaten/Kota. Sensus Pertanian 2003. BPS, Jakarta.
BPS. 2004. Survei Pendapatan Petani: Pendapatan Rumah Tangga Pertanian. Sensus Pertanian 2003. BPS, Jakarta. Breiman L, Friedman J.H., Olshen R.A., and Stone C.J. 1993. Classification and Regression Trees. Chapman and Hall. New York. Soekartawi. 2002. Prinsip Dasar Ekonomi Pertanian : Teori dan Aplikasi. PT. RajaGrafindo Persada, Jakarta. Statsoft. 2003. Classification and Regression Trees (C&RT). [terhubung-berkala] http://www.statsoft.com/textbook/stcart.html [10 Maret 2005].
Informatika Pertanian Volume 16 No. 1, Juli 2007
979
Yohannes, Y., and P. Webb. 1999. Classification and Regression Trees, CART: A User Manual for Identifying Indicators of Vulnerability to Famine and Chronic Food Insecurity. International Food Policy Research Institute (IFPRI). Washington D.C., USA.
Lampiran 1. Gambar Diagram CART Jawa Timur
980
Metode Pohon Regresi untuk Eksplorasi Data