ANALISIS REGRESI LINEAR GEROMBOL DENGAN ALGORITMA PERTUKARAN (EXCHANGE ALGORITHM)
MEGAWATI SUHARSONO PUTRI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa tesis berjudul “Analisis Regresi Linear Gerombol dengan Algoritma Pertukaran (Exchange Algorithm)” adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Maret 2015
Megawati Suharsono Putri G151120101
RINGKASAN MEGAWATI SUHARSONO PUTRI. Analisis Regresi Linear Gerombol dengan Algoritma Pertukaran (Exchange Algorithm). Dibimbing oleh BAGUS SARTONO dan BUDI SUSETYO. Analisis regresi linear pada suatu gugus data memiliki kemungkinan mempunyai lebih dari satu model regresi. Model-model regresi linear tersebut tidak dapat diduga dengan menggunakan satu model regresi, sehingga analisis regresi linear standar tidak dapat digunakan. Kondisi tersebut diduga disebabkan oleh adanya subpopulasi yang belum diketahui. Oleh karena itu, dibutuhkan metodologi lain untuk mendeteksi gerombol tersembunyi tersebut untuk menduga subpopulasi. Regresi linear gerombol merupakan salah satu jenis analisis regresi yang penting dalam pendugaan model untuk data yang memiliki subpopulasi yang belum diketahui. Regresi linear gerombol adalah teknik penggerombolan berdasarkan karakteristik parameter regresi untuk menemukan dan merekonstruksi struktur tersembunyi dari suatu contoh yang diambil secara acak dari populasi yang memiliki subpopulasi yang belum diketahui. Metode pendugaan parameter regresi yang digunakan pada penelitian ini adalah metode kuadrat terkecil. Pengoptimuman amatan yang masuk ke dalam gerombol digunakan algoritma pertukaran. Algoritma pertukaran menggerombolkan berdasarkan kemiripan karakteristik parameter regresi dengan kriteria optimumnya adalah minimum jumlah dari jumlah kuadrat galat (JJKG). Pada penelitian ini akan digunakan dua pendekatan yang berbeda pada proses inisialisasi. Inisialisasi pertama menggunakan inisialisasi acak dan inisialisasi yang kedua menggunakan inisialisasi regresi kekar yaitu least median of squares (LMS). Data pada penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Data simulasi terdiri dari 2 gugus data dengan 2 gerombol, 3 gugus data dengan 3 gerombol dan 1 gugus data tanpa gerombol. Data pada kasus terapan yang digunakan yaitu data ekonomi, kesehatan dan pendidikan pada anggaran pendapatan belanja daerah (APBD) terhadap data indeks pembangunan manusia (IPM) seluruh kota/kabupaten di Jawa Timur tahun 2013. Hasil simulasi menunjukkan bahwa inisialisasi acak lebih baik dalam pendugaan banyaknya subpopulasi dibandingkan inisialisasi LMS namun proses komputasi inisialisasi acak lebih lama dibandingkan dengan inisialisasi LMS karena inisialisasi acak menduga banyaknya subpopulasi dengan over-fitting. Inisialisasi dengan LMS juga tidak dapat mendeteksi jika tidak terdapat gerombol pada gugus data. Hasil pada kasus terapan menunjukkan bahwa gugus data memiliki 2 gerombol berdasarkan identifikasi data produk domestik regional bruto (PDRB) dan data pendidikan. Gerombol pertama merupakan gerombol kota dan gerombol kedua merupakan gerombol kabupaten. Kata kunci : analisis regresi, metode kuadrat terkecil, algoritma pertukaran, regresi kekar, clusterwise
SUMMARY MEGAWATI SUHARSONO PUTRI. Clusterwise Linear Regression Analysis with Exchange Algorithm. Supervised by BAGUS SARTONO and BUDI SUSETYO. It is possible to have more than one regression model in a dataset. There is no one model that fit for all, so that the standard linear regression cannot be used. That condition is estimated caused by the existence of the unknown subpopulation. Therefore, is required another methodology for detecting the underlying cluster to estimate subpopulation. Clusterwise linear regression is one of the important regression analysis for estimating data that has unknown subpopulation. Clusterwise linear regression is a clustering technique based on parameters regression characteristic, to find and reconstruct the hidden structure of sample that taken from the population that has an unknown subpopulation by randomly. Regression parameter estimation method that used in this study is ordinary least square. Optimisation of observation that enter into clusters is used exchange algorithm. Exchange algorithm is clustering based on similar regression parameter characteristic with the optimum criteria is the minimum of sum of sum square error. In this study, will consider two different approaches in initialization process. The first initialization using random initialization and the second using robust regression initialization that is least median of squares (LMS). In this study, data is consisted two sources ie simulation data and case applied data. Simulation data consists of 2 datasets with 2 clusters, 3 datasets with 3 clusters and 1 dataset without cluster. Case applied data that used is economic, health and education data on regional government budget to human development index for city/district in East Java in 2013. The simulation results show that random initialization is better than LMS initialization for estimating the number of subpopulation but random initialization is longer than LMS initialization because random initialization estimates the number of subpopulation by over-fitting. LMS inisialization can not detect if there are no cluster in dataset. The result in case applied indicates that dataset has 2 clusters based on gross regional domestic product data and education data identification. The first cluster is city cluster and the second cluster is district cluster. Keywords : regression analysis, ordinary least square, exchange algorithm, robust regression, clusterwise
© Hak Cipta Milik IPB, Tahun 2015 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah, dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apapun tanpa izin IPB
ANALISIS REGRESI LINEAR GEROMBOL DENGAN ALGORITMA PERTUKARAN (EXCHANGE ALGORITHM)
MEGAWATI SUHARSONO PUTRI
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
PRAKATA Puji syukur penulis panjatkan kehadirat Allah SWT atas limpahan rahmat dan ridho-Nya, kesempatan, dan kesehatan yang dikaruniakan-Nya sehingga tesis yang berjudul “Analisis Regresi Linear Gerombol dengan Algoritma Pertukaran (Exchange Algorithm)” ini dapat terselesaikan. Terima kasih penulis ucapkan kepada Bapak Dr Bagus Sartono, SSi MSi dan Bapak Dr Ir Budi Susetyo, MS selaku pembimbing, atas kesediaan dan kesabaran untuk membimbing dan membagi ilmunya kepada penulis dalam penyusunan tesis ini. Ucapan terima kasih juga penulis sampaikan sebesarbesarnya kepada seluruh Dosen Departemen Statistika IPB yang telah mengasuh dan mendidik penulis selama di bangku kuliah hingga berhasil menyelesaikan studi, serta seluruh staf Departemen Statistika IPB atas bantuan, pelayanan, dan kerjasamanya selama ini. Ucapan terima kasih yang tulus dan penghargaan yang tak terhingga juga penulis ucapkan kepada Ayahanda dan Ibunda tercinta H Drs. Suharsono, MM dan Hj Dra. Masroya Budi Sri Mulyati Nasution, MM yang telah membesarkan dan mendidik penulis dengan penuh kasih sayang demi keberhasilan penulis selama menjalani proses pendidikan, juga adik-adikku tersayang Dewi Sri Suharsono Putri dan Damar Lazuardi Suharsono Putra serta keluarga besarku atas doa dan semangatnya. Terakhir tak lupa penulis juga menyampaikan terima kasih kepada seluruh mahasiswa Pascasarjana Departemen Statistika atas segala bantuan dan kebersamaannya selama menghadapi masa-masa terindah maupun tersulit dalam menuntut ilmu, serta semua pihak yang telah banyak membantu dan tak sempat penulis sebutkan satu per satu. Semoga tesis ini dapat bermanfaat bagi semua pihak yang membutuhkan.
Bogor, Maret 2015
Megawati Suharsono Putri
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
1 PENDAHULUAN Latar Belakang Tujuan Penelitian
1 1 2
2 TINJAUAN PUSTAKA Regresi Linear Gerombol Regresi Linear Gerombol dengan Algoritma Pertukaran Least Median of Squares (LMS)
2 2 4 5
3 METODE PENELITIAN Data Metode Analisis
5 5 6
4 HASIL DAN PEMBAHASAN Hasil Simulasi Hasil Kasus Terapan
8 8 10
5 SIMPULAN DAN SARAN Simpulan Saran
14 14 14
DAFTAR PUSTAKA
14
LAMPIRAN
16
RIWAYAT HIDUP
26
DAFTAR TABEL 1 2
Banyak gerombol (k), JJKG dan R-Square (%) pada tiap simulasi dengan inisialisasi acak dan LMS JKG, Adjusted R-Square (%) dan n inisialisasi acak dan LMS
10 12
DAFTAR GAMBAR 1 2 3 4 5 6
Diagram pencar antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi Scree Plot antara jumlah gerombol dengan nilai minimum JJKG pada setiap simulasi Diagram pencar antara presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD terhadap IPM (Y) Scree plot antara jumlah gerombol dengan nilai minimum JJKG pada kasus terapan Plot antara lapangan usaha dengan rata-rata PDRB tiap gerombol (juta Rupiah) Plot antara jenjang pendidikan dengan proporsi jumlah penduduk tiap gerombol
8 9 11 12 13 13
DAFTAR LAMPIRAN Diagram pencar dengan garis regresi antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi 2 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi acak 3 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi LMS 4 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan inisialisasi acak 5 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan inisialisasi LMS 6 Data presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD dan IPM (Y) 7 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted RSquare (%) dan n pada kasus terapan dengan inisialisasi acak 8 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted RSquare (%) dan n pada kasus terapan dengan inisialisasi LMS 9 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi acak dengan 2 gerombol 10 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi acak dengan 3 gerombol 1
16 16 19
19
20 20 21 22 22 23
11 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi LMS 12 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol 13 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 2 gerombol 14 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol 15 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 2 gerombol
23
24
24 25 25
1 PENDAHULUAN Latar Belakang Analisis regresi merupakan teknik statistika yang digunakan untuk menelaah hubungan fungsional dari satu atau beberapa peubah bebas terhadap satu peubah tak bebas dan terutama untuk menelusuri pola hubungan yang modelnya belum diketahui dengan sempurna (Aunuddin 1989). Kumpulan titik-titik yang dapat dihubungkan oleh suatu garis atau kurva tertentu disebut dengan garis regresi. Kumpulan titik-titik terkadang terdapat lebih dari satu, sehingga apabila kumpulan-kumpulan titik-titik tersebut dibentuk menjadi satu garis regresi maka akan terjadi kesalahan pendugaan. Kumpulan-kumpulan titik-titik yang membentuk lebih dari satu garis regresi diduga disebabkan oleh adanya subpopulasi yang belum diketahui. DeSarbo dan Cron (1988) menyatakan bahwa jika regresi linear standar digunakan untuk menduga data yang memiliki subpopulasi yang belum diketahui, maka akan menyebabkan kesalahan pendugaan model sehingga memiliki koefisien determinasi yang kecil. Sebagai ilustrasi, bagian pemasaran ingin melihat hubungan antara harga terhadap pembelian suatu barang. Diagram pencar antara harga dan pembelian suatu barang membentuk dua kumpulan titik-titik atau gerombol. Gerombol pertama memiliki koefisien regresi (kemiringan) yang negatif besar, sedangkan gerombol kedua memiliki koefisien regresi (kemiringan) yang negatif kecil. Intersep gerombol pertama juga lebih besar bila dibandingkan gerombol kedua. Setelah diidentifikasi, gerombol pertama merupakan kelompok ekonomi lemah dan gerombol kedua merupakan kelompok ekonomi kuat. Informasi yang didapatkan jika hanya menggunakan analisis regresi linear standar terbatas pada koefisien regresi (kemiringan) yang negatif dan pendugaan menjadi tidak tepat sasaran. Pendugaan satu set koefisien-koefisien regresi pada populasi yang terdiri dari beberapa subpopulasi yang tidak diketahui akan menjadi suatu permasalahan dan berpotensi menyesatkan. Perlu adanya penggerombolan berdasarkan karakteristik parameter regresi sehingga dapat menduga subpopulasi yang belum diketahui (DeSarbo et al. 1989). Menurut DeSarbo dan Cron (1988), regresi linear gerombol merupakan salah satu jenis regresi yang penting dalam pendugaan model untuk data yang memiliki subpopulasi yang belum diketahui. Regresi linear gerombol atau biasa dikenal dengan Clusterwise linear regression (CLR) adalah teknik penggerombolan berdasarkan karakteristik parameter regresi untuk menemukan dan merekonstruksi struktur tersembunyi dari suatu contoh yang diambil secara acak dari populasi yang memiliki subpopulasi yang belum diketahui (Qian dan Wu 2011). Regresi linear gerombol diperkenalkan pertama kali oleh Spath pada tahun 1979. Spath (1979) memperkenalkan sebuah algoritma yang bernama algoritma pertukaran (exchange algorithm) untuk meminimumkan jumlah dari jumlah kuadrat pada regresi linear gerombol. Spath (1982) memodifikasi programnya untuk mempercepat proses komputasi. DeSarbo dan Cron (1988) mengusulkan metode pendugaan kemungkinan maksimum untuk regresi linear gerombol dengan memanfaatkan algoritma ekspektasi maksimisasi (EM) dalam memaksimumkan fungsi log-kemungkinan. Qian dan Wu (2011) menggunakan
2 algoritma pertukaran dan memanfaatkan analisis regresi kekar (robust) pada tahap inisialisasi untuk menduga banyaknya subpopulasi. Metode pendugaan parameter regresi yang digunakan pada penelitian ini adalah metode kuadrat terkecil. Pengoptimuman amatan yang masuk ke dalam gerombol digunakan algoritma pertukaran. Algoritma pertukaran menggerombolkan berdasarkan kemiripan karakteristik parameter regresi dengan kriteria optimumnya adalah minimum dari jumlah dari jumlah kuadrat galat (JJKG). Inisialisasi pada algoritma ini menggunakan inisialisasi acak dan menggunakan salah satu metode regresi kekar (robust) yaitu least median of squares (LMS). Data pada penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Data simulasi terdiri dari 2 gugus data dengan 2 gerombol, 3 gugus data dengan 3 gerombol dan 1 gugus data tanpa gerombol. Data pada kasus terapan yang digunakan yaitu data ekonomi, kesehatan dan pendidikan pada anggaran pendapatan belanja daerah (APBD) terhadap data indeks pembangunan manusia (IPM) seluruh kota/kabupaten di Jawa Timur tahun 2013. Tujuan Penelitian Tujuan dari penelitian ini, antara lain : 1. Menentukan gerombol yang optimum berdasarkan karakteristik parameter regresi melalui analisis regresi linear gerombol dengan algoritma pertukaran. 2. Membandingkan kecepatan iterasi dan jumlah dari jumlah kuadrat galat (JJKG) antara inisialisasi acak dan menggunakan metode regresi kekar yaitu least median of squares.
2 TINJAUAN PUSTAKA Regresi Linear Gerombol Regresi linear gerombol atau biasa dikenal dengan clusterwise linear regression (CLR) adalah teknik penggerombolan berdasarkan karakteristik parameter regresi untuk menemukan dan merekonstruksi struktur tersembunyi dari suatu contoh yang diambil secara acak dari populasi yang memiliki subpopulasi yang belum diketahui (Qian & Wu 2011). Regresi linear gerombol pertama kali diperkenalkan oleh Spath pada tahun 1979 dengan menggunakan algoritma pertukaran. Spath (1979) menentukan jumlah gerombol dengan menggunakan over-fitting dari jumlah gerombol terkecil sampai jumlah gerombol yang memiliki galat minimum yaitu dengan penurunan galat yang sudah tidak signifikan antar dugaan jumlah gerombol. Jumlah gerombol yang tepat dapat mengoptimumkan pengamatan-pengamatan yang masuk ke dalam gerombol dengan tepat sehingga meminimumkan galat. Model umum regresi linear gerombol: k
p
y j aij xlj bli e j i 1 l 1
3
dengan: j = 1, 2, …, n l = 1, 2, …, p i = 1, 2, …, k y j = pengamatan ke-j untuk peubah tak bebas y
x jl = pengamatan ke-j untuk peubah bebas ke-l
bl i = koefisien regresi ke-l pada gerombol ke-i
1, pengamatan ke- j pada gerombol ke- i a ji = 0, lainnya e j = galat pengamatan ke-j, ej ~ N 0, i2
Tujuan analisis regresi linear gerombol adalah menduga a ji dan bl i dengan meminimumkan: 2
p k y j aij xlj bli j 1 i 1 l 1 n Misalkan terdapat pengamatan 1, 2,..., n dengan asosiasi masingn
masing titik
x1, y1 ,..., xn , yn ,
dengan 𝒙𝑗 ∈ ℝ𝑝 adalah vektor peubah bebas
berdimensi p dan 𝑦𝑗 ∈ ℝ adalah peubah tak bebas pada pengamatan ke-j j 1, 2,...,n . n pengamatan diasumsikan contoh acak dari populasi yang memiliki sub-populasi sebanyak k0 dengan karakteristik masing-masing subpopulasi digambarkan dengan parameter analisis regresi yang belum diketahui. Sebanyak n pengamatan dari populasi tersebut dipartisi menjadi kn0 1n ,...,k0n dan masing-masing subpopulasi in ii ,..., ini n
direpresentasikan dengan 𝒚 𝜑 𝑖 = 𝑿 𝜑 𝑖 𝜷 𝒊 + 𝒆𝝋 𝒊 , dengan 𝒚𝜑 𝑖 = 𝑦𝑖1 , … , 𝑦𝑖𝑛
′
𝑖
𝒆𝝋𝒊 ~𝑁 𝟎, 𝝈𝟐𝒊 𝑰𝒏𝒊
, 𝑿𝜑 𝑖 = 𝒙𝒊𝟏 , … , 𝒙𝒊𝒏
′
𝒊
adalah matriks berukuran
ni p dalam subpopulasi 𝜑𝑖 , 𝒆𝝋𝒊 adalah vektor galat acak berukuran 𝑛𝑖 , 𝐼𝑛 𝑖 adalah matriks identitas berukuran ni ni dan ni i , untuk i 1,..., k0 . n n1 ... nk0 dengan k0 K , dengan K adalah bilangan integer positif. Analisis yang dilakukan pada analisis regresi linear gerombol adalah menduga jumlah subpopulasi k0 lalu mengklasifikasikan masing-masing pengamatan dan menduga parameter-parameter regresi pada masing-masing gerombol. Langkah pertama untuk menduga k0 adalah mempartisi n pengamatan
C ,..., C , k K dengan K adalah bilangan integer positif. n k
n
1
n
k
n
Ci n 1,..., n , Ci 0, Ci Ci c , Ci n i 1
4 Untuk dapat menduga parameter-parameter regresi pada tiap-tiap gerombol dibutuhkan penambahan kondisi Ci p . Masing-masing partisi k diduga dengan metode kuadrat terkecil sehingga didapatkan nilai dugaan 𝜷𝑖 , 𝑖 = 1, … , 𝑘. 2 n 𝑘 𝐷𝑛 = 𝑖=1 𝒚 𝒏 − 𝑿 𝒏 𝜷𝒊 , C𝒊 C𝒊 k dan k untuk menduga k0 dengan kriteria optimum:
n 𝐷𝑛 𝑘𝑛 = min min Dn 1 k K n k k Tetapkan k berdasarkan data sehingga k C1 ,..., Ck . Untuk mendapatkan penggerombolan optimal pada regresi gerombol adalah dengan meminimumkan jumlah dari jumlah kuadrat galat (JJKG) antar gerombol. Ukuran kebaikan model yang digunakan yaitu 2
𝐽𝐽𝐾𝐺 k =
𝑘 𝑖=1
𝒚
′
Ci
−𝑿
Ci
𝜷𝒊
dengan 𝜷𝑖 , 𝑖 = 1, … , 𝑘 adalah penduga-penduga yang diperoleh berdasarkan metode kuadrat terkecil untuk C1 ,..., Ck . Regresi Linear Gerombol dengan Algoritma Pertukaran Metode pendugaan parameter regresi yang digunakan pada penelitian ini adalah metode kuadrat terkecil. Pengoptimuman amatan yang masuk ke dalam gerombol digunakan algoritma pertukaran. Algoritma pertukaran menggerombolkan berdasarkan kemiripan karakteristik parameter regresi dengan kriteria optimumnya adalah minimum dari jumlah dari jumlah kuadrat galat (JJKG). berdasarkan metode kuadrat terkecil. Hal ini dapat diartikan relokasi amatan pada k gerombol sudah mencapai optimum karena memiliki galat minimum. Ketepatan perelokasian amatan bergantung pada inisialisasi. Inisialisasi yang digunakan Spath (1979) yaitu dengan pj = 1 + mod(j-1,k). Inisialisasi yang digunakan pada penelitian ini yaitu dengan menggunakan inisialisasi acak dimana setiap amatan memiliki kemungkinan yang sama untuk menjadi anggota gerombol ke-i pada k gerombol. Penentuan jumlah gerombol pada penelitian ini menggunakan over-fiiting. Minimum JJKG pada jumlah gerombol (k) terkecil yaitu satu gerombol akan dibandingkan dengan minimum JJKG jumlah gerombol-gerombol setelahnya. Jika penurunan fungsi objektif JJKG sudah tidak signifikan dengan jumlah gerombol setelahnya, maka jumlah gerombol tersebut merupakan jumlah gerombol terbaik. Jika nilai inisialisasinya berbeda, maka akan menghasilkan anggota yang berbeda pada setiap gerombol. Oleh karena itu, dibutuhkan banyak perulangan untuk mendapatkan gerombol yang paling optimum diantara gerombol optimum yang sudah terbentuk pada algoritma pertukaran. Gerombol yang paling optimum tersebut didapat dengan membandingkan nilai JJKG akhir pada akhir proses algoritma pertukaran. Nilai JJKG yang paling minimum merupakan gerombol yang terbaik untuk k gerombol.
5 Proses yang bertahap pada over-fitting mengakibatkan lamanya proses komputasi. Qian dan Wu (2010) memanfaatkan konsistesi pada analisis regresi kekar (robust) untuk menentukan jumlah gerombol dan inisialisasi. Penentuan jumlah gerombol dan inisialisasi yang simultan pada sekali proses akan mempercepat proses komputasi. Oleh karena itu, pada penelitian ini akan digunakan inisialiasi acak dan inisialisasi regresi kekar untuk membandingkan ketepatan penggerombolan. Analisis regresi kekar yang digunakan pada penelitian ini yaitu least median of squares (LMS). Least Median of Squares (LMS) Least median of squares adalah salah satu metode regresi kekar (robust). Kelebihan dari metode regresi kekar adalah kurang peka dibandingkan metode kuadrat terkecil terhadap penyimpangan yang sering terjadi dari asumsi regresi linear (Draper 1981). Analisis regresi kekar digunakan untuk mengatasi penyimpangan-penyimpangan sebagai pengganti metode kuadrat terkecil. Menurut Rousseeuw (1984), dengan menggunakan median dari kuadrat galat akan dihasilkan penduga yang lebih kekar terhadap pencilan. Misalkan diberikan sebuah gugus data contoh berukuran 𝑛 dan akan diduga 𝜷 berdimensi 𝑝 yang berisi parameter dari gugus data tersebut. Langkah-langkah yang diperlukan pada LMS menurut Yingying (2009) yaitu: 1. Tentukan ukuran subset u, jumlah subset v dan tentukan juga batas kesalahan yang diinginkan 𝛼. 2. Secara acak, ambil v buah subset berukuran u dari contoh berukuran n. Duga 2 parameter 𝜷ℎ untuk setiap subset. Hitung median dari kuadrat galat 𝑒𝑔ℎ pada setiap subset dengan g = 1,2,…,u dan h = 1,2,…,v. 3. Definisikan: 2 mT2 min med egh h
g
4. Hitung: 𝑆0 = 1.4826 1 + 5. Hitung bobot 𝑤𝑗 , dengan 𝑤𝑗 = 1 𝑗𝑖𝑘𝑎
𝑆0 𝑒𝑗
5 𝑛−𝑝
mT2
≤ 𝛼 dan 𝑤𝑗 =
𝑆0 𝑒𝑗
untuk lainnya.
6. Berikan bobot 𝑤𝑗 kepada setiap pengamatan. 7. Lakukan pendugaan parameter dengan metode kuadrat kecil terboboti dengan 𝑤𝑗 sebagai bobot untuk mendapatkan 𝜷 akhir.
3 METODE PENELITIAN Data Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Data simulasi terdiri dari: 1.
Gugus data terdiri dari 2 gerombol dengan kemiringan sama dan intersep berbeda. Masing-masing gerombol berukuran 30 amatan.
6 2. 3. 4. 5. 6.
Gugus data terdiri dari 2 gerombol dengan kemiringan berlawanan. Masingmasing gerombol berukuran 30 amatan. Gugus data terdiri dari 3 gerombol yang saling berpotongan. Masing-masing gerombol berukuran 30 amatan. Gugus data terdiri dari 3 gerombol dengan dua gerombol berdekatan. Masingmasing gerombol berukuran 30 amatan. Gugus data terdiri dari 3 gerombol dengan kemiringan dan intersep berbeda. Masing-masing gerombol berukuran 30 amatan. Data tanpa gerombol dengan ukuran amatan 402.
Data kasus terapan yang digunakan dalam penelitian ini adalah data Indeks Pembangunan Manusia (IPM) seluruh kota/kabupaten di Jawa Timur tahun 2013 yang dikeluarkan oleh Badan Pusat Statistika dari situs web www.bps.go.id dan data Anggaran Pendapatan dan Belanja Daerah (APBD) seluruh kota/kabupaten di Jawa Timur tahun 2013 yang dikeluarkan oleh Direktorat Jenderal Perimbangan Keuangan, Kementerian Keuangan dari situs web www.djpk.kemenkeu.go.id Banyaknya kabupaten/kota Provinsi Jawa Timur sebesar 38. Data IPM digunakan sebagai peubah tak bebas (Y). Data APBD berupa 9 komponen yaitu pelayanan umum, ketertiban dan ketentraman, ekonomi, lingkungan hidup, perumahan dan fasilitas umum, kesehatan, pariwisata dan budaya, pendidikan, dan perlindungan sosial. Data APBD yang digunakan sebagai peubah bebas berupa 3 komponen yaitu ekonomi (X1), kesehatan (X2) dan pendidikan (X3). Komponen-komponen yang digunakan merupakan proporsi/presentase dari jumlah total keseluruhan komponen APBD untuk tiap kota/kabupaten di Jawa Timur. Identifikasi penggerombolan menggunakan data produk domestik regional bruto (PDRB) dan data pendidikan kabupaten/kota Provinsi Jawa Timur yang dikeluarkan oleh Badan Pusat Statistika dari situs web www.bps.go.id. Metode Analisis Eksplorasi Data Membuat diagram pencar masing-masing peubah bebas terhadap peubah tak bebas. Jika pada diagram pencar mengindikasikan adanya gerombol, maka dapat digunakan analisis regresi linear gerombol. Pemodelan Analisis regresi linear gerombol menduga jumlah subpopulasi lalu menggerombolkan masing-masing pengamatan dan menduga parameterparameter regresi pada masing-masing gerombol. Pendugaan jumlah subpopulasi dilakukan pada tahap inisialisasi. Penggerombolan masing-masing pengamatan dan pendugaan parameter regresi dilakukan dengan menggunakan algoritma pertukaran. Berikut adalah tahapan pada inisialisasi dan algoritma pertukaran: 1. Inisialisasi Inisialisasi yang digunakan pada algoritma pertukaran menggunakan inisialisasi acak dan menggunakan salah satu metode regresi kekar (robust) yaitu least median of squares (LMS). Algoritma pada inisialisasi acak dan LMS yaitu:
7 a. Inisialisasi acak Membagi amatan-amatan ke dalam k gerombol secara acak. Jika ukuran masing-masing gerombol kurang dari parameter, maka dilakukan pengacakan ulang. b. Inisialisasi dengan metode regresi kekar. Semua pengamatan diberikan inisial partisi 1, 2,..., n . Suatu gerombol dinotasikan dengan C dan komplemen dari gerombol dinotasikan dengan C c . Tahap-tahap inisialisasi regresi kekar pada algoritma pertukaran yaitu: (i) Menduga 𝜷 untuk keseluruhan dataset dengan menggunakan metode regresi kekar (robust) yaitu metode least median of squares. (ii) Meletakkan semua pengamatan yang mempunyai jarak regresi kurang dari nilai tertentu, misalkan ke dalam C1. Jika C1 dan
C1c keduanya lebih besar atau sama dengan nilai integer yang sudah ditentukan dari awal yaitu p, maka =1 dan lanjutkan pada tahap selanjutnya. Jika tidak, maka = 0 dan dilanjutkan ke tahap (v). (iii) Berdasarkan dataset
i 1
Cic , dugalah 𝜷 dengan menggunakan
analisis least median of squares yang digunakan pada tahap (i). (iv) Meletakkan semua pengamatan pada
i 1
Cic yang mempunyai jarak
regresi kurang dari ke dalam C1 berdasarkan analisis least median of squares. Jika C1 dan
1
i 1
Cic keduanya p, maka
tetapkan 1 dan ulangi ke tahap (iii). Jika tidak, maka lanjutkan ke tahap (v).
(v) Inisialkan masing-masing partisi dengan C1 ,..., C , i 1 Cic dengan
>1 atau keseluruhan dataset itu sendiri jika = 0. 2.
Algoritma Pertukaran Tahap-tahap pada algoritma pertukaran yaitu: (i) Memberikan label masing-masing pengamatan pada contoh dari 1 sampai n. Lalu berikan inisial partisi k C1 ,..., Ck berdasarkan
1, 2,..., n . Dugalah parameter regresi dengan metode kuadrat
terkecil (MKT) untuk masing-masing k gerombol dan hitunglah jumlah dari jumlah kuadrat galat JJKG0 untuk partisi ini. Inisialisasi i = 0. (ii) Menetapkan i i 1 dan i = 1 jika i > n. Misalkan i C j , lalu pindahkan i ke dalam Ch , h 1,..., k dan h j . Untuk masing-masing k – 1 relokasi, dugalah kembali model-model regresi dengan MKT untuk gerombol-gerombol yang telah diubah dan hitunglah keseluruhan JJKG. JJKG terkecil dinotasikan dengan JJKGh . Jika JJKGh JJKG0 , maka tetapkan Cj Cj i, Ch Ch i dan tetapkan JJKGh JJKG0 . Jika
8
JJKGh JJKG0 , maka i tetap dalam C j . Jika ukuran j kurang dari
3.
4.
parameternya, maka proses pemindahan i pada C j berhenti. (iii) Mengulangi tahap (ii) pada algoritma pertukaran sampai fungsi objektif JJKG tidak dapat diturunkan lagi, yang mana artinya sudah tidak dibutuhkan relokasi pengamatan dan penggerombolan sudah optimum yaitu memiliki JJKG paling minimum untuk ukuran gerombol k. Pendugaan parameter pada setiap kemungkinan gerombol akan dilakukan sebanyak 100 kali perulangan. Dari perulangan tersebut, maka dihitung nilai minimum dari minimum JJKG pada setiap kemungkinan gerombol. Mendeskripsikan masing-masing gerombol.
Kebaikan Model Ukuran kebaikan model digunakan untuk memilih model yang terbaik diantara model yang terbentuk. Ukuran kebaikan model yang digunakan pada penelitian ini yaitu dengan jumlah dari jumlah kuadrat galat (JJKG). Semakin kecil nilai JJKG, maka semakin kecil perbedaan antara nilai dugaan dengan nilai aktual, yang berarti model yang dibentuk semakin akurat dalam menghasilkan nilai dugaan.
4 HASIL DAN PEMBAHASAN Hasil Simulasi Diagram pencar untuk setiap simulasi antara masing-masing peubah bebas terhadap peubah tak bebas tertera pada Gambar 1. Simulasi 1
Simulasi 2
Simulasi 3
Simulasi 4
Simulasi 5
Simulasi 6
Gambar 1 Diagram pencar antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi
9 Pada data simulasi akan digunakan analisis regresi linear gerombol untuk menduga model regresi setiap gerombol. Jumlah gerombol digunakan untuk menduga banyaknya subpopulasi yang belum diketahui. Inisialisasi acak menentukan jumlah gerombol dengan menggunakan over-fitting dari gerombol terkecil sampai gerombol dengan penurunan galat yang sudah tidak signifikan antar dugaan banyaknya gerombol. Simulasi 2
Jumlah Gerombol
Simulasi 6
Simulasi 5
JJKG
JJKG
JJKG
Jumlah Gerombol
Jumlah Gerombol
Simulasi 4
Jumlah Gerombol
Simulasi 3
JJKG
JJKG
JJKG
Simulasi 1
Jumlah Gerombol
Jumlah Gerombol
Gambar 2 Scree Plot antara jumlah gerombol dengan nilai minimum JJKG pada setiap simulasi Pada Gambar 2, JJKG untuk simulasi 1 dan 2 cut off pada 2 gerombol dan setelah 2 gerombol tidak menurun signifikan sehingga dapat disimpulkan jumlah gerombol untuk simulasi 1 dan 2 yaitu 2 gerombol. Pada simulasi 3, 4 dan 5, JJKG cut off pada 3 gerombol dan setelah 3 gerombol tidak menurun signifikan sehingga dapat disimpulkan jumlah gerombol pada simulasi 3, 4 dan 5 yaitu 3 gerombol. Pada simulasi 6, JJKG tidak memiliki titik cut off sehingga dapat disimpulkan simulasi 6 tidak memiliki gerombol. Hal tersebut sesuai dengan pembentukan awal jumlah gerombol. Pada inisialisasi LMS dengan 1.645 , jumlah gerombol yang didapatkan berbeda pada simulasi 4 dan 6. Pada simulasi 4, inisialisasi LMS menghasilkan 2 gerombol dan pada simulasi 6 inisialisasi LMS menghasilkan 3 gerombol. Hal tersebut berbeda dengan pembentukan awal jumlah gerombol. Algoritma pertukaran pada simulasi 1 dan 2 dengan inisialisasi acak membutuhkan waktu rata-rata 0.94 detik dari 100 kali perulangan dengan k=2. Jika menggunakan inisialisasi LMS, rata-rata waktu yang dibutuhkan yaitu 0.62 detik. Rata-rata waktu yang dibutuhkan algoritma pertukaran pada simulasi 3 dan 5 dengan k=3 pada inisialisasi acak yaitu 5.54 detik, sedangkan pada inisialisasi LMS yaitu 2.47 detik. Perbedaan waktu iterasi tersebut dikarenakan penggerombolan pada inisialisasi LMS sudah hampir mendekati penggerombolan akhir sehingga proses iterasi lebih cepat. Processor yang digunakan yaitu Intel(R) Core(TM) i5-3337U CPU @ 1.80GHz dengan RAM 4.00 GB dan System Type 64-bit.
10 Tabel 1 Banyak gerombol (k), JJKG dan R-Square (%) pada tiap simulasi dengan inisialisasi acak dan LMS Inisialisasi Acak Simulasi
k
JJKG
1
1 2
21864.51 1131.00
2
1 2
19167.33 1170.30
3
1 3
66998.51 2450.01
4
1 3
195906.60 6988.30
5
1 3
43345.73 1965.47
Inisialisasi LMS R-Square (%) 42.70 95.82 6.70 93.99 5.29 91.74 39.17 82.37 33.41 89.95
Simulasi
K
JJKG
1
1 2
21864.51 1131.00
2
1 2
19167.33 1170.30
3
1 3
66998.51 2450.01
4
1 2
195906.60 27933.69
5
1 3
43345.73 1965.47
6
1 3
7610.07 870.57
R-Square (%) 42.70 95.82 6.70 93.99 5.29 91.74 39.17 40.14 33.41 89.95 0.00 1.75
Pada inisialisasi acak, ketika data sudah digerombolkan terlihat JJKG menurun secara signifikan dan R-Square meningkat secara signifikan. Banyaknya gerombol pada inisialisasi acak sesuai dengan banyaknya gerombol pada data simulasi yang dibentuk. Kesalahan klasifikasi diduga disebabkan pengamatan yang berdekatan antar gerombol namun hal tersebut tidak berpengaruh secara signifikan pada nilai JJKG. Inisialisasi dengan LMS menduga banyaknya gerombol sekaligus memisahkan parameter-parameter regresi pada tiap gerombol secara simultan sehingga penentuan banyaknya gerombol tidak secara bertahap. Dengan menggunakan 1.645 , inisialisasi LMS menghasilkan hasil yang sama dengan inisialisasi acak kecuali pada simulasi 4 dan 6. Pada simulasi 4, inisialisasi dengan LMS menghasilkan 2 gerombol. Pada simulasi 6 yang tidak memiliki gerombol, inisialisasi dengan LMS menghasilkan 3 gerombol. Maka dapat disimpulkan bahwa inisialisasi acak lebih baik dalam penentuan banyaknya gerombol namun lebih lama dalam proses komputasi karena penentuan gerombol harus menggunakan over-fitting. Hasil Kasus Terapan Tujuan utama pembangunan yang dilaksanakan oleh setiap negara adalah menciptakan kesejahteraan bagi setiap warganya. Perserikatan Bangsa-Bangsa (PBB) telah menetapkan ukuran pencapaian pembangunan manusia pada suatu negara diukur dengan indeks pembangunan manusia (IPM) yang berbasis sejumlah komponen dasar kualitas hidup. Perhitungan angka IPM terdiri dari tiga indeks yaitu indeks kesehatan berupa angka harapan hidup (AHH) dalam satuan tahun, indeks pendidikan berupa persentase penduduk dan angka rata-rata lama sekolah (RLS) dalam satuan tahun dan indeks daya beli berupa pengeluaran per kapita dalam satuan mata uang. Seiring dengan diberlakukannya otonomi daerah,
11 maka upaya peningkatan IPM selain menjadi tanggung jawab pemerintah pusat juga menjadi tanggung jawab pemerintah daerah di seluruh Indonesia. Menurut Wibowo (2008), salah satu modal dasar utama bagi daerah untuk meningkatkan kualitas pembangunan manusia adalah dana pembangunan yang tertuang dalam anggaran pendapatan belanja daerah (APBD). Menurut Mankiw (2003), alat ukur pertumbuhan ekonomi suatu daerah yang utama adalah produk domestik regional bruto (PDRB). Dengan menggunakan data PDRB, maka dapat dilihat pemerataan pembangunan suatu daerah. Oleh karena itu, data PDRB digunakan untuk membandingkan pemerataan pada setiap lapangan usaha untuk setiap kabupaten/kota Provinsi Jawa Timur. Data pendidikan penduduk Jawa Timur juga digunakan untuk melihat pemerataan pendidikan kabupaten/kota Provinsi Jawa Timur. Deskripsi data antara masing-masing peubah bebas terhadap peubah tak bebas perlu dilakukan sebagai informasi awal untuk mengetahui indikasi adanya gerombol. Diagram pencar dapat membantu menentukan adanya penggerombolan (DeSarbo et al. 1989).
Gambar 3 Diagram pencar antara presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD terhadap IPM (Y) Pada Gambar 3, diagram pencar antara ekonomi dengan IPM tidak membentuk garis linear dan mengindikasikan adanya gerombol. Pada diagram pencar antara kesehatan dengan IPM juga tidak membentuk garis linear. Diagram pencar mengindikasikan adanya gerombol yaitu pada bagian atas cenderung memiliki kemiringan positif sedangkan bagian bawah cenderung memiliki kemiringan negatif. Pada diagram pencar antara pendidikan dan IPM terlihat data tidak membentuk pola linear dan cenderung memusat pada beberapa titik sehingga mengindikasikan adanya gerombol. Jika menggunakan analisis regresi linear, adjusted R-Square hanya sebesar 27.63%. Tahapan inisialisasi acak yaitu dengan menggunakan over-fitting untuk menentukan jumlah gerombol. Hal tersebut terlihat pada scree plot Gambar 4.
JJKG
12
Jumlah Gerombol
Gambar 4 Scree plot antara jumlah gerombol dengan nilai minimum JJKG pada kasus terapan Pada Gambar 4 terlihat JJKG cut off pada dua gerombol dan tiga gerombol dan setelah tiga gerombol cenderung menurun secara tidak signifikan. Oleh karena itu, banyaknya gerombol yang ditetapkan adalah 3 gerombol. Model regresi linear pada masing-masing gerombol adalah: Y1 159.66 460.39 X1 381.74 X 2 43.28 X 3 e
Y2 67.14 128.79 X1 35.64 X 2 10.82 X 3 e Y3 54.23 125.42 X1 18.05 X 2 59.28 X 3 e Gerombol yang diperoleh dengan inisialisasi LMS dengan menggunakan
1.645 yaitu 2 gerombol. Model analisis regresi linear pada masing-masing gerombol adalah:
Y1 73.96 150.16 X1 34.74 X 2 33.54 X 3 e Y2 50.31 105.13 X1 2.11X 2 58.04 X 3 e Tabel 2 JKG, Adjusted R-Square (%) dan n inisialisasi acak dan LMS Inisialisasi Acak
LMS
2 Gerombol Adj R-Square (%) n JKG 24.01 73.61 20 68.09 61.65 18 92.10 83.58 45.23 128.81
58.86 76.46
38 19 19 38
3 Gerombol Adj R-Square (%) n JKG 3.31 98.47 11 12.75 80.04 18 1.44 95.49 9 17.50 38
Pada Tabel 2, inisialisasi acak menghasilkan tiga gerombol dengan JJKG 17.50 sedangkan inisialisasi LMS menghasilkan dua gerombol dengan JJKG 128.81. Pada 2 gerombol, terlihat nilai JJKG inisialisasi acak lebih kecil dibandingkan inisialisasi LMS sehingga model inisialisasi acak lebih baik. Oleh karena itu, inisialisasi acak digunakan untuk identifikasi gerombol. Identifikasi gerombol yang akan digunakan yaitu rata-rata produk domestik regional bruto (PDRB) untuk membandingkan pemerataan lapangan usaha pada setiap gerombol di Provinsi Jawa Timur. Data pendidikan penduduk Jawa Timur
13
PDRB (juta Rupiah)
PDRB (juta Rupiah)
juga digunakan untuk melihat pemerataan pendidikan tiap gerombol di Provinsi Jawa Timur.
Lapangan Usaha
Lapangan Usaha
Proporsi Jumlah Penduduk
Proporsi Jumlah Penduduk
Gambar 5 Plot antara lapangan usaha dengan rata-rata PDRB tiap gerombol (juta Rupiah). Gerombol 1, Gerombol 2, Gerombol 3.
Jenjang Pendidikan
Jenjang Pendidikan
Gambar 6 Plot antara jenjang pendidikan dengan proporsi jumlah penduduk tiap gerombol. Gerombol 1, Gerombol 2, Gerombol 3. Pada grafik PDRB untuk 3 gerombol, setiap lapangan usaha memiliki 2 gerombol yang bermiripan. Hal tersebut tertera pada Gambar 5. Pada grafik proporsi jumlah penduduk pada setiap jenjang pendidikan untuk 3 gerombol, gerombol kedua dan ketiga mempunyai pola yang hampir sama. Hal tersebut tertera pada Gambar 6. Berdasarkan kondisi kemiripan tersebut, 2 gerombol cukup untuk menduga banyaknya subpopulasi. Maka, persamaan regresi 2 gerombol dengan inisialisasi acak yaitu:
Y1 76.40 118.14 X1 5.35 X 2 21.28 X 3 e Y2 86.01 95.21X1 162.09 X 2 14.47 X 3 e Gerombol pertama merupakan gerombol kota karena 90% kota pada provinsi Jawa Timur berada pada gerombol pertama sedangkan gerombol kedua hanya memiliki satu kota yaitu Kota Batu. Pada data PDRB, gerombol kabupaten lebih unggul dibidang pertanian dan pertambangan sedangkan gerombol kota unggul dibidang lainnya. Pada data pendidikan, rata-rata presentase pendidikan rendah pada gerombol kota lebih rendah dibandingkan gerombol kabupaten dan rata-rata presentase pendidikan tinggi pada gerombol kota lebih tinggi dibandingkan gerombol kabupaten.
14
5 SIMPULAN DAN SARAN Simpulan Berdasarkan hasil analisis regresi linear gerombol dengan algoritma pertukaran (exchange algorithm) dengan inisialisasi acak dan regresi kekar yaitu LMS dapat disimpulkan bahwa : 1. Analisis regresi linear gerombol dapat menduga model untuk data yang memiliki subpopulasi yang belum diketahui dengan cara menggerombolkan berdasarkan kemiripan karakteristik parameter regresi. 2. Inisialisasi acak lebih baik dalam pendugaan banyaknya subpopulasi dibandingkan inisialisasi LMS namun proses komputasi inisialisasi acak lebih lama dibandingkan dengan inisialisasi LMS karena inisialisasi acak menduga banyaknya subpopulasi dengan over-fitting. 3. Inisialisasi dengan LMS tidak dapat digunakan jika banyaknya subpopulasi ditentukan secara apriori dan inisialisasi dengan LMS juga tidak dapat mendeteksi jika tidak terdapat gerombol pada gugus data. Saran Pada penelitian ini, inisialisasi acak lebih baik dalam pendugaan banyaknya subpopulasi dibandingkan inisialisasi LMS namun proses komputasi inisialisasi acak lebih lama dibandingkan dengan inisialisasi LMS. Oleh karena itu, disarankan untuk mengkaji analisis regresi linear gerombol dengan algoritma pertukaran untuk mendapatkan pendugaan banyaknya subpopulasi yang baik namun proses komputasinya lebih cepat. Analisis regresi linear gerombol merupakan analisis regresi yang sangat penting untuk menduga banyaknya subpopulasi. Penelitian lanjutan terkait analisis regresi linear gerombol dapat menggunakan metode pendugaan lainnya.
DAFTAR PUSTAKA Aunuddin. 1989. Analisis Data. Bogor (ID): Depdikbud Ditjen Pendidikan Tinggi Pusat Antar Universitas Ilmu Hayat IPB. DeSarbo WS, Cron WL. 1988. A Maximum Likelihood Methodology for Clusterwise Linear Regression, Journal of Classification. 5:249-282. DeSarbo WS, Oliver RL, Rangaswamy A. 1989. A simulated annealing methodology for clusterwise linear regression. Psychometrika. 54(4):707736 Draper NR, Smith H. 1981. Applied Regression Analysis, 2nd. New York (US): John Wiley and Sons, Inc. Mankiw NG. 2003. Teori Makro Ekonomi. Jakarta (ID): Erlangga Qian G, Wu Y. 2011. Estimation and selection in regression clustering. European JPAM. 4(4):455-466 Rousseuw PJ, 1984. Least Median of Squares Regression. Journal of the American Statistician Association Vol.76, No. 388:871-880.
15 Spath H. 1979. Algorithm 39 clusterwise linear regression. Computing. 22(4):367373. Spath H. 1982. A fast algorithm for clusterwise linear regression. Computing. 29(2):175-181. Wibowo E. 2008. Strategi Perancangan Kebijakan Umum APBD untuk Meningkatkan Kualitas Pembangunan Manusia di Kabupaten Bogor [tesis] Bogor : Sekolah Pascasarjana, Institut Pertanian Bogor. Chen Y, Xu W, Trappe W, Zhang Y. 2009 . Securing Emerging Wireless Systems, Lower Layer Approaches. New York: Springer Science Bussiness Media.
16 Lampiran 1 Diagram pencar dengan garis regresi antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi Simulasi 1
Simulasi 2
Simulasi 4
Simulasi 5
Simulasi 3
Simulasi 6
Lampiran 2 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi acak Simulasi 1 k
JKG
JJKG
1 2
21864.51 781.89 781.89 619.43 72.60 104.81 567.99 72.01 92.09 44.42 344.24 41.27 45.84 24.84 10.78
21864.51 1131.00
3
4
5
761.24
498.49
258.37
Koefisien Regresi β0 22.21 6.09 -57.45 9.31 -63.82 5.64 -61.74 1.99 39.73 10.74 -57.99 0.19 18.20 11.29 -56.86
β1 0.33 2.06 2.06 1.91 2.25 0.66 2.19 2.41 0.02 1.69 1.98 2.69 1.68 1.63 2.13
R-Square (%) 42.70 94.22 94.22 91.97 97.03 97.03 96.70 98.75 0.70 98.30 98.82 99.24 95.50 98.30 97.41
n 60 30 30 26 25 9 24 14 10 12 14 11 7 12 16
17 Simulasi 2 k
JKG
1 2
19167.33 586.38 583.92 438.55 313.85 14.13 344.16 93.68 67.63 30.49 37.18 180.77 14.24 30.88 67.6
3
4
5
JJKG 19167.33 1170.30 766.53
535.96
330.67
Koefisien Regresi β0 38.70 70.18 7.24 71.50 7.13 21.71 6.15 74.64 67.46 32.07 60.69 71.88 5.54 24.79 11.40
β1 -0.03 -2.03 1.97 -2.07 1.90 1.64 2.06 -2.05 -2.02 0.56 0.20 -2.10 1.12 1.28 1.57
R-Square (%)
n
6.70 94.23 93.72 95.93 95.47 99.00 96.38 98.04 97.85 66.06 48.65 97.14 96.54 96.77 95.75
60 31 29 26 27 7 22 12 16 10 7 19 6 10 18
Simulasi 3 k 1 2 3
4
5
JKG 66998.51 2898.07 9776.21 773.34 897.57 779.10 715.75 113.85 151.06 807.75 686.64 56.03 313.76 226.24 124.64
JJKG 66998.51 12674.28 2450.01
1788.42
1407.31
Koefisien Regresi β0 -80.72 -105.85 -150.55 -11.82 -108.56 -164.61 -12.77 -97.58 -106.50 -161.32 -13.38 -24.67 -120.00 -165.11 -32.82
β1 0.60 1.97 1.69 -1.93 2.05 2.04 -1.92 1.92 1.90 2.00 -1.90 -0.07 2.30 -120.00 -165.11
R-Square (%) 5.29 83.87 53.31 91.00 91.69 92.42 90.69 97.58 96.99 91.84 91.34 11.45 97.21 95.87 90.96
n 90 41 49 31 31 28 27 15 18 30 30 9 21 18 12
Simulasi 4 k 1 2
JKG 195906.6 25275.95 2657.84
JJKG 195906.6 27933.69
Koefisien Regresi β0 41.34 -126.77 7.29
β1 -2.23 1.16 2.21
R-Square (%) 39.17 23.82 80.29
n 90 60 30
18
3
2657.74 3135.05 1195.51 986.04 2113.46 129.02 1933.19 1970.45 231.82 804.56 524.6 283.3
4
5
6988.3
5161.72
3814.73
7.29 -148.29 -192.16 192.13 6.22 86.17 -142.25 9.05 41.61 -129.05 177.51 123.23
2.21 2.08 2.12 2.12 2.24 -2.28 1.88 2.18 -1.41 1.65 1.74 0.99
81.29 78.29 89.13 87.14 84.23 99.44 80.12 82.98 97.73 78.97 85.02 90.96
30 32 28 25 28 8 29 24 11 20 18 17
Simulasi 5 k
JKG
JJKG
1 2
43345.73 4800.60 6218.14 664.44 716.10 584.93 531.06 255.91 193.17 243.63 193.28 528.37 37.00 117.31 69.08
43345.73 11018.74
3
4
5
1965.47
1223.77
945.04
Koefisien Regresi β0 54.63 75.44 32.28 20.14 -16.10 -45.87 19.63 -2.55 -46.43 64.65 -46.22 19.61 -33.49 77.49 10.34
β1 -0.69 -0.55 -0.49 2.10 0.23 1.90 2.12 -0.03 1.92 -0.80 1.91 2.12 0.47 -1.23 0.22
R-Square (%)
n
33.41 26.39 58.29 93.81 22.15 92.59 94.82 1.05 97.42 94.92 96.92 95.31 86.41 98.30 72.19
90 31 59 30 31 29 28 22 24 26 24 28 14 11 13
Simulasi 6 k
JKG
1 2
7610.07 718.80 840.23 404.43 276.28 190.53 146.36 103.68
3
4
JJKG 7610.07 1559.03 871.24
484.57
Koefisien Regresi β0 1.041 e-15 3.96 -3.80 4.51 -4.88 -0.06 -5.41 5.67
β1 1.565 e-16 -0.04 -0.03 0.03 0.09 0.09 -0.02 -0.03
R-Square (%) 0.00 0.41 0.22 0.25 2.56 5.04 0.25 0.32
n 402 197 205 165 141 96 107 91
19 117.62 116.91 139.88 56.83 44.41 71.92 59.11
5
372.14
2.49 -2.05 -5.46 6.09 -1.42 3.32 -1.27
-0.05 -0.04 0.06 -0.10 0.48 -0.01 -0.27
2.08 1.43 0.97 4.50 80.58 0.12 55.02
106 98 103 69 60 100 70
Lampiran 3 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, R-Square (%) dan n pada tiap simulasi dengan inisialisasi LMS Simulasi
k
1
2
2
2
3
3
4
2
5
3
6
3
JKG
JJKG
781.89 1131.00 781.89 586.38 1170.30 583.92 773.34 897.57 2450.01 779.10 25275.95 27933.69 2657.84 716.10 664.44 1965.47 584.93 425.49 870.57 214.96 230.12
Koefisien Regresi β0 6.09 -57.45 70.18 7.24 -11.82 -108.56 -164.61 -126.77 7.29 -16.10 20.14 -45.87 -4.46 5.11 0.93
β1 2.06 2.06 -2.03 1.97 -1.93 2.05 2.04 1.16 2.21 0.23 2.10 1.90 0.02 0.12 0.06
R-Square (%) 94.22 94.22 94.23 93.72 91.00 91.69 92.42 23.82 80.29 22.15 93.81 92.59 0.07 4.43 2.22
n 30 30 31 29 31 31 28 60 30 31 30 29 168 128 106
Lampiran 4 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan inisialisasi acak Simulasi 1
Simulasi 2
Simulasi 3
20 Simulasi 4
Simulasi 5
Lampiran 5 Diagram pencar dengan garis regresi linear gerombol antara peubah bebas (X) terhadap peubah tak bebas (Y) untuk setiap simulasi dengan inisialisasi LMS Simulasi 1
Simulasi 2
Simulasi 4
Simulasi 5
Simulasi 3
Simulasi 6
Lampiran 6 Data presentase ekonomi (X1), kesehatan (X2) dan pendidikan (X3) pada data APBD dan IPM (Y) Daerah Kabupaten Bangkalan Kabupaten Banyuwangi Kabupaten Blitar Kabupaten Bojonegoro Kabupaten Bondowoso Kabupaten Gresik Kabupaten Jember
Ekonomi 0.07 0.06 0.06 0.06 0.07 0.04 0.05
Kesehatan 0.13 0.10 0.09 0.11 0.11 0.15 0.13
Pendidikan 0.38 0.43 0.53 0.39 0.44 0.31 0.49
IPM 66.19 71.02 74.92 68.32 65.39 76.36 66.60
21 Kabupaten Jombang Kabupaten Kediri Kabupaten Lamongan Kabupaten Lumajang Kabupaten Madiun Kabupaten Magetan Kabupaten Malang Kabupaten Mojokerto Kabupaten Nganjuk Kabupaten Ngawi Kabupaten Pacitan Kabupaten Pamekasan Kabupaten Pasuruan Kabupaten Ponorogo Kabupaten Probolinggo Kabupaten Sampang Kabupaten Sidoarjo Kabupaten Situbondo Kabupaten Sumenep Kabupaten Trenggalek Kabupaten Tuban Kabupaten Tulungagung Kota Blitar Kota Kediri Kota Madiun Kota Malang Kota Mojokerto Kota Pasuruan Kota Probolinggo Kota Surabaya Kota Batu
0.05 0.04 0.06 0.06 0.06 0.07 0.06 0.05 0.05 0.08 0.06 0.07 0.08 0.05 0.07 0.09 0.07 0.09 0.09 0.08 0.07 0.07 0.07 0.06 0.08 0.07 0.06 0.09 0.08 0.05 0.08
0.15 0.14 0.11 0.11 0.11 0.10 0.08 0.11 0.13 0.10 0.11 0.11 0.11 0.12 0.11 0.10 0.17 0.11 0.11 0.13 0.10 0.12 0.15 0.21 0.12 0.08 0.18 0.14 0.14 0.12 0.04
0.41 0.46 0.47 0.46 0.47 0.51 0.33 0.37 0.52 0.49 0.50 0.51 0.45 0.50 0.43 0.43 0.33 0.43 0.45 0.45 0.44 0.44 0.38 0.35 0.40 0.39 0.28 0.30 0.32 0.27 0.27
74.47 73.29 71.81 69.50 71.46 74.34 72.34 75.26 72.49 70.86 73.36 67.17 69.77 72.61 65.19 62.39 78.15 65.73 66.89 74.44 70.04 74.79 78.70 77.80 78.17 78.78 78.66 74.75 75.94 78.97 76.09
Lampiran 7 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted RSquare (%) dan n pada kasus terapan dengan inisialisasi acak k 1 2 3
JKG
JJKG
Koefisien Regresi
β0 β1 β2 504.42 504.42 86.63 -98.72 22.22 24.01 92.10 76.40 118.14 5.35 68.09 86.01 -95.21 -162.09 3.31 17.50 159.66 -460.39 -381.74 12.75 67.14 128.79 35.64 1.44 54.23 -125.42 -18.05
β3 -25.30 -21.28 14.47 -43.28 -10.82 -59.28
Adjusted R-Square (%)
n
27.63 73.61 61.65 98.47 80.04 95.49
38 20 18 11 18 9
22 4
5
0.05 1.31 1.50 1.21 0.06 0.12 0.18 0.26 0.70
4.07 111.44 -2.93 61.77 119.92 1.32 104.60 126.83 62.94 95.19 49.68
8.32 -250.24 188.33 -470.09 202.09 -478.83 -262.62 -205.87 233.04
-160.86 -50.92 430.72 101.37 40.68 -8.80 -115.09 -19.25 -19.80 -99.04 -145.25 -24.68 144.10 26.72 -114.57 -6.67 81.79 0.23
99.89 97.68 97.11 98.61 99.71 99.87 99.74 98.87 92.21
6 8 14 10 5 9 7 6 11
Lampiran 8 Banyak gerombol (k), JKG, JJKG, Koefisien Regresi, Adjusted RSquare dan n pada kasus terapan dengan inisialisasi LMS k
JKG
JJKG
2
83.58 45.23
128.81
Koefisien Regresi β0 73.96 50.31
β1 150.16 -105.13
β2 34.74 -2.11
β3 -33.54 58.04
Adjusted RSquare (%)
n
58.86 19 76.46 19
Lampiran 9 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi acak dengan 2 gerombol Gerombol 1 Kabupaten Gresik Kabupaten Jombang Kabupaten Kediri Kabupaten Magetan Kabupaten Mojokerto Kabupaten Nganjuk Kabupaten Pacitan Kabupaten Ponorogo Kabupaten Sidoarjo Kabupaten Trenggalek Kabupaten Tulungagung Kabupaten Lamongan Kota Blitar Kota Kediri Kota Madiun Kota Malang Kota Mojokerto Kota Pasuruan Kota Probolinggo Kota Surabaya
Gerombol 2 Kabupaten Banyuwangi Kabupaten Bojonegoro Kabupaten Jember Kabupaten Madiun Kabupaten Pamekasan Kabupaten Pasuruan Kabupaten Probolinggo Kabupaten Sumenep Kabupaten Tuban Kabupaten Bangkalan Kabupaten Bondowoso Kabupaten Lumajang Kabupaten Malang Kabupaten Situbondo Kabupaten Blitar Kabupaten Ngawi Kabupaten Sampang Kota Batu
23 Lampiran 10 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi acak dengan 3 gerombol Gerombol 1 Kabupaten Blitar Kabupaten Bondowoso Kabupaten Lamongan Kabupaten Pamekasan Kabupaten Jember Kabupaten Lumajang Kabupaten Madiun Kabupaten Probolinggo Kabupaten Sampang Kota Malang Kota Surabaya
Gerombol 2 Kabupaten Gresik Kabupaten Magetan Kabupaten Malang Kabupaten Jombang Kabupaten Mojokerto Kabupaten Pacitan Kabupaten Tulungagung Kabupaten Ponorogo Kabupaten Trenggalek Kabupaten Nganjuk Kabupaten Sidoarjo Kota Mojokerto Kota Probolinggo Kota Batu Kota Pasuruan Kota Kediri Kota Madiun Kota Blitar
Gerombol 3 Kabupaten Banyuwangi Kabupaten Ngawi Kabupaten Kediri Kabupaten Pasuruan Kabupaten Situbondo Kabupaten Sumenep Kabupaten Bangkalan Kabupaten Tuban Kabupaten Bojonegoro
Lampiran 11 Kota/Kabupaten Provinsi Jawa Timur yang terbentuk pada inisialisasi LMS Gerombol 1 Kabupaten Banyuwangi Kabupaten Gresik Kabupaten Jember Kabupaten Jombang Kabupaten Malang Kabupaten Pamekasan Kabupaten Mojokerto Kabupaten Sidoarjo Kabupaten Trenggalek Kabupaten Tulungagung Kota Batu Kota Blitar Kota Kediri Kota Madiun Kota Malang
Gerombol 2 Kabupaten Bojonegoro Kabupaten Lamongan Kabupaten Madiun Kabupaten Pasuruan Kabupaten Probolinggo Kabupaten Sumenep Kabupaten Tuban Kabupaten Bangkalan Kabupaten Bondowoso Kabupaten Lumajang Kabupaten Situbondo Kabupaten Blitar Kabupaten Kediri Kabupaten Nganjuk Kabupaten Pacitan
24 Kota Mojokerto Kota Pasuruan Kota Probolinggo Kota Surabaya
Kabupaten Ponorogo Kabupaten Magetan Kabupaten Ngawi Kabupaten Sampang
Lampiran 12 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol Jenjang Pendidikan Tidak Sekolah Tidak Tamat SD SD/sederajat SLTP/sederajat SLTA/sederajat SM Kejuruan Diploma 1/II Diploma III Strata 1 Strata 2 / Strata 3
Gerombol 1 0.37 0.12 0.20 0.17 0.09 0.03 0.00 0.00 0.01 0.00
Gerombol 2 0.23 0.12 0.22 0.19 0.16 0.04 0.01 0.01 0.03 0.00
Gerombol 3 0.33 0.13 0.22 0.18 0.10 0.03 0.01 0.00 0.01 0.00
Lampiran 13 Proporsi jumlah penduduk pada setiap jenjang pendidikan Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 2 gerombol Jenjang Pendidikan Tidak Sekolah Tidak Tamat SD SD/sederajat SLTP/sederajat SLTA/sederajat SM Kejuruan Diploma 1/II Diploma III Strata 1 Strata 2 / Strata 3
Gerombol 1 0.20 0.12 0.21 0.19 0.18 0.04 0.01 0.01 0.03 0.00
Gerombol 2 0.33 0.13 0.22 0.17 0.09 0.03 0.00 0.00 0.01 0.00
25 Lampiran 14 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 3 gerombol Lapangan Usaha Pertanian Pertambangan Industri Listrik Konstruksi Perdagangan Komunikasi Keuangan Jasa
Gerombol 1 Gerombol 2 Gerombol 3 3,723,820.27 2,094,291.60 4,041,594.53 189,741.04 237,701.08 1,561,700.27 5,972,248.61 6,251,414.85 1,878,680.62 771,143.00 167,236.56 167,700.85 1,640,364.65 258,270.22 354,644.89 11,644,864.59 4,216,166.47 2,862,353.06 2,272,691.00 823,891.38 464,043.08 1,747,030.29 623,411.23 535,826.97 2,822,752.62 1,291,826.91 1,257,594.01
Lampiran 15 Rata-rata PDRB pada setiap lapangan usaha Kabupaten/Kota Provinsi Jawa Timur pada setiap gerombol dengan inisialisasi acak 2 gerombol Lapangan Usaha Pertanian Pertambangan Industri Listrik Konstruksi Perdagangan Komunikasi Keuangan Jasa
Gerombol 1 1,940,352.90 198,974.93 8,276,267.71 534,619.46 979,910.23 8,701,068.76 1,772,609.72 1,271,089.17 2,144,325.96
Gerombol 2 4,234,809.14 913,420.82 1,644,609.64 128,319.42 349,248.59 3,095,794.97 475,213.29 546,633.04 1,263,055.00
26
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 4 Oktober 1989, sebagai anak pertama dari pasangan Suharsono dan Masroya Budi Sri Mulyati Nasution. Pendidikan sekolah menengah ditempuh di SMA Negeri 35 Jakarta Program IPA, lulus pada tahun 2006. Pada tahun yang sama penulis diterima di program studi Statistika Universitas Gadjah Mada, Yogyakarta dan menyelesaikannya pada tahun 2011. Kesempatan untuk melanjutkan program master (S2) pada program studi Statistika, Sekolah Pascasarjana IPB, diperoleh pada tahun 2012. Pada tahun 2014 penulis pernah mempresentasikan hasil penelitian dengan makalah yang berjudul “Clusterwise Linear Regression by Least Square Clustering Method” pada 13th Islamic Countries Conference on Statistical Sciences (ICCS) di Bogor, Indonesia pada tanggal 18-21 Desember 2014 dan telah dipublikasikan pada Proceedings ICCS-13 Vol. 27 ISBN 978-969-8858-16-2.