PERBANDINGAN METODE PENGGEROMBOLAN DENGAN KOMPONEN UTAMA NONLINIER DAN GEROMBOL DUA LANGKAH PADA DATA CAMPURAN
YOGI YUNIANTO
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
RINGKASAN YOGI YUNIANTO. Perbandingan Metode Penggerombolan Dengan Komponen Utama Nonlinier Dan Gerombol Dua Langkah Pada Data Campuran. Dibimbing oleh MOHAMMAD MASJKUR dan PIKA SILVIANTI. Skala pengukuran yang berbeda sering ditemui pada berbagai kasus, termasuk pada kasus penggerombolan. Dalam kasus penggerombolan jika terdapat perbedaan skala pengukuran pada peubah yang akan digerombolkan, maka metode penggerombolan konvensional tidak dapat digunakan. Diperlukan penanganan khusus atau metode tertentu untuk menggerombolkan peubah yang memiliki skala campuran, yaitu skala numerik dan kategorik. Pada studi ini, akan dilakukan pembandingan hasil penggerombolan dengan melakukan dua metode yang berbeda, yaitu dengan transformasi terhadap data menggunakan Analisis Komponen Utama Nonlinier dan dengan menggunakan metode penggerombolan dua langkah. Data yang digunakan dalam penelitian ini adalah data kesejahteraan daerah – daerah di wilayah Jawa Barat. Hasil penggerombolan optimum dengan menggunakan metode gerombol dua langkah menghasilkan tiga gerombol, sementara penggerombolan menggunakan pautan centroid dengan transformasi AKU Nonlinier menghasilkan dua gerombol. Metode gerombol dua langkah dapat menjelaskan hasil penggerombolan yang lebih baik dan lebih spesifik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier. Selain itu, keragaman dalam gerombol dan antar gerombol yang dihasilkan metode gerombol dua langkah juga lebih baik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier. Hal ini menjelaskan bahwa metode gerombol dua langkah lebih baik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier. Kata Kunci : Skala pengukuran campuran, Analisis Komponen Utama Nonlinier, Analisis Gerombol Dua Langkah.
PERBANDINGAN METODE PENGGEROMBOLAN DENGAN KOMPONEN UTAMA NONLINIER DAN GEROMBOL DUA LANGKAH PADA DATA CAMPURAN
YOGI YUNIANTO
Skripsi Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011
Judul
:
Nama : NRP :
Perbandingan Metode Penggerombolan Dengan Komponen Utama Nonlinier Dan Gerombol Dua Langkah Pada Data Campuran Yogi Yunianto G14060730
Menyetujui,
Pembimbing I
Ir. Mohammad Masjkur, MS NIP. 19610608 1986011002
Pembimbing II
Pika Silvianti, S.Si, M.Si
Mengetahui, Ketua Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Hari Wijayanto NIP. 19650421 1990021001
Tanggal Lulus :
KATA PENGANTAR Segala puji hanya milik Allah, kami memuji-Nya, memohon pertolongan kepada-Nya, memohon ampun kepada-Nya dan berlindung kepada-Nya dari kejelekan diri – diri kami serta dari kejelekan amalan kami. Shalawat serta salam semoga tercurah kepada junjungan kita Nabi Muhammad SAW, kepada keluarganya, sahabatnya, dan pengikutnya yang setia hingga akhir zaman. Banyak ilmu, pelajaran dan masukan yang penulis dapatkan dan rasakan selama proses penyusunan karya ilmiah ini, sehingga pada kesempatan kali ini penulis ingin mengucapkan terima kasih kepada: 1. Bapak Ir. Mohammad Masjkur, MS dan ibu Pika Silvianti, M.Si selaku pembimbing yang telah meluangkan waktu, serta memberikan saran dan masukan yang bermanfaat bagi penulis. 2. Kedua orang tua, Mama dan Papa yang telah sabar mendidik penulis dan memberi penulis semangat agar cepat lulus serta kepada seluruh kakak penulis. 3. Tiara Kencana Ayu, atas dukungan, bantuan, masukan, semangat dan keceriaannya yang telah diberikan kepada penulis. 4. Teman – teman STK 43 dan teman – teman Radiv Community atas semangat dan bantuannya serta masukan yang diberikan. 5. Teman – teman Statistika Center atas dukungan dan ilmunya. 6. Serta kepada semua pihak yang telah membantu penulis dalam proses penyusunan karya ilmiah ini, yang tidak dapat penulis tuliskan satu per satu. Akhir kata, penulis meminta maaf apabila dalam proses penyusunan karya ilmiah ini terdapat kesalahan – kesalahan yang dilakukan oleh penulis. Semoga karya ilmiah ini bermanfaat.
Bogor, Januari 2011
Yogi Yunianto
RIWAYAT HIDUP Penulis dilahirkan di kota Bekasi pada tanggal 27 Juni 1988 sebagai anak kelima dari pasangan Bapak Sukma Janani Tamin dan Ibu Mega Lelasuari. Penulis berasal dari Sumatra Barat. Pada tahun 2000 penulis lulus dari SD Negeri Jatibening VII Bekasi, dan melanjutkan ke sekolah menengah pertama SLTP Negeri 255 Jakarta. Penulis menyelesaikan studi di SMU Negeri 61 Jakarta pada tahun 2006 dan pada tahun yang sama penulis diterima di Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Pada tahun 2007, penulis diterima di departemen Statistika Institut Pertanian Bogor. Selama mengikuti perkuliahan, penulis aktif dalam kegiatan Himpunan Profesi Gamma Sigma Beta (GSB) sebagai staf departemen Sains pada tahun 2008/2009. Penulis juga aktif mengikuti kepanitiaan acara yang menjadi Program Kerja GSB, antara lain Statistika Ria, LJPS, WCS, SAS, dan lain-lain. Penulis pernah bekerja di Statistika Center, sebagai staf promosi dan pengajar dari tahun 2008-2010. Penulis mengikuti kegiatan praktik lapang di Media Planning Group pada bulan Februari 2010 - April 2010.
DAFTAR ISI Hal DAFTAR TABEL……………………………………………………………............................. vii DAFTAR GAMBAR…………………………………………………………………………… vii DAFTAR LAMPIRAN…………………………………………………………………………. vii PENDAHULUAN Latar Belakang……………………………………………………………………………. 1 Tujuan…………………………………………………………………………………….. 1 TINJAUAN PUSTAKA Analisis Gerombol……………………...……...………...…………...…………………… 1 Analisis Komponen Utama Nonlinier…………………………………………………….. Analisis Gerombol Dua Langkah…………………………………………………………. Keragaman Gerombol…………………………………………………………………….. Validitas Gerombol………………………………………………………………………..
1 2 3 3
METODOLOGI Data………………………………………………………………………………………... 4 Metode…………………………………………………………………………………….. 4 HASIL DAN PEMBAHASAN Deskripsi Data…………………………………………………………………………….. Analisis Komponen Utama Nonlinier…………………………………………………….. Gerombol Pautan Centroid dengan Transformasi Komponen Utama Nonlinier…….…… Gerombol Dua Langkah…………………………………………………………………...
4 4 5 5
Perbandingan Hasil Penggerombolan…………………………………………………....... 7 SIMPULAN DAN SARAN Simpulan…………………………………………………………………………………... 7 Saran………………………………………………………………………………………. 7 DAFTAR PUSTAKA…………………………………………………………………………… 7 LAMPIRAN…………………………………………………………………………………….. 8
DAFTAR TABEL 1. Hasil AKU Nonlinier…………………………………………………………………..... 2. Validasi Gerombol Optimum ….……………………………………………………….. 3. Distribusi Hasil Penggerombolan………………………………………………………..
Hal 4 5 5
4. Distribusi Hasil Penggerombolan……………………………………………………….. 5. Perbandingan Keragaman Gerombol…………………………………………………….
5 7
DAFTAR GAMBAR Hal 1. Daerah Contoh……………………………...…………………………………………… 2. Letak Wilayah ……………………...…………………………………............................
4 4
DAFTAR LAMPIRAN
1. Peubah – peubah yang Digunakan dalam Analisis Gerombol…………........................... 2. Nilai Komponen Loading Analisis Komponen Utama Nonlinier ………………………. 3. Tabel Rasio Perubahan BIC (Bayesian Information Criterion)…………………………. 4. Ukuran Masing-masing Gerombol Pada Metode Gerombol Dua Langkah……………… 5. Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Pautan Centroid…………………………………………………………………………………... 6. Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Pautan Centroid…………………………………………………………………………………... 7. Tingkat Kepentingan Peubah Kategorik dari Gerombol Pertama pada Metode Gerombol Dua Langkah…………………………………………………………………................... 8. Tingkat Kepentingan Peubah Kategorik dari Gerombol Kedua pada Metode Gerombol Dua Langkah……………………………………………………………………………… 9. Tingkat Kepentingan Peubah Kategorik dari Gerombol Ketiga pada Metode Gerombol Dua Langkah……………………………………………………………………………… 10.Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Gerombol Dua Langkah……………………………………………………………………………… 11.Tingkat Kepentingan Peubah Kontinu dari Gerombol Kedua pada Metode Gerombol Dua Langkah…………………………………………………………………………….... 12.Tingkat Kepentingan Peubah Kontinu dari Gerombol Ketiga pada Metode Gerombol Dua Langkah……………………………………………………………………………....
Hal 9 10 11 12 12 13 13 14 14 15 15 16
1
PENDAHULUAN Latar Belakang Peneliti dalam studinya biasa memakai beberapa peubah untuk menggambarkan karakteristik populasi yang diteliti. Seringkali, peubah yang digunakan memiliki skala pengukuran yang berbeda, yaitu skala numerik dan kategorik. Dalam penggerombolan jika skala peubah – peubah yang akan digerombolkan memiliki skala pengukuran yang berbeda, peneliti tidak dapat langsung menggunakan metode penggerombolan konvensional baik penggerombolan berhirarki maupun nonhirarki. Diperlukan penanganan khusus atau metode tertentu untuk menggerombolkan peubah yang memiliki skala campuran. Metode alternatif untuk mengatasi masalah perbedaan skala pengukuran adalah metode transformasi Komponen Utama Nonlinier. Metode ini menghasilkan skor komponen obyek yang berskala rasio atau berjenis data numerik, sehingga dapat dianalisis menggunakan analisis penggerombolan. Pada penelitian terdahulu mengenai AKU Nonlinier dikatakan bahwa AKU nonlinier tidak dapat mentransformasi nilai data yang nilainya diatas 10000 (Anonim 2005). Metode lainnya adalah metode penggerombolan dua langkah. Metode ini bertujuan untuk mengatasi masalah perbedaan skala pengukuran dalam penggerombolan, tanpa harus melakukan transformasi terhadap data. Tujuan Studi ini bertujuan untuk membandingkan metode penggerombolan jika peubah yang akan digerombolkan berskala campuran. Metode yang dibandingkan yaitu penggerombolan pautan centroid dengan transformasi Komponen Utama Nonlinier dan Metode Penggerombolan Dua Langkah.
TINJAUAN PUSTAKA Analisis Gerombol Analisis gerombol merupakan suatu analisis statistika peubah ganda yang digunakan untuk mengelompokan objek pengamatan menjadi beberapa gerombol berdasarkan ukuran kemiripan antar objek, sehingga objek – objek yang berada dalam satu gerombol memiliki kemiripan yang lebih
besar dibandingkan objek dari gerombol yang berbeda (Johnson & Wichern 1992). Salah satu ukuran jarak yang paling umum dipakai dalam analisis gerombol adalah ukuran jarak Euclid yang didefinisikan sebagai berikut
dimana: dij = jarak objek ke-i dengan objek ke-j xi1 = nilai objek ke-i pada peubah ke-1 xj1 = nilai objek ke-j pada peubah ke-1 p = banyaknya peubah yang diamati Secara umum terdapat dua metode penggerombolan, yaitu metode berhirarki dan metode tidak berhirarki. Metode berhirarki mengelompokkan dua atau lebih objek yang mempunyai kesamaan paling dekat, kemudian proses diteruskan ke objek lain yang mempunyai kedekatan kedua. Metode tak berhirarki dimulai dengan menentukan terlebih dahulu jumlah gerombol yang diinginkan sehingga sifat pengelompokkannya tidaklah alamiah karena dikondisikan untuk jumlah kelompok tertentu. Metode Pautan Centroid Metode ini merupakan metode penggerombolan berhirarki. Pada metode ini jarak antara dua gerombol didefinisikan sebagai jarak antar centroid gerombol kedua gerombol tersebut. Centroid gerombol adalah nilai tengah observasi pada variabel dalam suatu set variabel gerombol. Keuntungan metode ini adalah tidak terlalu dipengaruhi oleh pencilan. Jarak centroid didefinisikan sebagai berikut
dengan: cent(wi,wj) = jarak centroid gerombol i dan j. Ni = jumlah objek gerombol ke-i. = jumlah objek gerombol ke-j. Nj dm = jarak antara objek ke-m dalam gerombol i dengan centroidnya. dn = jarak antara objek ke-n dalam gerombol j dengan centroidnya. Analisis Komponen Utama Nonlinier Metode ini digunakan untuk mengatasi perbedaan skala pengukuran sebelum dilakukan penggerombolan. Analisis Komponen Utama Nonlinier merupakan pengembangan dari Analisis Komponen Utama dan biasa juga disebut Princals (Principal Component Analysis by Alternating Least Square) atau Analisis Komponen Utama
2
dengan menggunakan pendekatan alternating least squares (Gifi 1990). Apabila terdapat suatu data yang dibentuk ke dalam matriks H yang berukuran n x m, maka untuk memudahkan perhitungan Analisis Komponen Utama Nonlinier dipakai notasi: n = banyak pengamatan (obyek) ; i = 1, …, n. m = banyak peubah. kj = banyak kategori pada peubah ke-j ; j = 1, … , m. hj = vektor kolom ke-j dari matriks H berukuran n x 1. Gj = matriks indikator dari hj berukuran nxkj. dengan: !"#$ %&! # # #$ %'" #
- !"#$ %&! # # #$ %'" #
" & '$ $ $($) ' $'" * +&$, !
" " $# & '$ $ $($) ' $'" * +&$, !
i = 1, 2, … , n ; r = 1, 2, …, kj. /
/ / 0 / 0 /
& '+#+'$
.
#
/ merupakan matriks yang berisi frekuensi dari tiap kategori pada setiap peubah. / dikatakan lengkap apabila dari setiap baris pada / mempunyai satu unsur bernilai satu dan lainnya 0. Model Analisis Komponen Utama Nonlinier adalah sebagai berikut 1
2$ 2
2
dimana i = 1,2,…,n; j = 1,2,…,m; s = 1,2,…,p. Analisis Komponen Utama Nonlinier didasarkan pada teori meet loss yang bertujuan untuk meminimumkan fungsi homogeneity loss 34 : 34 5 6 7 )8
5
/6 9 5
/6
dengan normalisasi AVE(xs) = 0 untuk dimensi s = 1, …, p dan 595 :. AVE(xs) adalah vektor yang merupakan rata – rata kolom dari elemen matriks xs. Notasi 34 digunakan karena 34 5 6 - yang berimplikasi pada nilai ranking / paling sedikit p. Algoritma alternating least squares untuk meminimumkan 34 adalah, 6 ; <8 / =5 >;
GRAM(Z)
=
/6
5 ; /?@A > matriks orthogonal dari orthogonalisasi GramSchmidt.
algoritma diatas juga menghitung dimensi dari ranking pertama p dari analisis kehomogenan secara simultan (Gifi 1990). Analisis Gerombol Dua Langkah Metode ini digunakan untuk mengatasi masalah skala pengukuran peubah yang berbeda, yaitu skala numerik dan skala kategorik. Jarak antar gerombol didefinisikan sebagai jarak dari vektor centroid masing – masing peubah yang terdapat dalam suatu gerombol. Jarak yang digunakan dalam metode analisis gerombol dua langkah adalah jarak Log-Likelihood dan jarak Euclid. Jarak Log-Likelihood dapat digunakan untuk peubah numerik dan kategorik. Jarak Log-Likelihood didefinisikan sebagai berikut (Rong Liu 2005), < @B CDE F @ CDE F B CDE F @B G
QL R
3KL R
H
I
O
L
R R
CDE J
TUR TUR
SL
SL
3KL IM N 3KL I
QV L R
M
O
L
CDE J
3KL IM N P 3KL M
dengan : log L(A) = log likelihood dari gerombol A AB = gerombol baru kombinasi gerombol AB S U 5 = untuk setiap y elemen X Penggerombolan dua langkah terdiri dari penggerombolan langkah awal dan penggerombolan optimal. Penggerombolan langkah awal dimulai dengan pembentukan Clustering Feature Tree (CF Tree). Selanjutnya, hasil dari CF Tree dipakai dalam penentuan gerombol optimal. Suatu gerombol dikatakan optimal apabila memiliki jarak antar gerombol paling jauh dan jarak antar objek paling dekat. Gerombol optimal diperoleh setelah melakukan penghitungan terhadap nilai AIC (Akaike’s Information Criterion) dan BIC (Bayesian Information Criterion). Hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol awal. Langkah kedua adalah mencari peningkatan jarak terbesar antara dua gerombol terdekat pada masing –masing tahapan penggerombolan. Jumlah gerombol optimal diperoleh berdasarkan ketentuan diperolehnya perbedaan yang nyata pada rasio perubahan jarak gerombol. Rasio perubahan gerombol dihitung dengan menggunakan rumus
3 ? # W? # dengan : R(k1) = rasio perubahan jarak terbesar pertama R(k2) = rasio perubahan jarak terbesar kedua dan rumus R(k) sebagai berikut ? # X8 Y X ( (X X X8 dengan : R(k) = rasio perubahan jarak lv = (mvlog n – BICv)/2 v = k, k-1 dk-1 = jarak jika k gerombol digabungkan dengan k-1 gerombol Jika rasio perubahan lebih besar dari batas c2 , jumlah gerombol optimum ditetapkan sama dengan k1, selainnya jumlah gerombol optimal sama dengan maksimum {k1,k2}. Nilai c2 = 1.15, berdasarkan studi simulasi (Bacher et al 2004). Keragaman Gerombol Pada dasarnya pada penggerombolan terdapat dua keragaman, yaitu, keragaman dalam gerombol dan keragaman antar gerombol. Beberapa definisi keragaman yaitu (Lathifaturrahmah 2010), 1. Keragaman antar gerombol ^
ZZB
2.
[\
ZZa
^
<
[\
SSW = Sum of Square Within Cluster dengan : xij = objek ke-i gerombol ke-j [\ = rata-rata objek pada gerombol j k = banyaknya gerombol nj = banyaknya objek gerombol ke-j Hasil penggerombolan yang baik adalah jika objek dalam gerombol yang sama memiliki keragaman yang rendah sedangkan objek antar gerombol memiliki tingkat keragaman yang tinggi. Dengan kata lain, objek dalam satu gerombol memiliki tingkat kemiripan yang tinggi dan objek berbeda gerombol memiliki tingkat kemiripan yang rendah (Serban & Grigoreta 2006).
bcd f bcd ee
dengan :
2.
e e
3.
g
f
bhi eXe
=
X
jj
= jarak antar kelompok ci,cj. = X = jarak dalam kelompok ck. Nilai terbesar dari D diambil sebagai jumlah optimum kelompok. Indeks Davies-Bouldin (DB)
=
bhi J g
dengan: n
]
SSB = Sum of Square Between Cluster dengan : ] = rata-rata total seluruh objek = `X ` ^ _ nj = banyaknya objek gerombol ke-j [\ = rata-rata objek pada gerombol j Keragaman dalam gerombol X
Validitas Gerombol Uji validitas cluster digunakan untuk mengevaluasi hasil dari analisis cluster secara kuantitatif sehingga dihasilkan kelompok optimum. Kelompok optimum adalah kelompok yang mempunyai jarak yang padat antar individu dalam kelompok dan terisolasi dari kelompok lain dengan baik (Dubes & Jain 1988). Indeks yang biasa dijadikan tolok ukur dalam pengujian validitas cluster antara lain, 1. Indeks Dunn (D)
=
N
= jumlah kelompok = jarak antar kelompok ci dan cj. = = jarak dalam kelompok X ck. Nilai indeks DB yang kecil menunjukan kelompok yang baik. Indeks Scattering Dissimilarity (SD) Dasar dari indeks SD adalah rata – rata dari ketersebaran anggota gerombol dan total dari pemisahan gerombol. Rata – rata ketersebaran anggota gerombol didefinisikan sebagai Z $
k
n
l3 m l l3 l
Total pemisahan gerombol adalah <"o
bhi
0 n
bcd
0 n
pm pm
mp mp
n
X
r q
n
g
pm
m pt
s
8
Indeks SD didefinisikan sebagai Z< u\ Z $ <"o dengan : Scatt = Scattering Dis = Dissimilarity Dimana sebagai faktor pembobot yang nilainya sama dengan nilai parameter Dis apabila jumlah gerombol maksimum terpenuhi. Nilai SD yang kecil menunjukan gerombol yang terbentuk tersusun rapat dan terpisah satu sama lain.
4
METODOLOGI
HASIL DAN PEMBAHASAN
Data Data yang digunakan dalam penelitian ini adalah data sekunder, yaitu data hasil survey yang dilakukan oleh rand organization labor and population. Data tersebut merupakan data kesejahteraan penduduk pada daerah – daerah di Provinsi Jawa Barat (Indonesian Life Family Survey 2007). Data tersebut diperoleh dari situs resmi rand organization (www.rand.org). Data tersebut terdiri dari demografi wilayah di Jawa Barat dan karakteristik pekerjaan serta kesejahteraan dari penduduk di wilayah Jawa Barat. Objek yang dijadikan amatan dalam survey ini adalah desa – desa yang berada di Jawa Barat. Metode penarikan contoh yang digunakan dalam survey yang dilakukan oleh rand organization ini adalah pengambilan contoh acak berstrata dengan kota atau kabupaten sebagai stratanya. Peubah yang digunakan dalam penelitian ini sebanyak 19 peubah, 14 peubah kategorik dan 5 peubah kontinu, antara lain luas wilayah, letak pemukiman, bidang pekerjaan, dan peubah lainnya. Keterangan dari peubah yang dipakai dapat dilihat pada Lampiran 1.
Deskripsi Data Data yang digunakan merupakan data sekunder hasil survey yang terdiri dari 19 peubah, 14 peubah kategorik dan 5 peubah kontinu. Keterangan masing – masing peubah dapat dilihat pada Lampiran 1. Daerah yang dijadikan contoh dalam survey tersebut merupakan desa – desa diwilayah Jawa Barat. Wilayah yang dijadikan contoh dapat dilihat pada Gambar 1. Terlihat bahwa desa di Kabupaten Bogor merupakan daerah dengan data contoh yang terbesar.
Metode Langkah – langkah yang digunakan dalam penelitian ini antara lain, 1. Melakukan eksplorasi terhadap data yang digunakan. 2. Melakukan analisis deskriptif untuk menjelaskan data yang digunakan. 3. A) Melakukan transformasi AKU nonlinier terhadap data campuran untuk mendapatkan data skor komponen utama yang berskala rasio. Selanjutnya di lakukan penggerombolan pautan centroid terhadap skor komponen utama. B) Melakukan uji validitas penggerombolan untuk menentukan jumlah gerombol optimum yang dapat diperoleh dari metode pautan centroid. 4. Melakukan penggerombolan dua langkah terhadap data campuran. 5. Membandingkan hasil akhir penggerombolan dari masing – masing metode dan menghitung keragaman penggerombolan yang terbentuk dari masing – masing metode. Metode yang baik yaitu metode yang dapat menjelaskan dan memisahkan objek – objek yang jaraknya berbeda jauh dengan baik sementara objek yang mirip dijadikan sebagai satu gerombol.
Gambar 1 Daerah Contoh Sementara itu, untuk letak wilayah yang dijadikan contoh, sebanyak 65% didaerah yang mudah dijangkau. Sedangkan sebanyak 35% terletak didaerah terpencil (Gambar 2).
Gambar 2 Letak Wilayah Analisis Komponen Utama Nonlinier Analisis Komponen Utama Nonlinier dilakukan pada data yang digunakan, untuk mengubah skala pengukuran campuran menjadi skala pengukuran rasio. Hasil AKU Nonlinier menunjukan bahwa dua komponen utama pada data hasil transformasi hanya dapat menjelaskan 32% keragaman data awal. Untuk dapat mewakili 100% keragaman data awal, digunakan sembilan belas komponen utama (Tabel 1).
5
Tabel 1 Hasil AKU Nonlinier KU akar ciri keragaman kumulatif 1 0.1712 18% 2 0.1374 33% 3 0.0851 42% 4 0.0759 50% 5 0.06 56% 6 0.0552 62% 7 0.051 67% 8 0.0475 72% 9 0.0456 77% 10 0.0453 82% 11 0.0402 86% 12 0.04 90% 13 0.032 93% 14 0.0274 96% 15 0.0182 98% 16 0.011 99% 17 0.0038 100% 18 0.0013 100% 19 -8E-19 100% Hasil akhir Analisis Komponen Utama Nonlinier adalah skor komponen objek ke sembilan belas dimensi yang terbentuk, yang digunakan untuk analisis gerombol. Gerombol Pautan Centroid dengan Transformasi Komponen Utama Nonlinier Hasil dari komponen utama nonlinier berupa nilai skor rasio, digunakan sebagai data yang akan digerombolkan menggunakan metode pautan centroid. Hasil komponen loading AKU Nonlinier dari 19 peubah yang telah ditransformasi dapat dilihat pada Lampiran 2. Tabel 2 Validasi Gerombol Optimum validasi Jumlah Gerombol dunn DB 2 4.078 0.442 3 3.109 0.402 4 2.525 0.400 5 2.483 0.400 6 1.625 0.333 7 1.628 0.363 8 1.632 0.381 9 1.635 0.394 10 1.657 0.450 11 1.660 0.458 12 1.691 0.482 13 1.693 0.488 14 1.696 0.493 15 1.712 0.536
SD 1.988 2.006 2.022 2.010 1.172 1.173 1.171 1.173 1.648 1.648 2.385 2.388 2.390 3.450
Penggerombolan centroid menghasilkan dua gerombol. Gerombol pertama terdiri dari 520 objek, sementara gerombol kedua hanya memiliki dua objek saja. Dua gerombol merupakan solusi gerombol optimum yang dihasilkan oleh metode centroid (Tabel 2). Dari Tabel 2 terlihat bahwa pada jumlah gerombol dua memiliki nilai indeks Dunn terbesar dibandingkan jumlah gerombol lainnya. Sementara itu, nilai indeks Davies dan SD-nya relatif kecil bila dibandingkan dengan jumlah gerombol lain. Tabel 3 Distribusi Hasil Penggerombolan Gerombol N % Total 1 520 99.62% 2 2 0.38% Total 522 100% Gerombol 1 Dari Tabel 3 terlihat bahwa gerombol satu memiliki 520 anggota dengan peubah yang mendasari penggerombolan yaitu peubah tipe jalan, letak area, rumah tangga penerima beras miskin (raskin) dan keberadaan pabrik. Dimana desa pada gerombol ini umumnya memiliki tipe jalan aspal dan program raskin terdapat diseluruh desa yang menjadi anggota pada gerombol ini. Peubah rumah tangga penerima raskin merupakan peubah yang membedakan desa digerombol satu dengan desa digerombol dua karena desa pada gerombol dua tidak ada rumah tangga yang menerima raskin. Keterangan kepentingan dari peubah – peubah untuk gerombol satu dapat dilihat pada Lampiran 5 Gerombol 2 Gerombol dua hanya memiliki dua anggota. Hal ini dikarenakan desa pada objek amatan ini berbeda dengan desa pada gerombol satu berdasarkan pada peubah program raskin. Kedua desa tersebut tidak pernah mendapat bantuan program raskin dari pemerintah. Kedua desa ini terletak di Bogor. Selain peubah program raskin yang mempengaruhi dasar penggerombolan pada gerombol dua, peubah penghasilan non-tani pria, tipe jalan dan sumber air rumah tangga juga turut mempengaruhi proses pembentukan gerombol pada gerombol dua. Keterangan kepentingan dari peubah – peubah untuk gerombol dua dapat dilihat pada Lampiran 6. Gerombol Dua Langkah Ukuran jarak yang digunakan dalam gerombol dua langkah adalah jarak Loglikelihood, karena data yang digunakan
6
bertipe kategorik dan kontinu. Dalam penentuan jumlah gerombol digunakan nilai BIC. Gerombol yang dihasilkan pada tahap pertama sebanyak enam gerombol. Hal ini terlihat dari nilai rasio perubahan BIC yang pertama kali lebih kecil dari 0.04 (Tatara et.al dalam Bacher 2004). Pada gerombol enam, nilai dari rasio tersebut sebesar 0.028. Sedangkan untuk menentukan gerombol optimal ditentukan dari rasio perhitungan jarak antara dua gerombol terbesar. Pada Lampiran 3, nilai rasio perhitungan jarak terbesar pertama adalah 2.638 dan rasio terbesar kedua adalah 1.307. Rasio antar kedua gerombol tersebut adalah 2.018 dan lebih besar dari batas konstanta c2 = 1.15. Oleh karena itu, dalam kasus ini tiga gerombol merupakan solusi optimum. Distribusi dari anggota populasi dapat dilihat pada Tabel 4. Tabel 4 Distribusi Hasil Penggerombolan Gerombol N % Total 1 164 31.4% 2 239 45.8% 3 119 22.8% Total 522 100% Gerombol 1 Gerombol satu memiliki 164 anggota dengan peubah kategorik yang paling berpengaruh yang mendasari penggerombolan yaitu penghasilan bertani penduduk wanita dan penghasilan bertani penduduk pria sementara peubah kontinu yang berpengaruh adalah peubah rumah tangga penerima raskin dan peubah rumah tangga penerima Bantuan Langsung Tunai (BLT). Keterangan kepentingan dari peubah – peubah untuk gerombol satu dapat dilihat pada Lampiran 7 dan 10. Desa pada gerombol satu umumnya terletak didaerah urban, yaitu sebanyak 146 desa, dan sisanya sebanyak 18 desa terletak didaerah rural. Pekerjaan utama yang banyak dijadikan profesi oleh penduduknya adalah dibidang industri dan perdagangan. Tidak terdapat satu orang pun penduduk desa digerombol ini, baik pria maupun wanita, yang bekerja dibidang pertanian. Ciri menonjol lainnya adalah jumlah rumah tangga yang menerima raskin dan menerima BLT lebih sedikit jika dibandingkan desa digerombol dua dan tiga, bahkan ada desa yang tidak menerima bantuan raskin. Anggota desa gerombol ini umumnya berasal dari Bandung, Kabupaten Bandung, Bogor, Bekasi, Depok dan Cirebon.
Gerombol 2 Gerombol dua memiliki jumlah anggota paling banyak yaitu 239 anggota, dengan peubah kategorik yang paling berpengaruh yaitu peubah penghasilan non-tani pria dan keberadaan pabrik sementara peubah kontinu tidak ada yang berpengaruh. Keterangan kepentingan dari peubah – peubah untuk masing – masing gerombol dapat dilihat pada Lampiran 8 dan 11. Ciri utama anggota desa pada gerombol dua yaitu terdapat pabrik disemua desa. Dari 239 anggota gerombol, 143 desa terletak didaerah urban dan 96 desa terletak didaerah rural. Pekerjaan penduduk desa anggota gerombol dua didominasi oleh bidang industri dan pertanian. Penduduk prianya banyak yang berprofesi sebagai petani sementara penduduk wanitanya banyak yang menjadi buruh pabrik. Hal ini terlihat dari penghasilan bertani penduduk pria yang nilainya selalu ada disetiap objek dan penghasilan non-tani wanita yang nilainya juga selalu ada disetiap objek. Anggota desa gerombol dua umumnya berasal dari Kabupaten Bogor, Kabupaten Bekasi, Karawang, Cianjur, Sukabumi, Kabupaten Sukabumi, dan Subang. Gerombol 3 Gerombol tiga memiliki 119 anggota dengan peubah kategorik yang mendasari penggerombolan yaitu keberadaan pabrik dan penghasilan non-tani pria maupun wanita sementara peubah kontinu tidak ada yang berpengaruh. Keterangan kepentingan dari peubah – peubah untuk gerombol satu dapat dilihat pada Lampiran 9 dan 12. Desa pada gerombol tiga memiliki ciri utama yaitu disemua desa anggotanya tidak terdapat pabrik. Pekerjaan utama penduduk didesa gerombol tiga adalah petani. Sebagian besar penduduk pria didesa anggota gerombol tiga adalah petani dan penduduk wanitanya pada umumnya juga bekerja sebagai petani. Pekerjaan lain yang terdapat didesa gerombol tiga adalah pedagang. Letak daerah desa gerombol tiga adalah sebanyak 52 desa terletak didaerah urban dan 67 desa terletak didaerah rural. Sebagian anggota gerombol tiga terdapat desa yang jalan utamanya tidak dapat atau sukar dilalui oleh kendaraan. Anggota desa gerombol ini umumnya berasal dari Ciamis, Cimahi, Kabupaten Tasikmalaya, Sumedang, Majalengka, Kuningan, dan Purwakarta.
7
Perbandingan Hasil Gerombol Dari kedua metode yang digunakan untuk mengatasi masalah penggerombolan dengan data campuran, masing – masing metode menghasilkan keragaman yang berbeda, baik keragaman antar gerombol maupun keragaman dalam gerombol. Perbandingan keragaman gerombol untuk setiap metode yang digunakan dapat dilihat pada Tabel 5.
Saran Saran untuk penelitian selanjutnya adalah membandingkan antara metode gerombol dua langkah dengan pendekatan penggerombolan lainnya menggunakan transformasi AKU Nonlinier dengan menggunakan data simulasi.
Tabel 5 Perbandingan Keragaman Gerombol Metode Gerombol Keragaman AKU Dua Nonlinier Langkah Dalam Gerombol 179227.616 177687.283
Anonim. 2005. Penggunaan Transformasi AKU Nonlinier dalam Data Campuran. http://www.topstats.com/~doc/465746. html. [16 Juni 2010] Bacher J, Wenzig K, Vogler M. 2004. SPSS Two Step Cluster – A First Evaluation. http://www.statisticalinnovations.com/p roducts/Two Step.pdf. [8 Juni 2010] BPS. 2008. Jawa Barat dalam Angka 2007. Badan Pusat Statistik : Jakarta. Dubes & Jain, A.K. 1988. Algorithm for Clustering Data. Prentice Hall : New Jersey. Gifi, A. 1990. Nonlinear Multivariate Analysis. Chichester : John Wiley & Sons. Johnson, R.A. & Wichern, D.W. 1992. Applied Multivariate Statistical Analysis. Edisi-3. New Jersey : Prentice Hall Inc. Jolliffe, I.T. 2002. Principal Component Analysis. Second Edition. New York : Springer-Verlag. Lathifathurrahmah. 2010. Perbandingan Hasil Penggerombolan Metode K-Means, Fuzzy K-Means, dan Two Step Cluster [Tesis]. Bogor : Fakultas Matemetika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor Liu, R. 2005. The SPSS Two-Step Cluster. Departement of Mathematics : University of North Texas. Serban, G. & Grigoreta, S.M. 2006. A Comparison of Clustering Techniques In Aspect Mining. Studia Univ.BabesBolyai. Timm, N.H. 2002. Applied Multivariate Analysis. New York : Springer.
Antar Gerombol Rasio
145489.014 1.2319
425792.260 0.4173
Dari Tabel 5 dapat dilihat bahwa metode gerombol dua langkah menghasilkan keragaman dalam gerombol yang lebih kecil dibandingkan dengan AKU Nonlinier sementara keragaman antar gerombolnya lebih besar. Apabila dirasiokan antara keragaman dalam dengan keragaman antar gerombol, metode gerombol dua langkah menghasilkan rasio sebesar 0.4173 sementara metode pautan centroid transformasi AKU Nonlinier menghasilkan rasio sebesar 1.2319. Hal ini menjelaskan bahwa metode gerombol dua langkah lebih baik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier untuk kasus ini.
SIMPULAN DAN SARAN Simpulan Metode gerombol dua langkah dapat menjelaskan hasil penggerombolan yang lebih baik dan lebih spesifik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier dan keragaman penggerombolan untuk jumlah gerombol optimum yang lebih baik juga. Hal ini menjelaskan bahwa metode gerombol dua langkah lebih baik dibandingkan metode pautan centroid dengan transformasi AKU Nonlinier. Gerombol optimum yang dihasilkan metode gerombol dua langkah adalah tiga gerombol sementara gerombol optimum yang dihasilkan metode pautan centroid dengan transformasi AKU Nonlinier adalah dua gerombol.
DAFTAR PUSTAKA
8
LAMPIRAN
9
Lampiran 1 Peubah
Peubah – peubah yang Digunakan dalam Analisis Gerombol Keterangan
Tipe Peubah
X1
Letak Pemukiman
Kategorik
X2
Luas Daerah
Numerik
X3
Bidang Pekerjaan I
Kategorik
X4
Bidang Pekerjaan II
Kategorik
X5
Bidang Pekerjaan III
Kategorik
Satuan 1 : Urban 2 : Rural Hektar
1 : Pertanian 2 : Tambang 3 : Industri 4 : Listrik,Gas,Air 5 : Konstruksi 6 : Pedagang Besar, Restoran 7 : Transportasi, Gudang, Komunikasi 8 : Keuangan, Insuransi, Pinjaman 9 : Pekerja Sosial 10 : Lainnya
X6
Tipe Jalan
Kategorik
X7
Status Jalan
Kategorik
X8
Ketersediaan Listrik
Kategorik
X9
RT Pemakai Listrik
Numerik
X10
Sumber Air RT
Kategorik
X11
Keberadaan Pabrik
Kategorik
X12
Program Raskin
Kategorik
X13
RT Penerima Raskin
Numerik
1 : Aspal 2 : jalan batu 3 : jalan tanah 8 : Sungai atau laut 1 : lewat kendaraan 2 : tidak 1 : ada 2 : tidak ada Persen 2 : air pompa 3 : air sumur 4 : mata air 6 : air sungai 11 : pipa air 12 : pipa air dari hydrant 13 : pipa air dari PAM 99 : tidak tahu 1 : ada 2 : tidak ada 1 : ada 2 : tidak ada Persen
X14
Jumlah Raskin yang diterima RT
Numerik
Kilogram
Numerik
Persen
X15 X16 X17 X18 X19
RT Penerima BLT Penghasilan Bertani Penduduk Pria Penghasilan Bertani Penduduk Wanita Penghasilan Non-tani Penduduk Pria Penghasilan Non-tani Penduduk Wanita
Kategorik Kategorik Kategorik Kategorik
1 : ada 2 : tidak ada 3 : tidak tahu
10
Lampiran 2
Nilai Komponen Loading Analisis Komponen Utama Nonlinier
X1 0.318 0.01 0.143 0.061 0 0.031 0 0.001 0.003 0.007 0 0.076 0.181 0.167 0.001 0 0 0 0
X2 0.667 0.635 0.711 0.679 0.7 0.622 0.653 0.589 0.785 0.676 0.68 0.674 0.687 0.644 0.698 0.669 0.691 0.641 0.612
X3 0.437 0.071 0.155 0.037 0.012 0.009 0.069 0.03 0.078 0.023 0.011 0.096 0.026 0.328 0.02 0.006 0.031 0.012 0.02
X4 0.093 0.061 0.048 0.089 0.332 0.017 0.015 0.079 0.331 0.08 0.031 0.048 0.035 0.019 0.019 0.007 0.026 0.018 0.012
X5 0.031 0.062 0.059 0.044 0.277 0.162 0.173 0.132 0.021 0.066 0.038 0.128 0.01 0.049 0.015 0.014 0.027 0.02 0.016
X6 0.099 0.002 0.096 0.193 0.022 0.024 0.123 0.06 0.023 0.005 0.063 0.275 0.024 0.024 0.002 0.003 0.001 0 0.029
X7 0.047 0.009 0 0.055 0.063 0.259 0.022 0.41 0.002 0.106 0.002 0.024 0 0.001 0 0.001 0 0 0
X8
KU1 KU2 KU3 KU4 KU5 KU6 KU7 KU8 KU9 KU10 KU11 KU12 KU13 KU14 KU15 KU16 KU17 KU18 KU19
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
X9 0.2 0.04 0.05 0.337 0.111 0.072 0.08 0.07 0.056 0.055 0.063 0.102 0.31 0.056 0.028 0.044 0.028 0.05 0.081
KU1 KU2 KU3 KU4 KU5 KU6 KU7 KU8 KU9 KU10 KU11 KU12 KU13 KU14 KU15 KU16 KU17 KU18 KU19
X11 0.405 0.423 0.024 0.018 0.003 0.003 0.007 0.008 0.001 0.002 0.001 0.003 0.001 0.001 0 0.082 0.019 0 0
X12 0.002 0.003 0.021 0.156 0.104 0.043 0.344 0.032 0.019 0.206 0.033 0.036 0 0.001 0 0 0 0 0
X13 0.286 0.297 0.432 0.137 0.137 0.094 0.117 0.084 0.145 0.136 0.143 0.101 0.116 0.112 0.367 0.065 0.089 0.058 0.097
X14 0.113 0.115 0.16 0.044 0.067 0.177 0.02 0.048 0.027 0.137 0.364 0.046 0.039 0.049 0.123 0.023 0.011 0.005 0.038
X15 0.23 0.254 0.46 0.227 0.143 0.119 0.226 0.119 0.131 0.195 0.243 0.104 0.132 0.122 0.287 0.081 0.07 0.064 0.09
X16 0.443 0.253 0.041 0.172 0.002 0.002 0.025 0.009 0.003 0.008 0.003 0.05 0.029 0.013 0.005 0.01 0.012 0.018 0.01
X17 0.451 0.244 0.043 0.176 0.002 0.002 0.027 0.007 0.003 0.007 0.002 0.051 0.029 0.011 0.005 0.011 0.012 0.02 0.01
X18 0.337 0.575 0.038 0.01 0.004 0.003 0.005 0.007 0.002 0.002 0.003 0.012 0 0.002 0.002 0.135 0.258 0 0.003
X19 0.32 0.552 0.027 0.008 0 0.002 0.004 0.004 0.003 0.001 0.004 0.004 0 0.003 0.002 0.122 0.504 0 0.001
X10 0.182 0.045 0.037 0.025 0.121 0.343 0.182 0.156 0.008 0.158 0.067 0.042 0.02 0.023 0.014 0.008 0.03 0.003 0.021
11
Lampiran 3
Jumlah Gerombol
Tabel Rasio Perubahan BIC (Bayesian Information Criterion)
Nilai BIC
Perubahan BIC
Rasio Perubahan BIC
Rasio Pengukuran Jarak
1
14252.139
2 3 4 5 6
13093.358 12082.607 11917.143 11793.845 11761.272
-1158.781 -1010.751 -165.464 -123.298 -32.573
1.000 .872 .143 .106 .028
1.109 2.638 1.089 1.237 1.153
7 8 9 10
11779.415 11857.624 11961.885 12123.995
18.143 78.209 104.261 162.110
-.016 -.067 -.090 -.140
1.221 1.106 1.307 1.015
11 12 13 14 15
12288.883 12454.265 12633.004 12834.064 13038.371
164.888 165.381 178.739 201.060 204.307
-.142 -.143 -.154 -.174 -.176
1.003 1.078 1.149 1.022 1.034
12
Lampiran 4
Ukuran Masing-masing Gerombol Pada Metode Gerombol Dua Langkah
Lampiran 5
Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Pautan Centroid
13
Lampiran 6
Tingkat Kepentingan Peubah Kontinu dari Gerombol Kedua pada Metode Pautan Centroid
Lampiran 7
Tingkat Kepentingan Peubah Kategorik dari Gerombol Pertama pada Metode Gerombol Dua Langkah
14
Lampiran 8
Tingkat Kepentingan Peubah Kategorik dari Gerombol Kedua pada Metode Gerombol Dua Langkah
Lampiran 9
Tingkat Kepentingan Peubah Kategorik dari Gerombol Ketiga pada Metode Gerombol Dua Langkah
15
Lampiran 10
Tingkat Kepentingan Peubah Kontinu dari Gerombol Pertama pada Metode Gerombol Dua Langkah
Lampiran 11
Tingkat Kepentingan Peubah Kontinu dari Gerombol Kedua pada Metode Gerombol Dua Langkah
16
Lampiran 12
Tingkat Kepentingan Peubah Kontinu dari Gerombol Ketiga pada Metode Gerombol Dua Langkah