PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi adalah karya saya sendiri dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir tesis ini.
Bogor, September 2006
Kudsiati NIM G151020151
ABSTRAK KUDSIATI. Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi. Dibimbing oleh BAMBANG JUANDA dan ITASIA DINA SULVIANTI. Algoritma analisis gerombol seperti metode penggerombolan hirarki dan krataan tidak dapat menangani peubah (atribut) campuran kategorik dan numerik, serta penentuan banyaknya gerombol. Metode TwoStep Cluster (Chiu et al. 2001) dapat menangani peubah campuran kategorik dan numerik dan penentuan banyaknya gerombol secara objektif (otomatis). Penelitian ini mengevaluasi keakuratan TwoStep Cluster dalam menghasilkan banyaknya gerombol dan ukuran gerombol yang sama dengan populasi yang sebenarnya. Perbandingan struktur gerombol dalam populasi hipotetik dengan hasil penduga banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dapat diperoleh dengan studi simulasi. Algoritma TwoStep Cluster sangat akurat dalam menduga banyaknya gerombol dan sebaran ukuran gerombol sebenarnya jika semua peubah kontinu. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah numerik meningkatkan keakuratan TwoStep Cluster dalam menduga banyaknya gerombol, bilamana peubah kriteria penggerombolan merupakan peubah campuran. Selain itu TwoStep Cluster juga sangat akurat dalam menghasilkan gerombol yang sama dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis.
PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
Tesis sebagai salah satu syarat memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
Judul Tesis : Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi Nama : Kudsiati NIM : G151020151
Disetujui Komisi Pembimbing
Dr. Ir. Bambang Juanda, M.S. Ketua
Ir. Itasia Dina Sulvianti, M.Si. Anggota
Diketahui
Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr. Ir. Aji Hamim Wigena, M.Sc.
Prof. Dr. Ir. Khairil A. Notodiputro, M.S.
Tanggal Ujian : 21 September 2006
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas rahmat dan karuniaNya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih dalam penelitian ini adalah Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi. Terima kasih penulis sampaikan kepada berbagai pihak yang telah membantu penyelesaian karya ilmiah ini, antara lain : 1. Bapak Dr. Ir. Bambang Juanda, M.S. dan Ibu Ir. Itasia Dina Sulvianti, M.Si. atas segala bimbingan dan arahannya. 2. Suami Satrio Wiseno serta anak tercinta Haikal Fadlurrahman, atas doa dan dukungan yang telah memperlancar selesainya karya ilmiah ini. 3. Seluruh Staf Departemen Statistika IPB, atas kesempatan dan ilmu yang diberikan selama penulis menuntut ilmu di Departemen Statistika IPB. 4. Rekan-rekan di GRP, terima kasih atas bantuan yang telah diberikan kepada penulis. Akhirnya sebagaimana manusia yang tidak pernah luput dari kesalahan, penulis mohon maaf apabila ada kesalahan dalam penulisan ini dan semoga karya ilmiah ini dapat bermanfaat.
Bogor, September 2006
Kudsiati
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 26 Agustus 1964, anak kedelapan dari 11 bersaudara, dari ayah H.Usman (Alm) dan ibu Hj. Tarbiah. Tahun 1987 penulis lulus dari program sarjana IPB Jurusan Statistika. Pada tahun 2002 penulis diterima pada Program Pascasarjana IPB Program Studi Statistika. Pada tahun 1988 s/d 2000 penulis bekerja di Bank Duta dan sejak bulan Januari 2001 sampai saat ini bekerja pada PT. Grup Riset Potensial.
vi
DAFTAR ISI Halaman
DAFTAR TABEL............................................................................................... viiii DAFTAR GAMBAR ..............................................................................................ix PENDAHULUAN....................................................................................................1 Latar Belakang .....................................................................................................1 Tujuan Penelitian..................................................................................................2 TINJAUAN PUSTAKA...........................................................................................4 Metode Penggerombolan Berhirarki....................................................................5 Metode Penggerombolan K-rataan......................................................................6 TwoStep Cluster ...................................................................................................7 1. Penggerombolan Awal (Pre-Clustering) ....................................................7 2. Penggerombolan Individu Objek ( Step 2 Cluster)...................................11 3. Konsep Jarak .............................................................................................11 4. Penentuan Banyaknya Gerombol..............................................................12 5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan...13 BAHAN DAN METODE ......................................................................................15 Bahan..................................................................................................................15 Model Populasi Hipotetik ..............................................................................15 Model Komposisi Peubah yang Dianalisis .....................................................16 Data Hipotetik ................................................................................................17 Metode ................................................................................................................19 Metode Pembangkitan Data ...........................................................................19 Prosedur Pembangkitan Data .........................................................................23 Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan ........................24 Metode Analisis ..............................................................................................25 Prosedur dan Pelaksanaan Percobaan ............................................................26
vii
Halaman HASIL DAN PEMBAHASAN ..............................................................................28 Kasus Data Homogen.........................................................................................28 Kasus Data Berasal dari Populasi yang Terbedakan..........................................30 Kasus Populasi yang Saling Tumpang Tindih ...................................................34 Perbandingan dengan Metode Hirarki dan K-rataan..........................................39 SIMPULAN DAN SARAN ...................................................................................45 Simpulan.............................................................................................................45 Saran...................................................................................................................45 DAFTAR PUSTAKA ............................................................................................47 LAMPIRAN ...........................................................................................................50 Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS..........................51 Lampiran 2. Jarak penggabungan dengan metode hirarki..................................59
viii
DAFTAR TABEL Halaman Tabel 1. Kombinasi parameter model data hipotetik yang akan dibangkitkan----- 18 Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen -------------------------------- ----------------------------- 29 Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen -------------------------------- -------------------------------- -- 30 Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan ------------------------------- 32 Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan ------------------------------- 33 Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan ------------------------------------ 35 Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih -------------------------- 36 Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih -------------------------- 37 Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih -------------------------- 38