PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi adalah karya saya sendiri dan belum diajukan dalam bentuk apapun kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir tesis ini.
Bogor, September 2006
Kudsiati NIM G151020151
ABSTRAK KUDSIATI. Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi. Dibimbing oleh BAMBANG JUANDA dan ITASIA DINA SULVIANTI. Algoritma analisis gerombol seperti metode penggerombolan hirarki dan krataan tidak dapat menangani peubah (atribut) campuran kategorik dan numerik, serta penentuan banyaknya gerombol. Metode TwoStep Cluster (Chiu et al. 2001) dapat menangani peubah campuran kategorik dan numerik dan penentuan banyaknya gerombol secara objektif (otomatis). Penelitian ini mengevaluasi keakuratan TwoStep Cluster dalam menghasilkan banyaknya gerombol dan ukuran gerombol yang sama dengan populasi yang sebenarnya. Perbandingan struktur gerombol dalam populasi hipotetik dengan hasil penduga banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dapat diperoleh dengan studi simulasi. Algoritma TwoStep Cluster sangat akurat dalam menduga banyaknya gerombol dan sebaran ukuran gerombol sebenarnya jika semua peubah kontinu. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah numerik meningkatkan keakuratan TwoStep Cluster dalam menduga banyaknya gerombol, bilamana peubah kriteria penggerombolan merupakan peubah campuran. Selain itu TwoStep Cluster juga sangat akurat dalam menghasilkan gerombol yang sama dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis.
PENGKAJIAN KEAKURATAN TWOSTEP CLUSTER DALAM MENENTUKAN BANYAKNYA GEROMBOL POPULASI
KUDSIATI
Tesis sebagai salah satu syarat memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
Judul Tesis : Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi Nama : Kudsiati NIM : G151020151
Disetujui Komisi Pembimbing
Dr. Ir. Bambang Juanda, M.S. Ketua
Ir. Itasia Dina Sulvianti, M.Si. Anggota
Diketahui
Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr. Ir. Aji Hamim Wigena, M.Sc.
Prof. Dr. Ir. Khairil A. Notodiputro, M.S.
Tanggal Ujian : 21 September 2006
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas rahmat dan karuniaNya sehingga karya ilmiah ini berhasil diselesaikan. Judul yang dipilih dalam penelitian ini adalah Pengkajian Keakuratan TwoStep Cluster dalam Menentukan Banyaknya Gerombol Populasi. Terima kasih penulis sampaikan kepada berbagai pihak yang telah membantu penyelesaian karya ilmiah ini, antara lain : 1. Bapak Dr. Ir. Bambang Juanda, M.S. dan Ibu Ir. Itasia Dina Sulvianti, M.Si. atas segala bimbingan dan arahannya. 2. Suami Satrio Wiseno serta anak tercinta Haikal Fadlurrahman, atas doa dan dukungan yang telah memperlancar selesainya karya ilmiah ini. 3. Seluruh Staf Departemen Statistika IPB, atas kesempatan dan ilmu yang diberikan selama penulis menuntut ilmu di Departemen Statistika IPB. 4. Rekan-rekan di GRP, terima kasih atas bantuan yang telah diberikan kepada penulis. Akhirnya sebagaimana manusia yang tidak pernah luput dari kesalahan, penulis mohon maaf apabila ada kesalahan dalam penulisan ini dan semoga karya ilmiah ini dapat bermanfaat.
Bogor, September 2006
Kudsiati
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 26 Agustus 1964, anak kedelapan dari 11 bersaudara, dari ayah H.Usman (Alm) dan ibu Hj. Tarbiah. Tahun 1987 penulis lulus dari program sarjana IPB Jurusan Statistika. Pada tahun 2002 penulis diterima pada Program Pascasarjana IPB Program Studi Statistika. Pada tahun 1988 s/d 2000 penulis bekerja di Bank Duta dan sejak bulan Januari 2001 sampai saat ini bekerja pada PT. Grup Riset Potensial.
vi
DAFTAR ISI Halaman
DAFTAR TABEL............................................................................................... viiii DAFTAR GAMBAR ..............................................................................................ix PENDAHULUAN....................................................................................................1 Latar Belakang .....................................................................................................1 Tujuan Penelitian..................................................................................................2 TINJAUAN PUSTAKA...........................................................................................4 Metode Penggerombolan Berhirarki....................................................................5 Metode Penggerombolan K-rataan......................................................................6 TwoStep Cluster ...................................................................................................7 1. Penggerombolan Awal (Pre-Clustering) ....................................................7 2. Penggerombolan Individu Objek ( Step 2 Cluster)...................................11 3. Konsep Jarak .............................................................................................11 4. Penentuan Banyaknya Gerombol..............................................................12 5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan...13 BAHAN DAN METODE ......................................................................................15 Bahan..................................................................................................................15 Model Populasi Hipotetik ..............................................................................15 Model Komposisi Peubah yang Dianalisis .....................................................16 Data Hipotetik ................................................................................................17 Metode ................................................................................................................19 Metode Pembangkitan Data ...........................................................................19 Prosedur Pembangkitan Data .........................................................................23 Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan ........................24 Metode Analisis ..............................................................................................25 Prosedur dan Pelaksanaan Percobaan ............................................................26
vii
Halaman HASIL DAN PEMBAHASAN ..............................................................................28 Kasus Data Homogen.........................................................................................28 Kasus Data Berasal dari Populasi yang Terbedakan..........................................30 Kasus Populasi yang Saling Tumpang Tindih ...................................................34 Perbandingan dengan Metode Hirarki dan K-rataan..........................................39 SIMPULAN DAN SARAN ...................................................................................45 Simpulan.............................................................................................................45 Saran...................................................................................................................45 DAFTAR PUSTAKA ............................................................................................47 LAMPIRAN ...........................................................................................................50 Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS..........................51 Lampiran 2. Jarak penggabungan dengan metode hirarki..................................59
viii
DAFTAR TABEL Halaman Tabel 1. Kombinasi parameter model data hipotetik yang akan dibangkitkan----- 18 Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen -------------------------------- ----------------------------- 29 Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen -------------------------------- -------------------------------- -- 30 Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan ------------------------------- 32 Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan ------------------------------- 33 Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan ------------------------------------ 35 Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih -------------------------- 36 Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih -------------------------- 37 Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih -------------------------- 38
ix
Halaman Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster----------------------------------------------------------- 40 Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi)------------------------------------------------------------------- 43 Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan yang dihasilkan oleh metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi) ------------------------------------------ 44
DAFTAR GAMBAR Halaman Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster ------------------ 10 Gambar 2. Sebaran Populasi Tunggal, N (0,1) --------------------------------------- 19 Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas---------------- 20 Gambar 4. Sebaran model 2 populasi dengan pemisahan yang tegas---------------- 20 Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas---------------- 21 Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas dan 2 gerombol saling tumpang tindih dengan lainnya ------------------ 22
1
PENDAHULUAN Latar Belakang Dalam riset pemasaran, segmentasi pelanggan merupakan topik yang paling banyak diterapkan. Pada dasarnya segmentasi pelanggan adalah pengelompokan pelanggan baik atas dasar karakteristik individu (sosio-demografik), gaya hidup (life style), psikografik, atau kebutuhan pelanggan (Kotler 2000 serta Kotabe & Helsen 2001). Segmentasi pelanggan merupakan hal yang sangat penting untuk merancang berbagai strategi pemasaran (Porter 1980 & Aaker 2001), karena pada situasi pasar yang kompetitif, jika mengambil pasar yang umum (mass market) maka akan sulit bersaing atau menjadi tidak fokus, sehingga biaya pemasaran yang dikeluarkan menjadi mahal. Selama ini khususnya di Indonesia, alat analisis statistika untuk segmentasi pelanggan yang biasa digunakan adalah analisis gerombol (Kasali 1998 ). Permasalahan utama dalam penerapan analisis gerombol pada data-data riset pemasaran adalah peubah kriteria penggerombolan sebagai dasar segmentasi bersifat kategorik maupun campuran kategorik dan numerik (Aaker & Day 1990), sedangkan algoritma -algoritma analisis gerombol konvensional seperti metode penggerombolan berhirarki (aglomeratif ) dikembangkan untuk peubah-peubah numerik berskala interval atau ordinal, walaupun telah tersedia pilihan berbagai konsep jarak untuk peubah biner seperti konsep jarak Russel & Rao, Simple Matching, Jaccard, Dice, Sokal & Sneeath dan sebagainya (Dillon and Goldstein, 1984). Sementara itu, metode k-rataan (k-means) mensyaratkan peubah kriteria penggerombolan berskala interval. Permasalahan kedua dalam penggunaan analisis gerombol untuk segmentasi pelanggan adalah dalam penentuan banyaknya gerombol. Pada analisis gerombol konvensional, seperi metode berhirarki maupun k-rataan, penentuan banyaknya gerombol sangat ditentukan oleh subyektivitas peneliti, tidak ada uji statistik untuk mengetahui ketepatan banyaknya gerombol yang “pantas” (fit) dengan data yang
2
dianalisis, sehingga hasil segmentasi sangat tergantung dari pengetahuan, pengalaman, serta subyektivitas peneliti (Garson, 2006). Untuk mengatasi kedua permasalahan di atas, SPSS telah me ngembangkan algoritma penggerombolan yang memungkinkan untuk mengolah data campuran kategorik dan kontinu (kuantitatif), serta kriteria statistik yang memungkinkan penentuan banyaknya gerombol secara objektif.
Algoritma tersebut sudah mulai
diimplementasikan pada SPSS versi 11.5 atau yang lebih tinggi dengan nama TwoStep Cluster (SPSS 2001, 2004). Prosedur ini masih belum banyak digunakan sampai saat ini. Pada algoritma penggerombolan, baik metode berhirarki aglomeratif maupun metode tak berhirarki (k-rataan) mempunyai beberapa permasalahan yang telah diketahui secara luas (misalnya, Bacher 2000: 223; Everitt et al. 2001: 94-96; Huang 1998: 288), sedangkan TwoStep Cluster dapat menyelesaikan beberapa dari permasalahan yang ditimbulkan pada metode-metode sebelumnya. Lebih tepatnya, atribut tipe campuran dapat ditangani dan banyaknya gerombol dapat ditentukan secara otomatis. Namun
demikian,
kemampuan
algoritma
TwoStep
Cluster
dalam
mengidentifikasi banyaknya gerombol secara akurat dan tingkat salah klasifikasi penggerombolan belum banyak ditelaah oleh para peneliti di Indonesia. Bahkan metode ini belum banyak diterapkan di kalangan peneliti pemasaran di Indonesia.
Tujuan Penelitian Penelitia n ini bertujuan untuk melakukan evaluasi terhadap keakuratan algoritma TwoStep Cluster dalam mengidentifikasi banyaknya gerombol populasi yang sebenarnya. Secara rinci, penelitian ini bertujuan untuk menjawab hal-hal berikut : 1. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang terlibat semuanya bersifat kontinu.
3
2. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang terlibat semuanya bersifat kategorik. 3. Seberapa baik algoritma TwoStep Cluster mampu mengidentifikasi karakteristik gerombol sebenarnya yang terdapat di populasi, pada kasus peubah-peubah yang terlibat merupakan campuran kategorik dan kontinu. 4.
Seberapa baik algoritma TwoStep Cluster dibandingkan dengan metode hirarki dan k-rataan dalam mendeteksi gerombol sebenarnya yang terdapat di populasi.
4
TINJAUAN PUSTAKA Analisis gerombol dalam bidang riset pemasaran sering diistilahkan sebagai analisis segmentasi, merupakan alat statistika peubah ganda yang bertujuan untuk mengelompokkan n individu data ke dalam k gerombol, dengan k < n. Individu yang terletak dalam satu gerombol memiliki kemiripan sifat yang lebih besar dibandingkan dengan individu yang terletak dalam gerombol lain (Dillon & Goldstein 1984). Dengan
demikian,
sasaran
analisis
gerombol
adalah
mendapatkan
gugus
pengelompokkan yang meminimumkan keragaman di dalam gerombol dan sekaligus memaksimumkan keragaman antar gerombol (Garson 2006). Secara umum, metode penggerombolan dapat dibedakan ke dalam 3 kelompok, yaitu (1) metode penggerombolan berhirarki, (2) metode penggerombolan tak-berhirarki, dan (3) penggabungan kedua pendekatan metode penggerombolan, atau dikenal juga sebagai metode hybrid (Putri 2005). Semakin rumitnya masalah yang dihadapi dalam menggerombolkan gugus data berdimensi besar dan banyaknya
individu
yang sangat besar, mendorong
berkembangnya teknik-teknik penggerombolan baru yang dalam prosesnya dilakukan secara bertahap (pre clustering dan clustering). Metode-metode yang cukup dikenal dikalangan peneliti bidang pemasaran dan data mining diantaranya adalah, TwoStep Cluster (Chiu et al. 2001), Latent Segment Analysis (Vermunt & Magidson 2000; McCutcheon 1999, dan Bernstein et al. 2002),
BIRCH (Zhang 1996), CLARANS,
CURE, dan DBscan (Strehl & Gosh 2002), serta Two Stage Clustering (Lakshminarayan & Yu 2001). Pada penelitian ini, fokus evaluasi diarahkan pada metode TwoStep Cluster. Metode penggerombolan klasik, yaitu hirarki dan k-rataan dijadikan sebagai pembanding untuk mengevaluasi keakuratan metode TwoStep Cluster.
5
Metode Penggerombolan Berhirarki Metode penggerombolan berhirarki digunakan apabila banyaknya gerombo l yang akan dibentuk belum diketahui dengan pasti di awal. Menurut Garson (2006), penggerombolan berhirarki cocok untuk ukuran data yang kecil (biasanya<250). Metode penggerombolan berhirarki dapat dibedakan menjadi dua yaitu metode penggabungan (agglomerative) dan metode pemecahan (divisive). Garson (2006) mengistilahkannya sebagai forward dan backward clustering. Pendekatan metode penggabungan berhiraki (agglomerative hierarchical) paling umum digunakan oleh para peneliti. Metode berhirarki agglomerative dimulai dengan mengasumsikan bahwa setiap objek
merupakan
penggabungan
satu
gerombol,
selanjutnya
secara
bertahap
dilakukan
pada objek-objek yang paling dekat. Proses ini berlanjut sampai
semua sub grup bergabung menjadi satu gerombol. Sebaliknya, meto de divisive diawali dengan asumsi semua objek berada dalam satu gerombol, kemudian objekobjek yang paling jauh dipisah dan membentuk satu gerombol lain. Proses tersebut berlanjut sampai semua objek masing- masing membentuk satu gerombol. Hasil pembentukan gerombol berhirarki beserta jarak penggabungannya dapat digambarkan dalam suatu dendogram. Secara umum pembentukan dendogram dengan algoritma agglomerative adalah sebagai berikut (Johnson 1967) : 1. Mulai dengan N gerombol yang masing- masing hanya beranggotakan satu individu. 2. Gabungkan dua individu atau sub-gerombol yang memiliki jarak terdekat pada matrik jarak. 3. Hitung kembali jarak antar gerombol yang baru. 4. Ulangi langkah (2) dan (3) sampai (N-1) kali, sampai akhirnya semua objek bergabung menjadi satu gerombol.
6
Dalam metode penggerombolan berhirarki setiap langkah penggabungan gerombol diikuti dengan perbaikan matrik s jarak. Adenberg (1973), Dillon dan Goldstein (1984), serta Morrison (1990) memaparkan beberapa pilihan metode perbaik an jarak yang dapat digunakan pada langkah (3) di atas, yaitu : a. Pautan tunggal (single linkage) b. Pautan lengkap (complete linkage) c. Pautan rataan dalam kelompok (average linkage within the new group) d. Pautan rataan antar kelompok (average linkage between merged group) e. Centroid f.
Median
g. Ward Wijayanti (2002), dengan menggunakan metode simulasi, menunjukkan bahwa metode perbaikan jarak pautan rataan dalam kelompok memberikan nilai salah klasifikasi yang paling rendah diantara metode perbaikan jarak lainnya. Metode penggerombolan berhirarki memungkinkan untuk digunakan pada gugus peubah kriteria penggerombolan yang semuanya berskala rasio, interval, ordinal, atau biner (Garson 2006). Untuk masing- masing jenis skala terdapat pilihan konsep jarak yang sesuai.
Berbagai konsep jarak untuk data biner dibahas pada
Digby dan Kempton (1987). Metode Penggerombolan K-rataan Metode k-rataan termasuk kedalam kelompok penggerombolan tak berhirarki. Menurut Garson (2006), penggerombolan dengan menggunakan metode k-rataan menggunakan konsep jarak Euclidian, sehingga peubah kriteria penggerombolan haruslah semuanya berskala rasio, interval, atau biner (true dichotomies). Untuk menggunakan
metode
penggerombolan k-rataan,
pengguna
(peneliti)
harus
menentukan terlebih dahulu banyaknya gerombol yang akan dibentuk secara apriori (Morrison 1990; dan Garson 2006). Pemilihan banyaknya gerombol (k) dapat ditentukan secara subjektif berdasarkan landasan teori dari masalah yang dianalisis atau melalui penelusuran data awal.
7
Titik pusat awal k buah gerombol dipilih secara acak pada pertama kali, selanjutnya dilakukan proses iterasi yang mana pada setiap iterasi dibentuk penggerombolan berdasarkan jarak Euclidian terdekat ke pusat gerombol. Jadi pada setiap iterasi pusat gerombol akan berubah. Proses iterasi akan berhenti bila rata-rata gerombol lebih kecil dari batas perubahan yang ditentukan, atau banyaknya iterasi telah melampaui batasan maksimum (Adenberg 1973). Secara umum, metode krataan menghasilkan tepat k gerombol yang memiliki perbedaan keragaman terbesar 1) . Garson (2006) mengemukakan bahwa metode k-rataan cocok untuk digunakan pada data berukuran besar (misal lebih dari 200 individu).
TwoStep Cluster Algoritma TwoStep Cluster dikembangkan oleh Chiu, Fang, Chen, Wang, dan Jeris (2001) untuk analisis pada gugus data yang besar. Prosedurnya terdiri dari dua langkah (Chiu et al. 2001, SPSS 2004), yaitu : 1. Penggerombolan Awal (Pre-Clustering) Tujuan penggerombolan awal (pre-clustering) adalah untuk memasukkan data matriks baru dengan objek yang lebih sedikit pada langkah selanjutnya. Langkah penggerombolan awal menggunakan pendekatan penggerombolan secara sekuensial (Theodoridis & Koutroumbas 1999). Pendekatan ini menelusuri (scan) vektor data individu (record) satu per satu dan memutuskan apakah vektor data yang bersangkutan akan digabung dengan gerombol yang telah terbentuk sebelumnya atau memulai gerombol yang baru berdasarkan kriteria jarak yang telah ditetapkan.
___________________________________________ 1)
http://www.statsoft.com/textbook/stcluan.html#general
8
Prosedur tersebut diimplementasikan dengan membentuk Cluster Feature tree (Zhang et al. 1996), pada penulisan ini diterjemahkan sebagai “pohon ciri gerombol”. Pohon ciri gerombol terdiri dari beberapa tingkatan cabang (nodes) dan masingmasing cabang berisikan individu data (entries). Individu yang terdapat pada cabang yang berisikan individu rujukan disebut Leaf Entry, merepresentasikan anakgerombol (sub-cluster) dari gerombol rujukan awal. Cabang-cabang yang bukan menjadi rujukan (non-leaf nodes) beserta individu di dalamnya akan mengarahkan vektor individu baru ke dalam cabang yang tepat secara cepat. Sebagai contoh, SPSS memberikan nilai default untuk banyaknya tingkat cabang maksimum (maximum levels of nodes)=3 dan banyaknya entries per nodes maksimum 8 banyaknya leaf entries
sehingga
3
maksimum sebanyak 8 = 512 anak-gerombol (SPSS
Technical Guide 2001). Suatu pohon ciri gerombol (CF tree) dengan informasi banyaknya individu pada pohon gerombol yang bersangkutan, nilai tengah dan ragam setiap peubah kontinu, serta frekuensi masing-masing kategori untuk peubah kategorik mencirikan setiap anak-gerombol (entries). Setiap vektor individu (record) yang berurutan, secara rekursif diarahkan untuk menemukan anak cabang terdekat, untuk menjadi daun pada pohon yang bersangkutan. Bila vektor individu yang bersangkutan terletak pada wilayah jarak penerimaan (threshold distance) dari dahan terdekat (leaf entry), dahan tersebut akan memasukkan individu yang bersangkutan menjadi anggota anak gerombol, kemudian merubah informasi pohon ciri gerombol dari dahan. Bila vektor individu terletak di luar wilayah jarak penerimaan, individu tersebut akan menjadi cikal bakal dahan yang baru pada cabang yang bersesuaian. Bila suatu cabang tidak lagi memiliki ruang untuk menambah daun baru (entries), maka cabang tersebut akan dipecah menjadi dua. Jika dimisalkan pada sebuah pohon, dari satu dahan kemudian membelah menjadi dua dahan. Individu- individu yang terdapat pada cabang sebelumnya akan dipecah menjadi 2 kelompok dengan menggunakan 2 titik rujukan yang paling berjauhan, kemudian individu lainnya akan disebarkan berdasarkan kriteria kedekatan. Proses ini akan berlanjut sampai seluruh individu terolah secara lengkap.
9
Jika CF tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. CF tree yang melewati batas biasanya dikarenakan pada saat proses algoritma CF tree ini dijalankan, terbentuk daun entri yang beranggotakan pencilan (outlier).
Pencilan pada analisis TwoStep Cluster
adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF tree akan dibangun ulang, maka akan diperiksa daun entri yang berpote nsi sebagai pencilan. Daun entri yang terdeteksi beranggotakan pencilan merupakan daun entri yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan. Pada saat pembangunan ulang, daun entri yang berpotensi sebagai pencilan disimpan. Setelah CF tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam CF tree yang baru tanpa mengubah ukuran CF tree tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai pencilan.
Data-data yang dideteksi sebagai pencilan dimasukkan ke dalam satu
gerombol. Pada diagram algoritma CF tree yang disajikan pada Gambar 1, maksimum depth dan maksimum nodes yang digunakan yaitu masing- masing 3, sehingga daun entri (anak gerombol) yang terbentuk adalah sebanyak 33 atau 27 anak gerombol, sedangkan pada penelitian ini sesuai dengan default dari program SPSS maksimum depth sama dengan 3 dan maksimum nodes 8. Menurut Bacher, Wenzig, dan Vogler (2004), hasil penggerombolan awal bergantung pada urutan dari objek/individu yang disusun pada matriks data. Oleh karena itu, SPSS (2001:2) merekomendasikan untuk menggunakan urutan data secara acak.
10
? Node
Rebuild Leaf
Rebuild
Threshold distance
Rebuild Pre-Clustering
Rebuild
Rebuild
Pre-Clustering
Gambar 1. Diagram pembentukan CF tree pada TwoStep Cluster
11
2. Penggerombolan Individu Objek ( Step 2 Cluster) Pada tahap ini diterapkan model berbasiskan teknik hirarki. Sebagaimana halnya dengan teknik hirarki aglomeratif, hasil penggerombolan awal digabungkan dengan menggunakan cara bertatar (stepwise) sampai semua objek berada dalam satu gerombol. Berbeda dengan teknik -teknik hirarki aglomeratif, algoritma TwoStep Cluster didasarkan pada suatu model statistik. Model dilandasi pada asumsi bahwa peubah-peubah kontinu xj (j = 1,2,…,p) pada gerombol ke-i menyebar normal bebas 2 stokastik dengan nilai tengah µij dan ragam σ ij , serta peubah-peubah kategorik aj
pada gerombol ke-i mengikuti sebaran multinomial dengan peluang π ijl , yang mana (jl) adalah indeks dari kategori ke l (l = 1,2,…,ml ) dari peubah aj (j = 1,2,…,q).
3. Konsep Jarak Terdapat dua konsep pengukuran jarak yang tersedia pada SPSS TwoStep Cluster yaitu jarak Euclidean dan jarak log-likelihood. Bacher, Weinzig, dan Vogler (2004) menyatakan bahwa ukuran jarak log-likelihood dapat diterapkan untuk atribut (peubah-peubah) campuran antara kategorik dan numerik. Jarak log-likelihood antara dua kelompok i dan s didefinisikan sebagai berikut:
d (i, s ) = ξ i + ξ s − ξ i ,s
(1)
q p 1 ξ i = −ni ∑ log σˆ ij2 + σˆ 2j − ∑ j =1 j =1 2
(
)
mj
∑πˆ l =1
q p 1 ξ s = −ns ∑ log σˆ sj2 + σˆ 2j − ∑ j =1 j =1 2
(
)
(
)
ijl
log (πˆ ijl )
mj
∑πˆ l =1
q p 1 ξ i , s = −n i , s ∑ log σˆ 2i , s j + σˆ 2j − ∑ j =1 j =1 2
sjl
(2)
log (πˆ sjl )
mj
∑πˆ l =1
i , s jl
(3)
(
log πˆ i ,s
jl
)
(4)
12
Untuk penyingkatan ξ i, s dituliskan sebagai ε v , yang dapat ditafsirkan sebagai suatu jenis galat penyimpangan (dispersi) di dalam gerombol v (v = i,s,(i,s)). ε v terdiri
dari
− nv ∑ j =1 p
dua
komponen
keragaman.
Bagian
pertama
adalah
1 log( σˆ vj2 + σˆ 2j ) yang mengukur total simpangan (keragaman) dari peubah 2
ˆ ˆ kontinu xj di dalam gerombol v dan bagian kedua − nv ∑ qj=1 ∑ mj l =1 π vjl log( π vjl ) (entropy) mengukur dispersi pada peubah kategorik. Seperti halnya dengan teknik hirarki aglomeratif, gerombol- gerombol dengan jarak terkecil d(i,s) digabungkan pada tiap langkah. Fungsi log-likelihood untuk langkah dengan k gerombol dituliskan sebagai: k
lk = ∑ ξ v
(5)
v =1
Fungsi lk bukan merupakan fungsi log-likelihood yang selengkapnya sebagaimana dituliskan pada persamaan sebelumnya. Fungsi ini dapat ditafsirkan sebagai dispersi di dalam gerombol (keragaman dalam gerombol). Bila hanya diperhatikan pada bagian peubah kategorik, lk adalah entropy dalam gerombol ke k.
4. Penentuan Banyaknya Gerombol Pada SPSS TwoStep Cluster, banyaknya gerombol dapat diperoleh secara otomatis. Dua tahap pendugaan diterapkan untuk menentukan banyaknya gerombol secara objektif. Tahap pertama menghitung besaran Kriteria Informasi Akaike (AIC) dan Kriteria Informasi Bayes (BIC). Kriteria Informasi Akaike untuk k buah gerombol dirumuskan sebagai : AIC k = −2l k + 2rk
(6)
yang mana rk adalah banyaknya parameter bebas. Kriteria Informasi Bayes untuk k buah gerombol, dengan rumusan sebagai :
BICk = −2l k + rk log n
(7)
13
Menurut Chiu et al. (2001: 266) BIC k atau AIC k menghasilkan penduga awal yang baik bagi banyaknya gerombol maksimum. Banyaknya gerombol maksimum ditentukan sama dengan banyaknya gerombol yang memiliki rasio BICk /BIC1 yang pertama kali lebih kecil dari c1 (SPSS menetapkan c1 = 0,04 yang didasarkan atas studi simulasi) (SPSS Technical Support 2001). Tahap kedua digunakan kriteria perubahan rasio jarak untuk k buah gerombol, R(k) , yang didefinisikan sebagai : R (k ) = d k −1 / d k
(8)
yang mana dk-1 adalah jarak jika k buah gerombol digabungkan menjadi k-1 gerombol. Jarak dk dapat diperoleh dari hasil perhitungan sebagai berikut :
d k = l k −1 − l k
(9)
l v = (rv log n − BIC v ) / 2 atau l v = (2rv − AIC v ) / 2 untuk v=k, k-1
(10)
Menurut Bacher, Wenzig, dan Vogler (2004), menggunakan BIC atau AIC menghasilkan jawaban ya ng berbeda. Sebagai catatan, SPSS menyediakan 2 pilihan kriteria, yaitu menggunakan BIC atau AIC. Banyaknya gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikut
R (k1 ) / R(k 2 )
(11)
untuk dua nilai terbesar dari R(k) (k=1,2,…,kmax; kmax didapatkan dari langkah pertama). Jika rasio perubahan lebih besar daripada nilai batas c2 (SPSS menetapkan nilai c2 = 1,15 berdasarkan studi simulasi), banyaknya gerombol ditetapkan sama dengan k1 , selainnya banyak gerombol sama dengan maksimum {k1 ,k2 }.
5. Langkah Penetapan Keanggotaan Gerombol dan Penanganan Pencilan Tiap objek ditetapkan sebagai anggota dari gerombol terdekat secara deterministik berdasarkan ukuran jarak yang biasanya digunakan untuk mendapatkan gerombol. Bacher (2000) mengungkapkan bahwa penetapan keanggotaan gerombol
14
secara deterministik memungkinkan terjadinya penduga yang bias bagi profil gerombol, bila terjadi tumpang tindih (overlap ) antar dua gerombol yang saling berdekatan. Kelompok data yang dapat mengakibatkan terjadinya bias dalam penetapan keanggotaan gerombol disebut sebagai pencilan (outlier) atau gangguan (noise). Untuk menanggulangi hal ini, Bacher, Wenzig, dan Vogler (2004) menyarankan agar pengguna SPSS menentukan nilai fraction of noise (opsi penanganan pencilan), misalnya 5 (=5%). Bila diyakini pada data tidak terdapat gangguan (penc ilan), maka pilihan penanganan pencilan dapat diabaikan. Suatu dahan (pada tahapan penggerombolan awal) dianggap sebagai gerombol yang berpotensi sebagai pencilan bilamana banyaknya individu pada sub gerombol yang bersangkutan lebih sedikit dari persentase (proporsi) fraksi ukuran gerombol maksimum yang ditetapkan. Pencilan atau gangguan (noise) diasumsikan menyebar mengikuti sebaran seragam. Untuk mendeteksi bahwa suatu individu dapat dinyatakan sebagai pencilan atau bukan, dilakukan perhitungan jarak log-likelihood dari titik yang bersangkutan ke sub gerombol terdekat yang bukan pencilan (closest non-noise cluster), dan jarak log-likelihood bilamana titik tersebut dimasukkan sebagai pencilan. Langkah berikutnya, memilih jarak log-likelihood terbesar dari kedua perhitungan tersebut. Langkah ini setara dengan memasukkan individu yang diduga sebagai pencilan ke sub gerombol terdekat yang bukan pencilan bilamana jarak log-likelihood lebih kecil dari titik kritis C=log(V)
(12)
dimana :
V = ∏ R k ∏ Lm Rk = range dari peubah kontinu ke-k Lm = Banyaknya kategori untuk peubah kategori ke-m
(13)
Sub-sub gerombol yang telah diidentifikasi sebagai pencilan, pada tahap prapenggerombolan (pre-clustering) tidak dilibatkan pada proses penentuan banyaknya gerombol maupun penetapan keanggotaan gerombol.
15
BAHAN DAN METODE
Bahan Model Populasi Hipotetik Pada penelitian ini akan digunakan pendekatan simulasi untuk mengevaluasi efektivitas algoritma TwoStep Cluster, sebagai mana dinyatakan pada tujuan penelitian. Data bangkitan yang akan digunakan didasarkan pada 5 model data hipotetik, yang dipandang dapat mewakili situasi yang mungkin muncul atau dapat dijadikan rujukan untuk generalisasi berbagai situasi di populasi. Kelima model tersebut adalah : P1 : Populasi yang
homogen (1 gerombol), yaitu dapat ditafsirkan bahwa tidak
terdapat struktur kelas (gerombol) pada populasi yang dianalisis. Dalam kasus pemasaran, beberapa produk-produk masal (misal minuman ringan/soft drink ) tidak tersegmen, karena preferensi atas produk tersebut tidak terkait dengan kelas sosial ekonomi, gaya hidup, atau demografi. P2 : Populasi yang dibentuk dari 2 gerombol yang memiliki sifat hampir mirip (overlap) atau tidak terpisah secara tegas. Contoh pada kasus pemasaran adalah segmentasi preferensi antara kelompok laki- laki dan perempuan pada kelompok umur muda (15-24 tahun) untuk berbagai jenis produk non kosmetik atau model pakaian. P3 : Populasi yang dibentuk dari 2 gerombol yang terpisah secara tegas (mutually exclusive). Pada penerapan bidang pemasaran, sangat umum dijumpai pemisahan kelas atas (upper class atau high end) dan kelas bawah (lower class atau low end ) yang memiliki ciri dan/atau preferensi yang sangat berbeda, sejalan dengan sumber daya (kelas sosial dan ekonomi) dan gaya hidup yang dimiliki.
16
P4 : Populasi yang dibentuk dari 3 gerombol yang terpisah secara tegas. Sama pada kasus di atas (P3), namun populasi yang dianalisis tersegmen menjadi kelompok kelas atas (upper), menengah (middle), dan kelas bawah (lower). P5 : Populasi yang dibentuk dari 5 gerombol yang terdiri dari 3 gerombol yang terbedakan secara tegas, dan 2 gerombol lainnya tumpang tindih satu dengan lainnya serta dengan gerombol lain. Pada bidang pemasaran, segmentasi berdasarkan psikografik atau gaya hidup cukup umum dijump ai pemisahan yang tidak nyata pada beberapa kelompok dan pada kelompok lainnya terdapat perbedaan yang nyata.
Model Komposisi Peubah yang Dianalisis Selain model- model populasi hipotetik di atas, pada penelitian ini akan dievaluasi pengaruh jenis peubah yang terlibat dalam proses penggerombolan. Untuk membatasi lingkup penelitian, ditetapkan banyaknya peubah yang terlibat adalah 14. Dalam prakteknya, berdasarkan pengalaman penulis di bidang riset pemasaran, atribut preferensi produk yang diukur untuk tujuan segmentasi umumnya tidak lebih dari 10.
Pada segmentasi konsumen berdasarkan psikografik, sangat umum
digunakan 14 dimensi nilai (value), sedangkan pada segmentasi berdasarkan sosio demografik peubah-peubah yang umum digunakan adalah (1) kelompok umur, (2) pendidikan tertinggi, (3) kelas rata-rata pengeluaran rumah tangga per bulan, (4) kelas rata-rata pendapatan rumah tangga per bulan, (5) status perkawinan, (6) status pekerjaan, (7) gender, (8) ukuran keluarga, dan (9) kepemilikan barang-barang tahan lama di rumah tangga. Kelompok peubah yang akan dievaluasi adalah : V1 : Kumpulan peubah yang semuanya merupakan peubah kuantitatif (numerik, dengan skala kontinu atau interval). Kasus ini sangat jarang dijumpai pada bidang pemasaran, namun sangat umum ditemukan di bidang pertanian secara luas, bidang ekonomi dan keuangan, atau bidang kesehatan.
17
V2: Kumpulan peubah yang semuanya merupakan peubah kategorik (nominal atau ordinal yang diperlakukan sebagai nominal). Kasus ini paling banyak dijumpai pada bidang pemasaran, ilmu- ilmu sosial, manajemen, dan politik. V3 : Kumpulan peubah yang terdiri dari sebagian kecil (4) peubah kuantitatif, dan sisanya (10) merupakan peubah kategorik. Pada bidang pemasaran dan ilmuilmu sosial kasus seperti ini mulai mendapat perhatian. V4 : Kumpulan peubah yang terdiri dari sebagian besar (10) merupakan peubah kuantitatif, dan sisanya (4) merupakan peubah kategorik. Pada bidang pertanian dan ekonomi keterlibatan peubah-peubah yang tidak dapat dikuantifikasi, saat ini mulai mendapat perhatian.
Data Hipotetik Faktor lain yang dipandang berpengaruh terhadap data bangkitan yang akan digunakan adalah ukuran contoh secara total (banyaknya data). Pada penelitian ini akan dievaluasi kemungkinan ukuran data relatif kecil (500), sedang (2.000), besar (5.000) dan sangat besar (10.000). Dengan demikian, model data bangkitan yang akan digunakan dalam penelitian ini merupakan fungsi dari : •
5 Model hipotetik segmentasi di populasi.
•
4 Komposisi jenis peubah yang terlibat dalam analisis.
•
4 Ukuran data. Dengan menggunakan rancangan faktorial lengkap, untuk mengkombinasikan
berbagai kemungkinan dari masing- masing parameter yang dievaluasi maka dibangkitkan 80(5x4x4) data hipotetik untuk dianalisis. Masing- masing kombinasi akan diulang sebanyak 100 kali, sehingga diperlukan 8.000 gugus data hipotetik yang dibangkitkan melalui simulasi pada percobaan ini untuk dianalisis. Berdasarkan hasil pembangkitan rancangan faktorial lengkap, diperoleh 80 kombinasi model untuk data hipotetik yang akan digunakan dalam penelitian ini, yang secara lengkap disajikan pada Tabel 1.
18
Tabel 1. Kombinasi parameter model data hipotetik yang akan d ibangkitkan.
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Model Segmentasi P1 P1 P1 P1 P2 P2 P2 P2 P3 P3 P3 P3 P4 P4 P4 P4 P5 P5 P5 P5 P1 P1 P1 P1 P2 P2 P2 P2 P3 P3 P3 P3 P4 P4 P4 P4 P5 P5 P5 P5
Komposisi jenis peubah V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4 V1 V2 V3 V4
Ukuran data (N) 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 500 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000 2000
No 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
Model Segmentasi P1 P1 P1 P1 P2 P2 P2 P2 P3 P3 P3 P3 P4 P4 P4 P4 P5 P5 P5 P5 P1 P1 P1 P1 P2 P2 P2 P2 P3 P3 P3 P3 P4 P4 P4 P4 P5 P5 P5 P5
Komposisi Ukuran jenis data peubah (N) V1 5000 V2 5000 V3 5000 V4 5000 V1 5000 V2 5000 V3 5000 V4 5000 V1 5000 V2 5000 V3 5000 V4 5000 V1 5000 V2 5000 V3 5000 V4 5000 V1 5000 V2 5000 V3 5000 V4 5000 V1 10000 V2 10000 V3 10000 V4 10000 V1 10000 V2 10000 V3 10000 V4 10000 V1 10000 V2 10000 V3 10000 V4 10000 V1 10000 V2 10000 V3 10000 V4 10000 V1 10000 V2 10000 V3 10000 V4 10000
19
Metode Metode Pembangkitan Data Data hipotetik dibangkitkan dari sebaran normal dengan nilai tengah µ dan ragam=1. Lebih lanjut diasumsikan bahwa antar peubah-peubah yang terlibat dalam analisis saling bebas stokastik, dengan sebaran yang sama.
Dengan demikian,
peubah-peubah yang terlibat dalam analisis menyebar normal, bebas stokastik, identik (normally independently identically distributed), N(µ,1). Nilai tengah untuk masingmasing model segmentasi yang dievaluasi dinyatakan sebagai berikut :
P1 : Tidak terdapat struktur kelas (gerombol), yaitu populasi dengan 1 gerombol. µ (xi) = 0,00 ; i = 1,2,3,.........., N (ukuran data).
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 -3.00-2.80-2.60 -2.40-2.20-2.00-1.80-1.60-1.40-1.20-1.00-0.80-0.60-0.40-0.200.000.200.400.60 0.80 1.001.20 1.401.601.802.002.202.402.602.80 3.00
Gambar 2. Sebaran populasi tunggal, N (0,1)
20
P 2: Populasi yang dibentuk dari 2 gerombol dengan jarak antar gerombol relatif kecil (pemisahan tidak tegas) Gerombol 1 : µ (x1i) = -0,50 ; i = 1,2,3,........, n1 (catatan : n1=N/2) Gerombol 2 : µ (x2i) = +0,50 ; i = 1,2,3,........, n2 (catatan : n2=N/2)
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
N(-0.5,1)
4.0 0
3.6 0
3.2 0
2.8 0
2.4 0
2.0 0
1.6 0
1.2 0
0.8 0
0.4 0
0.0 0
-0.4 0
-0.8 0
-1.2 0
-1.6 0
-2.0 0
-2.4 0
-2.8 0
-3.2 0
-3.6 0
-4.0 0
0
N(0.5,1)
Gambar 3. Sebaran model 2 populasi dengan pemisahan tidak tegas
P3 : Populasi yang dibetuk dari 2 gerombol dengan jarak antar gerombol relatif besar (pemisahan antar gerombol tegas) Gerombol 1 : µ (x1i ) = -3,00 ; i = 1,2,3,........, n1 (catatan : n1=N/2) Gerombol 2 : µ (x2i ) =+3,00 ; i = 1,2,3,........, n2 (catatan : n2=N/2) 0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
N(-3,1)
2.0 0 2.4 0 2.8 0 3.2 0 3.6 0 4.0 0 4.4 0 4.8 0 5.2 0 5.6 0 6.0 0
0.8 0 1.2 0 1.6 0
0.0 0 0.4 0
-0.8 0 -0.4 0
-3.6 0 -3.2 0 -2 .80 -2.4 0 -2.0 0 -1.6 0 -1.2 0
-6.0 0 -5 .60 -5.2 0 -4.8 0 -4.4 0 -4.0 0
0
N(3,1)
Gambar 4. Sebaran model 2 populasi dengan pemisahan yang tegas
21
P4 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup besar (pemisahan secara tegas) Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,........, n1 (catatan : n1=N/4) Gerombol 2 : µ (x2i) = 0,00 ; i = 1,2,3,........., n2 (catatan : n2=N/2) Gerombol 3 : µ (x3i) = +4,00 ; i = 1,2,3,......., n3 (catatan : n3=N/4) 0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
N(-4,1)
N(0,1)
7.4 0
6.8 0
6.2 0
5.6 0
5.0 0
4.4 0
3.8 0
3.2 0
2.6 0
2.0 0
1.4 0
0.8 0
0.2 0
-0. 40
-1. 00
-1.6 0
-2. 20
-2. 80
-3.4 0
-4. 00
-4. 60
-5.2 0
-5. 80
-6. 40
-7.0 0
-7. 60
0
N(4,1)
Gambar 5. Sebaran model 3 populasi dengan pemisahan yang tegas
Penyebaran banyaknya data pada masing-masing (ukuran gerombol) ditetapkan tidak seimbang, tetapi proporsional dan menyebar secara simetrik. Pada kasus ini, ukuran contoh masing- masing gerombol adalah 25%, 50%, dan 25% dari jumlah keseluruhan data yang dicobakan. P5 : Populasi yang dibentuk dari 3 gerombol dengan jarak antar gerombol cukup besar dan 2 gerombol lainnya terletak diantara 3 gerombol lain serta tumpang tindih terhadap gerombol lain. Gerombol 1 : µ (x1i) = -4,00 ; i = 1,2,3,........, n1 (catatan : n1=15% dari N) Gerombol 2 : µ (x2i) = -1,00 ; i = 1,2,3,........, n2 (catatan : n2= 10% dari N) Gerombol 3 : µ (x3i) = 0,00 ; i = 1,2,3,........, n3 (catatan : n3= 50% dari N) Gerombol 4 : µ (x4i) = +1,00 ; i = 1,2,3,........, n4 (catatan : n4= 10% dari N) Gerombol 5 : µ (x5i) = +4,00 ; i = 1,2,3,........, n5 (catatan : n5= 15% dari N)
22
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
N(1.0,1)
9.2 0 9.8 0
4.4 0 5.0 0 5.6 0 6.2 0
N(-1.0,1)
6.8 0 7.4 0 8.0 0 8.6 0
2.0 0 2.6 0 3.2 0 3.8 0
-1 0.0 0 -9. 40 -8. 80 -8 .20 -7. 60 -7. 00 -6. 40 -5 .80 -5 .20 -4. 60 -4. 00 -3. 40 -2 .80 -2. 20 -1. 60 -1. 00 -0 .40 0.2 0 0.8 0 1.4 0
0
-0.05
N(-4,1)
N(0,1)
N(4,1)
Gambar 6. Sebaran model 5 populasi dengan 3 gerombol terpisah secara tegas dan 2 gerombol saling tumpang tindih dengan lainnya.
Seperti pada kasus sebelumnya, ukuran contoh pada masing-masing gerombol ditetapkan menyebar secara simetrik, sehingga pada kasus ini ukuran contoh masingmasing gerombol adalah 10%, 15%, 50%, 15% dan 10% dari jumlah keseluruhan data yang dicobakan. Data hipotetik peubah kategorik akan dibentuk dari pembangkitan dengan menggunakan aturan pada peubah kuantitatif. Transformasi peubah kuantitatif menjadi kategorik dilakukan dengan mengikuti aturan sebagai berikut : •
Peubah Biner dengan π 1 = 0,5 yi = 1 jika xi < µ(xi) yi = 0 jika xi > µ(xi) dengan xi adalah data bangkitan pada peubah kuantitatif dan µ(xi) adalah nilai tengah gerombol.
23
Prosedur Pembangkitan Data Pembangkitan data untuk masing- masing kasus yang dievaluasi, dilakukan dengan menggunakan bantuan paket program statistika MINITAB versi 13. Pada masing-masing kasus, pemba ngkitan 14 peubah kriteria penggerombolan dilakukan secara serentak (bersamaan), karena nilai tengah dan ragam untuk masing- masing peubah sama dan saling bebas stokastik satu dengan lainnya. Proses pembangkitan data dengan menggunakan perintah pada MINITAB, misal untuk kasus populasi P4, V1, dengan ukuran data 500, adalah sebagai berikut : 1. Memasukkan parameter populasi hipotetik MTB> LET K1=125 MTB> LET K2=250 MTB> LET K3=-4.0 MTB> LET K4=0.0 MTB> LET K5=4.0 2. Makro membangkitkan data masing- masing gerombol hipotetik MTB>SET C1 K1 (1) END. MTB>RANDOM K1 C2-C15; NORMAL K3 1.0. MTB> SET C16 K2 (2) END. MTB> RANDOM K2 C17-C30; NORMAL K4 1.0. MTB>SET C31 K1 (3) END.
24
MTB>RANDOM K1 C32-C45; NORMAL K5 1.0. 3. Makro menggabungkan data dari setiap gerombol bangkitan MTB> STACK C1 C16 C31 C1 MTB> STACK C2 C17 C32 C2 MTB> STACK C3 C18 C33 C3 MTB> STACK C4 C19 C34 C4 MTB> STACK C5 C20 C35 C5 MTB> STACK C6 C21 C36 C6 MTB> STACK C7 C22 C37 C7 MTB> STACK C8 C23 C38 C8 MTB> STACK C9 C24 C39 C9 MTB> STACK C10 C25 C40 C10 MTB> STACK C11 C26 C41 C11 MTB> STACK C12 C27 C42 C12 MTB> STACK C13 C28 C43 C13 MTB> STACK C14 C29 C44 C14 MTB> STACK C15 C30 C45 C15
Konversi data kontinu menjadi data biner dilakukan dengan menggunakan paket program SPSS V. 11.5. Hal ini dilakukan karena pengolahan data hasil pembangkitan, konversi, dan analisis TwoStep Cluster dapat dilakukan pada paket program yang sama.
Opsi Penanganan Pencilan dan Tanpa Penanganan Pencilan Sebagaimana disarankan oleh Bacher, Wenzig, dan Vogler (2004), untuk menghindarkan adanya bias akibat pencilan, penggunaan opsi penanganan pencilan (fraction of noise) sebesar 5% dibandingkan dengan pengolahan data tanpa penanganan opsi pencilan. Kotak pilihan penggunaan opsi penanganan pencilan atau
25
tanpa penanganan pencilan ditampilkan pada lampiran 1.gambar 6. Pada penelitian ini, akan dibandingkan hasil penggerombolan TwoStep Cluster antara penggunaan opsi penanganan pencilan dengan tanpa penanganan pencilan.
Metode Analisis Fokus penelitian ini adalah mengevaluasi keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol dan ukuran masing-masing gerombol pada gugus data dari populasi yang dianalisis. Analisis yang akan dilakukan adalah : 1. Mengukur tingkat keakuratan algoritma TwoStep Cluster dalam mendeteksi banyaknya gerombol sebenarnya. Pada penelitian ini, tingkat keakuratan didefinisikan sebagai persentase jumlah percobaan (run) yang menghasilkan banyaknya gerombol yang sama dengan populasi data hipotetik (dipandang sebagai banyaknya gerombol sebenarnya). A = Σ Xi / N
(14)
dengan Xi bernilai 1 bila banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster sama dengan banyaknya gerombol sebenarnya di dalam populasi (pada penelitian ini diketahui) dan 0 selainnya. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100. 2. Analisis berikutnya adalah menelusuri kesesuaian sebaran ukuran gerombol yang dihasilkan dari algoritma TwoStep Cluster dengan sebaran ukuran gerombol sebenarnya pada populasi. Kesesuaian sebaran ukuran gerombol diuji dengan menggunakan uji khi-kuadrat sebagai berikut : Ho : Sebaran ukuran gerombol hasil TwoStep Cluster = sebaran gerombol populasi. H1 : Sebaran ukuran gerombol hasil TwoStep Cluster ? sebaran gerombol populasi
26
Pada taraf nyata (a) sebesar 30%, dapat didefinisikan tingkat kesesuaian sebaran ukuran gerombol hasil algoritma TwoStep Cluster dengan ukuran gerombol sebenarnya, yaitu : K = Σ Yi / N
(15)
dengan Yi bernilai 1 bila hasil uji khi-kuadrat (pada taraf nyata tertentu) menghasilkan kesimpulan “Terima Ho”; dan 0 bila “Tolak Ho”. N adalah banyaknya ulangan percobaan, pada penelitian ini sama dengan 100. 3. Tingkat salah klasifikasi dari anggota gerombol. Salah klasifikasi dari hasil penggerombolan, pada penelitian ini didefinisikan sebagai total persentase semua
individu (objek) yang berasal dari suatu gerombol namun
teridentifikasi sebagai anggota gerombol lain pada proses penggerombolan, dalam hal ini adalah hasil penggerombolan SPSS TwoStep Cluster.
Hasil Penggerombolan Gerombol 1
Keanggotaan pada populasi yang sebenarnya Populasi 1 Populasi 2 n1 n2
Gerombol 2
n3
n4
Salah klasifikasi pada 2 populasi (geromb ol) adalah (n2+n3)/(n1+n2+n3+n4)
Prosedur dan Pelaksanaan Percobaan 1. Membangkitkan gugus data hipotetik untuk setiap kombinasi struktur populasi, komposisi jenis peubah, dan ukuran data yang tercantum pada Tabel 1. Masing- masing kombinasi perlakuan diulang sebanyak 100 kali. Dengan demikian akan dibangkitkan sebanyak 8.000 gugus data untuk dianalisis. Data hipotetik diperoleh dengan menggunakan prosedur yang telah dipaparkan pada bagian metode pembangkitan data, sedangkan pembangkitan data sebaran Ν(µ,1) dilakukan dengan menggunakan alat bantu perangkat
27
lunak (software) statistika yang tersedia, dalam hal ini peneliti menggunakan Minitab versi 13.2. Pada setiap gugus data bangkitan yang akan digunakan sebagai bahan simulasi, akan ditambahkan peubah (kolom atau field ) yang menunjukkan indeks asal populasi. 2. Setiap gugus data yang terbentuk akan digerombolkan dengan menggunakan prosedur SPSS TwoStep Cluster. Pada SPSS versi 11.5 tersedia pada modul Analyze -> Clasify. Pilihan menu dasar (basic option) yang digunakan adalah : Distance Measure
: Log-likelihood
Number of clusters
: Determined Automatically, Maximum : 15
Clustering Criterion
: BIC
Sesuai dengan saran dari Bacher, Wenzig, dan Vogler (2004), pada menu Options, akan dilakukan pilihan pada kotak “Outlier Treatment” dengan memberi check box pada kotak “Use noise handling” dan mengisi pada kotak “Percentage” bilangan 5 (artinya 5%) dan dicobakan pula tanpa pencilan. Pada menu “Output” akan dipilih Statistik-statistik : a. Deskripsi setiap gerombol (Descriptives by cluster) untuk data kuantitatif. b. Sebaran frekuensi setiap gerombol (Cluster frequencies) untuk data kategorik. c. Informasi BIC , dan d. Simpan data keanggotaan gerombol (Create cluster membership variable). 3. Hasil penggerombolan TwoStep Clust er, khususnya banyaknya gerombol yang terbentuk dan profil masing-masing gerombol, termasuk ukuran gerombol, akan dicatat kemudian dimasukkan sebagai data yang akan dianalisis pada pengolahan selanjutnya. 4. Setelah semua (8.000) gugus data hipotetik terolah dan statistik-statistik yang dihasilkan dicatat sesuai untuk masing-masing kombinasi perlakuan, tahap selanjutnya dilakukan analisis sebagaimana pada persamaan (13), dan menguji kesesuaian sebaran ukuran gerombol serta salah klasifikasi penggerombolan.
28
HASIL DAN PEMBAHASAN Kasus Data Homogen Data homogen adalah gugus data yang mana setiap individu berasal dari satu sebaran populasi tertentu. Dengan demikian pada populasi sebenarnya tidak terjadi penggerombolan, yaitu hanya terdapat 1 gerombol. Kasus ini jarang dijumpai pada situasi nyata, kecuali pada beberapa masalah segmentasi pelanggan dari produk masal. Berdasarkan percobaan simulasi, hasil analisis keakuratan penggerombolan algoritma TwoStep Cluster pada kasus ini
berbeda dengan kasus-kasus populasi lain yang
dicobakan. Oleh karena itu kasus ini dibahas secara terpisah. Disamping itu, metode penggerombolan konvensiona l, baik metode hirarki maupun k-rataan tidak memungkinkan untuk menghasilkan 1 gerombol. Pada Tabel 2 ditampilkan persentase kesesuaian banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster dengan banyaknya gerombol sebenarnya pada populasi. Pada tabel tersebut terlihat bahwa persentase ketepatan TwoStep Cluster dalam mengidentifikasi banyaknya gerombol pada kasus data homogen umumnya sangat rendah, kecuali bila ukuran datanya kecil (dalam penelitian ini yaitu 500). Algoritma TwoStep Cluster cukup akurat bilamana ukuran data relatif kecil dan peubah kriteria penggerombolan bersifat (1) semuanya kuantitatif (V1), (2) semuanya bersifat kategorik (V2) dan mentransfernya menjadi peubah biner yang diperlakukan sebagai data numerik , atau (3) sebagian kecil peubah kriteria bersifat kuantitatif (V3) dan sebagian kecil peubah kategorik (V4), yang ditransformasi ke peubah biner dan diperlakukan sebagai numerik. Tidak akuratnya algoritma TwoStep Cluster dalam menduga banyaknya gerombol di populasi, pada kasus data homogen, dapat dipahami, karena pada metode-metode penggerombolan, baik metode konvensional maupun TwoStep Cluster, terdapat kecenderungan untuk memecah gugus data yang dianalisis menjadi gerombol- gerombol (Technical Manual SPSS, 2001).
29
Tabel 2 juga menyajikan hasil percobaan simulasi pada kasus data homogen dengan opsi tanpa penanganan pencilan dan dengan penanganan pencilan sebesar 5%. Secara keseluruhan, ketepatan algoritma TwoStep Cluster dalam menduga banyaknya gerombol (pada gugus data homogen) tanpa penanganan terhadap pencilan maupun dengan penanganan terhadap pencilan
sebesar 5% memberikan hasil yang tidak
berbeda nyata.
Tabel 2. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya pada kasus data homogen
Jenis Peubah kriteria penggerombolan Penanganan Pencilan
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Biner sbg kategorik Opsi tanpa penanganan pencilan
500 2.000
Opsi penanganan pencilan 5%
5.000
100% 0 0
0 0 0
Sebagian kecil kontinu (V3)
Sebagian besar kontinu (V4)
Biner sbg numerik
Biner sbg kategorik
Biner sbg numeric
Biner sbg kategorik
Biner sbg numerik
97%
0
96%
0
40%
0
0
0
0
0
0 0
0 0
0 0
10.000
0
0
0
0
0
0
500
100%
0
97%
0
97%
0
2.000
0
0
0
0
0
0
0
5.000
0
0
0
0
0
0
0
10.000
0
0
0
0
0
0
0
69%
Pada kasus ini banyaknya gerombol sebenarnya hanya 1, maka untuk setiap hasil banyaknya penggerombolan algoritma TwoStep Cluster yang tepat sama dengan populasi, ukuran gerombolnya juga akan tepat sama, sedangkan bila dugaan banyaknya gerombol berbeda dengan populasi maka ukuran gerombolnya juga berbeda. Pengertian yang sama dengan di atas juga berlaku untuk salah klasifikasi pengge rombolan dari setiap individu. Bila dugaan banyaknya gerombol tepat sama dengan populasi hipotetik (1 gerombol), maka seluruh individu dikelompokkan
30
secara benar.
Sebaliknya bila banyaknya gerombol dugaan lebih dari 1, maka
terdapat individu yang salah klas ifikasi. Tabel 3 menampilkan rata-rata persentase salah klasifikasi penggerombolan pada kasus di populasi hanya terdapat 1 gerombol. Pada Tabel 3 terlihat bahwa bila ketepatan pendugaan banyaknya gerombol tinggi, maka salah klasifikasinya rendah, yaitu untuk kasus-kasus ukuran data 500 dengan semua peubah berjenis kontinu (V1), semua peubah bersifat kategorik (V2) yang ditransformasi ke bentuk biner dan diperlakukan sebagai peubah numerik, dan peubah campuran (V3 dan V4) yang mana peubah kategorik ditransformasi ke biner dan diperlakukan sebagai numerik.
Tabel 3. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster
dengan
gerombol
populasi
sebenarnya
pada
kasus
data
homogen Jenis Peubah kriteria penggerombolan
Opsi penanganan encilan 5%
Opsi tanpa penanganan pencilan
Penanganan Pencilan
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Sebagian kecil kontinu (V3)
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Sebagian besar kontinu (V4)
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
500
0,0%
74,8%
1,4%
75,3%
1,6%
66,7%
27,3%
2000
68,6%
58,4%
58,8%
62,2%
32,5%
78,4%
64,3%
5000
59,7%
55,6%
51,9%
57,0%
54,8%
79,0%
73,9%
10000
50,0%
53,9%
52,3%
50,1%
49,8%
50,0%
50,0%
500
0,0%
77,2%
1,4%
75,1%
1,6%
66,5%
28,0%
2.000
67,9%
59,1%
58,1%
60,8%
59,5%
78,2%
66,7%
5.000
66,7%
55,3%
51,7%
59,8%
71,2%
76,2%
78,2%
10.000
61,3%
54,1%
53,8%
73,5%
61,0%
29,3%
29,0%
Kasus Data Berasal dari Populasi yang Terbedakan Pada kasus populasi masing- masing mempunyai 2 dan 3 gerombol yang terpisah secara tegas (P3 dan P4), TwoStep Cluster lebih akurat dalam menduga banyaknya gerombol, yaitu menghasilkan banyaknya gerombol yang sama dengan populasi yang sebenarnya. Secara keseluruhan, percobaan simulasi mengindikasikan
31
semakin besar ukuran data, ketepatan rata-rata banyaknya gerombol cenderung menurun. Pada kasus data berasal dari populasi
yang saling terpisah secara tegas,
algoritma TwoStep Cluster sangat akurat, dalam menduga banyaknya gerombol sebenarnya pada populasi, untuk berbagai jenis kumpulan peubah kriteria penggerombolan, baik semua peubahnya berjenis kontinu (V1), semua nya peubah kategorik (V2), ataupun peubah campuran (V3 dan V4). Bilamana kumpulan peubah kriteria penggerombolan semuanya kategorik, transformasi ke peubah biner yang diperlakukan sebagai peubah numerik akan menurunkan tingkat keakuratan pendugaan banyaknya gerombol,
sedangkan bilamana kumpulan peubah kriteria
berupa campuran peubah kontinu dan kategorik, transformasi peubah kategorik menjadi peubah biner dan diperlakukan sebagai peubah numerik akan meningkatkan ketepatan pendugaan banyaknya gerombol. Penanganan pencilan (outlier
treatment) dengan pilihan sebesar 5%
berpengaruh pada keakuratan pendugaan banyaknya gerombol yang terbentuk. Pada semua peubah kriteria penggerombolan berjenis kontinu (V1) keakuratan penduga banyaknya gerombol dari algoritma TwoStep Cluster menurun untuk ukuran data besar (10.000) baik untuk populasi dengan banyaknya gerombol 2 maupun 3. Sementara itu, bila semua peubah kriteria penggerombolan bersifat kategorik, baik tetap dipandang sebagai kategorik atau ditransformasi menjadi peubah biner yang diperlakukan sebagai numerik, memberikan hasil yang lebih buruk dibandingkan tanpa penanganan pencilan; kecuali untuk ukuran data kecil (500) dengan memperlakukan biner sebagai numerik. Bilamana peubah kriteria berjenis campuran antara kontinu dan kategorik, pada kasus 2 populasi yang terpisah tegas (P3) algoritma TwoStep Cluster dengan penanganan pencilan 5% terlihat masih cukup akurat, walaupun menurun dibandingkan dengan tanpa penanganan pencilan, sedangkan pada kasus 3 populasi yang terpisah tegas (P4), penanganan pencilan sebesar 5% memberikan hasil yang buruk untuk jenis peubah kriteria penggerombolan yang melibatkan lebih banyak peubah kategorik. Apabila peubah kriteria penggerombolan berjenis campuran
32
dengan sebagian besar kontinu; penanganan pencilan 5% masih cukup akurat untuk ukuran data kecil dan sedang (500 dan 2.000), tetapi untuk ukuran data besar (5.000 dan 10.000) keakuratan pendugaan menurun secara drastis dibandingkan tanpa penanganan pencilan.
Tabel 4. Persentase ketepatan banyaknya gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan
Opsi penanganan pencilan 5%
Opsi tanpa penanganan pencilan
Penanganan Pencilan
Model Populasi asal
2 gerombol terpisah Tegas (P3)
3 gerombol terpisah tegas (P4)
2 gerombol terpisah tegas (P3)
3 gerombol terpisah tegas (P4)
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Sebagian kecil kontinu (V3)
Sebagian besar kontinu (V4)
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
500
100%
100%
100%
100%
100%
100%
100%
2.000
100%
100%
53%
99%
100%
99%
100%
5.000
100%
100%
55%
100%
100%
100%
100%
10.000
100%
100%
51%
100%
100%
100%
100%
500
100%
100%
100%
100%
100%
100%
100%
2.000
100%
100%
93%
100%
100%
100%
100%
5.000
100%
100%
65%
100%
100%
89%
100%
10.000
100%
100%
68%
100%
100%
100%
100%
500
100%
0%
100%
100%
100%
100%
100%
2.000
99%
43%
1%
93%
100%
98%
100%
5.000
100%
0%
40%
100%
100%
100%
100%
10.000
92%
0%
32%
100%
100%
100%
100%
500
100%
0%
36%
19%
19%
100%
100%
2.000
100%
0%
0%
0%
0%
100%
100%
5.000
100%
1%
0%
12%
0%
52%
65%
10.000
73%
2%
12%
9%
4%
3%
10%
Dengan menggunakan uji suai khi-kuadrat, diperoleh kesimpulan bahwa tanpa penanganan pencilan bila banyaknya gerombol yang dihasilkan dari algoritma TwoStep Cluster sama dengan populasi sebenarnya, maka sebaran ukuran gerombol yang dihasilkan dari TwoStep Cluster sama dengan sebaran ukuran gerombol di
33
populasi (terima Ho); kecuali pada perlakuan semua peubah kategorik ditransformasi ke biner dan dipandang sebagai peubah numerik untuk kasus 3 populasi. Sebaliknya, dengan menerapkan opsi penanganan pencilan sebesar 5%, sebaran ukuran gerombol yang terbentuk dari algoritma TwoStep Cluster hanya akurat pada kasus 2 populasi yang terpisah secara tegas, sedangkan pada kasus 3 populasi, hanya akurat bilamana peubah kriteria penggerombolan semuanya kontinu atau ukuran datanya relatif kecil (500).
Tabell5. Persentase kesesuaian ukuran gerombol hasil olahan algoritma
TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan.
Jenis Peubah kriteria penggerombolan
Opsi penanganan pencilan 5%
Opsi tanpa penanganan pencilan
Penanganan pencilan
Model Populasi asal
2 gerombol terpisah Tegas (P3)
3 gerombol terpisah tegas (P4)
2 gerombol terpisah tegas (P3)
3 gerombol terpisah tegas (P4)
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Sebagian kecil kontinu (V3)
Sebagian besar kontinu (V4)
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
500
100%
100%
100%
100%
100%
100%
100%
2.000
100%
100%
100%
100%
100%
100%
100%
5.000
100%
100%
100%
100%
100%
100%
100%
10.000
100%
100%
100%
100%
100%
100%
100%
500
100%
100%
100%
100%
100%
100%
100%
2.000
100%
100%
100%
100%
100%
100%
100%
5.000
100%
100%
95%
100%
100%
100%
100%
10.000
100%
100%
100%
100%
100%
100%
100%
500
100%
0%
100%
100%
100%
100%
100%
2.000
97%
100%
100%
100%
100%
99%
100%
5.000
100%
0%
100%
100%
100%
100%
100%
10.000
96%
0%
100%
100%
100%
92%
100%
500
100%
-
0%
100%
100%
100%
100%
2.000
100%
-
0%
0%
0%
100%
100%
5.000
100%
0%
0%
50%
0%
35%
0%
10.000
100%
0%
58%
22%
75%
0%
100%
34
Tabulasi silang antara individu- individu anggota gerombol asal dengan gerombol yang diperoleh dari TwoStep Cluster menunjukkan bahwa algoritma ini akurat dalam menghasilkan gerombol yang sama dengan populasi asal.
Secara
keseluruhan, terutama pada opsi tanpa penanganan pencilan, salah klasifikasi dari individu- individu gerombol sangat kecil (di bawah 5%); kecuali pada kasus semua peubah kriteria penggerombolan berjenis kategorik yang ditransformasi ke biner dan diperlakukan sebagai numerik. Sebagaimana tampak pada Tabel 6; salah klasifikasi penggerombolan dari TwoStep Cluster sangat kecil bila seluruh peubah kriteria penggerombolan berjenis kontinu, baik dengan penanganan pencilan 5% atau tanpa penanganan pencilan. Bilamana semua peubah kriteria penggerombolan merupakan peubah kategorik, pilihan penanganan pencilan 5% atau transformasi peubah kategorik menjadi bentuk biner yang diperlakukan sebagai peubah numerik akan memperbesar salah klasifikasi penggerombolan.
Bila peubah kriteria penggerombolan merupakan campuran
kontinu dan kategorik penanganan pencilan 5% memperbesar salah klasifikasi. Sementara itu, bila tanpa perlakuan penanganan pencilan, salah klasifikasi penggerombolan sangat kecil baik perlakuan peubah biner sebagai kategorik atau sebagai numerik.
Kasus Populasi yang Saling Tumpang Tindih Pada kasus data berasal dari populasi yang saling tumpang tindih (overlaping population), algoritma TwoStep Cluster masih cukup akurat untuk populasi data 2 gerombol, sedangkan pada kasus 5 gerombol yang saling tumpang tindih terjadi bias. Khusus untuk peubah kriteria berjenis campuran, transformasi peubah kategorik menjadi biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan pendugaan banyaknya gerombol. Pada kasus ini, juga dapat disimpulkan bahwa penanganan pe ncilan secara umum akan mengurangi keakuratan hasil penggerombolan dari algoritma TwoStep Cluster.
35
Tabel 6. Persentase salah klasifikasi gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang terbedakan. Jenis Peubah kriteria penggerombolan Penanganan pencilan
Model Populasi asal
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Opsi penanganan pencilan 5%
Opsi tanpa penanganan pencilan
Biner sbg kategorik 2 gerombol terpisah Tegas (P3)
3 gerombol terpisah tegas (P4)
2 gerombol terpisah tegas (P3)
3 gerombol terpisah tegas (P4)
Sebagian kecil kontinu (V3)
Biner sbg nume rik
Biner sbg kategorik
Biner sbg numerik
Sebagian besar kontinu (V4) Biner sbg kategorik
Biner sbg numerik
500
0%
0%
0%
0%
0%
0%
0%
2.000
0%
0%
20,0%
0%
0%
0,1%
0%
5.000
0%
0%
23,0%
0%
0%
0%
0%
10.000
0%
0%
21,0%
0%
0%
0%
0%
500
0,0%
0,1%
2,1%
0,1%
0,1%
0,0%
0,0%
2.000
0,6%
0,1%
2,5%
0,1%
0,1%
0,0%
0,0%
5.000
0,5%
0,1%
17,9%
0,1%
0,1%
2,8%
0,0%
10.000
0,0%
0,1%
16,4%
0,1%
0,1%
0,0%
0,0%
500
0,0%
50,0%
0,0%
0,0%
0,0%
0,0%
0,0%
2.000
0,7%
50,0%
27,5%
0,8%
0,5%
0,0%
0,0%
5.000
0,0%
50,0%
27,0%
0,5%
0,0%
0,0%
0,0%
10.000
0,9%
50,0%
34,4%
0,0%
0,0%
5,5%
0,0%
500
0,0%
51,7%
30,7%
30,7%
45,0%
0,0%
0,0%
2.000
0,0%
52,5%
50,0%
52,0%
50,0%
0,0%
0,0%
5.000
0,0%
54,7%
50,0%
0,0%
50,0%
13,3%
0,0%
10.000
6,8%
55,6%
43,6%
47,4%
50,0%
24,0%
0,0%
Dari Tabel 7 dapat dilihat bahwa apabila hanya terdapat 2 gerombol yang saling tumpang tindih, keakuratan algoritma TwoStep Cluster dalam menduga banyaknya gerombol cukup baik untuk peubah kriteria penggerombolan semua kontinu (V1), semua kategorik (V2) dan peubah campuran yang mempunyai sebagian kecil kontinu (V3). Hal ini berlaku untuk semua ukuran data yang dicobakan, walaupun kecenderungan tingkat keakuratan menurun dengan semakin meningkatnya ukuran data. Untuk populasi dengan peubah campuran yang sebagian besar kontinu, pendugaan gerombol akan menjadi akurat apabila peubah biner diperlakukan sebagai
36
numerik, namun dengan data yang sangat besar (10.000) juga tidak dapat menduga banyaknya gerombol dengan baik. Untuk populasi dengan 5 gerombol yang saling tumpang tindih, TwoStep Cluster tidak dapat mengidentifikasi secara akurat. Tabel 7. Persentase ketepatan ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih
Jenis Peubah kriteria penggerombolan
Opsi penanganan pencilan 5%
Opsi tanpa penanganan pencilan
Penanganan pencilan
Model Populasi asal
2 gerombol tumpang tindih (P2)
5 gerombol tumpang tindih (P5)
2 gerombol tumpang tindih (P2)
5 gerombol tumpang tindih (P5)
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Sebagian kecil kontinu (V3)
Sebagian besar kontinu (V4)
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
500
100%
99%
100%
98%
100%
48%
100%
2.000
100%
100%
100%
98%
100%
26%
100%
5.000
100%
95%
97%
93%
99%
14%
100%
10.000
100%
84%
80%
80%
92%
16%
18%
500
0
0
0
0
0
0
0
2.000
0
0
0
0
0
0
0
5.000
0
0
0
0
0
0
0
10.000
0
0
0
0
0
0
0
500
100%
99%
99%
98%
100%
47%
100%
2.000
100%
99%
99%
99%
100%
26%
100%
5.000
99%
56%
66%
79%
96%
24%
99%
10.000
67%
43%
54%
71%
76%
28%
64%
500
0
0
0
0
0
0
0
2.000
0
0
0
0
0
0
0
5.000
0
0
0
0
0
0
0
10.000
0
0
0
0
0
0
0
Bila ditelusuri lebih lanjut, dapat diketahui bahwa algoritma TwoStep Cluster menghasilkan pendugaan banyaknya gerombol sebanyak 3, untuk kasus 5 gerombol yang saling tumpang tindih. Hasil ini dapat dipahami, karena seperti terlihat pada Gambar 6 (bagian metode) terdapat 3 gerombol yang secara nyata dapat terbedakan, sedangkan 2 gerombol lainnya tersamar pada gerombol yang lain.
Pada kasus
37
gerombol yang tidak terpisah secara tegas, ukuran masing- masing gerombol yang dihasilkan dari algoritma TwoStep Cluster sebagian besar tidak sesuai dengan ukuran gerombol sebenarnya dari populasi bangkitan (Tabel 8 ). Tabel 8. Persentase kesesuaian ukuran gerombol hasil olahan algoritma TwoStep Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih.
Jenis Peubah kriteria penggerombolan
Opsi penanganan pencilan 5%
Opsi tanpa penanganan pencilan
Penanganan pencilan
Model Populasi asal
2 gerombol tumpang tindih (P2)
5 gerombol tumpang tindih (P5)
2 gerombol tumpang tindih (P2)
5 gerombol tumpang tindih (P5)
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Sebagian kecil kontinu (V3)
Sebagian besar kontinu (V4)
500
91%
Biner sbg kategorik 58%
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
52%
57%
71%
67%
81%
2.000
87%
31%
28%
56%
61%
50%
71%
5.000
28%
8%
6%
18%
16%
79%
10.000
28%
5%
5%
19%
8%
63%
500
-
-
-
-
-
-
-
2.000
-
-
-
-
-
-
-
5.000
-
-
-
-
-
-
-
10.000
-
-
-
-
-
-
-
500
88%
0
50%
52%
72%
26%
53%
2.000
87%
0
28%
44%
53%
65%
79%
5.000
37%
0
205
24%
14%
63%
16%
10.000
15%
0
9%
11%
14%
61%
3%
500
-
-
-
-
-
-
-
2.000
-
-
-
-
-
-
-
5.000
-
-
-
-
-
-
-
10.000
-
-
-
-
-
-
-
20% 11%
Secara keseluruhan, salah klasifikasi penggerombolan dari algoritma Twostep Cluster pada kasus 5 gerombol yang saling tumpang tindih di populasi sangat besar (20% ke atas). Hasil ini cukup dapat dimengerti, karena secara visual (pada Gambar 6) 2 gerombol tumpang tindih dengan gerombol lainnya sehingga cenderung akan menghasilkan salah klasifikasi dalam penggerombolan. Bilamana di populasi asal
38
terdapat
2
gerombol,
algoritma
TwoStep
Cluster
masih
akurat
dalam
menggerombolkan individu untuk kasus semua peubah kriteria berjenis kontinu, sedangkan bilamana peubah kriteria penggerombolan merupakan peubah kategorik atau campuran kontinu dan kategorik, salah klasifikasi penggerombolan relatif kecil bila ukuran data di bawah 5.000 (Tabel 9). Tabel 9. Persentase salah klasifikasi gerombol hasil olahan algoritma
TwoStep
Cluster dengan gerombol populasi sebenarnya, pada kasus data berasal dari populasi yang tumpang tindih Jenis Peubah kriteria penggerombolan
Opsi penanganan pencilan 5%
Opsi tanpa penanganan pencilan
Penanganan pencilan
Model Populasi asal
2 gerombol tumpang tindih (P2)
5 gerombol tumpang tindih (P5)
2 gerombol tumpang tindih (P2)
5 gerombol tumpang tindih (P5)
Ukuran Data
Semua kontinu (V1)
Semua kategorik (V2)
Sebagian kecil kontinu (V3)
Sebagian besar kontinu (V4)
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
Biner sbg kategorik
Biner sbg numerik
500
3,7%
8,1%
7,8%
7,7%
6,4%
44,9%
4,8%
2.000
3,2%
7,6%
7,3%
8,6%
5,8%
54,7%
4,0%
5.000
3,4%
11,2%
11,4%
14,2%
10,4%
58,8%
4,9%
10.000
3,3%
17,9%
19,2%
23,8%
21,3%
60,4%
6,9%
500
20,0%
22,4%
22,1%
20,0%
20,0%
20,0%
20,0%
2.000
20,0%
21,3%
22,2%
20,0%
20,0%
20,0%
20,0%
5.000
20,0%
24,5%
28,6%
20,0%
20,0%
20,0%
20,0%
10.000
20,0%
20,4%
30,8%
20,3%
20,0%
20,0%
20,0%
500
3,7%
8,1%
7,8%
30,7%
6,4%
44,9%
4,7%
2.000
3,2%
23,6%
7,7%
7,7%
5,7%
51,3%
6,0%
5.000
3,4%
44,6%
26,0%
17,8%
6,7%
58,3%
6,1%
10.000
23,5%
46,8%
32,0%
20,0%
10,9%
58,2%
6,1%
500
20,0%
62,8%
59,2%
69,5%
54,20%
20,0%
20,0%
2.000
20,0%
67,5%
85,0%
70,0%
60.3%
20,0%
20,0%
5.000
20,0%
70,0%
50,0%
70,0%
57,40%
27,9%
20,0%
10.000
20,0%
71,6%
50,0%
54,4%
37,30%
67,1%
32,8%
39
Perbandingan dengan Metode Hirarki dan K-rataan Secara umum, berdasarkan aspek-aspek penggunaannya, perbandingan antar metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster diringkas pada Tabel 10. Ditinjau dari aspek peubah kriteria penggerombolannya, metode hirarki sesuai untuk peubah-peubah yang bersifat kuantitatif yang berskala rasio, interval, ordinal, berupa peubah biner. Metode k-rataan hanya dapat digunakan bilamana peubah kriteria penggerombolan merupakan peubah kuantitatif dengan skala rasio atau interval. TwoStep Cluster memungkinkan peubah kriteria penggerombolan bersifat kuantitatif, kategorik, atau campuran dari kuantitatif dan kategorik. Berdasarkan konsep jarak yang berlaku, metode hirarki memiliki banyak pilihan konsep jarak diantaranya Euclidian, khi-kuadrat atau phi-kuadrat, beda pola (pattern difference), kecocokan sederhana (simple matching), dan sebagainya. Konsep jarak yang berlaku pada metode k-rataan adalah Euclidian. Pada algoritma TwoStep Cluster, pilihan konsep jarak yang dapat digunakan adalah Euclidian (bila semua peubah bersifat kuantitatif atau biner) atau jarak log-likelihood (terutama bila melibatkan peubah campuran atau kategorik). Metode hirarkidan k-rataan tidak mensyaratkan sebaran dari
peubah-peubah
kriteria
penggerombolan;
sedangkan
TwoStep
Cluster
mengasumsikan peubah kuantitatif berasal dari sebaran normal yang saling bebas stokastik dan peubah kategorik berasal dari sebaran multinomial. Penentuan banyaknya gerombol yang terbentuk dari metode hirarki sangat tergantung dari peneliti berdasarkan dendogram yang terbentuk atau jarak penggabungan antar sub gerombol. Pada metode k-rataan, penentuan banyaknya gerombol ditentukan diawal (apriori) sesuai dengan pengetahuan peneliti pada masalah yang ditelitinya. Sementara itu, penentuan banyaknya gerombol pada TwoStep Cluster dilakukan secara obyektif dengan melibatkan kriteria statistik BIC atau AIC.
40
Tabel 10. Perbandingan metode penggerombolan hirarki, k-rataan, dan TwoStep Cluster
Aspek yang
Metode hirarki
Metode k-rataan
dibandingkan
Metode
TwoStep
Cluster
Jenis peubah
Kuantitatif (rasio, Kuantitatif, dgn
Kuantitatif
kriteria
interval,
Kategorik
penggerombolan
atau peubah biner
interval
Campuran
Konsep jarak yang
Euclidian, Chi-
Euclidian
Euclidian
berlaku
square, Pattern
ordinal) skala rasio atau
Log-likelihood
difference, Simple matching, dsb. Prasyarat atau
Tidak ada asumsi
Tidak ada asumsi Asumsi peubah
asumsi sebaran
sebaran
sebaran
peubah kriteria
kuantitatif menyebar Normal bebas stokastik dan peubah kategorik menyebar multinomial
Ukuran data
Sesuai untuk
Cocok untuk
Cocok untuk
ukuran data relatif
ukuran data besar
ukuran dara besar
kecil Penentuan
Secara posterior
Secara apriori
Secara otomatik,
Banyaknya
berdasarkan
ditentukan oleh
berdasarkan
gerombol
dendogram
peneliti
kriteria statistik.
41
Pada tabel perbandingan di atas, dipaparkan bahwa metode hirarki hanya sesuai untuk jenis peubah kriteria penggerombolan yang semuanya berjenis kuantitatif atau semuanya peubah biner, selain itu ukuran data yang digerombolkan relatif kecil. Di pihak lain, metode TwoStep Cluster memungkinkan untuk mengolah data yang berukuran besar dan peubah kriteria penggerombolan bersifat semuanya kuantitatif, semuanya kategorik, atau campuran kuantitatif dan kategorik. Dengan demikian, perbandingan hasil penggerombolan antara metode hirarki dan TwoStep Cluster hanya dapat dilakukan untuk kasus peubah kriteria penggerombolan yang (1) semuanya bersifat kuantitatif dan (2) semuanya peubah biner. Mengingat metode hirarki efektif untuk ukuran data yang kecil, maka untuk tujuan perbandingan digunakan kasus ukuran data relatif kecil ( 500 data). Pada paket program SPSS versi 11.5,
penentuan banyaknya gerombol minimum dengan menggunakan metode
hirarki adalah 2 gerombol. Dengan demikian, metode ini tidak memungkinkan untuk mengidentifikasi kasus bilamana di dalam populasi hanya terdapat 1 gerombol. Oleh karena itu, dalam perbandingan kasus ini tidak dilibatkan. Sebagaimana dipaparkan pada Tabel 10, penentuan banyaknya gerombol pada metode hirarki umumnya bersifat subjektif sehingga sangat bervariasi dan sangat tergantung dari pengalaman pe neliti. Salah satu kriteria objektif yang sering digunakan dalam menentukan banyaknya gerombol yang terbentuk adalah dengan menggunakan kriteria jarak penggabungan terbesar (lihat Lampiran 2). Penentuan banyaknya gerombol juga dapat ditelusuri dari pendekatan eksplorasi data dengan mengamati
sebaran
memanfaatkan
dari
analisis
data
yang
komponen
akan
utama.
digerombolkan, Dengan
situasi
umumnya
juga
tersebut,
maka
perbandingan keakuratan penentuan banyaknya gerombol yang dihasilkan oleh metode hirarki dan TwoStep Cluster tidak relevan; karena penentuan banyaknya gerombol dengan metode hirarki tergantung dari pengamatan secara visual. Pada penelitian ini diasumsikan peneliti mengetahui secara tepat banyaknya gerombol yang terdapat di populasi, agar keakuratan metode hirarki dalam menduga sebaran ukuran setiap gerombol dan salah klasifikasi penggerombolan dapat
42
dibandingkan dengan metode TwoStep Cluster. Kasus-kasus yang dibandingkan adalah kasus semua peubah kriteria penggerombolan berjenis kontinu (V1) dan semua peubah kategorik yang ditransformasi ke biner diperlakukan sebagai numerik (V2) dengan ukuran contoh 500. Mempertimbangkan hasil evaluasi yang dilakukan oleh Wijayanti (2002), pada penelitian ini digunakan metode perbaikan jarak pautan rataan dalam kelompok (average linkage within group) dan konsep jarak untuk peubah biner yang digunakan adalah simple matching. Hasil simulasi dan uji kesesuaian sebaran ukuran gerombol sebenarnya dengan yang dihasilkan dari metode hirarki dan TwoStep Cluster ditampilkan pada Tabel 11. Secara umum, pada kasus-kasus yang dibandingkan dengan ukuran data 500, metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki. Pada kasus data berasal dari populasi yang terbedakan (P3 dan P4) dan peubah kriteria penggerombolan semuanya berjenis kontinu, persentase kesesuaian ukuran gerombol populasi dengan yang dihasilkan dari metode hirarki sama dengan yang dihasilkan dari TwoStep Cluster (100%), sedangkan bila semua peubah kriteria penggerombolan merupakan peubah biner metode TwoStep Cluster jauh lebih baik dibandingkan dengan metode hirarki pada kasus populasi
memiliki 3 gerombol yang terpisah
secara tegas. Bila pada populasi terdapat 2 gerombol yang saling tumpang tindih, metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki, pada kasus peubah kriteria penggerombo lan semuanya berjenis kontinu. Pada kasus yang sama, metode hirarki sedikit lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria berupa peubah biner. Sementara itu, bila pada populasi terdapat 5 gerombol yang saling tumpang tindih, metode hirarki lebih baik dibandingkan TwoStep Cluster untuk peubah kriteria semuanya bersifat kontinu. Dibandingkan dengan metode k-rataan, dengan asumsi banyaknya gerombol dapat diketahui sebelumnya, akurasi kesesuaian sebaran ukuran gerombol yang dihasilkan dari metode TwoStep Cluster sama dengan metode k-rataan, kecuali pada kasus 2 populasi yang saling tumpang tindih.
43
Tabel 11. Perbandingan persentase kesesuaian sebaran ukuran gerombol hasil olahan metode hirarki, k-rataan, dan TwoStep Cluster (hasil 100 kali simulasi)
Jenis populasi hipotetik
2 gerombol tumpang tindih (P2) 2 gerombol terpisah tegas (P3) 3 gerombol terpisah tegas (P4) 5 gerombol tumpang tindih (P5)
Jenis peubah yang dianalisis Semua biner (V2) Semua kontinu (V1) diperlakukan sebagai numerik hirarki k-rataan TwoStep hirarki k-rataan TwoStep 52,0%
99%
100%
91%
66,0%
73%
52%
100%
100% 100,0%
100%
100%
100%
100%
100%
0,0%
69%
100%
28,0%
16%
0%
0,0%
0%
0%
Tabulasi silang antara individu- individu anggota gerombol asal dengan gerombol yang diperoleh dari metode hirarki dan TwoStep Cluster menunjukkan bahwa secara umum metode TwoStep Cluster menghasilkan salah klasifikasi yang lebih kecil dibandingkan metode hirarki. Pada kasus populasi yang terpisah secara tegas, metode hirarki dan TwoStep Cluster menghasilkan salah klasifikasi yang sama (0%) bilamana peubah kriteria penggerombolan bersifat semuanya kontinu dan semuanya biner untuk kasus 2 populasi. Metode TwoStep Cluster menghasilkan salah klasifikasi yang lebih kecil dibandingkan metode hirarki bila pada populasi terdapat 2 gerombol yang saling tumpang tindih, baik pada kasus semua peubah kriteria berjenis kontinu maupun semuanya biner. Metode hirarki lebih akurat dibandingkan TwoStep Cluster bilamana pada populasi terdapat 5 gerombol yang saling tumpang tindih (bila diasumsikan peneliti dapat menduga banyaknya gerombol secara tepat) dan semua peubah kriteria penggerombolan berjenis kontinu; sedangkan bila peubah kriteria. penggerombolan semuanya peubah biner, metode TwoStep Cluster jauh lebih akurat (Tabel 12).
44
Secara keseluruhan persentase salah klasifikasi dari metode TwoStep Cluster tidak berbeda nyata dengan yang dihasilkan dari metode k-rataan, bilamana semua peubah kriteria penggerombolan merupakan peubah kontinu. Bila peubah kriteria penggerombolan merupakan peubah biner, salah klasifikasi dari metode TwoStep Cluster lebih kecil dibandingkan metode k-rataan. Tabel 12. Perbandingan persentase salah klasifikasi individu pada populasi dengan yang dihasilkan oleh metode hirarki, k-rataan,
dan TwoStep Cluster
(hasil 100 kali simulasi) Jenis Peubah yang dianalisis Jenis populasi hipotetik
Semua biner (V2) diperlakukan sebagai numerik hirarki k-rataan TwoStep hirarki k-rataan TwoStep Semua kontinu (V1)
2 gerombol tumpang tindih (P2) 2 gerombol terpisah tegas (P3) 3 gerombol terpisah tegas (P4) 5 gerombol tumpang tindih (P5)
6,7%
3.5%
3.7%
11,1%
7.3%
7.8%
0%
0%
0%
0,0%
0%
0%
0%
0%
0%
50,7%
3%
2.1%
7,1%
12.8%
20%
72,8%
52.0%
22.1%
45
SIMPULAN DAN SARAN
Simpulan 1. Metode TwoStep Cluster
menghasilkan gerombol yang sama dengan populasi
sebenarnya apabila semua peubah kriteria penggerombolan bersifat kontinu; kecuali pada situasi data yang saling tumpang tindih dan tidak terbedakan. 2. Metode TwoStep Cluster sangat akurat dalam menghasilkan gerombol yang sama dengan populasi sebenarnya pada kasus-kasus data yang terpisah secara tegas, atau setidaknya terlihat adanya perbedaan penggerombolan pada data yang dianalisis. 3. Transformasi peubah kategorik ke dalam bentuk biner dan memperlakukannya sebagai peubah numerik akan meningkatkan keakuratan TwoStep Cluster dalam menduga banyaknya gerombol, apabila peubah kriteria penggerombolan merupakan peubah campuran. 4. Apabila pada data tidak terdapat pencilan, penggunaan opsi “Penanganan Pencilan” (outlier treatment) akan menurunkan keakuratan TwoStep Cluster dalam menduga gerombol yang sebenarnya. 5. Pada kasus-kasus populasi dengan 2 dan 3 gerombol dan peubah kriteria penggerombolan semuanya kontinu atau semuanya peubah biner untuk ukuran data kecil (500), metode TwoStep Cluster lebih baik dibandingkan dengan metode hirarki dan tidak berbeda nyata dibandingkan metode k-rataan dalam hal akurasi sebaran ukuran gerombol asal serta salah klasifikasi.
Saran 1. Sebelum melakukan penggerombolan disarankan peneliti memiliki pengetahuan awal terhadap data atau populasi yang akan digerombolkan. 2. Sebelum melakukan penggerombolan disarankan untuk melakukan analisis eksplorasi sebaran data, agar dapat membantu dalam menentukan banyaknya gerombol di populasi sebenarnya lebih akurat.
46
3. Perlu dilakukan studi perbandingan atau evaluasi terhadap keakuratan berbagai metode penggerombolan, khususnya metode hirarki, TwoStep Cluster, dan Latent Segment dalam menduga banyaknya gerombol serta profil gerombol yang sebenarnya di populasi. 4. Perlu dilakukan studi lebih lanj ut untuk mengevaluasi metode Twostep Cluster, dan metode penggerombolan lainnya, pada kasus terjadinya korelasi antar peubah kriteria karena dalam realitas sering terjadi korelasi antar peubah.
47
DAFTAR PUSTAKA Aaker, D.A. 2001. Strategic Marketing Management. Ed ke-6. John Wiley & Sons Inc. New York. Aaker, D. A. And G. S. Day. 1990. Marketing Research. Ed ke-4. John Wiley & Sons, New York. Adenberg, M.R. 1973, Cluster Analysis For Applications, Academic Press, Inc. New York Anonimous. 2001. The SPSS TwoStep Cluster Component. A scalable component to segment your customers more effectively. White paper – technical report, SPSS Inc. Chicago. __________. 2004. Chicago.
TwoStep Cluster Analysis. Technical Report, SPSS Inc.
Bacher, J. 2000. A Probabilistic Clustering Model for Variables of Mixed Type. Quality & Quantity. Bacher, J., K. Wenzig and M. Vogler. 2004.. SPSS TwoStep Cluster : A First Evaluation. Friedrich-Alexander-Universität Erlangen-Nurnberg. Bernstein, L. K. Bradley, and S. Zarich. 2002. GOLDminer : Improving Models for Classifying Patients with Chest Pain. Yale Journal of Biology and Medicine 75. Chiu, T., Fang,D., Chen,J., Wang,Y., and Jeris,C. 2001. A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment. In Proceedings of the 7th ACM SIGKDD International Confererence on Knowledge Discovery and Data Mining 2001. Digby, P.G.N. and R.A. Kempton. 1987. Multivariate Analysis of Ecological Communities. Chapman and Hall. New York. Dillon, W.R. & M. Goldstein. 1984. Multivariate Analysis Method Applications. John Wiley and Sons, Inc. New York.
48
Everitt, B.S., Landan, S. and Leese, M. 2001. Cluster Analysis. Ed ke-4 Arnold, London.
Garson, D.G. 2006. Quantitative Research in Public Administration. Lecture Note. North Carolina State University. Huang, Z. (1998). Extensions to the k- means Algorithm for Clustering Large Data Sets with Categorical Variables. Data Mining and Knowledge Discovery. Kasali, R. (1998). Membidik Pasar Indonesia : Segmentasi, Targeting, dan Positioning. Gramedia Pustaka Utama, Jakarta.. Kotabe, M and K. Helsen. 2001. Global Marketing Management . Ed ke-2. John Wiley & Sons, New York. Kotler, P. 2000. Marketing Management : The Millennium Edition. Prentice Hall International Inc. New Jersey. Lakshminarayan, C.K. and Q. Yu. 2001. A Novel Two-Stage Clustering Approach for Visitor Segmentation and Prediction Based on Click Stream Attributes. The Indian Institute of Information Technology, Bangalore. McCutcheon A, Hagenaars J., eds. (1999). Advances in Latent Class Modeling. Cambridge, UK and NY: Cambridge University Press. Morrison, D.F. 1990. Multivariate Statistical Methods. McGraw-Hill. Inc. New York.
Porter, M. 1980. Competitive Strategy : Techniques for Analyzing Industries and Competitors. The Free Press, New York. Putri, D. Y. 2005. Penerapan Metode TwoStep Cluster dalam Analisis Gerombol : Studi Kasus Data Potensi Desa Sensus Ekonomi 2003 Wilayah Jawa Barat, Skripsi S1. Departemen Statistika FMIPA Institut Pertanian Bogor, BogorIndonesia.
49
Strehl, A. And J. Gosh. 2002. Relationship -Based Clustering and Visualization for High-Dimensional Data Mining. INFORMS. Journal on Computing. Pp. 1-23. Theodoridis, S. and K. Koutroumbas. 1999. Pattern Recognition. Academic Press, New York. Vermunt, J. K. and J. Magidson (2000). "Latent class cluster analysis." Chapter B1 in Hagenaars and McCutcheon, eds., Advances in latent class models. Cambridge, UK: Cambridge University Press. Related to Latent Gold software. Wijayanti, A. 2002. Evaluasi Konsep Jarak dan Metode Penggerombolan untuk Data Biner. Skripsi. Jurusan Statistika. FMIPA. Institut Pertanian Bogor, Bogor. Zhang, T, R. Ramakrishnon and M. Livny. (1996). BIRCH: An Efficient data clustering method for very large databases. Proceeding of the ACM SIGMOD Conference on Management of Data, 103-114, Montreal, Canada.
50
LAMPIRAN
51
Lampiran 1. Tahapan analisis TwoStep Cluster dengan SPSS 1. Penyiapan data. 2. Pilih Menu : Analyze/Classify/TwoStep Cluster (Gambar 1), maka akan muncul kotak dialog (Gambar 2).
Gambar 1 . Kotak dialog pemilihan metode TwoStep Cluster
Gambar 2 . Kotak dialog TwoStep Cluster
52
3. Pindahkan variabel yang akan digerombolkan
ke kotak variabel sesuai
dengan perlakuan yang diinginkan.
Gambar 3. Kotak dialog perlakuan variabel 4. Pada kotak DISTANCE MEASURE beri tanda log likelihood untuk pilihan ukuran jarak, karena peubah yang akan dianalisis pada contoh diatas merupakan peubah campuran kategorik dan kontinu. 5. Pada kotak Clustering Criterion beri tanda pada salah satu kriteria penggerombolan yang diinginkan (BIC atau AIC) 6. Klik OPTION, untuk menentukan penanganan pencilan (outlier ) dan standarisasi untuk peubah kontinu, seperti Gambar 4. Gambar ini merupakan contoh pilihan tanpa penanganan pencilan, sedangkan pada Gambar 6 merupakan contoh dengan penanganan pencilan 5%.
53
7. Selanjutnya klik ADVANCED jika ingin me mgubah Threshold Distance, maksimum Branches dan Tree Depth. Default SPSS adalah seperti tertera pada Gambar 5. Selanjutnya kembali ke CONTINUE.
Gambar 4. Kotak OPTION pada TwoStep Cluster
Gambar 5. Kotak ADVANCED pada TwoStep Cluster
54
Gambar 6. Kotak OPTION dengan pilihan penanganan pencilan 5%
8. Klik OUTPUT, maka akan muncul kotak dialog seperti Gambar 7 sesuai dengan pilihan output yang diinginkan.
Gambar 7. Kotak dialog OUTPUT
55
9. Klik PLOTS, maka akan muncul kotak dialog berikut:
Gambar 8. Kotak dialog PLOT 10. Kemudian klik CONTINUE, maka akan kembali pada Gambar 3. Selanjutnya klik OK untuk melakukan eksekusi.
56
11. Pada OUTPUT EDITOR akan ditampilkan seperti berikut :
57
58
59
Lampiran 2. Jarak penggabungan dengan metode hirarki Kasus 1: Populasi dengan 2 gerombol yang saling tumpang tindih (P2) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
1
2,56
3,98
2,56
2,56
3,07
2,87
2,39
2,12
13,98
2
4,22
4,04
3,27
3,27
3,01
3,01
2,50
2,50
14,01
3
2,26
2,26
3,30
3,30
4,32
4,04
3,43
3,43
14,71
4
3,21
2,24
3,19
3,19
3,05
3,05
3,05
4,40
12,98
5
3,17
3,17
3,09
3,09
2,69
2,69
3,07
5,37
12,78
6
3,10
3,10
2,66
3,10
3,24
2,88
2,88
4,87
13,02
7
2,77
2,77
2,41
2,41
3,26
3,32
2,68
2,43
14,37
8
3,15
2,91
2,91
2,47
2,47
3,65
2,95
2,51
14,56
9
3,53
3,68
2,88
2,88
2,88
4,15
3,53
3,53
13,18
10
3,64
3,90
3,90
3,22
2,83
2,83
3,22
3,31
12,57
11
4,14
3,97
3,62
3,56
2,54
2,54
2,61
2,61
13,55
12
3,72
3,50
3,50
2,95
2,70
2,70
3,31
3,05
14,45
13
3,30
2,70
2,54
2,54
2,54
2,44
2,44
4,78
13,06
14
3,08
2,56
3,08
2,92
2,27
2,27
2,27
3,17
14,27
15
3,26
3,26
2,73
2,73
3,80
3,44
3,44
3,44
13,27
16
3,52
3,50
3,34
3,34
2,77
2,77
3,42
4,47
13,33
17
3,20
3,20
3,17
3,17
2,68
2,68
2,25
2,25
14,61
18
3,64
3,63
3,30
3,30
3,07
2,33
3,07
2,84
13,44
19
3,10
3,10
3,37
3,37
3,22
3,22
2,94
2,52
13,06
20
4,08
3,58
3,51
2,54
2,54
1,90
1,90
2,72
14,68
21
3,25
3,25
3,14
3,10
3,10
2,57
4,30
3,89
12,58
22
4,03
3,35
3,35
2,78
2,78
2,19
2,19
3,37
12,21
23
3,75
3,42
3,42
3,42
3,08
2,98
2,98
4,15
13,16
24
4,28
4,28
3,56
3,45
3,07
3,07
2,62
2,62
13,40
25
2,88
2,88
2,88
2,76
2,62
2,62
3,87
4,31
13,49
26
3,59
3,59
3,59
2,96
2,93
2,55
2,55
2,47
13,82
27
3,40
3,17
3,17
3,17
2,81
2,81
3,00
3,45
14,21
28
3,98
4,09
3,98
3,40
3,40
4,14
2,91
2,80
12,66
29
3,30
3,30
2,56
2,74
2,74
2,74
3,12
3,00
13,96
30
3,26
2,58
3,09
3,09
3,13
2,91
2,69
2,69
13,38
31
2,96
3,46
2,96
3,59
3,18
3,18
2,86
2,91
13,74
32
4,58
4,58
3,89
3,84
3,15
3,15
2,52
2,41
2,05
33
3,45
3,43
3,43
2,90
2,90
2,33
2,33
3,85
14,04
34
3,32
3,54
3,19
3,19
3,45
2,94
2,94
5,07
14,12
35
3,91
3,91
2,98
2,98
2,79
2,78
2,78
3,42
13,97
36
3,29
3,08
3,08
2,86
2,86
2,86
3,32
5,30
14,24
37
3,73
2,84
3,68
3,36
2,96
2,55
2,55
4,48
13,69
38
2,91
2,91
3,01
2,92
2,72
2,72
2,72
4,85
15,03
39
3,04
2,67
3,29
3,29
3,15
3,15
3,20
3,20
13,29
60
Kasus 1: Populasi dengan 2 gerombol yang saling tumpang tindih (P2) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
40
3,55
3,81
3,29
2,59
2,59
2,59
3,85
3,61
13,44
41
3,25
3,71
3,45
3,20
3,20
2,53
2,53
5,40
13,23
42
3,46
3,38
3,38
3,38
3,02
3,02
3,02
3,56
13,42
43
3,07
3,07
2,99
2,37
2,37
4,33
4,26
4,63
13,18
44
3,72
3,64
3,72
2,84
2,84
2,84
2,79
3,01
12,94
45
3,21
3,49
3,30
3,30
3,07
2,70
2,70
3,54
14,76
46
3,55
3,55
3,29
2,91
2,91
2,91
2,91
2,91
15,66
47
4,09
4,19
4,11
3,92
3,60
3,08
3,08
3,35
13,45
48
3,42
4,12
3,42
3,42
3,05
3,05
3,49
2,60
12,88
49
3,27
3,27
3,27
2,99
2,85
2,85
2,55
2,55
13,57
50
3,97
3,97
3,97
3,45
3,45
2,91
2,91
3,37
13,33
51
3,13
3,13
3,08
3,07
2,72
2,72
2,90
2,21
13,75
52
3,27
3,27
3,27
3,31
3,31
3,72
2,93
2,93
14,16
53
3,53
3,48
3,31
3,19
2,65
2,65
2,65
5,19
13,23
54
2,75
2,75
2,75
3,31
3,31
3,66
2,79
2,58
13,38
55
3,64
3,64
3,40
3,19
3,09
2,55
2,55
2,68
14,08
56
3,05
3,05
3,05
3,12
3,12
3,39
3,21
5,36
12,37
57
3,32
2,77
2,77
2,77
2,77
2,81
4,49
3,21
14,11
58
3,33
3,33
3,15
3,15
3,10
2,37
2,37
2,73
14,14
59
3,84
3,40
3,79
3,79
3,30
3,30
3,30
3,46
12,46
60
2,99
2,99
2,99
2,99
3,01
3,01
2,84
2,84
14,07
61
3,02
3,02
3,02
2,66
2,66
3,34
2,89
7,62
14,29
62
2,85
2,85
2,85
4,04
4,04
3,85
3,85
2,88
14,28
63
4,08
3,98
3,42
3,42
2,91
2,57
2,57
9,00
14,57
64
2,95
2,95
2,95
3,56
3,25
2,91
2,91
5,48
11,27
65
3,67
3,67
3,67
3,55
3,55
3,04
2,78
2,78
12,56
66
2,85
2,83
2,83
2,83
2,46
2,46
2,81
7,69
14,08
67
3,85
3,85
3,53
3,07
2,90
3,07
4,19
5,02
12,58
68
3,50
2,95
2,95
3,45
3,26
3,26
3,26
5,20
14,48
69
3,19
3,19
3,19
2,99
2,40
2,40
2,11
2,11
14,17
70
3,44
3,25
3,24
3,24
3,24
2,91
2,91
5,94
12,78
71
3,44
2,71
3,73
2,93
2,93
2,93
3,21
2,54
14,87
72
3,92
3,18
3,33
2,86
2,86
2,41
2,41
2,98
13,11
73
3,22
2,81
3,43
3,43
2,81
2,81
3,19
2,38
14,46
74
2,80
2,80
2,80
2,71
2,56
2,56
3,63
2,73
13,70
75
3,24
3,24
2,60
2,60
2,60
2,60
3,53
2,87
14,18
76
2,93
2,93
2,93
3,51
3,47
3,47
2,76
2,76
14,57
77
3,89
2,98
3,13
3,13
3,13
2,80
2,80
3,39
14,26
78
3,48
3,48
3,40
3,40
2,43
2,43
3,06
4,15
13,70
61
Kasus 1: Populasi dengan 2 gerombol yang saling tumpang tindih (P2) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak penggabungan 9 to 8
8 to 7
79
10 to 9 3,61
3,33
3,06
7 to 6 3,01
6 to 5 2,74
5 to 4 2,74
4 to 3 2,24
3 to 2 2,24
2 to 1 13,49
80
3,73
3,78
3,55
3,10
3,10
2,76
2,76
3,58
14,00
81
3,56
3,56
3,56
3,34
3,34
3,34
3,87
3,62
12,61
82
3,58
3,58
3,24
3,24
2,69
2,69
3,28
5,28
13,11
83
3,56
3,56
3,53
3,52
2,65
2,65
3,21
2,83
12,64
84
3,33
3,40
3,00
2,60
2,18
2,18
2,64
4,54
13,37
85
3,18
3,18
3,11
3,11
3,11
3,33
3,53
2,65
14,71
86
3,23
3,23
2,98
2,98
2,98
3,09
3,24
2,46
15,15
87
3,87
3,87
3,40
3,40
2,78
2,60
2,60
3,17
13,70
88
4,03
3,64
3,83
3,51
3,51
3,28
3,28
4,06
13,89
89
3,73
3,73
3,73
3,18
3,18
2,79
2,79
4,25
14,37
90
3,32
3,73
3,38
3,38
3,38
2,98
2,73
4,24
13,91
91
3,39
3,21
3,21
3,21
3,08
3,08
2,51
2,51
13,68
92
3,59
3,59
3,61
3,61
3,61
2,95
2,95
3,06
14,55
93
3,44
3,44
2,91
2,78
2,78
3,73
3,94
2,57
13,94
94
3,07
3,07
2,84
2,84
3,80
2,98
2,98
2,56
14,93
95
3,34
3,34
2,45
2,16
2,16
2,16
3,62
2,97
14,21
96
3,28
3,43
3,28
3,28
3,65
3,56
3,56
3,29
14,66
97
3,69
3,69
2,64
2,40
2,40
5,26
5,63
5,18
13,45
98
3,38
3,38
3,69
3,69
3,12
2,73
2,58
2,58
13,78
99
3,86
3,40
3,51
2,73
2,49
2,49
2,99
2,01
14,87
100
3,40
3,40
3,40
3,15
3,15
3,03
2,75
2,75
14,58
62
Kasus 2 :
Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan
Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
1
3,44
3,52
3,52
3,24
3,24
2,46
2,46
5,68
510,00
2
3,68
3,56
3,56
3,06
3,06
2,36
2,35
2,35
509,45
3
3,60
3,01
3,01
3,01
3,05
3,73
3,73
2,55
518,68
4
3,73
3,12
3,12
3,59
3,17
2,77
2,77
2,77
505,78
5
3,33
2,78
2,78
2,60
2,60
2,60
3,53
3,13
502,56
6
3,12
3,12
3,12
3,21
2,59
2,59
2,95
2,80
507,38
7
3,13
3,49
2,88
2,88
2,88
2,67
2,41
2,41
514,04
8
2,98
2,98
3,20
3,20
2,83
2,83
2,78
2,78
501,60
9
3,63
3,63
3,63
2,87
2,87
2,87
2,75
2,75
492,96
10
3,74
3,26
3,26
2,79
2,79
2,39
2,39
2,61
503,09
11
3,36
3,36
2,97
2,97
2,72
2,33
2,33
3,69
502,36
12
3,59
3,59
3,25
3,25
2,36
1,88
1,88
3,70
504,47
13
3,69
3,27
3,27
3,27
3,08
3,08
3,36
3,29
502,36
14
3,24
2,89
2,89
2,30
2,30
2,30
2,40
2,42
504,48
15
3,45
2,68
2,68
2,68
3,14
3,13
2,88
2,88
506,46
16
3,63
2,77
2,77
2,77
2,37
2,37
2,80
2,22
501,52
17
3,45
3,45
3,45
3,12
2,65
2,65
2,04
2,04
504,63
18
3,74
3,73
3,73
3,63
3,02
3,02
2,62
2,62
502,40
19
3,49
3,49
3,49
3,49
2,82
2,82
2,82
3,08
511,66
20
3,24
3,24
2,91
2,91
2,91
2,70
2,70
3,44
501,05
21
3,96
3,93
3,74
3,67
3,26
2,87
3,26
2,66
508,44
22
3,25
3,25
3,25
3,25
3,42
2,99
3,91
3,41
505,41
23
3,51
3,51
2,85
2,48
2,48
2,48
2,26
2,77
507,78
24
3,46
3,46
3,20
3,20
3,32
2,39
2,39
3,48
507,51
25
3,20
3,20
3,64
3,67
3,18
3,18
2,49
2,49
499,00
26
3,21
3,14
3,14
2,82
2,60
2,42
2,42
3,34
500,72
27
3,37
3,69
2,43
2,43
2,43
3,87
2,89
4,19
508,76
28
3,18
3,18
3,28
2,98
2,98
2,98
3,30
3,32
509,22
29
3,28
3,02
2,86
2,86
2,86
3,43
3,43
3,46
509,96
30
3,34
2,71
2,71
2,71
2,51
2,51
3,30
2,76
505,67
31
3,61
3,61
2,89
2,89
2,09
2,09
2,98
2,71
506,24
32
3,65
3,65
3,01
2,91
2,91
2,88
2,88
2,54
502,63
33
3,47
3,14
3,14
3,14
2,87
1,92
1,92
3,03
501,80
34
3,54
2,99
2,99
2,50
2,50
2,50
2,76
2,42
504,65
35
3,32
3,32
3,29
3,29
2,72
2,72
2,50
2,50
503,42
36
3,57
3,28
3,28
3,02
3,02
2,49
2,20
2,20
504,84
37
3,59
3,59
3,21
2,95
2,95
2,64
2,13
2,13
503,09
38
3,49
3,40
3,17
3,17
3,17
2,84
2,84
3,31
507,67
39
3,43
3,16
2,84
2,84
2,84
2,12
2,12
2,79
495,99
40
3,07
3,07
2,76
2,76
2,41
2,41
3,23
3,64
502,35
63
Kasus 2 : Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
41
3,05
3,05
3,05
3,05
2,84
2,84
2,75
2,75
510,34
42
3,24
3,24
2,66
2,66
2,66
2,50
2,92
2,46
507,20
43
3,98
3,71
2,88
2,54
2,54
2,19
3,14
2,84
496,39
44
3,62
2,76
2,76
2,76
3,17
2,81
2,81
2,33
503,52
45
3,47
3,53
3,53
2,95
2,52
2,52
2,17
2,17
503,73
46
3,39
3,29
3,29
3,17
2,76
2,76
2,55
2,55
499,23
47
2,96
2,96
2,96
3,52
3,52
3,28
3,28
2,85
502,97
48
3,55
3,83
3,13
3,13
3,02
2,59
2,44
2,44
502,38
49
3,40
3,40
2,98
2,98
2,68
2,68
3,18
3,39
515,01
50
3,44
2,92
2,92
2,79
2,79
2,79
3,22
2,53
501,83
51
3,45
3,45
3,09
3,09
3,09
3,02
2,71
2,71
509,37
52
3,86
3,86
3,95
3,61
2,98
3,47
3,04
3,04
497,49
53
2,85
2,85
2,85
2,81
2,71
2,71
2,76
2,75
509,46
54
3,56
3,56
3,18
3,18
2,79
2,79
2,28
2,28
505,75
55
3,17
2,91
2,91
2,78
2,78
2,72
2,68
2,68
503,24
56
3,40
2,87
2,87
2,65
2,65
2,65
3,43
2,83
507,04
57
3,40
3,04
3,04
2,51
2,51
2,51
3,00
2,46
504,03
58
3,72
3,14
3,14
2,95
2,95
2,67
2,67
3,05
507,44
59
2,97
2,97
2,59
2,68
2,35
2,35
2,35
2,86
504,42
60
3,40
2,99
2,99
2,69
2,69
2,41
2,41
2,41
504,48
61
3,50
3,37
3,22
2,81
2,81
2,61
2,59
2,59
495,50
62
3,48
3,60
3,21
2,96
2,96
2,55
2,55
2,55
501,24
63
3,95
3,95
2,96
2,96
2,96
2,87
2,66
2,66
511,89
64
3,11
3,11
3,31
2,86
2,86
3,75
3,75
4,02
511,52
65
3,61
3,61
3,40
2,65
2,65
1,99
1,99
2,30
504,65
66
2,86
2,50
2,50
2,29
2,29
2,29
3,09
2,63
503,34
67
3,55
3,52
2,92
2,86
2,86
2,32
2,32
4,89
501,44
68
3,68
3,29
3,29
3,29
3,16
2,96
2,83
2,83
500,65
69
3,68
3,31
3,31
3,24
2,43
2,43
2,96
2,57
510,33
70
3,78
3,31
3,31
3,08
3,08
2,43
2,43
3,97
511,42
71
3,06
3,06
2,67
2,36
2,36
2,36
2,72
2,46
503,84
72
3,53
3,53
2,90
2,90
2,39
2,39
2,39
2,77
509,28
73
3,45
3,45
3,27
3,27
2,68
2,68
2,78
3,16
500,99
74
4,02
4,02
3,18
3,18
3,30
2,87
2,87
3,41
499,80
75
2,47
2,47
2,77
2,77
2,77
3,37
3,14
2,63
502,60
76
3,03
3,03
2,67
2,67
2,67
2,20
2,20
3,39
502,18
77
3,60
2,85
2,85
2,85
2,85
3,32
3,00
3,00
500,17
78
3,36
3,21
3,21
2,83
2,83
2,53
2,53
2,65
501,94
79
2,78
2,58
2,58
2,58
2,58
3,10
2,60
2,60
500,42
80
3,01
2,46
2,46
2,85
2,85
2,85
3,10
2,91
502,68
81
2,81
2,81
2,71
2,71
2,22
2,22
2,22
2,84
502,07
64
Kasus 2 : Populasi dengan 2 gerombol yang saling terpisah (P3) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
3 to 2
2 to 1
82
3,13
3,14
3,14
2,55
6 to 5 2,55
5 to 4 2,82
4 to 3 2,03
2,03
503,32
83
3,09
3,09
3,09
2,61
2,61
3,84
3,39
3,31
507,05
84
3,34
3,34
3,03
3,03
2,45
2,45
3,53
2,64
499,11
85
3,84
3,11
3,11
2,69
2,69
2,58
2,58
1,82
504,46
86
3,33
3,25
3,25
2,77
2,77
2,41
2,41
3,14
503,93
87
3,60
3,28
2,71
2,71
2,71
3,13
2,93
2,93
505,72
88
3,95
3,70
2,95
2,68
2,68
2,68
2,30
2,72
505,06
89
3,11
3,11
3,11
2,42
2,42
3,27
3,02
2,34
497,50
90
3,49
2,63
2,63
2,84
2,58
2,58
2,29
2,29
507,56
91
3,31
3,14
2,48
2,48
3,54
3,54
3,54
3,56
502,21
92
3,54
3,54
3,54
2,60
2,50
2,50
3,43
4,85
506,26
93
3,08
2,81
2,81
2,81
2,62
2,60
2,60
4,62
501,59
94
3,70
3,75
3,42
3,42
2,82
2,82
3,33
5,91
509,03
95
3,45
3,42
3,42
2,68
2,68
2,65
2,48
2,48
507,84
96
4,02
3,46
3,13
3,13
2,59
2,52
2,34
2,52
507,72
97
2,91
2,91
2,91
3,01
2,65
2,65
2,28
4,05
507,33
98
3,77
3,15
3,03
2,96
2,28
2,28
2,28
5,24
504,39
99
3,59
3,59
3,59
3,59
3,34
2,98
2,98
2,98
504,89
100
3,96
3,53
3,48
2,66
2,66
3,48
2,85
2,64
506,27
65
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
3 to 2
2 to 1
1
3,35
3,35
2,65
2,65
6 to 5 3,13
5 to 4 3,13
4 to 3 3,09
221,09
400,32
2
2,94
2,94
2,94
2,74
2,74
2,74
5,06
220,59
398,29
3
3,25
3,27
3,27
2,89
2,89
2,89
4,42
219,25
402,29
4
3,23
3,05
2,79
2,25
2,25
2,25
3,67
222,65
405,75
5
2,07
2,07
2,07
2,07
3,42
3,20
3,20
222,97
403,13
6
2,72
2,72
2,72
3,29
3,29
3,29
3,78
225,72
401,75
7
3,01
3,01
3,01
3,23
2,90
2,90
4,00
224,29
401,30
8
3,27
2,41
2,18
2,18
2,18
1,91
1,91
220,86
398,66
9
3,05
3,05
3,05
3,05
3,05
3,81
3,81
220,86
393,47
10
2,67
2,67
2,90
2,90
2,60
2,60
5,01
217,64
398,28
11
3,36
3,01
3,01
3,05
3,05
3,05
4,33
223,05
404,99
12
2,52
2,35
2,35
2,35
2,64
2,64
3,81
221,08
398,59
13
3,46
3,37
3,23
3,23
2,56
2,56
2,56
224,45
403,42
14
3,95
3,34
3,34
3,34
3,02
3,02
2,48
224,24
402,99
15
3,24
3,79
3,02
3,02
2,52
2,52
2,52
226,17
402,58
16
3,16
3,16
3,16
2,65
2,65
3,06
3,06
224,49
401,93
17
3,51
2,97
2,97
2,08
2,08
3,22
3,22
222,13
397,57
18
3,43
2,73
2,73
2,73
2,25
3,41
3,41
224,09
401,35
19
3,59
3,59
3,17
2,84
2,40
2,40
2,40
221,50
397,76
20
2,12
4,50
3,78
3,75
3,75
3,75
5,96
219,55
399,07
21
2,79
2,79
3,27
2,63
2,32
2,32
2,32
221,31
399,60
22
2,81
2,81
2,35
2,35
3,17
3,79
3,60
224,60
399,37
23
3,61
3,61
3,14
3,14
3,14
4,54
5,12
218,77
397,14
24
3,34
3,34
3,01
3,01
3,01
3,48
3,01
219,36
397,52
25
3,01
2,81
2,81
2,81
2,81
2,81
2,89
220,34
404,20
26
3,45
3,19
3,19
2,64
2,64
4,13
4,42
224,60
403,88
27
2,07
2,07
2,07
5,27
4,92
3,78
3,35
222,90
399,55
28
2,89
2,89
2,89
2,31
4,50
3,72
3,56
226,18
408,69
29
3,09
3,24
3,21
2,62
2,62
2,62
3,42
223,12
403,95
30
3,14
3,14
3,14
2,91
2,91
2,91
3,67
225,38
407,01
31
3,27
3,08
3,08
3,08
3,27
2,54
4,14
220,20
398,76
32
3,72
3,72
3,15
3,14
2,31
2,31
4,54
223,09
404,93
33
3,13
3,13
3,13
2,46
2,46
2,11
2,11
223,10
402,88
34
3,24
3,24
2,85
2,85
2,46
2,46
3,20
219,77
401,00
35
2,79
2,79
2,07
2,07
3,08
3,08
3,12
222,36
401,12
36
2,59
2,59
2,59
2,44
2,44
3,29
3,80
220,81
405,01
37
3,34
2,64
2,26
2,26
2,26
5,57
4,35
225,09
404,57
38
3,04
3,04
3,04
3,04
3,25
3,25
2,76
219,60
392,16
39
3,00
2,75
2,75
2,75
2,51
2,51
2,51
221,52
399,70
40
3,21
3,21
3,21
3,37
3,37
3,69
2,26
223,26
398,47
41
3,74
3,03
3,03
3,03
2,68
2,68
3,38
219,78
401,17
66
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
3 to 2
2 to 1
42
2,53
2,53
2,53
2,53
6 to 5 3,72
5 to 4 3,72
4 to 3 5,12
223,24
398,81
43
2,52
2,52
3,95
3,45
3,24
3,12
3,13
218,82
396,68
44
4,19
3,74
3,74
3,17
3,17
2,45
2,45
220,77
404,26
45
3,89
3,79
3,60
3,31
2,99
2,99
2,99
218,91
400,27
46
2,89
2,96
2,96
2,96
2,96
3,53
4,00
218,12
400,97
47
3,42
3,42
3,42
2,97
2,97
2,53
2,53
224,79
400,70
48
3,62
3,62
3,62
3,57
3,92
3,77
3,77
223,29
398,68
49
2,64
2,64
1,95
1,95
4,23
4,88
3,98
226,06
401,70
50
3,50
3,50
3,50
3,50
3,51
2,95
2,09
222,86
400,09
51
2,76
2,76
2,76
2,55
2,25
2,25
2,55
223,85
398,79
52
2,99
2,99
2,19
2,19
2,00
2,00
3,20
221,61
398,20
53
3,19
3,05
3,05
2,84
2,22
2,22
4,24
225,61
402,40
54
2,64
2,64
2,64
2,18
2,18
4,22
3,92
222,64
400,68
55
3,18
3,18
3,18
2,77
2,77
4,36
4,11
219,21
400,82
56
2,91
2,91
2,78
3,87
3,52
3,52
3,71
220,92
393,46
57
3,69
3,35
3,35
2,75
2,75
2,75
3,15
219,86
397,55
58
2,94
4,36
4,19
3,45
3,45
3,37
3,37
222,03
400,86
59
3,52
4,15
3,01
3,01
3,01
2,61
4,74
224,54
399,23
60
3,25
3,21
3,21
3,21
3,13
3,13
2,98
224,23
402,97
61
2,99
2,99
3,19
2,92
2,92
2,92
3,69
223,21
399,99
62
3,71
2,99
2,70
2,70
2,34
2,34
4,66
220,85
399,75
63
3,03
3,20
3,20
3,20
2,75
2,44
2,44
222,70
399,49
64
3,59
3,59
3,29
2,60
2,60
2,60
3,11
222,12
407,01
65
3,85
3,29
3,13
3,13
2,42
2,42
5,20
221,27
405,06
66
3,25
3,91
3,23
3,04
3,04
2,74
2,74
221,64
405,12
67
3,26
3,21
3,21
3,12
3,12
2,90
2,90
222,40
400,42
68
3,66
4,25
3,96
3,03
3,03
2,35
4,80
223,87
402,32
69
2,55
2,55
3,47
3,08
3,08
2,57
2,57
220,75
400,59
70
3,36
3,12
3,12
3,09
2,53
2,53
3,09
222,40
402,62
71
3,47
2,85
2,85
2,85
3,56
3,56
3,65
221,45
397,83
72
2,98
2,25
2,25
2,25
4,41
4,41
4,01
221,38
400,13
73
3,04
3,04
2,64
2,64
2,64
2,64
2,77
227,50
407,33
74
2,86
2,79
2,79
2,45
2,45
2,45
3,77
220,15
395,33
75
3,11
2,50
2,50
3,28
3,43
3,43
5,48
222,37
401,25
76
2,63
2,63
3,93
3,93
4,54
3,47
3,47
222,33
399,88
77
3,73
3,73
3,44
3,44
2,89
2,89
2,89
220,69
396,31
78
3,53
3,53
3,53
2,68
2,68
2,46
2,46
221,20
394,72
79
3,64
2,66
2,66
4,30
4,29
4,29
5,28
223,28
403,70
80
3,26
3,26
2,82
2,82
2,82
3,09
3,99
221,01
403,11
81
2,70
2,70
2,29
2,29
2,91
3,85
3,40
222,57
401,92
82
4,00
4,00
3,22
2,50
2,50
2,50
4,36
223,43
403,69
67
Kasus 3 : Populasi dengan 3 gerombol yang saling terpisah (P4) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 Ulangan Ulangan
Jarak Penggabungan
83
2,91
2,91
4,47
4,47
5,17
5,17
4,65
223,66
400,49
84
2,83
3,94
3,76
3,76
3,68
2,99
2,99
223,40
406,97
85
2,88
2,68
2,68
2,68
3,28
3,03
2,29
223,88
403,41
86
3,21
3,21
3,21
2,86
2,86
2,86
3,55
222,13
401,08
87
2,95
2,95
2,95
2,95
3,14
3,14
3,99
224,59
400,18
88
3,31
3,08
3,08
3,08
2,79
2,79
6,01
226,13
401,97
89
2,99
2,45
2,45
2,45
3,89
3,89
2,97
222,01
396,29
90
3,47
3,47
3,26
2,79
2,79
2,79
3,57
221,27
399,29
91
3,30
3,30
3,30
3,30
2,48
2,48
2,42
223,08
398,92
92
3,70
3,70
3,70
2,56
2,56
2,56
3,76
222,74
399,14
93
2,47
2,47
2,47
2,47
3,38
3,38
5,51
223,13
396,92
94
2,69
2,35
2,35
2,35
2,35
4,44
3,97
222,43
400,97
95
2,91
2,91
2,91
2,91
2,89
2,89
2,89
225,35
402,48
96
4,52
4,52
4,46
4,46
4,98
3,88
3,79
223,30
401,75
97
3,20
3,10
3,10
3,10
3,20
3,20
3,35
220,32
402,57
98
3,34
3,34
3,34
3,34
2,69
3,61
3,61
221,89
394,50
99
3,26
2,56
2,56
3,76
3,76
4,25
3,19
225,90
408,49
100
3,18
3,18
3,18
2,87
2,87
2,87
4,04
221,34
399,06
68
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 ulangan Jarak Penggabungan Ulangan
10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
1
3,65
3,65
3,65
3,39
5,51
14,73
18,61
224,26
314,22
2
2,91
2,91
2,91
2,24
8,94
10,46
17,73
217,61
311,24
3
2,94
2,94
2,94
4,29
4,36
16,60
23,59
226,70
314,12
4
4,51
4,17
4,27
3,48
3,02
14,41
17,51
224,67
317,09
5
3,78
4,67
4,67
4,67
4,03
10,09
16,23
225,49
316,07
6
3,66
3,66
3,00
3,00
7,63
10,23
14,44
226,63
313,61
7
3,14
3,14
3,14
2,91
7,19
11,65
15,96
216,66
311,76
8
2,33
2,33
4,14
4,14
4,14
16,22
21,01
220,59
310,08
9
3,56
3,56
3,56
3,29
3,48
16,10
23,02
225,35
315,06
10
4,01
3,25
3,25
2,39
4,03
14,98
23,29
222,92
312,10
11
3,75
3,75
3,00
3,00
2,72
11,37
20,79
220,21
308,64
12
3,07
2,39
2,39
2,39
6,80
9,80
20,29
224,08
310,45
13
3,74
3,74
3,50
3,50
3,50
13,60
17,66
219,61
316,71
14
2,93
2,93
4,04
4,69
4,69
14,43
19,86
222,93
318,51
15
3,09
3,09
3,09
2,44
2,44
11,56
19,50
227,57
317,52
16
3,46
3,46
6,27
6,27
6,27
15,37
20,36
222,82
309,86
17
3,79
3,79
3,79
3,65
3,65
13,67
18,83
222,39
312,65
18
2,93
2,93
5,25
5,25
7,10
14,31
19,21
219,93
307,16
19
3,11
3,11
3,45
3,45
3,45
10,84
15,21
220,69
312,09
20
3,17
3,17
3,17
3,09
3,09
12,46
19,37
218,64
311,99
21
3,22
3,22
2,70
2,70
3,45
14,28
17,59
225,95
315,93
22
3,50
3,50
3,50
2,78
3,72
13,70
21,52
215,86
312,52
23
3,87
3,87
3,87
5,39
5,80
15,29
19,56
221,79
307,17
24
3,14
3,14
4,37
4,37
5,77
9,05
12,61
221,90
308,81
25
3,86
3,86
3,86
3,78
2,82
13,80
21,44
220,32
310,12
26
2,89
2,89
2,83
2,83
2,84
11,50
21,33
223,21
314,29
27
3,78
3,78
3,82
3,45
3,45
12,55
16,71
221,96
309,40
28
3,53
3,53
3,53
3,44
5,11
15,50
21,58
222,11
312,69
29
3,62
3,19
2,45
2,45
2,91
16,90
20,06
225,07
312,28
30
3,36
3,18
3,18
3,18
4,31
14,61
19,21
222,65
308,60
31
3,02
6,02
5,90
5,90
5,90
15,08
20,31
220,74
316,53
32
3,78
3,78
3,78
3,85
2,95
13,90
22,33
222,68
309,87
33
3,82
4,13
4,75
4,65
4,65
15,95
22,80
217,05
311,32
34
3,73
3,58
3,58
2,76
2,76
11,05
22,31
217,43
304,61
35
4,81
3,52
3,52
3,22
3,33
14,50
21,57
219,44
312,07
36
2,91
2,91
2,38
2,38
2,38
13,36
18,59
223,60
311,20
37
3,36
3,36
3,02
3,02
3,02
13,36
18,05
218,90
311,60
38
3,32
3,08
3,08
2,24
2,24
14,48
18,24
220,89
307,34
39
3,57
3,57
3,22
3,22
3,85
14,05
20,08
224,37
314,68
40
3,53
3,20
5,60
5,60
5,82
8,55
11,74
223,23
309,07
41
2,83
2,83
3,26
3,26
3,26
4,71
14,78
19,00
227,38
69
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 ulangan Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
42
3,62
3,06
2,54
2,54
4,23
16,27
20,01
219,68
312,20
43
3,71
3,71
4,29
5,54
5,51
15,74
21,23
225,54
315,18
44
4,02
4,02
3,55
3,55
3,54
12,31
17,39
223,06
311,34
45
3,60
3,31
2,65
2,65
2,65
12,72
17,04
223,90
312,98
46
3,23
2,58
2,58
2,58
4,77
15,51
21,64
220,77
315,42
47
3,48
2,69
2,69
2,24
7,30
14,62
19,17
220,79
309,08
48
4,50
4,20
4,17
3,17
3,17
15,97
19,51
216,59
310,86
49
4,14
4,19
4,19
4,19
5,87
13,29
15,97
217,65
310,78
50
3,62
3,62
3,65
3,49
3,49
14,81
19,97
220,76
317,24
51
4,71
4,09
3,22
2,90
2,90
13,40
18,25
222,99
314,90
52
4,30
4,30
4,47
4,69
4,69
14,11
19,03
226,83
315,92
53
2,97
2,97
2,97
3,28
3,28
16,69
21,10
220,91
317,83
54
6,08
7,42
6,78
6,68
6,68
15,60
18,17
222,41
319,70
55
3,79
3,79
3,16
6,11
6,57
14,78
18,03
219,77
308,45
56
2,93
2,93
5,90
5,90
10,01
11,62
14,54
223,63
316,15
57
2,85
4,34
6,15
6,15
5,42
14,64
19,07
221,04
311,50
58
4,72
4,72
5,96
6,19
5,99
5,99
19,45
225,54
320,16
59
3,73
3,73
3,23
3,23
3,23
11,58
16,89
222,81
310,67
60
2,99
2,99
3,01
4,52
4,52
15,13
22,55
219,35
309,81
61
3,04
2,48
2,48
2,05
2,05
12,33
17,12
216,78
305,21
62
3,76
3,76
3,11
3,11
3,11
15,64
20,24
220,98
315,57
63
2,56
3,99
4,63
4,88
4,88
15,35
24,32
218,03
303,21
64
4,16
3,68
3,51
3,51
2,80
13,93
18,80
219,50
311,81
65
3,40
3,40
3,40
3,05
3,05
7,84
18,93
227,26
314,57
66
2,68
2,68
2,68
4,00
6,19
16,20
20,04
222,79
311,01
67
3,68
3,68
3,68
3,68
3,76
13,72
17,88
225,95
312,68
68
3,40
3,35
3,35
2,96
2,96
16,98
22,02
216,67
313,50
69
3,15
3,15
3,15
5,54
6,38
14,80
21,20
223,16
310,47
70
4,35
3,87
3,41
3,27
3,27
10,86
19,66
219,24
311,19
71
3,41
3,41
3,19
3,19
3,19
17,61
21,41
230,05
319,88
72
3,54
3,54
3,43
2,56
8,79
14,01
23,03
221,40
310,45
73
3,35
3,35
2,54
2,54
4,24
13,69
18,09
222,64
308,17
74
3,83
3,08
3,08
3,08
2,71
12,59
17,73
222,11
311,50
75
3,08
3,08
2,59
2,46
2,46
13,24
15,79
221,86
318,32
76
4,87
4,68
3,68
3,31
2,97
14,30
19,75
223,79
312,47
77
3,23
4,17
3,09
3,09
3,74
13,68
16,42
220,63
308,87
78
3,16
3,16
3,16
2,81
2,59
13,18
19,46
228,23
318,04
79
3,64
3,64
3,18
3,18
2,94
16,11
20,80
225,50
313,68
80
3,21
3,21
3,21
6,56
6,56
9,86
20,84
215,58
309,22
81
3,37
3,37
3,27
3,27
3,27
16,47
22,29
225,73
315,84
70
Kasus 4 : Populasi dengan 5 gerombol yang saling tumpang tindih (P5) dan peubah kontinu (V1) Ukuran data = 500, dengan 100 ulangan Jarak Penggabungan 10 to 9
9 to 8
8 to 7
7 to 6
6 to 5
5 to 4
4 to 3
3 to 2
2 to 1
82
2,78
3,95
3,95
3,95
6,88
13,05
17,03
219,16
318,17
83
3,80
3,42
3,42
6,00
4,57
14,63
24,07
224,54
313,35
84
3,33
3,33
3,33
3,05
3,05
14,37
19,58
221,72
308,30
85
4,28
3,77
3,03
3,03
2,67
15,43
22,38
218,30
313,77
86
3,49
3,49
3,49
3,95
3,95
16,76
21,99
222,97
313,92
87
3,84
3,84
3,22
3,22
3,22
10,41
20,19
222,75
313,31
88
3,73
2,83
2,83
2,83
3,92
14,63
21,33
225,04
311,70
89
4,13
4,13
4,92
4,50
4,50
15,20
18,87
224,74
310,97
90
3,11
3,11
3,11
4,09
7,54
11,72
16,08
223,80
321,00
91
3,64
3,38
3,38
3,32
2,80
17,61
22,02
217,47
310,74
92
3,77
3,47
3,02
3,02
7,75
10,79
21,93
220,37
313,44
93
3,00
3,00
2,34
2,34
11,24
12,77
16,84
221,12
316,55
94
3,11
3,11
3,11
6,16
6,16
9,13
12,45
223,03
311,93
95
2,82
3,40
3,40
2,27
2,27
11,47
20,35
227,69
315,31
96
2,63
2,63
4,17
4,17
4,17
10,55
15,11
220,06
311,04
97
2,66
2,39
2,39
4,89
5,73
18,13
21,95
226,84
317,15
98
2,77
2,77
2,77
2,39
9,69
14,95
18,74
226,27
314,50
99
3,83
3,83
3,83
3,83
3,14
13,70
20,35
221,66
316,48
100
3,14
3,14
3,14
3,06
3,06
12,15
20,43
219,98
304,43