KAJIAN SELF-ORGANIZING MAPS (SOM) DALAM PENGELOMPOKAN OBJEK (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan)
IRWAN THAHA
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA* Dengan ini saya menyatakan bahwa tesis berjudul Kajian Self-Organizing Maps (SOM) dalam Pengelompokan Objek (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juli 2013 Irwan Thaha NRP G151110091
RINGKASAN IRWAN THAHA. Kajian Self-Organizing Maps (SOM) Dalam Pengelompokan Objek (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan). Dibimbing oleh ERFIANI dan I MADE SUMERTAJAYA. Penggerombolan adalah proses mengelompokkan objek ke dalam kelompokkelompok yang memiliki kemiripan. Hasil dari penggerombolan akan menunjukkan bahwa objek-objek yang dalam satu gerombol akan lebih homogen dibandingkan antar gerombol. Terdapat dua metode dalam analisis gerombol klasik yaitu metode penggerombolan berhirarki dan tak berhirarki. Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan secara subjektif. Metode penggerombolan lain juga berkembang dengan menggunakan kecerdasan buatan. Jaringan syaraf tiruan (artificial neural network) adalah suatu paradigma pengolahan informasi yang diilhami oleh sistem biologi yaitu neuron, seperti otak yang memproses informasi. Self organizing maps (SOM) merupakan salah satu bentuk topologi dari Unsupervised Artificial Neural Network (Unsupervised ANN) yang dalam proses trainingnya tidak memerlukan pengawasan (target output). Penerapan penggerombolan menggunakan algoritme SOM diharapkan dapat dijadikan alat untuk menganalisis data sehingga diperoleh karakteristik dari data yang akan dikelompokkan. Penggerombolan digunakan untuk mengelompokkan data secara alamiah tanpa berdasarkan target kelas tertentu. Pada penelitian ini, SOM dibandingkan dengan metode penggerombolan dengan ukuran data besar yaitu two step cluster (TSC). Menurut Bacher (2004), metode two step cluster merupakan suatu metode penggerombolan yang dapat mengatasi masalah skala pengukuran, khususnya untuk data berukuran besar dengan peubah yang memiliki tipe data kategorik dan numerik. Kinerja penggerombolan SOM dan metode two step cluster dibandingkan melalui data simulasi, dan selanjutnya menerapkan metode SOM pada penggerombolan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan. Data dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data sekunder. Data simulasi berupa data bangkitan sebaran normal ganda (μ,Ʃ) yang berguna untuk mengukur kinerja metode two step clster dan SOM dalam mengelompokkan objek. Data sekunder yang digunakan dalam penelitian ini berupa data dari Badan Pusat Statistik (BPS) wilayah/desa di kecamatan di Kabupaten Wajo provinsi Sulawesi Selatan adalah data Potensi Desa (PODES) tahun 2011. Data simulasi merupakan data bangkitan dengan tipe data numerik (M) yang terdiri dari tiga bentuk populasi yaitu satu populasi yang beranggotakan tiga gerombol yang berpisah secara tegas, satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah kecil, dan satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah besar. Hasil dari metode SOM dan TSC untuk data simulasi, memiliki kemampuan untuk mengelompokkan data dengan baik, namun TSC memberikan hasil pengelompokan yang lebih baik untuk ukuran data yang besar dibandingkan dengan SOM. Selain itu, juga terlihat bahwa semakin besar jumlah data maka kesalahan
pengelompokan SOM akan berubah menjadi lebih besar, namun perubahannya relatif kecil. Sebaliknya, semakin besar jumlah data maka kesalahan pengelompokan metode TSC semakin kecil. Data sekunder yang digunakan dalam penelitian ini berupa dokumentasi tertulis dan identifikasi peubah yang digunakan tentang desa/kelurahan di Kabupaten Wajo Provinsi Sulawesi Selatan adalah data Potensi Desa (PODES) tahun 2011 yaitu: X1 (jumlah penduduk), X2 (keluarga tani), X3 (keluarga buruh tani), X4 (keluarga pengguna listrik), X5 (bahan bakar untuk memasak sehari-hari), X6 (fasilitas pendidikan), X7 (tenaga kesehatan), X8 (kematian penduduk). Objek dalam terapan penelitian ini adalah seluruh desa/kelurahan di Kabupaten Wajo. Hasil penggerombolan dengan metode SOM desa/kelurahan di Kabupaten Wajo menghasilkan 3 gerombol. Gerombol yang terbentuk memiliki nilai deskriptif yang sama antar gerombol dan setiap gerombol yang terbentuk didominasi oleh beberapa kecamatan di daerah tersebut. Beberapa desa/kelurahan lain yang yang tergabung juga memiliki kemiripan dari peubah pencirinya, misalkan berada di sekitar kecamatan tersebut. Kata kunci: penggerombolan, self-organizing maps, two step cluster, Kabupaten Wajo
SUMMARY IRWAN THAHA. Studies of Self-Organizing Maps (SOM) In Grouping Objects (case study: grouping of villages/urbans in Wajo Regency, South Sulawesi). Supervised by ERFIANI and I MADE SUMERTAJAYA. Clustering is a process of classifying objects into groups which have similarity. The result of clustering will show that objects in one cluster will be more homogeneous than others. There are two methods in classic clustering analysis i.e. hierarchical cluster method and non-hierarchical cluster method. Determination of the number of clusters which formed by them is done subjectively. The cluster other methods also developed by using artificial intelligence. Artificial neural network is an information processing paradigm that inspired by the biology systems, it is neuron. Like brain which process information. Self-organizing maps (SOM) is one of the topology of Unsupervised Artificial Neural Network (Unsupervised ANN) which process does not require monitoring in his training. Application clustering using SOM algorithm is expected to be used as a tool to analyze the data in order to obtain the characteristics of the data that will be grouped. Clustering is used to group the data naturally without based on the specific class target. In this study, SOM compared with clustering method with large data sizes, it was two-step cluster. According to Bacher (2004), two-step cluster method (TSC) was a cluster method which can resolve the problem clustering measurement scale, especially for large data with variables which have categorical and numerical data types. Performance clustering SOM and two-step cluster method compared by the simulation data, afterwards, applying the method of SOM on clustering villages/urbans in Wajo regency, South Sulawesi. The data in this study consisted of two sources i.e. simulated data and secondary data. Simulated data was generated data multivariate distribution (μ,Ʃ) which useful to measure the performance of two-step cluster method and SOM in classifying an object. Secondary data, which used in this study, BPS’s data in Wajo regency, South Sulawesi, was Village Potential Data (VPD) in 2011. Simulation data was the generated data numeric type (M) which consisted of three forms of the population i.e. a). a population consisted of three clusters were clearly separated, b). a population which consisted of three clusters of overlapping (overlap) each other in small numbers, and c). a population that consisted of three clusters of overlapping (overlap) each other in large numbers. The results of methods SOM and TSC showed that simulation data has the good ability to classify data, however, TSC provides better clustering results for large data sizes than SOM. In addition, it is also showed that the larger the number of data, the misclassification of SOM would become larger, nevertheless, the changes were relatively smaller. In the other hand, the larger the number of data the misclassification of TSC method was become smaller. Secondary data, which used in this study, written documentation and identification of used variables about areas/villages in Wajo regency, South Sulawesi, was Village Potential Data (VPD) in 2011 i.e. : X1 (total population), X2 (family farm), X3 (family farm laborer), X4 (family power user), X5 (fuel for daily
cooking), X6 (educational facilities), X7 (health personnel), X8 (population mortality). Objects in this research were applied around the village/urbans in Wajo district. The results of clustering with SOM method, village/urbans in the Wajo regency produced 3 clusters. The formed clusters have the same descriptive value between clusters, and each clusters which formed, was dominated by a few districts in that area. Some other villages/urbanss incorporated also have similar caracteristic of variables, e.g. they being around the district. Keywords: clustering, self-organizing maps, two-step cluster, Wajo
© Hak Cipta Milik IPB, Tahun 2013 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB
KAJIAN SELF-ORGANIZING MAPS (SOM) DALAM PENGELOMPOKAN OBJEK (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan)
IRWAN THAHA
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2013
Penguji Luar Komisi pada Ujian Tesis: Farit Mochamad Afendi
Judul Tesis : Kajian Self-Organizing Maps (SOM) dalam pengelompokan objek (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan) Nama : Irwan Thaha NRP : G151110091
Disetujui oleh Komisi Pembimbing
Dr Ir Erfiani, MSi Ketua
Dr Ir I Made Sumertajaya, MSi Anggota
Diketahui oleh
Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr Ir Erfiani, MSi
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 15 Juli 2013
Tanggal Lulus:
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah yang berjudul “Kajian Self-Organizing Maps (SOM) dalam pengelompokan objek (studi kasus: pengelompokan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan)” berhasil diselesaikan. Terima kasih penulis ucapkan kepada 1. Ibu Dr Ir Erfiani, MSi selaku pembimbing I dan ketua program studi Pascasarjana Statistika dan Bapak Dr Ir I Made Sumertajaya, MSi selaku pembimbing II, yang telah banyak memberikan bimbingan dan saran dalam penyusunan karya ilmiah ini. 2. Penguji luar komisi bapak Farit Mochamad Afendi, Ph D pada ujian tesis, yang telah memberikan kritik dan saran dalam perbaikan penyusunan karya ilmiah ini. 3. Kedua orangtua, papa dan mama, serta seluruh keluarga, atas segala doa dan kasih sayangnya. 4. Sahabat mahasiswa pascasarjana Statistika dan Statistika Terapan IPB 2011 atas kebersamaannya. Semoga karya ilmiah ini bermanfaat.
Bogor, Juli 2013 Irwan Thaha
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
1 PENDAHULUAN Latar Belakang Tujuan Penelitian
1 1 2
2 TINJAUAN PUSTAKA Analisis Gerombol Self-Organizing Maps (SOM) Indeks Davies-Bouldin Two Step Cluster (TSC) Penentuan Jumlah Gerombol TSC Ukuran Jarak
3 3 4 6 6 8 9
3 METODE PENELITIAN Data Metode
11 11 14
4 HASIL DAN PEMBAHASAN Simulasi Perbandingan Kinerja SOM dan TSC Penerapan Metode SOM
17 17 19 22
5 SIMPULAN DAN SARAN Simpulan Saran
26 26 26
DAFTAR PUSTAKA
27
LAMPIRAN
28
RIWAYAT HIDUP
34
DAFTAR TABEL 1 2 3 4 5 6
Eksplorasi data simulasi dan persentasi overlap 11 Learning Rate dan Penurunan LR setiap scenario dengan IDB terkecil 17 Eksplorasi data simulasi 18 Hasil penggerombolan dengan metode SOM dan TSC 19 Nilai koefisien korerasi antar peubah 23 Eksplorasi peubah tiap gerombol 25
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9
Ilustrasi sebaran gerombol yang terpisah secara tegas Ilustrasi sebaran gerombol yang overlap dalam jumlah kecil Ilustrasi sebaran gerombol yang overlap dalam jumlah besar Diagram alir tahapan penelitian CP dan U-matriks skenario I CP dan U-matriks skenario II CP dan U-matriks skenario III Visualisasi U-matriks dan CP desa/kelurahan Output dengan jumlah 3 gerombol
11 12 13 16 20 21 22 23 24
DAFTAR LAMPIRAN 1 Kombinasi LR dan PLR dengan nilai IDB terkecil untuk masing-masing skenario 28 2 Nilai IDB terkecil masing-masing jumlah gerombol yang terpilih 31
1
1 PENDAHULUAN Latar Belakang Penggerombolan adalah proses mengelompokkan objek ke dalam kelompok-kelompok yang memiliki kemiripan. Hasil dari penggerombolan akan menunjukkan bahwa objek-objek yang dalam satu gerombol akan lebih homogen dibandingkan antar gerombol. Terdapat dua metode dalam analisis gerombol klasik yaitu metode penggerombolan berhirarki dan tak berhirarki. Penentuan jumlah gerombol yang terbentuk untuk dua metode ini dilakukan secara subjektif. Pada metode penggerombolan berhirarki, penentuan besarnya pemotongan (cut off) pada dendogram masih ditentukan oleh peneliti. Sedangkan pada metode penggerombolan non hirarki, penentuan banyaknya jumlah gerombol akhir ditentukan oleh pengetahuan dan pengalaman peneliti (Hair et al. 1998). Kedua metode ini berbasis pada data yang berskala interval atau rasio. Metode penggerombolan lain juga berkembang dengan menggunakan kecerdasan buatan. Jaringan syaraf tiruan (artificial neural network) adalah suatu paradigma pengolahan informasi yang diilhami oleh sistem biologi yaitu neuron, seperti otak yang memproses informasi. Kunci jaringan syaraf tiruan (JST) adalah struktur sistem pengolahan informasi, yang terdiri atas sejumlah unsur-unsur (syaraf) yang bekerja saling berhubungan untuk memecahkan permasalahan spesifik. Proses pembelajaran terhadap perubahan bobot dalam jaringan syaraf tiruan ada dua, yaitu pembelajaran terawasi (supervised learning) dan pembelajaran tak terawasi (unsupervised learning) (Klobucar dan Subasic 2012). Self organizing maps (SOM) merupakan salah satu bentuk topologi dari Unsupervised Artificial Neural Network (Unsupervised ANN) yang dalam proses pembelajarannya tidak memerlukan pengawasan (target output). Penerapan penggerombolan menggunakan algoritme SOM diharapkan dapat dijadikan alat untuk menganalisis data sehingga diperoleh karakteristik dari data yang akan dikelompokkan. Penggerombolan digunakan untuk mengelompokkan data secara alamiah tanpa berdasarkan target kelas tertentu, sedemikian sehingga objek-objek dalam gerombol yang sama lebih mirip dibandingkan dengan objek-objek dalam gerombol yang lain. Metode pembelajarannya dilakukan dengan update weight berdasarkan input sensor yang terdapat pada vektor input. SOM diperuntukkan untuk ukuran data besar dan kecil serta mampu memvisualisasikan hasil penggerombolan tersebut dalam dimensi lebih rendah. Kemampuan dalam visualisasi ini dapat mengatasi masalah dalam metode cluster lain yang sulit jika ukuran data besar, misalnya penggunaan dendogram. Pada penelitian ini, SOM akan dibandingkan dengan metode penggerombolan dengan ukuran data besar yaitu two step cluster. Menurut Bacher (2004), metode two step cluster merupakan suatu metode penggerombolan yang dapat mengatasi masalah skala pengukuran, khususnya untuk data berukuran besar dengan peubah yang memiliki tipe data kategorik dan numerik. Fungsi jarak yang digunakan adalah jarak Euclidian atau jarak Log Likelihood. Hasil dari metode ini adalah mengetahui gerombol optimal yang terbentuk. Gerombol optimal memiliki jarak antar gerombol yang paling jauh, dan jarak antar obyek yang paling dekat. Persentasi salah klasifikasi dari metode two step cluster tidak
2 berbeda nyata dengan yang dihasilkan dari metode gerombol tak berhirarki misalnya k-means jika peubahnya kontinu (Lathifaturrahmah 2010). Beberapa penelitian yang menggunakan SOM dan two step cluster dalam penggerombolan objek, diantaranya: Fujino dan Yoshida (2006), Annas et al. (2007) menggunakan PCA dan SOM dalam bidang kehutanan untuk klasifikasi dan risiko kebakaran wilayah hutan, begitupun dengan Klobucar dan Subasic (2012). Hasil penelitian tersebut memberikan kesimpulan bahwa SOM melakukan pengurangan dimensi nonlinear dan menghasilkan penggerombolan yang baik, dan merupakan dasar yang baik untuk hasil visualisasi data. Namun, SOM akan memberikan kinerja yang buruk jika terdapat hubungan linier antar variabelnya. Edward dkk (2006) menggunakan Indeks Davies-Bouldin (IDB) untuk validasi gerombol. Adapun penelitian yang menggunakan two step cluster untuk penggerombolan diantaranya Lathifaturrahmah (2010) membandingkan hasil penggerombolan metode k-means, fuzzy k-means dan two step cluster untuk menentukan jumlah gerombol yang ideal untuk masing-masing metode. Pada penelitian tersebut, hasil two step cluster relatif jauh berbeda dari metode lainnya diantaranya dipengaruhi oleh kesesuaian metode dengan jumlah data yang digunakan. He et al. (2005) dan Shih et al. (2010) menggunakan metode two step cluster untuk data numerik dan kategorik. Hasil percobaan menunjukkan bahwa pendekatan data yang diusulkan dengan tipe numerik dan kategorik dapat mencapai kualitas tinggi dari hasil penggerombolan. Pada penelitian ini akan dibandingkan kinerja penggerombolan SOM dan metode two step cluster melalui data simulasi, dan selanjutnya menerapkan metode SOM pada penggerombolan desa/kelurahan di Kabupaten Wajo Sulawesi Selatan.
Tujuan
1. 2.
Tujuan dari penelitian ini adalah: Membandingkan hasil penggerombolan metode SOM dan two step cluster (TSC) Menerapkan metode SOM pada penggerombolan kondisi sosial desa/kelurahan di Kabupaten Wajo Sulawesi Selatan
3
2 TINJAUAN PUSTAKA Analisis Gerombol Analisis gerombol merupakan salah satu dari teknik penggerombolan peubah ganda (multivariate) yang tujuan utamanya adalah mengelompokkan objek berdasarkan atas kriteria yang dimiliki. Analisis gerombol mengelompokkan objek, sehingga antara satu objek dengan objek lainnya yang terletak dalam satu gerombol akan memiliki kesamaan tinggi yang sesuai dengan kriteria pemilihan yang ditentukan. Hasil dari penggerombolan harus memperlihatkan keragaman yang homogen di dalam gerombol dan keragaman yang heterogen antargerombol yang terbentuk (Hair et al. 1998). Ada dua metode dalam analisis gerombol satu tahap, yaitu: Metode berhirarki Metode pengelompokan berhirarki ditujukan untuk ukuran contoh kecil. Pengelompokan berhirarki menghasilkan seluruh kemungkinan terbentuknya gerombol. Metode pengelompokan berhirarki digunakan apabila banyak gerombol yang akan dibentuk belum diketahui sebelumnya. Pada dasarnya, terdapat dua prosedur pada pengelompokan berhirarki, yaitu prosedur penggabungan (agglomerative) dan prosedur pembagian (divisive). Metode agglomerative dimulai dengan n buah gerombol yang masingmasing beranggotakan satu objek. Kemudian dua gerombol yang paling dekat digabung dan ditentukan kembali kedekatan antargerombol yang baru. Proses ini berlanjut sampai didapatkan satu gerombol yang anggotanya adalah seluruh objek. Metode divisive dimulai dengan satu gerombol yang anggotanya adalah seluruh objek, kemudian objek-objek yang paling jauh dipisah dan membentuk gerombol lain. Proses ini berlanjut sampai semua objek masing-masing membentuk satu gerombol. Dalam metode berhirarki terdapat beberapa ukuran jarak antargerombol, antara lain metode pautan tunggal (single linkage), pautan lengkap (complete linkage), pautan rataan (average linkage), metode Ward, dan metode centroid. Fungsi jarak yang sering digunakan diantaranya adalah jarak Euclidean dan jarak Mahalanobis. Metode tak berhirarki Pada metode pengelompokan tak berhirarki, peneliti harus terlebih dahulu menentukan jumlah gerombol yang diinginkan. Salah satu contoh dari metode ini adalah metode K-means. Pada metode ini harus ditentukan terlebih dahulu besarnya k, yaitu banyaknya gerombol. Pemilihan k dapat ditentukan secara subjektif berdasarkan latar belakang bidang masing-masing. Jarak yang biasanya digunakan adalah jarak Euclidean. Penentuan pusat gerombol merupakan langkah awal pada metode ini. Langkah selanjutnya adalah menentukan gerombol dari tiap objek, yaitu berdasarkan atas kedekatan ukuran jarak Euclidean terhadap mean dari masing-masing gerombol.
4
Self-Organizing Maps (SOM) Kohonen Self Organizing Feature Maps, disingkat dengan SOFM atau lebih terkenal dengan istilah SOM ditemukan dan dikembangkan oleh Teuvo Kohonen 1982, seorang profesor di Academy of Finland. Metode ini memungkinkan untuk menggambarkan data multidimensi ke dalam dimensi yang lebih kecil, biasanya satu atau dua dimensi. Proses penyederhanaan ini dilakukan dengan mengurangi vektor yang menghubungkan masing-masing node. Cara ini disebut juga dengan Vektor Quantization. Teknik yang dipakai dalam metode SOM dilakukan dengan membuat jaringan yang menyimpan informasi dalam bentuk hubungan node dengan training set yang ditentukan (Annas et al. 2007). SOM merupakan salah satu bentuk topologi dari Unsupervised Artificial Neural Network (Unsupervised ANN) dimana dalam proses pelatihannya tidak memerlukan pengawasan (target output). SOM digunakan untuk mengelompokkan (penggerombolan) data berdasarkan karakteristik/fitur-fitur data. SOM menggunakan competitive unsupervised learning dengan bobot awal diberikan secara acak dan disesuaikan selama dalam proses pengelompokan. Nodes akan mengelompok ke dalam gerombol berdasarkan kemiripannya. Sampel yang paling umum dari SOM adalah Kohonen Self-organizing Maps dengan 1 lapisan input dan 1 lapisan khusus yang menghasilkan nilai-nilai keluaran yang saling berkompetisi. Nodes pada lapisan khusus ini dipandang sebagai grid 2 dimensi berisi nodes dengan fungsi aktivasinya yang masing-masing terhubung dengan tiap input node oleh satu arc yang memiliki suatu nilai bobot. Data dapat dimasukkan ke dalam banyak competitive nodes secara parallel (Klobucar and Subasic 2012). Penggunaan SOM dalam memvisualisasikan struktur gerombol data tidak memiliki kelemahan tertentu yang dimiliki oleh teknik gerombol lainnya. Meskipun SOM dapat digunakan untuk memvisualisasikan gerombol, kadangkadang diperlukan spesifikasi lebih lanjut dari gerombol SOM. Dalam hal lain bahwa semua algoritme penggerombolan termasuk SOM biasanya mempunyai masalah dalam menentukan batas-batas kelompok. Ini adalah masalah yang menyebabkan kesulitan untuk menghasilkan tingkat klasifikasi tinggi output SOM. Metode SOM lebih fleksibel terhadap berbagai asumsi, sehingga dapat digunakan untuk berbagai jenis data (Annas et al. 2007). Ada tiga jenis visualisasi dari SOM yang digunakan (Annas et al. 2007) yaitu: Unified distance matrix (U-matrix), Component Planes (CP), dan Color Coding. 1. U-matriks U-matriks menggambarkan jarak antara node terdekat pada peta SOM. Jika menggunakan algoritme SOM, ukuran jarak dapat dihitung antara vektor dari node dengan yang di sekitarnya. Nilai tertinggi yang berarti jarak antara node yang berdekatan pada U-matriks dan indikasi ini menjadi wilayah pembeda antara kelompok. Nilai terendah menggambarkan persamaan node pada wilayah kelompok tersebut. 2. Component Planes (CP) Component Planes (CP) menggambarkan bentuk awal tiap indikator nilai vektor pada node. Visualisasi CP mampu merealisasikan pola kelompok dari distribusi data pada grid node dan menghasilkan korelasi antara peubah input. U-
5
matriks dan CP dapat divisualisasikan secara simultan dengan menggunakan SOM. Visualisasi ini dapat digunakan untuk membuat pengertian dari peubah yang termasuk dalam kelompok. 3. SOM color-coding SOM color-coding juga ditambahkan untuk pembuatan informasi pada peta. Metode kombinasi seperti ukuran jarak dan kode warna mampu meningkatkan tampilan pengelompokan SOM. Nilai jarak digunakan untuk mendefinisikan node dengan perbedaan warna, yang memberikan kejelasan penggambaran kelompok. Code warna menandai node menurut struktur kelompok. Kelompok yang memiliki kesamaan nilai akan diwarnai seragam, jika wilayah dari peta tidak sesuai dengan kelompok, maka akan mempunyai warna yang berbeda. Sehingga, SOM color-coding menguraikan tanda node, yang menjadi masalah bagaimana membedakan wilayah antara kelompok yang dapat dijelaskan jika pewarnaannya tidak jelas untuk menyatakan batas dari kelompok. Algoritme SOM
1. 2. 3. 4.
Algoritma SOM terdiri atas (Siang, 2005): Mengisikan bobot antar neuron input dan output wji dengan bilangan random 0 sampai 1. Menetapkan parameter learning rate (η) Memilih salah satu input dari vektor input yang ada. Menghitung jarak (dj) antarvektor input terhadap vektor output dengan masing-masing neuron output dengan rumus: 𝑛
𝑑𝑗 = ∑(𝑤𝑗𝑖 − 𝑥𝑖 )
2
𝑖=1
5. 6.
Mencari nilai terkecil dari seluruh bobot (dj). Index dari bobot (dj) yang paling mirip disebut winning neuron. Memperbarui setiap bobot μij dengan menggunakan rumus: 𝑤𝑗𝑖 𝑛𝑒𝑤 = 𝑤𝑗𝑖 𝑜𝑙𝑑 + 𝜂(𝑥𝑖 − 𝑤𝑗𝑖 𝑜𝑙𝑑)
7. 8. 9.
Memperbarui learning rate. Menyimpan bobot yang telah konvergen. Mengulangi langkah 6 sampai dengan langkah 7 hingga tidak ada perubahan pada bobot map atau telah mencapai iterasi atau epoch maksimal.
Perubahan tingkat pembelajaran (LR/α/η) 0 < η < 1, dengan rumus α(t + 1) = θ α(t). Lambang θ adalah penurunan tingkat pembelajaran menurun seiring perubahan waktu t. Kriteria pemberhentian bisa berupa pembatasan jumlah iterasi, atau ketika η = 0. Apabila semua 𝑤𝑗𝑖 hanya berubah sedikit saja, maka iterasi telah mencapai konvergensi sehingga dapat dihentikan. Pengelompokan vektor dilakukan dengan menghitung jarak vektor dengan jarak optimal.
6
Indeks Davies-Bouldin Validasi gerombol adalah prosedur evaluasi hasil analisis gerombol secara kuantitatif dan objektif. Indeks validitas digunakan sebagai metode validasi gerombol untuk evaluasi kuantitatif dari hasil penggerombolan. Salah satu indeks validitas ialah Indeks Davies-Bouldin (Salazar et al. 2002). Pengukuran ini memaksimalkan jarak antar-gerombol antara gerombol Ci dan Cj dan pada waktu yang sama mencoba untuk meminimalkan jarak antartitik dalam sebuah gerombol. Jarak intra-gerombol sc (Qk) dalam gerombol Qk ialah: ∑𝑖‖𝑋𝑖 − 𝐶𝑘 ‖ 𝑁𝑘 dengan Nk adalah banyak titik yang termasuk dalam gerombol Qk dan Ck adalah centroid dari gerombol Qk. Jarak antar-gerombol didefinisikan: 𝑠𝑐(𝑄𝑘 ) =
𝑑𝑘𝑙 = ‖𝐶𝑘 − 𝐶𝑙 ‖ dengan Ck dan Cl adalah centroid gerombol k dan l. Di lain pihak, Indeks DaviesBouldin didefinisikan: 𝐷𝐵(𝑛𝑐) =
𝑛𝑐 1 𝑠𝑐(𝑄𝑘 ) + 𝑠𝑐(𝑄𝑙 ) ∑ max { } 𝑛𝑐 𝑑𝑘𝑙 (𝑄𝑘 , 𝑄𝑙 ) 𝑘=1 𝑙≠𝑘
dengan nc adalah banyak gerombol. Skema penggerombolan yang optimal menurut Indeks Davies-Bouldin ialah yang memiliki Indeks Davies-Bouldin minimal (Salazar et al. 2002).
Two step cluster (TSC) Metode ini dapat mengatasi masalah skala pengukuran yang tidak sama, dalam hal ini bertipe kontinu dan kategorik, serta memiliki jumlah objek amatan relatif besar. Metode ini masih memiliki kelemahan yaitu sensitif terhadap data yang berupa urutan atau tingkatan, sehingga masih tidak mampu dalam menangani data ordinal. Apabila terdapat peubah yang bertipe ordinal, maka sebelum dianalisis peubah tersebut harus ditransformasi terlebih dahulu. Jarak antara dua gerombol didefinisikan sebagai jarak antar pusat dari masing-masing gerombol tersebut. Pusat dari suatu gerombol adalah vektor dari rataan masing-masing peubahnya. Jarak yang digunakan dalam metode two step cluster adalah jarak Log-Likelihood dan jarak Euclidean. Prosedur pengelompokan objek dalam metode two step cluster dilakukan melalui dua tahapan (Bacher et al. 2004), yaitu tahap pembentukan gerombol awal dan tahap pembentukan gerombol akhir (optimal). Pembentukan gerombol awal Tahap gerombol awal menggunakan pendekatan pengelompokan sekuensial. Pada tahap ini data yang ada dimasukkan satu per satu, kemudian ditentukan data
7
tersebut harus masuk pada gerombol yang telah terbentuk sebelumnya atau membentuk gerombol yang baru. Prosedur pada tahap ini diimplementasikan dengan membangun modifikasi Clustering Feature (CF) Tree. Misalkan diberikan N titik objek d dimensi pada suatu gerombol dimana i = 1,2,…,N. Vektor penggerombolan feature dari gerombol didefinisikan sebagai quadriple: CF=(N,M,V,K) dimana N adalah banyaknya objek pada gerombol, M menyatakan rata-rata dari peubah kontinu dari N objek, V adalah variansi dari setiap peubah kontinu pada N objek, K adalah banyaknya taraf pada setiap peubah kategorik. CF-tree adalah keseimbangan tinggi pohon dengan dua parameter yaitu branching factor (B) dan threshold (T) (SPSS 2001). Outlier pada analisis two step cluster adalah data yang tidak dapat dimasukkan pada gerombol manapun. Pada saat CF Tree akan dibangun ulang, maka akan diperiksa daun entri yang berpotensi sebagai outlier. Daun entri yang anggotanya berpotensi sebagai outlier merupakan daun entri yang jumlah anggotanya kurang dari fraksi ukuran gerombol yang memiliki jumlah paling besar yang telah ditetapkan (SPSS Technical Support 2001). Pada saat pembangunan ulang, daun entri yang berpotensi sebagai outlier disimpan. Setelah CF Tree dibangun ulang, maka satu per satu data dalam daun entri yang berpotensi sebagai pencilan dimasukkan ke dalam CF Tree yang baru tanpa mengubah ukuran CF Tree tersebut. Jika masih ada data yang tidak masuk ke dalam daun entri manapun, maka data tersebut dikatakan sebagai outlier. Dan data-data yang dideteksi sebagai outlier dimasukkan ke dalam satu gerombol. Gerombol yang memiliki jarak terbesar dikatakan memiliki pencilan jika jarak antara gerombol tersebut lebih besar dari titik kritis c, dengan rumusnya sebagai berikut: c = log(V) dengan: V = Πk Rk Πm Lm Rk = range dari peubah kontinu ke-k Lm = jumlah kategori untuk peubah kategori ke-m Pada jarak Euclidean, data yang memuat pencilan memiliki prosedur yang sama dengan jarak Log-Likelihood. Dikatakan pencilan jika jarak Euclidean terbesar antara gerombol tersebut lebih besar dari titik kritis c, dengan rumus c sebagai berikut: 𝐾𝐴
𝑐 = 2 (∑ 𝑖=1
2
1 2
𝜎̂𝑘𝑙 ) 𝐾𝐴
dengan: KA = jumlah total peubah kontinu 𝜎̂𝑘𝑙 2 = ragam dugaan untuk peubah kontinu ke-l dalam gerombol k Pembentukan CF Tree terdiri dari dua tahapan. Tahap pertama yaitu tahap penyisipan (inserting) dan tahapan yang kedua adalah tahap pembentukan kembali (rebuilding). Pada tahap inserting, secara random dipilih satu objek lalu diukur jaraknya dengan objek yang lain. Jika jarak tersebut kurang dari jarak maksimum, maka objek tersebut dimasukkan ke dalam satu gerombol. Tetapi jika jarak tersebut melebihi jarak maksimum, maka objek tersebut dianggap pencilan dan
8 begitu seterusnya untuk objek selanjutnya. Dari pencilan tersebut akan dibuat suatu gerombol yang baru. Tahap ini merupakan tahap rebuilding. Batas jarak maksimum harus ditingkatkan sehingga dapat memasukkan lebih banyak objek. Peningkatan jarak ini dapat mengakibatkan objek-objek yang tadinya berasal dari gerombol yang berbeda bergabung menjadi satu gerombol CF Tree, sehingga menghasilkan CF Tree yang berukuran lebih kecil dari semula (Bacher et al. 2004). Pembentukan gerombol akhir (optimal) Pembentukan gerombol akhir ditandai dengan terbentuknya gerombol yang optimal. Suatu gerombol dikatakan optimal apabila memiliki jarak antar gerombol paling jauh dan jarak antarobjek dalam gerombol tersebut paling dekat. Semakin dekat jarak antarobjek maka semakin besar kemiripan antarobjek dalam satu gerombol. Pada tahapan ini, hasil dari tahap pertama yaitu daun entri (anak gerombol) dari Clustering Feature (CF) Tree dikelompokkan menggunakan metode gerombol berhirarki dengan prosedur penggabungan (agglomerative). Tiap-tiap daun entri akhir yang terbentuk pada tahap pertama akan digabungkan satu per satu sesuai dengan ukuran jarak yang telah ditetapkan. Prosedur ini berakhir sampai seluruh daun entri menjadi satu gerombol. Apabila pada tahap pertama terdeteksi daun entri yang beranggotakan outlier, maka daun entri tersebut tidak diikutsertakan pada tahap kedua. Penentuan jumlah gerombol TSC Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus dilakukan. Langkah yang pertama yaitu menghitung BIC (Bayesian Information Criterion) atau AIC (Akaike’s Information Criterion) untuk tiap–tiap gerombol. Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol. Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara dua gerombol terdekat pada masing-masing tahapan pengelompokan. Rumus BIC dan AIC untuk gerombol J adalah sebagai berikut: 𝐽
𝐵𝐼𝐶(𝐽) = −2 ∑ 𝜉𝑗 + 𝑚𝑗 log(𝑁) 𝑗=1 𝐽
𝐴𝐼𝐶(𝐽) = −2 ∑ 𝜉𝑗 + 𝑚𝑗 𝑗=1
dengan: 𝐾𝐵
𝑚𝑗 = 𝐽 {2𝐾 𝐴 + ∑(𝐿𝑘 − 1)} 𝑘=1 A
K = jumlah total peubah numerik KB = jumlah total peubah kategorik Lk = jumlah kategori untuk peubah kategorik ke-k N = jumlah total data Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol. Langkah yang kedua yaitu mencari peningkatan jarak terbesar antara
9
dua gerombol terdekat pada masing-masing tahapan pengelompokan. Solusi gerombol yang terbaik memiliki BIC terkecil, tetapi ada beberapa kasus dalam pengelompokan dimana BIC akan terus menurun nilainya bila jumlah gerombol semakin meningkat. Maka dalam situasi tersebut, ratio BIC Changes (rasio perubahan BIC) dan ratio of Distance Measure Changes (rasio perubahan jarak) mengidentifikasi solusi gerombol terbaik. Menurut Bacher (2004) BICk atau AICk menghasilkan penduga awal yang baik bagi jumlah gerombol maksimum. Jumlah gerombol maksimum adalah banyaknya gerombol yang memiliki rasio BICk/BIC1 yang pertama kali lebih kecil dari c1 (SPSS menetapkan c1 = 0.04 yang didasarkan atas studi simulasi). Jumlah gerombol yang terbentuk dapat diketahui dengan menggunakan perbandingan antar jarak untuk k gerombol, dengan rumus perbandingannya sebagai berikut: 𝑑𝑘−1 𝑅(𝑘) = 𝑑𝑘 𝑑𝑘 = 𝑙𝑘−1 − 𝑙𝑘 dengan: 𝑟𝑣 log 𝑛 − 𝐵𝐼𝐶𝑣 𝑙𝑣 = atau 2 2𝑟𝑣 − 𝐴𝐼𝐶𝑣 𝑙𝑣 = 2 v = k, k – 1 dk – 1 = jarak jika k gerombol digabungkan dengan k - 1 gerombol Jumlah gerombol diperoleh berdasarkan ketentuan ditemukannya perbedaan yang nyata pada rasio perubahan gerombol. Rasio perubahan gerombol dihitung sebagai berikut: 𝑅(𝑘1 ) ⁄𝑅(𝑘 ) 2 untuk dua nilai terbesar dari R(k) (k = 1,2,…,kmax; kmax didapatkan dari langkah pertama). Jika rasio perubahan lebih besar daripada nilai batas c2 (SPSS menetapkan nilai c2 = 1.15 berdasarkan studi simulasi) jumlah gerombol ditetapkan sama dengan k1, selainnya jumlah gerombol sama dengan maksimum {k1,k2}.
Ukuran jarak Ukuran kemiripan dan ketakmiripan yang digunakan dalam analisis gerombol adalah jarak antarobjek dan jarak antargerombol. Fungsi jarak yang digunakan pada analisis Two step cluster adalah: Jarak Euclidean Jarak Euclidean paling sering digunakan diberbagai metode dalam analisis gerombol, tetapi ukuran jarak ini hanya dapat digunakan apabila semua peubah
10 yang digunakan bertipe kontinu (numerik). Jarak Euclidean antara gerombol ke-i dan gerombol ke-j dari p peubah didefinisikan: 𝑝 2 𝑑(𝑖, 𝑗) = [∑(𝑋̅𝑗 − 𝑋̅𝑖 ) ]
1 2
𝑖=1
dengan: 𝑑(𝑖, 𝑗) = jarak antara objek i ke objek j 𝑋̅𝑖 = nilai tengah pada gerombol ke-i untuk peubah ke-k 𝑋̅𝑗 = nilai tengah pada gerombol ke-j untuk peubah ke-k p = banyaknya peubah yang diamati
Jarak Log-Likelihood Jarak Log-Likelihood dapat digunakan untuk peubah kontinu maupun kategorik. Jarak antara gerombol j dan s didefinisikan sebagai berikut: 𝑑(𝑗, 𝑠) = 𝜉𝑗 + 𝜉𝑠 − 𝜉〈𝑗,𝑠〉 dengan: 𝐾𝐴
𝐾𝐵
𝑘=1 𝐿𝑘 𝑁𝑗𝑘𝑙
𝑘=1
1 2 𝜉𝑗 = −𝑁 (∑ 𝑙𝑜𝑔(𝜎̂𝑘2 + 𝜎̂𝑗𝑘 ) + ∑ 𝐸̂𝑗𝑘 ) 2 𝐸̂𝑗𝑘 = − ∑ 𝑙=1
N Njkl
𝑁𝑗
𝑙𝑜𝑔
𝑁𝑗𝑘𝑙 𝑁𝑗
= jumlah total data = jumlah data digerombol j untuk peubah kontinu ke-k dengan kategorik ke-l 2 𝜎̂𝑗𝑘 = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi dalam gerombol ke-j 𝜎̂𝑘2 = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi 2 𝜎̂(𝑠𝑗)𝑘 = ragam dugaan untuk peubah kontinu ke-k untuk keseluruhan observasi dalam gerombol ke-s dan ke-j KA = jumlah total peubah kontinu B K = jumlah total peubah kategorik Lk = jumlah kategorik untuk kategori ke-k d(j,s) = jarak antara gerombol j dan s <j,s> = indeks kombinasi gerombol j dan s
11
3 METODE PENELITIAN Data Data dalam penelitian ini terdiri dari dua sumber yaitu data sekunder dan data simulasi. Data sekunder digunakan untuk menggerombolkan desa/kelurahan di Kabupaten Wajo dan data simulasi berguna untuk mengukur kinerja metode TSC dan SOM dalam mengelompokkan objek. Data simulasi Data simulasi merupakan data bangkitan dengan tipe data numerik (M) yang terdiri dari tiga bentuk populasi yaitu satu populasi yang beranggotakan tiga gerombol yang berpisah secara tegas, satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah kecil, dan satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah besar. Tabel 1 Kombinasi data simulasi dan persentasi overlap Model komposisi Ukuran data % Model populasi peubah (n) overlap 500 0 Skenario I Numerik 1000 0 500 20 Skenario II Numerik 1000 23 500 80 Skenario III Numerik 1000 85 Skenario 1: satu populasi yang beranggotakan tiga gerombol yang berpisah secara tegas (jarak antar gerombol relative besar). Gambar 1 menunjukkan ilustrasi gerombol pada sebaran populasi model univariat.
-8
-4
0 X
4
8
Gambar 1 Ilustrasi sebaran gerombol pada skenario I
12
Gerombol 1: μ(X1i) = -6.00; i=1,2,3,..., n1, (note: n1 = n/4) Gerombol 2: μ(X2i) = 0.00; i=1,2,3,..., n2, (note: n2 = n/2) Gerombol 3: μ(X3i) = +6.00; i=1,2,3,..., n3, (note: n3 = n/4) Pembangkitan data simulasi sesuai dengan kombinasi yang terlihat pada Tabel 1. Setiap gugus data terdiri atas 5 peubah yaitu X1, X2,…, X5. Gugus data yang dibangkitkan n = 500, n = 1000 masing-masing diulang 100 kali dengan sebaran normal ganda Ng (μ,Ʃ), dengan μ(X1i) = [-6,-6,-6,-6,-6], μ(X2i) = [0,0,0,0,0], μ(X3i) = [6,6,6,6,6], dan matriks peragamnya 1 0 Ʃ= 0 0 [0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1]
Skenario 2: satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain (pemisahan antar gerombol tidak tegas). Gambar 2 menunjukkan ilustrasi gerombol pada sebaran populasi model univariat.
-6
-3
0
4
6
X
Gambar 2 Ilustrasi sebaran gerombol pada skenario II Gerombol 1: μ(X1i) = -4.00; i=1,2,3,..., n1, (note: n1 = n/4) Gerombol 2: μ(X2i) = 0.00; i=1,2,3,..., n2, (note: n2 = n/2) Gerombol 3: μ(X3i) = +4.00; i=1,2,3,..., n3, (note: n3 = n/4) Pembangkitan data simulasi sesuai dengan kombinasi yang terlihat pada Tabel 1. Setiap gugus data terdiri atas 5 peubah yaitu X1, X2,…, X5. Gugus data yang dibangkitkan n = 500, n = 1000 masing-masing diulang 100 kali dengan sebaran normal ganda Ng (μ,Ʃ), dengan μ(X1i) = [-4,-4,-4,-4,-4], μ(X2i) = [0,0,0,0,0], μ(X3i) = [4,4,4,4,4], dan matriks peragamnya
13
1 0 Ʃ= 0 0 [0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1]
Skenario 3: satu populasi yang beranggotakan tiga gerombol yang saling tumpang tindih (overlap) satu sama lain dalam jumlah yang besar. Gambar 3 menunjukkan ilustrasi gerombol pada sebaran populasi model univariat.
-3.0
-4.5
-1.5
0. 0X
1.5
3.0
4.5
Gambar 3 Ilustrasi sebaran gerombol pada skenario III Gerombol 1: μ(X1i) = -2.00; i=1,2,3,..., n1, (note: n1 = n/4) Gerombol 2: μ(X2i) = 0.00; i=1,2,3,..., n2, (note: n2 = n/2) Gerombol 3: μ(X3i) = +2.00; i=1,2,3,..., n3, (note: n3 = n/4) Pembangkitan data simulasi sesuai dengan kombinasi yang terlihat pada Tabel 1. Setiap gugus data terdiri atas 5 peubah yaitu X1, X2,…, X5. Gugus data yang dibangkitkan n = 500, n = 1000 masing-masing diulang 100 kali dengan sebaran normal ganda Ng (μ,Ʃ), dengan μ(X1i) = [-2,-2,-2,-2,-2], μ(X2i) = [0,0,0,0,0], μ(X3i) = [2,2,2,2,2], dan matriks peragamnya 1 0 Ʃ= 0 0 [0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1]
Data sekunder Data sekunder yang digunakan dalam penelitian ini data data Potensi Desa (PODES) tahun 2011 Kabupaten Wajo provinsi Sulawesi Selatan dengan peubah yang digunakan yaitu: X1 (jumlah penduduk), X2 (jumlah keluarga tani),
14 X3 (jumlah keluarga buruh tani), X4 (jumlah keluarga pengguna listrik), X5 (jumlah fasilitas pendidikan), X6 (jumlah tenaga kesehatan), X7 (jumlah kematian penduduk). Objek dalam terapan penelitian ini adalah seluruh desa/kelurahan di Kabupaten Wajo. Metode Langkah-langkah analisis data yang dilakukan berkaitan dengan tujuan penelitian dilakukan melalui tahapan sebagai berikut: 1. Eksplorasi dan deskriptif data bangkitan Tahapan ini dilakukan untuk melihat sebaran data bangkitan pada masingmasing skenario. Selain itu, juga untuk menunjukkan tingkat kekonsistenan rataan, korelasi, dan ragam-peragam data bangkitan. 2. Penggerombolan dengan metode SOM Penggerombolan dilakukan dengan membuat map pada masing-masing skenario, selanjutnya menetapkan jumlah gerombol untuk menguhitung nilai IDB gerombol tersebut. Jumlah iterasi yang digunakan adalah jumlah iterasi yang telah konsisten dengan nilai IDB terkecil. 3. Penggerombolan dengan metode two step cluster Tahapan dalam metode ini adalah sebagai berikut: a. Penggerombolan awal (prepenggerombolan). Algoritma pertama pada CF Tree adalah memasukkan data satu per satu. Data yang masuk dihitung jaraknya pada daun entri yang telah ada dengan menggunakan ukuran jarak yang telah ditentukan. Apabila jarak tersebut kurang dari kriteria ukuran penerimaan (threshold distance) maka data tersebut masuk ke dalam daun entri yang telah ada, tetapi jika sebaliknya maka data membentuk daun entri baru. Proses ini berlanjut sampai semua data selesai dimasukkan. Jika CF Tree berkembang melewati batas ukuran maksimum yang telah ditetapkan, maka CF Tree yang telah ada akan dibangun ulang dengan cara meningkatkan kriteria ukuran penerimaan. b. Penggerombolan akhir. Dalam penentuan jumlah gerombol optimal, ada dua langkah yang harus dilakukan. Langkah yang pertama yaitu menghitung BIC (Bayesian Information Criterion) atau AIC (Akaike’s Information Criterion) untuk tiap–tiap gerombol. Kemudian hasil perhitungan tersebut digunakan untuk menduga jumlah gerombol. Metode ini menggunakan software SPSS dalam analisis gerombolnya. 4. Mengevaluasi kinerja metode SOM dan two step cluster Perbandingan metode terbaik dilakukan dengan memeriksa kesalahan pengelompokan masing-masing metode. Tingkat kesalahan minimum pengelompokan merupakan metode terbaik dalam penggerombolan ini.
15
5. Penerapan metode SOM Tahapan yang dilakukan dalam analisis ini: a. Menstandarisasikan gugus peubah data di Kabupaten Wajo Sulawesi Selatan b. Menggerombolkan gugus data dengan metode SOM Pada tahap ini, hasil penggerombolan dicobakan pada berbagai jumlah gerombol yang terbentuk. Kemudian, mancari nilai IDB terkecil untuk masing-masing jumlah gerombol tersebut. c. Interpretasi dan eksplorasi daerah dari hasil penggerombolan metode SOM.
16
Data
Data simulasi
Data sekunder
Standarisasi
Penggerombolan
Metode SOM
TSC
SOM
k
k
Perbandingan kebaikan gerombol
Pembahasan
Simpulan Gambar 4 Skema penelitian
17
4 HASIL DAN PEMBAHASAN Simulasi Perbandingan kinerja metode SOM dan two step cluster (TSC) melalui data simulasi dimaksudkan untuk mencari metode yang memberikan hasil pengelompokan yang maksimal yaitu tingkat kesalahan pengelompokan paling minimum. Kinerja kedua metode diukur dengan berbagai kondisi populasi data yaitu, populasi dengan tiga gerombol yang terpisah, bercampur dalam jumlah yang sedikit, dan bercampur dalam jumlah yang besar. Pada metode SOM, pembelajaran diawali dengan memilih secara acak suatu vektor input kemudian menghitung jarak vektor input yang terpilih dengan satiap bobot input (centroid). Selanjutnya nilai bobot input pemenang akan diperbaharui berdasarkan nilai Learning Rate (LR) yang telah ditentukan. Untuk setiap iterasi, terjadi penurunan Learning Rate (PLR). Nilai dari LR dan PLR dipilih secara acak dari 0 < η/θ < 1. Parameter awal dari algoritme SOM yang digunakan yaitu: i. Learning rate (LR), η = 0.1, 0.5, 0.9 ii. Penurunan learning rate (PLR), θ = 0.1, 0.5, 0.9 iii. Jumlah iterasi/epoch: 50 iterasi Pada data simulasi, diperoleh kombinasi LR dan PLR dengan nilai IDB terkecil (lampiran 1) untuk masing-masing skenario sebagai berikut: Tabel 2 Learning Rate dan Penurunan LR setiap skenario dengan IDB terkecil Ukuran data Model populasi LR PLR (n) 0.9 0.9 500 Skenario I 0.9 0.1 1000 0.9 0.1 500 Skenario II 0.9 0.9 1000 0.9 0.9 500 Skenario III 0.9 0.9 1000 Berdasarkan hasil di atas, selajutnya nilai LR dan PLR tersebut akan digunakan pada ulangan penggerombolan. Metode ini menggunakan software Matlab dalam penggerombolan. Pembangkitan data simulasi Data simulasi merupakan populasi yang dibagi ke dalam tiga skenario dan untuk setiap skenario populasi yang dibangkitkan Ng (μ,Ʃ) sebanyak N = 10000 data yang dibagi ke dalam tiga gerombol n1, n2, n3 masing-masing 2500, 5000, dan 2500. Kemudian, dilakukan sampling dengan jumlah sampel yaitu n = 500 (125,250,125) dan n = 1000 (250,500,250), setiap skenario diulang 100 kali untuk masing-masing sampel. Berikut hasil eksplorasi data sampel setiap skenario:
18 Nilai matriks peragam setiap skenario sama untuk masing-masing jumlah sampel. Untuk jumlah sampel 500 1.2059 0.0305 Ʃ = −0.1172 0.1229 [−0.0249
0.0305 1.0354 −0.0719 −0.0456 0.0466
−0.1172 0.1229 −0.0249 −0.0719 −0.0456 0.0466 1.1923 0.0225 −0.0191 0.0225 0.8843 −0.0351 −0.0191 −0.0351 0.9387 ]
0.0081 0.9670 −0.0463 −0.0317 −0.0284
−0.0834 0.0429 −0.0463 −0.0317 1.1301 −0.0678 −0.0678 0.9819 −0.0131 −0.0098
Untuk jumlah sampel 1000 1.2135 0.0081 Ʃ = −0.0834 0.0429 [−0.0383
0.0383 −0.0284 0.0131 −0.0098 0.9426 ]
Adapun nilai rataan sampel masing-masing skenario adalah sebagai berikut:
Skenario I
II
III
Tabel 3 Eksplorasi data simulasi Ukuran data (n) Nilai tengah 500 1000 μ(X1i) -6.0721 -5.9807 μ(X2i) 0.0149 0.0123 μ(X3i) 6.0015 5.9985 μ(X1i) -3.9873 -3.9807 μ(X2i) -0.0267 0.0123 μ(X3i) 3.9848 3.9986 μ(X1i) -1.9873 1.9986 μ(X2i) -0.0123 0.0123 μ(X3i) 1.9848 1.9986
Hasil dari ketiga skenario memberikan matriks peragam yang sama pada setiap ukuran sampel, terlihat bahwa nilai ragam dan korelasi sampel telah mendekati nilai ragam dan korelasi dari populasi. Begitupun dengan nilai rataan sampel telah mendekati nilai rataan populasi untuk setiap skenario, yaitu: skenario I terpisah secara tegas dengan vektor rataan [-6, 0, 6], skenario II dengan besar overlap untuk masing-masing ukuran data 20% dan 23% dengan vektor rataan [-4, 0, 4], dan skenario III dengan besar overlap untuk masing-masing ukuran data 80% dan 85% vektor rataan [-2, 0, 2].
19
Perbandingan kinerja metode SOM dan TSC Perbandingan hasil penggerombolan metode SOM dan TSC terlihat pada tabel berikut: Tabel 4 Hasil penggerombolan dengan metode SOM dan TSC % salah gerombol Ukuran data Model populasi (n) SOM TSC 500 0 0 Skenario I 1000 0 0 500 0.424 0.004 Skenario II 1000 0.876 0.002 500 8.584 1.70 Skenario III 1000 10.045 1.63 Tabel 3 menunjukkan perbandingan kinerja metode SOM dan TSC dalam mengelompokkan objek. Pada tabel di atas terlihat bahwa kedua metode mengelompokkan objek dengan tingkat kesalahan 0% untuk kondisi populasi terpisah secara tegas. Metode SOM maupun TSC dapat mengelompokkan data dengan tingkat kebaikan gerombol 100% jika populasi datanya terpisah secara tegas (tidak ada overlap). Pada kondisi populasi data yang overlap dalam jumlah kecil (skenario II), terdapat perbedaan hasil pengelompokan. Kedua metode tersebut memberikan hasil yang cukup baik dalam mengelompokkan objek. Metode SOM dapat mengelompokkan dengan benar data sekitar 99.6% dan 99.2% untuk masingmasing jumlah data 500 dan 1000. Tabel 4 juga terlihat hasil pengelompokan metode TSC, bahwa metode ini mampu mengelompokkan data sekitar 99.99% untuk masing-masing jumlah data. Skenario III juga memberikan hasil yang serupa bahwa kedua metode ini mampu melakukan pengelompokan dengan baik. Metode SOM dapat mengelompokkan dengan benar data sekitar 92.5% dan 90.0% untuk masing-masing jumlah data 500 dan 1000. Tabel 4 juga terlihat hasil pengelompokan metode TSC, bahwa metode ini mampu mengelompokkan data sekitar 99.3% untuk masing-masing jumlah data. Dengan demikian, hasil dari kedua metode ini memiliki kemampuan untuk mengelompokkan data dengan baik, namun TSC memberikan hasil pengelompokan yang lebih baik untuk ukuran data yang besar dibandingkan dengan SOM. Selain itu, juga terlihat bahwa semakin besar jumlah data maka kesalahan pengelompokan SOM akan berubah menjadi lebih besar, namun perubahannya relatif kecil. Sebaliknya, semakin besar jumlah data maka kesalahan pengelompokan metode TSC semakin kecil. Pada kondisi data yang overlap, metode SOM mengalami salah pengelompokan terjadi di gerombol 2 yang merupakan gerombol yang terjadi overlap dari ketiga gerombol, namun tidak terjadi pada gerombol 1 dan 2 untuk setiap skenario. Hasil yang berbeda ditunjukkan oleh metode TSC, kesalahan pengelompokan terjadi secara merata di setiap gerombol.
20
Berikut hasil penggerombolan dengan metode SOM untuk setiap skenario: Skenario I
Gambar 5 CP dan U-matriks skenario I
21
Skenario II
Gambar 6 CP dan U-matriks skenario II
22
Skenario III
Gambar 7 CP dan U-matriks skenario III
Penerapan metode SOM Pada bagian ini akan dibahas penerapan SOM untuk menggerombolkan dan mengidentifikasi desa/kelurahan di Kabupaten Wajo Sulawesi Selatan dengan mengunakan metode SOM. Untuk memperoleh hasil yang lebih maksimal dan mempermudah pendeskripsian hasil pengelompokan, maka setiap desa/kelurahan dilakukan pengkodean. Pertama dilakukan standarisasi dari peudah-peubah, kemudian memeriksa asumsi multikolinier dari peubah-peubah tersebut. Hasilnya diperoleh bahwa terdapat multikolinier antar peubah, namun pada penelitian ini tidak digunakan penanganan untuk multikolinier. Hal ini menjadi salah satu keunggulan dari metode SOM yang mampu mendeteksi adanya multikolinier antar peubahnya (Annas et al. 2007). CP dapat memvisualisasi perbedaan antar input peubah sebagai berikut:
23
Gambar 8 Visualisasi U-matriks dan CP desa/kelurahan Gambar 8 menunjukkan visualisasi U-matriks dan CP dalam bentuk 2-D dengan ukuran map 20 x 25, tidak ada aturan dalam memilih ukuran map, tetapi satu keuntungan bahwa ukuran map dapat memudahkan dalam mendeteksi struktur dari SOM. CP dapat digunakan untuk visualisasi perbedaan antar peubah dan masing-masing CP mewakili peubah yang diukur. Gerombol yang terbentuk dapat dideteksi dengan melihat perbedaan warna untuk masing-masing CP, semakin gelap maka pengaruhnya akan semakin besar. Table 5 Nilai koefisien korerasi antar peubah X1 X2 X3 X4 X5 X6 X7
X1 1.000 0.355 0.034 0.919 -0.248 0.664 0.510
X2
X3
X4
X5
X6
X7
1.000 0.325 0.204 0.159 0.096 0.119
1.000 0.023 -0.001 -0.045 0.031
1.000 -0.342 0.658 0.558
1.000 -0.192 -0.158
1.000 0.306
1.000
Visualisasi CP juga dapat digunakan untuk melihat korelasi antar peubah input data. Pada gambar 14, misalnya peubah X1(jumlah penduduk), X4(keluarga pengguna listrik), memiliki bentuk yang sama. Ini menunjukkan bahwa ada korelasi antar peubah dan berdasarkan table 5 terdapat peubah yang berkorelasi yaitu X1 dengan X4.
24
Hasil gerombol desa/kelurahan dengan metode SOM Pengerombolan data dengan SOM digambarkan oleh U-matriks yaitu dengan ukuran jarak dan SOM color-coding. Pada map SOM, kode dari desa dengan nilai yang sama, secara otomatis memiliki warna yang sama pada grid dan jarak yang dekat dengan yang lain. Ukuran jarak yang besar pada map, akan memiliki warna yang berbeda dan gerombol yang berbeda. Pembentukan gerombol berdasarkan warna pada node, sehingga jika terdapat kondisi bahwa daerah yang memiliki warna abu-abu (pertengahan) dapat diidetifikasi dari ukuran jaraknya untuk memperjelas kelompok. Selanjutnya ditentukan beberapa jumlah gerombol yang teridentifikasi yaitu 3 gerombol, 4 gerombol dan 5 gerombol. Gerombol yang memiliki nilai IDB terkecil merupakan gerombol yang terpilih (lampiran 2).
Gerombol I
Gerombol III Gerombol II
Gambar 9 Output dengan jumlah 3 gerombol Hasil penggorombolan SOM dengan data dari 176 desa/kelurahan tersebut menghasilkan 3 gerombol dengan LR 0.9, PLR 0.5, dan nilai IDB terkecil yaitu 1.33487. Gerombol 1 adalah gerombol yang paling banyak anggotanya, terdiri dari 88 objek (desa/kelurahan) yang ada di Kabupaten ini. Gerombol 1 dipengaruhi oleh peubah X2 (keluarga tani) dan X5 (fasilitas pendidikan) yang terlihat pada gambar 8. Bagian gelap yang terlihat (gambar 8) menunjukkan pengaruh yang lebih besar. Gerombol ini pada umumnya terdiri dari desa/kelurahan dari kecamatan Bola, kecamatan Sabbangparu, kecamatan Majauleng, kecamatan Tanasitolo, kecamatan Gilireng, dan kecamatan Takkalalla. Hal ini menunjukkan bahwa kecamatan tersebut berada pada wilayah yang berdekatan dan memiliki tingkat kemiripan yang tinggi, sehingga memiliki hubungan persamaan ciri dari segi perekonomian. Adapun desa/kelurahan dari kecamatan lain yang menjadi anggota dari gerombol
25
ini memiliki kemiripan peubah penciri, diantaranya Pammana, Sajoanging, Keera dan Penrang. Gerombol 2 terdiri 26 objek (desa/kelurahan). Beberapa peubah yang mempengaruhi gerombol ini (gambar 8) diantaranya X1 (jumlah penduduk), X4 (keluarga pengguna listrik), X6 (tenaga kesehatan), dan X7 (kematian penduduk). Pada kelompok ini hanya didominasi oleh desa/kelurahan dari kecamatan Tempe dengan 16 desa/kelurahan. Desa/kelurahan dari kecamatan Tempe yang keseluruhan masuk dalam kelompok ini memiliki kesamaan ditinjau dari peubah gerombol ini. Dari segi geografis, letak desa/kelurahan tersebut sebagai ibu kota Kabupaten Wajo, sehingga memiliki tingkat pertumbuhan diberbagai bidang lebih besar dari pada gerombol yang lain. Adapun desa/kelurahan yang bergabung dalam gerombol ini berada di sekitar kota, misalnya desa/kelurahan dari Pammana dan desa/kelurahan lain yang memiliki kemiripan peubah penciri gerombol ini. Gerombol 3 terdiri dari 62 objek (desa/kelurahan). Gerombol 3 dipengaruhi hampir semua peubah yang ada sebagaimana yang terlihat pada gambar 8. Gerombol ini percampuran desa/kelurahan dari kecamatan yang mempunyai kemiripan peubah penciri yang tinggi, terutama dari segi perekonomian dengan mayoritas penduduk bergerak disektor pertanian. Wilayah gerombol ini meliputi kecamatan Pitumpanua, Keera, Belawa dan desa/kelurahan dari kecamatan lainnya. Pengaruh peubah-peubah terhadap gerombol yang terbentuk dapat dilihat pada Gambar 8, jika CP menunjukkan bagian yang gelap maka peubah tersebut memiliki pengaruh yang besar terhadap daerah yang bersesuaian dengan U-matriksnya. Adapun ekplorasi peubah-peubah tiap gerombol sebagai berikut: Tabel 6 Eksplorasi peubah tiap gerombol Kelompok rataan 1
X1 1416
X2 297
X3 107
X4 226
30
3
8
ragam
1226625
8447.678
5323.028
6613.475
197.212
2.356
20.169
simp baku
355.844
91.911
72.959
81.323
14.043
1.535
4.491
4365
513
151
841
19
13
24
rataan 2
3
X5
X6
X7
ragam
1709131
140630
54220.4
87509.94
182.269
47.938
200.622
simp baku
1307.337
375.008
232.853
295.821
13.501
6.924
14.164
rataan
2387
440
115
403
22
6
12
ragam
227251.1
31570.34
9243.302
15033.66
137.704
12.937
38.483
476.709
117.681
96.142
122.612
11.735
3.597
6.203
simp baku
Tabel 6 menunjukkan bahwa gerombol yang terbentuk memiliki nilai deskriptif yang mirip antar gerombol, sehingga dapat dikatakan bahwa peubahpeubah yang digunakan menyebar merata di seluruh Kecamatan di Kabupaten Wajo. Pada tabel 6 terlihat bahwa gerombol 2 dengan jumlah desa/kelurahan paling sedikit, namun memiliki rata-rata jumlah penduduk yang besar dari gerombol lain. Hal ini disebabkan desa/kelurahan yang ada pada gerombol tersebut berada di wilayah ibukota kabupaten, selain itu juga terdiri dari beberapa desa/kelurahan yang berada di sekitarnya. Demikian juga untuk peubah lain selain X5, gerombol 2 memiliki nilai rataan yang lebih besar daripada gerombol lain.
26 Hal ini menunjukkan bahwa daerah di gerombol 2 secara geografis berada di ibukota kabupaten lebih beragam dari daerah yang berada pada gerombol lain.
5 SIMPULAN DAN SARAN
Simpulan Hasil gerombol dari data simulasi, diperoleh bahwa metode SOM dan TSC memilik kemampuan menggerombolan data dengan tingkat kelasahan penggerombolan relative kecil. Metode TSC memiliki kinerja lebih baik jika dibandingkan dengan SOM untuk ukuran data besar, namun SOM mampu memvisualisaikan hasil penggerombolan ke dalam 2-dimensi. Hasil penggerombolan dengan metode SOM desa/kelurahan di Kabupaten Wajo menghasilkan 3 gerombol. Gerombol 1 yang anggotanya berasal dari enam (Bola, Sabbangparu, Majauleng, Tanasitolo, Gilireng, dan Takkalalla) yang memiliki rata-rata jumlah fasilitas pendidikan yang terbesar daripada gerombol yang lain. Gerombol 2 dari segi geografis adalah desa/kelurahan yang terletak di ibu kota Kabupaten Wajo. Hal ini terlihat bahwa rata-rata jumlah penduduk paling besar pada gerombol ini, demikian juga untuk penggunaan listrik, tenaga kesehatan dan kematian penduduk. Gerombol 3 terdiri dari tiga kecamatan (Pitumpanua, Keera, dan Belawa) dan dari kecamatan lain yang tergabung dalam gerombol ini. Gerombol ini termasuk dalam kondisi rata-rata dari semua peubah yang digunakan. Secara umum, gerombol yang terbentuk memiliki nilai deskriptif yang sama dalam gerombol dan setiap gerombol yang terbentuk didominasi oleh beberapa kecamatan, sedangkan beberapa desa/kelurahan lain yang yang tergabung juga memiliki kemiripan dari peubah pencirinya, misalkan berada disekitar kecamatan tersebut.
Saran Penelitian selanjutnya perlu dilakukan penggerombolan SOM pada tipe data kategorik. Sedangkan untuk melihat kinerja metode SOM dapat dibandingkan dengan metode lain.
27
DAFTAR PUSTAKA Annas S, Kanai T, Koyoma S. 2007. Principal component analysis (PCA) and self-organizing map (SOM) for visualizing and classifying fire risks in forest regions. Osaka Prefecture University, Japan. Agricultural Information Research 16 (2): 44-51. Bacher J, Wenzig K, Vogler M. 2004. SPSS two step cluster - a first evaluation. [terhubung berkala]. http://www.statisticalinnovations.com/products/Two Step.pdf. [1 Februari 2013]. Edward, Hermadi I, Sitanggang IS. 2006. Penggerombolan menggunakan self organizing maps (studi kasus: data PPMB IPB) [terhubung berkala]. Bogor: Ilmu Komputer FMIPA IPB [7 Februari 2013]. Fujino M, Yoshida M. 2006. Development and validation of a method of forestry region classification using PCA and cluster analysis together with SOM algorithm. Journal of the Japanese Forest Society 88 (4): 221-230. Hair JF Jr, Anderson RE, Tatham RL, Black WC. 1998. Applied Multivariate Statistical Analysis. Ed ke-5. New Jersey: Prentice-Hall. He Z, Xu XI, Deng S. 2005. Clustering mixed numeric dan categorical data: A cluster ensemble approach. [terhubung berkala]. http://arxiv.org/ftp/cs/papers/0509/0509011.pdf [7 Februari 2013]. Klobucar D, Subasic M. 2012. Using self-organizing maps in the visualization and analysis of forest inventory. Italian Society of Silviculture and Forest Ecology. October 2012: 216-223. Lathifaturrahmah, 2010. Perbandingan hasil penggerombolan metode k-means, fuzzy k-means, dan two step cluster [tesis]. Bogor: Matematika terapan. FMIPA IPB. Salazar GEJ, Veles AC, Parra MCM, Ortega LO. 2002. A cluster validity index for comparing non-hierarchical clustering methods. [terhubung berkala]. http://citeseer.ist.psu.edu/rd/salazar02gerombol.pdf [7 Februari 2013]. Shih YS, Jheng JW, Lai LF. 2010. A two-step method for clustering mixed categorical and numeric data. Department of Computer Science and Information Engineering, National Changhua University of Education, Changhua, Taiwan. Tamkang Journal of Science and Engineering, Vol. 13, No. 1, pp. 11-19. Siang JJ. 2005. Jaringan saraf tiruan dan pemrogramannya menggunakan matlab. Yogyakarta: Andi. SPSS Inc. (2001). The SPSS TwoStep Cluster Component. A scalable component to segment your customers more effectively.White paper – technical report, Chicago. ftp://ftp.spss.com/pub/web/wp/TSCWP-0101.pdf.
28
Lampiran 1 No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Kombinasi LR dan PLR dengan nilai IDB terkecil untuk masingmasing skenario IDB LR PLR Ulangan Epoch 500 1000 1 1.21632 1.16293 2 1.24597 1.16553 3 1.20518 1.18084 4 1.13373 1.2442 5 1.16385 1.25553 0.1 6 1.31908 1.23617 7 1.23223 1.23945 8 1.228 1.17638 9 1.11595 1.2293 10 1.16549 1.2816 1 1.32252 1.05975 2 1.04545 1.07743 3 1.36548 1.12413 4 1.49586 1.0802 5 1.53355 1.21408 0.5 0.9 50 6 1.09641 1.25475 7 1.59718 1.19777 8 1.39617 1.10823 9 1.12637 1.30462 10 1.13358 1.15646 1 1.149 1.06493 2 1.09243 1.34601 3 1.15332 1.33132 4 1.18493 1.16679 5 0.91693 1.39094 0.9 6 1.41106 1.18679 7 1.35923 1.23535 8 1.19458 1.47836 9 1.55794 1.14345 10 1.26156 1.2924 1 1.13798 1.09976 0.1 0.5 2 50 1.23324 1.26546 3 1.25806 1.1366
29
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74
0.5
0.9
0.1 0.1
0.5
4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4
50
1.14865 1.19366 1.23969 1.16578 1.18448 1.18094 1.30617 1.08863 0.96847 1.23673 1.1953 1.38858 1.1007 1.17886 1.11608 0.9835 1.16704 0.99554 1.15225 1.34587 1.13646 1.35253 1.24432 1.11266 0.98328 1.11754 1.92372 1.18509 1.1737 1.18378 1.17466 1.36802 1.29111 1.20278 1.28076 1.22648 1.12991 1.11483 1.16031 1.36203 1.18567
1.15611 1.19097 1.12822 1.2066 1.23051 1.1589 1.20642 1.18232 1.1438 1.12321 1.35996 1.16433 1.23104 1.28886 1.24905 1.28485 1.6937 1.13061 1.44917 1.12739 1.04261 1.01661 1.32009 1.1759 1.0146 1.14312 1.40648 1.22212 1.1789 1.13862 1.19725 1.16831 1.14872 1.23177 1.19394 1.26016 1.24217 1.13829 1.13229 1.11605 1.17783
30
75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
0.9
5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
1.35486 1.2711 1.08043 1.12261 1.26407 1.11509 1.19194 1.34128 1.31244 1.34612 1.01517 1.12164 1.14248 1.332 1.50306 1.11459
1.17932 1.15867 1.03759 1.12403 1.38649 1.22563 1.12576 1.14091 1.22719 1.17763 1.12963 1.25959 1.19527 1.01147 1.15375 1.21339
31
Lampiran 2 Nilai IDB terkecil masing-masing jumlah gerombol yang terpilih No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37
LR
PLR Ulangan Epoch
0.1
0.5
0.9
0.1
0.9
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7
50
3 cluster 1.79265 1.85921 1.90882 1.98294 1.76438 1.77549 1.99812 1.69580 1.79387 1.77395 1.57488 1.85818 1.86915 1.87573 1.59818 1.67408 1.83549 1.89262 1.74655 1.83323 1.71497 2.14651 2.08941 1.82965 2.33934 1.94007 1.74616 1.91210 2.00710 1.59658 1.75301 1.77457 1.83568 1.78620 1.72146 1.83672 1.78376
IDB 4 cluster 5 cluster 1.93859 2.06342 2.08068 1.91500 1.99822 2.06642 2.04733 2.09206 1.96185 2.01465 1.89842 2.08674 1.97378 2.07802 1.98888 1.97935 1.94476 1.91743 2.03704 2.00473 1.96782 1.75691 2.29100 2.18534 1.83465 1.94039 1.93765 1.92487 1.96792 1.95304 1.90230 1.85477 1.93689 2.02472 2.24970 1.91675 2.15254 2.10052 2.00858 1.86241 1.83637 1.70009 1.93764 1.86594 1.92278 2.12418 1.92107 1.87871 2.19149 2.10706 1.78730 1.96671 1.80543 1.91928 2.18519 1.77146 1.88504 2.06285 2.09405 1.90210 1.97302 1.97431 1.99250 2.12205 2.01770 1.93271 2.07462 2.11081 1.99645 2.05230 2.00437 2.11659 1.96195 2.04971
32
38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78
0.5 0.5
0.9
0.1
0.1
0.5
8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8
50
50
1.89185 1.82720 1.69349 1.85423 1.68246 1.90746 1.58265 1.87524 1.82525 2.05796 2.09367 1.69474 2.26199 2.06420 1.33487 2.39309 1.61342 1.64573 2.20454 1.97495 2.00332 2.06269 2.11391 1.85808 1.91935 1.72017 1.76290 1.75068 1.84425 1.73861 1.87492 1.91562 1.81957 1.89072 1.68660 1.65306 1.80393 1.94323 1.85409 1.77185 2.09204
1.94248 1.97436 2.04993 2.07675 2.28447 2.08014 1.86041 2.17603 1.89066 2.04663 2.10468 2.19813 2.03617 1.79180 1.83150 1.95954 1.82444 1.87483 1.89956 2.09538 1.90198 1.97859 2.00363 2.10235 2.05050 1.90018 1.89834 1.97927 1.98356 1.96450 1.97091 1.99313 1.90743 2.19510 1.91379 1.93140 2.01093 2.10913 1.82411 2.21972 2.02551
1.99693 1.99496 2.24938 1.95288 2.15189 2.08946 2.02710 1.94526 2.11184 1.94056 2.16001 2.16462 2.09117 2.11541 2.28657 2.07340 1.86342 1.94575 2.01747 1.97042 2.06269 2.04855 2.10342 2.07093 2.02498 1.99589 2.10913 2.00404 2.05409 2.03719 1.98983 2.00230 1.94096 1.99754 2.11017 1.96325 1.96413 2.42556 1.97779 2.18720 2.04626
33
79 80 81 82 83 84 85 86 87 88 89 90
0.9
9 10 1 2 3 4 5 6 7 8 9 10
1.79141 1.99577 1.63081 1.71910 1.95208 2.12647 1.62184 1.80065 1.75691 2.06399 1.79971 1.76248
2.13638 1.87337 2.21250 1.81491 1.76037 2.00955 1.94341 1.81939 2.06954 1.81566 2.24928 1.90751
1.94063 2.09629 1.97722 2.09956 1.92302 2.02975 2.08860 1.91477 2.21335 1.72405 1.84311 2.27024
34
RIWAYAT HIDUP Penulis dilahirkan di Wajo Sulawesi Selatan pada tanggal 16 Februari 1987 dari pasangan Bapak Ambo Taha dan Ibu Hafisah. Penulis merupakan putra keenam dari tujuh bersaudara. Penulis menyelesaikan pendidikan SLTA di SMA Negeri 3 Sengkang, kab. Wajo, kemudian melanjutkan perkuliahan di jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Makassar, dan lulus pada tahun 2010. Tahun 2011 penulis diterima di Program Studi Statistika pada Sekolah Pascasarjana IPB.