1
PERBANDINGAN JUMLAH KELOMPOK OPTIMAL PADA METODE SINGLE LINKAGE DAN COMPLETE LINKAGE DENGAN INDEKS VALIDITAS SILHOUETTE: Studi Kasus pada Data Pembangunan Manusia Jawa Timur 𝐘𝐮𝐥𝐢 𝐍𝐨𝐯𝐢𝐭𝐚 𝐈𝐧𝐝𝐫𝐢𝐚𝐧𝐢𝟏 , 𝐀𝐛𝐚𝐝𝐲𝐨𝟐 Universitas Negeri Malang E-mail:
[email protected] Abstrak: Penelitian ini bertujuan membandingkan mana yang lebih baik antara hasil pengelompokan metode single linkage dan complete linkage dengan menggunakan indeks validitas silhouette berdasarkan nilai Cluster Tightness Measure (CTM). Data yang digunakan dalam penelitian ini adalah data Pembangunan Manusia Jawa Timur dari Tahun 2007 sampai Tahun 2011 dengan 3 variabel penelitian. Berdasarkan hasil penelitian yang diperoleh dari hasil keseluruhan pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah cluster optimum dibandingkan dengan metode complete linkage dengan menggunakan indeks validitas silhouette. Hasil pengelompokkan pada metode single linkage dari tahun 2007 ke tahun 2011 tidak menunjukkan pergeseran hasil pengelompokan. Pemerintah harus mengarahkan perhatian pada wilayah yang masuk pada k = 2. Karena, wilayah yang masuk dalam kelompok tersebut adalah wilayah yang memilki Indeks Pembangunan Manusia yang rendah. Berdasarkan hasil yang diperoleh dari analisis faktor, variabel Indeks Pendidikan (IP) adalah variabel yang paling berpengaruh. Maka, perhatian pemerintah harus lebih difokuskan pada pendidikan. Kata Kunci: cluster, single linkage, complete linkage, silhouette, pembangunan manusia. Indeks Pembangunan Manusia (IPM) merupakan merupakan suatu indeks komposit yang mencangkup tiga bidang pembangunan manusia yang dianggap sangat mendasar, yaitu kemampuan untuk bertahan hidup lebih lama yang mewakili bidang kesehatan; angka melek huruf, partisipasi sekolah dan rata-rata lamanya sekolah mengukur kinerja pembangunan bidang pendidikan; dan kemampuan daya beli masyarakat terhadap sejumlah kebutuhan pokok yang dilihat dari rata-rata besarnya pengeluaran per kapita. Sehingga, untuk mengetahui pengelompokan IPM dapat digunakan analisis cluster. Analisis cluster merupakan salah satu metode dalam analisis statistik multivariat yang digunakan untuk mengelompokkan objek-objek ke dalam suatu kelompok berdasarkan karakteristik yang dimiliki, sehingga objek-objek dalam suatu kelompok memiliki ciri-ciri yang lebih homogen dibandingkan dengan objek dalam kelompok lain. Single linkage dan complete linkage merupakan metode dalam analisis cluster pengelompokan hirarki. Salah satu masalah dalam analisis cluster adalah penentuan jumlah optimal kelompok dalam cluster yang 1. Yuli Novita Indriani adalah mahasiswa jurusan matematika FMIPA Universitas Negeri Malang 2. Abadyo adalah dosen jurusan matematika FMIPA Universitas Negeri Malang
2
sudah dibentuk. Oleh karena itu, setelah melakukan analisis cluster perlu dilakukan uji validitas cluster untuk menentukan jumlah kelompok terbaik. Silhouette dapat digunakan untuk mengevaluasi kevalidan hasil dari suatu analisis cluster yang sesuai. Silhouette tidak dipengaruhi oleh metode pengelompokan yang digunakan. Silhouette merupakan ukuran statistik yang digunakan untuk menyeleksi jumlah kelompok yang optimal. Beberapa tahapan untuk prosedure silhouette, dijelaskan sebagai berikut: 1. Untuk tiap-tiap objek 𝑖 yang berada di kelompok A, dihitung: 1 a(i) 𝑖, 𝑗 ∈A, 𝑘 ∈ C d ij n A 1 j k , j i di mana 𝑛𝐴 : banyaknya observasi pada kelompok 𝐴 𝑎(𝑖): rata-rata jarak obyek ke-i ke semua obyek yang lain dalam kelompok A C : kelompok C (lainnya) 2. Ada beberapa kelompok lain yang berbeda dengan A, dihitung: 1 d (i, C ) d ik 𝑖 ∈ 𝐴, 𝑘 ∈ 𝐶 nC kC di mana 𝑛𝐶 : banyaknya observasi pada kelompok C d (i, C ) : rata-rata jarak objek ke-i ke seluruh obyek di kelompok C (lainnya) 3. Setelah menghitung d (i, C ) untuk seluruh kelompok C≠A, diambil nilai terkecil 𝑏 𝑖 = 𝑚𝑖𝑛𝐶≠𝐴 𝑑(𝑖, 𝐶) Minimum dari rata-rata obyek ke-i ke semua obyek kelompok yang lain. Misal, kelompok B mencapai minimum dilihat dari d (i, B) b(i) maka dinamakan neighbour dari obyek ke-i. Ini adalah second-best cluster dari obyek ke-i 4. Menghitung statistik silhouette yang didefinisikan: b(i) a(i) s(i) max a(i) b(i) di mana 𝑖 ∶ 1,2, … , 𝑛𝑟 𝑛𝑟 : banyaknya observasi pada kelompok-r Jumlah kelompok (𝑘)optimum estimasi dari harga 𝑘 yang paling memaksimumkan nilai rata-rata 𝑠(𝑖) (Rousseeuw, 1987:55). Dalam metode single linkage jarak di antara dua cluster A dan B didefinisikan sebagai jarak minimum antara suatu titik di A dan suatu titik di B: D A, B min d y i , y j , untuk y i A dan y j B . Sedangkan pada metode complete linkage, jarak di antara dua cluster A dan B didefinisika sebagai jarak maksimum antara suatu titik di A dan suatu titik di B: D A, B max d y i , y j , untuk y i A dan y j B (Rencher,2002:456).
3
Cluster Tightness Measure (CTM) merupakan ukuran kebaikan dari hasil pengelompokan berdasarkan simpangan baku setiap variabel pada masing-maing 1 K 1 p k j CTM kelompok, yang dirumuskan sebagai berikut: . K k 1 p j 1 n j di mana, k j : simpangan baku pada kelompok ke-k untuk variabel ke-j
j : simpangan baku seluruh data untuk variabel ke-j 𝑝 : banyaknya variabel 𝐾 : banyaknya kelompok Kelompok yang terbentuk dikatakan baik jika memiliki nilai CTM terkecil (Epps dan Ambikairajah, 2008). Selanjutnya, analisis faktor digunakan untuk melihat veariabel mana yang paling berpengaruh, analisis faktor memiliki model persamaan: 𝑋1 − 𝜇1 = 𝐿11 𝐹1 + 𝐿12 𝐹2 + 𝐿13 𝐹3 + ⋯ + 𝐿1𝑚 𝐹𝑚 + 𝜀1 𝑋2 − 𝜇2 = 𝐿21 𝐹1 + 𝐿22 𝐹2 + 𝐿23 𝐹3 + ⋯ + 𝐿2𝑚 𝐹𝑚 + 𝜀2 ⋮ 𝑋𝑝 − 𝜇𝑝 = 𝐿𝑝1 𝐹1 + 𝐿𝑝2 𝐹2 + 𝐿𝑝3 𝐹3 + ⋯ + 𝐿𝑝𝑚 𝐹𝑚 + 𝜀𝑝 atau dapat ditulis ke dalam notasi matriks: 𝑋(𝑝×1) − 𝜇(𝑝×1) = 𝐿(𝑝×𝑚 ) 𝐹(𝑚 ×1) + 𝜀(𝑝×1) di mana, 𝑋 : vektor variabel asal (𝑋1 , 𝑋2 , 𝑋3 , … , 𝑋𝑝 ) 𝜇 : vektor rata-rata variabel awal 𝐿 : matriks beban faktor yang merefleksikan pentingnya faktor bersama, dimana 𝐿𝑖𝑗 adalah nilai beban faktor dari variabel ke-𝑖 pada faktor ke-𝑗 dengan 𝑖 = 1, 2, 3, … , 𝑝 dan 𝑗 = 1, 2, 3, … , 𝑚 𝐹 : vektor faktor bersama 𝜀 : vektor faktor khusus atau galat n
METODOLOGI PENELITIAN Data yang digunakan dalam peneltian ini adalah data sekunder yang diperoleh dari Badan Pusat Statistik. Variabel-variabel yang digunakan dalam penelitian ini adalah Indeks Harapan Hidup (IHH), Indeks Pendidikan (IP), dan Purchasing Power Parity (PPP). Langkah-langkah yang dilakukan dalam penelitian ini adalah: 1. Melakukan uji korelasi, jika tidak ada korelasi antar variabel maka analisis cluster tidak dapat dilakukan. 2. Melakukan uji normalitas ganda, jika data tidak normal ganda maka data harus ditransformasi, jika data normal ganda langsung ke langkah 3 dan 4. 3. Melakukan analisis kelompok hirarki metode single linkage. 4. Melakukan analisis kelompok hirarki metode complete linkage. 5. Menghitung indeks validitas silhouette dari hasil langkah 3 dan langkah 4. 6. Menghitung nilai CTM dari hasil langkah no. 5. 7. Membandingkan nilai CTM untuk kedua metode, metode terbaik ditunjukkan dengan nilai CTM minimum. 8. Membandingkan perubahan kelompok Pembangunan Manusia dari tahun ke tahun.
4
9. Melakukan analisis faktor. 10. Melakukan analisis diskriminan. HASIL DAN PEMBAHASAN Dari hasil analisis kelompok metode single linkage dan complete linkage dengan metode silhouette diperoleh jumlah kelompok optimal sama. Hasil perhitungannya adalah sebagai berikut: Tabel 1 Jumlah Cluster dan Nilai Indeks Validitas Silhouette Single linkage Complete linkage Data Jumlah cluster Silhouette (S) Jumlah cluster Silhouette(S) 1 2 0,48961 2 0,52568 2 2 0,48585 2 0,52247 3 2 0,48080 2 0,52451 4 2 0,47828 2 0,51686 5 2 0,48820 2 0,52351
Indeks validitas silhouette memberikan nilai yang tidak sama pada metode single linkage dan complete linkage meskipun jumlah cluster sama.Ini dikarenakan jumlah kelompok yang terbentuk memiliki anggota yang berbeda meskipun jumlah cluster sama. Berdasarkan perbedaan tersebut, diperlukan suatu ukuran kebaikan hasil pengelompokan. Dalam penelitian ini ukuran kebaikan hasil pengelompokan yang digunakan adalah Cluster Tighness Measure (CTM). Nilai CTM untuk kedua metode tersebut dapat dilihat pada Tabel 2. Tabel 2 Nilai CTM Single Linkage dan Complete Linkage Single linkage Complete linkage Data Jumlah cluster CTM Jumlah cluster CTM 1 2 0,476482 2 0,63777 2 2 0,477519 2 0,636642 3 2 0,479018 2 0,646745 4 2 0,480056 2 0,652892 5 2 0,479704 2 0,660327
Berdasarkan nilai CTM yang diperoleh, 100% nilai CTM dari metode single linkage menunjukkan nilai yang lebih kecil daripada nilai CTM yang dihasilkan pada metode complete linkage. Jadi, hasil pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah optimum cluster dibandingkan metode complete linkage pada data IPM tahun 2007 sampai tahun 2011 dengan jumlah kelompok optimal dua. Hasil pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah optimum cluster. Hasil pengelompokan metode single linkage dengan menggunakan indeks validitas silhouette pada data IPM dari tahun 2007 ke tahun 2011 dapat dilihat pada Tabel 3.
5
Kelompok
Tabel 3 Hasil Pengelompokan dengan Indeks Validitas Silhouette pada Metode Single Linkage
1
2
Anggota Kelompok
2007
2008
2009
2010
2011
Pacitan Ponorogo Trenggalek Tulunggagung Blitar Kediri Malang Lumajang Jember Banyuwangi Bondowoso Situbondo Probolinggo Pasuruan Sidoarjo Mojokerto Jombang Nganjuk Madiun Magetan Ngawi Bojonegoro Tuban Lamongan Gresik Bangkalan Pamekasan Sumenep Kota Kediri Kota Blitar Kota Malang Kota Probolinggo Kota Pasuruan Kota Mojokerto Kota Madiun Kota Surabaya Kota Batu
Pacitan Ponorogo Trenggalek Tulunggagung Blitar Kediri Malang Lumajang Jember Banyuwangi Bondowoso Situbondo Probolinggo Pasuruan Sidoarjo Mojokerto Jombang Nganjuk Madiun Magetan Ngawi Bojonegoro Tuban Lamongan Gresik Bangkalan Pamekasan Sumenep Kota Kediri Kota Blitar Kota Malang Kota Probolinggo Kota Pasuruan Kota Mojokerto Kota Madiun Kota Surabaya Kota Batu
Pacitan Ponorogo Trenggalek Tulunggagung Blitar Kediri Malang Lumajang Jember Banyuwangi Bondowoso Situbondo Probolinggo Pasuruan Sidoarjo Mojokerto Jombang Nganjuk Madiun Magetan Ngawi Bojonegoro Tuban Lamongan Gresik Bangkalan Pamekasan Sumenep Kota Kediri Kota Blitar Kota Malang Kota Probolinggo Kota Pasuruan Kota Mojokerto Kota Madiun Kota Surabaya Kota Batu
Pacitan Ponorogo Trenggalek Tulunggagung Blitar Kediri Malang Lumajang Jember Banyuwangi Bondowoso Situbondo Probolinggo Pasuruan Sidoarjo Mojokerto Jombang Nganjuk Madiun Magetan Ngawi Bojonegoro Tuban Lamongan Gresik Bangkalan Pamekasan Sumenep Kota Kediri Kota Blitar Kota Malang Kota Probolinggo Kota Pasuruan Kota Mojokerto Kota Madiun Kota Surabaya Kota Batu
Pacitan Ponorogo Trenggalek Tulunggagung Blitar Kediri Malang Lumajang Jember Banyuwangi Bondowoso Situbondo Probolinggo Pasuruan Sidoarjo Mojokerto Jombang Nganjuk Madiun Magetan Ngawi Bojonegoro Tuban Lamongan Gresik Bangkalan Pamekasan Sumenep Kota Kediri Kota Blitar Kota Malang Kota Probolinggo Kota Pasuruan Kota Mojokerto Kota Madiun Kota Surabaya Kota Batu
Sampang
Sampang
Sampang
Sampang
Sampang
6
Berdasarkan hasil pengelompokan pada Tabel 3, dapat dilihat bahwa keanggotaan kelompok dari tahun 2007 sampai tahun 2011 tidak mengalami pergeseran, serta diketahui wilayah mana yang masuk pada katagori memiliki pambangunan manusia rendah mupun tinggi. Pemerintah harus memberikan perhatian khusus pada wilayah dengan katagori pembangunan manusia yang rendah yaitu daerah yang memiliki indeks kesehatan (IHH), indeks pendidikan (IP), daya beli (PPP) yang rendah yaitu wilayah Sampang. Berdasarkan hasil dari analisis faktor Data 1, diperoleh persamaan 𝑋 = 0,377 𝐼𝐻𝐻 + 0,409 𝐼𝑃 + 0,348 𝑃𝑃𝑃. Dapat dilihat bahwa variabel IP adalah variabel yang paling berpengaruh yaitu sebesar 0,409. Maka, perhatian pemerintah seharusnya lebih difokuskan pada pendidikan terhadap wilayah yang mempunyai pembangunan manusia yang masih rendah yaitu dengan pembangunan sarana pendidikan yang memadai. Selain itu masyarakat yang berada di daerah tersebut sangat membutuhkan adanya pembinaan terhadap pola pikir mereka tentang pentingnya pemanfaatan sarana pendidikan secara optimum. KESIMPULAN Berdasarkan hasil nilai CTM terkecil, dari 100% hasil pengelompokan menunjukkan bahwa metode single linkage menghasilkan CTM terkecil. Jadi, hasil pengelompokan menunjukkan bahwa metode single linkage merupakan metode yang lebih baik dalam penentuan jumlah cluster optimum dibandingkan metode complete linkage dengan menggunakan indeks validitas silhouette pada data IPM Tahun 2007 sampai Tahun 2011. Hasil pengelompokan menggunakan indeks validitas silhouette pada metode single linkage menghasilkan jumlah kelompok optimum yang sama dari tahun 2007 sampai yahun 2011, yaitu jumlah kelompok optimum terbentuk dua kelompok. Hasil pengelompokan metode single linkage pada tahun 2007 ke tahun 2011 tidak menunjukkan pergeseran hasil pengelompokan. Pemerintah harus memberikan perhatian khusus pada wilayah yang masuk dalam kelompok dua atau wilayah Sampang. Karena, wilayah yang masuk dalam kelompok dua adalah wilayah yang memiliki IPM yang rendah. Berdasarkan hasil yang diperoleh dari analisis faktor, variabel Indeks Pendidikan (IP) adalah variabel yang paling berpengaruh. Maka, perhatian pemerintah seharusnya lebih difokuskan pada pendidikan terhadap wilayah yang mempunyai pembangunan manusia yang masih rendah yaitu dengan pembangunan sarana pendidikan yang memadai. Selain itu masyarakat yang berada di daerah tersebut sangat membutuhkan adanya pembinaan terhadap pola pikir mereka tentang pentingnya pemanfaatan sarana pendidikan secara optimum. SARAN Pada penelitian ini, metode pengelompokan yang digunakan adalah metode Single Linkage dan Complete Linkage. Bagi pihak lain yang ingin meneliti
7
bisa menggunakan K-Means. Selain itu, dalam penelitian ini digunakan indeks validitas Silhouette untuk menentukan jumlah optimum cluster. Bagi peneliti lain yang ingin melakukan penelitian untuk menentukan jumlah optimum cluster dapat menggunakan indeks validitas Gap Statistic ataupun mengggunakan indeks validitas lainnya .Selanjutnya dalam penelitian ini untuk menentukan ukuran kebaikan hasil pengelompokan digunakan Cluster Tighness Measure (CTM), sedangkan peneliti lain dapat menggunakan metode Compatible Cluster Merging. DAFTAR RUJUKAN Epps, J. dan Ambikairajah, E. 2008. Visualisation of Reduced Dimension Microarry Data Using Gaussian Mixture Model. (Online), (http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.59.1619), diakses 13 Februari 2013. Rencher, A. C. 2002. Methods of Multivariate Analysis Second Edition. New York: John Wiley & Sons, Inc. Rousseeuw, P. J. 1987. Silhouettes : A Graphical Aid to the Interpretation and Validation of Cluster Analysis. Journal of Computational and Applied Mathematics 20 : 53-65.