ANALISIS KARAKTERISTIK KELOMPOK DENGAN MENGGUNAKAN PENDEKATAN CLUSTER ENSEMBLE Dyah Paminta Rahayu(
[email protected]) Jurusan Matematika FMIPA Universitas Terbuka ABSTRAK Pengelompokkan merupakan salah satu tehnik data mining yang digunakan untuk mengelompokkan data berdasarkan kemiripan atribut dari data obyek. Pada umumnya algoritma pengelompokan dikembangkan hanya untuk memproses salah satu tipe data kategori atau numerik. Tidak banyak algoritma yang dikembangkan untuk memproses data campuran kategori dan numerik. Salah satu algoritma untuk memproses data campuran adalah algCEBMDC, algoritma pengelompokan dengan pendekatan cluster ensemble. Tujuan penelitian ini adalah untuk menganalisis karakteristik hasil pengelompokan algoritma algCEBMDC. Metode penelitian mengikuti alur kerja data mining dan algoritma algCEBMDC. Data yang digunakan adalah data mahasiswa non aktif Program Studi Matematika FMIPA, Universitas Terbuka. Data awal bertipe campuran dibersihkan untuk mendapatkan data bersih siap proses, kemudian dipisah menjadi dua berdasarkan tipe datanya: kategori dan numerik. Data kategori diproses menggunakan algoritma QROCK, menghasilkan 44 kelompok yang diperoleh pada threshold 0.98 dengan nilai kohesi 2044. Data numerik diproses menggunakan algoritma AGNES, menghasilkan 69 kelompok yang diperoleh dari kombinasi ukuran jarak Cityblock distance dan metode penggabungan Average link dengan nilai cophenet 0,822. Hasil dari kedua pengelompokan digabung, dianggap sebagai data kategori, kemudian diproses menggunakan algoritma QROCK. Kelompok-kelompok yang dihasilkan memiliki kesamaan karakteristik pada pendidikan akhir, status pekerjaan, status perkawinan, dan jenis kelamin. Faktor prestasi akademik menunjukkan bahwa tingkat kelulusan matakuliah dalam dua semester pertama sangat rendah. Dapat dikatakan bahwa dua semester pertama merupakan masa kritis bagi mahasiswa Program Studi Matematika UT. Kata kunci: algoritma algCEBMDC, kompleksitas, pengelompokan
ABSTRACT Clustering is one of data mining techniques which is used to group databased on similarity of the object data attributes. In general clustering algorithm is developed to process only one type of data, either category or numerical data type. Not many algorithms were developed to process the mixture between category and numerical data. One algorithm to process the mixed data is algCEBMDC, a clustering algorithm using cluster ensemble approach. The purpose of this study was to analyze the characteristics of the results of clustering algorithms algCEBMDC. The research methods follow the work-flow of data mining and algCEBMDC algorithm. The data used is the data of inactive students of Mathematics study program in Universitas Terbuka (The Indonesia Open University). First, the data is cleared up to get clean data ready for processing, and then is separated into two groups based on the type of category data and numerical data. The category data is processed using QROCK algorithm, producing 44 groups which is obtained at the 0.98 threshold value with
Jurnal Matematika, Sains, dan Teknologi, Volume 14 Nomor 1, Maret 2013, 1-10
cohesion of 2044. The numerical data is processed using AGNES algorithm, generating 69 groups which is derived from a combination of Cityblock Distance and Average link method with cophenet value of 0,822. The results of the two grouping are combined, considered as a data category, then is processed using QROCK algorithm. The resulting groups had similar characteristics on the end of education, employment status, marital status, and gender. The academic achievement factors indicate that the passing level of courses in the first two semesters are very low. It can be concluded that the first two semesters is a critical time for distance education students in mathematic study program. Keywords: algCEBMDC algorithm, characteristics, clustering
Sebagai Universitas yang tergolong dalam ”Mega University”, Universitas Terbuka (UT) memiliki data kemahasiswaan dengan jumlah yang sangat besar. Gudang data tersebut sebenarnya dapat dimanfaatkan oleh pengelola untuk mengembangkan institusi, misalnya untuk peningkatan efektifitas pemasaran atau pengurangan biaya operasional. Selain itu gudang data dapat juga digunakan untuk memecahkan masalah-masalah berikut: bagaimana mengelompokkan mahasiswa yang memiliki kesamaan karakteristik tertentu, mengestimisasi data yang hilang, meningkatkan performa akademik mahasiswa, atau mengurangi resiko kegagalan mahasiswa. Untuk dapat memanfaatkan gudang data, dibutuhkan suatu teknologi yang dapat dengan cepat menganalisis data dalam jumlah besar. Teknologi yang dimaksud adalah data mining. Data mining adalah eksplorasi dan analisis secara otomatis atau semi otomatis terhadap data besar dengan tujuan untuk menemukan pola baru dan bermakna yang mungkin masih belum diketahui (Tan et al. 2006). Data mining merupakan bagian integral dari Knowledge Discovery in Databases (KDD). Keseluruhan proses KDD, mulai dari data masukan sampai menjadi informasi ditunjukkan oleh Gambar 1.
Data Input
Praproses Data
Data Mining
Postprocessing
Seleksi atribut Pengurangan dimensi Normalisasi Subsetting Data
Informasi
Filtering Pola Visualisasi Interpretasi Pola
Gambar 1. Proses knowledge discovery in databases (Tan et al, 2006) Chong (2010) memanfaatkan beberapa teknik data mining, yaitu classification trees, multivariate adaptive regression splines (MARS), and neural networks untuk menganalisis student retention pada Arizona State University (ASU). Saxena (2002) menggunakan salah satu teknik data mining, yaitu analisis pengelompokkan dengan pendekatan hierarchical clustering untuk menganalisis data mahasiswa India Open University, sedangkan Sheela (2010) menggunakan metode pengelompokkan K-means untuk menemukan knowledge dari data akademik mahasiswa Department of Computer Science, University of Agriculture, Faisalabad. 2
Rahayu, Analisis Karakteristik Kelompok
Pada analisis pengelompokkan (cluster analysis) data, dilakukan pengelompokkan berdasarkan kemiripan atribut dari data obyek. Dalam hal ini data obyek yang berada di dalam kelompok yang sama memiliki kemiripan satu sama lain. Sedangkan dengan data obyek di dalam kelompok lain sama sekali tidak memiliki kemiripan. Semakin besar tingkat kemiripan antar obyek di dalam kelompok dan semakin besar tingkat perbedaan antar kelompok, berarti semakin baik pengelompokkan tersebut (Han & Kamber, 2001). Pada umumnya algoritma pengelompokkan dikembangkan hanya untuk memproses salah satu tipe data kategori atau numerik. Tidak banyak algoritma yang dikembangkan untuk memproses data campuran kategori dan numerik. Padahal secara umum data riil memiliki atribut dengan tipe campuran (kategori dan numerik). AlgCEBMDC dan k-prototype adalah dua contoh algoritma pengelompokkan yang bekerja pada data bertipe campuran. Zengyou (2002) membandingkan kedua algoritma tersebut dan menunjukkan bahwa algCEBMDC memiliki akurasi lebih baik dibandingkan k-prototype. Algoritma algCEBMDC merupakan analisis pengelompokkan dengan pendekatan cluster ensemble. Algoritma ini menawarkan suatu teknik baru, yaitu teknik devide-and-conquer. Pertama, data awal bertipe campuran dipisah menjadi dua data kategori dan data numerik. Selanjutnya, kedua data tersebut diproses secara terpisah dengan menggunakan algoritma pengelompokkan yang sesuai dengan tipe masing-masing data. Untuk mendapatkan hasil akhir, kelompok-kelompok yang dihasilkan oleh kedua algoritma digabung dan dipandang sebagai data baru dengan tipe kategori, kemudian diproses dengan menggunakan algoritma pengelompokkan untuk data kategori (Zengyou, Xiaofe, & Shengchum. 2002). Artikel ini menganalisis karakteristik hasil pengelompokkan algoritma algCEBMDC pada data mahasiswa nonaktif Program Studi Matematika FMIPA, Universitas Terbuka. METODE Metode penelitian dikembangkan berdasarkan alur proses KDD yang ditulis oleh Tan, Steinbach, dan Kumar (2006) dan algoritma algCEBMDC (Zengyou, Xiaofe, & Sheng, 2002). Skema metode penelitian disajikan oleh Gambar 2. A. Pengum pulan Data
B. Pra proses Data
C. Data mining (algCEBMDC)
Dataset kategori Data awal
D.
Algoritma QROCK Algoritma QROCK
Data set Dataset numerik
Algoritma AGNES
Gambar 2. Skema metode penelitian
3
Analisis Data
Jurnal Matematika, Sains, dan Teknologi, Volume 14 Nomor 1, Maret 2013, 1-10
Proses dimulai dengan pengumpulan data. Data awal yang berkaitan dengan demografi, latar belakang pendidikan, dan prestasi akademik mahasiswa diperoleh dari Pusat Komputer Universitas Terbuka pada tahun 2008. Data yang diperoleh berjumlah 5883 mahasiswa nonaktif Program Studi Matematika FMIPA-UT, memiliki 33 atribut campuran yang terdiri dari 23 atribut kategori dan 10 atribut numerik. Praproses data yang dilakukan adalah pembersihan data, reduksi data, pemisahan data, dan transformasi data. Pembersihan data dilakukan karena data seringkali memiliki record dengan nilai atribut yang tidak lengkap, kosong, tidak konsisten, dan noisy. Data demikian harus dihapus, tidak disertakan dalam proses data mining karena dapat mempengaruhi hasil akhir secara negatif. Reduksi data yang dilakukan adalah seleksi atribut, karena tidak semua atribut relevan dengan kebutuhan penelitian. Transformasi diperlukan untuk mengkonversi data ke dalam format sesuai dengan kebutuhan. Untuk mendapatkan hasil optimal, pemilihan algoritma pengelompokkan harus tepat karena kualitas hasil akhir dari suatu proses data mining tidak hanya tergantung pada kualitas data tetapi juga algoritma yang digunakan. Setiap algoritma pengelompokkan akan menghasilkan kelompok dengan tipenya masing-masing (Tan et al, 2006). Pada penelitian ini algoritma pengelompokkan yang digunakan adalah algoritma algCEBMDC. Pengelompokkan data kategori menggunakan fungsi just_qrock_edit, ditulis oleh Marisa (2008) dengan menerapkan algoritma QROCK yang merupakan percepatan dari algoritma ROCK. Masukan dari fungsi ini adalah data kategori dan treshold sebagai ukuran kemiripan antar obyek. Untuk mendapatkan kelompok terbaik, kelompok yang dihasilkan dievaluasi menggunakan ukuran nilai kohesi. Semakin tinggi total nilai kohesi suatu hasil pengelompokkan, semakin baik kelompok yang dihasilkan. Pengelompokkan data numerik menerapkan algoritma AGNES dengan menggunakan fungsi-fungsi yang tersedia dalam matlab 7.0, yaitu pdist untuk menghitung jarak antar obyek, lingkage untuk menggabungkan obyek atau kelompok, chopenet untuk menghitung nilai chophenet, dan dendrogram untuk membuat dendrogram dari kelompok yang terbentuk. Hasil pengelompokkan dievaluasi dengan cara menghitung nilai cophenet. Hasil pengelompokkan dikatakan baik jika nilai cophenet mendekati angka 1. Hasil pengelompokkan algoritma QROCK dan algoritma AGNES digabung dan dipandang sebagai data baru dengan tipe kategori kemudian diproses dengan menggunakan algoritma QROCK. HASIL DAN PEMBAHASAN Praproses Data Pada proses pembersihan data ditemukan data yang memiliki atribut dengan nilai tidak lengkap, kosong, dan tidak konsisten. Nilai tidak lengkap terdapat pada atribut Tanggal Lahir pada bagian tahun lahir. Ketidaklengkapan pengisian tahun lahir mengakibatkan kesalahan dalam perhitungan umur mahasiswa karena umur dihitung berdasarkan tahun lahir. Nilai kosong terdapat pada atribut IPK (Indeks Prestasi Akademik) dan SKS (Satuan Kredit Semester). Hal tersebut bisa jadi karena belum ada satupun mata kuliah yang lulus, atau mahasiswa hanya melakukan pendaftaran sebagai mahasiswa UT tetapi tidak pernah mengikuti ujian. Nilai tidak konsisten terdapat pada atribut IPK dalam hubungannya dengan atribut SKS, yaitu terdapat 3 mahasiswa yang telah menempuh dan lulus beberapa mata kuliah tetapi IPK yang didapat 0. Nilai tidak konsisten juga terdapat pada atribut SKS dalam kaitannya dengan atribut Lama Studi, yaitu terdapat 5 mahasiswa yang rata-rata perolehan SKS tiap semester melebihi maksimum jumlah mata kuliah yang dapat 4
Rahayu, Analisis Karakteristik Kelompok
diambil tiap semesternya. Nilai tidak konsisten juga terdapat pada atribut Lama Studi, akibat dari kesalahan pada pengisian atribut Registrasi Akhir karena atribut Lama Studi dihitung berdasarkan atribut Registrasi Akhir. Terdapat 1751 record yang harus dihapus karena memiliki atribut dengan nilai tidak lengkap, kosong, dan tidak konsisten. Reduksi data yang dilakukan dalam penelitian ini adalah seleksi atribut. Dari 33 atribut yang dimiliki, terdapat 23 atribut yang dihapus karena tidak relevan dengan kebutuhan penelitian. Atribut nama dan alamat mahasiswa merupakan contoh atribut yang dihapus karena walaupun atribut tersebut penting bagi mahasiswa tetapi tidak relevan dengan kebutuhan penelitian. Setelah pembersihan dan reduksi data, dataset yang dianggap bersih dan siap diproses berjumlah 4132 records dengan 10 atribut bertipe campuran: 6 atribut kategori dan 4 atribut numerik. Data tersebut diberi nama DataMhs dengan struktur sebagai berikut: Atribut Kategori. Semua status dalam atribut kategori dikonversi kedalam kode numerik. Atribut kategori meliputi: 1. Jurusan Asal adalah atribut yang menerangkan jurusan dari pendidikan akhir yang dimiliki mahasiswa. Sebagai contoh, jika mahasiswa memiliki pendidikan akhir SLTA maka bisa jadi berasal dari jurusan IPA, IPS atau STM. Terdapat 79 (tujuh puluh sembilan) kode numerik untuk menerangkan status dari Jurusan Asal. Sebagai contoh ’101’ untuk ’SMTA Umum IPA/IPS’. 2. UPBJJ adalah atribut yang menerangkan wilayah keberadaan mahasiswa. Terdapat 37 (tiga puluh tujuh) kode numerik untuk menerangkan status dari UPBJJ. Sebagai contoh ’21’ untuk ’UPBJJ UT Jakarta’. 3. Pendidikan Akhir adalah atribut yang menerangkan pendidikan terakhir sebelum menjadi mahasiswa UT. Terdapat 6 (enam) kode numerik untuk menerangkan status dari Pendidikan Akhir, yaitu 1(SLTA), 2(D1), 3(D2), 4(D3), 5(S1), dan 6(S2). 4. Status Kerja adalah atribut yang menerangkan jenis pekerjaan dari mahasiswa. Terdapat 5 (lima) kode numerik untuk menerangkan status dari Status Kerja, yaitu 2 (PNS), 3 (Swasta), 4 (Wiraswasta), 5 (Tidak Bekerja), dan 6 (Bekerja). 5. Status Kawin memiliki 2(dua) kode numerik; 1(kawin) dan 0 (tidak kawin). 6. Jenis Kelamin memiliki 2 (dua) kode numerik; 1 (Laki-laki) dan 0 (perempuan). Atribut Numerik meliputi: 1. Umur adalah atribut yang menerangkan usia mahasiswa ketika pertama kali mendaftar sebagai mahasiswa UT, memiliki rentang nilai antara 16 sampai dengan 66 tahun. 2. IPK adalah atribut yang menerangkan IPK yang diperoleh selama menjadi mahasiswa UT, memiliki rentang nilai antara 1 sampai dengan 4. 3. SKS adalah atribut yang menerangkan jumlah SKS dari sejumlah mata kuliah yang sudah berhasil ditempuh dan lulus dengan nilai minimal D, memiliki rentang nilai antara 3 sampai dengan 175 SKS. 4. Lama Studi adalah atribut yang menerangkan berapa semester mahasiswa mengikuti perkuliahan di UT, memiliki rentang nilai antara 1 sampai dengan 34 semester. Sebelum proses data mining, DataMhs dipisah menjadi dua berdasarkan tipe dari atributnya. Data dengan atribut kategori diberi nama DataKategori dan data dengan atribut numerik diberi nama DataNumerik. Beberapa atribut dari DataKategori memiliki nilai dengan kode numerik yang sama. Sebagai contoh: atribut Pendidikan Akhir ‘D1’ memiliki kode numerik yang sama dengan atribut Status Kerja 5
Jurnal Matematika, Sains, dan Teknologi, Volume 14 Nomor 1, Maret 2013, 1-10
‘PNS’, yaitu ‘2’, sedangkan atribut Status Kawin ‘Tidak Kawin’ memiliki kode numerik yang sama dengan atribut Jenis Kelamin ‘Perempuan’, yaitu ‘0’. Hal demikian dapat mengacaukan hasil perhitungan similarity antar obyek. Oleh karenanya perlu dilakukan transformasi pada DataKategori dengan cara mengubah kode numerik dari sebagian atribut, sedemikian sehingga setiap atribut memiliki kode numerik yang berbeda dengan atribut lain. Atribut yang dikenai transformasi adalah Status Kerja, Status Kawin, dan Jenis Kelamin. Beberapa atribut pada DataNumerik memiliki rentang nilai yang sangat berbeda. Sebagai contoh; atribut SKS memiliki rentang nilai antara 3 sampai dengan 175, sedangkan IPK memiliki rentang nilai antara 0 sampai dengan 4. Hal ini dapat mempengaruhi perhitungan dissimilarity antar obyek karena hasil perhitungan akan didominasi oleh perbedaan nilai SKS dibanding IPK (Tan, Steinbach, & Kumar, 2006). Oleh karenanya perlu dilakukan normalisasi terhadap semua atribut DataNumerik untuk mendapatkan nilai yang proporsional tanpa mengubah informasi yang terkandung. Normalisasi yang digunakan adalah z-score normalization. Pengelompokkan DataKategori Pengelompokkan DataKategori dilakukan dengan 11 (sebelas) variasi nilai threshold antara 0,90 dan 1,0. Untuk setiap threshold yang dimasukkan, akan menghasilkan jumlah kelompok, anggota tiap-tiap kelompok, dan nilai kohesi untuk masing-masing kelompok. Threshold merupakan parameter yang dapat digunakan untuk mengukur similarity dari pasangan obyek yang bertetangga. Semakin besar threshold, semakin mirip pasangan yang bertetangga tersebut. Hasil pengelompokkan terbaik menghasilkan 44 kelompok, diperoleh pada threshold 0,98 dengan nilai kohesi 2044. Kelompok yang dihasilkan oleh algoritma QROCK merupakan graph based clusters. Nilai kohesi tiap kelompok didapat dengan cara menghitung jumlah edge yang menghubungkan tiap obyek dalam kelompok, dibagi dengan jumlah anggota kelompok. Kualitas hasil pengelompokkan diukur dengan cara menjumlahkan nilai kohesi dari tiap-tiap kelompok yang dihasilkan. Semakin tinggi total nilai kohesi suatu hasil pengelompokkan, semakin baik kelompok yang dihasilkan (Dutta, Mahanta, & Arun., 2005). Kelompok-kelompok yang dihasilkan, terbentuk berdasarkan kesamaan pada empat atribut, yaitu Pendidikan Akhir, Status Kerja, Status Kawin, dan Jenis Kelamin. Dua obyek akan berada dalam kelompok yang sama apabila memiliki kesamaan pada keempat atribut tersebut. Sebaliknya, apabila salah satu dari keempat atribut tersebut berbeda, maka kedua obyek dipastikan akan berada dalam kelompok yang berbeda. Dua atribut lain yaitu Jurusan Asal dan UPBJJ tidak menentukan terbentuknya kelompok . Tabel 1. Karakteristik 6 Kelompok Besar Hasil Pengelompokkan DataKategori Nomor Jumlah Anggota Karakteristik Anggota Kelompok Kelompok 3 1113 Laki-laki bekerja, tidak kawin, SLTA 2 882 Laki-laki tidak bekerja, tidak kawin, SLTA 6 609 Laki-laki tidak bekerja, kawin, SLTA 7 391 Perempuan tidak bekerja, tidak kawin, SLTA 4 365 Perempuan bekerja, tidak kawin, SLTA 11 139 Perempuan bekerja, kawin, SLTA
6
Rahayu, Analisis Karakteristik Kelompok
Dari 44 kelompok yang dihasilkan terdapat 6 kelompok besar (84,7%, dengan anggota kelompok antara 139 sampai dengan 1113 obyek) dan 38 kelompok kecil. Karakteristik 6 kelompok besar tersebut disajikan pada Tabel 1. Pengelompokkan DataNumerik Pengelompokkan DataNumerik menggunakan 2 macam ukuran jarak, yaitu Eucliden distance dan Cityblock distance, dan 3 macam metode penggabungan, yaitu Single link, Complete link, dan Average link. Terdapat 6 kemungkinan kombinasi ukuran jarak dan metode penggabungan yang digunakan sebagai masukan dari algoritma AGNES. 16 15 14 13 12
Jarak P enggabungan
11 10 9 8 7 6 5 4 3 2 1 0 3211 3111 3120 3213 2952 2573 3112 2427 1942 1912 1235 2956 2680 2576 2581 2497 2430 2589 2196 2745 1397 2062 1370 2580 2480 2478 2406 2559 2554 3164 3064 2817 653 2577 2760 2494 2409 3169 2833 2495 2951 2578 3174 3207 3341 3171 3530 3526 3524 3346 3479 3473 3499 3416 2506 3677 3622 3579 3496 2775 2603 2510 2595 2693 2776 2848 2846 3081 3135 3080 2905 2974 2971 2975 2966 3450 3390 3136 3176 3222 3088 2990 2704 3397 3039 2783 2981 2912 3092 3244 3147 3277 3362 3045 3184 3094 2602 2836 2434 3325 3432 3309 3138 2608 2695 3307 3033 3275 3482 3183 3565 3394 3312 3454 3453 3267 3227 3218 3583 3352 3353 3315 3378 3303 3261 3598 3419 3339 3497 3475 3633 3548 3478 1508 1260 1516 1526 1118 1101 1947 1104 1100 2333 1107 1498 1111 1470 2499 232 920 253 250 243 239 686 928 1201 1199 965 1781 1805 2087 1956 1494 1939 1791 2174 2078 2318 2509 2505 2202 905 418 407 2587 2424 2329 2496 539 540 531 908 1502 1497 2599 2758 843 827 822 665 1963 1809 838 857 1535 1262 1267 1518 1500 1512 1525 1972 1255 1242 2098 1976 2090 1799 1962 2435 1964 1960 1226 2186 935 676 435 1087 695 1392 1382 1209 915 2179 1778 1794 1932 1083 2570 2487 2482 2752 2887 2674 2316 2574 914 573 2423 3073 3071 2677 417 1910 1192 2764 2757 2897 533 422 661 1899 1788 1440 2073 861 2291 2396 2166 1903 2556 2659 2473 2873 2651 2653 1887 2658 2296 2159 2160 2154 3006 2153 2398 2307 2301 2297 2299 2155 2470 2876 2740 2661 2657 2662 2300 3109 2743 2819 1479 1818 1485 2198 1811 1241 1224 1782 1907 428 242 241 1454 1214 1096 559 249 1393 1092 552 1206 1429 898 876 406 402 543 542 532 925 1374 1191 1410 1212 2308 2173 1422 1202 834 544 658 2189 1783 2310 837 888 415 1093 1920 1913 1228 855 2498 2320 1922 546 421 2749 3025 2490 860 885 868 3525 3481 3263 3214 2305 2156 1771 2404 2180 1787 2948 2736 536 2182 2821 2669 2567 913 2955 2954 2961 2825 408 675 2489 2068 1762 3067 2735 2553 2748 2563 3302 3262 3163 3063 2815 729 3119 3264 3209 3115 3558 3555 3127 3210 1356 2060 1184 2655 2074 1908 2552 2471 3068 803 1007 445 184 1604 1860 1856 1630 256 183 175 591 2020 1854 1626 1621 1612 446 266 2235 2025 2021 2024 999 588 585 2245 2243 2360 2355 178 176 174 177 992 603 2630 1167 1663 1021 1017 996 708 451 182 66 1646 1631 1294 1279 83 72 75 2113 1282 1991 1138 1847 1846 1594 76 1995 1994 1144 1143 456 455 85 1596 1595 1278 1139 2229 457 1833 1606 1999 998 265 601 1845 1608 1607 1154 713 988 1989 1544 1136 1130 971 1827 2341 1151 2114 1997 1587 1605 2620 2523 2453 2231 2037 2040 2032 1158 991 2720 2800 2530 2254 2634 2136 2267 1660 2803 2352 2226 1998 1591 993 989 2623 2518 2454 2527 2225 1837 2627 2629 2347 2111 2350 2227 1992 2612 2513 2512 2519 2987 2915 1006 2351 2356 2112 1156 2768 2611 2604 2437 1147 3194 3185 2985 2517 2233 2701 2230 2006 2131 2038 2252 2348 2920 2794 2528 2256 2923 2858 2631 1040 1694 1039 1035 1036 1876 1684 1681 1707 2050 1884 1037 2048 2044 1027 1303 2464 2375 2047 2810 2638 81 1881 2933 2808 275 2370 2269 717 1714 1875 2270 1172 1033 2279 2374 2280 1705 2277 2377 1665 2643 2141 1670 715 3046 2718 2534 2533 612 460 3493 3469 3331 2864 2861 719 464 724 463 720 718 1188 1058 155 113 104 485 343 307 203 786 755 641 1060 359 292 199 111 740 620 488 469 381 805 802 1335 131 116 114 1886 367 352 145 138 807 764 627 484 163 126 117 289 221 219 165 1057 779 753 482 380 811 810 51 1316 1890 1354 1322 1059 1816 799 517 470 383 112 527 516 473 40 506 328 121 804 346 133 661 36 212 364 196 1061 41 1333 119 128 97 285 284 220 194 135 99 327 315 303 288 489 481 344 329 626 625 521 520 1746 1330 1329 1326 758 737 633 29 28 35 32 150 141 96 58 351 335 158 153 491 480 474 472 738 733 646 635 1063 1052 1893 1334 754 752 743 741 3769 118 110 93 1359 1353 1056 293 164 154 120 501 362 320 316 800 744 644 321 311 211 107 1357 1064 1183 526 507 479 471 33 10 71065 1751 801 278 210 147 140 1313 1186 1752 1754 2290 518 348 771 371 522 151 106 95 91 1336 2061 1317 1185 146 159 144 379 2648 2150 1753 1343 643 2293 2151 2650 632 56 137 378 282 508 376 43 1748 1352 746 31 49 505 195 136 167 809 806 217 55 39 790 776 761 222 193 514 198 197 100 308 305 302 295 223 92 337 326 325 324 500 468 377 353 636 630 524 510 12 21 20 15 14 775 747 745 637 818 813 812 788 98 2101 283 162 1757 1749 1319 1187 318 306 301 291 1320 1315 1312 1311 340 334 333 331 322 1339 1332 1327 1324 357 355 347 345 523 492 368 354 13 642 640 634 623 23 44 38 18 791 774 773 762 30 814 1344 1321 127 103 1355 1347 1345 207 201 130 129 360 358 356 332 296 1349 622 496 374 363 751 749 639 631 772 765 757 756 793 789 777 46 16 361 300 206 105 792 781 502 1054 161 143 134 309 304 299 213 366 339 323 319 52 511 483 476 369 1342 1325 1314 780 750 645 621 515 45 42 17 1348 1331 1318 817 797 784 166 160 115 60 27 478 312 286 277 629 503 499 494 742 739 734 730 728 783 5123 125 34 1350 1328 280 214 205 152 336 314 294 290 287 498 493 384 382 748 732 513 497 785 782 768 763 819 815 795 19 11 139 109 108 102 298 297 281 168 375 373 370 365 317 1338 1055 8388 486 477 475 731 525 509 495 48 47 22 1891 1759 1337 1182 1181 767 759 736 735 94 59 26 24 1747 1892 2385 1888 122 820 798 787 770 2474 2387 2289 2469 490 215 628 330 2737 2874 2652 200 148 349 794 504 385 9350 796 487 216 1002 1000 2019 1857 1286 1153 1005 2365 2253 2129 2249 2028 1620 1288 142 1003 449 590 262 597 448 1642 1640 1159 1285 1622 1644 1290 2022 169 2242 2122 2003 1602 2247 2244 2452 2246 602 586 259 87 67 62 2460 260 255 187 179 82 65 63 1009 1161 589 587 447 261 2124 2018 2251 1855 604 2023 2015 2120 2007 2362 2125 2031 2126 2264 2263 2260 2134 1015 2532 2632 2633 2367 593 171 1671 1169 1025 1165 712 257 454 1651 1650 2041 1678 1877 1673 1672 1020 1866 1862 1648 1647 2258 2042 2039 1870 1869 1689 1879 1686 2261 77 2276 2274 1693 2142 1874 1680 1168 1166 2273 2143 2268 2045 1001 1152 1008 1634 1157 1010 1641 1639 1635 596 594 450 263 1624 1623 1291 1160 1011 997 706 600 1633 1632 1629 1625 2248 1645 1638 599 598 452 264 258 64 592 173 172 1284 1627 2009 1614 1613 710 86 80 70 74 1610 1149 2127 1636 1628 994 1611 1609 1603 1616 71 68 1643 2013 1850 1618 1863 2123 2016 1859 180 1834 2458 2239 2237 987 709 254 78 2238 2011 1844 2002 1842 2621 2526 2525 2457 2121 2117 1996 2622 1649 1012 2709 2359 1865 1667 1864 1662 1658 1014 1013 2369 1668 1170 1019 1163 1016 1664 1656 1655 1652 2135 1659 1657 1867 1654 1293 1162 2138 2137 2034 2033 1868 1669 2262 2133 2036 2035 1004 1858 1637 1287 1155 2361 2259 2029 2027 2000 1838 1848 1615 2358 2014 1861 2116 2257 2132 2250 2128 2711 2798 2529 2628 2349 995 595 605 2712 2921 2791 2799 714 2856 2854 3044 2924 2863 2802 2719 2635 2363 2366 2004 2995 1031 1688 1300 1299 1302 1692 1682 1023 1685 1304 1030 1295 1018 1029 1028 2272 1691 1171 1301 1034 1032 608 273 609 271 269 1679 1676 1675 1674 607 606 458 2046 1878 1687 1872 1696 1697 1695 1173 2271 716 1702 1307 2465 2275 1708 1701 1700 1706 2146 2380 1710 1704 1292 1024 2467 2378 2379 2372 1677 1661 1871 1298 1698 1690 1297 2145 2139 2144 1306 1683 2463 1873 1666 2723 2637 2538 2536 2140 3002 3000 2724 2639 3052 3056 3103 3102 2540 3248 3101 3100 2726 2642 2640 2644 1880 1305 1296 2727 2730 2017 1164 1853 1653 1022 2714 2371 2462 2265 2792 2860 2855 2459 2717 3096 2991 3192 3093 3047 2998 3191 3151 2617 2616 2236 3099 707 170 3155 3097 2715 2255 2725 2466 3367 3195 3288 2731 3003 2934 2645 2867 2809 3057 2869 2868 2728 3160 3055 73 2930 2722 2537 2636 2535 3157 3048 2928 2716 3287 3197 3156 2996 3291 3250 3054 3053 2721 3329 3292 3251 2925 2801 2997 2994 2929 3159 2806 3049 2866 3246 3196 2993 1119 1503 1968 1813 1523 224 228 548 923 225 1251 1129 1513 1116 1114 2097 1527 1249 1533 562 554 238 231 685 236 229 917 937 930 922 912 1225 948 945 944 689 1495 1446 1223 1220 1952 1478 2085 1790 647 528 419 389 1950 1945 874 652 545 535 904 896 877 875 671 670 889 884 1450 1084 1112 1099 1934 1459 893 882 881 880 1102 1954 1800 1463 1245 1237 1473 1466 1465 1511 1509 1499 1797 560 230 227 1501 1113 2091 1528 395 929 921 918 1490 1482 1472 1524 404 396 1804 1801 1536 1254 1122 1127 1115 430 426 2204 1814 1519 962 960 953 690 431 1126 571 570 688 577 572 583 1566 958 956 952 932 700 697 582 432 1543 1542 1140 961 683 1573 1572 1558 1555 433 1560 2220 1831 1576 1575 576 569 439 1585 1569 442 986 701 694 1590 1588 1270 977 976 969 979 1559 1549 1593 967 973 968 692 1851 1839 1835 1150 985 2232 2228 1841 1589 1852 2449 2447 2105 2103 2442 703 702 705 1507 1098 1969 2092 1816 1808 990 1822 1266 1990 1979 1570 1567 1273 1819 1821 1582 574 955 434 2001 2109 1993 1274 926 911 1075 677 693 699 584 1070 954 938 691 1414 1366 1195 1071 2076 2075 1909 2077 1774 2167 1452 529 2183 2082 1775 856 664 654 1076 824 657 656 650 1385 1384 865 845 840 1444 1426 1408 1213 1072 1425 1445 1090 903 537 1068 1067 2083 1462 651 1427 1419 1409 1402 1074 866 839 668 1776 1911 1773 1431 863 862 852 662 1378 1439 1403 1915 1769 1767 1761 1396 858 847 1386 1367 1901 1770 897 2162 2067 1373 1369 1388 2407 2401 2555 1897 1205 1772 2561 2485 2668 2483 2664 2739 2392 2393 2388 3110 3107 2654 2476 2761 2883 2881 2744 823 1190 1120 1117 1938 854 1898 1441 1434 1203 1198 1365 1380 1372 2304 1764 1906 869 878 872 672 234 226 1250 1137 1133 1124 245 924 558 247 1538 1537 1263 1253 682 564 555 246 244 1974 1824 565 557 556 233 427 551 550 248 1121 681 680 438 429 2102 1534 1134 947 943 940 934 1125 1238 1236 949 1475 1474 1467 1807 684 678 1487 1484 1480 1477 1966 1961 1958 1817 1506 939 936 933 687 1806 1798 1796 1247 951 942 941 1520 1515 1514 1256 963 959 2206 2201 2199 1812 980 2330 2436 1109 1105 1488 1483 1476 1469 1461 1233 1221 1217 1464 1246 1244 1240 1522 1510 1489 1481 1468 1531 2429 2191 549 240 2679 2416 416 392 553 1564 1557 1540 1268 1265 1820 1532 1586 1574 2208 2222 2107 1978 892 444 443 1832 1601 1280 2343 1271 1141 1987 1840 972 970 698 579 1545 1541 1283 1269 1146 982 978 983 974 1561 1554 1551 1548 1829 1828 1578 1563 1550 1547 1546 2217 1580 1571 1568 1565 1553 1988 1982 1581 1584 1277 1276 1275 2110 1830 1556 1552 1281 2438 1491 1243 1965 1810 1493 1802 1257 1252 2200 1955 1539 1261 1971 1264 2440 2340 2610 2108 2422 2420 2844 2607 2445 2501 2431 2687 2584 916 563 2606 2598 2594 2508 2690 2591 2592 2503 2419 2411 1931 1784 1959 1815 1803 2678 2426 2197 2195 2094 2093 2588 2585 2493 2328 3021 2895 2831 2590 2893 2963 2892 2834 1399 1902 1207 3223 3216 2302 2161 2158 2065 2405 2402 2172 2394 2481 2477 2390 2408 2673 2410 2323 2080 1458 2959 2885 1229 1218 1095 1937 1795 1455 1230 2421 2414 2332 2192 2084 1953 1793 1492 1108 1936 2175 1914 1451 251 235 2089 1222 2188 2184 423 413 409 561 2321 1216 424 1194 1080 1423 1896 1394 1196 1204 2070 2742 2400 2309 2170 2079 2165 2164 2066 1766 2491 2484 2177 2072 1905 2157 1894 655 846 667 2169 2472 2391 2389 848 2667 2565 2562 2171 3012 2822 2816 2882 3014 1094 1089 1234 399 410 400 391 1219 674 425 420 401 1460 1232 541 870 907 895 894 669 666 663 660 648 1215 1088 1086 1082 1436 1433 1432 1424 393 849 842 831 1924 1916 1785 1442 890 887 673 403 1789 1471 1231 1110 1106 906 902 891 2088 2315 2187 1941 826 659 1401 1081 886 883 873 835 829 1412 1435 1420 1404 1930 1919 1777 1418 1078 2311 2306 1940 1933 1368 1210 1208 1197 1362 2071 1768 1760 836 830 1377 1376 1364 1391 1763 1398 1389 1091 1066 1077 1073 1405 1079 1069 394 1437 1417 1413 1407 538 414 411 398 397 1421 1411 1406 1438 899 879 867 547 1375 1200 1430 1428 649 530 909 853 833 821 1395 1371 1363 1381 1379 1456 2064 1904 1400 844 841 832 1928 1926 1917 1944 864 2176 2081 1943 2313 1765 1443 1786 1416 1415 2884 2492 2418 1900 3265 2670 2575 2571 3306 1132 1505 1258 1984 1825 2095 2101 1977 1970 2214 2211 2207 2511 2441 1973 1826 2596 2507 2428 2782 2212 2106 1981 3029 580 568 2335 2337 2209 2219 2346 696 966 2342 2218 2345 2344 2694 2443 2336 2448 2432 2772 2977 2769 2839 2771 2765 2691 2600 2838 2907 2778 2766 2759 2754 2898 2689 2972 2902 2837 2605 3077 3132 2967 3133 2502 3179 3141 3083 3134 2970 3032 3030 2688 2609 3129 3079 3031 2840 2781 2774 2613 2779 2697 1619 1148 2223 2118 2115 1849 2240 2010 2522 2455 2516 2524 2456 2241 2986 2917 2705 2625 2624 2710 2699 2619 2618 2789 2785 2916 2702 704 2364 2354 2005 2850 2708 2521 2357 2012 1272 1529 1131 1123 2520 1583 1142 1986 1980 2353 1843 1600 1598 2700 2450 2707 2626 2914 2913 2698 2614 3040 3137 2973 2909 2908 3149 2989 3484 3452 3245 3193 3152 3190 3280 3189 3187 3361 3356 3355 3402 3284 2910 3463 3462 3400 3359 3143 3237 3144 3089 3145 3351 3321 3282 3090 3043 3273 3182 3283 3430 3360 3095 3091 3465 3326 3323 3285 1496 1128 1521 1504 1530 1949 2327 1975 1921 1780 2317 1935 1453 1103 1097 1390 1387 931 441 2168 2566 2475 2163 1895 1923 1193 2303 2399 2314 1929 1925 2069 850 825 2568 2560 2298 2488 2185 1227 1383 2676 919 900 910 2324 2319 1946 2413 828 2684 2681 2326 2194 2193 3026 2835 2763 2683 3116 3069 3172 3128 2818 2672 2564 3121 3117 3108 2950 2747 3123 2968 2903 2500 3256 3349 3311 3226 3126 3041 3038 3424 3385 2875 2741 2557 3281 3061 2880 2660 2649 3010 2671 3299 3206 3205 2960 2830 2829 2686 2890 2823 2820 2886 2953 3114 3072 2962 2216 1259 3208 3166 3066 2213 2446 2444 2210 2685 2099 2339 1967 3022 2889 2827 2756 2770 2692 3125 2900 3139 3037 2786 2983 2784 3034 2904 2773 2767 2847 2787 2845 3078 2795 2461 2842 2841 3148 2988 2984 2514 3154 2918 2852 2857 2703 2178 1447 3404 3241 2593 2205 1517 2181 2331 2325 2190 1948 2579 2415 2899 2586 2582 2832 2824 2751 2569 3212 3023 3070 3013 2896 2888 2601 3131 2334 2675 3165 2958 2572 3019 2826 2762 2583 3020 3017 2828 3122 2849 3018 3016 3028 2976 2906 2982 2911 2965 2969 2901 3085 2978 3228 3177 3036 3035 3232 3354 3483 3234 3217 3386 3269 3272 3420 3446 3342 3304 3268 3225 3220 3529 3508 3423 3480 3388 3347 3531 3511 3393 3421 3024 2964 3317 3239 3274 3224 3215 3384 3266 3507 3422 3313 3175 3596 3576 3532 3510 2949 3060 2814 3580 3337 3300 3257 3009 3415 3477 3417 3338 3336 3618 3616 3551 3498 3375 3671 3714 3672 3414 3381 3380 3632 3502 3449 3553 3441 3440 3527 3506 3503 3505 3653 3574 3593 3554 3673 3715 3750 1486 2597 2338 2451 2224 1985 3186 2919 2980 2979 3150 3320 3278 3240 3230 3229 3308 3130 3238 3146 3512 3233 964 436 3403 3401 3399 3279 3276 578 575 2894 2312 2086 3515 2780 3382 3340 2957 3178 3086 3076 2843 3319 3235 3231 3426 3310 3348 3427 3391 3389 3395 3447 3443 3509 3681 3624 3559 3557 3445 3442 3301 3758 3500 3696 3621 3549 3474 3439 3617 3550 3523 3675 3674 3697 3575 3698 3678 3726 3757 2058 1889 2295 1361 1341 2395 2063 2059 2549 2812 2738 2878 2656 3259 3008 3005 2813 3334 3203 2879 3004 3204 3297 3007 3494 3412 2551 2479 3374 3298 2665 3167 3062 3011 1918 3333 3162 3296 2682 2753 2746 2663 3118 3173 2891 2877 3168 3376 3170 3015 3383 3413 3592 3573 3495 3451 3594 3552 3476 3180 3142 3578 3561 3560 3344 3221 3387 3314 3489 3398 3425 3350 3623 3528 3504 3637 3597 3713 3658 3656 3680 3634 3709 3626 3635 3830 3756 3591 3377 3824 3699 3655 3620 3840 3774 3751 3833 3708 3705 3784 3701 3654 3581 3501 3345 3730 3736 3676 3619 3418 3725 3855 3695 3707 3657 3847 3832 3771 3794 3783 3685 3737 3682 3716 3704 3823 3804 3900 3878 3772 3814 3839 3752 3829 3803 3961 3865 3880 3793 3876 3831 3926 3925 3906 3858 3857 3856 3838 3933 3932 3922 3867 3991 3999 3970 3952 2804 3293 3001 3252 2641 2859 2851 2865 2862 2992 3051 2932 2926 3289 3406 3290 3098 3669 3629 2999 3468 3710 3665 3645 3650 3712 3243 2853 3780 3724 3318 3286 3516 3464 3491 3719 3460 3641 3601 3582 3566 3607 3533 3761 3760 3683 3636 3796 3689 3706 3659 3368 3467 3365 3813 3522 3435 3407 3409 3568 3693 3694 3651 3611 3588 3668 3570 3586 3646 3744 3537 3649 3188 3769 3666 3691 3538 3459 3458 3357 3428 3488 3457 3358 3242 3487 3539 3431 3429 3363 3324 3536 3517 3405 3608 3585 3433 3514 3486 3490 3461 3518 3567 3534 3456 3540 3688 3603 3604 3584 3723 3745 3642 3778 3720 3732 3667 3644 3741 3738 3600 3562 3746 3660 3564 3785 3773 3661 3717 3684 3602 3816 3786 3663 3662 3881 3807 3852 3766 3817 3914 3871 3818 3797 3820 3862 3826 3806 3879 3868 3822 3834 3364 3327 3199 3887 3436 3330 3294 3520 3466 3569 3571 3545 3471 3648 3627 3521 3470 3332 3613 3437 3253 3864 3791 3770 3546 3934 3874 3905 3836 3811 3587 3434 3821 3884 3692 3647 3643 3609 3762 3625 3754 3610 3795 3805 3788 3763 3776 3686 3640 3815 3740 3808 3768 3779 3753 3798 3853 3850 3870 3904 3882 3799 3845 3872 3875 3899 3863 3812 3975 3950 3924 3893 3930 3966 3931 3903 2373 2043 1026 3943 3408 3158 2935 2541 2539 2376 3366 3328 3492 2805 2796 2793 3050 3790 3542 3628 3249 1046 1045 1730 1726 1729 1727 1178 1047 1048 1885 1734 1736 1735 2287 2546 2149 2286 1043 1176 2283 1712 1723 1720 1309 616 1722 1717 1715 1725 466 2870 2734 1721 1716 619 1713 2542 2278 1699 2937 2729 2544 2543 2281 2872 2871 2732 2938 725 722 2382 1724 1719 2939 88 2943 2941 2285 1728 1044 1177 1731 1042 1310 2148 2052 2646 2054 1718 1038 726 189 190 188 1883 1882 1711 1308 1175 617 2284 2381 2147 2053 462 611 1709 1739 1738 613 1740 2288 2055 1737 1733 268 2548 2468 2384 2946 276 270 274 272 90 89 1732 1741 1179 1050 610 614 721 2545 1743 1742 2057 2947 1744 1745 2056 2942 2282 618 2647 3371 2547 2383 3201 3547 3104 2733 2944 2940 3438 3369 3370 3472 3411 3295 3105 727 3670 3615 3792 3372 2945 1180 615 465 3572 3202 3059 3652 3631 3630 3781 3749 3886 3936 3895 3802 3735 1062 1358 191 2386 2294 192 1053 1189 1051 157 149 766 313 1351 1360 1340 341 2292 2152 1755 1346 467 372 124 519 512 338 156 2550 1750 1758 1756 638 387 760 1449 1323 778 57 2397 202 279 218 208 37 310 204 2008 1289 2713 2026 25 50 2531 2266 2368 2119 132 624 209 1792 1457 1211 1448 1779 4386 342 53 2486 2403 2322 1927 711 185 3027 3065 267 453 181 2104 2203 1957 2504 2615 2777 2696 54 1823 1983 252 851 2439 1562 901 859 2096 1248 1579 79 69 2515 2234 2221 2130 679 440 84 1239 927 581 1085 2215 1135 2100 950 946 1599 1592 1597 1145 984 981 1577 1836 2425 1951 567 2433 2811 2755 186 3305 3113 3260 3258 566 237 390 2931 3153 2922 3444 957 437 871 2936 1041 975 1049 2049 1703 1174 3106 2412 412 3379 3335 2666 2417 405 3198 3181 2790 3373 3722 3612 2807 3042 2797 3074 2750 2558 1617 461 459 3606 3322 3236 3075 723 3270 3082 3687 3543 808 534 3343 3084 3124 3392 3638 3519 3775 3577 3448 3901 3889 3835 3765 3949 3946 3911 3941 4007 3957 3981 3956 3892 3747 3721 3605 4015 3755 3748 3988 3894 3827 3254 3410 2051 3963 3968 3828 3782 3087 2927 2706 3965 3563 3535 3485 3396 3140 3727 3702 3731 3639 3200 3161 3718 3739 3590 3589 3544 3247 3513 3455 3316 2788 3556 3743 3595 3219 3541 3759 3700 3728 3679 3984 3861 3841 3837 3690 3711 3614 3973 3935 3873 3890 3810 3809 3733 3916 3915 3883 3960 3801 3800 3734 3898 3891 3825 3664 3849 3819 3843 3742 3854 3860 3851 3777 3859 4001 4000 3987 3920 3896 3944 3877 4020 3918 3885 3953 3928 3938 3908 3955 3923 3910 3992 3969 3951 3937 4014 3996 4006 3983 3271 2030 3958 3846 3844 3789 3703 3599 3998 3995 3921 3959 3869 3971 3927 3907 3866 4013 4008 3974 3919 4033 4012 4063 4053 4051 4047 4044 4039 4069 4065 4035 4066 4024 4067 4094 4092 4074 4059 4105 4096 4106 4103 4081 4083 4076 4110 4082 4099 4073 4115 4123 4117 4120 4119 4113 4112 4089 4070 4122 4111 4109 4101 4127 4093 4086 4125 4121 4116 4131 4130 4129 3848 3842 3729 4128 3967 3912 3897 3888 3764 3948 3940 3929 4004 3962 3954 3767 3787 4041 4023 3993 3985 3945 3939 3917 4050 3989 3978 3980 3979 3909 3902 3977 3990 3913 3982 3972 3964 3947 4009 4002 3986 3942 3994 4016 4018 4005 4060 4034 4022 4017 4032 4027 4040 4028 4085 4080 4079 4062 4054 4087 4071 4098 4097 4025 4038 4037 4019 3997 3976 4026 4021 4072 4031 4003 4010 4011 4084 4052 4042 4036 4055 4046 4045 4090 4056 4114 4108 4061 4030 4029 4064 4057 4088 4075 4058 4048 4043 4077 4068 4102 4095 4107 4104 4100 4078 4049 3255 3058 4124 4132 4126 4118 4091 Data objek
Gambar 3. Dendrogram hasil terbaik pengelompokkan DataNumerik Pengelompokkan terbaik diperoleh dari kombinasi ukuran jarak Cityblock distance dan metode penggabungan Average link dengan nilai cophenet 0,822. Dendrogram hasil pengelompokkan terbaik ditunjukkan oleh Gambar 3. Dengan memotong dendrogram pada jarak 2,8 dimana terjadi loncatan jarak penggabungan, diperoleh 69 kelompok. Dari 69 kelompok yang terbentuk, terdapat 6 kelompok besar (86,7% dari data observasi) dan 63 kelompok kecil. Karakteristik dari 6 kelompok besar disajikan pada Tabel 3. Tabel 3. Karakteristik 6 Kelompok Besar Hasil Pengelompokkan DataNumerik Nomor Jumlah Anggota Karakteristik Kelompok 18 2340 Usia 23 tahun, 13SKS, IPK 1,52 & Lama Studi 1,8 semester 62 641 Usia 31 tahun, 16SKS, IPK 1,64 & Lama Studi 2,5 semester 28 229 Usia 22 tahun, 44SKS, IPK 2,03 & Lama Studi 5,7 semester 23 136 Usia 42 tahun, 10SKS, IPK 1,40 & Lama Studi 1,9 semester 12 122 Usia 21 tahun, 12SKS, IPK 2,96 & Lama Studi 1,6 semester 47 116 Usia 23 tahun, 29SKS, IPK 1,42 & Lama Studi 7 semester Secara umum hasil pengelompokkan DataNumerik menunjukkan bahwa lebih dari 78% mahasiswa nonaktif belajar di UT hanya selama dua semester. Tingkat kelulusan matakuliah dalam
7
Jurnal Matematika, Sains, dan Teknologi, Volume 14 Nomor 1, Maret 2013, 1-10
dua semester pertama sangat rendah, hal ini ditunjukkan dengan rendahnya SKS dan IPK yang dicapai. Sebagaimana disampaikan Saxena (2002) bahwa dalam data kemahasiswaan sering tersimpan informasi yang sangat penting tentang mahasiswa. Pada pengelompokkan DataNumerik ditemukan beberapa kelompok kecil yang dapat dikategorikan sebagai outlier tetapi perlu mendapat perhatian karena merupakan informasi yang penting bagi pengelola UT. Sebagai contoh, kelompok 4 hanya beranggotakan 1 mahasiswa yang sudah menempuh 145 SKS dengan IPK 2,22 dan telah mengikuti pendidikan di UT selama 12 semester, sedangkan kelompok 16 beranggotakan 2 mahasiswa yang masing-masing telah menempuh 129 SKS dan 132 SKS dengan IPK 2,32 dan 2,11. Jika hanya dilihat dari SKS dan IPK seharusnya mahasiswa dalam kelompok 4 telah memenuhi syarat kelulusan, sedangkan mahasiswa dalam kelompok 16 berpotensi tinggi untuk dapat menyelesaikan studinya. Perlu pemeriksaan lebih lanjut apa yang menyebabkan mahasiswa tersebut berstatus nonaktif. Pengelompokkan DataGabungan Hasil pengelompokkan DataKategori menempatkan data obyek ke dalam 44 kelompok, sedangkan hasil pengelompokkan DataNumerik menempatkan data obyek ke dalam 69 kelompok. Struktur masing-masing keluaran tersebut berupa vektor berukuran 4132 (merepresentasikan data obyek) yang berisi nomor kelompok dimana data obyek berada. DataGabungan dibangun hanya dari enam kelompok besar hasil pengelompokkan DataKategori dan enam kelompok besar hasil pengelompokkan DataNumerik. Alasannya bahwa kelompok-kelompok tersebut merepresentasikan keluaran dari masing-masing proses pengelompokkan karena mewakili lebih dari 80% keseluruhan data observasi. Anggota dari DataGabungan adalah irisan enam kelompok besar hasil pengelompokkan DataKategori dan enam kelompok besar hasil pengelompokkan DataNumerik. DataGabungan berbentuk matrik 3069x2 dengan atribut pertama berisi nomor kelompok dari hasil pengelompokkan DataKategori dan atribut kedua berisi nomor kelompok dari hasil pengelompokkan DataNumerik. Kelompok yang dihasilkan oleh suatu algoritma pengelompokkan menempatkan setiap data obyek ke dalam satu kelompok tertentu. Jika dua obyek berada dalam kelompok yang sama maka kedua obyek tersebut dianggap sama. Sebaliknya jika dua obyek berada dalam kelompok yang berbeda maka kedua obyek dianggap berbeda. Jelas bahwa kelompok yang dihasilkan oleh setiap algoritma pengelompokkan tidak dapat diurutkan sebagaimana mengurutkan bilangan riil. Oleh karenanya kelompok-kelompok tersebut dapat dipandang sebagai data kategori. Zengyou et al. (2002) menyampaikan bahwa karena keluaran dari masing-masing algoritma klastering merupakan data kategori, maka persoalan cluster ensemble dapat dipandang sebagai persoalan pengelompokkan data kategori. Hasil dari masing-masing algoritma pengelompokkan dapat digabung menjadi data baru dengan tipe kategori. Karena itulah pengelompokkan DataGabungan menggunakan algoritma QROCK. Pengelompokkan DataGabungan dilakukan dengan lima variasi nilai threshold 0,6, 0,7, 0,8, 0,9 dan 1,0. Hasil terbaik pengelompokkan diperoleh pada threshold 1,0, menghasilkan 35 kelompok. Dari 35 kelompok yang dihasilkan, terdapat 7 kelompok besar (78% dari data observasi) dan 28 kelompok kecil. Karakteristik 7 klaster besar tersebut, sebagaimana disajikan pada Tabel 4, merupakan kombinasi dari lima klaster terbesar hasil klastering DataKategori dan dua klaster terbesar hasil klastering DataNumerik.
8
Rahayu, Analisis Karakteristik Kelompok
Dapat dikatakan bahwa Tabel 4 merepresentasikan karakteristik kelompok-kelompok mahasiswa nonaktif Program Studi Matematika tahun 2008. Kelompok-kelompok yang terbentuk memiliki kesamaan pada pendidikan akhir (SLTA), status pekerjaan, status perkawinan, dan jenis kelamin. Faktor prestasi akademik menunjukkan bahwa dua semester pertama merupakan masa kritis bagi mahasiswa Program Studi Matematika UT. Tingkat kelulusan matakuliah dalam dua semester pertama sangat rendah. Hal ini ditunjukkan dengan rendahnya SKS dan IPK yang dicapai. Tabel 4. Karakteristik 7 Kelompok Terbesar Hasil Pengelompokkan DataGabungan Nomor Jumlah Karakteristik Anggota Kelompok Kelompok Anggota 2 745 Laki-laki bekerja, tidak kawin, 23th, 13SKS,IPK1,52& 1,8 semester 1 617 Laki-laki tidak bekerja, tidak kawin, 23th, 13SKS,IPK1,52& 1,8 semester 6 278 Perempuan tdk bekerja, tdk kawin, 23th, 13SKS,IPK1,52& 1,8 semester 5 252 Perempuan bekerja, tidak kawin, 23th, 13SKS,IPK1,52& 1,8 semester 11 234 Laki-laki tidak bekerja, kawin, 31th, 16SKS,IPK1,64 & 2,5 semester 4 158 Laki-laki tidak bekerja, kawin, 23th, 13SKS,IPK1,52& 1,8 semester 9 120 Laki-laki bekerja, tidak kawin, 31th, 16SKS,IPK1,64 & 2,5 semester Hasil pengelompokkan ini semestinya dapat digunakan oleh pengelola untuk membuat program penanganan terhadap mahasiswa nonaktif lebih tepat. Karakteristik kelompok tertentu yang dihasilkan dapat menjadi acuan awal dalam merangcang program penanganan pelayanan mahasiswa. Sedangkan jumlah anggota kelompok dapat dijadikan ukuran besaran program pelayanan tersebut. Sebagaimana telah disebutkan sebelumnya bahwa jumlah kelompok hasil pengelompokkan DataNumerik diperoleh dengan cara memotong dendrogram pada jarak dimana terjadi loncatan tertinggi pada diagram batang daun. Untuk data dengan ukuran kecil tidaklah menjadi soal, tetapi untuk data dengan ukuran besar sebagaimana yang digunakan dalam penelitian ini, hal tersebut menjadi kendala tersendiri. Perlu dipertimbangkan penggunaan ukuran kuantitatif untuk menentukan jarak pemotongan tersebut, misalkan nilai inkonsistensi dari setiap link pada pohon yang dihasilkan oleh algoritma AGNES. Kompleksitas dari algCEBMDC dipengaruhi oleh tiga komponen, yaitu kompleksitas pengelompokkan data kategori, kompleksitas pengelompokkan data numerik, dan kompleksitas pengelompokkan data gabungan. Dengan kata lain kompleksitas dari algCEBMDC ditentukan oleh kompleksitas dari algoritma yang digunakan pada masing-masing komponen (Zengyou et al., 2002). Dengan menggunakan kombinasi algoritma QROCK dan Algoritma AGNES, kompleksitas algoritma algCEBMDC pada penelitian ini adalah O (n3). SIMPULAN Algoritma algCEBMDC yang digunakan dalam penelitian ini menerapkan algoritma QROCK untuk pengelompokkan data kategori dan algoritma AGNES untuk pengelompokkan data numerik. Kelompok-kelompok yang terbentuk memiliki kesamaan pada pendidikan akhir (SLTA), status pekerjaan, status perkawinan, dan jenis kelamin. Faktor prestasi akademik menunjukkan bahwa dua semester pertama merupakan masa kritis bagi mahasiswa Program Studi Matematika UT. Tingkat kelulusan matakuliah dalam dua semester pertama sangat rendah.
9
Jurnal Matematika, Sains, dan Teknologi, Volume 14 Nomor 1, Maret 2013, 1-10
REFERENSI Chong, H.Y., Samuel D., Angel J.P., & Charles K. (2010). A data mining approach fo identifying predictor of student retention from sophomore to junior year. Journal of Data Science. 8, 307325. Dutta, M., Mahanta A.K., & Arun K.P. (2005). QROCK: A quick version of the ROCK algorithm for clustering of categorical data. Proceedings of the15IEEE International Conference on Data Engineering, 2004. Han, J., & Kamber M. (2001). Data mining: Concepts and techniques. USA: Academic Press. Marisa, A. (2008). Perbandingan algoritme clustering rock dan qrock untuk data kategorik. Skripsi sarjana yang tidak dipublikasikan. Institut Pertanian Bogor, Bogor: Saxena, A., Pankaj K., & Suresh G. (2002). Aplication of cluster analysis as a tool to analyse distance educations students. Indira Gandi Open University, New Delhi, India. Shaeela, A., Tasleem M., & Ahsan R.S. (2010). Data mining model for higher education system. Europen Journal of Scientific Research, 43(1), 24-29. Tan, P., Steinbach M., & Kumar V. (2006). Introduction to data mining. USA: Pearson Education,Inc Zengyou, H., Xiaofe I X., & Shengchum D. (2002). Clustering mixed numeric and categorical data: A cluster Ensemble Approach. http://arxiv.org/ftp/cs/papers/0509/050911.pdf
10