PEMBENTUKAN SISTEM INFERENSI FUZZY MAMDANI DENGAN FUZZY C-MEANS UNTUK DATA MAHASISWA BARU IPB TAHUN 2000-2004
Oleh: INU WISNUJATI G64101033
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006
PEMBENTUKAN SISTEM INFERENSI FUZZY MAMDANI DENGAN FUZZY C-MEANS UNTUK DATA MAHASISWA BARU IPB TAHUN 2000-2004
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Oleh: INU WISNUJATI G64101033
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2006
Judul Skripsi
Nama NIM
:
PEMBENTUKAN SISTEM INFERENSI FUZZY MAMDANI DENGAN FUZZY C- MEANS UNTUK DATA MAHASISWA BARU IPB TAHUN 2000-2004 : Inu Wisnujati : G64101033
Menyetujui:
Pembimbing I,
Pembimbing II,
Imas S.Sitanggang, S.Si, M.Kom NIP 132 206 235
Ir. Julio Adisantoso, M.Kom NIP 131 578 807
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Ir. Yonny Koesmaryono, M.S. NIP 131 473 999
Tanggal Lulus:
ABSTRAK INU WISNUJATI. Pembentukan Sistem Inferensi Fuzzy Mamdani dengan Fuzzy C- Means untuk Data Mahasiswa Baru IPB Tahun 2000-2004. Dibimbing oleh IMAS S.SITANGGANG dan JULIO ADISANTOSO. Data Panitia Penerimaan Mahasiswa Baru (PPMB) dan data direktorat Tingkat Persiapan Bersama (TPB) merupakan beberapa koleksi data yang ada di Institut Pertanian Bogor (IPB). Data PPMB ini terdiri dari data-data penerimaan mahasiswa baru melalui jalur: Ujian Seleksi Masuk IPB (USMI), Ujian Masuk Perguruan Tinggi Negeri (UMPTN), dan Prestasi Internasional dan Nasional (PIN). Penelitian dan analisis terhadap data-data tersebut masih kurang dilakukan. Penelitian ini bertujuan untuk menganalisis data PPMB IPB khususnya jalur USMI dengan melakukan data mining sebagai salah satu tahapan proses Knowledge Discovery in Database (KDD). Teknik data mining yang digunakan adalah teknik clustering dengan algoritma Fuzzy CMeans (FCM). Hasil keluaran clustering ini dijadikan masukan untuk sistem inferensi fuzzy (FIS) metode Mamdani. Data PPMB meliputi data nilai pelamar dari tahun 2000 sampai dengan tahun 2004, data nilai terpilih (data nilai mahasiswa yang diterima di IPB) dari tahun 2000 sampai dengan tahun 2004. Sedangkan data dari TPB meliputi data nilai IPK mahasiswa TPB dari tahun akademik 2000/2001 sampai tahun akademik 2004/2005. Penelitian dilakukan dengan mengambil data mahasiswa Fakultas Pertanian (Faperta) dari tahun akademik 2000/2001 sampai tahun akademik 2004/2005. Clustering dilakukan pada data nilai rataan Matematika, Fisika, Kimia, Biologi, dan IPK TPB untuk mahasiswa Faperta berasal dari pulau Jawa, luar pulau Jawa, dan berasal dari satu sekolah (SLTA 1 Bogor) menghasilkan masing-masing dua buah cluster yang valid. Berdasarkan hasil pengujian pada FIS terhadap data hasil clustering, masih diperoleh error berkisar 0.6 untuk mahasiswa yang berasal dari satu pulau, dan 0.8 untuk mahasiswa yang berasal dari satu sekolah.
KATA PENGANTAR Puji dan syukur penulis panjatkan kepada Allah SWT atas segala karunia-Nya sehingga tugas akhir ini dapat diselesaikan. Dalam penelitian ini, penulis mengambil judul Pembentukan Sistem Inferensi Fuzzy Mamdani dengan Fuzzy C- Means untuk Data Mahasiswa Baru IPB Tahun 2000-2004. Penulis mengucapkan banyak terima kasih kepada berbagai pihak yang telah membantu dalam penyelesaian karya ilmiah ini, antara lain kepada: 1. Kedua orang tua, dan kedua kakak Penulis yang telah memberikan nasihat serta doa selama ini. 2. Ibu Imas S.Sitanggang S.Si, M.Kom dan Ir. Julio Adisantoso M.Kom. yang telah banyak memberikan bantuan dan saran. 3. Ibu Shelvie Nidya Neyman S.Kom yang telah bersedia menjadi dosen penguji. 4. Bapak Asep sebagai Panitia Penerimaan Mahasiswa Baru (PPMB IPB) dan Bapak Asep dari direktorat Tahap Persiapan Bersama (TPB IPB) yang telah membantu penulis dalam mendapatkan data untuk penelitian. 5. Teman seperjuangan di komunitas Taqqiyya dan Tholabbur’ridho 54 yang telah menjadi pendengar setia atas segala keluh kesah selama ini. 6. Rekan-rekan ilkomerz 38, khususnya warga Az-zahra, Nepha, Amam, Yulia yang telah banyak memberikan saran dan kritik yang membangun kepada penulis. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih jauh dari sempurna. Namun demikian semoga tugas akhir ini dapat bermanfaat bagi yang membutuhkannya.
Bogor, Maret 2006
Inu Wisnujati
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 7 Juni 1983 sebagai anak ketiga dari tiga bersaudara, anak dari pasangan Suratman dan Ngaisah. Tahun 2001, penulis lulus dari SMU Negeri 54 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Undangan Seleksi Masuk IPB (USMI). Penulis diterima di Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan penulis pernah menjadi pengurus Himpunan Mahasiswa Ilmu Komputer IPB (HIMALKOM) pada tahun 2002-2003 sebagai pengurus departemen Kerohanian Islam. Pada tahun 2003-2004, penulis pernah menjadi tutor Bimbingan Belajar Pagi Anaba untuk Mata Kuliah Matematika Dasar tingkat TPB. Penulis melaksanakan kegiatan Praktek Kerja Lapangan (PKL) pada Kantor Pengelola Kekayaan Intelektual dan Alih Teknologi (KPKIAT) Departemen Pertanian.
DAFTAR ISI Halaman DAFTAR ISI ..................................................................................................................................vii DAFTAR TABEL .........................................................................................................................viii DAFTAR GAMBAR ....................................................................................................................viii DAFTAR LAMPIRAN ...................................................................................................................ix PENDAHULUAN ............................................................................................................................1 Latar Belakang ............................................................................................................................1 Tujuan .........................................................................................................................................1 Ruang Lingkup ............................................................................................................................1 TINJAUAN PUSTAKA....................................................................................................................2 Knowledge Discovery in Database (KDD) dan Data Mining .....................................................2 Data Cleaning .............................................................................................................................2 Data Integration ..........................................................................................................................2 Data Transformation ...................................................................................................................2 Data Mining ................................................................................................................................3 Analisis Cluster ...........................................................................................................................3 Konsep Clustering .......................................................................................................................3 Struktur dan Tipe Data dalam Analisis Cluster ...........................................................................3 Pendekatan Clustering.................................................................................................................4 Struktur Dasar Gugus Fuzzy ........................................................................................................4 Fuzzy C-Means (FCM) ................................................................................................................5 Ukuran Kevalidan Cluster ...........................................................................................................6 Fuzzy Inference System (FIS) ......................................................................................................6 METODOLOGI ................................................................................................................................7 Data .............................................................................................................................................7 Metode Penelitian........................................................................................................................7 Lingkungan Pengembangan Sistem.............................................................................................8 HASIL DAN PEMBAHASAN.........................................................................................................8 Data Preprocessing .....................................................................................................................8 Data Selection dan Data Transformation....................................................................................8 Data Mining ................................................................................................................................9 Fuzzy Inference System (FIS) ....................................................................................................10 Pengujian Sistem Inferensi Fuzzy..............................................................................................14 KESIMPULAN DAN SARAN.......................................................................................................15 Kesimpulan................................................................................................................................15 Saran..........................................................................................................................................15 DAFTAR PUSTAKA .....................................................................................................................16 LAMPIRAN .................................................................................................................................. 17
DAFTAR TABEL Halaman 1 Nilai koefisien korelasi untuk data mahasiswa Faperta asal Pulau Jawa pada tahun 2000-2004........................................................................................................................10 2 Hasil validasi FCM clustering untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004 ..............................................................................................................10 3 Himpunan fuzzy Rmat................................................................................................................10 4 Himpunan fuzzy Rfis..................................................................................................................11 5 Himpunan fuzzy Rkim ..............................................................................................................11 6 Himpunan fuzzy Rbio ................................................................................................................11 7 Himpunan fuzzy IPK TPB..........................................................................................................11 8 Domain hasil cluster berdasar Rmat dan Rkim. .......................................................................12 9 Domain hasil cluster berdasar Rmat dan Rbio. ........................................................................12 10 Domain hasil cluster berdasar Rfis dan Rkim. .........................................................................12 11 Domain hasil cluster berdasar Rfis dan Rbio. ..........................................................................13 12 Domain hasil cluster berdasar Rkim dan Rbio. ........................................................................13 13 Aturan yang terbentuk ..............................................................................................................13 14 Hasil Uji RMSE ........................................................................................................................14
DAFTAR GAMBAR
Halaman Fungsi keanggotaan Trimf...........................................................................................................4 Fungsi keanggotaan Trapmf. ......................................................................................................4 Fungsi keanggotaan Smf .............................................................................................................5 Fungsi keanggotaan Zmf ............................................................................................................5 Fungsi keanggotaan Pimf ...........................................................................................................5 Model fuzzy Mamdani dengan menggunakan operator MIN dan MAX .....................................6 Model fuzzy Sugeno orde-satu .....................................................................................................7 Model fuzzy Tsukamoto ..............................................................................................................7 Fungsi keanggotaan Rmat .........................................................................................................11 Fungsi keanggotaan Rfis ...........................................................................................................11 Fungsi keanggotaan Rkim ........................................................................................................11 Fungsi keanggotaan Rbio .........................................................................................................11 Fungsi keanggotaan IPK ...........................................................................................................11 Hasil cluster berdasarkan Rmat dan Rfis .................................................................................11 Hasil cluster berdasarkan Rmat dan Rkim ..............................................................................12 Hasil cluster berdasarkan Rmat dan Rbio ................................................................................12 Hasil cluster berdasarkan Rfis dan Rkim ................................................................................12 Hasil cluster berdasarkan Rfis dan Rbio ..................................................................................13 Hasil cluster berdasarkan Rkim dan Rbio. ..............................................................................13 Proses pengaplikasian operator fuzzy dan proses implikasi ......................................................13 Rule editor model fuzzy Mamdani untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004.. .............................................................................................................14 22 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rmat dan Rfis untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004. .................14 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
DAFTAR LAMPIRAN
Halaman 1 Daftar kandidat atribut ............................................................................................................. 18 2 Hasil seleksi atribut. ..................................................................................................................18 3 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rmat dan Rbio untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004.................19 4 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rmat dan Rkim untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004................19 5 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rfis dan Rbio untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004.................20 6 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rfis dan Rkim untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004................20 7 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rkim dan Rbio untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004.................21 8 Deskripsi data mahasiswa Faperta yang berasal dari satu SLTA (SMUN 1 Bogor) untuk semua tahun (2000 -2004). ........................................................................................................21
PENDAHULUAN Latar Belakang Manusia dalam menjalankan aktivitasnya sehari-hari telah dibanjiri oleh data dari segala bidang. Namun, data tersebut seringkali hanya tersimpan dalam gudang penyimpanan data. Padahal, tidak sedikit biaya yang harus dikeluarkan untuk mengumpulkan dan menyusun data tersebut. Hal ini disebabkan pemilik data tidak mempunyai waktu untuk menganalisis data tersebut. Ditambah lagi dengan terbatasnya ketersediaan tenaga analis data yang terlatih untuk menerjemahkan semua data ke dalam informasi yang berharga untuk menunjang pengambilan keputusan di masa yang akan datang. Keadaan seperti ini mendorong manusia untuk menemukan cara yang secara otomatis dapat digunakan untuk melakukan analisis, klasifikasi, dan menemukan keanehan pada data sehingga didapat kesimpulan mengenai karakteristik atau kecenderungan (trends) yang terjadi di dalamnya. Dengan kata lain, manusia membutuhkan suatu cara yang efektif untuk dapat menggali informasi berharga yang tersimpan dalam gudang data saat ini. Dari sini muncullah konsep “menambang data” atau data mining. Menurut Han dan Kamber (2001), data mining adalah proses ekstraksi pola-pola atau informasi yang berharga dari kumpulan data yang sangat besar. Data mining merupakan salah satu tahapan pada proses Knowledge Discovery in Database (KDD), sedangkan menurut Pramudiono (2003), data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Beberapa teknik yang sering digunakan dalam data mining antara lain: association rule mining, classification, clustering, neural network, dan genetic algorithm. Menurut Pramudiono (2003), clustering sebagai salah satu teknik dalam data mining digunakan untuk melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui. Karena itu clustering sering digolongkan sebagai teknik unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antaranggota dalam satu kelas dan meminimumkan kesamaan antarkelas/cluster. Beberapa algoritma clustering yang telah dikembangkan adalah partitional methods (K-means, K-
medoids, CLARAN, Fuzzy C-Means), hierarchical methods (Agglomerative/divisive, BIRCH, CURE, Chameleon), density basedmethods (DBSCAN, OPTICS, DENCLUE), grid-based methods (STING, WaveCluster, CLIQUE) dan model based methods (statistic approach, Neural Network approach). Penerapan data mining dalam data PPMB dan IPK TPB IPB untuk jalur USMI diharapkan mampu menemukan informasi yang penting dari tumpukan data tersebut sehingga dapat digunakan untuk mengambil keputusan yang terkait dengan proses penerimaan mahasiswa baru IPB di tahun yang akan datang. Teknik data mining yang digunakan pada penelitian ini adalah clustering dengan algoritma Fuzzy C-Means (FCM). Hasil keluaran clustering ini dijadikan masukan untuk sistem inferensi fuzzy yang dibangun dengan menggunakan metode Mamdani. Tujuan Penelitian ini bertujuan untuk: 1. Menerapkan tahapan-tahapan proses Knowledge Discovery in Database (KDD) khususnya data mining dengan teknik clustering. 2. Menerapkan algoritma Fuzzy C-Means (FCM) dalam melakukan analisis cluster terhadap data penerimaan mahasiswa baru IPB jalur USMI dan data nilai indeks prestasi kumulatif (IPK) mahasiswa Tingkat Persiapan Bersama (TPB). 3. Membentuk sistem inferensi fuzzy metode Mamdani dengan Fuzzy C-Means (FCM). Ruang Lingkup Percobaan ini dibatasi pada penerapan data mining untuk data Panitia Penerimaan Mahasiswa Baru IPB jalur Undangan Seleksi Masuk IPB (PPMB/USMI) dan data nilai Indeks Prestasi Kumulatif (IPK) mahasiswa Tingkat Persiapan Bersama (TPB) IPB dengan teknik clustering menggunakan algoritma Fuzzy C-Means (FCM). Hasil keluaran FCM berupa deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Informasi ini digunakan untuk membangun sistem inferensi fuzzy. Pemilihan atribut sebagai masukan proses clustering dilakukan secara manual berdasar pada informasi dari pihak yang terkait, laporan tahunan PPMB/USMI dan data IPK TPB. Di lain pihak data percobaan dibatasi untuk data pada fakultas Pertanian IPB.
TINJAUAN PUSTAKA Knowledge Discovery in Database (KDD) dan Data Mining Menurut Bao (2004), Knowledge Discovery in Database (KDD) dan Data Mining menggabungkan bermacam-macam disiplin ilmu dengan manajemen basis data, statistika dan machine learning. Selain itu keduanya juga memiliki tujuan untuk mengekstraksi pengetahuan yang berguna dari basis data yang sangat besar. Terdapat perbedaan dalam memahami istilah knowledge discovery dan data mining. Knowledge discovery dalam basis data merupakan proses terhadap basis data untuk mengidentifikasi data mana yang valid, novel, berpotensi memiliki kegunaan dan akhirnya diperoleh model atau pola-pola yang dapat dimengerti. Data mining adalah suatu tahapan pada proses knowledge discovery yang terdiri dari algoritma data mining tertentu dan proses komputasi yang efisien dalam menemukan pola atau model pada data. Tahapan proses KDD menurut Han dan Kamber (2001), yaitu: 1. Data cleaning: merupakan suatu tahapan di mana data yang mengandung noise dan data yang tidak relevan dibuang dari koleksi data. 2. Data integration: mengkombinasikan data dari berbagai sumber data yang heterogen. 3. Data selection: memilih data mana yang relevan untuk digunakan dalam analisis. 4. Data transformation: suatu tahap mengubah data yang terpilih ke dalam format yang sesuai dengan prosedur data mining. 5. Data mining: ekstraksi informasi, pola penting atau menarik dari data yang berada pada basis data berukuran besar yang selama ini tidak diketahui tetapi berpotensi memiliki kegunaan. 6. Pattern evaluation: pada tahap ini dilakukan evaluasi terhadap informasi, pola penting atau menarik yang ditemukan dari hasil data mining. 7. Knowledge representation: adalah tahap akhir di mana pengetahuan dan informasi yang diperoleh akan direpresentasikan secara visual kepada pengguna. Hal ini dilakukan untuk membantu pengguna memahami dan menginterpretasikan hasil dari data mining. Data Cleaning Data cleaning atau pembersihan data dilakukan untuk mengisi nilai-nilai data yang
hilang, mengurangi data yang mengandung noise dan memperbaiki ketidakkonsistenan dalam data (Han & Kamber 2001). Pada umumnya, permasalahan data kotor dapat dibagi menjadi tiga macam dan masingmasing masalah mempunyai penyelesaian yang berbeda, yaitu: 1. Data mengandung record kosong (missing value). Pada masalah ini, solusi yang dapat dilakukan adalah: a. Mengabaikan record kosong tersebut, b. Mengisinya secara manual, c. Menggunakan konstanta global untuk mengisinya, d. Menggunakan rataan tiap atribut untuk mengisinya, e. Menggunakan rataan salah satu atribut untuk semua record yang termasuk pada kelas yang sama dengan record yang kosong tersebut, f. Menggunakan nilai yang mungkin untuk mengisinya. 2. Data yang mengandung noise dapat diselesaikan dengan metode binning, clustering, kombinasi pengujian antara komputer dan manusia, atau dengan regresi. 3. Data yang tidak konsisten, dapat dilakukan pengoreksian secara manual. Data Integration Data integration adalah penggabungan data dari berbagai sumber ke dalam satu penyimpanan data, misal pada data warehousing. Terdapat beberapa hal yang harus diperhatikan dalam mengintegrasikan data antara lain: skema integrasi yaitu bagaimana entitas dari dunia nyata dan dari berbagai sumber dapat disatukan. Masalah ini dikenal sebagai masalah identifikasi entitas. Sebagai contoh adalah masalah penamaan yang berbeda untuk entitas yang sama (Han & Kamber 2001). Masalah lain yang muncul akibat pengintegrasian data adalah redudancy. Redudancy terjadi karena ketidakkonsistenan dalam penamaan atribut, atau terdapat dua atau lebih tuple yang sama untuk pengisian data yang unik. Selain itu, konflik nilai data juga menjadi salah satu akibat pengintegrasian data. Hal ini dikarenakan adanya perbedaan representasi sebuah nilai dalam basis data tertentu. Data Transformation Menurut Han dan Kamber transformasi data meliputi:
(2001)
1. Smoothing dilakukan untuk menghilangkan data yang mengandung noise. Metode yang digunakan berupa binning, cluster, dan regresi. 2. Agregasi. Sebagai contoh, perhitungan penjualan per hari dapat diagregasi menjadi perhitungan penjualan per bulan. 3. Generalisasi data menggantikan data yang memiliki level konsep rendah dengan data yang memiliki level konsep lebih tinggi melalui hirarki konsep. 4. Normalisasi yaitu dilakukan penskalaan atribut menjadi lebih kecil. 5. Kontruksi atribut yaitu pembentukan atribut baru dan menambahkannya ke dalam kumpulan atribut untuk proses data mining. Data Mining Data mining adalah ekstraksi informasi atau pola penting atau menarik dari data yang berada pada basis data berukuran besar yang selama ini tidak diketahui tetapi mempunyai potensi yang bermanfaat (Han & Kamber 2001). Pada tahap ini, algoritma digunakan untuk menemukan informasi yang bermanfaat. Secara umum terdapat dua macam fungsionalitas data mining (Gyorodi 2004) yaitu: • Descriptive mining, yaitu proses untuk mengkarakterisasikan sifat-sifat umum data dari suatu basis data, menemukan pola dalam data, membantu pengguna menemukan data mana yang paling penting. Beberapa metode yang termasuk descriptive mining meliputi clustering, summarization, visualization dan marketbasket analysis. • Predictive mining, yaitu melakukan inferensi pada data yang sekarang untuk menghasilkan suatu prediksi di mana masukannya diketahui namun nilai keluarannya belum diketahui secara pasti. Beberapa metode yang termasuk predictive mining meliputi classification, regression dan deviation. Analisis Cluster Analisis cluster merupakan suatu prosedur untuk mengklasifikasikan secara otomatis record-record ke dalam sejumlah kelompok atau cluster menggunakan ukuran kedekatan, sehingga didapat record-record dalam satu kelompok adalah mirip dan record-record pada kelompok yang lain adalah tidak mirip (Kantardzic 2002).
Masukan untuk sistem analisis cluster ini berupa kumpulan record-record dan ukuran kemiripan (atau ketidakmiripan) antara dua record. Keluaran yang dihasilkan berupa sejumlah kelompok atau cluster yang berbentuk partisi atau struktur partisi dari kumpulan data. Konsep Clustering Menurut Larose (2004), clustering berkenaan dengan pengelompokan recordrecord, pengawasan, atau keadaan yang berhubungan dengan pengkelasan objek yang sama. Sebuah cluster merupakan sebuah kumpulan record-record yang memiliki kesamaan satu sama lain dan memiliki ketidaksamaan antarrecord pada cluster yang berbeda. Clustering berbeda dengan classification di mana tidak terdapat atribut target untuk clustering. Clustering bukan untuk mengklasifikasikan, memperkirakan, atau memprediksikan nilai dari atribut target. Struktur dan Tipe Data dalam Analisis Cluster Menurut Han dan Kamber (2001), ada dua struktur data yang seringkali digunakan pada analisis cluster. • Matriks data (object-by-variable structure): merupakan matriks ukuran nxp yang merepresentasikan n objek dengan p atribut. ⎡ x 11 ⎢ ⎢ ... ⎢x ⎢ i1 ⎢ ... ⎢x ⎣ n1
...
x 1f
...
... ...
... x if
... ...
...
...
...
...
x nf
...
x 1p ⎤ ⎥ ... ⎥ x ip ⎥ ⎥ ... ⎥ x np ⎥ ⎦
• Matriks ketidaksamaan (object-by-object structure): merupakan matriks ukuran nxn yang merepresentasikan jarak antarobjek, d(n,n). ⎡ 0 ⎢ d(2,1) ⎢ ⎢ d(3,1 ) ⎢ : ⎢ ⎣⎢ d ( n ,1)
d (1, 2 ) 0 d ( 3, 2 )
d ( 3,1) d ( 2 ,3 ) 0
... M M
: d ( n ,2 )
: ...
M ...
d (1, n ) ⎤ d (2, n )⎥ ⎥ M ⎥ M ⎥ ⎥ 0 ⎦⎥
Tipe data yang digunakan dalam clustering (Han & Kamber 2001) adalah • Interval-scaled variable merupakan ukuran kontinu pada penskalaan linier. Contoh variabel yang termasuk pada tipe data ini yaitu tinggi, berat, temperatur cuaca, dan koordinat bujur-lintang. • Atribut biner hanya mempunyai dua nilai yaitu 0 dan 1. Ada dua jenis atribut biner yaitu: simetrik biner (nilai 0 dan 1 memiliki tingkat kepentingan yang sama)
dan asimetrik biner (nilai 0 dan 1 berbeda tingkat kepentingannya). • Atribut nominal, ordinal dan rasio o Atribut nominal memiliki lebih dari dua nilai, misalkan merah, biru, kuning, hijau. o Atribut ordinal dapat berupa data diskret atau data kontinu. Tipe data ini dapat diperlakukan seperti tipe data interval-scaled variable yang sangat mempertimbangkan urutan. o Atribut rasio menggunakan skala ekponensial, misalkan AeBt atau Ae-Bt . Pendekatan Clustering Menurut Han dan Kamber (2001), beberapa pendekatan yang sering digunakan dalam clustering yaitu : • Partitional method. Misalkan ada sebuah basis data berisi n objek. Partitional method membangun k partisi pada basis data tersebut, di mana tiap partisi merepresentasikan cluster dan k ˜ n. Partisi yang terbentuk itu harus memenuhi syarat yaitu setiap cluster harus berisi minimal satu objek dan setiap objek harus termasuk tepat hanya satu cluster. Ada beberapa cara dalam mempartisi data, antara lain: o Global optimal: penyelesaian dengan menjumlahkan semua partisi. o Heuristic methods: K-means, Kmedoids atau Partition around medoids (PAM), dan Fuzzy C-Means (FCM). • Hierarchical method, yaitu membuat sebuah dekomposisi berhirarki dari himpunan data (atau objek) menggunakan beberapa kriteria. Metode ini memiliki dua jenis pendekatan yaitu : o Agglomerative, dimulai dengan titiktitik sebagai cluster individu. Pada setiap tahap dilakukan penggabungan setiap pasangan titik pada cluster sampai hanya satu titik (atau cluster) yang tertinggal. o Divisive, dimulai dengan satu cluster besar yang berisi semua titik data (all inclusive cluster). Pada setiap langkah, dilakukan pemecahan sebuah cluster sampai setiap cluster berisi sebuah titik (atau terdapat k cluster). • Density-based, merupakan pendekatan yang berdasarkan pada konektivitas dan fungsi kepadatan. • Grid-based, merupakan pendekatan yang berdasarkan pada struktur multiple-level granularity.
• Model-based, yaitu: sebuah model yang dihipotesis untuk tiap cluster dan ide dasarnya adalah untuk menemukan model yang cocok untuk tiap cluster. Kualitas hasil clustering bergantung pada metode ukuran kemiripan yang digunakan dan implementasinya. Kualitas dari metode clustering yang digunakan juga diukur dari kemampuannya untuk menemukan beberapa atau semua pola yang tersembunyi (Kantardzic 2002). Struktur Dasar Gugus Fuzzy Gugus fuzzy diperkenalkan oleh Prof. L.A. Zadeh dari Barkeley pada tahun 1965. Teori gugus fuzzy mendefinisikan derajat di mana elemen x dari gugus universal X berada di dalam gugus fuzzy A, atau dengan notasi lain: A = {( x , µ ( x )); x ∈ X } A
yang merepresentasikan sebuah gugus fuzzy X, µA adalah fungsi keanggotaan (membership function), µA(x) adalah derajat keanggotaan elemen x pada gugus fuzzy A (Kirschfink 1999). Terdapat beberapa tipe fungsi keanggotaan yang dapat digunakan, di antaranya: a. Trimf Fungsi ini berguna untuk membuat fungsi keanggotaan dengan kurva segitiga (Gambar 1). Terdapat tiga parameter yang dapat digunakan pada kurva Trimf, yaitu [a b c]. 1 :[x]
0
a
b
c
Gambar 1 Fungsi keanggotaan Trimf. Fungsi keanggotaan Trimf: ⎧ ⎪x ⎪⎪ f (a, b, c) = ⎨ b c ⎪ ⎪ x ⎩⎪
0; − a ; − a − x ; − b 0;
x ≤ a a ≤ x ≤ b b ≤ x ≤ c c ≤ x
b. Trapmf Fungsi ini berguna untuk membuat fungsi keanggotaan dengan kurva trapesium Gambar 2). Terdapat empat parameter yang dapat digunakan, yaitu [a b c d]. 1 :[x]
0
a
b
c
d
Gambar 2 Fungsi keanggotaan Trapmf.
Fungsi keanggotaan Trapmf: ⎧ 0; ⎪x−a ; ⎪ ⎪b − a f (a , b, c) = ⎨ 1 ⎪d − x ⎪x−c ; ⎪ 0 ⎩
Parameter yang digunakan adalah [a b c d]. Fungsi keanggotaan Pimf: f ( x; a, b, c, d ) = smf ( x; a, b) * zmf ( x; c, d )
x ≤ a a ≤ x ≤ b b ≤ x ≤ c c ≤ x ≤ d d ≤ x
c. Smf Fungsi ini berguna untuk membuat fungsi keanggotaan dengan kurva S (Gambar 3).
Gambar 3. Fungsi keanggotaan Smf. Parameter yang digunakan adalah Fungsi keanggotaan Smf:
[a b].
0; x≤a ⎧ ⎪ 2[(x − a) /(b − a)]2 ; a ≤ x ≤ (a + b) / 2 ⎪ f ( x; a, b) = ⎨ 2 ⎪1 − 2[(b − x) /(b − a)] ; (a + b) / 2 ≤ x ≤ b ⎪⎩ 1; x≥b
Fuzzy C-Means (FCM) Menurut Jang et al. (1997), Fuzzy CMeans atau fuzzy ISODATA, merupakan algoritma clustering data di mana setiap titik data masuk dalam sebuah cluster dengan ditandai oleh derajat keanggotaan. FCM ini dimodifikasi oleh Jim Bezdek pada tahun 1973 dari teknik hard clustering (HCM). FCM membagi sebuah koleksi dari n data vektor xi (i=1, 2, …, n) menjadi c cluster, dan menemukan sebuah pusat cluster (center) untuk tiap kelompok di mana meminimalisasi ukuran ketidakmiripan dari fungsi objektif. Perbedaan utama antara FCM dan HCM adalah pada FCM hasil dari clustering fuzzy yaitu sebuah titik data dapat menjadi anggota untuk beberapa cluster yang ditandai oleh derajat keanggotaannya antara 0 dan 1. Berikut ini adalah langkah-langkah pada algoritma FCM: 1. Inisialisasi keanggotaan matriks U dengan nilai yang acak antara 0 dan 1, sehingga c
d. Zmf Fungsi ini berguna untuk membuat fungsi keanggotaan dengan kurva Z (Gambar 4). 1
∑ u ij = 1, i =1
.
2. Hitung c pusat cluster, ci , i = 1, …, c dengan menggunakan n
∑ ((uij )m x j )
:[x]
j =1 n
ci =
0
∀ j = 1,..., n
a
∑ (uij )m j =1
b
Gambar 4 Fungsi keanggotaan Zmf. Parameter yang digunakan adalah [a b]. Fungsi keanggotaan Zmf: 1; x≤a ⎧ ⎪ 2[(x − a) /(b − a)]2 ; a ≤ x ≤ (a + b) / 2 ⎪ f ( x; a, b) = ⎨ 2 ⎪1 − 2[(b − x) /(b − a)] ; (a + b) / 2 ≤ x ≤ b ⎪⎩ 0; x≥b
e. Pimf Fungsi ini berguna untuk membuat fungsi keanggotaan dengan kurva Pi (Gambar 5).
Gambar 5 Fungsi keanggotaan Pimf.
.
3. Hitung fungsi objektif (Ji): J (U , c1 ,..., c c ) =
• •
c
c
n
∑ J i = ∑∑ u ijm d ij2 i =1
di mana:
i =1 j
d = ( x j − ci ) ( x j − ci ) 2 ij
T
A adalah matriks diagonal jika rumus jarak yang digunakan adalah Euclidean, dan A adalah matriks kovarian jika rumus jarak yang digunakan adalah Mahalanobis, • uij adalah elemen matriks U yang bernilai antara 0 dan 1, • ci adalah pusat cluster ke-i, • m 0 [1,4) adalah pangkat pembobot atau indeks fuzzy. Kemudian periksa kondisi berhenti : • Jika (|Jt –Jt-1| < nilai toleransi terkecil yang diharapkan) atau (t > maksimal iterasi) maka proses berhenti. • Jika tidak : t = t + 1, ulangi langkah 3.
4. Hitung matriks U baru menggunakan formula berikut: 1 . η ik = c
d ij
∑ ( d kj )
1 /( m −1)
k =1
Ukuran Kevalidan Cluster Menurut Xie dan Beni (1991), ukuran kevalidan cluster merupakan proses evaluasi hasil clustering untuk menentukan cluster mana yang terbaik. Kevalidan sebuah cluster (S) ditentukan oleh dua hal yaitu: ukuran kedekatan antaranggota pada tiap cluster (compactness), dan ukuran keterpisahan antarcluster satu dengan cluster yang lainnya (separation). Semakin kecil nilai S, maka cluster tersebut semakin valid. c
n
∑ ∑ µij2 Vi − X j S =
i =1 j =1
2
.
n min Vi − V j
2
i, j
dengan: c
•
n
∑ ∑ µij 2 || Vi − X j ||2 i =1 j =1
adalah compactness n
dari fuzzy c-partition pada basis data, • n adalah banyaknya titik data, • V adalah pusat cluster, n
•
∑ di j 2
•
dij = µij || X j − Vi || adalah fuzzy deviation
IF(x1isA11)ο(x2isA12)ο...ο(xnisA1n )THENxn+1 is Am+1 ; IF(x1isA12)ο( x2isA22)ο...ο( xnisA2m)THENxn+2 is Am+2 M L
F(x1isA1m)ο(x2isA2m)ο...ο(xnisAnm)THENxn+m is Am+m
dengan xi adalah atribut ke-i, dan Aij adalah suatu himpunan fuzzy ke-j pada atribut ke-i. Kalimat yang didahului oleh kata IF berfungsi sebagai anteseden, kalimat sesudah kata THEN disebut konsekuen, dan adalah operator AND atau OR. b. Aplikasi fungsi implikasi (aturan) dimana fungsi yang digunakan adalah fungsi MIN. c. Komposisi aturan. Ada tiga metode yang digunakan yaitu: max, additive dan probalistik OR (probor). d. Penegasan (defuzzifikasi). Masukan dari defuzzifikasi ini adalah suatu himpunan fuzzy yang diperoleh dari komposisi aturan-aturan fuzzy, sedangkan keluaran yang dihasilkan merupakan suatu bilangan pada domain himpunan fuzzy tersebut. Dengan demikian jika diberikan suatu himpunan fuzzy dalam range tertentu, maka harus dapat diambil suatu nilai crisp tertentu sebagai keluaran. Ada lima metode defuzzifikasi yang digunakan pada Mamdani yaitu: centroid, bisektor, Mean of Maximum (MOM), Largest of Maximum (LOM), Smallest of Maximum (SOM).
adalah variation dari cluster ke-i,
j =1
Xj dari cluster ke-i, dan notasi ||y|| biasanya merupakan norma (panjang) Euclidean, • dij adalah jarak Euclidean antara Xj dan Vi yang diboboti oleh derajat keanggotaan fuzzy titik ke-j pada cluster ke-i, • min Vi − V j 2 adalah separation dari fuzzy i, j
c-partition yang merupakan minimum antarpusat cluster.
jarak
Fuzzy Inference System (FIS) Menurut Jang et al. (1997), terdapat tiga metode sistem inferensi fuzzy yaitu: 1. Metode Fuzzy Mamdani Metode ini diperkenalkan oleh Ebrahim Mamdani pada tahun 1975. Untuk mendapatkan keluaran, diperlukan empat tahapan, yaitu: a. Fuzzifikasi atribut masukan dan keluaran menjadi satu atau lebih himpunan fuzzy. Setelah dilakukan fuzzifikasi atribut, maka sintaks aturan yang terbentuk adalah:
Gambar 6 Model fuzzy Mamdani dengan menggunakan operator MIN dan MAX. Pada Gambar 6 ditunjukkan bahwa atribut A dan B adalah anteseden dan C adalah konsekuen. A1 dan A2 merupakan himpunan fuzzy untuk atribut ke-A, B1 dan B2 merupakan himpunan fuzzy untuk atribut ke-B, C1 dan C2 merupakan himpunan fuzzy untuk atribut ke-C, dan Z
adalah nilai hasil defuzzifikasi dengan metode centroid. 2. Metode Fuzzy Sugeno Metode ini diperkenalkan oleh TakagiSugeno Kang pada tahun 1985. Penalaran metode ini hampir sama dengan metode Mamdani, hanya saja keluaran (konsekuen) sistem tidak berupa himpunan fuzzy, melainkan berupa konstanta atau persamaan linier. Proses defuzzifikasi dilakukan dengan cara mencari nilai rata-ratanya. Ada dua tipe model fuzzy Sugeno, yaitu: a. Model Fuzzy Sugeno Orde-Nol Model ini terdiri dari satu atau beberapa anteseden yang dihubungkan dengan operator fuzzy (AND atau OR) dan satu konsekuen yang berupa konstanta. Sintaks penulisan aturan metode Sugeno orde-nol adalah: IF(x1 is A1) (x2 is A2) …(xn is An) THEN z = k dengan xi adalah atribut ke-i, Ai adalah suatu himpunan fuzzy ke-i sebagai anteseden, adalah operator AND atau OR, dan k adalah suatu konstanta (tegas) sebagai nilai konsekuen (z). b. Model Fuzzy Sugeno Orde-Satu Model ini terdiri dari satu atau beberapa anteseden yang dihubungkan dengan operator fuzzy (AND atau OR) dan satu konsekuen yang berupa persamaan linier. Sintaks penulisan aturan Sugeno orde-satu adalah: IF(x1 is A1) (x2 is A2) …(xn is An) THEN z = p1*x1 + p2*x2 +…+ pn*xn +q dengan xi adalah atribut ke-i, Ai adalah suatu himpunan fuzzy ke-i sebagai anteseden, @ adalah operator AND atau OR, pi adalah konstanta (tegas) ke-i dalam konsekuen, dan q adalah konstanta dalam konsekuen. Pada Gambar 7 ditunjukkan bahwa atribut A dan B adalah anteseden dengan A1 dan A2 merupakan himpunan fuzzy untuk atribut keA, B1 dan B2 merupakan himpunan fuzzy untuk atribut ke-B. Z adalah nilai konsekuen yang diperoleh dengan metode weighted average.
3. Metode Fuzzy Tsukamoto Pada metode ini, setiap konsekuen pada aturan yang berbentuk IF-THEN direpresentasikan dengan suatu himpunan fuzzy dengan fungsi keanggotaan yang monoton. Keluaran inferensi dari tiap-tiap aturan ditetapkan sebagai nilai tegas (crisp) yang diinduksi oleh aturan. Hasil akhir diperoleh dengan menggunakan rata-rata terboboti. Proses keseluruhan inferensi fuzzy Tsukamoto dapat dilihat selengkapnya pada Gambar 8.
Gambar 8 Model fuzzy Tsukamoto. Pada Gambar 8 ditunjukkan bahwa atribut A dan B adalah anteseden dengan A1 dan A2 merupakan himpunan fuzzy untuk atribut keA, B1 dan B2 merupakan himpunan fuzzy untuk atribut ke-B, sedangkan C adalah konsekuen dengan C1 dan C2 merupakan himpunan fuzzy untuk atribut ke-C, dan Z adalah nilai hasil defuzzifikasi konsekuen yang diperoleh dengan metode weighted average.
METODOLOGI Data Data yang digunakan dalam penelitian ini yaitu data sekunder yang diperoleh dari laporan komputerisasi Panitia Penerimaan Mahasiswa Baru IPB (PPMB-IPB) dan data dari direktorat Tingkat Persiapan Bersama (TPB). Data PPMB-IPB ini meliputi data nilai pelamar dari tahun 2000 sampai dengan tahun 2004, data nilai terpilih (data nilai mahasiswa yang diterima di IPB) dari tahun 2000 sampai dengan tahun 2004. Di lain pihak data dari TPB meliputi data nilai IPK mahasiswa TPB dari tahun akademik 2000/2001 sampai tahun 2004/2005. Metode Penelitian Metode yang digunakan dalam penelitian ini mengacu pada tahapan proses Knowledge
Gambar 7 Model fuzzy Sugeno orde-satu.
Discovery in Database (KDD) (Han dan Kamber 2001) antara lain: 1. Data pre-processing meliputi data integration dan data cleaning. 2. Seleksi data merupakan proses pemilihan data yang relevan. Kemudian data tersebut ditransformasikan ke format yang dapat di-mine. 3. Aplikasi teknik data mining merupakan tahapan menjalankan algoritma data mining pada data, yang dalam penelitian ini menggunakan clustering. Tahapan teknik clustering (Mohring 2004) yaitu: • Pemilihan atribut-atribut yang terkait dengan tujuan dilakukannya analisis cluster. Dalam penelitian ini, pemilihan atribut dilakukan secara manual berdasarkan informasi yang didapat dari pakar dan laporan yang terkait. • Pemilihan ukuran jarak dan kemiripan. Pada penelitian ini digunakan ukuran Mahalanobis. • Mengaplikasikan algoritma cluster. Dalam penelitian ini, algoritma clustering yang digunakan adalah Fuzzy C-Means (FCM) dan ukuran kevalidan cluster yang digunakan adalah Indeks Xie-Beni. • Intepretasi hasil clustering. Hal ini dilakukan untuk menemukan banyaknya himpunan fuzzy tiap-tiap atribut dan aturan-aturan yang akan digunakan sebagai masukan model inferensi Mamdani. 4. Evaluasi pola menarik pada data. Proses ini merupakan tahap pembentukan model fuzzy atau sistem inferensi fuzzy. Dalam penelitian ini digunakan metode Mamdani. 5. Mempresentasikan pengetahuan yang didapat ke dalam bentuk visualisasi yang lebih mudah dipahami oleh pengguna. Lingkungan Pengembangan Sistem Untuk implementasi program digunakan perangkat lunak Matlab 6.5. Perangkat lunak ini dipilih dengan mempertimbangkan kemudahan pengolahan matriks data termasuk perhitungan statistika dan sistem fuzzy. Pengolahan basis data dilakukan menggunakan Microsoft SQL Server 2000 Developer Edition, sedangkan sistem operasi yang digunakan adalah Microsoft Windows XP Profesional. Perangkat keras yang digunakan adalah komputer dengan prosessor Pentium IV 1,7 GHz, DDRAM 256 Mb, dan harddisk dengan kapasitas 40 Gb.
HASIL DAN PEMBAHASAN Data Preprocessing Tahap ini sama dengan yang telah dilakukan pada penelitian sebelumnya (Riyanti 2005). Namun, pada penelitian ini terdapat penambahan data yaitu data nilai IPK TPB. Proses data preprocessing diawali dengan mengkonversi data nilai IPK TPB dari tahun ajaran 2000/2001 sampai tahun 2004/2005 yang disimpan dalam format Microsoft Excel (.xls) ke dalam format SQL Server 2000 (.mdf). Kemudian dilakukan pengintegrasian antara data nilai pelamar yang telah menjadi satu tabel dengan tabel IPK TPB. Proses integrasi tersebut dilakukan dengan menggabungkan atribut primary key dari tiaptiap tabel. Atribut yang digunakan untuk penggabungan adalah atribut nrp yang terdapat pada tabel data gabungan nilai dengan atribut nim yang terdapat pada tabel data nilai IPK TPB. Setelah semua tabel diintegrasikan, dilakukan identifikasi tipe data, panjang, nilainilai yang diperbolehkan untuk dimasukkan ke dalamnya dan deskripsi dari masingmasing atribut. Hasil penggabungan semua data didapatkan 155 atribut dan 11284 record. Proses selanjutnya yaitu melakukan pembersihan data. Pada masing-masing atribut diidentifikasi jumlah record yang kosong, record yang berisi data yang mengandung noise dan nilai-nilai yang tidak konsisten. Dari hasil pembersihan data, didapatkan informasi bahwa 1551 record harus dibuang karena berisi data kosong dan data yang mengandung noise karena salah pengisian data. Sebanyak 65 atribut harus dibuang karena selain banyak record yang kosong, pembuangan atribut juga dipertimbangkan karena atribut-atribut tersebut tidak terlalu relevan dengan tujuan penelitian. Hal ini dikarenakan jika atribut tersebut diisi dengan nilai tertentu maka akan terjadi redudancy dengan atribut lain dan karena atribut tersebut banyak memiliki nilai kosong maka jumlah nilai beda menjadi semakin banyak. Agar tujuan dari data mining dapat dicapai, maka atribut tersebut dibuang. Hasil dari pembersihan data ini menyisakan 9469 record dan 90 atribut. Data Selection dan Data Transformation Pada penelitian ini ingin didapatkan keterangan tentang profil pelamar yang terpilih di IPB melalui teknik clustering berdasarkan kriteria tertentu. Oleh karena itu, tidak semua data yang tersedia dipakai.
Dengan demikian harus dipilih data mana yang benar-benar relevan dengan tujuan tersebut. Untuk memudahkan proses pemilihan data (data selection), maka dilakukan kembali identifikasi atribut dari hasil data cleaning. Setelah diidentifikasi, dilakukan pemilihan atribut secara manual berdasarkan informasi yang didapat dari pihak yang terkait maupun dari laporan tahunan PPMB-IPB. Dari laporan tahunan PPMB-IPB tahun 2001, acuan seleksi yang digunakan oleh Panitia Penerimaan Mahasiswa Baru IPB (PPMB-IPB) untuk menerima lulusan SLTA menjadi mahasiswa baru IPB adalah data PERAK-SLTA_IPB, nilai rapor siswa SLTA dari cawu 1 sampai 7 untuk mata pelajaran Matematika, Fisika, Kimia, dan Biologi, rekomendasi potensi akademik dan kepribadian siswa dari kepala sekolah, pilihan program studi, peringkat siswa, daya tampung program studi, dan propinsi asal SLTA. Berdasarkan wawancara dengan salah satu pejabat PPMB-IPB, diperoleh informasi bahwa kriteria seleksi pelamar setiap tahun berbeda-beda tergantung kesepakatan dari panitia pada tiap tahunnya. Walaupun demikian, terdapat satu ketentuan yang selalu diacu setiap tahunnya yaitu data nilai rapor siswa SLTA dari cawu 1 sampai 7 untuk mata pelajaran Matematika, Fisika, Kimia, dan Biologi. Dari informasi tersebut, maka atribut data yang digunakan dalam penelitian ini adalah: status, tahun, propinsi asal SLTA, jenis kelamin, nilai rapor siswa SLTA dari cawu 1 sampai 7 untuk mata pelajaran Matematika (M1, M2, M3, M4, M5, M6, M7), Fisika (F1, F2, F3, F4, F5, F6, F7), Kimia (K1, K2, K3, K4, K5, K6, K7), dan Biologi (B1, B2, B3, B4, B5, B6, B7), jumlah nilai rapor siswa SLTA dari cawu 1 sampai 7 untuk semua mata pelajaran (umum), pilihan program studi (pilihan1, pilihan2 dan putusan1), listrik, dan nilai IPK IPB. Hasil data selection adalah 38 atribut (Lampiran 1). Proses transformasi data dilakukan untuk mengubah data yang terpilih ke dalam format yang sesuai dengan teknik data mining. Dalam penelitian ini, transformasi data dilakukan dengan cara menghilangkan beberapa atribut untuk dibentuk suatu atribut baru dan menambahkannya ke dalam data terpilih semula untuk proses data mining. Atribut baru yang terbentuk adalah rataan jumlah nilai rapor siswa SLTA dari cawu 1 sampai 7 untuk mata pelajaran eksakta meliputi Matematika (Rmat), Fisika (Rfis), Kimia (Rkim), dan Biologi (Rbio). Atribut
yang juga digunakan adalah fakultas dari tiaptiap program studi pilihan1, pilihan2 dan putusan1. Hasil dari tahap ini adalah terdapat penambahan atribut menjadi 17 atribut (Lampiran 2). Data Mining Tujuan dari data mining yang dilakukan pada penelitian ini adalah pengelompokan (clustering) data untuk melihat bagaimana karakteristik (deskripsi) pelamar terpilih yang mendaftar ke program studi yang ada di Fakultas Pertanian (Faperta) IPB melalui jalur USMI. Karakteristik yang ingin dilihat adalah propinsi asal SLTA, rataan jumlah nilai rapor siswa SLTA dari cawu 1 sampai 7 untuk mata pelajaran eksakta dan nilai IPK TPB. Data mining dilakukan dengan teknik clustering menggunakan algoritma FCM. Masukan pada algoritma FCM ini berupa matriks data, sehingga tidak dibutuhkan transformasi matriks data ke dalam bentuk matriks ketidakmiripan (dissimilarity) seperti metode clustering pada umumnya. Pengukuran ketidakmiripan antarcluster dan antaranggota cluster dapat dilihat dari nilai derajat keanggotaan masing-masing titik data (objek). Hal ini yang membedakan antara algoritma FCM dengan algoritma clustering lainnya, di mana satu titik data (objek) dapat menjadi anggota banyak cluster tergantung besarnya derajat keanggotaan yang dimiliki oleh titik data tersebut. Selain itu, pusat cluster tertentu yang dihasilkan bisa saja bukan merupakan salah satu data dari anggota cluster tersebut. • Pemilihan atribut-atribut yang terkait dengan tujuan dilakukannya analisis cluster. Pada penelitian ini, atribut yang dipilih meliputi propinsi, tahun, Rmat, Rfis, Rkim, Rbio, dan nilai IPK TPB untuk mahasiswa Faperta. Untuk selanjutnya masukan diperoleh dari kombinasi antara atribut propinsi dan tahun meliputi data mahasiswa Faperta yang berasal dari pulau Jawa untuk tahun 2000 sampai 2004, data mahasiswa Faperta yang berasal dari luar pulau Jawa untuk tahun 2000 sampai 2004, dan data mahasiswa Faperta yang berasal dari SMUN 1 Bogor untuk tahun 2000 sampai 2004. • Pemilihan ukuran jarak dan kemiripan. Dalam penelitian ini, rumus jarak yang digunakan adalah Mahalanobis. Hal ini dikarenakan antaratribut saling berkorelasi seperti terlihat pada Tabel 1.
Tabel 1 Nilai koefisien korelasi untuk data mahasiswa Faperta asal Pulau Jawa pada tahun 2000-2004 Rmat
Rfis
Rkim
Rbio
IPK
Rmat
1.00
0.76
0.75
0.66
0.09
Rfis
0.76
1.00
0.75
0.71
0.08
Rkim
0.75
0.75
1.00
0.73
0.14
Rbio
0.66
0.71
0.73
1.00
0.08
IPK
0.09
0.08
0.14
0.08
1.00
• Mengaplikasikan algoritma cluster. Clustering dilakukan terhadap matriks data Faperta dengan atribut Rmat, Rfis, Rkim, Rbio, dan IPK untuk tahun 2000 sampai dengan 2004. Selain itu, parameter masukannya meliputi banyaknya iterasi sama dengan 100, nilai toleransi terkecil yang diharapkan sama dengan 10-5, dan pangkat pembobot sama dengan 2. Percobaan dibatasi untuk jumlah cluster antara 2 sampai dengan 10. Pada setiap percobaan dilakukan uji validasi cluster dan didapatkan dua buah cluster yang valid untuk semua kombinasi atribut masukan. Tabel 2 menunjukkan hasil uji validasi untuk salah satu kasus yaitu untuk data mahasiswa Faperta terpilih asal Pulau Jawa pada tahun 2000-2004. Tabel 2 Hasil validasi FCM clustering untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004 Cluster 2 3 4 5 6 7 8 9 10
Iterasi 22 31 41 100 87 100 100 100 100
Compactness 43.9165 28.5731 21.2121 16.8756 14.0183 11.9930 10.4770 9.3001 8.3659
Sepa ration 157.2328 53.5188 30.4016 15.4984 15.6854 10.3111 7.7674 5.2900 2.4949
S(XieBeni) 0.2793 0.5339 0.6977 1.0889 0.8937 1.1631 1.3488 1.7581 3.3532
Dari pusat cluster yang dihasilkan dapat diperoleh informasi, yaitu mahasiswa Faperta yang berasal dari pulau Jawa untuk tahun 2000 sampai dengan 2004 terbagi menjadi dua kelompok (cluster), yaitu: • Cluster ke-1 berisi mahasiswa yang memiliki nilai rataan Matematika 80.474, nilai rataan Fisika 77.827, nilai rataan Kimia 80.418, nilai rataan Biologi 79.71, dan nilai IPK TPB 2.9047.
• Cluster ke-2 berisi mahasiswa yang memiliki nilai rataan Matematika 73.335, nilai rataan Fisika 71.867, nilai rataan Kimia 73.844, nilai rataan Biologi 74.473, dan nilai IPK TPB 2.6003. Keluaran dari metode FCM ini berupa deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Informasi ini dapat digunakan untuk membangun suatu sistem inferensi fuzzy. Fuzzy Inference System (FIS) Proses inferensi dilakukan untuk menghasilkan suatu prediksi di mana masukannya diketahui namun nilai keluarannya belum diketahui secara pasti. Pada penelitian ini, metode inferensi yang digunakan adalah metode Mamdani. Adapun pola yang ingin dievaluasi yaitu pola hubungan antara nilai mata pelajaran eksakta di SLTA dengan nilai IPK di TPB IPB. Hal ini sebagai lanjutan dari tahap clustering yang telah dilakukan sebelumnya. Tahapan inferensi yang dilakukan yaitu: 1. Pisahkan data yang ada menjadi data untuk atribut masukan dan data untuk atribut keluaran. Pada penelitian ini, data yang digunakan adalah data mahasiswa Faperta yang berasal dari pulau Jawa untuk tahun 2000 sampai 2004 dengan atribut masukan adalah Rmat, Rfis, Rkim, dan Rbio. Atribut keluarannya adalah nilai IPK TPB. 2. Fuzzifikasi atribut masukan dan keluaran. Banyaknya himpunan fuzzy untuk masingmasing atribut ditentukan dari banyaknya cluster yang valid. Pada penelitian ini didapatkan dua cluster yang valid sehingga untuk setiap atribut memiliki dua himpunan fuzzy yaitu rendah dan tinggi. Nama dan himpunan fuzzy yang digunakan untuk merepresentasikan atribut linguistik dan numerik atribut Rmat, Rfis, Rkim, Rbio, dan IPK dapat dilihat pada Tabel 3, 4, 5, 6, dan 7. Grafik fungsi keanggotaannya terdapat pada Gambar 9, 10, 11, 12, dan 13. Tabel 3 Himpunan fuzzy Rmat Nama himpunan fuzzy Rendah Tinggi
Domain [52.86 67.14 67.14 81.43] [61.43 75.71 75.71 90]
Variabel numerik (titik-titik domain) disesuaikan dengan hasil analisis data yang diperoleh dari FCM yang direpresentasikan pada membership function editor yang terdapat pada perangkat lunak Matlab 6.5.
Tabel 6 Himpunan fuzzy Rbio Nama himpunan Fuzzy Rendah Tinggi
Domain [54.29 69 69 84.29] [61.43 75.71 75.71 90]
Gambar 9 Fungsi keanggotaan Rmat. Penggunaan bentuk kurva pimf ini didasarkan pada analisis data yang telah dilakukan. Kurva ini dapat digunakan untuk menunjukkan konsep-konsep data yang memiliki batasan sangat lemah (perbedaannya sangat kecil) seperti pada nilai rataan dikelompokkan menjadi nilai yang sedikit rendah, dan nilai yang sedikit tinggi. Tabel 4 Himpunan fuzzy Rfis Nama himpunan fuzzy Rendah Tinggi
Gambar 12 Fungsi keanggotaan Rbio. Tabel 7 Himpunan fuzzy IPK TPB Nama himpunan fuzzy Rendah Tinggi
Domain [0.5 2 2 3.5] [1 2.5 2.5 4]
Domain [51.43 63.57 63.57 75.71] [64.29 77.14 77.14 90]
Gambar 13 Fungsi keanggotaan IPK. 3. Pada penelitian ini, aturan didapat dari interpretasi terhadap visualisasi hasil clustering. Gambar 10 Fungsi keanggotaan Rfis. Tabel 5 Himpunan fuzzy Rkim Nama himpunan fuzzy Rendah Tinggi
Domain [51.43 65.71 65.71 80] [65.71 77.86 77.86 90]
Gambar 14 Hasil cluster berdasar Rmat dan Rfis. Gambar 11 Fungsi keanggotaan Rkim.
Dari Gambar 14, dapat ditentukan bahwa cluster ke-1 memiliki Rmat sebesar 70 sampai 93.857, Rfis sebesar 67.143 sampai 90 dan IPK sebesar 1 sampai 4. Sedangkan cluster ke-2 memiliki Rmat sebesar 59.857 sampai 82.857, Rfis sebesar 61.429 sampai 80 dan IPK sebesar 0.5 sampai 3.5. Aturan yang terbentuk merupakan penyesuaian dari hasil clustering dengan domain masing-masing himpunan fuzzy untuk tiap atribut, di mana setiap cluster dapat membentuk lebih dari satu aturan. Dan dikarenakan visualisasi terbatas hanya maksimal 3 dimensi, maka aturan yang terbentuk terdiri dari 2 anteseden dan 1 konsekuen, sehingga dari Gambar 14 dapat dibentuk aturan [R1.] IF (Rmat is Tinggi) and (Rfis is Tinggi) then (IPK is Tinggi). [R2.] IF (Rmat is Rendah) and (Rfis is Rendah) then (IPK is Rendah). Visualisasi hasil cluster berdasar atribut lainnya dapat dilihat pada Gambar 15, 16, 17, 18, dan 19. Domain atribut hasil clustering selanjutnya dapat dilihat pada Tabel 8, 9, 10, 11, dan 12.
Gambar 16 Hasil cluster berdasar Rmat dan Rbio. Tabel 9 Domain hasil cluster berdasar Rmat dan Rbio ci 1 2
Rmat 70-93.857 59.857-82.857
Rbio 68.571-90 41.249-87.143
IPK 1-4 0.5-3.5
Berdasar Gambar 16, Tabel 3, 6, 7, dan 9 aturan yang terbentuk yaitu: [R5.] IF (Rmat is Tinggi) and (Rbio is Tinggi) then (IPK is Tinggi). [R6.] IF (Rmat is Rendah) and (Rbio is Rendah) then (IPK is Rendah).
Gambar 15 Hasil cluster berdasar Rmat dan Rkim. Tabel 8 Domain hasil cluster berdasar Rmat dan Rkim ci 1 2
Rmat 70-93.857 59.857-82.857
Rkim 70-91.286 62.857-84.286
IPK 1-4 0.5-3.5
Berdasar Gambar 15, Tabel 3, 5, 7 dan 8 aturan yang terbentuk yaitu: [R3.] IF (Rmat is Tinggi) and (Rkim is Tinggi) then (IPK is Tinggi). [R4.] IF (Rmat is Rendah) and (Rkim is Rendah) then (IPK is Rendah).
Gambar 17 Hasil cluster berdasar Rfis dan Rkim. Tabel 10 Domain hasil cluster berdasar Rfis dan Rkim ci 1 2
Rfis 67.143-90 61.429-80
Rkim 70-91.286 62.857-84.286
IPK 1-4 0.5-3.5
Berdasar Gambar 17, Tabel 4, 5, 7, dan 10 aturan yang terbentuk yaitu: [R7.] IF (Rfis is Tinggi) and (Rkim is Tinggi) then (IPK is Tinggi). [R8.] IF (Rfis is Rendah) and (Rkim is Rendah) then (IPK is Rendah).
Berdasar Gambar 19, Tabel 5, 6, 7, dan 12 aturan yang terbentuk yaitu: [R11.] IF (Rkim is Tinggi) and (Rbio is Tinggi) then (IPK is Tinggi). [R12.] IF (Rkim is Rendah) and (Rbio is Rendah) then (IPK is Rendah). Dari kedua belas aturan yang terbentuk ini, terlihat adanya aturan yang saling terkait. Dengan demikian aturan dapat diringkas menjadi hanya dua aturan seperti terlihat pada Tabel 13. Hal ini sesuai dengan jumlah cluster valid yang diperoleh yaitu sebanyak dua buah. Tabel 13 Aturan yang terbentuk
Gambar 18 Hasil cluster berdasar Rfis dan Rbio. Tabel 11 Domain hasil cluster berdasar Rfis dan Rbio ci 1 2
Rfis 67.143-90 61.429-80
Rbio 68.571-90 41.249-87.143
IPK 1-4 0.5-3.5
Berdasar Gambar 18, Tabel 4, 6, 7, dan 11 aturan yang terbentuk yaitu: [R9.] IF (Rfis is Tinggi) and (Rbio is Tinggi) then (IPK is Tinggi). [R10.] IF (Rfis is Rendah) and (Rbio is Rendah) then (IPK is Rendah).
IF … AND... AND... AND... Rmat Rfis Rkim Rbio
Then IPK
Rendah Tinggi
Rendah Tinggi
Rendah Tinggi
Rendah Tinggi
Rendah Tinggi
4. Mengaplikasikan operator fuzzy. Komputasi fuzzy dilakukan dengan memperhatikan aturan yang telah dibuat. Operator yang digunakan untuk komputasi fuzzy adalah operator AND. Pada logika fuzzy, operator AND diperlihatkan dengan derajat keanggotaan minimum antara kedua himpunan. Pada penelitian ini, digunakan rule editor yang terdapat pada software Matlab 6.5 sebagai alat bantu komputasi operator fuzzy. 5. Mengaplikasikan metode implikasi. Hasil penggunaan operator fuzzy kemudian diterapkan pada bagian konsekuen untuk setiap aturan. Fungsi implikasi yang digunakan adalah MIN. Gambar 20 memperlihatkan contoh proses yang terjadi untuk tahap keempat dan kelima. Anteseden
1
2
3
konsekuen
4
5
T
6
IF Rmat is Tinggi (T) and Rfis is Tinggi (R) and Rkim is Tinggi (R) and Rbio is Tinggi(R) THEN IPK is Tinggi (T)
Gambar 19 Hasil cluster berdasar Rkim dan Rbio. Tabel 12 ci 1 2
Domain hasil cluster berdasar Rkim dan Rbio
Rkim 70-91.286 62.857-84.286
Rbio 68.571-90 41.249-87.143
IPK 1-4 0.5-3.5
1. 2. 3. 4. 5. 6.
Nilai rataan Matematika (Rmat) Nilai rataan Fisika (Rfis) Nilai rataan Kimia (Rkim) Nilai rataan Biologi (Rbio) IPK (keluaran fuzzy) Hasil proses implikasi MIN
Gambar 20
Proses pengaplikasian operator fuzzy dan proses implikasi.
6. Agregasi semua keluaran. Setelah dilakukan pengambilan keputusan berdasarkan semua aturan yang ada pada sistem inferensi fuzzy, aturan tersebut harus dikombinasikan untuk mendapatkan hasil. Masukan proses agregasi adalah fungsi keluaran yang diperoleh dari proses implikasi untuk setiap aturan. Keluaran proses agregasi adalah gabungan semua keluaran dari setiap aturan dengan menggunakan metode MAX. 7. Defuzzifikasi keluaran. Masukan untuk proses defuzzifikasi adalah hasil dari agregasi dan keluaran yang dihasilkan berupa sebuah nilai tunggal. Metode defuzzifikasi yang digunakan dalam penelitian ini adalah centroid. Hasil proses pada tahap kelima, keenam, dan ketujuh terjadi di toolbox fuzzy Matlab 6.5 untuk studi kasus data fakultas Pertanian dengan kondisi lokasi berada di pulau Jawa dan untuk semua tahun dapat dilihat pada Gambar 21.
Gambar 21 Rule editor model fuzzy Mamdani untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004. Pengujian Sistem Inferensi Fuzzy Proses pengujian sistem dilakukan dengan menghitung rataan kuadrat error sistem menggunakan rumus RMSE (Root Mean Squared Error) (Kusumadewi 2002). n
RMSE =
∑ ( fuzout − datout ) 1
n fuzout
dengan fuzout adalah data keluaran hasil fuzzy, datout adalah data keluaran yang diharapkan (terdapat pada dataset), dan nfuzout adalah banyaknya data keluaran hasil fuzzy. Semakin nilai RMSE mendekati 0 maka hasil tersebut dapat dinyatakan semakin baik.
Pada penelitian ini, masukan sistem menggunakan data Faperta IPB dilakukan dengan mengubah kondisi lokasi dan tahun. Hasil yang didapat masih terdapat error berkisar antara 0.6 sampai dengan 0.8. Hasil selengkapnya dapat dilihat pada Tabel 14. Tabel 14 Hasil Uji RMSE No
1.
2.
3.
Jenis data Data mahasiswa Faperta yang berasal dari pulau Jawa untuk semua tahun Data mahasiswa Faperta yang berasal dari luar pulau Jawa untuk semua tahun Data mahasiswa Faperta yang berasal dari satu SLTA (SMUN 1 Bogor) untuk semua tahun
Jumlah cluster valid
RMSE
2
0.67512
2
0.65928
2
0.88911
Gambar 22 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rmat dan Rfis untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 20002004. Dari Tabel 13 terlihat bahwa ketepatan dari hasil proses inferensi hanya berkisar 40 % untuk mahasiswa yang berasal dari satu pulau, dan sekitar 12% untuk mahasiswa yang berasal dari satu sekolah. Pada Gambar 22, terlihat jelas bahwa plot data pencocokan hasil inferensi fuzzy kurang cocok atau kurang tepat dengan hasil yang diharapkan (atribut keluaran pada dataset). Hasil pengujian atau pencocokan hasil inferensi untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004 berdasar atribut lainnya dapat dilihat pada Lampiran 3, 4, 5, 6, dan 7.
Ketidaktepatan ini mungkin dikarenakan dari sebaran data awal yang menunjukkan bahwa sebesar apapun nilai rataan Matematika, Fisika, Kimia dan Biologi maka nilai IPK di TPB dapat bervariasi dari nilai 0.0 sampai 4.00. Dengan kata lain, capaian untuk nilai rataan Matematika, Fisika, Kimia, dan Biologi di SLTA sedikit mempengaruhi capaian IPK di TPB. Hal ini dapat dilihat pada studi kasus data mahasiswa Faperta yang berasal dari satu SLTA (SLTA 1 Bogor) untuk semua tahun yang terdapat di Lampiran 8. Dari hasil perhitungan korelasi antaratribut pada Tabel 1 terlihat bahwa antara atribut nilai memiliki korelasi diatas 0.5. Hal ini berarti antaratribut nilai saling tergantung secara linier dan terjadi redudancy, sehingga antaratribut dapat saling menggantikan. Hasil korelasi antara atribut nilai dengan IPK berada di bawah nilai 0.5. Hal ini berarti nilai mata pelajaran eksakta turut mempengaruhi nilai IPK TPB. Hal ini didukung dari aturan yang dihasilkan dari proses clustering yang terdapat pada Tabel 13, di mana terlihat bahwa semua atribut nilai mata pelajaran eksakta mempengaruhi hasil capaian IPK TPB keseluruhan. Dari semua hasil yang didapatkan pada penelitian ini, dapat disimpulkan bahwa ternyata nilai mata pelajaran eksakta dari cawu 1 sampai dengan 7 yang didapat oleh mahasiswa pada saat mereka di SLTA turut mempengaruhi keberlangsungan nilai mereka di TPB walaupun nilai IPK tidak hanya diperoleh dari mata kuliah eksakta namun juga mata kuliah non-eksakta seperti Sosiologi dan Pengantar Ilmu Pertanian. Adapun masih terdapat nilai error mungkin lebih dipengaruhi oleh beberapa faktor lain seperti: terdapat perbedaan standarisasi penilaian antar SLTA walaupun berada dalam satu propinsi. Di sisi lain dari pihak mahasiswa terdapat kesulitan dalam beradaptasi dengan lingkungan baru (kampus IPB) khususnya dalam perubahan gaya belajar di SLTA dan di perkuliahan.
KESIMPULAN DAN SARAN Kesimpulan Dari percobaan yang dilakukan terhadap data PPMB-IPB dan data TPB untuk studi kasus data mahasiswa Faperta yang berasal dari Pulau Jawa pada tahun 2000-2004, didapat kesimpulan sebagai berikut: 1. Berdasarkan hasil clustering yang dilakukan terhadap data dengan atribut nilai rataan Matematika, Fisika, Kimia,
dan Biologi didapatkan dua buah cluster yang valid, dengan pusat cluster ke-1 berisi informasi mahasiswa yang memiliki nilai rataan Matematika 80.474, nilai rataan Fisika 77.827, nilai rataan Kimia 80.418, nilai rataan Biologi 79.71, dan nilai IPK TPB 2.9047. Pusat cluster ke-2 berisi informasi mahasiswa yang memiliki nilai rataan Matematika 73.335, nilai rataan Fisika 71.867, nilai rataan Kimia 73.844, nilai rataan Biologi 74.473, dan nilai IPK TPB 2.6003. 2. Berdasarkan hasil pengujian pada FIS terhadap data hasil clustering, masih diperoleh error berkisar 0.6 untuk mahasiswa yang berasal dari satu pulau, dan 0.8 untuk mahasiswa yang berasal dari satu sekolah. Dengan kata lain, ketepatan dari hasil proses inferensi hanya berkisar 40 % untuk mahasiswa yang berasal dari satu pulau, dan 12% untuk mahasiswa yang berasal dari satu sekolah. 3. Ketidakakuratan tersebut mungkin dikarenakan dari sebaran data awal yang menunjukkan bahwa berapapun capaian nilai rataan Matematika, Fisika, Kimia, dan Biologi di SLTA tidak mempengaruhi capaian IPK di TPB. Selain itu beberapa faktor lain seperti: terdapat perbedaan standarisasi penilaian antar SLTA walaupun berada dalam satu propinsi. Di lain pihak, kesulitan mahasiswa dalam beradaptasi dengan lingkungan baru (kampus IPB) khususnya dalam perubahan gaya belajar di SLTA dan di perkuliahan juga turut mempengaruhi hasil capaian IPK di TPB IPB. Saran Perlu diaplikasikan metode clustering dan inferensi yang lain untuk mendapatkan hasil yang lebih baik.
DAFTAR PUSTAKA Bao HT. 2004. Knowledge Discovery and Data Mining Techniques and Practice. http://www.netnam.vn/unescocourse/know ledge/1.1.htm.[4 September 2005] Gyorodi R. 2004. Data Mining and Knowledge Discovery.[lecturer note]. http://www. ecestudents.ul.ie. [25 November 2004]. Kirschfink Heribert, Lieven Karl. Basic Tools for Fuzzy Modeling. http://www.
mitgmbh.de//03_FuzzyModelling.pdf. Januari 2005].
[10
Han J, Kamber M. 2001. Data Mining: concepts and techniques.USA: Academic Press. Jang JSR, Sun CT, Mizutani Eiji. 1997. Neuro-Fuzzy and Soft Computing. London: Prentice-Hall International, Inc. Kantardzic M. 2002. Data Mining: Concepts, Models, Methods, and Algorithms. [tempat tidak diketahui]: Wiley-Interscience. Kusumadewi S. 2002. Analisis dan Desain Sistem Fuzzy Menggunakan ToolBox Matlab. Yogyakarta: GRAHA ILMU. Larose TD. 2004. Discovering Knowledge in Data: an introduction to data mining. [tempat tidak diketahui]: John Wiley & Sons, Inc. Mohring Michael,2004.Data Mining: Segmentation (Cluster Analysis).http:// www.uni-koblenz.de/~moeh/lehre/ws0405 /dm41.pdf [19 Desember 2005]. Pramudiono I. 2003. Pengantar Data Mining: Menambang Permata Pengetahuan Di Gunung Data. http://www.ilmu komputer.com. [26 November 2004] Riyanti EF. 2005. Pengembangan Aplikasi Data Mining Menggunakan Metode Induksi Berorientasi Atribut (Studi Kasus: Data PPMB IPB). [Skripsi].Bogor: Departemen Ilmu Komputer, FMIPA-IPB. Xie X, Beni G. 1991. A Validity Measure for Fuzzy Clustering. IEEE Trans Patt Anal Mach Intel.13(8):841-847.
LAMPIRAN
Lampiran 1 Daftar kandidat atribut No 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19.
No 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38.
Nama atribut Status Tahun Propinsi Jenis Kelamin B1 B2 B3 B4 B5 B6 B7 M1 M2 M3 M4 M5 M6 M7 F1
Lampiran 2 Hasil seleksi atribut No Nama atribut 1. Status 2. Tahun 3. Propinsi 4. Jenis Kelamin 5. Rbio 6. Rmat 7. Rfis 8. Rkim 9. UMUM 10. PILIHAN1 11. PILIHAN2 12. b PUTUSAN1 13. LISTRIK 14. IPK 15. Fakultas Pilihan1 16. Fakultas Pilihan2 17. Fakultas Putusan1
Nama atribut F2 F3 F4 F5 F6 F7 K1 K2 K3 K4 K5 K6 K7 UMUM PILIHAN1 PILIHAN2 PUTUSAN1 LISTRIK IPK
Lampiran 3 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rmat dan Rbio untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004
Lampiran 4 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rmat dan Rkim untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 20002004
Lampiran 5 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rfis dan Rbio untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004
Lampiran 6 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rfis dan Rkim untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004
Lampiran 7 Plot data pencocokan antara hasil inferensi dan keluaran sebenarnya berdasar Rkim dan Rbio untuk studi kasus mahasiswa Faperta asal pulau Jawa pada tahun 2000-2004
Lampiran 8 Deskripsi data mahasiswa Faperta yang berasal dari satu SLTA (SMUN 1 Bogor) untuk semua tahun (2000 -2004). Atribut
N
Mean
Median
StDev
Minimum
Maximum
Q1
Q3
Rmat
278
73.361
72.857
5.306
62.857
90.000
68.571
77.143
Rfis
278
71.357
71.429
4.398
61.429
84.286
68.571
74.286
Rkim
278
71.146
70.000
4.723
61.429
87.143
68.571
74.286
Rbio
278
73.402
72.857
4.243
62.857
87.143
70.000
75.174
IPK
278
2.9312
2.9700
0.6170
0.0000
3.9700
2.6800
3.3225
Rfis 67.143 67.143 65.714 70 72.857 67.143 70 67.143 68.571 65.714 70 68.571
Rkim 64.286 64.286 64.286 65.714 67.143 68.571 67.143 67.143 70 71.429 64.286 65.714
Rbio 81.429 67.143 75.714 68.571 74.286 71.429 71.429 68.571 71.429 64.286 71.429 72.857
Anggota cluster ke-1 (29 record) Record ke 1 5 6 9 14 16 17 18 21 22 23 25
Derajat keanggotaan 0.66147 0.87176 0.80506 0.84853 0.63747 0.95967 0.98417 0.86302 0.946 0.76591 0.92298 0.90238
Rmat 68.571 68.571 71.429 72.857 72.857 68.571 70 72.857 70 67.143 70 65.714
IPK 2.56 2.67 3.29 2.8 2.61 3.28 2.25 2.94 3.03 2.58 2.97 2.78
Lampiran 8 Lanjutan Record ke 26 27 28 29 32 33 36 38 40 44 46 49 56 59 60 63 66
Derajat keanggotaan 0.7901 0.88733 0.51946 0.86681 0.79262 0.75821 0.71955 0.71646 0.92858 0.60883 0.70649 0.86457 0.80975 0.75216 0.82914 0.9392 0.83017
Rmat 72.857 68.571 72.857 65.714 67.143 72.857 70 71.429 70 74.286 71.429 67.143 65.714 64.286 62.857 68.571 72.857
Rfis 68.571 68.571 70 70 62.857 71.429 67.143 71.429 68.571 74.286 64.286 72.857 64.286 71.429 67.143 68.571 71.429
Rkim 70 62.857 71.429 64.286 70 68.571 70 71.429 70 68.571 62.857 67.143 70 64.286 64.286 70 67.143
Rbio 72.857 70 74.286 68.571 74.286 67.143 77.143 67.143 70 64.286 78.571 71.429 74.286 77.143 72.857 71.429 71.429
IPK 2.72 1.91 2.44 2.33 2.38 2.92 2.84 3.17 3.03 2.97 2.59 2.97 2.95 2.25 2.97 3.54 2.75
Rmat 70 70 71.429 81.429 77.143 77.143 77.143 75.714 72.857 82.857 82.857 78.571 81.429 77.143 77.143 77.143 77.143 78.571 77.143 74.286 77.143 75.714 80 82.857 74.286 74.286 78.571 75.714 77.143
Rfis 72.857 75.714 71.429 75.714 74.286 72.857 71.429 70 71.429 74.286 78.571 74.286 74.286 71.429 78.571 78.571 74.286 75.714 71.429 72.857 77.143 71.429 74.286 71.429 74.286 75.714 78.571 71.429 72.857
Rkim 75.714 72.857 72.857 78.571 75.714 68.571 74.286 72.857 71.429 71.429 74.286 70 80 72.857 74.286 74.286 74.286 72.857 71.429 71.429 74.286 75.714 77.143 72.857 70 72.857 75.714 72.857 74.286
Rbio 75.714 78.571 78.571 74.286 77.143 74.286 67.143 74.286 77.143 77.143 75.714 68.571 78.571 72.857 74.286 75.714 81.429 75.714 78.571 81.429 71.429 77.143 80 72.857 78.571 75.714 78.571 72.857 80
IPK 3.56 3.56 3.03 3.73 3.83 3.32 2.69 3.46 2.67 3.33 3.56 3.06 3.58 3.8 3.08 3.58 3.57 2.83 2.7 0.09 3.29 2.11 3.28 3.08 3.31 3.19 3.42 3.23 3.03
Anggota cluster ke-2 (39 record) Record ke2 3 4 7 8 10 11 12 13 15 19 20 24 30 31 34 35 37 39 41 42 43 45 47 48 50 51 52 53
Derajat keanggotaan 0.65938 0.68812 0.68488 0.83332 0.95102 0.74763 0.59511 0.80479 0.71679 0.83962 0.82732 0.6316 0.82165 0.85083 0.86975 0.88495 0.87147 0.94686 0.88536 0.75641 0.82455 0.90468 0.86558 0.78588 0.81529 0.91869 0.86821 0.81844 0.9063
Lampiran 8 Lanjutan Record ke54 55 57 58 61 62 64 65 67 68 69
Derajat keanggotaan 0.77729 0.84616 0.62897 0.95188 0.744 0.77489 0.76977 0.70811 0.70372 0.867 0.92522
Rmat 74.286 72.857 71.429 75.714 75.714 74.286 78.571 78.571 74.286 74.286 78.571
Rfis 72.857 74.286 71.429 72.857 68.571 71.429 72.857 77.143 70 71.429 75.714
Rkim 70 75.714 74.286 72.857 72.857 74.286 68.571 68.571 71.429 74.286 74.286
Rbio 75.714 78.571 74.286 74.286 75.714 72.857 74.286 71.429 75.714 78.571 78.571
IPK 2.94 3.61 3.23 2.91 2.74 3.11 3.26 2.97 3.56 3.61 3.66