1 2 1.1
BAB I
PENDAHULUAN
Latar Belakang Data mining merupakan salah satu bidang ilmu yang berupaya untuk
menemukan kaidah, pola, model, maupun informasi yang bersifat menarik dari sekumpulan data. Salah satu fungsionalitas dalam data mining adalah analisis asosiasi yang digunakan untuk menghasilkan rule asosiasi. Penemuan rule asosiasi yang dilakukan pada [1, 2, 3, 4] tidak melibatkan taksonomi (hirarki is-a) dalam proses pembangkitan rule sehingga rule yang dihasilkan hanya meliputi item-item yang berada pada satu level (primitive level concept), yaitu level daun yang merupakan level terendah dari taksonomi. Hal ini tentu saja akan sangat merugikan. Karena pada proses penemuan rule asosiasi yang hanya melibatkan level daun pada taksonomi, akan mengakibatkan banyak rule yang benar-benar kuat dan menarik akan sangat sulit ditemukan. Rule asosiasi yang sangat kuat dan menarik, strong association, dengan support yang tinggi akan sering muncul pada level yang berada di atas level daun, daripada di level daun. Ini tentu saja mengakibatkan suatu dilema tersendiri, karena jika ditetapkan batasan minimum support terlalu rendah akan mengakibatkan muncul banyak rule yang tidak berarti. Dan sebaliknya, jika menetapkan batasan minimum support terlalu tinggi akan mengakibatkan kehilangan rule-rule yang berarti. Konsep generalized association rules merupakan salah satu yang dapat digunakan untuk mengatasi permasalahan di atas. Generalized association rules memanfaatkan informasi yang terdapat pada taksonomi pada saat pembangkitkan rule asosiasi, sehingga rule yang dihasilkan melibatkan item-item yang berada di berbagai level pada taksonomi mulai dari level daun sampai level root (level teratas dari taksonomi), dimana item-item yang terkandung pada suatu rule asosiasi tersebut tidak harus berada di level yang sama pada taksonomi. Karena rule yang dihasilkan melibatkan item-item yang berada pada taksonomi, maka diperlukan suatu ukuran tambahan untuk menentukan apakah
1
2
rule yang dibangkitkan merupakan rule yang menarik atau tidak selain menggunakan minimum support threshold dan minimum confidence threshold. Ukuran tambahan ini dikenal dengan nama minimum-interest-level. Pada tugas akhir ini, konsep generalized association rules akan diimplementasikan menggunakan algoritma cumulate dalam proses pembangkitan frequent itemset. Selain itu pada tugas akhir ini juga akan menerapkan minimuminterest-level untuk menyaring rules yang tidak menarik berdasarkan informasi pada taksonomi, yang berupa keterkaitan antara item yang terdapat pada taksonomi (keterhubungan anak-ancestor atau descendant-ancestor).
1.2
Perumusan Masalah Berdasarkan latar belakang di atas, permasalahan yang menjadi fokus pada
tugas akhir ini adalah : a. Bagaimana menerapkan konsep generalized association rules dengan menggunakan algoritma cumulate untuk menghasilkan frequent itemset. Algoritma cumulate digunakan pada tugas akhir ini karena pada algoritma cumulate terdapat tiga pengoptimalan dari algoritma basic, yang merupakan algoritma dasar untuk menemukan frequent itemset yang melibatkan item-item yang terletak di berbagai level pada taksonomi. — hal ini akan dibahas lebih lanjut pada dasar teori. Yang selanjutnya akan dihasilkan rule asosiasi yang tergeneralisasi. b. Bagaimana menerapkan minimum-interest-level yang akan menyaring rule asosiasi yang tergeneralisasi, dengan menggunakan informasi yang terkandung pada taksonomi, yang berupa keterkaitan antara item yang terdapat pada taksonomi (keterhubungan anak-ancestor atau descendantancestor). Selain minimum-interest-level, tentu saja minimum support threshold dan minimum confidence threshold juga tetap dipergunakan dalam menyaring rule yang tidak menarik pada proses pembangkitan rule —hal ini akan dibahas lebih lanjut pada dasar teori. c. Menganalisis keluaran perangkat lunak yang berupa rule asosiasi, yaitu apakah rule yang dihasilkan merupakan rule yang melibatkan item-item yang terdapat di berbagai level pada taksonomi.
3
1.3
Tujuan Berdasarkan pada masalah yang telah didefinisikan di atas, maka tujuan
tugas akhir ini adalah: a. Menghasilkan sebuah perangkat lunak untuk menerapkan konsep generalized association rules dengan menggunakan algoritma cumulate untuk
menghasilkan
frequent
itemset
dan
rule
asosiasi
yang
tergeneralisasi, dimana didalamnya mengandung item-item yang berada di berbagai level pada taksonomi (hirarki is-a), untuk kepentingan analisis. b. Menerapkan minimum-interest-level pada perangkat lunak yang dibangun dan menganalisis seberapa besar kemampuan minimum-interest-level dalam menyaring rule yang tidak menarik, yaitu dengan melihat seberapa banyak rule yang dihasilkan untuk suatu nilai minimum-interest-level tertentu dibandingkan dengan jumlah rule yang dihasilkan tanpa menggunakan nilai minimum-interest-level (minimum-interest-level benilai 0). Hasil perbandingannya berupa persentase banyaknya rule yang tersaring oleh minimum-interest-level. Jumlah rule yang tersaring adalah jumlah rule yang dihasilkan dengan menggunakan minimum-interest-level tertentu dikurangi dengan jumlah rule tanpa menggunakan minimuminterest-level. c. Melakukan pengujian dengan menggunakan data masukan berupa data extended transaction dan menganalisis hasil implementasi yang berupa rule asosiasi.
1.4
Batasan Masalah Untuk mencapai tujuan di atas, dilakukan pembatasan masalah sebagai
berikut: a. Data masukan adalah data extended transaction, yaitu data transaksi penjualan ditambahkan dengan item-item yang menjadi ancestor dari item-item yang terlibat pada transaksi penjualan. Proses penambahan itemitem yang menjadi ancestor untuk membentuk data extended transaction dilakukan pada tahap pre-processing.
4
b. Taksonomi telah disediakan sebelumnya yang biasanya terdapat dalam tabel deskripsi item. c. Parameter – parameter yang digunakan untuk menganalisa keluaran yaitu: 1. Pengaruh penentuan nilai interest-level (suatu variabel pengali untuk mendapatkan minimum-interest-level —hal ini akan dibahas lebih lanjut pada dasar teori) terhadap persentase jumlah rule yang tersaring/terpangkas, 2. Pengaruh penambahan jumlah transaksi terhadap waktu proses, serta 3. Pengaruh penambahan nilai minimum support terhadap waktu proses.
1.5
Metodologi Penyelesaian Masalah Metodologi penyelesaian masalah dalam penyusunan tugas akhir ini
adalah sebagai berikut : a. Mencari informasi dengan studi pustaka dan referensi dari berbagai sumber seperti artikel, informasi dari buku maupun internet mengenai data mining, analisis asosiasi, generalized association rules, algoritma cumulate, taksonomi dan minimum-interest-level. b. Mempelajari tentang data mining, association rules, konsep generalized association rules, algoritma cumulate, taksonomi dan minimum-interest-level. c. Melakukan analisis penerapan konsep generalized association rules dengan menggunakan algoritma cumulate serta melakukan analisis penerapan minimum-interest-level dalam perancangan perangkat lunak. d. Melakukan implementasi perancangan perangkat lunak dengan menggunakan perangkat lunak Delphi 7 untuk membangun interface dan SQL Server 2000 PE sebagai DBMS untuk menyimpan dataset yang digunakan untuk pengujian perangkat lunak. e. Melakukan pengujian perangkat lunak dengan memasukkan beberapa data yang akan dievaluasi beserta parameter masukan lainnya, yaitu minimum support, minimum confidence dan interest-level, serta mencatat hasil keluaran program yang berupa rule asosiasi dan waktu proses. f. Pengambilan kesimpulan dan penyusunan laporan tugas akhir.
5
1.6
Sistematika Penulisan Tugas Akhir ini disusun dengan sistematika pembahasan sebagai berikut :
BAB I
PENDAHULUAN Bab ini memaparkan latar belakang dilakukannya penelitian, perumusan masalah yang akan dibahas, pembatasan masalah, tujuan yang ingin dicapai melalui penelitian ini, metode penyelesaian masalah dan sistematika pembahasan.
BAB II
DASAR TEORI Bab ini berisi penjelasan mengenai data mining, analisis asosiasi, taksonomi, konsep generalized association rules, algoritma cumulate dan ukuran minimum-interest-level.
BAB III
ANALISIS DAN PERANCANGAN SISTEM Bab ini akan membahas mengenai analisis dan perancangan sistem yang dapat menghasilkan rule asosiasi yang tergeneralisasi dengan memanfaatkan informasi yang terdapat pada taksonomi dengan menggunakan algoritma cumulate serta menerapkan minimum-interestlevel untuk menyaring rule-rule asosiasi yang tidak menarik berdasarkan informasi yang tersedia pada taksonomi. Dalam tugas akhir ini analisis dan perancangan perangkat lunak dibangun dalam bentuk Diagram Aliran Data (DAD).
BAB IV IMPLEMENTASI DAN HASIL PENGUJIAN Bab ini menyajikan tentang implementasi hasil analisa dan perancangan sistem ke dalam bentuk pemrograman aplikasi. Melakukan pengujian terhadap aplikasi menggunakan kasus yang sederhana. BAB V
KESIMPULAN DAN SARAN Bab ini berisi kesimpulan secara umum dari hasil penelitian tugas akhir ini serta saran-saran untuk pengembangan lebih lanjut.