BAB. I. I.1
PENDAHULUAN
Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan
elektronik, setiap organisasi dapat menyimpan datanya secara elektronik dan bersifat permanen dengan terus menerus yang mengakibatkan basis data akan memiliki volume data yang semakin besar dan terus bertambah. Bertambahnya volume data ini, tidak diikuti oleh kemampuan manusia melakukan analisis terhadap data untuk mengambil intisari informasi yang terkandung didalamnya. Fenomena ini disebut dengan situasi “data rich but poor information”[HAN01]. Hal ini mengakibatkan perlunya kebutuhan menganalisa data dalam basis data secara ‘otomatis’ untuk memperoleh pengetahuan yang diinginkan. Teknologi yang dapat menjawab kebutuhan tersebut adalah teknologi data mining, yaitu suatu teknologi untuk mengekstraksi pengetahuan yang diinginkan dari sebuah basis data. Klasifikasi adalah salah satu metode data mining, yakni sebuah proses pencarian sekumpulan model (fungsi) yang dapat membedakan kelas-kelas data. Model ini dapat digunakan untuk memprediksikan objek kelas yang labelnya tidak diketahui
atau
dapat
memprediksikan
data
yang
akan
muncul
dimasa
depan.[HAN01]. Sebagai contoh, model klasifikasi dapat dibangun untuk memprediksi suatu item barang tertentu akan laku dijual atau tidak berdasarkan atribut-atribut yang terdapat pada barang tersebut, ataupun berdasarkan fakta-fakta lain yang ada pada saat klasifikasi dilakukan. Proses dalam membangun sebuah model klasifikasi dapat diilustrasikan dengan Gambar 1.1. Gambar 1.1.(a) merupakan tahap pertama dalam membangun model klasifikasi, yaitu model dibangun berdasarkan training data yang berisi sejumlah record data. Tiap record diasumsikan dimiliki oleh kelas yang telah didefinisikan sebelumnya. Dengan menggunakan suatu metode (seperti decision tree, backpropagation, bayesian networks), akan dihasilkan aturan-aturan klasifikasi. Aturan-aturan inilah yang akan menjadi model klasifikasi. Gambar 1.1.(b) merupakan tahap kedua dalam membangun model klasifikasi yaitu model digunakan untuk mengklasifikasikan data baru atau objek yang label kelasnya belum diketahui [HAN01].
Gambar 1.1. Proses membangun model klasifikasi [HAN02].
Motivasi kegunaan visualisasi adalah bahwa setiap orang dapat dengan cepat menyerap informasi yang ditampilkan dalam bentuk visual dan secara langsung dapat menemukan pola yang terdapat dalam informasi yang divisualisasikan tersebut. Selain itu visualisasi pada data mining mempunyai kegunaan untuk membuat pengguna untuk benar-benar mengerti apa yang akan dicari dalam konteks bisnis [FAY02]. Visualisasi data pada data mining dapat dibagi menjadi beberapa jenis visualisasi[HAN01], yaitu : •
Visualisasi data, data ditampilkan
dalam beberapa tingkatan
abstraksi. Data dapat ditampilkan dalam bentuk 3D, cubes, kurva. •
Visualisasi hasil dari data mining, adalah memvisualisasikan pengetahuan yang didapat data mining.
•
Visualisasi proses data mining, memvisualisasikan proses data mining, yaitu proses bagaimana data dapat diekstrak sehingga diperoleh suatu pengetahuan.
Pada tesis ini, penulis menjadikan klasifikasi berdasarkan Bayesian Networks sebagai bahan eksplorasi dengan melakukan studi literatur bagaimana membangun
2
struktur Bayesian Networks sebagai model klasifikasi dengan mengimplementasikan algoritma TPDA dan memvisualisasikan struktur Bayesian Networks-nya. Beberapa hal yang menjadi alasan mengapa penulis memilih topik tersebut adalah antara lain : 1. Klasifikasi sudah sangat luas dipakai untuk data mining, hal ini menjadi pertimbangan penulis untuk kemudahan dalam mencari referensi dan literatur yang dibutuhkan. 2. Berdasarkan literatur yang ada, Bayesian Networks mempunyai beberapa kelebihan/keunggulan dalam membangun model klasifikasi dibandingkan dengan metode lain, antara lain Bayesian Networks dapat digunakan untuk mengambil suatu kesimpulan berdasarkan nilai probabilitas suatu domain nilai dengan menggunakan Teorema Bayes, sehingga dapat mengurangi kompleksitas perhitungan [NEA04] 3. Visualisasi (dalam hal ini adalah grafik) merupakan salah satu aspek yang perlu diperhatikan dalam merepresentasikan hasil data mining dan pada suatu perangkat lunak dilihat dari perspektif pengguna. Hal ini disebabkan pengguna lebih mudah memahami data bila ditampilkan dalam bentuk visual. 4. Latar belakang pendidikan formal penulis yaitu Rekayasa Perangkat Lunak, sehingga memilih membuat suatu perangkat lunak dengan menggunakan metode yang baik dan benar baik itu mengenai pengembangannya maupun dalam hal pengujian suatu perangkat lunak.
I.2
Rumusan Masalah Adapun rumusan masalah dalam tesis ini adalah sebagai berikut : 1. Bagaimana Bayesian Networks dapat menjadi model data mining yang digunakan untuk klasifikasi ?. 2. Bagaimana menerapkan algoritma yang berkaitan dengan rumusan masalah yang pertama (no.1) ke dalam sebuah aplikasi dan memvisualisasikan hasil data mining (dalam hal ini adalah struktur Bayesian Networks) ?. 3. Bagaimana melakukan tahapan rekayasa perangkat lunak yang baik untuk aplikasi data mining
khususnya untuk klasifikasi berdasarkan Bayesian
Neworks ?.
3
I.3
Tujuan Tujuan umum dari pembuatan tesis ini adalah untuk memahami persoalan
dan konsep data mining dengan fungsionalitas klasifikasi berdasarkan Bayesian Networks serta menerapkan pengetahuan tersebut dalam suatu aplikasi. Sedangkan tujuan khusus dari penelitian ini adalah: 1. Membangun sebuah perangkat lunak untuk aplikasi data mining dengan klasifikasi berdasarkan Bayesian Networks. 2. Mempelajari secara studi literatur mengenai algoritma yang dapat membangun Bayesian Networks dan mengimplementasikannya ke dalam sebuah aplikasi. 3. Mempelajari tahapan melakukan rekayasa perangkat lunak dengan studi kasus untuk persoalan data mining berdasarkan Bayesian Networks.
I.4
Batasan Masalah Batasan masalah pada tesis ini adalah: 1. Tidak terdapat noise dan missing value pada data yang digunakan perangkat lunak, yaitu data yang dipakai adalah data yang siap pakai. 2. Data yang digunakan merupakan data untuk tugas pada data mining. 3. Metode pengembangan perangkat lunak yang digunakan adalah Unified Process. 4. Mining data dilakukan pada basis data model relasi. 5. Studi kasus untuk implementasi adalah data nasabah bank. 6. Algoritma Bayesian Networks yang dieksplorasi secara studi literatur adalah TPDA (Three Phase Dependency Analysis). 7. Visualisasi yang dilakukan adalah visualisasi pengetahuan yang merupakan hasil data mining yaitu struktur Bayesian Networks. 8. Tidak dilakukan analisis terhadap hasil visualisasi struktur Bayesian Networks, melainkan melakukan evaluasi kinerja dalam memprediksi label kelas target berdasarkan struktur Bayesian Networks yang di hasilkan oleh aplikasi.
4
I.5
Metodologi Penelitian Metodologi yang digunakan pada tesis ini adalah sebagai berikut : 1. Studi Literatur Mempelajari sumber-sumber pustaka yang dapat dijadikan referensi. Sumbersumber pustaka tersebut adalah mengenai data mining dengan fungsionalitas klasifikasi berdasarkan Bayesian Networks. Sumber-sumber pustaka dapat berupa buku, paper, atau halaman web. 2. Analisis Masalah Melakukan analisisis permasalahan yang akan diselesaikan pada persoalan data mining dengan teknik Bayesian Networks. Permasalahan yang akan diselesaikan adalah membangun aplikasi Bayesian Networks untuk persoalan data mining. 3. Analisis dan Pengumpulan Kebutuhan Mendefinisikan
masalah-masalah
pada
perangkat
lunak
yang
akan
dikembangkan serta studi kasus yang akan diterapkan pada perangkat lunak. Melakukan analisis kebutuhan mengenai perangkat lunak yang akan dikembangkan, sehingga memperoleh gambaran umum mengenai perangkat lunak. Gambaran umum tersebut meliputi definisi perspektif produk perangkat lunak, asumsi dan ketergantungan yang digunakan dalam mengembangkan perangkat lunak, dan deskripsi rinci kebutuhan. 4. Perancangan Melakukan perancangan terhadap perangkat lunak yang akan dikembangkan berdasarkan hasil yang diperoleh dari analisis. Perancangan tersebut meliputi rancangan lingkungan implementasi, dekomposisi fungsional ke dalam modul/kelas, deskripsi data, dan deskripsi proses. 5. Implementasi Melakukan implementasi terhadap perangkat lunak yang akan dikembangkan berdasarkan hasil yang diperoleh dari perancangan. Implementasi ini akan menghasilkan produk perangkat lunak. 6. Pengujian
5
Melakukan pengujian terhadap produk perangkat lunak yang telah dibangun. Jika masih terdapat kekurangan atau kesalahan pada perangkat lunak maka akan diperbaiki.
I.6
Sistematika Penulisan Penulisan dalam tesis ini terdari 6 (enam) bab utama. Secara umum, penjelasan
untuk setiap bab yang terdapat pada tesis ini adalah sebagai berikut : 1. BAB I, bab ini berisi pokok utama dari penelitian / hal–hal yang mendasari dilakukannya penelitian. Bab ini mencakup latar belakang masalah, tujuan penelitian, batasan masalah penelitian dan metodologi penelitian yang digunakan. 2. BAB II, bab ini berisi tinjauan pustaka atau landasan teori yang dipakai penulis untuk melakukan penelitian. Bab ini berisi topik data mining dengan klasifikasi berdasarkan Bayesian Networks dan beberapa bentuk grafis yang umum digunakan dalam visualisasi data. Bab ini juga membahas algoritma TPDA yang akan diimplementasikan ke dalam perangkat lunak. 3. BAB III, berisi analisa masalah secara umum. Analisa yang dilakukan meliputi analisa terhadap data agar siap untuk digunakan dalam sistem dan penentuan algoritma yang akan diaplikasikan Permasalahan yang akan diselesaikan adalah membangun aplikasi data mining untuk klasifikasi berdasarkan struktur Bayesian Network. 4. BAB IV, bab ini berisi uraian analisis dan perancangan perangkat lunak yang akan dikembangkan untuk mengimplementasikan algoritma TPDA, seperti deskripsi umum perangkat lunak, spesifikasi kebutuhan perangkat lunak, fungsi utama perangkat lunak, perancangan komponen-kompenen perangkat lunak. 5. BAB V, berisi uraian implementasi dan pengujian perangkat lunak yang dihasilkan serta evaluasi kinerja struktur Bayesian Networks yang dihasilkan ketika digunakan untuk memprediksi label kelas. Implementasi mencakup lingkungan perangkat lunak, lingkungan perangkat keras, implementasi kelas dan antar muka. Pengujian mencakup prosedur uji yang dilakukan dan metode pengujian yang dilakukan.
6
6. Kesimpulan dan Saran, yang berisi kesimpulan dan saran yang di dapat penulis selama melakukan penelitian hingga menghasilkan suatu produk yakni sebuah perangkat lunak. Selain 6 (enam) bab utama tersebut diatas, terdapat juga beberapa lembaranlembaran informasi yang berkaitan dengan tulisan tesis ini seperti daftar pustaka yang berisi daftar referensi yang dipakai oleh penulis dan beberapa lampiran.
7