BAB 1
PENDAHULUAN
1.1. Latar Belakang
Seperti halnya semua algoritma dalam pattern recognition pada real-world domain, Support Vector Machine juga selalu mengalami masalah pada tingginya dimensi data yang diolah atau yang biasa disebut high dimensional data. Misalnya data observasi meteorologi untuk menentukan muncul atau tidaknya kabut berkisar 26 attribut, data biomedis yang dipakai untuk memprediksi efektifitas terapi interferon pada pasien hepatitis C kronis berkisar 30 attribut ( Nugroho, 2007 ), dimensi input data hasil feature extraction pada tulisan tangan adakalanya lebih dari 700 attribut, bahkan ada yang ribuan dimensi, contohnya: gen manusia yang memiliki attribut sebanyak 22.000 attribut. Banyaknya dimensi mengakibatkan meningkatnya kebutuhan data secara signifikan, inilah yang disebut oleh Richard E. Bellman pada tahun 1957 sebagai curse of dimensionality ( Bellman, 1957 ). Visualisasi adalah grafis yang me-representasikan data, data di-petakan kedalam sebuah bentuk numerik dan diterjemahkan dalam sebuah representasi gambar. High dimensional data pada Support Vector Machine juga memiliki keterbatasan pada dimensi ruang, ini terbukti bahwa optimal decision boundary pada Support Vector Machine hanya dapat dibentuk sebanyak dimensi data dalam ruang 2 Dimensi atau 3 Dimensi. Transformasi sebuah high dimensional data menjadi sebuah low dimensional data memungkinkan visualisasi high dimensional data dalam ruang 2D, transformasi ini diharapkan dapat tetap me-representasi baik secara visual
Universitas Sumatera Utara
maupun informasi yang telah di-ekstrak dalam sebuah low dimensional data ( Hinton, 2006 ). “Kutukan” dan masalah visualisasi ini dianggap menarik oleh penulis, penulis merasa tertantang menemukan cara melakukan reduksi dan visualisasi terhadap dimensi data yang diolah sehingga sebuah high dimensional data tetap dapat ditemukan decision boundary-nya secara rational dalam sebuah ruang 2 Dimensi. Penulis memperkenalkan sebuah algoritma bernama Support Vector Backpropagation, sebuah algoritma hasil modifikasi kombinasi Backpropagation dan Support Vector Machine yang mampu mengubah sebuah high dimensional data menjadi sebuah low dimensional data ( hanya memiliki 2 attribut sebagai dimensi dalam ruang ) sebelum dilakukan proses analisa diskriminan-nya. Backpropagation dipilih oleh penulis dikarenakan tidak adanya algoritma deterministik yang mampu mentransformasikan sebuah high dimensional data menjadi low dimensional data. Menggunakan algoritma ini sebuah decision boundary dari sebuah high dimensional data akan mungkin diciptakan dan ditangkap secara visual. Seperti halnya Support Vector Machine, otak manusia juga selalu terbatas pada ruang 3D. Kita tidak dapat membayangkan dan memahami apapun yang diletakkan dan digambarkan dalam ruang 4D atau lebih.
1.2. Rumusan Masalah
1. Dapatkah Support Vector Backpropagation melakukan proses cluster pada high dimensional dataset? 2. Apakah proses cluster menggunakan dataset yang telah ditransformasikan oleh Support Vector Backpropagation dapat mencapai performa classifier yang optimal?
Universitas Sumatera Utara
1.3. Batasan Masalah
Batasan masalah dalam penelitian ini adalah:
1. Perbandingan Support Vector Backpropagation hanyalah dengan metode Support Vector Machine. 2. Penelitian ini hanya menggunakan sebuah pengujian, yaitu: Accuracy Test 3. Penelitian ini menggunakan dataset dalam format *.mat dan *.txt 4. Penelitian ini menggunakan dataset yang telah tersedia dalam UCI Machine Learning Repository, yaitu: Cleveland Heart Disease, Wisconsin Diagnostic Breast Cancer Dataset, John Hopkins Univesity Ionosphere Dataset, Fisher Iris Dataset. 5. Penelitian ini menggunakan dataset yang telah mengalami pre-processing terlebih dahulu. 6. Penelitian ini bersifat eksperimental, sehingga pembuatan aplikasi bukan priorotas utama. 7. Bahasa pemrograman yang digunakan dalam penelitian ini adalah MATLAB R2010a.
1.4. Tujuan Penelitian
Tujuan penelitian ini adalah untuk mengetahui tingkat ketelitian proses cluster pada high dimensional dataset yang telah ditransformasi menjadi low dimensional dataset oleh Support Vector Backpropagation.
Universitas Sumatera Utara
1.5. Manfaat Penelitian
Manfaat penelitian ini adalah: 1. Menemukan cara yang lebih efisien dalam melakukan cluster-isasi pada high dimensional data walaupun jumlah training sample yang tersedia sangat terbatas. 2. Sebagai alternatif feature reduction dalam mengatasi curse of dimensionality pada semua high dimensional data.
1.6. Metodologi Penelitian
Metodologi penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut:
a. Studi Literatur
Penulis melakukan studi kepustakan melalui penelitan berupa buku jurnal maupun artikel-artikel yang relevan mengenai Machine Learning, curse of dimensionality, Backpropagation, Support Vector Machine, high dimensional data, visualisasi.
b. Analisis dan perancangan
Analisis masalah dimulai dengan tahap mengidentifikasi masalah, memahami cara kerja sistem yang akan dibuat, menganalisis dan membuat laporan tentang hasil analisis,
dan
perancangan
yang
dimaksud
adalah
menggambarkan
sistem
menggunakan flowchart.
c. Implementasi
Metode ini dilaksanakan dengan mengimplementasikan rancangan sistem yang telah dibuat pada implementasi sistem menggunakan MATLAB R2010a.
Universitas Sumatera Utara
d. Pengujian
Metode ini dilaksanakan dengan melakukan pengujian terhadap sistem yang telah dibangun.
e. Dokumentasi
Metode ini dilaksanakan dengan membuat dokumentasi dalam bentuk laporan tugas akhir.
1.7. Sistematika Penulisan
Penulisan skripsi ini menggunakan sistematika penulisan yang membagi pembahasan skripsi dalam lima bagian utama, yang terdiri atas:
BAB 1 PENDAHULUAN
Pada bab ini merupakan pendahuluan yang berisi latar belakang, rumusan masalah, tujuan penelitian, batasan masalah, metodologi penelitian, dan sistematika penulisan skripsi.
BAB 2 LANDASAN TEORI
Pada bab ini membahas mengenai teori-teori yang digunakan untuk memahami permasalahan yang berkaitan dengan machine learning, Backpropagation, Support Vector Machine, curse of dimensionality, visualisasi data.
BAB 3 ANALISIS DAN PERANCANGAN SISTEM
Pada bab ini berisikan analisis mengenai metode yang digunakan untuk menyelesaikan masalah dan perancangan dari sistem yang dibangun.
Universitas Sumatera Utara
BAB 4 IMPLEMENTASI DAN PENGUJIAN SISTEM
Pada bab ini dibahas cara kerja sistem beserta proses pengujian terhadap sistem yang telah dikembangkan
BAB 5 KESIMPULAN DAN SARAN
Pada bab ini dibuat mengenai rangkuman dari hasil analisis dan implementasi kerja sistem pada bagian sebelumnya, dan pada bagian ini terdapat saran yang diberikan untuk pengembangan sistem selanjutnya.
Universitas Sumatera Utara