1
IMPLEMENTASI ANALISIS DISKRIMINAN BERBASIS VARIABLE PREDICTIVE MODEL PADA KLASIFIKASI KESAMAAN POLA Deneng Eka Putra1, Ahmad Saikhu, S.Si, MT2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember Email:
[email protected] ABSTRAK Saat ini, telah banyak metode klasifikasi kesamaan pola yang dapat digunakan sebagai contoh adalah LDA, kNN, Bayesian networks, CART, ANN, dan SVM. Namun dari banyak metode klasifikasi yang tersebut di atas menimbulkan beberapa masalah. Masalah yang banyak dihadapi adalah biaya komputasi yang besar, dan kekurangmampuan metode-metode tersebut di atas untuk mengklasifikasikan sampel karena hanya berdasar pada garis batas antar kelas saja (decision boundaries). Sebagai suatu metode alternatif selain metode-metode yang sudah ada, akan digunakan metode yang memanfaatkan hubungan antara fitur–fitur pada suatu kelas untuk mengklasifikasikan suatu sampel pada kelas tertentu. Berdasar atas ide tersebut metode Variabel Predictive Model based Class Discrimination (VPMCD) diajukan oleh Raghuraj Rao dan Lakshminarayana Samavedham sebagai suatu pendekatan klasifikasi yang baru untuk mengatasi masalah data overlapping dan berjumlah besar. Uji coba dilakukan pada 6 data set (Diabetic, Heart, Iris, Wine, Digit, Letter) yang sudah diteliti oleh para ilmuwan sebelumnya. Hasil yang diperoleh adalah persamaanpersamaan yang mampu mengklasifikasikan sampel yang baru pada tiap data set. Keywords: Klasifikasi Data, Variabel predictive models, Analisis Diskriminan, Machine learning, Statistika Multivariate
1. Pendahuluan Dalam menyelesaikan masalah yang menggunakan metode supervised learning dibutuhkan dua tahap. Pertama, merancang dan melatih metode klasifikasi (clasifier) untuk menunjukkan karakteristik tiap-tiap kelas secara jelas dengan menggunakan atributatribut (prediktor/variabel/fitur) yang ada. Kedua, memprediksikan kelas untuk sampel yang belum diketahui kelasnya. Saat ini, telah banyak metode klasifikasi (supervised learning) kesamaan pola yang telah dikembangkan sebagai contoh adalah LDA, kNN, Bayesian networks, CART, ANN, dan SVM. Namun dari banyak metode klasifikasi yang tersebut di atas menimbulkan beberapa masalah. Masalah yang banyak dihadapi adalah biaya komputasi yang besar, dan kekurangmampuan metode-metode tersebut di atas untuk mengklasifikasikan sampel karena hanya berdasar pada garis batas antar kelas saja (decision boundaries). Pada kasus analisis bioinformatics dan citra, banyak terjadi kasus overlapping data antar kelas. Kelas-kelas yang overlapping tersebut tidak dapat dengan mudah dipisahkan dengan menggunakan decision boundary, seperti yang
banyak digunakan pada metode klasifikasi yang tersebut di atas. Motivasi dalam proses pengerjaan penelitian ini adalah menunjukkan bahwa hubungan antar variabel yang ada dapat memberi ciri khas tiap-tiap kelas sehingga dapat digunakan sebagai alat untuk melakukan proses klasifikasi. Struktur dari interaksi antar variabel dalam suatu kelas bersifat dapat dibentuk dengan perhitungan matematika, spesifik untuk setiap kelas, dan dapat digunakan sebagai model untuk mendiskriminasikan kelas. Teknik variable predictive model based class discrimination (VPMCD) pada paper ini berusaha untuk menggunakan pandangan / paradigma di atas untuk dimanfaatkan pada pendekatan klasifikasi data. Tujuan dari pengerjaan penelitian ini adalah mengimplementasikan metode klasifikasi VPMCD pada aplikasi pengenalan pola dengan mengujikannya pada 6 buah bioinformatics data set yaitu Diabetic, Heart, Iris, Wine, Digit, dan Letter yang sebelumnya telah diteliti oleh para ilmuawan. Pada akhirnya, diharapkan akan ditemukan model yang optimum untuk mengklasifikasikan keenam objek data set tersebut.
2 2. Tinjauan Pustaka
3. Metodologi
2.1. Regresi Linier
3.1. Analisis
Sering kali, dalam praktik, untuk memecahkan masalah yang melibatkan himpunan variabel, diketahui bahwa ada beberapa hubungan yang melekat antara variabel-variabel tersebut. Sebagai contoh, dalam industri dapat diketahui bahwa jumlah kadar tar yang dihasilkan dalam proses kimia berhubungan dengan masukan temperatur suhu. Mungkin perlu untuk mengembangkan metode prediksi, yaitu sebuah cara kerja untuk memperkirakan jumlah tar untuk berbagai taraf masukan temperatur yang didapat dari data percobaan. Dari persoalan tersebut secara statistika, menjadi persoalan menemukan taksiran terbaik untuk hubungan sekelompok peubah (variabel) itu. Hubungan antara variabel bebas dan respon, yang dicocokkan pada data percobaan, ditandai dengan persamaan prediksi yang disebut persamaan regresi. Berikut adalah bentuk persamaan regresi linier . Untuk mendapatkan sebuah persamaan regresi linier perlu diketahui nilai a dan b, berikut adalah formula untuk mendapatkan kedua variabel di atas
Sistem yang akan dibangun memiliki kemampuan untuk : 1. membuat persamaan vpmcd yang bersifat optimum baik lokal maupun global. 2. melakukan proses klasifikasi pada sampel 3. menghitung akurasi ketepatan prediksi dari model vpmcd.
(per samaan 1)
(persamaan 2) 2.2. Regresi linier berganda Pada umumnya persoalan penelitian yang menggunakan analisis regresi memerlukan lebih dari satu variabel bebas dalam model regresinya. Mekanisme yang mendasari persoalan umumnya begitu rumit sehingga diperlukan model Multiple Regression (regresi berganda) agar dapat memprediksikan respon dengan signifikan. Model yang linier dalam koefisiennya disebut model Regresi linier berganda. Untuk k variabel bebas x1, x2, ...., xk, rataan Y|x1, x2, ..., xk diberikan oleh model Regresi linier berganda ŷ = b0 + b1x1 + ... + bkxk Untuk mendapatkan nilai dari variabel b0, b1,.., b k. digunakan formula (persamaan 3)
.
3.2 Konsep VPMCD Banyak atribut atau fitur yang dipilih untuk mendefinisikan karakter dari sebuah sistem akan menjelaskan ketergantungan dan interaksi diantaranya. Teori ini lebih jelas terlihat pada skenario multivariate dimana variabel bebas (predictor) mempunyai ketergantungan satu sama lain dipilih untuk menggolongkan kelas yang mengalami fenomena overlapping. Metode yang berdasarkan korelasi atau probabilitas dapat mendefinisikan secara kualitatif hubungan– hubungan tersebut dan sudah digunakan secara luas pada literatur–literatur untuk bidang data mining. Namun, koefisien korelasi sendiri belum cukup pantas untuk mengklasifikasikan bentuk–bentuk yang berbeda dari hubungan antar variabel kontinyu. Sebagai contoh, sebuah himpunan dari p variabel kontinyu yang berbeda , perubahan pada dapat terjadi karena pengaruh dari variabel yang lain. Relasi seperti interaksi satusatu (one-to-one) dengan variabel lain misal didefinisikan menggunakan fungsi yang cocok (linear atau non-linear) : atau merupakan akibat dari beberapa variabel yang lain selain : dapat terjadi pada sistem. Seperti multivariate dan asosiasi non-linear tidak dapat dengan mudah dimengerti hanya dengan memahami koefisien korelasi. Interaksi dari variabel–variabel tersebut menghendaki representasi secara kuantitas yang lebih baik dan pengetahuan yang dalam tentang matematika untuk memberikan karakter pada perilaku sistem. Struktur–struktur di dalam bentuk model sangatlah penting untuk relasi–relasi ini khususnya ketika variabel–variabel itu dimanfaatkan untuk aplikasi prediksi. Seperti model–model deterministic dapat didevelop dan divalidasi dari observasi yang dibuat pada sistem. Model–model dengan kemampuan untuk memprediksi ini disebut sebagai Variabel Predictive Model (VPM ) pada pembuatan tugas akhir ini. Semua VPMi yang didefiniskan untuk pada dasarnya adalah sebuah model regresi (linear atau non-linear)
3
Order 1 2
3
Tipe Model L Q L LI QI Q
Tabel 1. Daftar sample dan detail model untuk variasi kemungkinan VPM Model (VPMi) Matrik Desain
koefisien (q) 2 3 3 4 6 5 4 7
L LI
yang dikembangkan dengan menggunakan ilmu statistik menggunakan sampel pengukuran–pengukuran dari atribut–atribut pada sistem. Model VPMi dapat memprediksi variabel menggunakan himpunan variabel (variabel predictor) yang lain pada sistem yang sama . Hal ini merumuskan asumsi dasar pada metode baru yang akan diajukan ini bahwa variabel–variabel , yang memberikan karakter pada sistem, bersifat dependen dan lebih luas lagi dapat dimodelkan dengan variabel yang lain selain variabel itu sendiri. Prediksi variabel menggunakan VPMi yang bersangkutan dengan sistem tersebut, jika secara statistik signifikan, catat keberadaan dari asosiasi deterministik antara variabel dengan himpunan variabel prediktor yang digunakan untuk membangun VPMi. Model–model yang didesain dapat divalidasi menggunakan goodness tes yang didasarkan pada error prediksi (sum of squared prediction error, RMSE). Jika selama analisis interaksi variabel untuk sebuah perilaku sistem, kemampuan prediksi dari VPMi tidak mampu mencapai ambang batas yang dapat diterima (batas didefinisikan oleh user pada aplikasi masingmasing) dianggap sebagai variabel yang tidak cocok untuk memprediksi (atau dengan kata lain independen dari variabel–variabel lain) perilaku sistem tersebut dan selanjutnya variabel tersebut dapat tidak diikutsertakan untuk analisis lebih lanju. Kemudian akan didapatkan himpunan model yang digunakan untuk memprediksi {VPMi} yang merepresentasikan secara kualitatif struktur dari interaksi variabel–variabel sistem yang digunakan untuk training. Pertanyaan berikutnya yang ditujukan adalah model tipe yang seperti apakah yang digunakan untuk membangun VPMi. Walaupun pada prinsipnya, semua struktur model dapat digunakan, namun hanya model polinomial yang simpel yang digunakan di sini untuk menjelaskan konsep VPM dan selanjutnya
digunakan untuk mendikriminasikan kelas. VPMi didapatkan dengan jalan memilih satu diantara empat tipe model. Keempat tipe model itu adalah linear (L), linear+interaction (LI), quadratic+interaction (QI) dan pure quadratic (Q). Jumlah dari variabel lain yang digunakan untuk memprediksi (anggota dari himpunan ) pada VPMi disebut sebagai order prediktor ( r ). Model Univariate ( r = 1 ) dan multivariate ( r > 1) keduanya digunakan untuk untuk keempat tipe model VPM di atas. Setelah pilihan tipe model dan order prediktor dibuat kemudian koefisien diestimasi menggunakan data yang tersedia. Keempat tipe model yang diterangkan di atas dapat dirumuskan pada bentuk persamaan (1)(4) untuk segala pilihan dari order predikor r. (1)
Linear (L) VPM ; r
X i b0 b j X j 1
(2)
j
LI VPM ; r
r
j 1
j 1
X i b0 b j X j (3)
r
b
k j 1
X j Xk
QI VPM ; r
r
r
j 1
j 1
j 1
X i b0 b j X j b jj X 2 j
(4)
jk
r
b
k j 1
jk
X j Xk
Q VPM; r
r
j 1
j 1
X i b0 b j X j b jj X 2 j Perlu dicatat bahwa, semua variabel pada model yang dibangun adalah anggota himpunan X yang sama dan variabel– variabel itu bergantian mengambil peranan untuk menjadi variabel yang diprediksi dan variabel yang memprediksi (variabel prediktor). Untuk mudahnya, semua variabel yang diprediksi di
4
tulis sebagai dan variabel yang memprediksi sebagai . Tipe QI VPM sebagaimana yang disajikan pada persaman nomor (3) menggabungkan semua term polinomial dari model yang lain dan nantinya dapat berpotensi untuk menjadi bentuk general dari model VPM. Selain itu, struktur QI mempunyai jumlah suku yang paling banyak membuat preformanya lebih sensitive untuk parameter. QI model juga menghendaki sampel yang lebih banyak untuk mendesain VPMs khususnya untuk model multivariate( r > 1). Nantinya, alternatif bentuk model yang lebih sederhana juga perlu dimasukkan untuk konstruksi VPM. Untuk sistem yang ditraining dengan ‘n’ percobaan yang memiliki ‘p’ variabel (data set ), langkah perancangan untuk membangun VPM yang valid untuk yang penting adalah melibatkan pemilihan variabel prediktor (himpunan dan mencari hingga mendapatkan model persamaan untuk mendapatkan koefisien dari model ‘b’ menggunakan metode yang sesuai. Karena model-model yang ditampilkan di atas memiliki suku–suku penambahan linier/non- linier maka model-model tersebut dapat dicari penyelesaiannya menggunakan pendekatan linier regresi untuk mendapatkan himpunan koefisiennya. Jumlah dari suku-suku penambahan pada model dan jumlah koefisien (q) bergantung pada tipe model dan order prediktor. Tabel 1 menyajikan secara mendetail tentang perbedaan tipe model dan order prediktor model yang dapat digunakan untuk membangun VPM dan hubungan modelmodel tersebut dengan perancangan matriks untuk menentukan koefisien dari model. VPMi untuk memprediksi dibentuk dan dievaluasi untuk semua d kemungkinan, yang timbul akibat dari kombinasi dari r variabel prediktor yang tersedia pada himpunan . Vektor kemudian diprediksi secara terpisah menggunkan masing-masing dari d model itu untuk medapatkan . Dari semua d model, VPMi yang terbaiklah yang dipilih sebagai model yang terakhir untuk memprediksi sesuai dengan akurasi prediksi model tersebut berdasarkan pada jumlah dari error prediksi, . Kemudian elemen-elemen dari VPM yang telah didapatkan dapat disimpan pada sebuah struktur matrik yang memuat tipe model, order r, vektor koefisien B dan himpunan variabel yang memprediksi . Model-model itu dapat
dirancang dan digunakan sebagai penandaan dari masing-masing karakter (kelas) sistem.
3.3 Pembentukan diskriminasi VPMCD
persamaan dengan konsep
Bagian ini akan menerangkan bagaimana persamaan-persamaan pada tiap kelas akan dibangun untuk melakukan proses klasifikasi. Persamaan vpm dibentuk melalui dua tahap. Tahap pertama adalah pembentukan persamaan vpmcd yang bersifat optimum lokal yang mendasatri pembentukan persamaan pada tahap kedua yaitu persamaan vpmcd optimum global. Data set
Membaca data set
Pembentukan VPM lokal optimum
Penghitungan akurasi
Pebentukan VPM global optimum
Persamaan VPM
Gambar 1. Proses pembentukan persamaan vpm untuk klasifikasi 3.3.1
Pembentukan persamaan vpmcd optimum lokal Berikut adalah langkah-langkah yang digunakan : langkah 0 : Baca matrik data trinning . Pilih tipe model (L, LI, QI, Q) order prediktor untuk merumuskan VPM untuk setiap variabel pada tiap kelas. langkah 1 : Bagi matrik menjadi matriks kelas yang terpisah dengan ukuran Iterasi kelas k=1 sampai g, kemudian jalankan langkah 2 dan 3. langkah 2 : Pilih matrik kelas . Untuk setiap variabel pada bangun d kemungkinan VPM menggunakan kombinasi himpunan variabel r yang berbeda pada . langkah 3 : Hitung error prediksi untuk semua d model. Pilih model dengan yang paling kecil
5
sebagai model terbaik untuk pada setiap kelas k, . Simpan himpunan variabel prediktor , tipe model dan array koefisien model
untuk variabel
pada struktur
model kelas langkah 4 : Ulangi 0-3 langkah di atas dengan semua jenis model (L, LI, Q, QI) dan berbagai macam nilai r. Optimalkan dan pilih jenis model dan order r yang memberikan hasil akurasi klasifikasi yang terbaik. Struktur model diskriminasi lengkap dari s udah terbentuk. langkah 5 : Pilih sampel tes . Prediksikan setiap fitur pada menggunakan variabel predictive model dan simpan semua p fitur yang diprediksi untuk mendapatkan vektor sampel yang diprediksi / predicted sampel . langkah 6 : Hitung dan hitung pada tiap kelas sebagai langkah 7 : Klasifikasikan sampel tes S manjadi anggota kelas k yang memiliki nilai paling kecil. langkah 8 : Ulangi langkah 5-7 untuk setiap sampel S pada himpunan untuk melengkapi klasifikasi dan simpan hasil dari klasifikasi pada vektor untuk evaluasi selanjutnya.
Pembentukan persamaan vpmcd optimum global Berikut adalah langkah-langkah yang digunakan : langkah 1 : daftar seluruh kemungkinan kombinasi tipe model-order yang mungkin dibentuk. Jumlah kemungkinan dapat dirumuskan dengan 4 x (p-1) kemungkinan. langkah 2 : lakukan penghitungan akurasi untuk tiap kombinasi tipe model-order VPM yang terbentuk dan memilih pasangan tipe model-order yang memberikan nilai akurasi prediksi paling tinggi
data set. IRIS data set tersedia (http://www.ics.uci.edu/~mlearn/databases/) dengan 150 sampel (n = 150) dari bunga IRIS, bunga ini memiliki tiga kelas (g=3, berlabel Setosa ST, Verginica VR dan Versicolor VC) yang digolongkan menggunakan empat ukuran/fitur (p=4; panjang kelopak X1, lebar kelopak X2, panjang mahkota X3, lebar mahkota X4). Jadi himpunan merumuskan himpunan variabel untuk digunakan membangun VPM secara terpisah setiap kelas. Sebuah sampel dari kelas ST dipisahkan untuk testing dan sisa data yang berjumlah 149 digunakan untuk himpunan training . Tabel 3.2 menunjukkan variasi rumusan VPM untuk contoh ini menggunkan tipe model (L) dan order model r=1. Untuk kelas bunga yang dipilih, keempat variabelnya dimodelkan sebagai sebuah fungsi dari 3 variabel sisanya dengan kemungkinan model yang terbentuk sebanyak 3 (d= (p-1)Cr) untuk tiap variabel. Kemudian dari ketiga model tersebut yang model terbaiklah yang akan digunakan untuk membentuk persamaan VPM untuk variabel tersebut. Anggaplah tipe bunga IRIS ST untuk contohnya. Variabel (dipilih sebagai variabel yang diprediksi ) paling baik diprediksi menggunakan (varieble predictor ). Mirip dengan langkah di atas dapat diprediksi paling baik menggunakan variabel secara berurutan. Jadi struktur asosiasi variabel deterministik untuk bunga Setosa adalah
3.3.2
3.4 Penerapan VPMCD pada data IRIS Konsep VPM dan formulasi VPMCD sebagaimana yng telah dijelaskan pada bagian sebelumnya diilustrasikan dengan sebuah IRIS
dengan struktur model yang diberikan pada tabel 3.2 Hampir sama dengan penjelasan di atas, ketika perancangan berdasar pada training data dari N, bunga jenis VR menunjukkan struktur sebagai berikut
begitu pula untuk bunga IRIS jenis VC
. Pemilihan acak tes sampel S (anggota tunggal dari matriks M) diperhitungkan pada setiap untuk memprediksi nilai sebagai . Katakan untuk kelas ST, nilai pada S digunakan untuk mendapatkan nilai pada Hampir sama, penggunaan nilai dari S
6
Tabel 2. VPM untuk data set IRIS Kelas Setosa (ST)
Kelas Versicolor (VC)
Prediksi Sampel
Hasil prediksi Min SSE =
Prediksi Sampel
Prediksi Sampel
kelas sample diprediksi = ST
untuk memprediksi nilai pada menggunakan . Sampel yang dirprediksi kemudian dibandingkan dengan S yang sebenarnya menggunakan SSE untuk setiap kelas. Error prediksi yang paling kecil antara S dan untuk sampel ini adalah 30.07 diberikan oleh . Berdasarkan perbandingan ini VPMCD mengklasifikasikan sampel S menjadi anggota bunga IRIS jenis Setosa (ST), yang sesungguhnya sampel S tersebut memang anggota dari Setosa. Selama analisis ini, sudah diobservasi (tabel 2) bahwa ketiga kelas menunjukkan interaksi variabel sebagaimana didesain menggunkan . Hal ini membangun tujuan pertama bahwa masingmasing kelas untuk segala sistem menunjukkan hubungan antar-variabel yang mana pada kasus bunga IRIS dapat diukur menggunakan model linear univariate sederhana. Kesuksesan ini juga mendorong riset untuk ditemukannya tipe model dan r yang paling baik untuk membangun VPM.
3.5 Perancangan 3.5.1
Kelas Verginica (VR)
setengah training-setengah testing dan duapertiga training-sepertiga testing. Di bawah grup radiobutton terdapat datagrid yang berfungsi untuk menampilkan keseluruhan data set. Textbox yang terletak di bawah data grid ada 3 buah masing-masing berfungsi untuk menampilkan tipe model VPM yang paling optimum, jumlah order prediktor (r) yang paling optimum, dan nilai keakuratan sistem yang ditunjukkan oleh prosentase kebenaran prediksi. Hasil persamaan VPM ditunjukkan pada textbox yang berada disebelah kanan aplikasi. Persamaan ini adalah hasil pemrosesan yang dilakukan dengan langkah-langkah yang telah dijelaskan di atas.
Gambar 2. Antarmuka perangkat lunak VPM
Antar Muka Pengguna
Gambar 2 memperlihatkan rancangan antarmuka untuk perangkat lunak Implementasi Analisis Diskriminan Berbasis Variabel Predictive Model pada Klasifikasi Kesamaan Pola. Grup radiobutton yang terletak paling kiri atas digunakan untuk memilih data set yang akan dibentuk persamaan VPM-nya. Grup radiobutton di sebelah kanan berfungsi untuk memilih proporsi jumlah data set yang dipilih. Pilihan proporsi yang disediakan ada 2 macam yaitu
Gambar 3. Antarmuka perangkat lunak VPM untuk uji coba data set IRIS
7
Tabel 1 Tabel 3. Hasil evaluasi uji coba keenam dataset
Data set Diabetic Diabetic Heart Heart Iris Iris Wine Wine Digit Digit Letter Letter
proporsi ½ training ½ testing 2/3 training 1/3 testing ½ training ½ testing 2/3 training 1/3 testing ½ training ½ testing 2/3 training 1/3 testing ½ training ½ testing 2/3 training 1/3 testing ½ training ½ testing 2/3 training 1/3 testing ½ training ½ testing 2/3 training 1/3 testing
Tipe model linear interaction linear interaction quadratic interaction quadratic interaction pure quadratic quadratic interaction quadratic quadratic quadratic interaction linear interaction quadratic interaction quadratic interaction
Order (r) 2 2 10 10 2 2 6 5 15 6 9 10
Akurasi(%) 70.9% 73.8% 79.3% 79.7% 93.3% 96 % 90.6% 91.3% 100% 99.4% 94.2% 94.7%
3.6 Implementasi Perangkat lunak dibangun dengan menggunakan program Matlab 7.6. Spesifikasi perangkat keras yang digunakan dalam perancangan perangkat lunak terdiri dari prosesor berjenis Intel Pentium Dual Core 2.80 GHz serta memori dengan kapasitas 2 GB. Sementara untuk spesifikasi perangkat lunak yang digunakan dalam perancangan yaitu sistem operasi Microsoft Windows 7 dan Microsoft Visio 2007.
4. Uji Coba dan Pembahasan 4.1 Data Masukan Seluruh data set yang digunakan untuk uji coba ini adalah berupa data set real (nyata) yang telah diteliti sebelumnya. Data set yang akan digunakan untuk uji coba ini berjumlah 6 data set, digunakan data set yang berbeda untuk mengetahui kinerja dari algoritma VPMCD. Keenam data set yang akan digunakan adalah data set Diabetic, Heart, Iris, Wine, Digit, dan Letter. Diabetic dan Heart adalah golongan data set yang masuk kategori klasifikasi sederhana karena hanya memiliki dua kelas. Iris dan Wine adalah golongan data set yang masuk dalam kategori klasifikasi tingkat medium. Sedangkan Digit dan Letter masuk ke dalam golongan data set yang kompleksitas klasifikasinya paling tinggi karena memliki jumlah kelas dan atribut yang lebih banyak dari data set yang sebelumnya. Berikut tabel data set lengkap dengan atributnya yang digunakan pada uji coba ini.
Tabel 2 Tabel 4. Data set beserta atributnya Data set ukuran variabel kelas referensi (n) (p) (k) Diabetic 768 8 2 [3] Heart 270 13 2 [4] Iris 150 4 3 [5] Wine 178 13 3 [6] Digit 10992 16 10 [7] Letter 20000 16 26 [8]
4.2 Skenario Pengujian Uji coba terhadap VPMCD dilakukan dengan mengujikan metode tersebut dengan 6 data set yang telah ditunjukkan pada tabel 4. Langkah-langkah uji coba yang dilakukan adalah sebagai berikut : 1. Data set yang dibaca oleh program digunakan untuk menyusun persamaan VPM per tipe model-order. 2. Data set dapat dipilih proporsinya untuk digunakan dalam training. Proporsi data training yang dapat digunakan adalah duapertiga data set atau setengah dataset. 3. Sistem melakukan penghitungan akurasi pada tiap-tiap persamaan VPM per tipe modelorder. 4. Memilih tipe model-order yang menyebabkan VPM memiliki akurasi prediksi yang paling tinggi.
4.3 Hasil yang didapatkan Setelah melakukan uji coba pada keenam data set, didapatkan pasangan tipe model-order yang dapat membuat suatu vpm optimum untuk tiap data set.Rangkuman hasil uji coba dapat dilihat pada tabel 3.
8 5.
Kesimpulan
Kesimpulan yang diperoleh berdasarkan uji coba dan evaluasi yang telah dilakukan adalah sebagai berikut : 1.
2.
3.
4.
Tiap data set memiliki bentuk (tipe model dan order) VPM optimum yang berbeda-beda dipengaruhi oleh jumlah data set yang ditrainingkan. Naiknya jumlah order prediktor tidak selalu menyebabkan naiknya prosentase akurasi prediksi. Semakin komplek tipe model tidak selalu menyebabkan naiknya prosentase akurasi prediksi. Variable Predictive Models Based Class Discrimination (VPMCD) terbukti mampu untuk menjadi classifier, dan mampu untuk mengkasifikasikan sampel baru suatu data set.
6. Daftar Pustaka [1] Raghuraj Rao , Lakshminarayana Samavedham ―Variable predictive models—A new multivariate classification approach for pattern recognition applications‖, Department of Chemical and Biomolecular Engineering, National University of Singapore, 4 Engineering Drive 4, Singapore 117576, Singapore, 2008. [2] Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, Keying Ye Probability and Statistics for Engineers and Scientists (7th edition). [3] http://archive.ics.uci.edu/ml/ datasets/Pima+Indians+ Diabetes terakhir diakses 10 Januari 2010, pukul 20:53 WIB [4]
http://archive.ics.uci.edu/ml/datasets/ Statlog+%28Heart%29 terakhir diakses 10 Januari 2010, pukul 20:53 WIB
[5] http://archive.ics.uci.edu/ml/ datasets/Iris terakhir diakses 10 Januari 2010, pukul 20:53 WIB [6] http://archive.ics.uci.edu/ml/ datasets/Wine terakhir diakses 10 Januari 2010, pukul 20:53 WIB [7] http://archive.ics.uci.edu/ml/ datasets/PenBased+Recognition+of+Handwritten+
Digits terakhir diakses 10 Januari 2010, pukul 20:53 WIB [8] http://archive.ics.uci.edu/ml/ datasets/Letter+Recognition terakhir diakses 10 Januari 2010, pukul 20:53 WIB