3. BAB II STUDI PUSTAKA 2.1. Tinjauan Pustaka Tinjauan pustaka dilakukan sebagai acuan dan kajian terhadap penelitian ini, Dengan dilakukan tinjauan pustaka terhadap penelitian-penelitian terdahulu yang sesuai dengan topik pembahasan maka akan diperoleh metode terbaik guna mendukung proses penelitian ini. Image Processing telah banyak dilakukan sebelumnya dengan berbagai klasifikasi yang digunakan, salah satunya pada penelitian yang dilakukan oleh Jatmika & Purnamasari, (2014) dalam penelitian dengan judul “Rancang Bangun Alat Pendeteksi Kematangan Buah Apel dengan Menggunakan Image Processing Berdasarkan Komposisi Warna”, tujuan dari penelitian
adalah mengetahui
kematangan buah apel berdasarkan komposisi warna pada tekstur buah apel dengan menggunakan USB webcam, hasil dari webcam yang akan diolah dengan metode image processing dari sistem deteksi kemiripan citra yang telah dibuat, maka kematangan buah apel diukur dengan menghitung nilai jarak antar histogram. Dengan menggunakan histogram dapat dicari citra yang memiliki kemiripan komposisi warna. Histogram inilah yang akan mempresentasikan distribusi jumlah piksel tiap warna dalam citra, sebagai pembanding kematangan buah apel yang diukur adalah histogram warna buah apel yang sudah matang, ada beberapa faktor yang mempengaruhi keakuratan yaitu cahaya, jarak, dan background. Serta range yang
7
8
didapat yaitu 0%-11% (matang), 12%-1 7%(mengkal), 18%-100%(mentah). Dari hasil penelitian tersebut hanya mencari kemiripan distribusi warna, bukan pada ukuran buah apel. Pengolahan citra digital dan JST yang dilakukan oleh Wibowo, (2016) dalam penelitiannya “Klasifikasi Mutu Buah Pepaya (Carica Papaya L ) dengan Teknologi Pengolahan Citra Digital dan Jaringan Saraf Tiruan”. Penelitian ini bertujuan merancang dan menyusun program pengolahan citra digital dan jaringan saraf tiruan untuk klasifikasi pemutuan buah pepaya. Calina IPB-9 ke dalam tiga kelas mutu yaitu kelas Super, A dan B. Fitur bentuk yang di ekstrak terdiri dari compactness dan roundness. Fitur tekstur yang diekstrak meliputi nilai energy, entropy, contras, homogeneity, invers difference moment, variance dan dissimilarity yang didapat berdasarkan GLCM (Grey Level Cooccurence Matrices), fitur tekstur lain yakni fitur LBP (Local Binary Pattern). Fitur warna yang di ekstrak terdiri dari nilai mean red, green, blue, hue, saturation, dan value. Fitur-Fitur tersebut dijadikan sebagai input pada saat pelatihan jaringan saraf tiruan dengan backprogation. Hasil dari pengujian pada proses pengenalan menunjukan fitur energy dan entropy dapat membedakan mutu pepaya Calina IPB-9 dengan tingkat akurasi terbaik yaitu sebesar 86,11%. Sedangkan penelitian klasifikasi mutu pada buah manggis telah dilakukan sebelumnya salah satunya oleh Sandra, (2007) dalam penelitiannya “Pengembangan Pemutuan Buah Manggis untuk Ekspor Secara Non Destruktif dengan Jaringan Syaraf Tiruan” tujuan dari penelitian ini adalah membangun sistem pemutuan buah
9
manggis secara non destruktif dengan metode JST (jaringan syaraf tiruan). Parameter input yang digunakan adalah hasil dari pengolahan citra dengan perangkat penunjang video capture MATROX Meteor untuk pemutuan manggis bagian luar dan gelombang ultrasonik pada frekunsi 50kHz untuk pemutuan manggis. Dari penelitian tersebut menunjukan ketepatan pemutuan buah manggis adalah sebesar 100%. Pemutuan berdasarkan diameter menghasilkan angka 94%, ketepatan pemutuan buah manggis dengan JST adalah 95% dan untuk kelas SNI dan 92% untuk pendugaan rasio gula atau asam. Akan tetapi penulis hanya menggunakan citra RGB tanpa merubah keadaan citra grayscale karena akan berpengaruh terhadap akurasi dan efektivitas waktu pemrosesan data. Penelitian dengan metode sebelumnya dengan metode PCA telah dilakukan oleh Ismawan, (2015) dalam penelitiannya “Hasil Ekstraksi Algoritma Principal Component Analysis (PCA) untuk Pengenalan Wajah dengan Bahasa Pemograman Java Eclipse IDE”. Penelitian ini bertujuan untuk mengolah citra wajah sesorang melalui ciri-ciri utamanya seperti mata, hidung, bibir, alis sebagai identitas. Identitas dari wajah seseorang melalui ciri wajah seseorang tersebut oleh sistem akan dikenali melalui berbagai pelatihan (training) yang disimpan disebuah database. Fase pelatihan (training) merupakan hasil ekstraksi dari kumpulan berbagai wajah yang berbeda kemudian dikumpulkan dan disimpan disebuah database. Hasil citra yang telah diekstraksi menggunakan algoritma PCA tersebut nantinya akan dibandingkan dengan citra wajah baru sebagai citra wajah yang akan di tes apakah mempunyai kemiripan atau hampir mirip untuk dikenali oleh sistem. PCA relatif mudah
10
menangani sejumlah data yang cukup besar serta kemampuannya menangani datadata dimensi yang komplek, seperti fitur-fitur pada citra wajah yang diekstrak berupa dimensi eigenvaktor dan eigenvalues sehingga diperoleh ruang wajah (eigenspace) atau eigenfaces. Penelitian dengan metode PCA dengan objek wajah juga dilakukan oleh Rahmah, (2012) dalam penelitiannya “Teknik Pengenalan Wajah Dengan Algoritma PCA Berbasis Seleksi Eigenvector”. Penelitian ini bertujuan untuk pembuatan sistem pengenalan wajah dilakukan dengan menggunakan algoritma Principal Component Analysis (PCA). PCA adalah salah satu algoritma yang digunakan untuk pengenalan berdasarkan appearance based. PCA ini juga merupakan algoritma reduksi dimensi yang mampu menghasilkan komponen-komponen wajah yaitu eigenface. Pemilihan atau seleksi eigenvector dilakukan untuk mengetahui eigenvector mana yang sesuai dengan kandungan informasi yang lebih tinggi. Hasil yang diperoleh antara lain laju pengenalan tanpa penggunaan pre-processing untuk database att_face adalah 72%82,67%, Untuk database YaleB laju pengenalannya adalah 80,67%-95,33%. Penggunaan pre-processing dapat meningkatkan laju pengenalan, yaitu dengan preprocessing lognormal pada database YaleB dapat meningkatkan laju pengenalan jauh lebih baik, menjadi 88%-95,33%. Untuk metode seleksi eigenvector yang terbaik, digunakan metode seleksi remove first eigenvector. Metode ini dapat bekerja baik dengan penggunaan database YaleB maupun att_face. Penggunaan metode PCAuntuk pemilihan fitur dilakukan oleh Uguz, 2011 dalam penelitiannya “A two-stage feature selection method for text categorization by
11
using information gain, principal component analysis and genetic algorithm” dalam penelitian ini bertujuan untuk pemilihan fitur two-stage dan ekstraksi fitur digunakan untuk meningkatkan kinerja kategori text. Pada tahap pertama, masing-masing istilah dalam dokumen digolongkan berdasarkan pada pentingnya klasifikasi menggunakan metode information gain (IG), pada tahap kedua, pemilihan fitur “genetic algorithm” (GA) and principal component analysis (PCA). Percobaan dilakukan dengan menggunakan k-nearest neighbour (KNN) dan C4.5 decision tree algorithgm on Routers-21,578 dan Classic3 untuk mengategorikan text, hasil percobaan mampu mencapai efektivitas kategori tinggi yang diukur precision, recall, dan F-measure. Ekstraksi ciri banyak dilakukan seperti penelitian pada buah manggis yang dilakukan oleh Indah, (2017) pada judul “Ekstraksi Ciri Transformasi Curvelet Diskrit untuk Mendeteksi Kerusakan pada Buah Manggis” Pada awal penelitian ini tahap pertama adalah pengolahan citra dengan melakuka persamaan ukuran citra grayscale, kemudian dilakukan transfomasi curvelet diskrit. Selanjutnya adalah tahap pengambilan nilai ekstraksi ciri mean, energy ,entropy, Standard deviation, variance, sum, correlation, contrast, dan homogeneity. Setelah mendapat ekstraksi ciri pada tahap selanjutnya klasifikasi untuk mengetahui akurasi mana yang tertinggi dengan menggunakan metode Linear Discriminant Analysis (LDA) dengan metode validasi K-Fold Cross Validation yang dibagi atas 4-fold cross validation. Pengujian menggunakan 120 citra dengan akurasi tertinggi yaitu ekstraksi ciri Standard deviation (standar deviasi) sebesar 88,3% dan variance sebesar 87.4% .
12
Ekstraksi ciri pada buah juga dilakukan oleh Permadi & Murinto, (2015) pada penelitian “Aplikasi Pengolahan Citra untuk Identifikasi Kematangan Mentimun Berdasarkan Tekstur Kulit Buah Menggunakan Metode Ekstraksi Ciri Statik” bertujuan untuk medeteksi kematangan mentimun dari segi tekstur buah untuk menerapkan metode statistik dengan ekstraksi ciri yaitu mean, variance, skewness, kurtosis, dan entropy untuk mengetahui nilai akurasi setelah program diuji. Pengujian ini menggunakan 20 sampel citra terdiri 10 citra mentimun matang dan 10 citra mentimun belum matang. Hasil dari penelitian ini disimpulkan bahwa parameter variance adalah parameter yang paling berpengaruh dalam penentuan ciri citra karena terlihat yang paling baik. Sedangkan untuk mentimun matang mendapatkan tingkat akurasi 70% dan mentimun belum matang mencapai 80%. Maka dari itu metode ciri statistik kematangan mentimun mencapai rata-rata 75%. Penelitian menggunakan metode LDA dengan objek wajah dilakukan oleh Brilian, Huda, & Taufik, (2014) dalam penelitianya “Sistem Pengenalan Wajah dengan Menggunakan Metode Linear Discriminant Analysis” dalam penelitian ini bertujuan untuk pengenalan wajah manusia menggunakan metode LDA. Berdasarkan metode ini dapat melakukan pengenalan wajah manusia dengan komposisi data pelatihan sebanyak 6 variasi dan data penguji sebanyak 4 variasi dengan mengambil nilai karakteristik atau nilai eigen sebanyak 80 maka akan dapat keakuratan sebanyak 70% dalam melakukan pengenalan wajah manusia. Dari beberapa tinjauan pustaka, akan dilakukan riset tentang deteksi permukaan buah menggunakan pengolahan citra menggunakan metode Principal
13
Component Analysis. Dengan menggunakan feature extraction untuk memilih permukaan buah manggis. Fitur yang digunakan untuk mengklarifikasikan permukaan buah manggis adalah Linear Discriminant Analysis (LDA). Pada penelitian sebelumnya klasifikasi buah manggis masih menggunakan metode manual sehingga memakan waktu yang lama dan hasil klasifikasi menjadi tidak akurat dengan menggunakan pengolahan citra metode PCA dan klasifikasi LDA dimana hasil yang ingin dicapai dalam penelitian ini yaitu mendapatkan nilai akurasi yang optimal dalam mendeteksi citra buah manggis. 2.2. Landasan Teori 2.2.1. Deteksi Cacat Cacat permukaan pada buah adalah sebagai penentu mutu dan kualitas atau nilai dari suatu barang menjadi kurang baik atau kurang sempurna. Cacat sangat berpengaruh kualitas dari benda atau barang sehingga dalam hal ini kualitas menjadi salah satu faktor penting dalam pengambilan pemilihan. Pada pengolahan citra sendiri memiliki deteksi cacat yang berfungsi untuk mengetahui area cacat pada citra sehingga diketahui berapa presentase kecacatan tersebut (Wiharja & Harjoko, 2014). 2.2.2. Pengertian Citra Digital Citra adalah gambar pada bidang dua dimensi atau dapat diartikan juga sebagai pantulan cahaya pada bidang dua sisi dimensi yang terekam pada media rekam seperti pengindraan optik kamera dan lain sebagainya. Bayangan objek akan direkam sesuai intensitas cahaya yang mengenainya. Apabila piranti perekam berupa
14
mesin digital, maka citra yang dihasilkan adalah citra digital. Alat akusisi citra digital antara lain kamera digital, kamera smartphone, mikroskop digital, scanner dan lain sebagainya. Sedangkan citra analog adalah citra yang terbentuk dari sinyal kontinyu. Nilai intensitas cahaya pada citra analog memiliki range antara 0 s.d ~. Alat akusisi citra analog antara lain mata kamera dan mata analog .
Gambar 2. 1 Citra kontinu (kiri), Citra digital (kanan)
Sebuah citra digital dapat mewakili oleh sebuah matriks yang terdiri dari M kolom N baris, dimana perpotongan antara kolom dan baris disebut piksel (piksel = picture element), yaitu element terkecil dari sebuah citra. Piksel mempunyai dua parameter yaitu koordinat dan intesitas atau warna. Nilai yang terdapat pada koordinat (x,y) adalah f(x,y), yaitu besar intensitas atau warna dari piksel di titik tersebut. Oleh sebab itu, sebuah citra digital dapat ditulis dalam matriks:
15
Gambar 2. 2 Representrasi citra digital dalam matriks
Berdasarkan gambar tersebut secara matematis citra digital dapat dituliskan sebagai fungsi intensitas f(x,y), dimana x (baris) dan y (kolom) merupakan koordinat posisi dan f(x,y) adalah nilai fungsi pada setiap titik (x,y) yang menyatakan besar intesitas citra atau tingkat keabuan atau warna dari piksel di titik tersebut. Pada proses digitalisasi (sampling dan kuantitas) diperoleh baris M dan kolom N hingga membentuk matriks M x N dan jumlah tingkat keabuan piksel G. (Sutoyo, Mulyanto, Suhartono, Nurhayati, & Wijanarto, 2009)
Gambar 2. 3 Koordinat Citra digital
Piksel merupakan bagian terkecil dari sebuah citra digital berupa persegipersegi bangun dasar yang berukuran kecil yang dihitung per inch setiap piksel hanya
16
memiliki satu warna dan menempati sebuah tempat spesifik pada sebuah citra. Pada skala resolusi tertinggi, mesin cetak gambar berwarna dapat menghasilkan hasil cetak yang memiliki lebih dari 2.500 titik per inci dengan pilihan 16 juta warna lebih dari untuk setiap inci, dalam istilah komputer berarti gambar seluas satu inci persegi yang bisa ditampilkan pada tingkat resolusi tersebut sama seperti 150 juta bit informasi. 2.2.3. Pengertian Pengolahan Citra Digital (Image Processing) Pengolahan citra adalah proses pengolahan sinyal yang inputnya adalah citra. Outputnya dapat berupa citra atau sekumpulan karakteristik atau parameter yang berhubungan dengan citra. Istilah pengolahan citra digital secara umum didefinisikan sebagai pemorsesan citra dua dimensi dengan komputer. Dalam definisi yang lebih luas, pengolahan citra digital juga mencakup semua data dua dimensi yang dapat diolah dengan mudah (Efford, 2000). Pengolahan citra digital berfungsi sebagai proses memperbaiki kualitas citra agar mudah diinterprestasi oleh manusia atau komputer, selain itu teknik pengolahan citra juga digunakan sebagai proses awal (preprocessing) dari komputer visi. Pengolahan citra dilakukan dengan cara mengubahnya menjadi dua gambar yang diinginkan untuk mendapatkan sebuah hasil. Pengolahan citra memungkinkan penggunaan algoritma untuk proses pembersihan citra, pemampatan, penyesuaian citra, pemotongan, dan sebagainya. Tergantung tujuan citra yang akan diolah.
17
2.2.4. Citra Warna RGB Citra RGB adalah sebuah gambar yang memiliki warna dasar yaitu merah (Red), hijau (Green) dan biru (Blue) merupakan warna dasar yang dapat diterima oleh mata manusia. Masing-masing warna memiliki range 0-255 maka total dari warna tersebut 255 = 16.581.375(16K) variasi warna berbeda pada gambar, dimana variasi warna ini cukup untuk gambar apapun, dikarenakan jumlah bit yang diperlukan untuk setiap pixel, gambar tersebut disebut gambar-bit warna. Color image terdiri dari tiga matriks yang mewakili nilai-nilai merah, hijau, dan biru untuk setiap pikselnya (Kusumanto & Tompunu, 2011).
Gambar 2. 4 Citra RGB (Red,Green,Blue)
2.2.5. Citra Grayscale (Abu-abu) Citra grayscale merupakan citra digital yang hanya memiliki satu nilai kanal pada setiap pikselnya, artinya nilai dari Red = Green = Blue. Nilai-nilai tersebut digunakan untuk menunjukan intesitas warna. Citra digital black and white (grayscale) setiap pikselnya mempunyai warna gradasi mulai dari putih sampai hitam. Rentang tersebut berarti setiap piksel dapat diwakili 8 bit, atau 1 byte. Rentang
18
warna pada pada black and white cocok digunakan untuk pengolahan file gambar (Kusumanto & Tompunu, 2011).
Gambar 2. 5 Citra Grayscale
2.2.6. Principal Component Analysis (PCA) PCA (Principal Component Analysis) adalah sebuah teknik yang menganalisa sebuah tabel data observasi ke dalam sebuah data tabel baru yang memiliki korelasi yang sama. Tujuan dilakukan PCA adalah untuk menyederhanakan data obeservasi yang sebelumnya kompleks agar lebih mudah untuk diproses atau dianalisis. Menurut peneliti PCA (Principal Component Analysis) adalah suatu teknik stastistik yang secara linier mengubah bentuk sekumpulan variable asli menjadi variable yang lebih kecil atau lebih sederhana yang tidak berkorelasi yang dapat mewakili informasi dari kumpulan variable asli (Dunteman & H, 1989). Dalam statistika, Principal Component Analysis adalah teknik yang digunakan untuk menyederhanakan suatu data dengan cara mentransformasi linier sehingga terbentuk sistem koordinat baru dengan varians maksimum. PCA dapat juga digunakan untuk meredukasi dimensi suatu data tanpa mengurangi karakteristik data tersebut secara signifikan (Smith, 2002) sedangkan menurut (Santosa, 2007) Principal Component Analysis (PCA) adalah suatu bentuk teknik handal untuk
19
mengetraksi struktur dari suatu set data dengan dimensi yang cukup banyak. Problem PCA adalah menemukan eigenvalue dan eigenvectors. PCA adalah transformasi orthogonal (tegak lurus) dari sistem koordinat dimana data dideskripsikan. Koordinat baru dimana data dideskripsikan dinamakan principal component atau PC. Koordinat tersebut dipilih dimana variansi dari data mencapai maksimum. Seringkali dengan beberapa Principal Component (PC) sudah cukup untuk menjelaskan struktur data asli. Jika data dalam dimensi asli sulit untuk direpresentasikan melalui grafik makan dengan dua PC atau satu PC bisa dicitrakan melalui grafik (Santosa, 2007). Metode PCA dalam penelitian pengenalan wajah yang diperkenalkan oleh Turk dan Pentland pada tahun 1991. Metode tersebut bertujuan untuk memproyeksikan data pada arah yang memiliki variasi terbesar(yang ditunjukkan oleh vector eigen) yang bersesuaian dengan nilai eigen terbesar dari matrik kovarian. Metode PCA memiliki kelemahan yaitu kurang optimalnya dalam pemisahan antar kelas. Tujuan PCA adalah untuk menjelaskan bagian dari variasi dalam kumpulan variable yang diamati atas dasar beberapa dimensi. Dari variable yang banyak dirubah menjadi sedikit variable. PCA sendiri berujuan untuk : 1. Meringkas pola korelasi antar variable yang diobservasi. 2. Mereduksi sejumlah besar variable menjadi sejumlah kecil faktor. 3. Memberikan sebuah defisi operasional persama regresi dimensi pokok penggunaan variable yang diobservasi. 4. Menguji teori yang mendasarinya (Tabachnick, 2001).
20
Langkah-langkah PCA sendiri meliputi : a. Menyeleksi dan pengukuran variable b. Persiapa matriks korelasi c. Mengekstraksi faktor dari matriks korelasi d. Rotasi faktor untuk meningkatkan interpretasi e. Interpretasi berhasil Dengan memanfaatkan PCA semoga hasil ekstraksi ciri akan memiliki tingkat akurasi yang memuaskan, karena telah mendapatkan nilai-nilai matrik yang ada pada citra yang akan diproses pada tahapan-tahapan selanjutnya. 2.2.7. Ekstraksi Ciri Ekstraksi ciri merupakan suatu proses pengambilan ciri unik dari suatu objek ke dalam sebuah nilai yang didapatkan akan dianalisis dan digunakan sebagai bahan anlisis. Untuk mendapatkan nilai dari suatu ciri dilakukan dengan menghitung jumlah titik atau piksel yang ditemui dalam setiap pengecekan, dimana pengecekan dilakukan dalam berbagai arah pada koordinat kartesian dari citra digital yang dianalisis, yaitu vertical, horizontal, diagonal kiri dan diagonal kanan. Metode ini menggunakan perhitungan stastik distribusi derajat keabuan (histrogram) dengan mengukut tingkat kekontrasan, granularitas, dan kekasaran suatu daerah dari hubungan ketetanggan antar piksel didalam citra. Ciri citra dihitung menggunakan rumus sebagai berikut:
21
1. Mean Mean adalah nilai rata-rata atau rata-rata dari array. Untuk vector variable acak A yang terdiri dari pengamatan scalar N, Persamaan untuk menghitung mean didefinisikan sebagai persamaan (2.1) (MathWorks) ∑
............................................................................. (2.1) Persamaan 2.1 Menghitung nilai Mean
Nilai rata-rata dihitung dengan cara menjumlahkan nilai setiap piksel dari piksel ke-1 sampai ke-N kemudian dibagi dengan jumlah piksel yang ada.
2. Standard Deviation (Standar Deviasi) Untuk vector acak A yang terdiri sari pengamatan scalar N, standar deviasi didefinisikan sebagai persamaan (2.2) : √
∑
............................................................... (2.2) Persamaan 2.2 Menghitung nilai Mean
Dimana π adalah mean dari A pada persamaan 2.3 : ∑
......................................................................................... (2.3)
Nilai standar deviasi adalah akar kuadrat dari varian. Beberapa definisi standar deviasi menggunakan faktor normalisasi N bukan N-1 yang dapat ditentukan dengan menentapkan w ke 1 (MathWorks).
22
3. Variance Variance adalah kuadrat dari standar deviasi. Variance memberi ukuran deviasi sinyal dari nilai meannya. Untuk input yang benar-benar nyata atau imajiner, u, dengan ukuran M oleh N, variancenya diberikan oleh persamaan (2.4) : (MathWorks) ∑
∑
∑
∑
..............................................(2.4) adalah elemen data masukan pada indeks i, j. adalah panjang kolom j adalah jumlah kolom Untuk input yang kompleks, variancenya diberikan dengan persamaan berikut: .......................................................................................................(2,5)
adalah varian dari bagian sebenarnya dari input kompleks. adalah varian bagian imajiner dari input komples. Persamaan 2.5 Menghitung nilai Variance
4. Energy Energy adalah suatu fitur yang digunakan untuk mengukur konsentrasi pasangan intensitas pada sebuah matrik co-accurrence. Nilai energy akan menghasilkan nilai yang besar jika distribusi level grayscale citra mempunyai bentuk yang konstan atau periodic. Semakin tinggi nilai entropy maka nilai energy
23
menggambarkan keteraturan penyebaran derajat keabuan suatu citra sehingga bisa dikatakan energy adalah inverse dari entropy. Persamaan 2.6 untuk menghitung energy adalah sebagai berikut : ∑
∑
................................................... (2,6)
Persamaan 2.6 Menghitung nilai Energy
2.2.8. Linear Discriminant Analysis (LDA) LDA atau disebut juga Linear Discriminant Analysis adalah skema fitur yang terkenal ekstraksi fitur dan pengurangan dimensi. Telah banyak digunakan dalam aplikasi yang melibatkan data dimensi tinggi,seperti pengenalan wajah dan pengambilan gambar. Keterbatasan LDA adalah masalah singularitas yaitu gagal bila semua matriks pencar adalah singular. Pendekatan yang terkenal untuk mengatasi masalah singularitas menggunakan PCA (Principal Component Analysis) atau Analisa Komponen Utama (Ye, Janardan, & Li, 2010). Pada tahun 1991, Cheng dkk memperkenalkan metode Analisa Diskriminan Linier (LDA) untuk metode pengenalan wajah. Metode ini mencoba menemukan sub ruang linier yang memaksimalkan perpisahan dua kelas pola menurut Fisher Criterion. Hal ini dapat diperoleh dengan meminimalkan jarak matrik sebaran dalam kelas yang sama (within-class) dan memaksimalkan jarak matrik sebaran antar kelas (between-class). Secara simultan sehingga menghasilkan Fisher Criterion Fisher Criterion yang maksimal. Diskriminan Fisher Linier akan menemukan sub ruang dimana kelas-kelas saling terpisah linier dengan memaksimalkan Fisher Criterion. Jika dimensi data
24
jatuh lebih tinggi daripada jumlah sample training maka akan menjadi singular. Hal teresebut merupakan kelemahan dari metode LDA. LDA juga diketehaui oleh masyarakat setelah Ronald A. Fisher sebagai penemu metode ini dalam paper yang berjudul The Use of Multiplemeasures in Taxonomic Problems pada tahun 1936. LDA adalah salah satu metode yang dipakai pada bidang statistik, pengenalan pola secara umum untuk menemukan kombinasi linier dari fitur atau ciri yang membedakan dua kelas atau lebih objek. Penyusunan fungsi diskriminan dilakukan dengan membentuk kombinasi linier dari perubahan bebas yang diamati dan akan memberikan nilai keragaman sekecil mungkin bagi objek-objek antar kelompok (Salwa, 2007 ). Ada banyak kemungkinan teknik klasifikasi data PCA (Principal Component Analysis) dan LDA (Linier Discriminant Analysis) adalah dua teknik yang umum digunakan untuk klasifikasi data dan pengurangan dimensi. Linier Discriminant Analysis (LDA) dengan mudah menangani kasus dimana frenkuesi di dalam kelas yang tidak sama dan kinerjanya telah diperiksa pada data uji yang dihasilkan secara acak. Metode ini memaksimalkan rasio varians antar kelas dengan varians dalam kelas pada kumpulan data tertentu sehingga menjamin pemisahan maksimal. Penggunaan LDA untuk klasifikasi data diterapkan pada masalah klasifikasi dalam pengenalan suara. Untuk menerapkan algoritma pada LDA dengan harapan dapat memberikan klasifikasi yang lebih baik dibandingkan menggunakan PCA. Perbedaan utama antara LDA dan PCA adalah PCA melakukan lebih banyak klasifikasi fitur dan LDA melakukan klasifikasi data. PCA lebih baik,
25
bentuk dan lokasi kumpulan data asli berubah saat diubah dari ruang yang berbeda sedangkan LDA tidak mengubah lokasi tetapi mencoba memberikan lebih banyak keterpisahan kelas dan mengambil kesimpulan diantara kelas. Metode ini juga membantu lebih memahami distribusi data fitur. Penggunaan LDA rentan terhadap outlier dan overfitting, dimana keadaan tersebut sering terjadi saat pengambilan fitur. Tujuan dari metode Linier Discriminant Analysis antara lain : a.
Menetukan perbedaan yang nyata dan jelas antara beberapa karakteristik yang diteliti dalam membedakan kelompok.
b. Menentukan variabel bebas mana saja yang memberikan kontribusi dalam membedakan nilai rata-rata diskriminan dari kelompok. c. Menentukan tingkat akurasi dari sebuah sistem dalam mengidentifikasi objek berdasarkan ciri tertentu. Berikut ini adalah sebuah persamaan 2.7 dari Linear Discriminant Analysis (LDA) : .................................. (2,7)
Keterangan : Y
= nilai (skor) diskriminan dan merupakan variable terikat. = variable (atribut) ke-k dan merupakan variable bebas = koefisien diskriminan atau bobot dari variable (atribut) ke-k.
26
2.2.9. K-Fold Cross Validation Cross Validation atau validasi silang adalah satu teknik untuk menilai atau memvalidasi keakuratan sebuah model berdasarkan dataset tertentu. Pembuatan model biasanya bertujuan untuk melakukan prediksi maupun klasifikasi terhadap suatu data baru yang boleh dan belum pernah muncul di dalam dataset. Data yang digunakan dalam proses pembangunan model yaitu data latih (training), sedangkan data yang akan digunakan untuk memvalidasi model yaitu data uji (testing). Salah satu metode cross-validation yang popular adalah K-Fold Cross Validation. Didalam teknik ini data ini dataset dibagi menjadi sejumlah K-buah partisi secara acak, Setelah itu dilakukan sejumlah K-kali eksperimen, masing-masing penelitian menggunakan data partisi ke-K sebagai data testing dan memanfaatkan sisa partisi lainnya sebagai data training (Muafiq D. , 2006) Untuk mendapatkan nilai akurasi maupun ukuran penilaian lainnya dari penelitiaan yang akan dilakukan dapat diambil dari nilai rata-rata keseluruhan eksperimen tersebut. Sebagai gambaran 4-Fold Cross Validation ditunjukan pada Gambar 2.6
27
Gambar 2. 6 Data set pada K-Fold Cross Validation