BAB II. LANDASAN TEORI
2.1.
Fase Tumbuh Tanaman Padi Tanaman padi secara umum memiliki 3 fase tumbuh yaitu fase vegetative,
fase reproductive dan fase ripening. (Institute, AfricaRice, & Agriculture, n.d.)
2.1.1. Fase Vegetative Fase vegetativedapat dibagi menjadi 3 tahap pertumbuhanyaitu tahap germination, tahap seedling, dan tahap tillering. Tahap pertumbuhanfase vegetatif dapat dibedakan secara fisiologis. Pertama pada tahap germinationditandai dengan radikula atau koleoptil yang memecah bungkus biji. Kemudian pada tahap seedlingditandai dengan tumbuhnya daun pada koleoptil. Kemudian pada tahap terakhir yaitu tahap tillering akan ditandai dengan tumbuhnya anakan atau batang pada tumbuhan padi.(Institute et al., n.d.)
2.1.2. Fase Reproductive Setelah fase vegetativeberakhir, pertumbuhan tanaman padi akan memasuki fase reproductive. Fase reproductivedapat juga dibagi menjadi 3 tahap pertumbuhan yaitu tahap booting, tahap heading, dan tahap flowering. Tahap booting ditandai dengan batang yang gembung dimanapada batang tersebut mulai membentuk malai. Dilanjutkan pada tahap heading yang ditandai dengan keluarnya malai. Pada tahap flowering ditandai dengan keluarnya serbuk sari dan dimulainya proses penyerbukan.(Institute et al., n.d.) 8
9
2.1.3. Fase Ripening Fase ripening dapat dibagi menjadi 3 tahap pertumbuhan yaitu tahap milky, tahap dough, tahap yellow. Pada fase ripening, setiap tahap ditentukan berdasarkan tekstur dan warna dari padi.(Institute et al., n.d.)
2.2.
Reduksi Dimensi Menurut Maaten(2007), Reduksi dimensi adalah transformasi data yang
memiliki dimensi tinggi menjadi sebuah representasi dengan data yang lebih sedikit dimensinya. Reduksi dimensi memiliki manfaat dalam pengolahan data. Reduksi dimensi dapat menghilangkan features yang tidak relevan dan mengurangi noise serta
mengatasi curse of dimensionality. Curse of
dimensionality adalah sebuah fenomena dimana analisis data menjadi hal yang sulit dikarenakan oleh jumlah dimensi data yang meningkat (Tan, 2007). Teknik Reduksi dimensi dapat dibagi menjadi 2 yaitu feature extraction dan feature selection (Fang et al., 2015). Pada penelitian ini menggunakan teknik reduksi dimensi untuk feature extraction. Feature extraction adalah salah satu kategori dari reduksi dimensi. Feature extraction bertujuan untuk membuat sebuah kumpulan fitur-fitur baru dengan memetakan fitur-fitur asli pada data. Salah satu teknik unsupervised pada feature extraction
yang
terkenal
adalah
principal
(PCA).(Cunningham, 2008)
component
analysis
10
2.2.1. Principal Component Analysis (PCA) PCA membuat sebuah representasi data yang menggambarkan banyaknya kemungkinan sebaran data. Metode ini melakukan reduksi dimensi dengan mencari hubungan lineardata. Secara matematis, PCA mencari sebuah transformasi linear T yang memaksimalkan persamaan (1). (1)
dimana
adalah matriks kovarians dari data X dengan rata-rata nol.
Pemetaan linear ini dapat dibentuk dengan d principal eigenvectors dari matriks kovarians tersebut. Oleh karena itu PCA menyelesaikan eigenproblem. (2)
Eigenproblem dapat diselesaikan untuk d principal dengan eigenvalues λ.Eigenvectors ini yang membentuk kolom pada matriks transformasi linear T. Data representasi yi dari titik xi dapat dihitung dengan memetakannya pada matriks T secara linear, contohnya
2.2.2.
T.(Maaten, 2007)
Kernel PCA (KPCA) KPCA merupakan reformulasi dari PCA linear dalam sebuah ruang dimensi
yang tinggi dimana dibuat dengan fungsi kernel. KPCA menghitung principal eigenvectors
menggunakan
matriks
kernel
daripada
matriks
kovarians.
Implementasi PCA dalam ruang kernel membuat KPCA mampu untuk melakukan pemetaan nonlinear. KPCA dapat menghitung matriks kernel K dengan persamaan (3). ,
(3)
11 dimana k adalah sebuah fungsi kernel. Selanjutnya matriks kernel k dipusatkan dengan modifikasi dari input. 1
1
1
(4)
Operasi pemusatan berhubungan dengan pengurangan rata-rata dari fitur-fitur pada PCA dimana berfungsi untuk membuat fitur-fitur dalam ruang dimensi tinggi yang ditentukan oleh fungsi kernel memiliki rata-rata nol. Selanjutnya, principal d eigenvectors vidari matriks kernel yang dipusatkan dapat dihitung. Kovarians dari eigenvectorsmatriks αi(matriks yang dibentuk oleh k dalam ruang dimensi tinggi) adalah versi skala dari eigenvectors matriks kernel vi. 1
(5)
Untuk memperoleh representasi data berdimensi rendah, data akan diproyeksikan pada eigenvectors dari matriks kovarians. Hasil proyeksi dapat dihitung dengan persamaan (6).
,
,
,
,
,
,
(6)
dimana k adalah fungsi kernel yang digunakan dalam perhitungan matriks kernel. Dikarenakan KPCA adalah sebuah metode berdasarkan kernel, pemetaan yang dilakukan KPCA sangat bergantung terhadap pemilihan fungsi kernel k. Fungsi kernel yang memungkinkan adalah kernel polynomial(7), kernelGaussian(8), serta kernellinear(9).(Maaten, 2007) (7)
12
exp
2
(8) (9)
2.3.
Klasifikasi Klasifikasi adalah sebuah bentuk analisis data dimana mengekstraksi model
yang mendeskripsikan kelas data yang penting. Model-model hasil ekstraksi tersebut disebut classifiers. Klasifikasi data pada dasarnya dilakukan dengan 2 proses yaitu tahap belajar dimana model klasifikasi dibentuk dan tahap klasifikasi dimana model akan digunakan untuk memprediksi label kelas untuk data yang diberikan. Pertama-tama sebuah classifier akan dibentuk dengan menggambarkan sebuah kumpulan kelas data yang telah ditentukan. Pada tahap ini, sebuah algoritma klasifikasi akan membuat classifier dengan menganalisa sebuah kumpulan data training yang membentuk database tuples dan label kelasnya. Setiap tuple, X, diasumsikan milik sebuah kelas yang ditentukan atribut database lain disebut atribut label kelas. Dalam konteks klasifikasi data, data tuples dapat dianggap sebagai sampel atau contoh. Selanjutnya pada tahap klasifikasi dapat dilihat bahwa pembelajaran dari sebuah pemetaaan atau fungsi yang dapat memprediksi label kelas y dari sebuah tuple X. Pemetaaan ini direpresentasikan dalam bentuk classification rules, decision trees, atau persamaan matematika. Kemudian model yang dihasilkan akan digunakan pada tahap selanjutnya yaitu tahap klasifikasi.(Han et al., 2011)
13
2.3.1.
Support Vector Machine (SVM) SVM adalah sebuah metode klasifikasi untuk data linear dan nonlinear.
SVM melakukan pemetaan nonlinear pada data ke dimensi yang lebih tinggi. Kemudian, SVM akan melakukan pemisahan data dengan mencari hyperplane pemisah secara linear yang optimal. SVM mencari hyperplane menggunakan support vector, dimana merupakan training tuples yang penting, dan margins yang ditentukan oleh support vectors. Pada data linear, SVM akan mencari maximum marginal hyperplane (MMH) tanpa melakukan pemetaan data ke dimensi yang lebih tinggi. Semakin besar margin yang dihasilkan pada saat dilakukan pemisahan linear, maka SVM akan menghasilkan akurasi yang lebih baik. Sedangkan data nonlinear, SVM akan melakukan pemetaan data ke dimensi yang lebih tinggi sebelum dilakukan pemisahan secara linear. Pemetaan data nonlinear dapat menggunakan fungsi kernel. Berdasarkan penelitian yang ada, ada 3 fungsi kernel yang sesuai untuk SVM yaitu polynomial kernel of degree h (10), Gaussian radial basis function kernel (11), dan sigm oid kernel (12). ,
·
1
(11)
, ,
(10)
tanh
·
(12)
Dari ketiga fungsi kernel tersebut belum ada peraturan yang menentukan fungsi kernel yang dapat memberikan akurasi klasifikasi terbaik. (Han et al., 2011)
14
2.3.2. Naïve Bayesian Classifier bayesian adalah classifier statistik. Classifier ini menentukan atau memprediksi kelas dari sebuah tuple berdasarkan kemungkinan atau peluang dalam sebuah kelas. Asumsi D adalah kumpulan training tuples beserta label kelasnya dimana masing-masing tuple direpresentasikan dengan sebuah vektor atribut n-dimensi.Classifier ini akan memprediksi tuple, X, ke dalam sebuah kelas (asumsi dari m kelas) dengan kondisi . Oleh karena itu
|
|
1
,
akan dimaksimalkan dengan maximum posteriori
hypothesis pada persamaan (13). |
|
(13)
Apabila kelas berdasarkan peluang tersebut tidak diketahui maka akan
diasumsikan bahwa
,
| |
, dimana
adalah jumlah training tuples
,
dari kelas Cidalam D. Agar mengurangi komputasi dalam evaluasi
|
, pada
metode ini akan berasumsi nilai-nilai atribut tidak bergantung satu sama lain. Oleh karena itu, komputasi akan dihitung dengan persamaan (14). |
Dalam komputasi
|
|
(14)
harus mempertimbangkan atribut Ak adalah
categorical atau continuous-valued. Apabila Akadalah categorical, maka
|
adalah jumlah tuples dari kelas Ci dalam D yang memiliki nilai xkuntuk Ak, dibagi dengan
,
, jumlah tuples dari kelas Cidalam D. Dan apabila Akadalah
countinuous-valued maka atribut tersebut akan diasumsi memiliki distribusi
15 Gaussian dengan rata-rata µ dan standar deviasi
yang dihitung dengan
persamaan (15). , ,
Sehingga persamaan
|
1
(15)
√2
menjadi seperti persamaan (16). |
,
,
(16)
Berdasarkan persamaan tersebut, untuk memprediksi label kelas X,
|
dievaluasi untuk setiap kelas Ci. Classifier memprediksi label kelas X jika dan hanya jika
|
1
,
. Dengan kata
lain, label kelas hasil prediksi adalah kelas Cidengan nilai maksimum dari persamaan
2.3.3.
|
.(Han et al., 2011)
k-Nearest-Neighbor Nearest-neighbor classifiersmempelajari perbandingan test tuples dan
training tuples berdasarkan persamaan pola. Persamaan pola yang dimaksud ditentukan dengan distance metric. Salah satu distance metric yang dapat digunakan adalah euclidean distance. Pada klasifikasi k-nearest-neighbor, tuples akan dikelompokan dalam kelas yang paling umum diantara k-nearest-neighbor. Misal k=1, maka tuples akan dikelompokan pada kelas yang memiliki persamaan pola paling tinggi.(Han et al., 2011)
2.3.4. Cross-Validation Cross-validation adalah salah satu bentuk dari teknik statistika. Pada crossvalidation dibutuhkan sebuah nilai untuk menentukan jumlah folds. Data akan
16
dibagi secara acak dan merata sesuai dengan jumlah folds yang ditentukan. Setiap bagian data akan digunakan sebagai data testing dan sisanya akan digunakan sebagai data training. Prosedur ini akan dilakukan terus menerus hingga seluruh bagian data telah digunakan sebagai data testing. Pada umumnya untuk memprediksi error rate dari sebuah teknik machine learning, nilai fold yang digunakan
adalah
10
yang
disebut
tenfold
cross-validation.
(Witten, Frank, & Hall, 2011)
2.4.
Penelitian yang Relevan Penelitian dengan menggunakan teknik reduksi dimensi sudah pernah
dilakukan sebelumnya. Kontribusi dan hasil penelitian pada umumnya berupa meningkatkan performa klasifikasi baik dari akurasi klasifikasi maupun waktu yang dibutuhkan untuk klasifikasi serta jumlah dimensi atau fitur yang digunakan setelah melalui proses reduksi dimensi. Pada paper penelitian yang dilakukan oleh Singh, Jayas, Paliwal, & White, (2009) dengan judul “Detection of insect-damaged wheat kernels using nearinfrared hyperspectral imaging”, PCA membantu dalam feature extraction dari data hiperspektral untuk digunakan dalam klasifikasi. Klasifikasi pada penelitian ini menggunakan linear discriminant analysis (LDA) dan quadratic discriminant analysis (QDA). Akurasi klasifikasi pada penelitian ini mencapai 85% hingga 100% dengan menggunakan 2 principal component (PC) dimana variabilitas PC-1 mencapai hamper 94% dan untuk PC-2 mencapai hamper 5%. PCA digunakan oleh Liu, Shi, Zhang, & Huang, (2010) dalam paper penelitian dengan judul “Discrimination of rice panicles by hyperspectral
17 reflectance databased on principal component analysis and support vector classification”. Tujuan penelitian ini adalah mendeteksi kondisi padi dengan klasifikasi menggunakan metode support vector classification. Data hiperspektral padi direduksi dimensi-nya menggunakan PCA menjadi masing-masing 3 PC untuk training dataset dan testing dataset. Hasil penelitian ini menyatakan bahwa kombinasi support vector classification dan PCA memberikan hasil klasifikasi yang memuaskan. Shahin & Symons, (2011) melakukan penelitian menggunakan PCA untuk mereduksi dimensi data gambar hiperspektral pada paper penelitian yang berjudul “Detection of Fusarium damaged kernels in Canada Western Red Spring wheat using visible/near-infrared hyperspectral imaging and principal component analysis”. Pada penelitian ini, PCA berhasil melakukan reduksi dimensi data menjadi 10 PC. LDA akan digunakan sebagai kernel klasifikasi. Hasil klasifikasi menunjukan bahwa akurasi rata-rata mencapai 92%. Pada paper penelitian yang dilakukan oleh Senthilnath et al., (2012) dengan berjudul “Crop Stage Classification of Hyperspectral Data Using Unsupervised Techniques”, PCA digunakan untuk melakukan reduksi dimensi terhadap data fase tumbuh tanaman pada gambar hiperspektral. Pada penelitian ini, jumlah features yang digunakan metode Modified Broken-Stick Rule. Dengan metode tersebut, pada penelitian ini menggunakan 6 PC pertama dari data. Data hasil reduksi dimensi tersebut digunakan untuk klasifikasi dengan algoritma ISODATA, AIS, HAIS dan NHAIS. Hasil penelitian ini menunjukan bahwa algoritma NHAIS memberikan performa klasifikasi yang lebih baik dibandingkan algoritma lainnya.
18
Melalui hasil penelitian ini, PCA dapat digunakan untuk mereduksi dimensi pada data hiperspektral dengan tetap menghasilkan performa klasifikasi yang optimal. Wang, (2012) membandingkan PCA dan KPCA dalam aplikasi face recognition dan active shape models. Paper penelitian ini berjudul “Kernel Principal Component Analysis and its application in Face Recognition and Active Shape Models”. Hasil penelitian ini menunjukan bahwa KPCA menghasilkan performa klasifikasi yang lebih baik dibandingkan dengan PCA dalam hal face recognition. Pada paper penelitian yang dilakukan oleh Liao, Bellens, Pizurica, Philips, & Pi, (2012) dengan judul “Classification of Hyperspectral Data over Urban Areas Based on Extended Morphological Profile with Partial Reconstruction”, KPCA juga memberikan hasil yang lebih baik dalam melakukan ekstraksi fitur dengan classifier linear. Pada paper penelitian ini, KPCA dibandingkan dengan teknik reduksi dimensi yang lain yaitu PCA dan Independent Component Analysis (ICA).
19 Tabel 2.1Ringkasan Penelitian yang Relevan No.
Peneliti (Tahun)
Teknik Reduksi Dimensi
Hasil Penelitian Akurasi klasifikasi mencapai 85%-100% dimana hanya menggunakan 2 PC. Jumlah
Singh, Jayas,
PCA pada klasifikasi
Paliwal, & White,
menggunakan LDA dan
(2009)
QDA
PC ditentukan berdasarkan 1
hasil dari feature extraction dengan PCA dimana PC-1 mencapai 94% dan PC-2 mencapai 5%. Kombinasi support vector Liu, Shi, Zhang,
PCA pada klasifikasi
classification dan PCA
& Huang, (2010)
menggunakan SVM.
memberikan hasil klasifikasi
2 yang memuaskan. Rata-rata akurasi hasil klasifikasi menunjukan PCA pada klasifikasi untuk bahwa dengan melakukan Shahin &
mendeteksi Fusarium
Symons, (2011)
damaged kernels
reduksi dimensi dengan
3
PCA, LDA dapat menggunakan LDA memprediksi kerusakan lebih tepat. PCA untuk klasifikasi
Algoritma NHAIS
Senthilnath et al.,
dengan algoritma
memberikan performa
(2012)
ISODATA, AIS, HAIS, dan
klasifikasi yang lebih baik
NHAIS.
dibandingkan algoritma
4
20
No.
Peneliti (Tahun)
Teknik Reduksi Dimensi
Hasil Penelitian lainnya. PCA digunakan untuk mereduksi dimensi data hiperspektral dengan tetap menghasilkan performa klasifikasi yang optimal. KPCA menghasilkan
5
Wang, (2012)
PCA dan KPCA dalam
performa klasifikasi yang
aplikasi face recognition
lebih baik dibandingkan
dan active shape models.
dengan PCA dalam hal face recognition.
PCA, KPCA, dan ICA pada klasifikasi data KPCA juga memberikan Liao, Bellens,
hiperspektral daerah kota
Pizurica, Philips,
berdasarkan Extended
& Pi, (2012)
Morphological Profile
hasil yang lebih baik dalam 6
melakukan ekstraksi fitur dengan classifier linear. dengan Partial Reconstruction.