KLASIFIKASI DOKUMEN TUMBUHAN OBAT BERBASIS FAMILI MENGGUNAKAN PROBALISTIC NEURAL NETWORK
ACHMAD MUCHLIS
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Dokumen Tumbuhan Obat Berbasis Dokumen menggunakan Probalistic Neural Network adalah benar karya saya dengan arahan dari pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, September 2013 Achmad Muchlis NIM G64104049
ABSTRAK ACHMAD MUCHLIS. Klasifikasi Dokumen Tumbuhan Obat Berbasis Famili Menggunakan Probalistic Neural Network. Dibimbing oleh YENI HERDIYENI dan ERVIZAL AM ZUHUD. Penelitian ini menyajikan sebuah sistem untuk ektraksi ciri dan klasifikasi dokumen tumbuhan obat menggunakan metode chi-square dan klasifikasi probalistic neural network (PNN). Otomasi identifikasi famili dilakukan berdasarkan pengelompokan karakteristik tanaman obat yang terkandung dalam dokumen. Tahapan terdiri dari pengumpulan dokumen tumbuhan, konversi dari dokumen hardcopy menjadi menjadi bentuk softcopy dengan format XML, pra proses dokumen, pemilihan fitur menggunakan chi-square, klasifikasi dokumen menggunakan PNN dan evaluasi sistem menggunakan confusion matrix. Hasil klasifikasi dipengaruhi oleh jumlah kata penciri suatu famili. Jumlah kata penciri dari suatu famili dipengaruhi oleh jumlah kata yang sama pada tiap dokumen latih. Semakin banyak kata yang sama pada tiap dokumen latih semakin besar probabilitas kata tersebut menjadi kata penciri. Pada penelitian ini penciri dari suatu famili belum menggambarkan ciri-ciri taksonomi tumbuhan. Hal ini disebabkan oleh banyaknya kata yang sama pada tiap dokumen latih belum menggambarkan ciri-ciri taksonomi tumbuhan. Hasil evaluasi klasifikasi menggunakan algoritme probalistic neural network dengan bobot nilai 1 dan lapisan pola menggunakan ekstraksi ciri chi-square menggunakan nilai nilai alpha (α) 0.1 secara keseluruhan menghasilkan nilai 82.14 %. Hal tersebut dikarenakan dokumen latih terdapat banyak kata yang sama pada tiap dokumen yang bukan ciri-ciri taksonomi tumbuhan. Penelitian ini merupakan sistem klasifikasi dokumen tumbuhan obat yang dapat digunakan untuk identifikasi famili tumbuhan. Sistem ini berguna dalam identifikasi famili secara otomatis dan klasifikasi dokumen tumbuhan obat. Sistem ini juga dapat meningkatkan pengetahuan masyarakat terhadap keragaman dan penggunaan tanaman obat. Kata kunci: chi-kuadrat, klasifikasi dokumen, identifikasi dokumen, dokumen tumbuhan obat, klasifikasi probalistic neural network
ABSTRACT ACHMAD MUCHLIS. Clasification of Medical Plant Document Based on Family by Feature Selection Clasification using Probalistic Neural Netwok. Supervised YENI HERDIYENI and ERVIZAL AM ZUHUD. This research presents a system for the extraction of features and classification of the document medicinal plants using the chi-square method and neural network classification probalistic. Automation family identification by grouping characteristics medicinal plants contained in the document. In this research, the phase consists of collecting documents, doing conversion from hardcopy documents to softcopy into XML format, pre-process the document, featuring selection using the chi-square, document classification using PNN and evaluation using Confusion Matrix. Classification results are influenced by the number of family identifier words. Number of words identifier of a family affected by the same number of words in each document training. The more same words in each document training, the greater probability of the word being said identifier. In this research, identifier of a family does not describe the characteristics of plant taxonomy. This is due to the same number of words in each document has not practically described the characteristics of plant taxonomy. The evaluation research of classification algorithm Probalistic Neural Network (PNN) with weight value 1 and layer patterns using feature extraction using the chi-square values of alpha (α) value of 0.1 overall result of classification is 82.14%. This research represents a medical plant document system that can be used for automatic identification of families according to the taxonomy of plants.This system is useful to help users especially researchers and taxonomists in the identification document through labeling family automatically on each document, with the existing system, therefoe the users dont need to bring a book or a guide book to identify the field. Furthermore, it can overcome the limitations of people's knowledge of the diversity and the use of medicinal plants. That is because there are a lot of documents to train the same word in each document which is not characteristic of plant taxonomy. Keywords: chi-square, document classification, document identification, medical plant document, probalistic neural network classifier
KLASIFIKASI DOKUMEN TUMBUHAN OBAT BERBASIS FAMILI MENGGUNAKAN PROBALISTIC NEURAL NETWORK
ACHMAD MUCHLIS
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Judul Skripsi
:
Nama NIM
: :
Klasifikasi Dokumen Tumbuhan Obat Berbasis Famili Menggunakan Probalistic Neural Network Achmad Muchlis G64104049
Disetujui oleh
Prof. Dr. Ervizal AM Zuhud, MS Pembimbing II
Dr. Yeni Herdiyeni, S.Si, M.Kom Pembimbing I
Diketahui oleh
Dr. Ir. Agus Buono, M.Si, M.Kom Ketua Departemen
Tanggal Lulus:
Judul Skri psi
Iumbuhan Obat Berbasis Famili _ e ural Network
Mengg ~.o.AJ,;:c.:;· ~'r&.~f.sti-c
Nama NIM
Achmad
064104049
Disetuj ui oleh
S.Si M.Kom
Tanggal Lulus:
0 5 FEB 201 4
Prof. Dr. Ervizal AM Zuh\ d, MS
Pembimbing II
PRAKATA Segala puji bagi Allah subhanahu wata’ala atas segala limpahan rahmat dan karunia-Nya sehingga penulis mampu menyelesaikan skripsi yang berjudul “Klasifikasi Dokumen Tumbuhan Obat Berbasis Famili Menggunakan Probalistic Neural Network” ini. Selawat dan salam senantiasa tercurah limpah kepada Rasulullah, Nabi Muhammad shalallahu ‘alaihi wasallam, serta keluarganya, sahabatnya, dan para pengikutnya yang tetap istiqomah hingga akhir zaman. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah membantu dalam penelitian ini, yaitu: 1 Kedua orang tua penulis, Alm.H.Syatiri Achmad dan Alma.Hj.Munawaroh serta saudara-saudara penulis, atas doa, kasih sayang, dan dukungan yang luar biasa. 2 Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom dan Bapak Prof. Dr. Ir. Ervizal A.M. Zuhud, M.S selaku dosen pembimbing yang telah banyak memberikan ide, saran, nasihat, dan dukungan. 3 Rekan-rekan satu bimbingan, Rahmat, Alrasyid, Hanung, Dedi, Yusrizal, Desta, pak Indra, mas Rizky dan Ngakan atas diskusi-diskusi dan suka-duka selama pembimbingan. 4 Rekan-rekan di AMN Indonesia. Sahabat Ilkomerz angkatan 5 khususnya Wahyu Dyas. 5 Penulis menyadari penelitian ini masih banyak kekurangan. Harapannya, semoga hasil penelitian ini dapat bermanfaat.
Bogor, September 2013 Achmad Muchlis
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
TINJAUAN PUSTAKA
2
Taksonomi
2
Chi-Square (χ2)
5
Probabilistic Neural Network
7
Confusion Matrix
8
METODE Dokumen Tumbuhan Obat
9 9
Praproses
11
Ekstraksi Fitur Dokumen Menggunakan Chi-Square
12
Klasifikasi Probalistic Neural Network
12
Perhitungan Akurasi
13
Lingkungan Pengembangan
13
HASIL DAN PEMBAHASAN
13
Praproses
13
Ekstraksi Fitur Chi-Square
14
Klasifikasi Probalistic Neural Network
18
SIMPULAN DAN SARAN
25
Simpulan
25
Saran
25
DAFTAR PUSTAKA
25
LAMPIRAN
31
DAFTAR TABEL 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
Tabel kontingensi Nilai kritis derajat bebas satu dan taraf nyata α Manning et al (2008). Confusion Matrix Jumlah dokumen tumbuhan Kombinasi data dokumen per famili Komposisi jumlah dokumen tumbuhan Daftar jumlah kata per famili Perbandingan kelas Apiaceae dengan kelas Euphorbiaceae Kombinasi dokumen latih kelas Apiaceae dengan Euphorbiaceae Hasil evalusi tiap famili Confusion Matrix pada klasifikasi Taksonomi famili Apiaceae dan Crassulaceae Perbandingan term penciri famili Apiaceae dan Crassulaceae Taksonomi Euphorbiaceae dan Crassulaceae Perbandingan term dokumen, famili Euphorbiaceae dan Crassulaceae Taksonomi Lamiaceae dan Apiaceae Perbandingan term dengan famili Apiaceae dan Lamiaceae Taksonomi Myrtaceae dan Rutaceae Perbandingan term dokumen dengan famili Myrtaceae dan Rutaceae Taksonomi Rutaceae dan Crassulaceae Perbandingan term dokumen dengan famili Rutaceae dan Crassulaceae
6 6 8 10 10 14 14 15 15 18 19 19 19 20 21 21 22 22 23 24 24
DAFTAR GAMBAR 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Contoh spesies famili Apiaceae Contoh spesies berfamili Crassulaceae Contoh spesies berfamili Euphorbiaceae Contoh spesies berfamili Lamiaceae Contoh spesies berfamili Myrtaceae Contoh spesies berfamili Rutaceae Bagan algoritme Probalistic Neural Network Han dan Kamber (2001) Diagram alur penelitian Akurasi pengujian Bentuk morfologi daun famili Apiacea dan Crasslucase Posisi cabang famili Euphorbiaceae dan famili Crassulaceae. Bunga famili Euphorbiaceae dan famili Crassulaceae Buah famili Myrtaceae dan famili Rutaceae Bentuk daun famili Rutaceae dan Crassulaceae.
2 3 3 4 4 5 7 9 18 20 21 22 23 24
DAFTAR LAMPIRAN 1 2 3 4 5 6 7
Daftar term kelas Apiaceae Daftar term kelas Crassulaceae Daftar term kelas Lamiaceae Daftar term kelas Euphorbiaceae Daftar term kelas Myrtaceae Daftar term kelas Rutaceae Daftar perbedaan morfologi per famili
26 27 28 28 29 30 36
PENDAHULUAN Latar Belakang Indonesia sebagai salah satu negara megabiodiversity memiliki banyak kekayaan alam. Menurut Groombridge dan Jenkins (2002), jumlah tumbuhan di Indonesia pada saat ini mencapai 22500 spesies. Sebanyak 4.4% dari keseluruhan spesies tumbuhan obat yang ada di Indonesia sudah diketahui manfaatnya. Salah satu cara meningkatkan pengetahuan tentang tumbuhan obat adalah dengan cara mengidentifikasikan tumbuhan tersebut. Penelitian tentang tumbuhan telah banyak dilakukan. Peneliti melakukan pengamatan secara langsung terhadap tumbuhan sehingga menghasilkan informasi dari tumbuhan seperti ciri-ciri morfologi, kandungan kimia, budidaya, manfaat dan informasi lainnya yang menggambarkan karakteristik tumbuhan tersebut. Identifikasi tumbuhan secara manual tidak efisien karena setiap kali melakukan proses identifikasi, peneliti menganalisis karakteristik secara langsung atau dengan mencocokan pada tiap dokumen tumbuhan yang sedang di identifikasi. Oleh karena itu, diperlukan adanya sistem informasi untuk mempermudah dan mempercepat proses identifikasi famili tumbuhan obat menggunakan informasi dokumen tumbuhan obat. Pada penelitian sebelumnya telah dilakukan mengenai identifikasi famili menggunakan dokumen etnofitomedika dengan metode klasifikasi naïve bayes Suganda (2013). Saudari Suganda menggunakan sepuluh famili tumbuhan dalam hal pengklasifikasiannya. Metode yang digunakan yang oleh saudari Suganda adalah mengekstraksi kata-kata penting dari dokumen etnofitomedika menggunakan chi-square dan metode naive bayes sebagai metode pengklasikasiannya. Penelitian lain tentang klasifikasi tumbuhan obat juga dilakukan oleh Herawan (2011) yang menggunakan metode chi-square dan metode naive bayes. Penelitian tentang pengelompokan data juga dilakukan oleh Barnaghi (2012) dengan membandingkan beberapa metode klasifikasi meggunakan data darah. Pada penelitan Barnaghi (2012) rata-rata akurasi metode neural network lebih baik jika dibandingan dengan metode naive bayes. Penelitian ini akan mengembangkan sistem klasifikasi dokumen tumbuhan obat berbasis famili menggunakan metode Probalistic Neural Network (PNN). Famili yang digunakan pada penelitian ini berjumlah enam famili yaitu Apiaceae, Crassulaceae, Euphorbiaceae, Lamiaceae, Myrtaceae dan Rutaceae. Pemilihan famili Apiaceae, Crassulaceae, Euphorbiaceae, Lamiaceae, Myrtaceae dan Rutaceae dikarenakan secara taksonomi famili tersebut terdapat dalam 1 kingdom yang sama yaitu Plantae. Tujuan Penelitian Tujuan dari penelitian ini adalah untuk mengklasifikasikan dokumen tumbuhan obat berbasis famili menggunakan metode ektraksi chi-square dengan metode klasifikasi probalistic neural network.
2
Manfaat Penelitian Manfaat dari penelitian yaitu untuk mempermudah pencarian informasi tumbuhan berdasarkan ciri-ciri morfologi dari famili tumbuhan tersebut.
Ruang Lingkup Penelitian 1 2
Pada penelitian ini dilakukan pembatasan masalah pada: Data tumbuhan obat terdiri atas enam famili yaitu Apiaceae, Crassulaceae, Euphorbiaceae, Lamiaceae, Myrtaceae dan Rutaceae. Data tumbuhan obat dalam bentuk teks dengan ektensi XML dan berbahasa Indonesia.
TINJAUAN PUSTAKA Taksonomi Taksonomi tumbuhan merupakan ilmu yang mempelajari tentang berbagai penelusuran jenis tumbuhan, penyimpanan herbarium tumbuhan, pengenalan atau identifikasi tumbuhan, pengelompokan atau klasifikasi tumbuhan, dan pemberian nama tumbuhan Tjitrosoepomo (1994). Klasifikasi tumbuhan adalah penyusunan tumbuhan secara teratur ke dalam suatu sistem hierarki. Sistem penyusunan ini berasal dari kumpulan informasi tumbuhan secara individual salah satunya informasi ciri-ciri taksonomi yang dimiliki tumbuhan tersebut, dengan hasil akhir yang menggambarkan hubungan kekerabatan antar individual. Klasifikasi yang bertujuan untuk menyederhanakan objek studi pada hakekatnya adalah mencari keseragaman dalam keanekaragaman pada setiap individual. Berikut ciri-ciri famili yang digunakan pada penelitian ini : a
Famili Apiaceae
(Astrantia maxima) (Daucus carota) Gambar 1 Contoh spesies famili Apiaceae Terna berumur pendek atau panjang, dengan batang berongga sebelah dalam dan beralur atau bergerigi membujur pada permukaannya. Daun tersebar, berseling atau berhadapan, majemuk ganda atau banyak berbagi, tanpa daun penumpu tetapi mempunyai pelepah yang besar dan
3
pipih. Bunga majemuk berupa bunga payung. Bunga kecil, kebanyakan banci, aktinomorf atau sedikit zigomorf, berbilangan 5. Kelopak seringkali amat kecil, daun mahkota 5 dengan ujungnya yang melengkung ke dalam berwarna kuning atau keputih-putihan, jarang merah jambu atau lembayung. Benang sari 5, berseling dengan daun mahkota. Bakal buah tenggelam, tertutup oleh bantal tangkai putik yang berbagi 2 , beruang 2 dalam tiap ruang dengan 1 bakal biji yang bergantungan. Buahnya buah berbelah 2, tiap bagian buah berlekatan pada suatu karpofor. Dalam kulit buah terdapat saluran-saluran minyak atsiri. Biji dengan endosperm yang menyerupai tanduk Tjitrosoepomo (1994). Gambar 1 merupakan contoh spesies famili Apiaceae. b Famili Crassulaceae
(Kalanchoe pinnata) (Kalanchoe pinnata) Gambar 22Contoh spesies berfamili Crassulaceae Terna berbatang basah, daun tebal pinggir beringgit, banyak mengandung air, bentuk daunnya lonjong atau bundar panjang, panjang 5 20 cm, lebar 2.5-15 cm, ujung daun tumpul, pangkal membundar, permukaan daun gundul, warna hijau sampai hijau keabu-abuan. Posisi daun jarang yang berhadapan. Memiliki penumpu tangkai daun yang melebar. Bunga terdapat pada akhir batang bagian atas dan menghadap ke bawah Goldberg (2003). Gambar 2 merupakan contoh spesies famili Crassulaceae. c
Famili Euphorbiaceae
(Euphorbia epithymoides)
(Glochidion)
Gambar 33Contoh spesies berfamili Euphorbiaceae
4
Pohon, perdu atau terna, kadang-kadang berupa sukulenta, kebanyakan menghasilkan getah yang berwarna putih seperti susu. Daun tersebar, kadang-kadang berhadapan, tunggal atau majemuk menjari, biasanya mempunyai penumpu. Ujung tangkai daun atau pangkal helaian daun seringkali mempunyai kelenjar. Bunga berkelamin tunggal, berumah satu atau dua, jantan dan betina besar perbedaannya. Bakal buah menumpang, biasanya beruang 3 masing-masing 1-2 bakal biji. Tangkai putik berjumlah 3 atau berlekatan. Biji dengan endosperm yang besar dan di pusat Tjitrosoepomo (1994). Gambar 3 merupakan contoh spesies famili Euphorbiaceae. d Famili Lamiaceae
(Perilla frutescens) Gambar 44Contoh spesies berfamili Lamiaceae Spesies dari lamiaceae terutama merupakan herba atau semaksemak dalam berbagai ukuran, jarang berupa pohon. Batang biasanya persegi, terutama ketika muda, tegak atau berbaring di tanah. Bunganya biseksual, jarang berkelamin tunggal jarang yang berbentuk sebagai bunga sempurna. Buah terdiri atas empat nutlets, meskipun beberapa nutlets tersebut tidak dewasa, masing-masing dengan biji tunggal. Daun berberntuk sederhana dan letaknya berhadapan dengan daun yang lainnya. Penumpu tangkai daun menyebar tidak mengerucut ke dalam batang Golderg (2003). Gambar 4 merupakan contoh spesies famili Lamiaceae. e
Famili Myrtaceae
(Syzygium caryophyllatum)
(Syzygium malacense)
Gambar 55Contoh spesies berfamili Myrtaceae
5
Semak-semak atau pohon-pohonan yang berbatang berkayu, jarang sekali berupa terna dengan daun tunggal tanpa daun penumpu yang duduknya tersebar atau berhadapan. Bunga kebanyakan aktinomorf, banci dengan 4-5 daun kelopak dan 4-5 daun mahkota pula. Daun-daun mahkota itu sebelah atasnya seringkali berlekatan. Bakal buah tenggelam dengan 1 tangkai putik, beruang 1 dengan 3-tembuni yang menonjol ke dalam, dapat pula beruang lebih dari 1 (2, 5 sampai tak hingga) dengan 8 bakal biji dalam tiap ruang Tjitrosoepomo (1994). Gambar 5 merupakan contoh spesies famili Myrtaceae. f
Famili Rutaceae
(Clausena excavate)
(Citrus reticulate)
Gambar 66Contoh spesies berfamili Rutaceae Tumbuhan yang berkayu, jarang berupa terna. Daun tunggal atau majemuk (beranak daun 3) yang duduk tersebar atau berhadapan. Dalam gelam dan daun terdapat kelenjar-kelenjar minyak yang terjadi secara skizolisigen. Bunga banci, aktinomorf atau zigomorf, berbilang 5 atau 4, di dalam benang sari kebanyakan terdapat suatu cakram. Kelopak berdaun bebas atau berlekatan. Buah dan biji amat berbeda-beda, biji dengan lembaga yang besar Tjitrosoepomo (1994). Gambar 6 merupakan salah satu contoh spesies famili Rutaceae. Chi-Square (χ2) Pemilihan fitur dokumen merupakan suatu proses memilih kata terbaik pada tiap dokumen. Kata tersebut merupakan himpunan dari semua kata yang ada pada data latih. Pemilihan fitur dokumen memiliki dua tujuan utama, yaitu membuat data latih yang diterapkan oleh sistem klasifikasi menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan oleh dihilangkannya kata-kata yang bukan merupakan penciri dokumen yang dilakukan pada proses penghilangan fitur Manning et al (2008). Dalam penelitian ini, data yang digunakan adalah dokumen tumbuhan obat yang berasal dari beberapa dokumen hasil riset dan buku tumbuhan obat. Dokumen yang digunakan dibuat dalam format XML. Data dari ekstrasi fitur tersebut akan digunakan sebagai penciri dokumen yang akan diklasifikasikan. Chi-square ( ) merupakan pengujian hipotesis mengenai perbandingan antara frekuensi sampel yang benar-benar terjadi (frekuensi observasi) dengan
6
frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau data (frekuensi harapan atau ekspektasi). Sampel berukuran N diambil dari suatu populasi normal berdeviasi standar σ. Untuk setiap sampel dihitung nilai sehingga diperoleh distribusi sampling untuk yang disebut distribusi chi-square Manning et al (2008). Perhitungan nilai chi-square dapat dibantu dengan tabel kontingensi. Nilai pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel kontingensi dapat dilihat pada Tabel 1. Tabel 1 Tabel kontingensi Kelas
Kelas = 1
Kelas = 0
Kata Kata = 1
A
B
Kata = 0
C
D
Perhitungan nilai chi-square berdasarkan tabel kontingensi disederhanakan sebagai berikut: t c =(
)(
)(
)
(1)
Dari rumus di atas, t merupakan kata yang sedang diujikan terhadap suatu kelas c. Jumlah dokumen latih dilambangkan dengan N. Banyaknya dokumen pada kelas c yang memuat kata t dilambangkan dengan A, banyaknya dokumen yang tidak berada di kelas c, Namun memuat kata t dilambangkan dengan huruf B,banyaknya dokumen yang berada di kelas c namun tidak memiliki kata t dilambangkan dengan huruf C, dan banyaknya dokumen yang bukan merupakan dokumen kelas c dan tidak memuat kata t dilambangkan dengan huruf D. Pengambilan keputusan berdasarkan nilai dari masing-masing kata. Kata yang memiliki nilai di atas nilai kritis pada tingkat signifikasi α adalah kata yang dipilih sebagai penciri dokumen sehingga kata yang dipilih sebagai penciri dokumen merupakan kata yang memiliki pengaruh terhadap kelas c. Nilai kritis dengan derajat bebas satu dan taraf nyata ditunjukkan oleh Tabel 2. Tabel 2 Nilai kritis derajat bebas satu dan taraf nyata α Manning et al (2008).
0.1
Nilai Kritis 2.71
0.05
3.84
0.01
6.63
0.005
7.88
0.001
10.83
7
Probabilistic Neural Network Klasifikasi adalah proses menemukan sekumpulan model atau fungsi yang menggambarkan dan membedakan konsep atau kelas-kelas data, dengan tujuan agar model tersebut dapat digunakan untuk memprediksi kelas dari suatu objek atau data yang label kelasnya tidak diketahui Han dan Kamber (2001). Pada klasifikasi data yang digunakan dibagi menjadi data latih dan data uji. Data latih digunakan untuk membangun model dengan ekstrasi fitur menggunakan algoritme chi-square, sementara data uji digunakan untuk memvalidasi model yang telah dibangun dengan menggunakan algoritme probalistic neural network. Akurasi model ditentukan oleh hasil pengujian terhadap data uji.
3
Gambar 77Bagan algoritme Probalistic Neural Network Han dan Kamber (2001) PNN terdiri atas empat lapisan, yaitu lapisan masukan, lapisan pola, lapisan penjumlahan, dan lapisan keluaran. Struktur PNN selengkapnya ditunjukkan pada Gambar 7. Lapisan-lapisan yang menyusun PNN adalah sebagai berikut: Lapisan Input (Input Layer) Lapisan masukan merupakan input x yang terdiri atas nilai yang akan diklasifikasikan pada salah satu kelas dari n kelas. 2 Lapisan Pola (Pattern Layer) Pada lapisan pola dilakukan perkalian titik (dot product) antara input x dan vektor bobot x i , yaitu x x i, kemudian dibagi dengan bias (σ) tertentu dan selanjutnya dimasukkan ke dalam fungsi Parzen, yaitu g( ) e p (- ). 1
8
Dengan demikian, persamaan yang digunakan pada lapisan pola adalah sebagai berikut: g(x)
e p (-
( x -x i ) ( x - x i ) ) 2σ2
(2)
dengan xAi menyatakan vektor bobot atau vektor latih kelas ke-A urutan ke-i. 3 Lapisan Penjumlahan (Summation Layer) Pada lapisan penjumlahan, setiap pola pada masing-masing kelas dijumlahkan sehingga menghasilkan population density function untuk setiap kelas. Persamaan yang digunakan pada lapisan ini adalah: p(
)p(x|
) (2
d )2 σd
∑i e p (-
(x-x i) (x-x i) ) 2σ2
(3)
dengan : p( ) = peluang kelas A p(x| ) = peluang bersyarat x jika masuk ke dalam kelas A xAi = vektor latih kelas A urutan ke-i = dimensi vektor input d = jumlah pola pelatihan kelas A = jumlah pola pelatihan seluruh kelas = bias atau faktor pemulus σ 4 Lapisan keluaran (output layer) Pada lapisan keluaran, input x akan diklasifikasikan ke kelas A jika nilai paling besar dibandingkan kelas lainnya.
( )
Confusion Matrix Confusion Matrix merangkum jumlah data yang diprediksi benar atau salah oleh mode klasifikasi. Confusion Matrix lebih sering disebut dengan tabel kontingensi seperti yang ditunjukan pada Tabel 3. Tabel 3 adalah Confusion Matrix untuk masalah dua kelas, yang diberi label kelas positif (+) dan kelas negative (-). Oleh karena itu Confusion Matrix berukuran 2 x 2. Jumlah data yang diklasifikasikan dengan benar adalah jumlah diagonal dalam matriks, sedangkan yang lainnya adalah yang salah diklasifikasikan Srinivasulu et al. (2009). Tabel 3 Confusion Matrix Predicted Class + + Actual Class
TP
FN
FP
TN
Keterangan untuk Tabel 3 dinyatakan sebagai berikut : 1
True positive (TP): jumlah data positif yang dengan benar diprediksi oleh model klasifikasi.
9
2 False negative (FN): jumlah data positif yang salah diprediksi sebagai negatif oleh model klasifikasi. 3
False positive (FP): jumlah data negatif yang salah diprediksi sebagai positif oleh model klasifikasi.
4
True negative (TN): jumlah data negatif yang dengan benar diprediksi oleh model klasifikasi
Akurasi adalah rasio antara jumlah data yang dapat diklasifikasikan dengan benar dan total jumlah data. Secara teknis dapat didefinisikan seperti pada Persamaan 6 Kumar dan Rathee (2011). Perhitungan akurasi dinyatakan dalam Persamaan 4. Akurasi =
(4)
METODE Ilustrasi tahapan proses penelitian disajikan dalam diagram alur pada Gambar 8.
Mulai
Pengumpulan data dokumen tumbuhan
Data latih
Praproses
Ektraksi fitur (chi-square)
Dokumen tumbuhan obat Data uji
Klasifikasi PNN
Klasifikasi
Evaluasi
Selesai
Gambar 88Diagram alur penelitian Dokumen Tumbuhan Obat Dokumen tumbuhan obat yang digunakan dalam penelitian ini adalah data dokumen tumbuhan obat yang didapat dari literatur perpustakaan IPB yaitu Tjitrosoepomo (1994) pada buku “ aksonomi Tumbuhan Obat-Obatan” dan Fauzi (2008) pada buku “Panduan Lengkap Manfaat anaman Obat”. Data dokumen
10
tumbuhan obat sebelumnya dalam bentuk teks (hardcopy) dan diubah dalam bentuk file teks softcopy dengan format XML. Dokumen tumbuhan obat ini terdiri atas enam kelas yaitu Apiaceae, Crassulaceae, Euphorbiaceae, Lamiacea, Myrtaceae dan Rutaceae. Jumlah data dokumen tumbuhan obat yang digunakan pada penelitian ini dapat dilihat pada Tabel 4. Spesies-spesies yang digunakan pada penelitian ini dapat dilihat pada Tabel 5. Tabel 4 Jumlah dokumen tumbuhan No. 1 2 3 4 5 6
Nama famili Apiaceae Crassulaceae Euphorbiaceae Lamiacea Myrtaceae Rutaceae
Total dokumen 19 14 17 20 15 16
Tabel 5 Kombinasi data dokumen per famili Nama famili Apiaceae
Crassulaceae Euphorbiaceae
Lamiaceae
Myrtaceae
Nama species Centella asiatica Coriandrum sativum Foeniculum vulgane Cuminum cyminum Apium graveolens Daucus carota Kalanchoe pinnata Eupharbia tirucalli Excoecaria cochinchinensis Jatropha curcas Euphorbia resinifera Mallotus philippinensis Hevea brasiliensis Manihot utilissima Ricinus communis Stilingsia sylvatica Croton eluteri Plectranthus amboinicius Ocimum basilicum Coleus scutellarioides Orthosiphon aristatus Psidium guajava Pimenta officinalis Eugenia aromatica Eucalyptus camaldulensis Syzygium polyanthum Syzygium cumini Melaleuca leucadendron
Jumlah dokumen 8 1 4 2 3 1 14 3 2 4 1 1 2 1 1 1 1 3 3 8 6 6 1 2 1 1 1 2
11
Eugenia cumini
1
Tabel 5 Lanjutan Nama famili Rutaceae
Nama species
Jumlah dokumen 3 1 3 2 1 1 1 1 1 1 1
Murraya paniculata Euodia suaveolens Citrus aurantifolia Citrus hystrix Pilocarpus jaborandi Borosma betulina Citrus amblycarpa Ruta angustifolia Zanthoxylum americanum Ruta graveolens Zanthoxylum clava-herculis *Sumber „ aksonomi umbuhan Obat-obatan‟ Oleh Tjitrosoepomo (1994). *Sumber „Panduan Lengkap Manfaat anaman Obat‟ Oleh Fauzi (2008). *Sumber : Dokumen latih Suganda (2012)
Contoh format dokumen <dok>
1 <etnis>Jawa
Asma Pegagan Centella asiatica Apiaceae saponin, kardenolin <manfaat> <deskripsi> tidak berbatang, dengan batang berongga sebelah dalam dan matahari Praproses Pada tahap praproses, terdapat 3 tahap yaitu lowercasing, tokenisasi dan pembuangan stopwords. Lowercasing adalah proses mengubah huruf non-capital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah pemrosesan teks masukan yang dibagi menjadi unit-unit kecil dapat berupa kata. Stopwords adalah daftar kata yang dianggap tidak memiliki pengaruh yang dominan terhadap suatu penciri suatu dokumen, jika pada dokumen terdapat kata yang terdapat pada daftar maka kata tersebut dibuang sebagai penciri dari suatu dokumen. Stopwords yang digunakan berjumlah 662 kata yang didapatkan dari penelitian sebelumnya Suganda (2012). Dokumen Asli
12
“Biasanya jeruk nipis ditanam di pekarangan atau di kebun, dapat tumbuh pada tanah yang kurang subur, asalkan mudah dapat air dan mendapat sinar matahari “. Dokumen setelah lowercasing “biasanya jeruk nipis ditanam di pekarangan atau di kebun, dapat tumbuh pada tanah yang kurang subur, asalkan mudah dapat air dan mendapat sinar matahari “. Dokumen setelah tokenisasi biasanya jeruk pekarangan atau tumbuh pada subur asalkan dan mendapat
nipis di tanah mudah sinar
ditanam kebun yang dapat matahari
Dokumen setelah dilakukan pembuangan stopwords jeruk nipis ditanam pekarangan tumbuh tanah kurang subur air sinar matahari
di dapat kurang air
kebun mudah
Ekstraksi Fitur Dokumen Menggunakan Chi-Square Tiap dokumen latih akan diekstraksi menggunakan algoritme chi-square dengan nilai alpha (α) 0.1. Penelitian ini menggunakan nilai alpha sebesar 0.1 dengan tujuan jumlah penciri yang dihasilkan lebih sedikit sehingga komputasi lebih cepat dan hanya menghasilkan penciri yang lebih merepresentasikan dari dokumen tersebut. Proses ini bertujuan untuk menghasilkan kata-kata yang akan menjadi penciri dari dokumen tersebut. Setelah tiap dokumen memiliki kata-kata tertentu selanjutya dikelompokan ke dalam kelas atau famili dari dokumen tersebut. Klasifikasi Probalistic Neural Network Data dokumen tumbuhan dibagi menjadi 2 bagian yaitu data latih dan data uji dengan 75% untuk data latih dan 25% data uji per famili. Data latih digunakan sebagai lapisan pola pada algoritme Probalistic Neural Network (PNN) dengan menggunakan algoritme chi-square, sedangkan data uji digunakan untuk melakukan pengujian klasifikasi. Klasifikasi dilakukan menggunakan vektor hasil ekstraksi ciri dokumen uji. Arsitektur PNN terdiri atas lapisan masukan, pola, penjumlahan dan keputusan. Lapisan masukan berupa vektor hasil ekstraksi ciri dari dokumen uji. Pada lapisan pola, digunakan satu model PNN yaitu dengan nilai bias 1. Nilai bias tidak dapat ditentukan secara langsung, tetapi didapatkan melalui hasil percobaan. Selanjutnya menghitung jarak vektor pelatihan ke vektor pengujian sehingga menghasilkan vektor yang mengindikasikan kedekatan input ke vektor pelatihan. Setiap keluaran dari lapisan pola dijumlahkan dengan keluaran dari lapisan pola lainnya yang berada dalam satu kelas, untuk menghasilkan probabilitas vektor keluaran pada lapisan penjumlahan. Lapisan keputusan mengambil nilai maksimum dari vektor keluaran, kemudian menghasilkan nilai dengan rentang 0
13
sampai 1 sebagai nilai probabilitasnya. Lapisan keputusan memiliki enam target kelas yaitu Apiaceae, Crassulaceae, Euphorbiaceae, Lamiacea, Myrtaceae dan Rutaceae. Perhitungan Akurasi Evaluasi dilakukan pada model klasifikasi. Evaluasi terhadap kinerja model pengklasifikasi probalistic neural network dilakukan dengan menghitung persentase ketepatan suatu dokumen masuk ke dalam kelas tertentu. Evaluasi untuk model pengklasifikasi probalistic neural network dinyatakan dalam bentuk confusion matrix. Lingkungan Pengembangan Sistem ini dikembangkan dan diimplementasikan dengan menggunakan perangkat keras dan perangkat lunak sebagai berikut: 1
Perangkat Keras Dell Studio tipe 1457 a Memory RAM 8GB DDR3 b Harddisk 500 GB c Core i7 720QM
2
Perangkat Lunak Sistem Operasi Windows 7 Ultimate 64 bit Xampp-win32-1.7.2 Notepad ++ Web browser Bahasa pemrograman PHP Sphinx
HASIL DAN PEMBAHASAN Pada penelitian ini terdapat enam famili dokumen teks tumbuhan. Setiap famili memiliki jumlah dokumen yang berbeda-beda. Famili yang digunakan pada penelitian adalah Apiaceae, Crassulaceae, Euphorbiaceae, Lamiacea, Myrtaceae dan Rutaceae. Praproses Dokumen yang digunakan, sebelumnya dikonversi dari hardcopy menjadi softcopy dalam bentuk file berekstensi XML (extensible markup language). Semua kata yang terdapat dalam dokumen dilakukan proses lowercasing dengan tujuan tidak ada perbedaan terhadap kata yang sama menggunakan huruf kapital, huruf non-kapital atau kombinasi dari huruf kapital dengan huruf non-kapital. Setelah proses lowercasing proses selanjutnya adalah proses tokenisasi. Hasil dari proses tokenisasi adalah sejumlah kata in-casesensitive yang terdapat pada
14
dokumen tersebut. Kata yang terdapat dalam daftar stopwords akan dihilangkan dari dokumen tersebut sehingga hanya kata-kata yang tidak dalam daftar stopwords yang dapat dijadikan sebagai penciri dari dokumen tersebut. Sehingga jumlah kata dokumen berkurang setelah dilakukan pra-proses. Ekstraksi Fitur Chi-Square Setelah melalui tahap pra-proses selanjutnya dokumen latih akan di ekstraksi menggunakan metode chi-square sehingga menghasilkan penciri-penciri dokumen latih setiap familinya. Setiap dokumen latih akan menghasilkan penciri yang berbeda-beda tergantung dari isi dari dokumen tersebut. Pada penelitian ini proses ekstraksi fitur chi-square menggunakan nilai alpha (α) sebesar 0.1. Jumlah term yang dihasilkan tiap famili dapat dilihat pada Tabel 8. Tabel 6 Komposisi jumlah dokumen tumbuhan No. 1 2 3 4 5 6
Nama famili Apiaceae Crassulaceae Euphorbiaceae Lamiacea Myrtaceae Rutaceae
Jumlah dokumen latih 14 10 12 15 10 12
Pada Tabel 7 kelas Apiaceae memiliki jumlah term yang paling banyak dikarenakan pada kelas tersebut memiliki jumlah dokumen cukup banyak dan jumlah kata pada dokumen latih untuk kelas tersebut cukup banyak pula. Pada tabel terlihat kelas Apiaceae memiliki jumlah kata terbanyak dibandingkan dengan kelas lainnya. Tabel 7 Daftar jumlah kata per famili No.
Nama famili
1 2 3 4 5 6
Apiaceae Crassulaceae Euphorbiaceae Lamiacea Myrtaceae Rutaceae
Jumlah kata seluruh dokumen latih 3545 1861 2778 2446 2201 1800
Jumlah term hasil chi-square 38 31 64 21 29 23
Pada Tabel 8 terlihat bahwa terjadi anomali pada kelas Apiaceae dan kelas Euphorbiaceae jika dibandingkan dengan banyak kata yang terambil, kelas Apiaceae memiliki jumlah kata yang lebih banyak dengan kelas Euphorbiaceae. Sedangkan jika dibandingkan dengan jumlah kata hasil chi-square, kelas Euphorbiaceae memiliki jumlah kata yang lebih banyak dengan kelas Apiaceae. Hal tersebut terjadi karena kata pada tiap dokumen famili Euphorbiaceae lebih sering muncul dibandingkan dengan kata pada tiap dokumen famili Apiaceae yang jarang muncul. Sehingga jumlah kata pada famili Euphorbiaceae memiliki
15
tingkat kepentingan yang cukup besar dibandingkan dengan kata pada famili Apiaceae. Tabel 8 Perbandingan kelas Apiaceae dengan kelas Euphorbiaceae Pembanding Jumlah kata seluruh dokumen latih Jumlah term hasil chi-square
Apiaceae Euphorbiaceae 3545 2778 38 64
Tabel 9 Kombinasi dokumen latih kelas Apiaceae dengan Euphorbiaceae Nama famili Apiaceae
Euphorbiaceae
Nama species Centella asiatica Foeniculum vulgane Cuminum cyminum Apium graveolens Coriandrum sativum Eupharbia tirucalli Jatropha curcas Excoecaria cochinchinensis Euphorbia resinifera Mallotus philippinensis Hevea brasiliensis Manihot utilissima Ricinus communis Stilingsia sylvatica
Jumlah dokumen 8 2 2 1 1 3 2 1 1 1 1 1 1 1
Kandungan kata yang terdapat pada tiap spesies famili Apiaceae sebagai berikut: 1 Spesies Centella asiatica asiatica, baunya, bergantung, bonggol, cahaya, centella, disebut, india, jambu, karangan, lalab, membujur, merayap, padang, penampang, penutup, percabangan, perkebunan, pita, rimpang, roset, sawah, sejajar, selokan, serabut, stolon, sungai, teduh, terdiri dan ujungnya. 2 Spesies Foeniculum vulgane baunya, berlubang, india, letak, letaknya, membujur, percabangan, terdiri. 3 Spesies Cuminum cyminum India dan pita. 4 Spesies Apium graveolens perkebunan 5 Spesies Coriandrum sativum jambu dan terdiri. Kandungan kata yang terdapat pada tiap spesies famili Euphorbiaceae sebagai berikut: 1 Spesies Eupharbia tirucalli baal, benda, beracun, berbahaya, bergetah, buta, cahaya, clavus, ditangkap, euphol, euphorbiaceae, euphorbone, fraktur, frambusia,
16
2
3
4 5 6
7 8
9
herpes, hidung, jengkal, kaca, kapalan, karet, kautschuk, kerusakan, kusta, laktucerol, lalat, letaknya, melemparkan, melintang, membesar, membujur, mengusir, menimbulkan, meracun, nyamuk, pecah, pecahan, pencahar, penebalan, pensil, percabangan, pot, ringan, rongga, senyawaan, sifilis, sitosterol, susu, syaraf, tahi, tampak, tangkainya, taraksasterol, tawar, terpatah, tertusuk, tirucalli dan zoster. Spesies Excoecaria cochinchinensis betina, daging, euphorbiaceae, hutan, memanjang, percabangan, radix dan taman. Spesies Jatropha curcas beracun, bergetah, Betina, cacingan, Euphorbiaceae, kusta, lepra, menjari, pencahar, ringan, sitosterol dan terdiri. Spesies Euphorbia resinifera euphorbiaceae dan malat Spesies Mallotus philippinensis betina, euphorbiaceae, india, memanjang, pecah dan pita. Spesies Hevea brasiliensis betina, euphorbiaceae, karet, letaknya, melemparkan, memanjang, menjari, pecah, sekali, susu dan terdiri. Spesies Manihot utilissima betina, euphorbiaceae, letaknya, membujur, menjari, sekali dan susu Spesies Ricinus communis betina, euphorbiaceae, india, letaknya, menjari, pencahar, sekali, susu, tadi dan terdiri. Spesies Stilingsia sylvatica betina, euphorbiaceae, letaknya, menjari, sekali dan susu.
Berikut penjelasan hasil chi-square pada penelitian ini berdasarkan famili : a Apiaceae Terdapat beberapa term yang dapat menjadi penciri dari famili Apiaceae berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994). yaitu : - berongga - membujur - ujungnya - jambu - bergantungan Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994). - “Terna berumur pendek atau panjang, dengan batang berongga sebelah dalam” - “bergerigi membujur pada permukaannya” - “ujungnya yang melengkung ke dalam” - “berwarna kuning atau keputih-putihan, jarang merah jambu atau lembayung” - “tiap ruang dengan 1 bakal biji yang bergantungan”
17
b Crassulaceae Term yang dihasilkan chi-square dari dokumen latih tidak dapat mencirikan taksonomi dari famili tersebut dikarenakan dokumen latih yang digunakan hanya 1 spesies dan isi dari dokumen tersebut belum mereprentasikan ciri-ciri taksonomi khusus famili Crassulaceae. c Euphorbiaceae Terdapat beberapa term yang dapat menjadi penciri dari famili Euphorbiaceae berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994) yaitu : - getah - susu - menjari Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994) - “Pohon, perdu atau terna, kadang-kadang berupa sukulenta, kebanyakan menghasilkan getah yang berwarna putih seperti susu” - “Daun tersebar, kadang-kadang berhadapan, tunggal atau majemuk menjari” d Lamiacea Term yang dihasilkan chi-square dari dokumen latih tidak dapat mencirikan taksonomi dari famili tersebut dikarenakan dokumen latih yang digunakan belum mereprentasikan ciri-ciri taksonomi khusus famili Lamiacea. e Myrtaceae Terdapat beberapa term yang dapat menjadi penciri dari famili Myrtaceae berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994) yaitu : - berkayu Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994) - “Sebagian besar terdiri atas tumbuhan yang berupa semak-semak atau pohon-pohonan yang berbatang berkayu, jarang sekali berupa terna, dengan daun tunggal tanpa daun penumpu yang duduknya tersebar atau berhadapan” f Rutaceae Terdapat beberapa term yang dapat menjadi penciri dari famili Rutaceae berdasarkan buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994) yaitu : - aromatis Berikut kutipan dari buku “taksonomi tumbuhan obat-obatan” oleh Tjitrosoepomo (1994)
18
-
“Tumbuhan yang berkayu, jarang berupa terna yang aromatis” Klasifikasi Probalistic Neural Network
Hasil klasifikasi menggunakan metode probalistic neural network dengan metode ekstraksi ciri chi-square disajikan dalam diagram batang pada Gambar 9. Nilai akurasi (%) 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0
Akurasi
Famili
Gambar 99Akurasi pengujian Pada Tabel 11 dapat dilihat bahwa famili Crassulaceae memiliki nilai terbesar diantara famili-famili yang lain yaitu dari empat dokumen uji, sistem dapat mengklasifikasikan semua dokumen uji secara benar ke dalam famili Crassulaceae. Hal tersebut dikarenakan pada famili Crassulaceae dokumen uji maupun dokumen latih hanya menggunakan 1 spesies yaitu Kalanchoe pinnata. Famili Rutaceae memiliki nilai terkecil dari empat dokumen uji, sistem hanya dapat tiga dokumen uji secara benar terklasifikasikan kedalam famili Rutaceae. Tabel 10 Hasil evalusi tiap famili Nama Famili Apiaceae Crassulaceae Euphorbiaceae Lamiaceae Myrtaceae Rutaceae
Nilai akurasi (%) 80 100 80 80 80 75
Hasil evaluasi klasifikasi menggunakan algoritme probalistic neural network dengan bobot nilai 1 dan lapisan pola menggunakan ekstraksi ciri chisquare menggunakan nilai nilai alpha (α) 0.1 secara keseluruhan menghasilkan nilai 82.14 %. Hasil evaluasi dalam bentuk confusion matrix dalam dilihat pada Tabel 12.
19
Tabel 11 Confusion Matrix pada klasifikasi Famili
Actual
A C E L M R
A 4 0 0 1 0 0
C 1 4 1 0 0 1
Predicted E L 0 0 0 0 4 0 0 4 0 0 0 0
M 0 0 0 0 4 0
R 0 0 0 0 1 3
Penjelasan hasil klasifikasi probalistic neural network tiap famili : A Famili Apiaceae Berdasarkan Tabel 12 terdapat empat dokumen uji famili Apiaceae yang terklasifikasikan secara benar masuk ke dalam famili Apiaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam famili Crassulaceae. Hal tersebut terjadi dikarenakan famili Apiaceae dan Crassulaceae berada dalam satu divisi yaitu Magnoliophyta (lihat Tabel 13). Tabel 12 Taksonomi famili Apiaceae dan Crassulaceae Kerajaan Divisi Kelas Ordo
Apiaceae Plantae Magnoliophyta Magnoliopsida Apiales
Crassulaceae Plantae Magnoliophyta Eudicots (Core eudicots) Saxifragales
Tabel 13 Perbandingan term penciri famili Apiaceae dan Crassulaceae Term hasil ekstrasi dokumen Membujur Meningkatkan Urat
Term penciri dari famili Apiaceae Membujur Meningkatkan Urat
Term penciri dari famili Crassulaceae Membujur Meningkatkan Urat
Isi dari dokumen uji : - “Batangnya biasanya sangat pendek, bersegi dan beralur membujur” - “akar berkhasiat meningkatkan enzim pada organ pencernaan” - “menurunkan kadar asam urat dalam darah”
20
Gambar 1010Bentuk morfologi daun famili Apiacea dan Crasslucase Gambar 10 menunjukkan salah satu ciri-ciri taksonomi famili Apiacea dan famili Crasslucase yang memiliki kesamaan pada bagian bentuk daun yang bergelombang pada sisinya. Jika dibandingkan dengan Tabel 14 kata penciri yang dihasilkan belum menggambarkan ciri-ciri taksonomi pada famili Apiacea dan famili Crasslucase. Pada Tabel 14 hanya kata penciri „membujur‟ yang dapat dijadikan sebagai ciri-ciri taksonomi untuk famili Apiacea dan famili Crasslucase. Kata ‘urat’ dan ‘meningkatkan’ tidak dapat dijadikan ciri-ciri taksonomi dari tumbuhan walaupun kata tersebut dapat dijadikan penciri dari famili pada penelitian kali ini. B Famili Crassulaceae Berdasarkan Tabel 12 semua dokumen uji famili Crassulaceae dapat diklasifikasikan secara benar. Hal tersebut dikarenakan kombinasi dokumen uji maupun dokumen latih yang digunakan pada famili Crassulaceae hanya menggunakan satu jenis spesies yaitu sosor bebek atau Kalanchoe Pinnatae. C Famili Euphorbiaceae Berdasarkan Tabel 12 terdapat empat dokumen uji famili Euphorbiaceae yang terklasifikasikan secara benar masuk ke dalam famili Euphorbiaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam famili Crassulaceae. Hal tersebut terjadi dikarenakan famili Euphorbiaceae dan Crassulaceae berada dalam satu kelas yaitu Eudicots (lihat Tabel 15). Tabel 14 Taksonomi Euphorbiaceae dan Crassulaceae Kerajaan Divisi Kelas Ordo
Euphorbiaceae Plantae Angiosperms Eudicots (Rosids) Malpighiales
Crassulaceae Plantae Magnoliophyta Eudicots (Core eudicots) Saxifragales
21
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari dokumen tersebut memiliki term yang terdapat pada penciri dari famili Euphorbiaceae dan Crassulaceae. Tabel 15 Perbandingan term dokumen, famili Euphorbiaceae dan Crassulaceae Term hasil ekstrasi dokumen Percabangan
-
Term penciri dari famili Euphorbiaceae Percabangan
Term penciri dari famili Crassulaceae Percabangan
Isi dari dokumen uji : “Pada ujung batang atau dalam percabangan”
Gambar 1111Posisi cabang famili Euphorbiaceae dan famili Crassulaceae. Gambar 11 menunjukkan kesamaan ciri taksonomi yang dimiliki oleh famili Euphorbiaceae dan famili Crassulaceae. Ciri taksonomi terdapat pada bagian cabang tumbuhan. . Jika dibandingkan dengan Tabel 16 kata penciri yang dihasilkan dapat menggambarkan ciri-ciri taksonomi pada famili Euphorbiaceae dan famili Crassulaceae yaitu terletak pada bagian cabang atau percabangannya. D Famili Lamiaceae Berdasarkan Tabel 12 terdapat empat dokumen uji famili Lamiaceae yang terklasifikasikan secara benar masuk ke dalam famili Lamiaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam famili Apiaceae. Hal tersebut terjadi dikarenakan famili Lamiaceae dan Apiaceae berada dalam satu kelas yaitu Magnoliopsida (lihat Tabel 17). Tabel 16 Taksonomi Lamiaceae dan Apiaceae Kerajaan Divisi Kelas Ordo
Lamiaceae Plantae Magnoliophyta Magnoliopsida Lamiales
Apiaceae Plantae Magnoliophyta Magnoliopsida Apiales
22
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari dokumen tersebut memiliki term yang terdapat pada penciri dari famili Lamiaceae dan famili Apiaceae. Tabel 17 Perbandingan term dengan famili Apiaceae dan Lamiaceae Term hasil ekstrasi dokumen Ujungnya
Term penciri dari famili Lamiaceae Ujungnya
Isi dari dokumen uji : - “Bunga berupa ujungnya”
tandan
Term penciri dari famili Apiaceae Ujungnya
yang
keluar
di
Gambar 1212Bunga famili Euphorbiaceae dan famili Crassulaceae Gambar 12 menunjukkan kesamaan ciri taksonomi yang dimiliki oleh famili Euphorbiaceae dan famili Crassulaceae. Ciri taksonomi terdapat pada letak bagian bunga yang keluar pada ujung batang. Jika dibandingkan dengan Tabel 18 kata penciri yang dihasilkan dapat menggambarkan ciri-ciri taksonomi pada famili Euphorbiaceae dan famili Crassulaceae yaitu bagian letak bunga yang terletak pada bagian ujung batang. E Famili Myrtaceae Berdasarkan Tabel 12 terdapat empat dokumen uji famili Myrtaceae yang terklasifikasikan secara benar masuk ke dalam famili Myrtaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam famili Rutaceae. Hal tersebut terjadi dikarenakan famili Myrtaceae dan Rutaceae berada dalam satu kingdom yaitu Plantae (lihat Tabel 18). Tabel 18 Taksonomi Myrtaceae dan Rutaceae Kerajaan Divisi Kelas Ordo
Myrtaceae Plantae Magnoliophyta Magnoliopsida Lamiales
Rutaceae Plantae Angiosperms Sapindales
23
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari dokumen tersebut memiliki term yang terdapat pada penciri dari famili Myrtaceae dan famili Rutaceae. Tabel 19 Perbandingan term dokumen dengan famili Myrtaceae dan Rutaceae Term hasil ekstrasi dokumen uji Kekuning Kuningan Memanjang
Term penciri dari famili myrtaceae Kekuning Kuningan Memanjang
Term penciri dari famili rutaceae Kekuning Kuningan Memanjang
Isi dari dokumen uji : - “Bunga tersusun dalam bulir yang keluar dari ketiak-ketiak daun warna kuning gading” - “berwarna kekuning-kuningan dapat menjadi berwarna hijau” - “Daun tunggal, bertangkai pendek, bangun jorong atau memanjang”
Gambar 1313Buah famili Myrtaceae dan famili Rutaceae Gambar 13 menunjukkan kesamaan ciri taksonomi yang dimiliki oleh famili Myrtaceae dan famili Rutaceae. Ciri taksonomi terdapat pada warna dari buahnya. Jika dibandingkan dengan Tabel 19 kata penciri yang dihasilkan dapat menggambarkan ciri-ciri taksonomi pada famili Myrtaceae dan Rutaceae yaitu kata „kuning‟ yang terdapat pada warna buah dan bentuk daun yang „memanjang‟ pada famili Myrtaceae dan Rutaceae. F Famili Rutaceae Berdasarkan Tabel 12 terdapat tiga dokumen uji famili Rutaceae yang terklasifikasikan secara benar masuk ke dalam famili Rutaceae. Namun, terdapat satu dokumen yang salah klasifikasi dan masuk ke dalam famili Crassulaceae. Hal tersebut terjadi dikarenakan famili Rutaceae dan Crassulaceae berada dalam satu kingdom yaitu Plantae (lihat Tabel 20).
24
Tabel 20 Taksonomi Rutaceae dan Crassulaceae Kerajaan Divisi Kelas Ordo
Rutaceae Plantae Angiosperms Sapindales
Crassulaceae Plantae Magnoliophyta Eudicots (Core) Saxifragales
Dokumen yang mengalami salah klasifikasi dikarenakan isi dari dokumen tersebut memiliki term yang terdapat pada penciri dari famili Rutaceae dan famili Crassulaceae. Tabel 21 Perbandingan term dokumen dengan famili Rutaceae dan Crassulaceae Term hasil ekstrasi dokumen Memanjang Muncul
Term penciri dari famili Rutaceae Memanjang Muncul
Term penciri dari famili Crassulaceae Memanjang Muncul
Isi dari dokumen : - “daun bangun bulat telur atau memanjang” - “Bunga dalam malai dan muncul sesudah daundaunnya”
Gambar 1414Bentuk daun famili Rutaceae dan Crassulaceae. Gambar 14 menunjukkan kesamaan ciri taksonomi yang dimiliki oleh famili Rutaceae dan Crassulaceae. Ciri taksonomi terdapat pada bentuk daun yang bulat dan memanjang. Jika dibandingkan dengan Tabel 21 kata penciri yang dihasilkan dapat menggambarkan ciri-ciri taksonomi pada famili Myrtaceae dan Rutaceae yaitu kata „memanjang‟ yang terdapat pada bentuk daun. Kata „muncul‟ pada Tabel 21 tidak dapat dijadikan ciri-ciri taksonomi namun pada penelitian ini kata tersebut dapat dijadikan penciri dari famili Myrtaceae dan Rutacea. Hasil evaluasi klasifikasi menggunakan algoritme probalistic neural network dengan bobot nilai 1 dan lapisan pola menggunakan ekstraksi ciri chi-square menggunakan nilai nilai alpha (α) 0.1 secara keseluruhan menghasilkan nilai 82.14 %.
25
SIMPULAN DAN SARAN Simpulan Penelitian klasifikasi dokumen tumbuhan obat berbasis famili menggunakan metode chi-square dan probalistic neural network. Metode chisquare dengan nilai alpha 0.1, digunakan untuk menghasilkan ciri-ciri taksonomi tumbuhan dari dokumen tumbuhan obat. Metode PNN dengan nilai bias 1 digunakan untuk klasifikasi dokumen tumbuhan obat. Penelitian ini menghasilkan akurasi sebesar 82.14 % yaitu dari lima dokumen per famili yang diujikan sistem dapat mengklasifikasikan empat dokumen yang sesuai dengan familinya secara benar. Hasil klasifikasi dipengaruhi oleh jumlah kata penciri suatu famili. Jumlah kata penciri dari suatu famili dipengaruhi oleh jumlah kata yang sama pada tiap dokumen latih. Semakin banyak kata yang sama pada tiap dokumen latih semakin besar probabilitas kata terebut menjadi kata penciri. Pada penelitian ini penciri dari suatu famili belum menggambarkan ciri-ciri taksonomi tumbuhan. Hal ini disebabkan banyaknya kata yang sama pada tiap dokumen latih belum menggambarkan ciri-ciri taksonomi tumbuhan. Penelitian ini sudah dapat mengklasifikasikan dokumen tumbuhan obat. Hasil ekstraksi penciri menggunakan metode chi-square pada penelitian ini belum dapat menghasilkan ciri-ciri taksonomi famili. Hal tersebut dikarenakan dokumen latih terdapat banyak kata yang sama pada tiap dokumen yang bukan ciri-ciri taksonomi tumbuhan. Saran Penelitian ini dapat dikembangkan lebih lanjut untuk mendapatkan hasil pengukuran akurasi yang lebih baik. Hal-hal yang dapat dilakukan misalnya: Menambahkan jumlah dokumen latih. 1 2 Menambahkan dokumen dengan jenis famili lain.
DAFTAR PUSTAKA Barnaghi PM, Sahzabi VA, Bakar AA, 2012. A Comparative Study for Various Methods of Classification. Singapura(SG): IACSIT Pr. Damayanti EK, Zuhud EAM, Hikmat A. 2011. Indonesian Tropical Medicinal Plants Diversity: Problems and Challenges in Identification. Department of Forest Resources Conservation and Ecotourism, Bogor(ID): Fakultas Kehutanan, Institut Pertanian Bogor. Goldberg A. 2003. Character Variation in Angiosperm Families. Smithsonian Institution. Vol 47:1-185, 2003.
26
Groombridge B, Jenkins M, 2002. World atlas of biodiversity. Earth’s living resources in the 21st century. California(US):Berkeley University of California Press. Han J, Kamber M. 2006. Data Mining : Concepts and Techniques. Massachusetts(US) : Morgan Kaufman Publishers. Herawan Y. 2011. Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan ChiKuadrat dengan Klasifikasi Naive Bayes [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Kumar V, Rathee N. 2011. Knowledge discovery from database using an integration of clustering and classification. Gurgaon (India) : ITM University. Manning CD, Raghavan P, Schutze H. 2008. Introduction to Information Retrieval. Cambridge (GB): Cambridge University Press. Srinivasulu P, Nagaraju D, Kumar PR, Rao KN. 2009. Classifying the network intrusion attacks using data mining classification methods and their performance comparison. IJCSNS International Journal of Computer Science and Network Security, Vol.9:11-18 No.6, Juni 2009. Suganda R. 2013. Sistem Identifikasi Famili Secara Otomatis Berbasis Teks Menggunakan Dokumen Etnofitomedika [skripsi]. Bogor. Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Tjitrosoepomo Gembong. 1994. Taksonomi Tumbuhan Obat-Obatan. Yogyakarta: Gadjah Mada University Press. Zuhud E A M. 2009. Potensi Hutan Tropika Indonesia sebagai Penyangga Bahan Obat Alam untuk Kesehatan Bangsa. Jurnal Bahan Alam Indonesia. Vol VI:18 No.6, Januari 2009. Lampiran 1 Daftar term kelas Apiaceae Term centella asiatica disebut ujungnya perkebunan membujur roset rimpang bonggol stolon berlubang karangan penutup padang teduh bergantung kronis lalab tenggorokan pita antanan campak
Nilai chi-square 23.81 23.81 17.52 16.70 16.59 14.18 13.83 13.83 10.84 10.84 10.84 10.84 10.84 10.84 10.84 10.84 9.75 7.58 7.58 7.58 7.58 7.58
27
Lampiran 1 Lanjutan Term
Nilai chi-square
india baunya susah serabut sejajar urat meningkatkan asiaticoside thankuniside mual penampang merayap jambu terdiri
5.28 4.73 3.99 3.99 3.99 3.99 3.99 3.99 3.99 3.91 3.91 3.77 3.72 2.98
Lampiran 2 Daftar term kelas Crassulaceae Term kalanchoe pinnata lam lemon diarabinoside kaempferol abuan jurang keabu berbatu toreh bebek sosor pers madagaskar kuncup apel briofilin kaemferol kurz bryophyllum oken germinans cotyledon pinnatum crassulaceae memanjang urat percabangan meningkatkan membujur
Nilai chi-square 35.82 35.82 33.52 31.07 31.07 31.07 25.57 25.57 25.57 25.57 25.57 25.57 25.57 23.68 20.70 20.70 19.78 15.14 15.14 10.79 10.79 10.79 10.79 10.79 10.79 10.79 5.81 5.81 5.81 5.31 2.77
28
Lampiran 3 Daftar term kelas Lamiaceae Term mineral hati pucuk sungai mulas ambeien muncul sawah myoinositol kumis sapofonin kucing aristatus orthosiphon makanan merayap belukar sendiri cacingan mellitus
Nilai chi-square 17.93 17.93 17.93 16.34 12.88 11.56 11.13 9.18 7.01 7.01 7.01 7.01 7.01 7.01 6.28 5.89 4.10 3.67 3.53 3.53
Lampiran 4 Daftar term kelas Euphorbiaceae Term euphorbiaceae betina bergetah beracun susu menjari sekali karet letaknya kautschuk euphol melemparkan laktucerol taraksasterol tawar euphorbone kusta eupharbia pecah tirucalli senyawaan menimbulkan pencahar kerusakan
Nilai chi-square 33.57 22.00 19.17 19.17 17.58 17.58 16.09 16.09 14.31 12.70 12.70 12.70 12.70 12.70 12.70 12.70 12.70 12.70 12.70 12.70
4.48 4.48 4.48 4.48
29
Lampiran 4 Lanjutan Term radix melintang terpatah jengkal pot pensil buta mengusir ditangkap rongga hidung syaraf lalat tahi sifilis baal tampak nyamuk berbahaya meracun herpes zooster clavus fraktur frambusia penebalan lepra kaca kapalan benda tertusuk membesar tangkainya tadi sitosterol pecahan taman ringan percabangan cahaya
Nilai chi-square 4.48 4.48 4.48 4.48 4.48 4.48 4.48 4.48 4.48 4.44 4.44 4.44 3.50 8.95 8.95 8.95 4.84 4.84 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 3.14 2.87
Lampiran 5 Daftar term kelas Myrtaceae Term myrtaceae guajava psidium bercorak
Nilai chi-square 28.43 22.44 22.44 18.99
30
Lampiran 5 Lanjutan Term
Nilai chi-square
daging terlihat srilangka kayunya ukuran maag netral jambu letak hidrat ursolat psidiolat kratogolat oleanolat guajaverin arang memanjang kuningan kekuning
17.48 15.14 15.14 15.14 15.14 13.97 10.79 9.85 6.08 5.81 5.81 5.81 5.81 5.81 5.81 5.81 5.31 3.99 3.80
Lampiran 6 Daftar term kelas Rutaceae Term sitrat citrus sungsang aurantifolia nipis swingle influenza jack berdaun kuningan paniculata diremas ulet luarnya kusam linalin asetat fellandren geranil aromatis memanjang hutan kekuning
Nilai chi-square 19.17 16.09 14.69 12.70 12.70 12.70 8.95 8.95 8.29 5.72 5.72 5.72 4.76 4.76 4.76 4.76 4.76 4.76 4.76 4.76 3.37 2.93 2.87
36
Lampiran 77 Daftar perbedaan morfologi per famili Habit
Leaves
Inflorescences
trees
shrubs
herbs
alternate
opposite
simple
compound
entire
not entire
raceme
spike
panicle
Apiaceae
2
2
1
1
2
2
1
2
1
1
0
1
2
0
1
Crassulaceae
0
1
1
1
2
1
2
1
1
0
0
0
0
0
1
Lamiaceae
2
2
1
2
1
1
0
1
1
2
2
0
2
2
1
Myrtaceae
1
1
0
1
1
1
0
1
2
1
0
1
0
2
0
Rutaceae
1
1
2
1
1
1
1
1
1
1
1
0
1
0
1
Euphorbiaceae
1
1
1
1
2
1
1
1
1
1
1
0
0
1
1
Sumber : Buku “Character Variaton in Angiosperm Families” Goldberg (2003) Keterangan : -
Angka 1 menunjukkan bahwa famili tersebut memiliki ciri-ciri morfologi kriteria pada kolom di atas. Angka 2 menunjukkan bahwa famili tersebut jarang memiliki ciri-ciri morfologi kriteria pada kolom di atas. Angka 0 menunjukkan bahwa famili tersebut tidak memiliki ciri-ciri morfologi kriteria pada kolom di atas.
head solitary flower
cyme