BAB 2 LANDASAN TEORI
2.1 Text Mining Text mining dapat diartikan sebagai penemuan informasi yang baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis mengekstrak informasi dari sumber-sumber yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Hearst, 2003). Sedangkan menurut (Harlian, 2006) text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Text mining biasanya melibatkan proses penataan teks input (biasanya parsing, bersama dengan penambahan beberapa fitur linguistik turunan dan penghilangan beberapa diantaranya, dan penyisipan subsequent ke dalam database), menentukan pola dalam data terstruktur, dan akhirnya mengevaluasi dan menginterpretasi output. Berkualitas tinggi di bidang text mining biasanya mengacu ke beberapa kombinasi relevansi, kebaruan, dan interestingness. Proses text mining yang khas meliputi kategorisasi teks, text clustering, ekstraksi konsep/entitas, produksi taksonomi granular, sentiment analysis, penyimpulan dokumen, dan pemodelan relasi entitas (yaitu, pembelajaran hubungan antara entitas bernama). Pendekatan manual text mining secara intensif dalam laboratorium pertama muncul pada pertengahan 1980-an, namun kemajuan teknologi telah memungkinkan ranah tersebut untuk berkembang selama dekade terakhir. Text mining adalah bidang interdisipliner yang mengacu pada pencarian informasi, pertambangan data, pembelajaran mesin, statistik, dan komputasi linguistik. Dikarenakan kebanyakan informasi (perkiraan umum mengatakan lebih dari 80%) saat ini disimpan sebagai teks, text mining diyakini memiliki potensi nilai komersial tinggi (Bridge, 2011).
Universita Sumatera Utara
5
Menurut Saraswati (2011), saat ini text mining telah mendapat perhatian dalam berbagai bidang diantaranya : 1. Aplikasi keamanan Banyak paket perangkat lunak text mining dipasarkan terhadap aplikasi keamanan, khususnya analisis plain text seperti berita internet. Hal ini juga mencakup studi enkripsi teks. 2. Aplikasi biomedis Berbagai aplikasi text mining dalam literatur biomedis telah disusun. Salah satu contohnya adalah PubGene yang mengkombinasikan text mining biomedis dengan visualisasi jaringan sebagai sebuah layanan Internet. Contoh lain text mining adalah GoPubMed.org. Kesamaan semantik juga telah digunakan oleh sistem text mining, yaitu, GOAnnotator. 3. Perangkat Lunak dan Aplikasi Departemen riset dan pengembangan perusahaan besar, termasuk IBM dan Microsoft, sedang meneliti teknik text mining dan mengembangkan program untuk lebih mengotomatisasi proses pertambangan dan analisis. Perangkat lunak text mining juga sedang diteliti oleh perusahaan yang berbeda yang bekerja di bidang pencarian dan pengindeksan secara umum sebagai cara untuk meningkatkan performansinya. 4. Aplikasi Media Online Text mining sedang digunakan oleh perusahaan media besar, seperti perusahaan Tribune, untuk menghilangkan ambigu informasi dan untuk memberikan pembaca dengan pengalaman pencarian yang lebih baik, yang meningkatkan loyalitas pada site dan pendapatan. Selain itu, editor diuntungkan dengan mampu berbagi, mengasosiasi dan properti paket berita, secara signifikan meningkatkan peluang untuk menguangkan konten. 5. Aplikasi Pemasaran Text mining juga mulai digunakan dalam pemasaran, lebih spesifik dalam analisis manajemen hubungan pelanggan. Coussement dan Poel (2008) menerapkannya untuk meningkatkan model analisis prediksi untuk churn pelanggan (pengurangan pelanggan).
Universita Sumatera Utara
6
6. Sentiment Analysis Sentiment Analysis mungkin melibatkan analisis dari review film untuk memperkirakan berapa baik review untuk sebuah film. Analisis semacam ini mungkin memerlukan kumpulan data berlabel atau label dari efektifitas katakata. Sebuah sumber daya untuk efektivitas kata-kata telah dibuat untuk WordNet. 7. Aplikasi Akademik Masalah text mining penting bagi penerbit yang memiliki database besar untuk mendapatkan informasi yang memerlukan pengindeksan untuk pencarian. Hal ini terutama berlaku dalam ilmu sains, di mana informasi yang sangat spesifik sering terkandung dalam teks tertulis. Oleh karena itu, inisiatif telah diambil seperti Nature’s proposal untuk Open Text Mining Interface (OTMI) dan Health’s common Journal Publishing untuk Document Type Definition (DTD) yang akan memberikan isyarat semantik pada mesin untuk menjawab pertanyaan spesifik yang terkandung dalam teks tanpa menghilangkan barrier penerbit untuk akses publik. Sebelumnya, website paling sering menggunakan pencarian berbasis teks, yang hanya menemukan dokumen yang berisi kata-kata atau frase spesifik yang ditentukan oleh pengguna. Sekarang, melalui penggunaan web semantik, text mining dapat menemukan konten berdasarkan makna dan konteks (daripada hanya dengan kata tertentu). Text mining juga digunakan dalam beberapa filter email spam sebagai cara untuk menentukan karakteristik pesan yang mungkin berupa iklan atau materi yang tidak diinginkan lainnya. Dengan text mining tugas-tugas yang berhubungan dengan penganalisaan teks dengan jumlah yang besar, penemuan pola serta penggalian informasi yang mungkin berguna dari suatu teks dapat dilakukan. Sebagai bentuk aplikasi dari text mining, sistem klasifikasi berita menggunakan berita sebagai sumber informasi dan informasi klasifikasi sebagai informasi yang akan diekstrak dari sumber informasi. Informasi klasifikasi dapat berbentuk angkaangka probabilitas, set aturan atau bentuk lainnya. Walaupun inti dari suatu sistem klasifikasi adalah tahap penemuan pola (pattern discovery) namun secara lengkap proses text mining dibagi menjadi 3 tahap utama, yaitu proses awal terhadap teks (text preprocessing), transformasi teks ke dalam bentuk antara
Universita Sumatera Utara
7
(text transformation/feature generation), dan penemuan pola (pattern discovery). (Even dan Zohar, 2002). Masukan awal dari proses ini adalah suatu data teks dan menghasilkan keluaran berupa pola sebagai hasil interpretasi.
2.1.1 Text Preprocessing Tahapan awal dari text mining adalah text preprocessing yang bertujuan untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan pada tahapan berikutnya. Beberapa contoh tindakan yang dapat dilakukan pada tahap ini, mulai dari tindakan yang bersifat kompleks seperti part of speech (pos) tagging, parse tree, hingga tindakan yang bersifat sederhana seperti proses parsing sederhana terhadap teks, yaitu memecah suatu kalimat menjadi sekumpulan kata. Selain itu pada tahapan ini biasanya juga dilakukan case folding, yaitu pengubahan karakter huruf menjadi huruf kecil. Proses part of speech melakukan parsing terhadap seluruh kalimat dalam teks kemudian memberikan peran kepada setiap kata, misalnya : petani (subyek) pergi (predikat) ke (kata hub) sawah (keterangan). Hasil dari part of speech tagging dapat digunakan untuk parse tree, di mana masing-masing kalimat berdiri sebagai sebuah pohon mandiri. Untuk proses parsing sederhana tidak dibangun parse tree seperti cara sebelumnya. Pada proses parsing sederhana sistem akan memecah teks menjadi sekumpulan kata-kata, yang kemudian akan dibawa sebagai input untuk tahap berikutnya pada proses text mining.
2.1.2 Text Transformation (feature generation) Pada tahap ini hasil yang diperoleh dari tahap text preprocessing akan melalui proses tranformasi. Adapun proses transformasi ini dilakukan dengan mengurangi jumlah katakata yang ada dengan penghilangan stopword dan juga dengan mengubah kata-kata ke dalam bentuk dasarnya (stemming). Stopword adalah kata-kata yang bukan merupakan ciri (kata unik) dari suatu dokumen seperti kata sambung, kata kepunyaan. Memperhitungkan stopword pada transformasi teks akan membuat keseluruhan sistem text mining bergantung kepada faktor bahasa. Hal ini menjadi kelemahan dari proses penghilangan stopword. Namun proses penghilangan stopword tetap digunakan karena proses ini akan sangat
Universita Sumatera Utara
8
mengurangi beban kerja system. Dengan menghilangkan stopword dari suatu teks maka sistem hanya akan memperhitungkan kata-kata yang dianggap penting. Stemming adalah contoh tindakan lain yang dapat dilakukan pada tahap transformasi teks. Stemming adalah proses untuk mereduksi kata ke bentuk dasarnya Sedangkan menurut Tala (2003) Stemming adalah suatu proses yang menyediakan suatu pemetaan antara berbagai kata dengan morfologi yang berbeda menjadi satu bentuk dasar (stem). Kata yang memiliki bentuk dasar sama walaupun imbuhannya berbeda seharusnya memiliki kedekatan arti. Disamping itu juga, proses stemming akan sangat mengurangi jumlah dan beban database. Jika setiap kata disimpan tanpa melalui proses stemming, maka satu macam kata dasar saja akan disimpan dengan berbagai macam bentuk yang berbeda sesuai dengan imbuhan yang mungkin melekatinya. Hal ini sangat berbeda jika kita menerapkan proses stemming pada tahap ini, satu kata dasar hanya akan disimpan sekali walaupun mungkin kata dasar tersebut pada sumber data sudah berubah dari bentuk aslinya dan mendapatkan berbagai macam imbuhan. Proses stemming dan penghilangan stopword dapat digunakan secara mandiri atau tergabung, dimana dilakukan proses penghilangan stopword terlebih dahulu yang diikuti dengan proses stemming. Hal ini dilakukan untuk menemukan pola dari teks dalam berita tersebut.
2.1.3 Pattern Discovery Tahap penemuan pola atau pattern discovery adalah tahap terpenting dari seluruh proses text mining. Tahap ini berusaha menemukan pola atau pengetahuan dari keseluruhan teks. Seperti yang disebutkan dalam bab sebelumnya bahwa dalam data/text mining terdapat dua teknik pembelajaran pada tahap pattern discovery ini, yaitu unsupervised dan supervised learning. Adapun perbedaan antara keduanya adalah pada supervised learning terdapat label atau nama kelas pada data latih (supervisi) dan data baru diklasifikasikan berdasarkan data latih. Sedangkan pada unsupervised learning tidak terdapat label atau nama kelas pada data latih, data latih dikelompokkan berdasarkan ukuran kemiripan pada suatu kelas. Berdasarkan keluaran dari fungsi, supervised learning dibagi menjadi 2, regresi dan klasifikasi. Regresi terjadi jika output dari fungsi merupakan nilai yang kontinyu, sedangkan klasifikasi terjadi jika keluaran dari fungsi adalah nilai tertentu dari suatu
Universita Sumatera Utara
9
atribut tujuan (tidak kontinyu). Tujuan dari supervised learning adalah untuk memprediksi nilai dari fungsi untuk sebuah data masukan yang sah setelah melihat sejumlah data latih.
2.1 Klasifikasi Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk memperkirakan kelas yang tidak diketahui dari suatu objek. Dalam pengklasifikasian data terdapat dua proses yang dilakukan yaitu: 1. Proses training Pada proses training digunakan training set yang telah diketahui label-labelnya untuk membangun model atau fungsi. 2. Proses testing Untuk mengetahui keakuratan model atau fungsi yang akan dibangun pada proses training, maka digunakan data yang disebut dengan testing set untuk memprediksi label-labelnya.
Gambar 2.1 Tahapan Proses Klasifikasi Sumber: http://www.informatika.unsyiah.ac.id/tfa/dm/DM-Praktikum-Decision-Tree.pdf
Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediksi trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk kategori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Misalnya model klasifikasi bisa dibuat untuk mengelompokkan aplikasi peminjaman pada bank apakah berisiko atau aman, sedangkan model prediksi bisa dibuat untuk memprediksi pengeluaran untuk membeli peralatan komputer dari pelanggan potensial berdasarkan pendapatan dan lokasi tinggalnya.
Universita Sumatera Utara
10
Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas sampel yang tidak berlabel, atau menguji nilai atau rentang nilai dari suatu atribut. Klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai-nilai diskrit atau nominal, sedangkan regresi digunakan untuk mempediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan penggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction. Klasifikasi merupakan penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifikasi telah banyak ditemui dalam berbagai aplikasi. Sebagai contoh, pendeteksian pesan email, spam berdasarkan header dan isi atau mengklasifikasikan galaksi berdasarkan bentuk-bentuknya. Data input untuk klasifikasi adalah koleksi record. Setiap record dikenal sebagai instance atau contoh yang ditentukan oleh sebuah tuple (x,y). Dimana x adalah himpunan atribut dan y adalah atribut tertentu, yang dinyatakan sebagai label class (juga dikenal sebagai kategori atau atribut target). Klasifikasi adalah tugas pembelajaran sebuah fungsi target f yang memetakan setiap himpunan atribut x ke salah satu label kelas y yang telah di definisikan sebelumnya. Fungsi target juga di kenal secara informal sebagai model klasifikasi. Model klasifikasi berguna untuk keperluan sebagai berikut : 1. Pemodelan Deskriptif Model klasifikasi dapat bertindak sebagai alat penjelas untuk membedakan objek objek dari kelas kelas yang berbeda. Sebagai contoh untuk para ahli Biologi, model deskriptif yang meringkas data. 2. Pemodelan Prediktif Model klasifikasi juga dapat di gunakan untuk memprediksikan label kelas dari record yangn tidak diketahui. Seperti pada gambar 2 tampak sebuah model klasifikan dapat dipandang sebagai kotak hitam yang secara otomatis memberikan sebuah label ketika dipresentasikan dengan himpunan atribut dari record yang tidak di ketahui.
Universita Sumatera Utara
11
Input
Classification model
Attribut set (x)
Output Class label (y)
Gambar 2.2 Klasifikasi sebagai pemetaan sebuah himpunan atribut input x ke dalam label class-nya Beberapa teknik klasifikasi yang digunakan adalah decision tree classifier, rulebased classifier, neural-network, support vector machine, dan naïve bayes classifier, Setiap teknik menggunakan algoritme
pembelajaran untuk mengidentifikasi model
yang memberikan hubungan yang paling sesuai antara himpunan atribut dan label kelas dari data input. Pendekatan umum yang digunakan dalam masalah klasifikasi adalah, pertama,training set berisi record yang mempunyai label kelas yang diketahui haruslah tersedia . Training set digunakan untuk membangun model klasifikasi , yang kemudian diaplikasikan ke test set, yang berisi record-record dengan label kelas yang tidak di ketahui. Dalam
klasifikasi,
terdapat
target
variabel
kategori.
Sebagai
contoh,
penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh lain klasifikasi dalam bisnis dan penelitian adalah: a. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan. b. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk. c. Mendiagnosa penyakit seorang pasien untuk mendapatkan termasuk kategori apa. Klasifikasi dokumen adalah proses pengelompokan dokumen sesuai dengan kategori yang dimilikinya. Klasifikasi dokumen merupakan masalah yang mendasar namun sangat penting karena manfaatnya cukup besar mengingat jumlah dokumen yang ada setiap hari semakin bertambah. Sebuah dokumen dapat dikelompokkan ke dalam kategori tertentu berdasarkan kata-kata dan kalimat-kalimat yang ada di dalam dokumen tersebut. Kata atau kalimat yang terdapat di dalam sebuah dokumen memiliki makna
Universita Sumatera Utara
12
tertentu dan dapat digunakan sebagai dasar untuk menentukan kategori dari dokumen tersebut.
2.3 Naïve Bayes Classifier Naïve bayes klasifikasi merupakan metode terbaru yang digunakan untuk memprediksi probabilitas.Algoritma ini memanfaatkan teori probabilitas yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Dua kelompok peneliti, satu oleh pantel dan Lin, dan yang lain oleh Microsoft Research memperkenalkan metode statistik bayesian. Tetapi yang membuat naïve bayesian ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Banyak aplikasi ini menghubungkan antara atribut set dan variabel kelas yang non deterministic. Dengan kata lain, label kelas test record tidak dapat diprediksi dengan peristiwa tertentu meski atribut set identik dengan beberapa contoh training. Situasi ini makin meningkat karena noisy data atau kehadiran
factor confouding
tertentu yang mempengaruhi klasifikasi tetapi tidak termasuk di dalam analisis. Sebagai contoh, perhatikan tugas memprediksi apakah seseorang beresiko terkena penyakit hati berdasarkan diet yang dilakukan dan olahraga teratur. Meski mempunyai pola makan sehat dan melakukan olahraga teratur, tetapi masih beresiko terkena penyakit hati karena faktor faktor lain seperti keturunan, merokok, dan penyalahgunaan alkohol. Untuk menentukan apakah diet sehat dan olahraga teratur yang dilakukan sesorang adalah cukup menjadi subyek interpretasi, yang akan memperkenalkan ketidakpastian pada masalah pembelajaran. Naïve Bayes merupakan model penyedarhanaan dari metode Bayes. Naïve Bayes inilah yang digunakan di dalam macine learning sebagai metode untuk mendapatkan hipotesis untuk suatu keputusan. Naive Bayesian Classifier adalah metode classifier yang berdasarkan probabilitas dan Teorema Bayesian dengan asumsi bahwa setiap variabel X bersifat bebas (independent). Dengan kata lain, Naïve Bayesian Classifier mengansumsikan bahwa keberadaan sebuah atribut (variabel) tidak ada kaitannya dengan beradaan atribut yang lain. Jika diketahui X adalah data sampel dengan klas (label) yang tidak diketahui, H merupakan hipotesa bahwa X adalah data dengan klas (label) C, P(H) adalah peluang dari hipotesa H, P(X) adalah peluang data sampel yang
Universita Sumatera Utara
13
diamati, maka P(X|H) adalah peluang data sampel X, bila diasumsikan bahwa hipotesa H benar (valid). Karena asumsi atribut tidak saling terkait (conditionally independent), maka P(X|Ci) dapat didekati dengan cara: n
P (X|Ci) = ∏ P(Xk|Ci) k=1
Jika P(X|Ci) diketahui maka klas dari data sampel X dapat didekati dengan menghitungg P(X|Ci)*P(Ci). Klas Ci dimana P(X|Ci)*P(Ci) maksimum adalah klas dari sampel X. Naïve bayes classifier memiliki asumsi bahwa hubungan antar atribut adalah saling bebas. Naïve bayes classifier memiliki beberapa keuntungan dan kelemahan yaitu diantaranya : Keuntungan : a. Hasilnya cukup baik untuk sebagian besar kasus dan mudah diimplementasikan. b. Bila asumsi saling bebas terpenuhi, maka tingkat akurasinya sangat tinggi Kelemahan : a. Adanya asumsi saling bebas antar atributnya terkadang akan menurunkan tingkat akurasi. b. Biasanya dalam kehidupan nyata selalu ada hubungan antar atribut sehingga asumsi saling bebas menjadi tidak terpenuhi dan keterkaitan tersebut tidak dapat dimodelkan oleh naïve bayes classifier. c. Perkiraan kemungkinan class yang tidak akurat. d. Batasan atau threshold harus ditentukan secara manual bukan secara analitis.
2.4 Naïve Bayes Classifier untuk Klasifikasi Dokumen Naïve bayes merupakan salah satu metode machine learning yang menggunakan perhitungan probabilitas. Konsep dasar yang digunakan oleh Naïve Bayes adalah Teorema Bayes, yaitu probabilitas p(C=ci|D=dj), yaitu probabilitas kategori ci jika diketahui dokumen dj. Klasifikasi dilakukan untuk menentukan kategori c ε C dari dokumen d ε D dimana C = {c1,c2,c3,…,ci} dan D = {d1,d2,d3,…dj}. Penentuan dari kategori sebuah dokumen dilakukan dengan mencari nilai maksimum dari p(C=ci|D=dj)
Universita Sumatera Utara
14
pada P={p(C=ci|D=dj)} | c ε C dan d ε D}. Nilai probabilitas p(C=ci|D=dj) dapat dihitung dengan persamaan : (
p(C=ci|D=dj) =
⋂
)
( (
=
) |
) (
(
)
)
Dengan p(D=dj|C=ci) merupakan nilai probabilitas dari kemunculan dokumen dj jika diketahui dokumen tersebut berkategori ci, p(C=ci) adalah nilai probabilitas kemunculan kategori ci, dan p(D=dj) adalah nilai probabilitas kemunculan dokumen dj. Naïve Bayes menganggap sebuah dokumen sebagai kumpulan dari kata-kata yang menyusun dokumen tersebut, dan tidak memperhatikan urutan kemunculan kata pada dokumen. Sehingga perhitungan probabilitas p(D=dj|C=ci) dapat dianggap sebagai hasil perkalian dari probabilitas kemunculan kata-kata pada dokumen dj. Perhitungan probabilitas p(C=ci|D=dj) dapat dituliskan sebagai berikut :
p(C=ci|D=dj) =
dengan ∏
∏
|
( (
,
,
)
(
,…
,…
) )
(wk |C = ci) ada lah hasil perkalian dari probabilitas kemunculan semua
kata pada dokumen dj. Proses klasifikasi dilakukan dengan membuat model probabilistic dari dokumen training, yaitu dengan menghitung nilai p(wk|c). Untuk wkj diskritdengan wkj ε V = {v1,v2,v3,…,vm} maka p(wk|c) dicari untuk seluruh kemungkinan nilai wkj dan didapatkan dengan melakukan perhitungan : (
P(wk = wkj|c) =
. ) ( )
dan p(c) =
( ) | |
Universita Sumatera Utara
15
dengan Db(wk = wkj.c) adalah fungsi yang mengembalikan jumlah dokumen b pada kategori c yang memilki nilai kata wk=wkj, Db(c) adalah fungsi yang mengembalikan jumlah dokumen b yang memiliki kategori c, dan |D| adalah jumlah seluruh training dokumen. Persamaan Db(wk = wkj.c) sering dikombinasikan dengan Laplacian Smoothing untuk mencegah persamaan mendapatkan nilai 0, yang dapat mengganggu hasil klasifikasi secara keseluruhan. Sehingga persamaan Db(wk = wkj.c) dituliskan sebagai : (
P(wk = wkj|c) =
. ) ( ) | |
dengan |V| merupakan jumlah kemungkinan nilai dari wkj. Pemberian kategori dari sebuah dokumen dilakukan dengan memilih nilai c yang memilki nilai p(C=ci|D=dj) maksimum, dan dinyatakan dengan : (wk |C) x p(c)
c* =arg max p ∏ cϵC
Kategori c* merupakan kategori yang memiliki nilai p(C=ci|D=dj) maksimum. Nilai p(D=dj) tidak mempengaruhi perbandingan karena untuk setiap kategori nilainya akan sama. Berikut ini gambaran proses klasifikasi dengan algoritma Naïve Bayes : Learner : Untuk setiap kategori : a. Hitung p(ci) Training data
b. Hitung p(wk|ci) Untuk setiap kata wk pada model
Model probabilistik (classifier)
Classifier : a. Hitung ( ) ∏
(wk |ci) untuk
setiap kategori Testing data
b. Tentukan kategori dengan nilai ( )∏
Kategori dokumen
(wk |ci) maksimal
Gambar 2.3 Tahapan Proses Kalsifikasi Dokumen dengan Naïve Bayes
Universita Sumatera Utara
16
2.5 Penelitian Terdahulu Terdapat beberapa riset yang telah dilakukan oleh banyak peneliti yang berkaitan dengan penelitian yang penulis lakukan diantara penelitian tersebut yaitu : Nurani et al (2007) menjelaskan implementasi naive bayes classifier pada program bantu penentuan buku referensi matakuliah menghasilkan nilai akurasi 69%. Dimana perpustakaan merupakan bagian yang penting dari suatu Universitas karena menyediakan buku-buku referensi. Kesulitan yang terjadi adalah ketika perpustakaan harus mengidentifikasi buku-buku referensi tersebut sesuai dengan matakuliahnya. Ada beberapa buku yang sering dijadikan referensi bersama atas beberapa matakuliah. Ada juga buku-buku yang dijadikan referensi tunggal suatu matakuliah, tetapi bahasan materi matakuliah yang bersangkutan tidak dibahas secara optimal dalam buku referensi tersebut. Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi dan disusun berdasarkan buku-buku referensi utama dan referensi pendukung dari matakuliah tersebut. Proses klasifikasi akan dilakukan menggunakan metodeNaiue BayesianClassifier (NBC).
Dalammelaksanakan tugasnya untuk mengklasifikasikan
daftar isi buku referensi sistem dipengaruhi oleh berbagai faktor seperti pola data dan jumlah data training. Indranandita et al, (2008) menjelaskan sistem klasifikasi dan pencarian jurnal dengan menggunakan metode naive bayes dan vector space model menghasilkan akurasi sebesar 64%. Dimana kebutuhan konsumen terhadap informasi dalam bentuk jurnal atau artikel ilmiah semakin meningkat, sehingga pengelompokan jurnal dibutuhkan untuk mempermudah pencarian informasi. Topik jurnal diharapkan dapat mewakili isi jurnal, tanpa harus membaca secara keseluruhan. Dalam kenyataannya, pengelompokan jurnal yang mengacu topik/kategori tertentu sulit dilakukan jika hanya mengandalkan query biasa. Sistem klasifikasi dan pencarian jurnal dengan metode Naive Bayes dan Vector Space Model dengan pendekatan Cosine diharapkan membantu pengguna dalam penentuan topik/kategori dan menghasilkan daftar jurnal berdasarkan urutan tingkat kemiripan. Destuardi & Sumpeno (2009) menjelaskan klasifikasi emosi untuk teks bahasa Indonesia menggunakan metode naive bayes. Dimana komunikasi dapat dilakukan dari informasi verbal dan non-verbal, verbal dapat berupa tulisan yang diperoleh dari kata, kalimat, paragraf dan sebagainya untuk penggalian informasi teksnya menggunakan
Universita Sumatera Utara
17
klaisifikasi teks. Pada proses klasifikasi itu akan digunakan data set yang telah diketahui kelas emosinya yaitu jijik, malu, marah, sedih, senang, dan takut dengan menggunakan metode Naïve Bayes dan Naïve Bayes Multinomial. Akan dilihat sejauh mana kedua metode itu dapat mengklasifikasikan data emosi berbahasa indonesia. Dari hasil percobaan yang dilakukan dapat ditarik kesimpulan bahwa Modifikasi data dapat meningkatkan kemampuan mesin mengklasifikasi data teks emosi berbahasa indonesia. Metode multinomial naïve bayes lebih baik dari metode naïve bayes untuk klasifikasi teks berbahasa Indonesia. Dengan rasio 0,8 yang dihasilkan F-measure tinggi 62,15 untuk multinomial naïve bayes menggunakan data asli. Hasil klasifikasi mengggunakan metode multinomial naïve bayes dan naïve bayes tidak memberikan perbaikan yang signifikan saat rasio data 0,5 untuk percobaan DataNot. Samodra et al, (2009) menjelaskan klasifikasi dokumen teks berbahasa Indonesia dengan menggunakan naïve bayes. Dimana penyebaran informasi dalam bentuk dokumen digital telah mengalami pertumbuhan yang sangat pesat. Dengan menggunakan metode klasifikasi teks, maka kumpulan dokumen yang jumlahnya sangat besar tersebut dapat diorganisir sedemikian rupa sehingga dapat mempermudah dan mempercepat pencarian informasi yang dibutuhkan. Eksperimen ditujukan untuk menghasilkan dokumen teks berbahasa Indonesia dengan menggunakan metode Naïve Bayes. Uji coba dilakukan dengan menggunakan sampel dokumen teks yang dimabil dari sebuah media massa elektonik berbasis web. Hasil eksperimen menunujukkan bahwa metode Naïve Bayes dapat digunakan secara efektif untuk menghasilkan dokumen teks berbahasa Indonesia. Hal ini terlihat dari hasil eksperimen yaitu dengan porsi dokumen training yang kecil (20%) nilai akurasinya dapat mencapai 83,57 % dan terus meningkat hingga 87,63 % sesuai dengan peningkatan porsi dokumen training. Trisedya & Jai (2009) menjelaskan klasifikasi dokumen menggunakan algoritma naive bayes dengan penambahan parameter probabilitas parent category dapat meningkatkan akurasi klasifikasi dokumen teks dengan mengurangi kesalahan klasifikasi antar dokumen yang memiliki domain yang berbeda. Penambahan jumlah fitur yang digunakan untuk membangun probabilitas yang ada mempengaruhi hasil klasifikasi. Akurasi menggunakan 10000 fitur kata menghasilkan 61,77% untuk klasifikasi menggunakan naive bayes dan parent category sedangkan 60,49% menggunakan naive bayes saja.
Universita Sumatera Utara
18
Hamzah (2012) menjelaskan klasifikasi teks dengan Naïve Bayes Classifier (Nbc) untuk pengelompokan teks berita dan abstract akademis menghasilkan akurasi yang lebih tinggi maksimal 91% dibandingkan dengan dokumen akademik maksimal 82%. Dimana perkembangan informasi teks digital telah tumbuh sangat cepat. Saat ini diperkirakan 80% teks digital dalam bentuk tidak terstruktur. Tingginya volume dokumen teks ini dipicu oleh aktivitas dari berbagai sumber berita dan aktivitas akademis dari kegiatan riset, konferensi dan pertemuan ilmiah yang makin meningkat. Kebutuhan analisis text mining sangat diperlukan dalam menangani teks yang tidak terstruktur tersebut. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai cara pendekatan antara lain pendekatan probabilistic, support vector machine , dan artificial neural network, atau decision tree classification. Metode probabilistic Naïve Bayes Classifier (NBC) memiliki beberapa kelebihan kesederhanaan dalam komputasinya. Namun metode ini memiliki kelemahan dalam asumsi yang sulit dipenuhi, yaitu independensi feature kata. Penelitian ini mengkaji kinerja NBC untuk kategorisasi teks berita dan teks akademis. Penelitian menggunakan data 1000 dokumen berita dan 450 dokumen abstrak akademik. Seleksi kata dengan minimal muncul pada 4 atau 5 dokumen memberikan akurasi yang paling tinggi.
2.6 Perbedaan dengan Riset Lain Dalam beberapa riset yang dilakukan peneliti sebelumnya, terdapat beberapa perbedaan riset yang akan dilakukan oleh penulis. Riset yang dilakukan penulis dalam klasifikasi naïve bayes yaitu menggunakan sub parent category dan parent category dari suatu kategori dalam proses training dan testing untuk menghasilkan nilai akurasi dari klasifikasi dokumen.
2.7 Kontribusi Riset Dalam penelitian ini, klasifikasi dengan metode naïve bayes menggunakan sub parent category dan parent category dari suatu kategori pada proses training dan testing diharapkan dapat meningkatkan nilai akurasi untuk klasifikasi dokumen.
Universita Sumatera Utara