BAB II TINJAUAN PUSTAKA
Bab ini membahas teori-teori penunjang yang mendasari pembahasan masalah, yaitu mengenai pengertian dan konsep Information Retrieval, Text Mining, konsep peringkasan teks otomatis, struktur dan morfologi Bahasa Indonesia, langkah-langkah penyelesaian masalah dengan metode Fuzzy logic dan Fuzzy C-Means, serta evaluasi hasil akhir ringkasan. 2.
Bab 2
2.
2.1. State of The Art Peringkasan dengan metode Fuzzy Logic untuk dokumen berbahasa Inggris telah banyak dilakukan pada penelitian sebelumnya. Sementara penggunaan metode Fuzzy C-Means sampai saat ini masih belum pernah dilakukan. Penelitian kali ini bertujuan untuk melakukan peringkasan teks otomatis pada dokumen berbahasa Indonesia dengan membandingkan metode Fuzzy Logic dan Fuzzy C-Means dalam melakukan optimalisasi hasil ringkasan. Berikut ini beberapa hasil penelitian dalam peringkasan teks otomatis. Penelitian berjudul Fuzzy Logic Based Method for Improving Text Summarization bertujuan untuk membandingkan metode Fuzzy Logic dengan metode GSM untuk melakukan optimalisasi hasil ringkasan. Penelitian ini menggunakan 8 buah scoring feature. Berdasarkan penelitian tersebut Fuzzy Logic berhasil menggungguli metode GSM dan baseline. Penelitian tersebut dilakukan oleh mahasiswa Suan Dusit Rajabhat University dan mahasiswa Universiti Teknologi Malaysia. Penelitian berjudul Aplikasi Peringkasan Teks Otomatis Berbasis Web Menggunakan Algoritma Hill Climbing. Penelitian dilakukan oleh mahasiswa Jurusan Teknik Informatika, Fakultas Ilmu Komputer, Universitas Mercu Buana. Sistem yang dapat membantu pembaca dalam membuat ringkasan dari suatu artikel secara otomatis dengan melakukan pembobotan kata kunci, kalimat dan algoritma pencarian Hill Climbing.
5
Penelitian berjudul Pembobotan Fitur Pada Peringkasan Teks Bahasa Indonesia Menggunakan Algoritma Genetika dilakukan oleh mahaiswa Sekolah Pascasarjana Institut Pertanian Bogor. Penelitian ini menggunakan beberapa fitur teks dalam melakukan peringkasan teks dokumen seperti posisi kalimat, positive keyword, negative keyword, kemiripan antar-kalimat, kalimat yang menyerupai judul, kalimat yang mengandung nama entiti, kalimat yang mengandung data numerik, koneksi antar kalimat, penjumlahan bobot koneksi antar-kalimat, dan kalimat semantik. Fitur teks kalimat semantik menggunakan teknik singular value decomposition (SVD). Penentuan bobot dari tiap fitur teks menggunakan teknik algoritma genetika. Penelitian berjudul Peringkasan Dokumen Berita Bahasa Indonesia Menggunakan Algoritma Genetika telah dilakukan oleh mahasiswa Ilmu Komputer Universitas Brawijaya. Dari hasil penelitian nilai Crossover Rate dan Mutation Rate, untuk mendapatkan nilai akurasi tertinggi digunakan nilai Crossover Rate 0.25 dengan nilai Mutation Rate sebesar 0.25. Penelitian berjudul Pseudo Genetic And Probabilistic Based Feature Selection Method For Extractive Single Document Summarization. Penelitian ini menampilkan metode seleksi fitur menggunakan (pseudo) Genetic probabilisticbased Summarization (PGPSum) model untuk mengekstraksi teks tunggal. Metode yang diusulkan, bekerja sebagai mekanisme seleksi fitur, digunakan untuk mengekstrak bobot fitur dari teks. Hasil penelitian menunjukkan bahwa model PGPSum mengungguli Ms-Word dan Copernic summarizers benchmark dengan mendapatkan rasio kesamaan yang paling dekat dengan ringkasan patokan manusia.
2.2.Information Retrieval Information Retrieval (IR) adalah sebuah cara untuk melakukan pencarian informasi dari sekumpulan dokumen yang didasarkan pada isi dari dokumen itu sendiri. Salah satu pengertian IR menurut Bill Frakes dan Ricardo Baeza-yates adalah sub bidang dari ilmu komputer yang mempelajari tentang pengumpulan data dan temu kembali dokumen (Frakes, 1992). Information Retrieval merupakan
6
tindakan, metode dan prosedur untuk menemukan kembali data yang tersimpan, kemudian menyediakan informasi mengenai subyek yang dibutuhkan. Tindakan tersebut mencakup text indexing, inquiry analysis, dan relevance analysis. Data dokumen mencakup teks, tabel, gambar, video ataupun ucapan. Keluaran dari Information Retrieval ini sendiri tergantung dari permintaan user atas isi dari dokumen tersebut (Cios, 2007). Sistem Temu Kembali Informasi (Information Retrieval) merupakan sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan user. Salah satu hal yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen yang bersifat tekstual. Dalam konteks ini, Information Retrieval berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi pengguna yang dinyatakan dalam query. Pengguna Information Retrieval sangat bervariasi dengan kebutuhan informasi yang berbeda-beda (Wijaya, 2011). Tujuan dari sistem IR adalah memenuhi kebutuhan informasi pengguna dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang sama me-retrieve sesedikit mungkin dokumen yang tidak relevan. Sistem ini menggunakan fungsi heuristik untuk mendapatkan dokumen-dokumen yang relevan dengan user query. Sistem IR yang baik memungkinkan user menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya. Agar representasi dokumen lebih baik, dokumen-dokumen dengan topik atau isi yang mirip dikelompokkan bersama-sama (Murad, 2007).
2.2.1. Arsitektur Sistem IR Secara garis besar, arsitektur sistem IR dalat dilihat pada Gambar 2.1. Ada dua pekerjaan yang ditangani oleh sistem IR, yaitu melakukan pre-processing terhadap database dan kemudian menerapkan metode tertentu untuk menghitung kedekatan (relevansi atau similarity) antara dokumen di dalam database yang telah di-preprocess dengan user query.
7
Gambar 2.1. Arsitektur Information Retrieval
Pada tahapan preprocessing, sistem yang berurusan dengan dokumen semi-structured biasanya memberikan tag tertentu pada term-term atau bagian dari dokumen, sedangkan pada dokumen tidak terstruktur proses ini dilewati dan membiarkan term tanpa imbuhan tag. Query yang dimasukkan pengguna dikonversi sesuai aturan tertentu untuk mengekstrak term-term penting yang sejalan dengan term-term yang sebelumnya telah diekstrak dari dokumen dan menghitung relevansi antara query dan dokumen berdasarkan pada term-term tersebut. Sebagai hasilnya, sistem mengembalikan suatu daftar dokumen terurut descending(ranking) sesuai nilai kemiripannya dengan user query (Cios, 2007). Setiap dokumen (termasuk query) direpresentasikan menggunakan model bag-of-words yang mengabaikan urutan dari kata-kata di dalam dokumen, struktur sintaktis dari dokumen dan kalimat. Dokumen ditransformasi ke dalam suatu “tas“ berisi kata-kata independen. Term disimpan dalam suatu database pencarian khusus yang ditata sebagai sebuah inverted index. Index ini merupakan konversi dari dokumen asli yang mengandung sekumpulan kata ke dalam daftar kata yang berasosiasi dengan dokumen terkait dimana kata-kata tersebut muncul.
8
2.2.2. Tahapan IR Sistem Information Retrieval yang memiliki kinerja baik dan sangat diperlukan terutama untuk menghadapi perkembangan yang sangat pesat dari dokumen khususnya dokumen berbasis teks seperti laporan penelitian, artikel, skripsi, tesis, dan sebagainya. Sistem IR adalah suatu sistem yang mengolah data berbasis dokumen atau teks dalam jumlah besar dan memberikan dokumendokumen sesuai dengan query yang diberikan pemakai. Hal-hal yang dilakukan oleh suatu sistem temu-kembali informasi diantaranya adalah sebagai berikut (Indra, 2006): 1. Mengolah
record-record
berupa
teks
atau
dokumen,
yaitu
mengidentifikasikan sejumlah istilah yang dianggap mewakili isi dokumen. 2. Mengidentifikasikan permintaan informasi (information request/ query). 3. Menentukan dan mengambil informasi atau dokumen yang sesuai dengan permintaan user.
2.3. Data Mining Istilah data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Dasar data mining berhubungan dengan analisa data dan penggunaan teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi. Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data. Banyak istilah lain dari data mining yang dikenal luas seperti knowledge mining from databases, knowledge extraction, data archeology, data dredging, data analysis dan lain sebagainya Informasi-informasi yang berguna dari data yang ada, hubungan antara item dalam transaksi, maupun informasi informasi yang potensial, selanjutnya dapat diekstrak dan dianalisa dan diteliti lebih lanjut dari berbagai sudut pandang. Informasi yang ditemukan ini selanjutnya dapat diaplikasi kan untuk aplikasi manajemen, melakukan query processing, pengambilan keputusan dan lain
9
sebagainya. Semakin berkembangnya kebutuhan akan informasi-informasi, semakin banyak pula bidang-bidang yang rnenerapkan konsep data mining.
2.3.1. Model Data Mining Model atau mode yang digunakan untuk melakukan proses penggalian informasi terhadap data yang ada. Menurut IBM model data mining dapat dibagi menjadi 2 bagian yaitu: verification model dan discovery model.
2.3.1.1. Verification Model Verification model digunakan untuk perkiraan (hypothesis) dari pengguna, dan melakukan test terhadap perkiraan yang diambil sebelumnya dengan menggunakan data yang ada. Penekanan terhadap model ini adalah terletak pada user yang bertanggung jawab terhadap penyusunan perkiraan (hypothesis) dan permasalahan pada data untuk meniadakan atau menegaskan hasil perkiraan (hypothesis) yang diambil. Bidang pemasaran diperlukan pada saat sebelum sebuah perusahaan mengeluarkan suatu produk baru kepasaran. Informasi tentang kecenderungan pelanggan untuk membeli produk yang akan di keluarkan harus dimiliki oleh perushaan
tersebut.
Perkiraan
(hypothesis)
dapat
disusun
untuk
mengidentifikasikan pelanggan yang potensial dan karakteristik dari pelanggan yang ada. Data tentang pembelian pelanggan sebelumnya dan data tentang keadaan pelanggan, dapat digunakan untuk perbandingan antara pembelian dan karakteristik pelanggan untuk penetapan dan pengujian target yang telah diperkirakan sebelumnya. Keseluruhan operasi yang ada selanjutnya dapat dilakukan penyaringan dengan cermat sehingga jumlah perkiraan (hypothesys) yang sebelumnya banyak akan menjadi semakin berkurang sesuai dengan keadaan yang sebenarnya. Permasalahan utama dengan model ini adalah tidak ada informasi baru yang dapat dibuat, melainkan hanya pembuktian atau pelemahan perkiraan (hypothesys) dengan data yang ada sebelumnya. Data yang ada pada model ini hanya digunakan untuk pendukung perkiraan (hypothesis) yang telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pads kemampuan user
10
untuk melakukan analisa terhadap permasalahan yang ingin digali dan diperoleh informasinya.
2.3.1.2. Discovery Model Discovery Model berbeda dengan Verification Model, dimana pada model ini sistem secara langsung dilakukan penemuan informasi penting yang tersembunyi dalam suatu data yang besar. Data yang ada kemudian dipilah-pilah untuk menemukan suatu pola, trend yang ada, dan keadaaan umum pada saat itu tanpa adanya campur tangan dan tuntunan dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam data yang ditemukan dalam waktu yang sesingkat mungkin. Sebagai contoh, sebuah bank ingin menemuan kelompokkelompok pelanggan yang dapat dijadikan target suatu produk yang akan di keluaran.
2.3.2. Tahapan Proses Data Mining Data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:
11
Gambar 2.2. Tahapan Data Mining
Gambar 2.2 menunjukkan beberapa tahapan data mining diantaranya adalah persiapan data, seleksi data, praproses data, transformasi data, proses inti data mining dan yang teraskhir adalah interpretasi dan evaluasi.
2.3.2.1. Basis Data Relasional Dewasa ini, hampir semua data bisnis disimpan dalam basis data relasional. Sebuah model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online Transaction Processing ) adalah tipe akses yang digunakan oleh bisnis yang membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan dalam basis data relasional inilah yang dapat diolah oleh sistem data mining.
2.3.2.2. Ekstraksi Data Data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi yang berbeda-beda, maka dari itu dibutuhkan kemampuan dari sistem
12
utuk dapat mengumpulkan data dengan cepat, jika data tersebut disimpan dalam kantor regional, seringkali data tersebut di upload ke sebuah server yang lebih terpusat, ini bisa dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat, sebagai contoh, sebuah toko perangkat keras mungkin mengirim data yang menunjukan bahwa 10 rol kabel telah terjual pada hari ini oleh karyawan nomer 10 dibanding pengiriman data detail transaksi. Transformasi data melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Langkah terakhir, data telah di ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk meringkas data dalam sebuah tempat penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain; summarizations, averages, minimum, maximum, dan count.
2.3.2.3. Pembersihan Data Data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Penting untuk membuat data seragam.
Pembersihan
data
juga
dapat
membantu
perusahaan
untuk
mengkonsolidasikan record. ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan. Record atau file pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap file berbeda.
2.3.2.4. Bentuk Standar Selanjutnya setelah data mengalami proses pembersihan maka data ditransfer kedalam bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh algoritma data mining. Bentuk standar ini biasanya dalam
13
bentuk spreadsheet like. Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan kolom merepresentasikan feature.
2.3.2.5. Reduksi Data dan Feature Setelah
data
berada
dalam
bentuk
standar
spreadsheet
perlu
dipertimbangkan untuk mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam spreadsheet kita. Bank mungkin mempunyai ratusan feature ketika hendak memprediksi resiko kredit. Perusahaan mempunyai data dalam jumlah yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi menurun kinerjanya.
2.3.2.6. Menjalankan Algoritma Semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk dijalankan Pola ini selalu bervariasi tergantung dari minimum support yang dimasukkan. Semakin tinggi minimum support maka akan semakin sedikit variasi pola urutan kunjungan dan sebaliknya semakin rendah nilai min support semakin banyak variasi pola urutan kunjungan user.
2.4. Konsep Peringkasan Teks Otomatis Peringkasan teks otomatis memiliki teknik-teknik tersendiri, bebrapa teknik akan dijelaskan pada bab selanjutnya. Komponen-komponen teks juga perlu diperhatikan dalam melakukan peringkasan teks.
2.4.1. Kata Kata adalah bagian terkecil dari sebuah kalimat dan mengandung sebuah ide. Kata dirangkai untuk membentuk sebuah kalimat. Kata memiliki sebuah makna, kategori, bentuk dan pelafalan. Kategori kata berdasarkan sintaksnya terdiri dari 5 kelas kata diantaranya: 1. Kata Benda(Nomina) Kata benda atau yang sering disebut dengan nomina adalah kata yang mengacu pada suatu objek seperti manusia, binatang dan benda.
14
2. Kata Kerja (Verba) Kata kerja merupakan kata yang menyatakan suatu tindakan tertentu. 3. Kata Sifat (Adjektiva) Kata sifat adalah kata yang member keterangan yang lebih khusus tentang sesuatu yang dinyatakan oleh nomina dalam kalimat. 4. Kata Keterangan (Adverbia) Kata keterangan merupakan kata yang dapat mendampingi adjekiva, numeralia atau preposisi dalam konstruksi sintaks. 5. Kata Tugas Kata tugas adalah kata yang hanya memiliki arti gramatikal dan tdak memiliki arti lesikal.
2.4.2. Kalimat Kalimat merupakan gabungan dari dua kata atau lebih yang memiliki makna. Kalimat merupakan satuan bahasa terkecil dalam wujud lisan maupun tulisan yang mengungkapkan pokok pikiran yang utuh. Sebuah kalimat akan selalu diawali dengan huruf capital dan diakhiri dengan tanda titik(.), tanda seru(!) atau tanda tanya(?). Unsur-unsur kalimat terdiri dari kata, kelompok kata dan lagu kalimat. Terdapat pengaturan hubungan kedudukan antar bagian dalam sebuah kalimat. Ada bagian yang memiliki kedudukan sebagai “pelaku” atau biasa disebut dengan subjek, ada bagian yang menunjukan “perbuatan” biasa disebut dengan predikat dan ada juga bagian yang menunjukkan “bagaimana perbuatan itu dilakukan” yang sering disebut dengan keterangan. Berdasarkan kedudukannya kalimat terdiri dari beberapa komponen sebagai berikut: 1. Subyek, yaitu bagian yang menjadi pokok pembicaraan. 2. Predikat, bagian yang menerangkan subyek, biasanya diletakan setelah subyek. 3. Obyek, meruoakan bagian yang menjadi tujuan atau sasaran. 4. Keterangan, yaitu bagian yang menunjukkan waktu, alat, tempat dan lain sebagainya.
15
2.4.3. Paragraf Paragraf merupakan bagian dari sebuah teks atau wacana yang terdiri dari sekumpulan kalimat dengan sebuah gagasan atau topik. Paragraf sering juga disebut alinea. Penulisannya menjorok kedalam untuk kalimat pertama. Paragraf adalah penuangan buah pikiran dalam sebuah teks. Kalimatkalimat yang terdapat pada paragraf merupakan kesatuan pikiran yang mempunyai keterkaitan satu sama lain utuk membentuk sebuah gagasan pokok.
2.4.4. Tipe Ringkasan Umumnya tipe ringkasan dibagi menjadi dua yaitu: tipe ekstraktif dan tipe abtraktif. Tapi pada intinya kedua tipe ini sama-sama untuk meringkas sebuah wacana namun ada perbedaan pada teknik peringkasannya. Tipe peringkasan ekstraktif adalah peringkasan dengan mencari kalimat yang mengandung inti dan gagasan yang terdapat dalam sebuah wacana. Kalimatkalimat yang dirasa penting dan mencerminkan isi wacana kemudian diambil untuk dijadikan bagian penyusun ringkasan. Kalimat-kalimat tersebut diambil secara utuh tanpa mengalami perubahan sedikitpun, sehingga hasil ringkasanpun terdiri dari beberapa kalimat penting tanpa kata sambung antara satu kaliamt dengan kalimat lain yang menyebabkan hasil ringkasan sedikit kaku. Sedangkan tipe ringkasan abstraktif adalah peringkasan dengan menulis ulang inti teks kedalam bahasa yang lebih natural dan dengan panjang yang tidak melebihi setengah dari teks aslinya. Peringkasan tipe ini lebih susah dilakukan namun mendapatkan hasil peringkasan yang lebih baik karena bahasa yang digunakan adalah bahasa natural yang membuat inti teks satu dan inti teks lainnya menjadi berkaitan sehingga mudah dimengerti. Tipe peringkasan ini biasanya dilakukan secara manual oleh manusia dan hasilnyapun terganutung dari kualitas individu yang bersangkutan.
2.5. Struktur Morfologi Bahasa Indonesia Morfologi adalah bagian dari ilmu bahasa yang menyelidiki peristiwaperistiwa umum mengenai seluk-beluk kata terhadap fungsi dan arti kata.
16
Morfologi kata bahasa Indonesia bisa berdiri dari struktur infleksional dan derivasional. Infleksional adalah struktur struktur yang palig sederhana yang dinyatakan dengan sufiks dimana tidak mempengaruhi arti sebenarnya dari kata dasar yang dilekati (Tala, 2003). Sufiks infleksional dapat dibagi menjadi 2 jenis diantaranya yaitu: 1. Sufiks –lah, -kah, -tah, -pun. Sufiks ini sebenarnya adalah partikel yang tidak mempunyai arti. Keberadaannya pada suatbkata adalah untuk penekanan. Contoh: Aku
+
kah
→
akulah
Pergi
+
kah
→
pergilah
2. Sufiks –ku, -mu, -nya. Sufiks ini berfungsi sebagai kata ganti kepunyaan. Contoh: Rumah +
mu
→
rumahmu
Mobil
nya
→
mobilnya
+
Sufiks-sufiks diatas dapat melekat pada kata dasar secara bersamasama.Adapun aturan urutannya adalah sufiks pada jenis kedua selalu diletakkan sebelum sufiks jenis pertama. Penambahan sufiks infleksional tidak akan merubah bentuk dasar dari kata berimbuhan (Tala, 2003). Dengan kata lain, tidak ada penghilangan atau peleburan kata dasar pada kata berimbuhan. Kata dasar dapat ditentukan dengan mudah pada struktur infleksional. Struktur derivasional dalam bahasa Indonesia terdiri dari prefiks sufiks dan kombinasi dari keduanya. Prefiks yang sering digunakan adalah ber-, di-, ke-, meng-, peng-, per-, ter-. Contoh penggunaan prefiks adalah: ber
+ lari
→ berlari
di
+ ketik
→ diketik
ke
+ kasih
→ kekasih
meng
+ antar
→ mengantar
peng
+ atur
→ pengatur
per
+ tebal
→ pertebal
17
Beberapa prefiks seperti ber-, meng-, peng-, per-, ter- mungkin akan berubah menjadi beberapa bentuk yang berbeda. Bentuk dari setiap prefiks bergantung pada karakter pertama dari kata dasar yang dilekatinya.Tidak seperti struktur infleksional, pada struktur pengucapan kata mungkin berubah setelah adanya penambahan prefiks.Seperti contoh “menyapu” yang terdiri dari prefiks meng- dan kata dasar “sapu”.Prefiks meng- berubah menjadi meny- dan karakter pertama dari kata dasar mengalami peleburan. Sufiks derivasional adalah –i, -an, kan (Tala, 2003). Contoh penggunaannya adalah: dekat
+ i
→ dekati
makan
+ an
→ makanan
sampai
kan
→ sampaikan
Berbeda dengan penggunaan prefiks, penambahan sufiks tidak akan mengubah bentuk dasar dari suatu kata. Seperti disebutkan sebelumnya, struktur derivasionaljuga terdiri dari konfliks, yaitu gabungan dari prefiks dan sufiks yang melekat secara bersama-sama pada suatu kata. Contoh: per
+
main
+
an
→
permainan
ke
+
kalah
+
an
→
kekalahan
ber
+
jatuh
+
an
→
berjatuhan
meng
+
ambil
+
i
→
mengambili
Tidak semua prefiks dan sufiks bisa bekerjasama membentuk konfiks. Ada beberapa kombinasi prefiks dan sufiks yang tidak diperbolehkan. Tabel 2.1. Pembentukan konfiks yang tidak diperbolehkan
Prefiks
Sufiks
per-
-i
di-
-an
ke-
-i|-kan
meng-
-an
peng-
i|kan
ter-
-an
18
Prefiks atau konfiks dapat ditambahkan pada suatu kata yang telah terdapat konfiks atau prefiks, yang menghasilkan struktur prefiks ganda.Seperti pada pembentukan sebuah konfiks, pada pembentukan prefiks ganda, tidak semua prefiks atau konfiks dapat ditambahkan pada kata yang telah mendapatkan prefiks atau konfiks. Ada beberapa aturan dalam urutan pembentukan prefiks ganda. Aturan-aturan tersebut adalah: Tabel 2.2. Aturan pembentukan prefiks ganda
Prefiks 1
Prefiks 2
meng-
per-
di-
ber-
kemeng-
Struktur lain yang mungkin terjadi dalam morfologi Bahasa Indonesia adalah penambahan sufiks infleksional pada struktur derivasional, yang dinamakan multiple sufiks. Sehingga dapat disimpulkan secara umum struktur morfologi kata Bahasa Indonesia adalah: 𝑆𝑡𝑟𝑢𝑘𝑡𝑢𝑟 𝑚𝑜𝑟𝑓𝑜𝑙𝑜𝑔𝑖 = [𝑝𝑟𝑒𝑓𝑖𝑘𝑠 1] + [𝑝𝑟𝑒𝑓𝑖𝑘𝑠 2] + kata dasar + [𝑠𝑢𝑓𝑖𝑘𝑠] + [kata ganti milik] + [partikel]
2.6. Text Preprocessing Preprocessing text adalah tahap awal dari peringkasa teks untuk mempersiapkan teks inputan menjadi data yang siap diolah. Tahap-tahap yang terdapat pada text preprocessing diantaranya adalah: pemecahan teks, case folding, filtering kalimat, tokenizing dan stemming. Penjelasan mengenai tahaptahap pada text preprocessing dijelaskan pada sub bab 2.5.1 sampai dengan Sub bab 2.5.5.
19
2.6.1. Pemecahan Teks Pemecahan teks merupakan tahap untuk memisahkan teks utuh menjadi kalimat-kalimat penyusunnya. Pemecah kalimat pada proses ini adalah fungsi explode() seperti : tanda titik ”.”, tanda Tanya “?” dan tanda seru “!“ sebagai delimeter untuk memecah string pada teks. Sehingga dengan tanda tersebut, teks asli dapat dipisahkan menjadi kalimat. Tabel 2.3. Contoh Pemecahan Teks Teks Pada 1955, sebuah koran Kanada mempublikasikan cerita misterius yang didapat dari pelaut. Sebuah kapal yang berlayar menabrak sesuatu yang aneh. Setelah berpisah jauh, benda itu terlihat seperti bukan ikan hiu busuk atau ubur-ubur raksasa mengambang di permukaan air. Ketika kapal mendekati benda itu, pelaut John Squires bersandar di papan untuk mengait benda itu.
Hasil Pemecahan teks menjadi kalimaat Pada 1955, sebuah koran Kanada mempublikasikan cerita misterius yang didapat dari pelaut. - Sebuah kapal yang berlayar menabrak sesuatu yang aneh. - Setelah berpisah jauh, benda itu terlihat seperti bukan ikan hiu busuk atau uburubur raksasa mengambang di permukaan air. - Ketika kapal mendekati benda itu, pelaut John Squires bersandar di papan untuk mengait benda itu. -
Tabel 2.3 merupakan contoh pemecahan teks menjadi kalimat. Contoh teks pada Tabel 2.3 terdiri dari 4 kalimat yang dipecah dengan delimeter berupa tanda titik “.” 2.6.2. Case Folding Case folding merupakan tahap untuk mengubah karakter huruf pada teks/kalimat menjadi huruf kecil semua (Garcia, 2005). Karakter selain karakter a-z yang tidak berguna untuk proses selanjutnya dihilangkan dari kalimat. Tabel 2.4. Contoh Case Folding -
-
-
Kalimat Pada 1955, sebuah koran Kanada mempublikasikan cerita misterius yang didapat dari pelaut. Sebuah kapal yang berlayar menabrak sesuatu yang aneh. Setelah berpisah jauh, benda itu terlihat seperti bukan ikan hiu busuk atau uburubur raksasa mengambang di permukaan air. Ketika kapal mendekati benda itu, pelaut John Squires bersandar di papan untuk mengait benda itu.
20
-
-
-
Hasil Case Folding pada 1955 sebuah koran kanada mempublikasikan cerita misterius yang didapat dari pelaut sebuah kapal yang berlayar menabrak sesuatu yang aneh setelah berpisah jauh benda itu terlihat seperti bukan ikan hiu busuk atau ubur ubur raksasa mengambang di permukaan air ketika kapal mendekati benda itu pelaut john squires bersandar di papan untuk mengait benda itu
Karakter yang dihilangkan/diubah dari contoh pada Tabel 2.4: huruf kapital diubah menjadi huruf kecil, tanda koma (,), tanda titik (.), tanda ulang (-).
2.6.3. Filtering Kalimat Proses ini sering disebut dengan proses penghilangan stopword. Stopword itu sendiri merupakan sekumpulan kata yang tidak memiliki makna penting yang mendeskipsikan teks dan tidak memiliki keterkaitan dengan kata lainnya. Tabel 2.5. Contoh Filtering Kalimat -
-
-
Kalimat Pada 1955, sebuah koran Kanada mempublikasikan cerita misterius yang didapat dari pelaut. Sebuah kapal yang berlayar menabrak sesuatu yang aneh. Setelah berpisah jauh, benda itu terlihat seperti bukan ikan hiu busuk atau uburubur raksasa mengambang di permukaan air. Ketika kapal mendekati benda itu, pelaut John Squires bersandar di papan untuk mengait benda itu.
-
Hasil Filtering Kalimat 1955 koran kanada mempublikasikan cerita misterius pelaut kapal berlayar menabrak aneh berpisah benda ikan hiu busuk ubur ubur raksasa mengambang permukaan air kapal mendekati benda pelaut john squires bersandar mengait benda
Kata-kata yang termasuk dalam stopword itu misalnya “di”, “ke”, “dari”, “oleh” dan lain sebagainya. 2.6.4. Tokenizing Tokenizing adalah tahap pemotongan kalimat menjadi kata penyusunnya. Contoh tokenizing kalimat dapat dilihat pada tabel 2.6 berikut: Tabel 2.6. Contoh Tokenizing -
Kalimat 1955 koran kanada mempublikasikan cerita misterius pelaut kapal berlayar menabrak aneh berpisah benda ikan hiu busuk ubur ubur raksasa mengambang permukaan air kapal mendekati benda pelaut john squires bersandar mengait benda
21
-
Hasil Tokenizing 1955 Koran Kanada Mempublikasikan Cerita Misterius pelaut kapal berlayar menabrak aneh berpisah benda ikan hiu
-
busuk ubur ubur raksasa mengambang permukaan air kapal mendekati benda pelaut john squires bersandar mengait benda
Karakter yang digunakan sebagai delimeter untuk tahap tokenizing adalah white space. Contoh pada Tabel 2.6 menghasilkan 31 kata dari 4 kalimat yang diproses.
2.6.5. Stemming Tahap stemming adalah tahap mencari root (akar) kata dari kata hasil filtering. Pada tahap ini dilakukan proses pengambilan berbagai bentukan kata ke dalam suatu representasi yang sama. Stem (akar kata) merupakan bagian dari kata yang tersisa setelah dihilangkan imbuhannya (awalan dan akhiran). Contoh kata beri adalah stem dari memberi, diberikan, memberikan dan pemberian. Berdasarkan analisa morfologi yang telah dibahas sebelumnya, maka terdapat 5 aturan tahapan pada proses stemming dalam Bahasa Indonesia (Tala, 2003). Aturan-aturan tersebut adalah: 1.Pada tahap awal yaitu menangani partikel infleksional. Kondisi
Kondisi
Ukuran
Tambahan
NULL
2
NULL
bukukah buku
-lah
NULL
2
NULL
adalah ada
-tah*
NULL
2
NULL
apatah apa
-pun**
NULL
2
NULL
bukupun buku
Sufiks
Pengganti
-kah
22
Contoh
2. Aturan tahap kedua menangani kata ganti milik infleksional. Kondisi
Kondisi
Ukuran
Tambahan
NULL
2
NULL
bukuku buku
-mu
NULL
2
NULL
bukumu buku
-nya
NULL
2
NULL
bukunya buku
Sufiks
Pengganti
-ku
Contoh
3. Aturan tahap ketiga menangani urutan prefiks derivasional pertama. Prefiks Pengganti
Kondisi
Kondisi
Ukuran
Tambahan
Contoh
meng-
NULL
2
NULL
mengukur ukur
meny-
s
2
V…*
menyapu sapu
men-
NULL
2
NULL
menduga duga
men-
t
2
V…
menuduh tuduh
mem-
p
2
V…
memilah pilah
mem-
NULL
2
NULL
membaca baca
me-
NULL
2
NULL
merusak rusak
peng-
NULL
2
NULL
pengukur ukur
peny-
s
2
V…
penyelam selam
pen-
NULL
2
NULL
pendaki daki
pen-
t
2
V…
penari nari
pem-
p
2
V…
pemilah pilah
pem-
NULL
2
NULL
pembaca baca
di-
NULL
2
NULL
diukur ukur
ter-
NULL
2
NULL
tersipu sipu
ke-
NULL
2
NULL
kekasih kasih
23
4. Aturan tahap keempat menangani urutan prefiks derivasionalkedua. Prefiks Pengganti
Kondisi
Kondisi
Ukuran
Tambahan
Contoh
ber-
NULL
2
NULL
berlari lari
bel
NULL
2
ajar
belajar ajar
be-
NULL
2
kerja
bekerja kerja
per-
NULL
2
NULL
perjelas jelas
pel-
NULL
2
ajar
pelajar ajar
pe-
NULL
2
NULL
pekerja kerja
5. Aturan tahap kelima menangani sufiks derivasional. Sufiks
Pengganti
-kan
NULL
Kondisi
Kondisi
Ukuran
Tambahan
2
Contoh
Prefiks ¢ {ke-, tarikkan tarik peng-}
(meng)ambilkan ambil
-an
NULL
2
Prefiks ¢ {di-, makanan makan meng-, ter-}
-i
NULL
2
(per)janjian janji
Prefiks ¢ {ber-, tandai tanda ke-, peng-}
(men)dapati dapat
Kondisi ukuran adalah jumlah minimum suku kata dalam sebuah kata.Karena dalam bahasa Indonesia, kata dasar setidaknya mempunyai 2 suku kata. Maka kondisi ukuran dalam proses stemmingbahasa Indonesia adalah dua. Adapaun suku kata didefinisikan memiliki satu vokal.
2.7. Fuzzy logic Fuzzy secara bahasa diartikan sebagai kabur atau samar-samar. Suatu nilai dapat bernilai benar atau salah secara bersamaan. Dalam fuzzy dikenal derajat keanggotaan yang memiliki rentang nilai 0 (nol) hingga 1(satu). Berbeda dengan himpunan tegas yang memiliki nilai 1 atau 0 (ya atau tidak). Fuzzy logic pada
24
dasarnya merupakan logika bernilai banyak (multivalued logic) yang dapat mendefinisikan nilai diantara keadaan konvensional seperti ya atau tidak, benar atau salah, hitam atau putih, dan sebagainya. Penalaran fuzzy menyediakan cara untuk memahami kinerja dari system dengan cara menilai input dan output system dari hasil pengamatan. Fuzzy logic adalah metodologi pemecahan masalah dengan beribu–ribu aplikasi dalam pengendali yang tersimpan dan pemrosesan informasi. Fuzzy logic menyediakan cara sederhana untuk menggambarkan kesimpulan pasti dari informasi yang ambigu, samar–samar, atau tidak tepat. Sedikit banyak, fuzzy logic menyerupai pembuatan keputusan pada manusia dengan kemampuannya untuk bekerja dari data yang ditafsirkan dan mencari solusi yang tepat.
2.7.1. Konsep Fuzzy logic Fuzzy merupakan representasi suatu pengetahuan yang dikonstruksikan dengan if-then rules. Karakteristik dari metode ini adalah (Nugroho, 2003): 1. Pemecahan masalah dilakukan dengan menjelaskan sistem bukan lewat angkaangka, melainkan secara linguistik, atau variabel-variabel yang mengandung ketakpastian/ketidaktegasan. 2. Pemakaian if-then rules untuk menjelaskan kaitan antara satu variabel dengan yang lain. 3. Menjelaskan sistem memakai algoritma fuzzy. Berawal dari paper-paper Zadeh di tahun 1965 mengenai fuzzy-sets, ilmu ini berkembang pesat, dan mulai menemukan aplikasinya di bidang control pada tahun 1974. Pada saat itu, Mamdani memperkenalkan aplikasi fuzzy sebagai alat kontrol steam-engine. Hal ini merupakan momentum penting, sebagai awal bagi teknologi fuzzy untuk menemukan ladang aplikasi di dunia industri. Fuzzy memiliki kelebihan-kelebihan, diantaranya (Nugroho, 2003) : 1. Dapat mengekspresikan konsep yang sulit untuk dirumuskan, seperti misalnya “suhu ruangan yang nyaman” 2. Pemakaian membership-function memungkinkan fuzzy untuk melakukan observasi
obyektif
terhadap
nilai-nilai
25
yang
subyektif.
Selanjutnya
membership-function ini dapat dikombinasikan untuk membuat pengungkapan konsep yang lebih jelas. 3. Penerapan logika dalam pengambilan keputusan.
Secara garis besar proses dalam Fuzzy logic dibagi menjadi empat elemen dasar, sebagai berikut (Nugroho, 2003): 1. Basis kaidah (rule base), yang berisi aturan-aturan secara linguistik yang bersumber dari para pakar. 2. Suatu
mekanisme
pengambilan
keputusan
(inference
engine),
yang
memperagakan bagaimana para pakar mengambil suatu keputusan dengan menerapkan pengetahuan (knowledge). 3. Proses fuzzifikasi (fuzzification), yang mengubah besaran tegas (crisp) ke besaran fuzzy. 4. Proses defuzzifikasi (defuzzification), yang mengubah besaran fuzzy hasil dari inference engine, menjadi besaran tegas (crisp). Dalam Fuzzy logic terdapat beberapa konsep-konsep dasar, meliputi derajat keanggotaan fuzzy/himpunan keanggotaan fuzzy, label, fungsi keanggotaan, masukan crisp, lingkup/domain, serta daerah batasan crisp yang digambarkan dengan kasus suhu pada Gambar 2.3.
Gambar 2.3. Konsep-konsep Dasar Fuzzy logic
Label adalah nama deskriptif yang digunakan untuk mengidentifikasikan sebuah fungsi keanggotaan. Masukan crisp adalah masukan yang tegas dan tertentu. Lingkup/domain adalah lebar fungsi keanggotaan. Jangkauan konsep,
26
biasanya bilangan, tempat dimana fungsi keanggotaan dipetakkan. Disini domain dari fuzzy set (fungsi keanggotaan) adalah dari 0 sampai 20 derajat dan lingkupnya adalah 20 derajat. Daerah batasan crisp adalah jangkauan seluruh nilai yang mungkin dapat diaplikasikan pada variabel sistem. Himpunan fuzzy adalah sebuah kelas dari obyek dengan serangkaian kesatuan dari grades of membership (nilai keanggotaan).
2.7.2. Himpunan Fuzzy Himpunan fuzzy adalah himpunan-himpunan yang akan dibicarakan pada suatu variable dalam sistem fuzzy. Himpunan fuzzy digunakan untuk mengantisipasi nilai-nilai yang bersifat tidak pasti. Pada himpunan tegas(crisp), nilai keanggotaan suatu item dalam suatu himpunan dapat memiliki dua kemungkinan, yaitu satu (1), yang berarti suatu item menjadi anggota dalam suatu himpunan. Sedangkan pada himpunan fuzzy nilai keanggotaan terletak pada rentang 0 sampai 1, yang berarti himpunan fuzzy dapat mewakili interpretasi tiap nilai berdasarkan pendapat atau keputusan dan probabilitasnya. Himpunan fuzzy memiliki dua atribut, yaitu (Kusuma Dewi, 2004): 1. Linguistik, yaitu penamaan suatu grup yang mewakili suatu keadaan atau kondisi tertentu dengan menggunakan bahasa alami, seperti: DEKAT, JAUH, SEDANG, RENDAH, TINGGI, dsb. 2. Numeris, yaitu suatu nilai(angka) yang menunjukan ukuran dari suatu variable seperti: 20, 33, 99 dan sebagainya.
2.7.3. Fungsi Keanggotaan Fungsi Keanggotaan (membership function) adalah suatu kurva yang menunjukkan pemetaan titik-titik input data ke dalam nilai keanggotaannya (sering juga disebut dengan derajat keanggotaan) yang memiliki interval antara 0 sampai 1. Salah satu cara yang dapat digunakan untuk mendapatkan nilai keanggotaan adalah dengan melalui pendekatan fungsi. Ada beberapa fungsi yang bisa digunakan (Kusuma Dewi, 2004):
27
1. Representasi Linear Pada representasi linear, pemetaan input ke derajat keanggotannya digambarkan sebagai suatu garis lurus. Bentuk ini paling sederhana dan menjadi pilihan yang baik untuk mendekati suatu konsep yang kurang jelas. Ada 2 keadaan himpunan fuzzy yang linear. Pertama, kenaikan himpunan dimulai pada nilai domain yang memiliki derajat keanggotaan nol [0] bergerak ke kanan menuju ke nilai domain yang memiliki derajat keanggotaan lebih tinggi.
Gambar 2.4. Representasi Linear Naik
Fungsi keanggotaan:
2. Representasi Kurva Segitiga Kurva Segitiga pada dasarnya merupakan gabungan antara 2 garis (linear).
28
Gambar 2.5. Representasi Kurva Segitiga
Fungsi keanggotaan :
3. Representasi Kurva Trapesium Kurva Trapesium pada dasarnya seperti bentuk segitiga, hanya saja ada beberapa titik yang memiliki nilai keanggotaan 1 :
Gambar 2.6. Representasi Kurva Trapesium
29
Fungsi keanggotaan :
4. Representasi Kurva Bentuk Bahu Daerah
yang
terletak
di
tengah-tengah
suatu
variabel
yang
direpresentasikan dalam bentuk segitiga, pada sisi kanan dan kirinya akan naik dan turun (misalkan: DINGIN bergerak ke SEJUK bergerak ke HANGAT dan bergerak ke PANAS). Tetapi terkadang salah satu sisi dari variabel tersebut tidak mengalami perubahan. Sebagai contoh, apabila telah mencapai kondisi PANAS, kenaikan temperatur akan tetap berada pada kondisi PANAS. Himpunan fuzzy ‘bahu’, bukan segitiga, digunakan untuk mengakhiri variabel suatu daerah fuzzy. Bahu kiri bergerak dari benar ke salah, demikian juga bahu kanan bergerak dari salah ke benar. Gambar
2.7
menunjukkan
variabel
TEMPERATUR
bahunya.
Gambar 2.7. Representasi Kurva Bentuk Bahu
30
dengan
daerah
5. Representasi Kurva-S Kurva PERTUMBUHAN dan PENYUSUTAN merupakan kurva-S atau sigmoid yang berhubungan dengan kenaikan dan penurunan permukaan secara tak linear. Kurva-S untuk PERTUMBUHAN akan bergerak dari sisi paling kiri (nilai keanggotaan = 0) ke sisi paling kanan (nilai keanggotaan = 1). Fungsi keanggotaannya akan tertumpu pada 50% nilai keanggotaannya yang sering disebut dengan titik infleksi.
Gambar 2.8. Representasi Kurva-S Pertumbuhan
Kurva-S untuk PENYUSUTAN akan bergerak dari sisi paling kanan (nilai keanggotaan = 1) ke sisi paling kiri (nilai keanggotaan = 0)
Gambar 2.9. Representasi Kurva-S Penyusutan
Kurva-S didefinisikan dengan menggunakan 3 parameter, yaitu: nilai keanggotaan nol (α), nilai keanggotaan lengkap (γ), dan titik infleksi atau crossover (β) yaitu titik yang memiliki domain 50% benar.
31
Gambar 2.10. Karakteristik Kurva-S
Fungsi keanggotaanpada kurva PERTUMBUHAN adalah:
2.7.4. Fuzzyfikasi Fuzzyfikasi adalah proses pengubahan data keanggotaan dari himpunan suatu bobot skor biasa (konvensional) ke dalam keanggotaan himpunan bilangan fuzzy. Proses fuzzyfikasi memerlukan suatu fungsi keanggotaan (membership function) untuk mendapatkan derajat keanggotaan (µ[x]) suatu bobot skor ke dalam suatu himpunan (kelas). Fungsi keanggotaan dibuat berdasarkan semantic import approach-priori membership function (pendekatan fungsi keanggotaan); karena klasifikasi, himpunan, semesta pembicaraan, dan domain diskrit telah diketahui dari kriteria lahan kritis, bukan dari basis data (fuzzy K-means, Hedge, C-means, atau standar deviasi) (Kainz, 2003). Kurva fungsi keanggotaan dibuat menggunakan fungsi keanggotaan linier (segitiga dan trapesium), untuk memudahkan dalam perhitungan, yang dinyatakan dengan: M(a,b,c,d) atau M(a,b,a,b). 32
(2.1)
Stategi dalam fuzzyfikasi supaya dapat diimplementasikan adalah: 1. Menentukan label input/ output dengan memberikan label sesuai ekspesi perencanaan berdasarkan common sense pada setiap fungsi keanggotaan max input/output: 2 2. Menentukan jumlah label input/output, pada prosesor ini ditentukan masingmasing berjumlah max 5 3. Menentukan batasan semesta pembicaraan dengan batas-batas nilai yang mungkin terjadi. 4. Menentukan rasio overlap. 5. Menentukan bentuk fungsi keanggotaan.
2.7.5. Inferensi Inferensi adalah proses melakukan penalaran menggunakan fuzzy input dan fuzzy rules yang telah ditentukan sehingga menghasilkan fuzzy output. Secara sintaks, suatu fuzzy rule (aturan fuzzy) dituliskan sebagai: IF antecendent THEN consequent Terdapat beberapa metode sistem inferensi fuzzy, yaitu metode Mamdani, Sugeno dan Tsukamoto. Dalam sistem ini, ada beberapa tahapan yang harus dilalui dalam penerapan inferensi ini, yaitu: 1. Nilai input Merupakan inputan kedalam sistem inferensi yang berupa nilai pasti (crisp). 2. Komposisi fuzzy Proses merubah crisp input menjadi fuzzy menggunakan fungsi keanggotaan, setiap variable fuzzy dimodelkan ke dalam fungsi keanggotaan yang dipilih. 3. Aturan-aturan Aturan-aturan yang akan dijadikan dasar untuk mencari nilai dari crisp output yang akan dihasilkan. 4. Dekomposisi fuzzy (penegasan) Merupakan proses merubah kembali data yang dijadikan fuzzy kembali ke dalam bentuk crisp.
33
5. Nilai output Merupakan nilai akhir yang dapat dipakai dalam pengambilan keputusan.
Sistem inferensi fuzzy dapat menerima input berupa crisp ataupun fuzzy, tetapi outputny hampir selalu menghasilkan himpunan fuzzy sehingga diperlukan proses difuzzifikasi untuk mendapatkan nilai crisp.
Gambar 2.11. Proses inferensi
Namun terkadang sistem fuzzy dapat berjalan tanpa harus melalui komposisi dan dekomposisi fuzzy. Nilai dapat diestimasi secara langsung dari nilai keanggotaan yang berhubungan dengan antesedennya. 2.7.6. Defuzzyfikasi Defuzzyfikasi adalah langkah terakhir dalam suatu sistem kendali logika fuzzy dimanatujuannya adalah mengkonversi setiap hasil dari inference engine yang diekpresikan dalam bentuk fuzzy set ke satu bilangan real. Hasil konversi tersebut merupakan aksi yang diambil oleh sistemkendali logika fuzzy. Karena itu, pemilihan metoda defuzzifikasi yang sesuai juga turut mempengaruhisistem kendali logika fuzzy dalam menghasilkan respon yang optimum. Input dari proses defuzzyfikasi adalah suatu himpunan fuzzy yang diperoleh dari komposisi
aturan-aturan
fuzzy,
sedangkan
output
yang
dihasilkan
merupakan suatu bilangan pada domain himpunan fuzzy tersebut. Sehingga jika diberikan suatu himpunan fuzzy dalam range tertentu, maka harus dapat diambil suatu nilai crsip tertentu sebagai output seperti terlihat pada gambar di bawah ini :
34
Gambar 2.12. Proses defuzzyfikasi
Ada beberapa metode defuzyifikasi yang umum digunakan, antara lain: 1. Metode Centroid (Center of Area) Metoda center of area sering kali juga dinamakan metoda center of gravity atau metoda centroid. Hasil defuzzyfikasi dengan metoda ini diambil dari nilai dalam suatu range dimana luasan daerah dari membership function C dibagi menjadi dua luasan yang sama besar. Nilai ini dapat dihitung dengan persamaan berikut :
𝒁∗ = 𝒁∗ =
∫𝒛 𝒛µ(𝒛)𝒅𝒛
(2.2)
∫𝒛 µ(𝒛)𝒅𝒛
∑𝒏𝒋=𝟏 𝒛𝒋µ(𝒛𝒋)
(2.3)
∑𝒏𝒋=𝟏 µ(𝒛𝒋)
2. Metode Bisektor Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai pada domain fuzzy yang memiliki nilai keanggotaan setengah dari jumlah total nilai keanggotaan pada daerah fuzzy. Ini menunjukkan sebuah garis yang menunjukkan daerah tersebut di bagi menjadi dua bagian yang sama besar.
35
Walaupun sering, tapi tidak selalu garis bisector sama dengan COA . Secara umum dituliskan: 𝒑
𝑹𝒏
𝒁𝒑 𝒔𝒆𝒅𝒆𝒎𝒊𝒌𝒊𝒂𝒏 𝒉𝒊𝒏𝒈𝒈𝒂 ∫𝑹𝟏 µ(𝒛)𝒅𝒛 = ∫𝒑 µ(𝒛)𝒅𝒛
(2.4)
3. Metode Mean of Maximum Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai rata-rata domain yang memiliki nilai keanggotaan maksimum. Metoda ini umumnya didefinisikan hanya untuk diskrit membership function. Nilai defuzzyfikasi didapatkan dari rata-rata semua nilai crisp set M yang didefinisikan persamaan di bawah. Nilai didapatkan dengan rumus sebagai berikut : 𝒅𝑴𝑴 (𝑪) =
∑𝒁𝒌 𝝐 𝑴 𝒁𝒌 |𝑴|
(2.5)
4. Metode Largest of Maximum Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai terbesar dari domain yang memiliki nilai keanggotaan maksimum. 5. Metode Smallest of Maximum Pada metode ini, solusi crisp diperoleh dengan cara mengambil nilai terkecil dari domain yang memiliki nilai keanggotaan maksimum.
2.8. Fuzzy C-Means Fuzzy C-Means (FCM) adalah suatu teknik pengklusteran data yang mana keberadaan tiap-tiap titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Teknik ini pertama kali diperkenalkan oleh Jim Bezdek pada tahun 1981 yang kemudian terus berkembang (Bezdek, 1984). Konsep dasar FCM pertama kali adalah menentukan pusat cluster yang akan menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih belum akurat. Tiap-tiap titik data memiliki derajat keanggotaan untuk tiap-tiap cluster. Dengan cara memperbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik data secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju lokasi yang tepat. Perulangan ini didasarkan pada minimasi fungsi objektif yang menggambarkan jarak dari titik data yang
36
diberikan ke pusat cluster yang terbobot oleh derajat keanggotaan titik data tersebut. Output dari FCM bukan merupakan fuzzy inference system, melainkan merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Informasi ini dapat digunakan untuk membangun suatu fuzzy inference system. Algoritma CFM dapat diuraikan sebagai berikut : 1. Input data yang akan dikluster, X, berupa matriks berukuran n x m (n = jumlah sampel data, m = atribut setiap data), dimana Xij = data sampel ke-i (i = 1,2,…, n), atribut ke-j (j = 1,2,…,m) 2. Tentukan: a. Jumlah cluster
=c
b. Pangkat
=w
c. Maksimum iterasi
= MaxIter
d. Error terkecil yang diharapkan
=
e. Fungsi objektif awal
= P0 = 0
f. Iterasi awal
=t=1
3. Bangkitkan bilangan random ik, i = 1,2,…,n; k = 1,2,…,c; sebagai elemenelemen matriks partisi awal U. Hitung jumlah setiap kolom: 𝑐
𝑄𝑖 = ∑ 𝜇𝑖𝑘
(2.6)
𝑘=1
dengan i = 1,2,…,n Hitung: 𝜇𝑖𝑘 =
𝜇𝑖𝑘 𝑄𝑖
(2.7)
4. Hitung pusat cluster ke-k: Vkj, dengan k = 1,2,…,c; dan j = 1,2,…,m. 𝑤 ∑𝑛𝑖=1((𝜇𝑖𝑘 ) ∗ 𝑋𝑖𝑗 ) 𝑉𝑘𝑗 = 𝑛 𝑤 ∑𝑖=1 𝜇𝑖𝑘
37
(2.8)
5. Hitung fungsi objektif pada iterasi ke-t, Pt 𝑛
𝑐
𝑚
𝑃𝑡 = ∑ ∑ (⌊∑(𝑋𝑖𝑗 − 𝑉𝑘𝑗 ) 𝑖=1 𝑘=1
2
(2.9) 𝑤 ) ⌋ 𝜇𝑖𝑘
𝑗=1
6. Hitung perubahan matriks partisi −1
⌊∑𝑚 𝑗=1(𝑋𝑖𝑗
𝜇𝑖𝑘 =
(2.10)
2 𝑤−1
− 𝑉𝑘𝑗 ) ⌋
−1
∑𝑐𝑘=1 ⌊∑𝑚 𝑗=1(𝑋𝑖𝑗
2 𝑤−1
− 𝑉𝑘𝑗 ) ⌋
Dengan: i = 1,2,…,n; dan k = 1,2,…,m 7. Cek kondisi berhenti:
Jika (|Pt – Pt-1| < ) atau (t > MaxIter) maka berhenti;
Jika tidak: t = t + 1, ulangi langkah ke-4
2.9. Evaluasi Hasil Ringkasan Metode evaluasi hasil ringkasan merupakan topik yang cukup sulit, baik evaluasi terhadap ringkasan yang dihasilkan dari mesin peringkas otomatis ataupun ringkasan yang manual dibuat oleh abstraktor yang professional, dikarenakan tidak terdapat definisi ringkasan yang ideal. Evaluasi ringkasan memiliki dua metode diantaranya adalah (Hassel, 2004) : 1. Ekstrinsik Kualitas ringkasan diukur bedasarkan bagaimana ini membantu tugas user. 2. Intrinsik Hanya diukur dari kualitas hasil ringkasan yang dihasilkan.
Evaluasi sistem peringkasan yang ada saat ini adalah intrinsik. Pengevaluasian menciptakan sekumpulan ringkasan yang ideal, masing-masing satu untuk menguji teks. Kemudian membandingkan hasil ringkasan sistem dengan ringkasan ideal. Yang diukur adalah overlap dari isi, seringkali disebut dengan recall dan precision kalimat atau frase, tapi terkadang dengan overlap kata tunggal.
38
𝑘𝑎𝑙𝑖𝑚𝑎𝑡 𝑟𝑖𝑛𝑔𝑘𝑎𝑠𝑎𝑛 𝑠𝑖𝑠𝑡𝑒𝑚 ∩𝑟𝑖𝑛𝑔𝑘𝑎𝑠𝑎𝑛 𝑖𝑑𝑒𝑎𝑙 (2.11) ∑ 𝑘𝑎𝑙𝑖𝑚𝑎𝑡 𝑟𝑖𝑛𝑔𝑘𝑎𝑠𝑎𝑛 𝑖𝑑𝑒𝑎𝑙
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑘𝑎𝑙𝑖𝑚𝑎𝑡 𝑟𝑖𝑛𝑔𝑘𝑎𝑠𝑎𝑛 𝑠𝑖𝑠𝑡𝑒𝑚 ∩ 𝑟𝑖𝑛𝑔𝑘𝑎𝑠𝑎𝑛 𝑖𝑑𝑒𝑎𝑙 ∑ 𝑘𝑎𝑙𝑖𝑚𝑎𝑡 𝑟𝑖𝑛𝑔𝑘𝑎𝑠𝑎𝑛 𝑠𝑖𝑠𝑡𝑒𝑚
(2.12)
Kombinasi nilai recall dan precision kemudian menghasilkan f-measure : 𝑓 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 𝑟𝑒𝑐𝑎𝑙𝑙 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛
(2.13)
Selain itu, dapat juga dilakukan perhitungan persentase akurasi dengan persamaan berikut: 𝐴 = (
2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑟𝑒𝑐𝑎𝑙𝑙 ) 𝑥 100% 𝑟𝑒𝑐𝑎𝑙𝑙 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑠𝑖𝑜𝑛
(2.13)
Precision dan recall digunakan untuk mengukur kualitas sebuah rngkasan. Pengukuran precision dan recall ini sangat dipengaruhi oleh panjang ringkasan ideal dan juga panjang ringkasan yang akan dievaluasi. Akurasi menurun sejalan dengan bertambahnya panjang ringkasan. Sulit untuk mengambil kesimpulan terhadap performa sistem nilai precision dan recall. Untuk standarisasi proses evaluasi belum dieksplorasi. Masalah utama dari evaluasi ini adalah sangat nyata, yaitu tidak ada satupu ringkasan yang benar (Hassel, 2004).
39