BAB 2
TINJAUAN PUSTAKA
2.1 Pendahuluan Tugas
akhir
yang
dikerjakan
oleh
penulis
ini adalah
menganalisis
dan
mengimplementasikan sebuah metode yang nantinya akan digunakan untuk melakukan pencarian sebuah dokumen yang dilakukan dalam sebuah PC (Personal Computer). Adapun teori-teori yang mendasari dan saling melengkapi dalam pembuatan tugas akhir ini adalah tentang Sistem Temu Kembali Informasi, metode Latent Semantic Indexing dan Bahasa Pemrograman Delphi. Pada saat ini informasi sangat lah mudah didapat salah satunya adalah dari internet kita dapat mendapatkan informasi yang sangat luas. Dengan semakin bertambahnya informasi, pendayagunaan sistem temu kembali informasi menjadi penting agar dapat menghemat waktu dan kerja untuk mendapatkan informasi yang terkandung di dalam dokumen-dokumen tersebut. Misalnya pencarian dokumendokumen yang relevan terhadap kebutuhan informasi pengguna.
Pada prinsipnya, penyimpanan informasi dan proses pencarian kembali informasi tersebut sifatnya sederhana, selama ada kumpulan dokumen yang disimpan dan pengguna yang memberikan pertanyaan ataupun kebutuhan. Maka sistem temu balik informasi dapat mengembalikan kumpulan dokumen yang dianggap relevan dengan menghitung similarity atau tingkat kesamaan antara dokumen dengan query yang diberikan [7].
2.2 Information Retrieval
Universitas Sumatera Utara
Information Retrieval (IR) adalah suatu sistem yang digunakan untuk menemukan kembali (retrieve) informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis [2].
Salah satu aplikasi dari IR adalah mesin pencari yang dapat diterapkan di berbagai bidang. Pada mesin pencari dengan IR pengguna dapat memasukkan query yang bebas dalam arti kata query yang sesuai dengan bahasa manusia dan sistem dapat menemukan dokumen yang sesuai dengan query yang ditulis oleh user [5].
Model sistem IR menentukan detail sistem IR yaitu, meliputi: 1. Representasi dokumen dan query. 2. Fungsi pencarian. 3. Notasi kesesuaian (relevance notation) dokumen terhadap query.
Yang dimaksud dengan representasi dokumen atau query adalah kumpulan kalimat yang menyatu menjadi paragrap kemudian menjadi bab dan menjadi satu buku, atau disebut juga dengan kumpulan kata yang menyusun menjadi kalimat. Sedangkan yang dimaksud dengan fungsi pencarian adalah bagaimana mesin mengolah query untuk dicocokkan dengan dokumen, lalu mengambil dokumen yang relevan.
Bagian ini terbagi menjadi beberapa bagian, yaitu: 1. Cara memilih kata (term) untuk indeks. 2. Cara mengindeks kata. 3. Cara membobot kata.
Bagian yang paling signifikan pengaruhnya adalah pembobotan kata. Cara pembobotan kata mencirikan bagaimana sebuah sistem temu kembali informasi di bangun. Notasi kesesuaian adalah hubungan yang terjadi antara query dengan hasil pencarian. Sistem temu kembali informasi digunakan untuk menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi secara otomatis.
Universitas Sumatera Utara
Gambar 2.1 Bagian-Bagian Sistem Temu Kembali Informasi [5] Gambar 2.1 memperlihatkan bahwa terdapat dua buah alur operasi pada sistem temu kembali informasi. Alur pertama dimulai dari koleksi dokumen dan alur kedua dimulai dari query pengguna. Alur pertama yaitu pemrosesan terhadap koleksi dokumen menjadi pangkalan data indeks dan tidak tergantung pada alur kedua. Sedangkan alur kedua tergantung dari keberadaan pangkalan data indeks yang dihasilkan pada alur pertama [12]. Bagian-bagian dari sistem IR menurut gambar 2.1 meliputi: 1. Text operation (operasi terhadap teks) yang meliputi pemilihan kata-kata dalam query maupun dokumen (term selection) dalam transformasi dokumen atau query menjadi term index (indeks dari kata-kata). 2. Query formulation (formulasi terhadap query) yaitu memberi bobot pada kata indeks query. 3. Ranking (perangkingan), mencari dokumen-dokumen yang relevan terhadap
query
dan
mengurutkan
dokumen
tersebut
berdasarkan
kesesuaiannya dengan query. 4. Indexing (indeks), membangun pangkalan data indeks dari koleksi dokumen. Dilakukan terlebih dahulu sebelum pencarian dokumen dilakukan.
Universitas Sumatera Utara
Sistem Temu Kembali Informasi menerima query dari pengguna, kemudian melakukan perangkingan terhadap dokumen pada koleksi berdasarkan kesesuaiannya dengan query. Hasil perangkingan yang diberikan kepada pengguna merupakan dokumen yang menurut sistem relevan dengan query. Namun relevansi dokumen terhadap suatu query merupakan penilaian pengguna yang subjektif dan dipengaruhi banyak faktor seperti topik, pewaktuan, sumber informasi maupun tujuan pengguna. Sistem temu kembali informasi terutama berhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian pula ekspresi kebutuhan pengguna yang disebut query, juga tidak memiliki struktur. Hal ini yang membedakan sistem temu kembali informasi dengan sistem basis data. Dokumen adalah contoh informasi yang tidak terstruktur. Isi dari suatu dokumen sangat tergantung pada pembuat dokumen tersebut [16]. Sistem Temu Kembali Informasi sebagai sistem yang berfungsi untuk menemukan informasi yang relevan dengan kebutuhan pemakai, merupakan salah satu tipe sistem informasi. Salah satu hal yang perlu diingat adalah bahwa informasi yang diproses terkandung dalam sebuah dokumen yang bersifat tekstual.
Dalam konteks ini, temu kembali informasi berkaitan dengan representasi, penyimpanan, dan akses terhadap dokumen representasi dokumen. Dokumen yang ditemukan tidak dapat dipastikan apakah relevan dengan kebutuhan informasi pengguna yang dinyatakan dalam query. Pengguna Sistem Temu Kembali Informasi sangat bervariasi dengan kebutuhan informasi yang berbeda-beda.
Tujuan dari sistem IR adalah: 1. Menemukan seluruh dokumen yang relevan terhadap suatu query. 2. Hanya menemukan dokumen relevan saja, artinya tidak terdapat dokumen yang tidak relevan pada dokumen hasil pencarian. 2.3 Searching
Searching adalah program komputer yang digunakan untuk menemukan dokumendokumen yang ada dalam komputer pribadi. Searching berusaha meminta content
Universitas Sumatera Utara
yang akan menjadi patokan pencarian sebuah dokumen dengan kriteria yang spesifik (biasanya yang berisi kata atau frasa yang kita tentukan) dan memperoleh daftar file yang memenuhi kriteria tersebut. Searching biasanya menggunakan indeks untuk mencari dokumen setelah pengguna memasukkan kriteria pencarian [2].
Searching dapat dilakukan dengan 2 cara, yaitu dengan cara umum dan canggih. Perbedaannya pada informasi yang Anda masukkan tempat pencarian, semakin banyak dan akurat kata yang bersangkutan dan parameter pencariannya akan semakin akurat pula hasilnya. Pada pencarian canggih Anda dapat memasukkan cukup banyak parameter pencarian. Metode searching umum akan mencari kata kunci yang Anda masukkan ke semua informasi dalam katalog dan naskah data. Karenanya cenderung hasil pencarian cukup banyak dan kurang akurat, namun semua data yang berhubungan dengan kata kunci tersebut akan ditampilkan [5].
Pencarian dapat dibagi 2 bagian, yaitu: 1. Pencarian internal adalah pencarian terhadap sekumpulan data yang disimpan di dalam memori utama. 2. Pencarian eksternal adalah pencarian terhadap sekumpulan data yang disimpan di dalam memori sekunder, seperti disk.
2.4 Pengantar Umpan Balik Relevansi Mendapatkan hasil pencarian yang sesuai dengan kebutuhan dalam suatu koleksi dokumen yang besar merupakan hal sulit. Usaha pengguna secara manual untuk memilah-milah dokumen yang sesuai dengan kebutuhannya ternyata sangat besar. Hasil pencarian merupakan sejumlah dokumen yang relevan menurut sistem, namun relevansi merupakan hal yang subjektif.
Query yang baik adalah query yang mampu merangkum kebutuhan informasi pengguna. Kunci pencarian yang tepat adalah formulasi query yang baik dan sesuai. Namun bagi kebanyakan pengguna, memformulasikan query yang baik tidak mudah. Karena sangat bergantung berbagai faktor seperti latar belakang pengetahuan
Universitas Sumatera Utara
pengguna terhadap koleksi dokumen, lingkungan sistem temu kembali informasi, maupun pengetahuan pengguna mengenai koleksi dokumen maupun topik kebutuhan yang dicari. Penanganan umpan balik relevansi merupakan proses formulasi ulang query awal berdasarkan informasi umpan balik relevansi dari pengguna terhadap dokumendokumen hasil pencarian awal. Berdasarkan umpan balik, sistem secara otomatis akan menentukan query baru dan melakukan pencarian berdasarkan query baru tersebut. Proses umpan balik dapat diulang terus, sampai pengguna menilai bahwa kebutuhannya sudah terpenuhi.
2.5 Istilah Pencarian
Apa saja yang diketik dalam kotak pertanyaan dianggap sebagai daftar kata atau “istilah pencarian”. Suatu istilah dapat mengandung hanya huruf A-Z dan angka 0-9. Istilah dipisahkan dengan spasi. Semua tanda lain (seperti tanda baca) diabaikan. Kata yang mengandung tanda baca tidak dapat dicari.
Misalnya, pertanyaan Lada di Bangka Belitung: peluang untuk agribisnis
Dianggap sebagai Lada di Bangka Belitung peluang untuk agribisnis
2.6 Preferensi Pencarian
Penyesuaian dalam pencarian dengan menggunakan pemakaian huruf besar/kecil dianggap sama. Penggunaan preferensi pencarian ini dilakukan semata-mata karena
Universitas Sumatera Utara
tidak menggunakan “case sensitive”, karena penggunaan ini digunakan untuk mempermudah pencarian.
Misalnya, pertanyaan:
PETRONAS BUILDING
Akan dianggap sama dengan:
Petronas building
2.7 Antarmuka Pencarian Berbagai macam model antarmuka pencarian, ada yang menggunakan antarmuka dengan menggunakan operator dan tanda-tanda baca, ada juga menggabungkannya dengan fungsi-fungsi lain. Penggunaan keyword dilakukan dengan mengetikkan frasa tanpa menggunakan operator Boolean ataupun tanda-tanda baca. Penggunaan antarmuka pencarian pada searching dokumen ini hanya dengan menggunakan teks atau frasa yang akan menjadi patokan dalam pencarian dokumen yang dilakukan. Proses pencarian dokumen tidak mengenal operator atau tanda-tanda baca dan sejenisnya.
2.8 Ranking
Universitas Sumatera Utara
Ranking adalah sebuah algoritma yang telah dipatenkan yang berfungsi menentukan dokumen-dokumen yang lebih sesuai. Ranking merupakan sebuah fitur utama dalam pencarian.
Halaman yang penting tidak akan berarti jika tidak cocok dengan kata kunci yang dicari. Jadi, dengan memadukan ranking halaman dengan teks yang cocok dengan teknik dekomposisi nilai singular untuk mencari halaman yang keduanya penting dan relevan untuk pencarian.
Cara yang digunakan untuk menentukan kualitas ranking sebuah halaman dengan menentukan isi dokumen tersebut. Pendekatan yang digunakan adalah dengan mengetahui isi dokumen yang memiliki kesesuaian dengan kata kunci merupakan ranking tertinggi. Dengan menggunakan pendekatan ranking, proses terjadi secara rekursif dimana sebuah ranking akan ditentukan dengan cocoknya kata kunci dengan isi dokumen. Hal inilah yang menjadi patokan utama dalam menentukan ranking dokumen. Oleh karena itu penggunaan sebuah ranking sangat mempengaruhi seberapa cocok atau tidaknya dokumen yang dihasilkan dalam pencarian. Ranking juga digunakan sebagai patokan seberapa besar keterkaitan dokumen dengan kata kunci.
2.8.1 Cara Meranking
Dalam melakukan pencarian sebuah dokumen, terlebih dahulu dengan memasukkan keyword sebagai acuan yang akan digunakan.
Contoh: sistem informasi geografis Maka dapat disimpulkan, kata-kata yang akan ditemukan pada keyword diatas adalah:
Sistem informasi geografis
Universitas Sumatera Utara
Sistem informasi
Informasi geografis
sistem
informasi
geografis
Proses meranking dilakukan dengan mengetahui seberapa besar hubungan yang ada antara keyword dengan dokumen yang ditemukan. Maka dapat disimpulkan dokumen tersebut merupakan dokumen yang relevan dan berada dikedudukan paling atas.
2.9 Algoritma pencarian Algoritma pencarian (searching algorithm) adalah algoritma yang menerima sebuah argumen kunci dan dengan langkah-langkah tertentu akan mencari rekaman dengan kunci tersebut. Setelah proses pencarian dilaksanakan, akan diperoleh salah satu dari dua kemungkinan, yaitu data yang dicari ditemukan (successful) atau tidak ditemukan (unsuccessful) [14].
Metode pencarian data dapat dilakukan dengan dua cara yaitu pencarian internal (internal searching) dan pencarian eksternal (external searching). Pada pencarian internal, semua rekaman yang diketahui berada dalam pengingat komputer sedangkan pada pencarian eksternal, tidak semua rekaman yang diketahui berada dalam pengingat komputer, tetapi ada sejumlah rekaman yang tersimpan dalam penyimpan luar misalnya pita atau cakram magnetis.
Kata atau frasa kunci yang dimasukkan pemakai merupakan masalah yang harus dipecahkan. Mekanisme evaluasi akan mengakses database untuk menganalisis
Universitas Sumatera Utara
dari berbagai sisi dibandingkan dengan kata atau frasa kunci yang diterima. Sebagai solusi searching memberikan sejumlah referensi terhadap sumber data yang dianggap ketika pengguna mencari dokumen maka search engine akan mengakses data yang telah dikumpulkan sebelumnya. Pencarian tersebut dilakukan berdasarkan kata kunci yang dimasukkan oleh pengguna.
Pada umumnya algoritma searching mencari kata dalam dokumen dan menghitung banyaknya kemunculan kata tersebut. Dengan cara membandingkan pola dengan teks, maka didapatlah hubungan antar kata kunci dengan dokumen. Kemudian dokumen yang memiliki lebih banyak jumlah kata kunci tersebut berada di urutan paling atas. Tetapi cara ini kurang efektif sebab banyaknya kemunculan kata tidak selalu menentukan isi dokumen. Dan bahkan tidak berhubungan sama sekali dengan apa yang dicari oleh pengguna [13].
2.10 Latent Semantic Indexing Latent Semantic Indexings (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut Dekomposisi Nilai Singular (SVD) untuk mengidentifikasi pola hubungan antara istilah dan konsep-konsep yang terkandung dalam sebuah koleksi teks yang tidak terstruktur. LSI didasarkan pada prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung memiliki makna yang sama [3]. Dengan memanfaatkan semantic structure (struktur asosiasi kata-kata/term dengan dokumen) yang secara implisit terdapat dalam suatu dokumen, LSI dapat melakukan pencarian dokumen-dokumen yang relevan dengan term yang terdapat dalam query. Metode ini menggunakan teknik SVD untuk melakukan dekomposisi terhadap term-document matrix menjadi 3 matriks singular. Kemudian dilakukan rank-lowering terhadap ketiga matriks tersebut dengan cara menyimpan beberapa nilai singular terbesar dan mengabaikan sisanya, sehingga diharapkan dapat diperoleh semantic structure yang sesuai.
Universitas Sumatera Utara
Metode LSI mengasumsikan bahwa terdapat sebuah latent semantic structure, yaitu sebuah struktur semantic dalam setiap dokumen yang tersembunyi (latent) oleh adanya noise yang disebabkan oleh keberagaman pemakaian kata dalam penulisan dokumen tersebut. LSI menggunakan metode statistik untuk mengestimasi struktur tersebut, dan menghilangkan noise yang ada. Penggambaran terms dan dokumen berdasarkan struktur tersebut digunakan untuk proses indexing dan retrieval. Dengan menggunakan SVD, dapat dibangun sebuah semantic space, yaitu sebuah vectorial model di mana terms dan dokumen-dokumen yang relevan di letakkan berdekatan satu dengan yang lainnya, sehingga terms yang tidak terdapat dalam suatu dokumen dapat berada berdekatan dengan dokumen tersebut, jika memiliki pola asosiasi yang sesuai. Query yang diberikan pada proses pencarian akan ditranslasikan sebagai sebuah titik dalam semantic space tersebut dan akan mengembalikan dokumen-dokumen yang berada di dekatnya. Ide yang melandasi LSI adalah kumpulan semua kata dalam konteks tertentu di mana kata yang muncul atau tidak muncul, menyediakan batasan untuk menentukan kesamaan arti dari sebuah kata dan kumpulan kata yang lainnya [1]. Pada LSI arti dari sebuah kata direpresentasikan sebagai rata-rata dari semua bagian kata yang muncul dalam setiap kalimat. Demikian pula, makna dari sebuah kalimat adalah rata-rata dari makna semua kata yang terkandung di dalam kalimat tersebut. LSI memiliki kemampuan untuk secara bersama mendapatkan pengetahuan akan kata-kata maupun kalimat sedemikian rupa dengan menggunakan Singular Value Decomposition (SVD) sebagai pondasi matematikanya. Proses pencarian dengan metode LSI pada sistem ini menerima masukan berupa sebuah keyword yang akan dicari pada dokumen. Pada proses pencarian dengan metode LSI kata-kata yang unik pada setiap dokumen akan direpresentasikan sebagai baris matriks dan dokumen-dokumen akan direpresentasikan sebagai kolom matriks. Nilai dari matriks tersebut adalah banyaknya kemunculan sebuah kata di setiap dokumen yang akan dibandingkan.
2.10.1 Singular Value Decomposition
Universitas Sumatera Utara
Metode LSI menggunakan metode Singular Value Decomposition (SVD) pada matriks kata-dokumen untuk membentuk suatu semantic space di mana kata-kata dan dokumen-dokumen yang hampir sama di letakkan berdekatan satu sama lain [6]. Sebuah
matriks
A
berukuran
m
x
n
dapat
difaktorkan
menjadi
T
A=Q1∑Q2 =(orthogonal) (diagonal) (orthogonal). Kolom dari matriks Q1(m x m) adalah eigenvector dari matriks AAT, dan kolom dari matriks Q2(n x n) adalah eigenvector dari matriks AT A. Singular values dalam diagonal dari matriks∑( m x n) adalah akar kuadrat dari eigenvalues yang tidak bernilai 0 dari kedua matriks AAT dan AT A [1]. Persamaan untuk SVD dapat dituliskan sebagai berikut. A= USVT Dimana: A adalah matriks asal U adalah matriks singular kiri S adalah matriks diagonal dari nilai singular VT transpose dari matrik singular kanan Perhitungan SVD meliputi pencarian eigenvalues dan eigenvector dari AAT dan AT A. kolom-kolom matriks singular kiri U berisikan eigenvector dari AAT, eigenvector dari AT A mengisi kolom-kolom matriks singular kanan V, dan akar kuadrat dari eigenvalues dari AAT atau ATA mengisi nilai singular dari matriks S.
2.10.2 Eigenvalue dan Eigenvector Matriks Permasalahan transformasi matriks regular menjadi matriks singular disebut sebagai eigenvalues problem. Sebuah vektor v dengan N dimensi adalah eigenvector dari sebuah matriks persegi (NxN) A jika memenuhi persamaan: Av=λv
Universitas Sumatera Utara
Di mana λ adalah skalar terhadap v, yaitu eigenvalue dari matriks A. Untuk mendapatkan eigenvalue digunakan persamaan: P(λ):=det(A-λI)=0 Di mana: P(λ) adalah characteristic polynomial, yaitu sebuah persamaan polinomial terhadap λ, yang memiliki N2 solusi yan berbeda, di mana 1≤N 2≤N. I adalah matriks identitas NxN.
2.11 Term-Document Matrix Term-document matrix adalah sebuah matriks yang berisikan jumlah kemunculan terms dalam suatu koleksi dokumen. Terms yang digunakan dalam hal ini tidak meliputi terms berupa frasa namun hanya dibatasi pada terms berupa kata tunggal, karena penyimpanan frasa akan menambah jumlah kata yang tidak sesuai karena frasa terdiri atas 1 atau lebih kata. Pada matriks ini, kolom mewakili dokumen, dan baris mewakili terms.
Berikut ini diberikan contoh data dari dokumen-dokumen dan matriks katadokumen. Example of text data: Titles of Some Technical Memos c1: Human machine interface for Lab ABC computer application c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey
Universitas Sumatera Utara
Gambar 2.2 Contoh Teks untuk LSI [10] Pada Gambar 2.2 terdapat 9 judul teks yang masing-masing dianggap sebagai sebuah dokumen. Dokumen yang namanya diawali huruf "c" berisi judul dengan topik interaksi manusia-komputer sedangkan dokumen yang namanya diawali huruf "m" berisi judul dengan topik graph. Kata-kata yang dimasukkan ke dalam matriks hanya kata-kata yang dicetak miring, yaitu kata yang setidaknya muncul dua kali pada dokumen yang berbeda. Hasil representasi matriks ini dapat dilihat pada Gambar 2.3.
Tabel 2.1 Contoh Matriks Kata-Dokumen [10] c1
Human Interface Computer User System Response Time EPS Survey Trees Graph Minor
1 1 1 0 0 0 0 0 0 0 0 0
c2
0 0 1 1 1 1 1 0 1 0 0 0
c3
0 1 0 1 1 0 0 1 0 0 0 0
c4
1 0 0 0 2 0 0 1 0 0 0 0
c5
0 0 0 1 0 1 1 0 0 0 0 0
m1
0 0 0 0 0 0 0 0 0 1 0 0
m2
0 0 0 0 0 0 0 0 0 1 1 0
m3
0 0 0 0 0 0 0 0 0 1 1 1
m4
0 0 0 0 0 0 0 0 1 0 1 1
Term-document matrix dapat berukuran sangat besar, terdiri atas ribuan baris dan kolom, dan tahap selanjutnya perlu dilakukan dekomposisi terhadap matriks ini, maka untuk mempersingkat proses, perlu dilakukan penyederhanaan terhadap termdocument matrix.
Universitas Sumatera Utara
Term-document matrix hanya perlu menyimpan term yang dapat menjelaskan isi dari suatu dokumen atau disebut juga sebagai content words. Kata-kata yang merupakan stopwords, yakni kata-kata yang tidak memiliki makna jika berdiri sendiri dapat diabaikan. Dengan term-document matrix yang ada, bobot setiap kata (term weight) hanya bergantung pada jumlah kata pada tiap dokumen. Bobot tersebut disebut sebagai local weight karena hanya berlaku pada tiap-tiap dokumen. Pada perhitunga local weight, terms yang muncul berulang kali pada suatu dokumen akan memiliki bobot yang lebih besar. Bobot terms untuk keseluruhan koleksi dokumen disebut sebagai global weight, perhitungan global weight berkebalikan dengan local weight, di mana terms yang muncul pada dokumen tertentu saja dianggap lebih signifikan sehingga memiliki bobot yang lebih besar.
2.12 Text Mining
Secara sederhana data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar. Data mining juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Data mining, sering juga disebut sebagai knowledge discovery in database (KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar [8].
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data. Ekstraksi informasi dari sekumpulan dokumen teks dapat dilakukan dengan text mining. Text mining, sering disebut juga teks data mining, merupakan proses menghasilkan informasi berkualitas dari sekumpulan dokumen teks [4].
Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah suatu teknik menggali informasi berharga yang terpendam atau
Universitas Sumatera Utara
tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Kata mining sendiri berarti usaha untuk mendapatkan sedikit barang dari sejumlah besar material dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan, machine learning, statistik dan database.
Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorian teks (text categorization) dan pengelompokkan teks (text clustering) [5].
Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang sering digunakan: 1. Character, merupakan komponen individual, biasa huruf, angka, karakter spesial dan spasi. 2. Words. 3. Term merupakan single word dan frasa multiword yang terpilih secara langsung dari teks. 4. Concept, merupakan feature yang degenerate dari sebuah dokumen secara manual.
Proses text mining meliputi proses tokenizing, filtering, dan stemming. 1. Tokenizing Tokenizing adalah proses penghilangan tanda baca pada kalimat yang ada dalam dokumen sehingga menghasilkan kata-kata yang berdiri sendiri. 2. Filtering Tahap filtering adalah tahap pengambilan kata-kata yang penting dari hasil tokenizing. 3. Stemming
Universitas Sumatera Utara
Stemming adalah proses mengubah kata menjadi kata dasarnya dengan menghilangkan imbuhan-imbuhan pada kata dalam dokumen atau mengubah kata kerja menjadi kata benda.
Namun pada penelitian kali ini proses text mining yang dilakukan hanya pada tahap tokenizing dan filtering.
2.13 Bahasa Pemrograman Delphi
Aplikasi Borland Delphi akan digunakan dalam pengimplementasian program yang akan mendukung skripsi ini.
Borland Delphi merupakan salah satu bahasa pemrograman yang bekerja dalam sistem operasi windows. Fasilitas-fasilitas Delphi mirip dengan fasilitasfasilitas visual basic. Keunggulan Delphi adalah pada produktivitas, kualitas pengembangan software, kecepatan, pola desain menarik dan sebagainya [11].
2.13.1 Mengenal Lingkungan Delphi
Lingkungan pengembangan terpadu atau Integrated Development Environment (IDE) adalah sebuah lingkungan di mana semua tombol perintah yang diperlukan untuk mendesain aplikasi, menjalankan dan menguji apakah sebuah aplikasi disajikan dengan baik untuk memudahkan pengembangan program. [15]
Form Desainer
Main Window
Toolbar
Universitas Sumatera Utara
Componen t Palette
Object Inspector
Gambar 2.3 Tampilan Layar Delphi 2010 [15]
IDE dalam Delphi terbagi menjadi enam bagian utama, yaitu sebagai berikut: 1. Main Window (Jendela Utama) Jendela utama adalah bagian dari IDE yang mempunyai fungsi yang sama dengan semua fungsi utama dari program aplikasi Windows lainnya. Jendela utama Delphi terbagi menjadi tiga bagian, berupa Main Menu, ToolBar dan Compnent Palette. 2. Toolbar Toolbar berfungsi sebagai pengganti suatu menu perintah yang sering digunakan. Pada kondisi default Delphi memiliki enam bagian toolbar, antara lain Standart, View, Debug, Desktop, Custom dan Component Palette. 3. Component Palette Bagian ini berisi ikon yang melambangkan komponen-komponen yang terdapat pada Visual Component Library (VCL). Ada beberapa page control seperti Standart, Additional, Win32, System, Data Access dan lain-lain. 4. Form Desainer Form Desainer merupakan suatu objek yang dapat dipakai sebagai tempat untuk merancang program aplikasi. Komponen-komponen yang diambil dari Component Palette ditempatkan di form ini.
Universitas Sumatera Utara
5. Code Editor Code Editor merupakan tempat untuk menuliskan kode program.
Gambar 2.4 Layar Code Editor [15]
6. Object Inspector Object Inspector digunakan untuk mengubah properti atau karakteristik dari sebuah komponen. Di dalamnya terbagi menjadi dua tab, yaitu tab properties (untuk mengubah property komponen) dan tab event (untuk menangani kejadian yang dapat direspon oleh komponen).
2.13.2 Kelebihan Borland Delphi
Borland Delphi merupakan pilihan bagi sebagian kalangan programmer untuk membuat aplikasi. Hal ini disebabkan kelebihan yang ada pada Borland Delphi. Berikut ini sebagian kecil dari banyak kelebihan Borland Delphi: 1. Berbasis Object Oriented Programming (OOP). Setiap bagian yang ada pada program dipandang sebagai suatu object yang mempunyai sifat-sifat yang dapat diubah dan diatur. Programming (OOP) Bahasa pemrograman Delphi merupakan pengembangan dari bahasa Pascal . Tetapi bukan berarti untuk mempelajari bahasa pemrograman Delphi harus mempelajari Pascal terlebih dahulu, karena Borland Delphi 7 sudah dirancang sedemikian rupa sehingga memudahkan bagi seorang pemula untuk merancang aplikasi berbasis windows dengan Borland Delphi.
Universitas Sumatera Utara
2. Satu file .exe. Setelah program dirancang dalam IDE (Intergrated Development Environment) Delphi , Delphi akan mengkompilasinya menjadi sebuah file executable tunggal. 3. Program yang dibuat dapat langsung didistribusikan dan dijalankan pada komputer lain tanpa perlu menyertakan file DLL dari luar. Ini merupakan sebuah kelebihan yang sangat berarti. 4. Borland Delphi 7 hadir bersama Borland Kylix 3 yang berbasiskan Linux , sehingga memungkinkan programmer untuk membuat aplikasi multi-platform.
Khusus untuk pemrograman database, Delphi menyediakan object yang sangat kuat, canggih dan lengkap, sehingga memudahkan pemrogram dalam merancang, membuat dan menyelesaikan aplikasi database yang diinginkan. Selain itu Delphi juga dapat menangani data dalam berbagai format database, misalnya format MsAccess, SyBase, Oracle, Interbase, FoxPro, Informix, DB2 dan lain-lain. Format database yang dianggap asli dari Delphi adalah Paradox dan dBase [9].
Universitas Sumatera Utara