Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
Text Mining dan Knowledge Discovery Igg Adiwijaya Ph.D. EMC Corporation
[email protected] Abstract Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara exponensial. Walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah, jumlah yang terkendalikan ini telah menimbulkan isu and tantangan yang besar. Tidak hanya di Internet, jumlah informasi, terutama dalam bentuk dokumen atau text, juga di hasilkan, di koleksi, dan di konsumsi dalam jumlah yang tidak kalah besar di berbagai institusi dan perusahaan. Akses dan pengunaan akan informasi text yang tidak lagi di dominasi oleh ahli riset, spesialis analisa dan informasi, dan librarian seperti di era sebelumnya telah membuat tantangan menjadi lebih komplex. Untuk e-Kolokium text mining ini, saya akan memberikan gambaran secara garis besar terhadap bidang text mining yang sedang berkembang. Didalamnya, saya akan diskusikan issue dan tantangan yang di hadapi di bidang text mining. Untuk setiap tantangan, saya akan presentasikan solusi-solusi yang telah di hasilkan oleh ahli-ahli riset di dunia dan kekurangannya. Pada akhir makalah, saya akan ulas issue dan tantangan text mining yang saya hadapi sekarang, khususnya di bidang “knowledge discovery”.
1 Introduksi Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara exponensial, - lebih dari 550 triliun dokumen saat ini. 7.3 juta Internet page baru tiap hari nya. Walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah, jumlah yang terkendalikan ini telah menimbulkan isu and tantangan yang besar. Tidak hanya di Internet, jumlah informasi, terutama dalam bentuk dokumen atau text, juga di hasilkan, di koleksi, dan di konsumsi dalam jumlah yang tidak kalah besar di berbagai institusi dan perusahaan. Sebagai contoh, survey yang di selengarakan oleh “Database Trend and Application” dan “QL2 Sofware” di awal tahun 2006 menunjukan 86% lebih informasi yang di hasilkan dan dikonsumsikan oleh staff perusahaan besar di Amerika Utara dan Eropa adalah dalam bentuk “unstructured text”. 8085% dari total data di dalam database ada dalam bentuk text[2]. 80% dari knowledge di bidang biology dan medical ditemukan di paper riset. Format file yang populer termasuk MS Word, MS Excel, MS PPT, Email, PDF, dan Txt. Ini menunjukan akses dan pengunaan akan informasi text yang tidak lagi di dominasi oleh ahli riset, spesialis analisa dan informasi, dan
librarian seperti di era sebelumnya. Pencarian dan konsumsi informasi text telah menjadi sesuatu yang umum untuk semua tipe pengguna dengan kepentingan yang berbeda. Situasi saat ini telah menghasilkan 'success story' di bidang solusi dan tool untuk membantu penguna mencari dan mengorganisasi informasi dalam jumlah besar, mulai dari AltaVista sampai Google sekarang. Dikarenakan kemampuan penguna untuk menerima dan mencerna informasi yang terbatas, “search engines” disisi lain telah mempersulit kita untuk mencerna informasi dengan cepat dan efektif. “Push technology” dan mudahnya kita mendapatkan informasi melalui search engine, hanya dengan menekan beberapa tombol komputer, telah membuat penguna terus berlomba mengikuti informasi, perkembangan berita, dan events yang terbaru. Informasi overload seperti ini adalah salah satu isu yang di jawab oleh Text Mining. Text mining bisa dibilang subyek riset yang tergolong baru. text mining memberikan solusi pada masalah-masalah dalam memproses, mengorganisasi, dan menganalisa unstructured text dalam jumlah besar. Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dan solusi dari
1
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
bidang lain, seperti Data Mining, Information Retrieval, Statistik dan Matematik, Machine Learning, Linguistic, Natural Language processing, dan Visualization. Kegiatan riset untuk text mining terdiri dari ekstraksi dan penyimpanan text, “preprocessing” akan konten text, pengumpulan data statistik dan indexing, analisa konten, dan presentasi. Organisasi eKolokium ini adalah sebagai berikut. Sesi 2 akan mendiskusikan definisi dan tujuan text timing yang lebih dalam. Sub-aktivitas text mining yang berbeda di jabarkan di sesi ke 3. Di sesi ke 4, saya akan diskusikan riset saya di bidang “Knowledge Discovery” dan Integrasi. Sesi 5 adalah sesi penutup.
2 Text Mining: Definisi Apa sih arti text mining yang sebenarnya? Definisi akan text mining sudah sering di berikan oleh banyak ahli riset dan praktisi [1, 2, 3]. Seperti hal nya data mining, text mining adalah proses penemuan akan informasi atau trend baru yang sebelumnya tidak terungkap dengan memproses dan menganalisa data dalam jumlah besar. Dalam menganalisa sebagian atau keseluruhan unstructured text, text mining mencoba untuk mengasosiasikan satu bagian text dengan yang lainnya berdasarkan aturanaturan tertentu. Hasil yang di harapkan adalah informasi baru atau “insight” yang tidak terungkap jelas sebelumnya. Wikipedia [37] mendefinisikan text mining sebagai berikut. “Text mining, also known as intelligent text analysis, text data mining , unstructured data management, or knowledge discovery in text …, refers generally to the process of extracting interesting and non-trivial information and knowledge (usually converted to metadata elements) from unstructured text (i.e. free text) stored in electronic form.” Seperti halnya data mining, text mining juga menghadapi masalah yang sama, termasuk jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data “noise.” Berbeda dengan data mining yang utamanya memproses structured data, data yang digunakan text mining pada umumnya dalam bentuk unstructured, atau minimal semistructured, text. Akibatnya, text mining mempunyai tantangan tambahan yang tidak di temui di data mining, seperti struktur text yang
complex dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Dikarenakan structured data ditujukan agar mudah di proses komputer secara automatic, pre-process data di data mining jauh lebih mudah dilakukan dari pada pada unstructured text. Text di ciptakan bukan untuk di gunakan oleh mesin, tapi untuk dikonsumsi manusia langsung. Karena itu, pada umumnya “Natural Language Processor” digunakan untuk memproses unstructured text. Hearst [1] mempertanyakan pengunaan kata ‘mining’ di data mining dan text mining. Kata ‘mining’ memberikan arti dimana fakta-fakta atau relasirelasi baru dihasilkan dari proses me-‘mining’ data. Dia mengklaim bahwa aktivitas data mining lebih memfocuskan pada penemuan trend dan pattern yang sebenarnya sudah ada. Sedangkan ahli text mining yang lain beranggapan bahwa text mining adalah proses penemuan kembali relasi dan fakta yang terkubur didalam text, dan tidak harus baru. Ulasan di berikutnya sedikit mengikuti definisi text mining oleh Hearst. Seperti di sebutkan sebelumnya, Text mining telah mengadopsi teknik yang di gunakan di bidang natural language processing dan computational linguistics. Walaupun teknik di computational linguistics bisa dibilang maju dan cukup akurat untuk mengekstrak informasi, tujuan text mining bukan hanya mengekstrak informasi. Melainkan untuk menemukan pattern dan informasi baru yang belum terungkapkan [4], yang sulit ditemukan tanpa analisa yang dalam. Walau kemampuan komputer untuk mencapai kemampuan untuk memproses text seperti manusia sangat sulit, bila tidak mustahil, telah banyak teknik-teknik baru di computational linguistics yang bisa membantu text mining untuk mencerna text lebih jauh lagi. Sering kali penguna search engine di Internet menganggap search engine sebagai salah satu implementasi text mining. Andil utama search engine hanyalah menyingkirkan text yang tidak memiliki kata-kunci yang di cari pengunna. Dan lagi penguna search engine mengetahui sebelumnya text seperti apa yang hendak dia cari. Bisa dibilang kalau pencarian seperti ini termasuk dalam “Information Retrieval.” Focus information retreieval adalah menemukan
2
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
dokumen atau text yang memenuhi kriteria pencari. Text mining lebih memfocuskan pada relasi dan co-existence dari satu dokumen dengan yang lainnya. Walaupun text mining lebih dari information retrieval, text mining telah mengadopsi information retrieval untuk menyaring dan mengurangi jumlah informasi untuk diproses selanjutnya. Methode statistik juga sudah mulai sering di gunakan dan di adopsi di computational linguistics dan information retrieval yang nanti nya bisa memberikan tool yang lebih baik dan akurat untuk text mining. Banyak juga ahli riset yang menkategorikan document categorization sebagai text mining. Walau kategorisasi dokumen dapat memberikan label dan kesimpulan yang akurat pada dokumen-dokumen tertentu, ini tidak menghasilkan fakta-fakta atau relasi yang baru. Tetapi bilamana label-label atau kesimpulankesimpulan yang di hasilkan di analisa dan di korelasikan lebih lanjut, ini bisa menghasilkan fakta dan relasi baru antara group-group dokumen yang berbeda. Kegiatan seperti ini bisa di masukan dalam text mining. 2.1 Aplikasi text mining Aplikasi text mining bisa di bagi berdasarkan tipe unstructured text yang di proses. Untuk ustructured text dalam bentuk emails, intant messages, dan blogs, pada umumnya penguna ingin mencari atau “mine” informasi mengenai orang (seperti email pengirim, alamat, nama lengkap, dll), perusahaan (seperti nama lengkap dan lokasi), organisasi, dan kejadian-kejadian (seperti penemuan baru, pengumuman penting, dll). Untuk berita dari berbagai sumber, text mining bisa di gunakan untuk membandingkan berita yang sama atau berbeda yang berasal dari sumber yang berbeda, mungkin dengan bahasa yang berbeda. Lebih jauh lagi adalah analisa dan organisasi isi berita berdasarkan waktu publikasi (atau “temporal analysis”). Text mining juga bisa membantu untuk proses “deduplication” di sini. Untuk buku-buku dan artikel-artikel science, text mining di butuhkan untuk mendeteksi trend di bidang riset tertentu. Salah satu cara yang bisa di lakukan adalah dengan memonitor jumlah publikasi untuk bidang riset tertentu untuk jangka waktu tertentu. Hasil-hasil untuk bidang riset yang berbeda bisa di
bandingkan dan di analisa guna memberikan hasil trend yang berarti. Untuk technical working paper, documentasi, dan software specifikasi dokumen, text mining bisa di gunakan untuk mengekstrak software requirement dari spesifikasi dokumen secara otomatis atau mendeteksi ke kurangan antara source code dan documentasinya secara otomatis. For web pages, text mining bisa di gunakan untuk menganalisa website perusahaan, structur websitenya, perbandingan website content yang satu dengan site yang lain. Masih banyak lagi aplikasi text mining yang di butuhkan.
3. Proses Text Mining Proses text mining mencakup beberapa sub-task, seperti information retrieval, categorization, POS tagging, Clustering, dan lainnya, yang bisa di katergorikan kedalam framework “Knowledge Discovery in Databases” (KDD) [5], yang tidak lain adalah proses mengidentifikasikan pattern di dalam data yang benar, unik, berguna, dan dimengerti. KDD proses interaktif, bisa berulang, dan terdiri dari step Selection, Preprocessing, Transformation, Data Mining, dan Interpretation/Evaluation. Dalam sesi ini, proses dan kegiatan text mining yang beragam akan saya coba assosiasikan dengan KDD step dan ulas secara singkat.
3.1 Selection KDD Selection mencakup penseleksian data set dan sample. Focus nya ada pada tipe discovery yang ingin di lakukan. Activitas text mining yang bisa masuk dalam phase ini termasuk Information Retrieval, Categorization, dan Clustering. Tujuan information retrieval adalah untuk mengubah unstructured text menjadi structured data atau format yang mudah untuk di proses lebih lanjut nantinya. Contonya, email body di proses secara automatic untuk mendapatkan nama, email address, alamat, telephone, dan information yang relevan lainnya. Sudah banyak teknik information retrieval untuk berbagai domain. Freitag et. al. [6] mengadopsi wrapper teknik, dengan extraction dan engine rule, to perform information retreival untuk bagian tertentu di dalam unstructured text. Wrapper mempunyai kemampuan mesin
3
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
learning. Banyak teknik-teknik information retrieval untuk web pages telah di propose oleh beberapa ahli riset, seperti Eikvil [7] dan Cunningham [8]. KDD Categorization memfocuskan pada proses peng-“assign”-an documen secara otomatis terhadap koleksi class yang telah disiapkan sebelumnya. Teknik categorization yang populer untuk text mining adalah mengadopsi information retrieval atau machine learning. Sub-activitas text categorization mencakup content representation, seleksi fitur, extraksi fitur, dan pengunaan machine learning untuk adaptasi pengklasifikasian secara semi-otomatis. Sebagian dari peneliti di sub-activitas categorization termasuk [10, 11, 12, 13, 14, 15]. Survey akan pengunaan machine learning untuk text categorization dapat di simak di Sebastiani [9]. Tujuan Clustering adalah untuk memisahkan sekumpulan dokumen kedalam beberapa group atau kluster dengan menilai kemiripan antar dokumen dari segi kontent. Subactivitas clustering termasuk representasi dokumen, penurunan dimensi, pengunaan cluster algorithm, dan evaluasi. Riset di text clustering ini sudah banyak dikerjakan, termasuk oleh [16, 17, 18, 19].
3.2 Preprocessing KDD Preprocessing memfocuskan pada data cleaning & cleansing, termasuk menghilangkan noise di data, atau mengadaptasi noise, dan mengatasi informasi yang hilang atau tidak komplit. Text mining activitas seperti POS (Part of Speech) Tagging dan Disambiguation bisa dimasukan dalam phase KDD preprocessing. POS Tagging bisa dikatakan sebagai aktivitas yang tujuannya memberikan label pada setiap kata dalam kalimat dan mengasosiasikan dengan “speech” yang relevan. Tambah banyak tag dipakai untuk label, tambah complex dan rendah performance. Beberapa teknik POS Tagging telah di kemukakan, termasuk Markov Models oleh [20], Hidden markov Models oleh [21], dan Transformation-based [22]. Manning et.al. [23] survey memberikan ulasan luas aka POS Tagging.
Disambiguation adalah activitas untuk menentukan arti atau sense akan kata-kata yang tidak jelas atau ambiguos. Kata ‘Cold’ adalah contoh yang mudah. Cold bisa berarti suhu yang dingin, atau bisa juga berarti penyakit “flu” tergantung akan kontex yang dibicarakan. Disambiguation cocok sebagai “intermediate” step untuk selanjutnya di teruskan ke machine learning, information extraction, term clustering, atau spelling correction. Dictionary atau training rule bisa digunakan sebagai solusi terhadap disambiguation. Manning et.al. [23] memberikan survey akan riset pada disambiguation.
3.3 Transformation Tranformation step bertujuan untuk menemukan fitur-fitur yang tersimpan di dalam data yang penting berdasarkan kebutuhan yang diperlukan. Proses ini juga bertujuan untuk mengurangi jumlah variabel dan data yang tidak terlalu di perlukan. Disambiguation dan Term Clustering termasuk dalam kategori ini. Disambiguation telah di jelaskan sebelumnya. Sedangkan Term Clustering adalah activitas untuk menciptakan model yang bisa digunakan untuk meng-index dokumen pada tahap yang berbeda. Tehnik disini termasuk pembentukan thesaurus atau ontology secara otomatis dan mengunakan index semantic. Thesaurus atau ontology terdiri dari konsep atau terminology dan relationship antar konsep. Riset awal di term clustering di mulai dari information retrieval. Teknik untuk document clustering sering kali di pakai untuk term clustering [26 and 23]. Saya sendiri melakukan riset di Automatic Ontology Integration. Tambah lengkap kosakata dan relationship antar kata, tambah lebih akurat hasil dari transformation activitas. Idealnya kita memerlukan ontology selengkap mungkin. Tapi kadang ontology yang tersedia sangat terbatas. Salah satu cara untuk mendapatkan ontology yang lebih lengkap adalah dengan mengabungkan ontology dari berbagai sumber untuk domain yang sama atau berhubungan. Contohnya, medical ontology. Medical ontology versi Inggris bisa di dapat dari MeSH (Medical Subject Heading), SNOMED, UMLS, dan yang lainnya. Tantangan yang dihadapi disini adalah menyediakan mekanisme integrasi yang otomatis, atau
4
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
minimal semi-otomatis. Salah satu cara yang telah saya berhasil capai adalah dengan mengekploitasi tipe relasi antar konsep yang tersedia, di bantu dengan memberikan sample “matching” konsep antara dua ontology yang berbeda. Sebagai contoh, UMLS terdiri lebih dari 900,000 konsep, 1.7 juta terminology, dan sekitar 125 semantic dan hierarchy relationship. Saya dan kawan riset saya berhasil mengintegrasi dan menyesuaikan lebih dari 60% dari total terminology antara UMLS dengan MeSH secara otomatis hanya dengan membandingkan 125 relationships dan memberikan beberapa sample konsep yang sebanding antara ke dua ontology.
3.4 Data Mining Process Data Mining bertujuan untuk menghasilkan patterns yang berguna dari koleksi text. Activitas text mining untuk step data mining terdiri dari pemilihan mining teknik yang benar, penentuan mining model dan parameters. Term Clustering dan Parsial Parsing bisa dimasuk dalam step ini. Parsial parsing atau robust parsing bertujuan untuk mengidentifikasi relationship yang lebih dalam antar kata-kata dalam kalimat. Parsial parsing memerlukan hasil dari POS Tagging dan biasanya di gunakan secara bersamaan. Teknik pengunaan rule based system, memory based system, statistical method, atau kombinasi antar teknik banyak di gunakan untuk parsial parsing. Survey dan riset yang lebih detail bisa di simak di [27, 28].
3.5 Interpretation/Evaluation Kegiatan Text mining yang bisa dikategorikan di tahap Interpretation/Evaluation adalah text Summarization. Tujuan text summarization adalah untuk mengidentifikasikan key content dari berbagai sumber data dimana key content ini bisa merepresentatikan keseluruhan text secara akurat. Text summarization bisa juga disamakan dengan text classification. Sering kali hasil dari text summarization di gunakan untuk menjelaskan seluruh kontent text dengan mengekstrak hanya keyword yang penting, untuk menghidari membaca seluruh text, atau untuk membantu proses text searching supaya lebih cepat dan akurat dengan memfocuskan hanya pada keyword penting. Text summarization bisa dilakukan pada tiap-tiap
kata-kunci atau kalimat [29]. Teknik untuk text summarization berdasarkan kalimat sering kali diterapkan juga untuk text summarization berdasarkan kata-kunci.
4 Knowledge Discovery and Mapping 4.1 Knowledge Discovery Di sesi ini, saya ulas kegiatan riset saya di bidang text mining (dan data mining), terutama di field Knowledge Discovery dan Knowledge Mapping. Di karenakan tehnologi yang terus berkembang pesat, concept, terminology, dan relationship baru dihasilkan dalam jumlah yang cukup dan dengan frequensi yang cukup pesat. Sebagai contoh, di bidang pharmasi dan biotechnologi, product baru dengan brandname, generic name, code name, dan synonym, terus di hasilkan. Indication, symptom, therapy area, mechanim of action, dan relationship antar mereka yang baru terus di kembangkan. Di bidang genomic, sequence dan nama protein yang baru terus di hasilkan. Ini terindikasikan dari terus bertambahnya data yang di simpan di genomic data bank seperti GenBank, PDB, dan SWISSProt. Namun, seperti yang telah saya utarakan sebelumnya, lebih dari 80% riset di science di publikasikan melalu article, - unstructured text. Untuk industri pharmasi dan biotech, organisasi sering kali mengumumkan product dan penemuan baru mereka di mas media. Akibatnya, penemuan dan terminology/relationship yang baru ini tidak secepatnya di diseminasikan ke ahli-ahli yang bersangkutan. Sering kali di butuhkan ekstraksi terminology dan arti yang baru secara manual. Sudah umum bilamana banyak informasi baru yang tak terpakai atau hilang. Pentingnya knowledge discovery akan terminology yang baru ini juga sangat berarti dan dibutuhkan oleh analis di bidang marketing, sales, investment, business aquisisi, finance, dan lainnya. Investor yang ketinggalan berita akan product launch baru di media akan kehilangan kesempatan untuk menanamkan modalnya semaksimal mungkin di perusahaan yang bersangkutan. Tantangan text mining disini tidak hanya menemukan terminology dan relatioship baru di dalam unstructured text, tapi juga hubungan
5
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
terminology/konsep yang baru itu dengan knowledge base yang sudah terkumpul. Contohnya, peneliti di “Alliance Corporation” mengumumkan penemuan ‘Compound’ (atau product awal) baru dengan nama “Octafluoropropane” untuk mechanism yang baru “Ultrasound contrast agent” di online masmedia. Ahli-ahli lain yang berkecimpung di bidang yang sama sudah tentu ingin mengetahui compound yang baru ini. Mereka ingin mengetahui tidak hanya nama compound yang baru, tapi juga siapa yang memproduksi, apa symptom dan penyakit yang akan di tangulangi compound baru ini, bila mechanim nya baru, apa hubungannya dengan mechanim yang sudah ada, apa status perkembangan product ini, siapa yang akan me marketkan product ini nantinya, apa tanggapan ahli-ahli lainnya, dan sebagainya. Untuk menghadapi tantangan ini, diperlukan kemampuan untuk menganalisa text yang komprehensif, menciptakan summary text yang akurat, dan juga mengklasifikasi unstructured text. Hasil riset saya saat ini masih preliminari. Untuk tantangan ini, saya mengadopsi dan meningkatkan statistical inference teknik dengan bayesian sequential analysis untuk meng-“infer” relationships antara terminologi baru dan yang sudah ada lainnya, terutama scientific terminologi, dengan jarak sedekat mungkin di dalam unstructured text yang bersangkutan. Untuk meningkatkan akurasi hasil, saya memakai domain-specific medical ontology yang terdiri dari MeSH, UMLS, dan SNOWMED. Automatic integration teknik yang saya utarakan sebelumnya saya pakai untuk menghasilkan lebih dari 1.7 juta terminologi dan lebih dari 900 ribu konsep dengan relationshipnya. Ontology yang comprehensive seperti ini telah banyak membantu dalam menentukan atau “infer” arti dan relationship terminology yang baru [33,35].
4.2 Knowledge Mapping Sering kali data yang sama disimpan di sumber yang berbeda. Berita yang sama di sebarkan
oleh lebih dari satu siaran TV dan banyak online media. Sering kali informasi yang sama dari berbagai sumber sangat peting bagi penguna. Salah satu tujuannya agar tidak salah informasi, tidak kehilangan sebagian kecil pun data, dan untuk perbandingan. Misalnya, market analis memerlukan semua informasi akan perusahaan tertentu, termasuk news, informasi stok, informasi management, product, sales, revenue, dan lainnya yang datang dari berbagai sumber. Ahli pharmasi akan memerlukan seluruh data untuk product, misalnya, “Octafluoropropane”, termasuk produsen, indicasi, mechanism, development status, negara, comment, dan lainnya. Sebagian tantangan yang di hadapi dalam mengkoleksi informasi yang dibutuhkan dari berbagai sumber adalah sebagai berikut [30,31,32,33]. 1) jumlah data yang besar menyebabkan pencarian yang memakan waktu. Dan ini tergantung akan kecepatan dan kemampuan masing-masing source servers. 2) informasi yang tidak semuanya lengkap. 3) Sumber data tidak selalu menyimpan data secara konsisten dengan sumber yang lain. Ini membuat “matching” informasi yang sama menjadi susah. Di sesi ini saya akan focuskan pada tantangan ke 3 dan akan saya ulas perlunya text mining untuk menjawab tantangan ini. Sebagai contoh, misalkan seorang peneliti ingin meng-ekstrak informasi untuk obat “Octafluoropropane” dan informasi di simpan di dua sumber data. Bila nama obat yang di pakai di dua sumber data sama persis atau hampir mirip, kedua informasi obat bisa di cocokan atau di “map” dengan mudah. Bila tidak, attribute yang sama persis bisa di bandingkan dan bila sama persis, bisa di ambil kesimpulan bahwa kedua obat itu sama dan bisa di cocokan. Sering kali informasi yang sama di tempat yang berbeda tidak di simpan semudah ini dan ketidak cocokan sering kali terjadi untuk informasi yang sama [34,36]. Contoh nyatanya, gambar di bawah menunjukan hasil dari dua sumber data untuk informasi obat yang sama.
6
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
Figure: Compound obat yang sama di dua sumber data yang berbeda Seperti terlihat pada gambar diatas, compound name tidak mirip sama sekali. Ini mungkin dikarenakan salah satu sumber telat merubah informasi. Attribute obat tidak mempunyai schema yang sama, seperti company. Sumber pertama hanya punya satu attribute, sedangkan sumber kedua terbagi akan Originator, Developer, dan Licensee. Granularity akan attribute value juga berbeda. Contohnya, sumber pertama memakai UK (negara) sebagai region, sumber kedua memakai Europe (region). Masih terdapat beberapa isu yang lainnya. Dikarenakan pentingnya data seperti ini, tidak hanya untuk peneliti, tapi juga market analysis, investor, dan merger/acquisition department, usaha untuk mencocokan informasi obat secara otomatis atau semi-otomatis telat dilakukan oleh database vendor yang utama. Drug database vendor utama termasuk Thomson IDdb, Nielson IMS Health, WolterKluwer Adis, dan Pharmaprojects. Tiap-tiap database mempunyai sedikitnya lebih dari 15,000 obat dari berbagai dunia. Sebagai benchmark, hasil terbaik menghasilkan sekitar 60% “matching”!
Saya dan ahli riset lain telah mencoba untuk meningkatkan hasil matching dengan mengikutsertakan attribute values secara semantic. Tiap-tiap attribute mempunyai kepentingan yang berbeda untuk tujuan matching. Contohnya, matching Highest Phase lebih penting dari matching Country. Matching yang cocok untuk Synonym bisa menghasilkan ‘incorrect” matching data. Semantic seperti ini kita berikan ranking dan nilai semestinya. Tantangan matching telah menjadi tantangan memberikan total nilai matching dan ranking untuk permbandingan 2 informasi obat. Kita berhasil meningkatkan hasil matching obat menjadi lebih dari 70%. 70% ini masih dibawah yang diharapkan. Salah satu cara untuk meningkat hasil matching adalah dengan menganalisa text summary data dan articles (lihat gambar). Banyak informasi penting dan berguna yang disimpan dalam bentuk text. Tantangan disini menjadi bagaimana jalan membandingkan 2 ustructured text yang berbeda dan bagaimana kita bisa menilai level kesamaan dua text tersebut. Contohnya, Text A lebih mirip dengan Text B,
7
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
dibandingkan dengan Text A dan Text C. Kegiatan riset saya masih dalam tahap awal disini. Saya condong mengunakan text summarization berdasarkan kata-kunci dengan dibantu oleh pengunaan ontology.
5 Konklusi Dengan terus meningkatnya jumlah “digitized textual media” di Internet dan di organisasi menunjukan nyatanya tantangan akan “overload” akan informasi dan pentingnya bidang text mining. Kita memerlukan tak hanya text mining system, tapi juga knowledge management system di bantu dengan robust text mining software untuk mengekstrak, memprocess, me-mine, mengorganisasi, dan memonitor textual data dalam jumlah besar. Solusi text mining harus lebih dari sekedar efektif search, akurat natural language processor, dan text summization. Design dan pembuatan text mining tool harus mengikutsertakan tidak hanya untuk peneliti, tapi juga penguna dari bidang dan level tehnical yang beragam. Text mining harus memiliki kemampuan untuk menemukan fakta dan relationship yang baru yang sulit di dapat tanpa text mining, “A real Text Mining” [1]. Referensi [1] Marti A. Hearst. Untangling Text Data Mining. Proceeding of ACL’99 Maryland, June 20-26, 1999 [2] Dunja Mladenic and Marko Grobelnik. Text Mining: What if your data made of words. ECML/PKDD-2001, Freiburg, Germany, September 7, 2001 [3] Jürgen Franke, Gholamreza Nakhaeizadeh, and Ingrid Renz. Text Mining: Theoretical Aspects and Applications [4] M. Craten, D. DiPasquo, D. Freitag, A. McCallum, T. Michell, K. Nigam, and S. Slattery. 1998. Learning to extract symbolic knowledge from the world wide web. In Proceeding of AAAI. [5] Usama Fayyad, Gregory Shapiro, dan Padhraic Smyth, 1996. Knowledge Discovery and Data Mining: Towards a Unifying Framework. In Proceeding of The Second International Conference on Knowledge Discovery and Data Mining, pages 82-88.
[6] Freitag, D. & Kushmerick, N. (2000). Boosted wrapper induction. AAAI-00 (Austin), pp. 577-583. [7] Line Eikvil: Information Extraction from World Wide Web - A Survey Rapport Nr. 945, July, 1999. ISBN 82-539-0429-0 [8] H. Cunningham. Information Extraction: a User Guide (revised version). Department of Computer Science, University of Sheffield, May, 1999 [9] Fabrizio Sebastiani. Machine learning in automated text categorization. ACM Computing Surveys, 2002 [10] Lewis D D, 1992. Representation and Learning in Information Retrieval. Ph.D. dissertation, University of Massachusetts. [11] Tzeras,K.and Hartmann,S.1993.Automatic indexing based on Bayesian inference networks. In Proceedings of SIGIR-93,16th ACM International Conference on Research and Development in Information Retrieval (Pittsburgh, US, 1993), pp.22 –34. [12] Mladenic, D., Grobelnik, M. (1998) Feature selection for clasification based on text hierarchy. Working notes of Learning from Text and the Web, Conference on Automated Learning and Discovery CONALD-98. [13] Giuseppe Attardi, Antonio Gullí and Fabrizio Sebastiani, Automatic Web Page Categorization by Link and Context Analysis. In Proceedings of THAI-99, 1st European Symposium on Telematics, Hypermedia and Artificial Intelligence, pp. 105-119, 1999. [14] Robert E. Schapire and Yoram Singer. BoosTexter: A boostingbased system for text categorization. Machine Learning, 39(2/3):135-168, 2000. [15] Gómez Hidalgo, J.M. Evaluating CostSensitive Unsolicited Bulk Email Categorization. ACM Symposium on Applied Computing, 2002. [16] Wu, M., Michael Fuller, and Ross Wilkinson. Using Clustering and Classification Approaches in Interactive Retrieval. In Information Processing & Management, pp. 459-484, 37(3), 2001 [17] Baldonado, M.Q.W., and Winograd, T. SenseMaker: An Information-Exploration Interface Supporting the Contextual Evaluation of a User's Interest, In proceedings of CHI '97, Atlanta, GA
8
Kolokium bersama komunitas datamining Indonesia & soft-computing Indonesia, Sep’06
[18] A.K. Jain, M.N. Murty and P.J. Flynn. Data Clustering: A Review. ACM Computing Surveys, Vol. 31, No. 3, September 1999 [19] Rüger, S.M. and S E Gauch: Feature Reduction for Document Clustering and Classification. DTR 2000/8, Department of Computing, Imperial College London, September 2000. [20] Church, K. (1988) “A Stochastic Parts Program and Noun Phrase Parser for Unrestricted Text,” Second Conference on Applied Natural Language Processing, Austin, Texas, pp. 136-143 [21] D. Cutting, J. Kupiec, J. Pedersen, and P. Sibun. A Practical Part-of- Speech Tagger, Proceedings of the Third Conference on Applied Natural Language Processing, April 1992 [22] Eric Brill, Transformation-Based ErrorDriven Learning and Natural Language Processing: A Case Study in Part of Speech Tagging, Computational Linguistics, Vol 21, No 4, 1995 [23] Christopher D. Manning and Hinrich Schütze. 1999. Foundations of Statistical Natural Language Processing. Cambridge, MA: MIT Press [24] Ted Pedersen. Evaluating the Effectiveness of Ensembles of Decision Trees in Disambiguating Senseval Lexical Samples. Proceedings of the Workshop on Word Sense Disambiguation: Recent Successes and Future Directions. July 11, 2002, Philadelphia [25] M. Stevenson, Y. Wilks. Combining Weak Knowledge Sources for Sense Disambiguation. Proceedings of the International Joint Conference for Artificial Intelligence (IJCAI-99). Stockholm. (1999) [26] G. Salton and M. J. McGill. Introduction to Modern Information Retrieval, McGraw Hill Com- puter Science Series, New York, 1983 [27] Erik F. Tjong Kim Sang and Sabine Buchholz, Introduction to the CoNLL-2000
[28] [29]
[30]
[31]
[32]
[33]
[34]
[35]
[36]
[37]
Shared Task: Chunking. In: Proceedings of CoNLL-2000 and LLL 2000, Lisbon, Portugal, 2000 Jacques Vergne. Trends in Robust Parsing. A tutorial presented in Coling 2000 Hahn, Udo & Mani, Inderjeet (2000). The challenges of automatic summarization. In: Computer, 33 (11), pp. 29-36 N. Adam, V. Atluri, and I. Adiwijaya, “System Integration in Digital Library,” The Special Section of System Integration Communication of the ACM, 2000 N. Adam, I. Adiwijaya, and Y. Chung, “The Implementation of a DW System in a Heterogeneous Environment”, International Conference on System Integration Technology and Applications 1997, South Korea Doan AH, Domingos P, Halevy A. Reconciling schemas of disparate data sources: a machine-learning approach. In: Proc ACM SIGMOD Conf, pp. 509–520, 2001 Doan A, Madhavan J, Domingos P, and Halevy A. Learning to map between ontologies on the semantic web. In The Eleventh International WWW Conference, Hawaii, US, 2002 Flesca, S, Manco, G,,Masciari, E, Pontieri, L, Pugliese, A. Detecting Structural Similarities between XML Document. Fifth International Workshop on the Web and Databases (WebDB 2002) Madison, Wisconsin - June 6-7, 2000. Gal, A Modica, G and Jamil HM. Improving web search with automatic ontology matching. Submitted for publication. Available upon request from avigal @ie.technion.ac.il, 2003 S. Nestorov and S. Abiteboul and R. Motwani, “Inferring Structure in Semistructured Data,” Proceedings of the Workshop on Management of Semistructured Data, May 1997 Wikipedia online http://www.wikipedia.com
9