KNOWLEDGE IN TEXT (IR-2) FIRDAUS SOLIHIN UNIVERSITAS TRUNOJOYO
Firdaus Solihin (unijoyo) 2008
Teknologi for Knowledge Management
Document Collection (Mengumpulkan Document/Informasi) Document Retrieval (Mengakses Document/Informasi) Text Mining (analisa berdasarkan ligusitic) Ontologies (pemodelan untuk merepresentasikan object dalam type, properties, dan relasinya) Firdaus Solihin (unijoyo) 2008
1
DOCUMENT COLLECTION
Firdaus Solihin (unijoyo) 2008
DOCUMENT COLLECTION
Firdaus Solihin (unijoyo) 2008
2
DOCUMEN COLLECTION (1)
Domain (dependent or independent)
Structured or Non Structured Texts
Memiliki struktur khusus or tidak, ex HTML
Formated or Non Formated Documents
Ketergantungan dgn dokumen lain
Memiliki format khusus or tidak, ex Doc vs Txt
Textual or Multimedia Documents
Berupa text atau multimedia Firdaus Solihin (unijoyo) 2008
DOCUMEN COLLECTION (2)
Monolingual or Multilingual Documents
Centralized or Non Centralized Document Management
Lokasi dokumen satu tempat or banyak tempat
Controlled or Free Additional of Doc
Berupa satu bahasa or banyak bahasa
Pengaksesannya butuh login or tidak
Stable or Non Stable Collections
Ketersediaannya tetap or tidak tetap. Firdaus Solihin (unijoyo) 2008
3
Permasalahan dlm Documents Collection
Inconsistent Document Incomplete descriptions Duplicates or Worse Different terminologies/ languange/ perspective/ abriviation
Firdaus Solihin (unijoyo) 2008
DOCUMENT RETRIEVAL
Firdaus Solihin (unijoyo) 2008
4
DOCUMENT RETRIEVAL
Firdaus Solihin (unijoyo) 2008
DOCUMENT RETRIEVAL
QUERY INTERPRETATION (Menggunakan Query) DOCUMENTS INDEXING (Menggunakan Index) RANGKING OF RETRIEVED DOCUMENTS (mengurutkan sesuai rangkingn tertentu) LINGUISTIC AND STATISTICAL
Contoh : Search Engine Firdaus Solihin (unijoyo) 2008
5
Search Engine
Firdaus Solihin (unijoyo) 2008
www.alltheweb.com
AllTheWeb from Fast Search & Transfer (2002) Index: 2,1 GB documents Languages supported: 52 Linguistics used: Lemmatization, language identification, phrasing, anti-phrasing, text categorization, clustering, offensive content reduction, finite-state automata 30 mill. queries per hari Firdaus Solihin (unijoyo) 2008
6
Document Retrieval’s problems
VOLUME DATA
Sangat besar dan berkembang dinamis Tersebar dibanyak tempat dan beda platform
MULTITUDE OF LANGUAGES
Multilingual web 40-50 languages used on the web Many text encoding standart
Firdaus Solihin (unijoyo) 2008
# Website
Firdaus Solihin (unijoyo) 2008
7
# % Multilingual web
Firdaus Solihin (unijoyo) 2008
Document Retrieval’s problems
DOCUMENT QUALITY
Missplelings (Salah eja) Spam and offensive content (isi sampah) Little text (isi tidak menggmbarkan All topics
USER BEHAVIOUR
Misspellings (Salah eja) Query length and query session (panjang dan seberapa sering) Document yang dilihat umumnya yang diatas Firdaus Solihin (unijoyo) 2008
8
TEXT MINING
Firdaus Solihin (unijoyo) 2008
TEXT MINING
LINGUISTIC ANALYSIS
Merubah bentuk Document or menambahkan information (memilah dalam S,O,P,Pre dls) Tagging (potongan kata yg memiliki arti), lemmatization (mengindentifikasi satu kata dari berbagai perubahan bentuk)
KNOWLEDGE DISCOVERING IN TEXT
Menemukan Bentuk Memisahkan Dan Menemukan Kesalahan Statistical and linguistic aproach Firdaus Solihin (unijoyo) 2008
9
Lemmatization
walk, walked, walks, walking walk run, runs, ran, running run go, goes, going, went, gone go
Firdaus Solihin (unijoyo) 2008
Knowledge Discovering Technique
Concept extraction Ontology construction TOC construction Clustering Text categorization Subtechniques:
information extraction, text analysis
Firdaus Solihin (unijoyo) 2008
10
ONTOLOGIES HUBUNGAN ANTAR BAGIAN DALAM SUATU OBJECT YANG DIGAMBARKAN
Conceptual modelling Document Analysis & Text Mining Standarization Work
Firdaus Solihin (unijoyo) 2008
Membagun Ontologi model
Firdaus Solihin (unijoyo) 2008
11
Contoh Ontology
Firdaus Solihin (unijoyo) 2008
THE END
Firdaus Solihin (unijoyo) 2008
12