Pendahuluan
TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB
Pertemuan 1
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Identitas Mata Kuliah Nama Mata Kuliah
:
Temu Kembali Informasi (TKI) Information Retrieval (IR)
Kode Mata Kuliah Koordinator Semester
: : :
KOM431 Julio Adisantoso (JAS) Pendek Ganjil 2015/2016
Pengajar
:
JAS, YHY
Jadwal Kuliah
:
Kamis (07:00-09:30)
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Learning Outcome KNOWLEDGE: Mahasiswa mempelajari dan memahami prinsip, teknik, dan metode IR SKILLS: Mahasiswa mampu mengaplikasikan prinsip, teknik, dan metode IR secara umum seperti pengindeksan, mesin pencari, klasifikasi, peringkasan dokumen, web search, dan berbagai aplikasi IR lainnya. COMPETENCE: Mahasiswa dapat mengimplementasikan teknik IR dari berbagai bentuk dokumen teks, baik desktop maupun web. VALUE ADDED: Mahasiswa mendapat topik riset (skripsi), berlatih menelaah jurnal, dan presentasi JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Course Content Prinsip dan teknik pemrosesan teks. Indexing Model-model IR Evaluasi IR Metode-metode lanjut di bidang IR, seperti Relevance Feedback and Query Expansion, Text Classification and Clustering, Text Summarization, Question Answering System, CLIR, XML Retrieval, Web Search, Semantic Web
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Penentuan Nilai Akhir UTS dan UAS dilakukan melalui ujian tertulis dengan bobot masing-masing 35%. TP (Tugas Perorangan) adalah rata-rata dari semua tugas yang diberikan, dan diberi bobot 10% Nilai PA (Proyek Akhir) terdiri dari nilai produk proyek (program komputer, laporan) dan presentasi. Bobot nilai PA adalah 20%. Catatan: Tidak ada ujian perbaikan
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Perangkat Perkuliahan Peserta: Mahasiswa Mayor ILKOM Site Material Elektronik (resources) http://julio.staff.ipb.ac.id Referensi Utama: Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schutze . 2008. Introduction to Information Retrieval. Cambridge University Press. C. J. van Rijsbergen. Information Retrieval. Information Retrieval Group, University of Glasgow. Richardo Baeza-Yates and Berthier Rieiro-Neto. Modern Information Retrieval Segaran, T., Evans, C., amd Taylor. 2009. Programming The Semantic Web. O’Reilly. JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Tata Tertib Kehadiran Paling lambat 15 menit setelah dosen masuk kelas/lab Berpakaian sesuai ketentuan TaTib IPB Minimum kehadiran 80% masing-masing untuk kuliah dan praktikum (syarat untuk UAS) No sound handphone, no BBM/FB/WA/SMS/Line/Path etc saat kuliah Tidak mengoperasikan laptop, gadget, dan sejenisnya.
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Kejujuran Akademik Setiap KECURANGAN akan diberikan imbalan nilai 0 pada mata kuliah ini Menyontek ataupun bekerja sama pada saat ujian Menyalin tugas hasil pekerjaan pihak lain Titip tanda tangan kehadiran
Imbalan (sanksi) akan diberikan untuk si pelaku maupun yang memberikan kesempatan
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Tips Belajar KOM431 Sehat jasmani dan rohani, serta tidak loyo/ngantuk Kuliah dengan sungguh-sungguh dan fokus. Bawa alat tulis dan buku catatan. Aktif dan banyak berdiskusi dengan pihak manapun. High curiousity, yakni rasa penasaran yang tinggi. Mau belajar dan aktif mencari sumber belajar lain
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Intermezo
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
What Google does?
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
What is this course about? Processing Indexing Retrieving ... textual data
Fits in four lines, but much more complex and interesting than that
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Beberapa Definisi IR Manning et al (2007): Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfy an information need from within large collections (usually stored on computers). Salton (1989): Information-retrieval systems process files of records and requests for information, and identify and retrieve from the files certain records in response to the information requests. The retrieval of particular records depends on the similarity between the records and the queries, which in turn is measured by comparing the values of certain attributes to records and information requests. Beeza-Yates & Ribeiro-Neto: Information retrieval system adalah sistem untuk merepresentasikan, menyimpan, mengorganisasikan, dan memproses informasi. JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
IR Bukan Hanya SE
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
IR vs Data Retrieval IR berkaitan dengan natural language text ... unstructured and semantically ambigous spesifikasi set of words untuk menentukan semantics dari information needed
Data Retrieval berkaitan dengan data ... well defined structure and semantic spesifikasi query expression untuk menentukan constrain yang harus dipenuhi untuk obyek yang akan menjadi himpunan jawaban
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
IR vs Database
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Typical IR Task Given: A corpus of textual natural-language documents. A user query in the form of a textual string
Find: A ranked set of documents that are relevant to the query
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Korpus Korpus adalah kumpulan dokumen berisi teks alami yang dipilih dengan cara tertentu, yang dapat dibaca oleh mesin. Media: teks, audio, video (multimedia) Pemrosesan korpus/teks: mengenali dan mendapatkan penciri (fitur) dari suatu dokumen Isu pada korpus: (1) Tokenisasi pada korpus, (2) Anotasi pada korpus
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Pemrosesan Dokumen/Teks Mengenali dan mendapatkan penciri (fitur) dari suatu dokumen — ekstraksi informasi (text mining) Bertujuan untuk mengetahui ”isi” dari dokumen. Text mining: proses ekstraksi pola yang berupa informasi dan pengetahuan dari sejumlah besar sumber data teks. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen Text mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, yaitu proses mengolah teks guna meng-ekstrak informasi yang bermanfaat untuk tujuan tertentu JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Text Mining Process
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Ruang Lingkup Empiris: Teks tidak hanya sekumpulan kata, sehingga pemrosesan teks melakukan analisis data dan pengujian hipotesis Teknik: Mengenali karakteristik dari sampel teks Metode: model dan metode statistik seperti peluang, nilai statistik, pembelajaran mesin, teori informasi, dsb
JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI
Pendahuluan
Kontrak Perkuliahan Pengertian IR Pemrosesan Teks
Statistik Teks Jumlah Kata: Seberapa besar korpus yang ada (N) Jenis kata: Berapa jumlah kata yang unik? Berapa besar perbendaharaan kata pada korpus?
Token (dapat berupa kata, kalimat, paragraf, atau bagian teks lainnya) Berapa jumlah token pada korpus? Berapa frekuensi dari setiap jenis token? Token apa yang paling sering muncul pada korpus? Bagaimana hubungan antar token?
Isu: Bagaimana melakukannya (Metode dan Algoritme, Program Komputer)? ... see you next week ;) JULIO ADISANTOSO Departemen Ilmu Komputer IPB
TEMU KEMBALI INFORMASI