STBI-2011
Sistem Temu Balik Informasi 2011
Mengenal Information Retrieval Husni
[email protected] Husni.trunojoyo.ac.id Komputasi.wordpress.com
2
3
Amazon.com
4
Amazon.com
5
6
7
8
9
Wordpress.com
10
11
12
13
14
15
16
17
18
Dosen Pengampu • Husni, S.Kom. MT. Lab. Sistem Terdistribusi (SisTer) Departemen Teknik Informatika Universitas Trunojoyo
• Rumah di Internet – Komputasi.wordpress.com Husni.trunojoyo.ac.id –
[email protected] – Facebook: Husni Ilyas Muda Intan 19
Perkualiahan (1) • Halaman web Kuliah – http://komputasi.wordpress.com • Waktu: 07.30 -09.30, Selasa (C) dan Kamis (D) • Ruangan: RKB-A 201 (C), RKB-A 103 (D) • Buku Teks Wajib: – Christopher D. Manning, Prabhakar Raghavan and Hinrich Schuetze, Introduction to Information Retrieval, Cambridge University Press, 2008. (Tersedia online, free)
• Prasyarat : – Pengetahuan dasar mengenai struktur data, algoritma, aljabar linier dan teori peluang. – Pengalaman pemrograman diperlukan untuk menyelesaikan proyek 20
Perkualiahan (2) • Referensi Pendukung (penting): – Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval: The Concepts and Technology behind Search, Addison-Wesley, 2011. – Stefan Buettcher, Charles L.A. Clarke, and Gordon V. Cormack, Information Retrieval: Implementing and Evaluating Search Engines, MIT Press, 2010. – Bruce Croft, Donald Metzler, and Trevor Strohman, Search Engines: Information Retrieval in Practice, Addison-Wesley, 2010. – Gerald Kowalski, Information Retrieval Architecture and Algorithms, Springer, 2011. 21
Buku lain tentang IR • Gerald Salton, Automatic information organization and retrieval, McGraw-Hill, 1968. • Gerald Salton and M.J. McGill, Introduction to modern information retrieval, McGraw-Hill, 1983. • C. J. van Rijsbergen, Information Retrieval, Butterworths, 1979. • K. Sparck Jones, P. Willett, Readings in Information Retrieval, Morgan Kaufmann, 1997. • I.H. Witten, A. Moffat, T.C. Bell. Morgan Kaufmann, Managing Gigabytes, 1999.
22
Penilaian • • • •
UTS UAS Proyek Tugas
25% 30% 30% (termasuk proposal) 25%
• Semua komponen penilaian bersifat wajib. Ketiadaan nilai pada salah satu komponen, nilai akhir otomatis E. 23
Tugas Pemrograman dan Proyek • Setidaknya ada dua tugas pemrograman – Team-based (maksimal 4 mahasiswa per tim) – Boleh menulis kode sendiri, boleh menggunkaan ulang open source – Topik: (diumumkan kemudian…)
• Proyek akhir – Boleh pengembangan sistem berbasis tim (sama dengan tugas pemrograman) – Boleh juga presentasi makalah akademis berbahasa Inggris • Makalah 2 tahun terakhir • Bersifat individu, bukan team-based – Batas pengumpulan proposal (hardcopy, 1 halaman A4): UTS • Latar belakang, metode, rancangan eksperiman 24
Kuliah ini Tidak Mengajari... • Tip & trik ketika menggunakan search engine, meskipun ide-ide lebih baik diperlukan dalam menggunakan search engine – Silakan membaca buku tentang itu
• Bagaimana mendapatkan buku di perpustakaan, meskipun ilmu IR berawal dari sana • Bagaimana memperoleh uang di Web, meskipun sekarang banyak ditawarkan oleh search engine 25
Information Retrieval?
26
Wikipedia
27
Google Maps
28
Google News
29
Blogs
30
Information Retrieval? • “Information retrieval is a field concerned with the structure, analysis, organization, storage, searching, and retrieval of information.” (Salton, 1968)
31
Goal (Tujuan) • Information retrieval (IR): suatu bidang penelitian yang menargetkan pencarian informasi secara efektif dan efisien dalam dokumen text dan multimedia
• Kuliah ini akan memperkenalkan model
dasar teks dan query dalam IR, evaluasi retrieval, indexing dan searching, dan aplikasi bagi IR 32
Menurut Wikipedia • Information retrieval (IR) adalah sains tentang pencarian dokumen, informasi dalam dokumen dan metadata mengenai dokumen, baik pencarian itu terhadap database relasional atau melibatkan Web. • IR merupakan pengetahuan antar-bidang keilmuan, termasuk ilmu komputer (informatika), matematika, ilmu perpustakaan, psikologi, linguistika dan statistika. • Sistem IR otomatis digunakan untuk mengurangi efek dari “information overload”. Search engine adalah aplikasi IR yang paling banyak digunakan. 33
Gambaran Besar
34
User Interface user need
Text Text Operations
Doc representation
logical view user feedback
Query Expansion
quer y Retrieval
retrieved docs Ranking ranked docs
Indexing inverted file Inverted Index
Document Collection 35
Topik dalam IR • Text IR – Indexing and Searching – Query Languages and Operations
• Retrieval Evaluation • Modeling – Boolean model – Vector space model – Probabilistic model
• Applications for IR – Multimedia IR – Web Search – Digital Libraries 36
Organisasi Buku Teks • Dasar IR (fokus) – Inverted indexes for boolean queries (Ch.1-5) – Term weighting and vector space model (Ch. 6-7) – Evaluation in IR (Ch. 8)
• Topik Lanjut – – – –
Relevance feedback (Ch. 9) XML retrieval (Ch. 10) Probabilistic IR (Ch. 11) Language models (Ch. 12)
• Pembelajaran Mesin dalam IR – Text classification (Ch. 13-15) – Document clustering (Ch. 16-18)
• Pencarian Web – Web crawling and indexes (Ch. 19-20) – Link analysis (Ch. 21) 37
Topik lain (diluar kuliah ini) • • • • • • • • • •
Cross-language IR Image, video, and multimedia IR Speech retrieval Music retrieval User interfaces Parallel, distributed, and P2P IR Digital libraries Information science perspective Logic-based approaches to IR Natural language processing techniques 38
Jadwal (Tentatif) • Sebelum UTS – Boolean retrieval (1 pertemuan) – Indexing (3 pertemuan) – Vector space model (2 pertemuan)
• Setelah UTS – Evaluasi (1 pertemuan) – Relevance feedback (1 pertemuan) – Web search (2 pertemuan) – Text classification (1 pertemuan) – Document clustering (1 pertemuan) – Presentasi Proyek (5 minggu terakhir, 1 jam) 39
Acuan Awal • Wikipedia: http://en.wikipedia.org/wiki/Information_retrieval
• Sumber lebih lengkap: http://nlp.stanford.edu/IR-book/informationretrieval.html
40
Pertanyaan?
41