Pertemuan 1
Pengantar Text Processing
Tujuan Kuliah • Mempelajari teknik-teknik penanganan Teks • Memberikan pengertian ttg masalah – masalah dasar dan prinsip-prinsip yang mendasari aplikasi dari pemrosesan teks
Apakah Teks itu? • Teks ≈ Korpus ≈ Koleksi dokumen yang bisa dibaca oleh mesin • Apakah 1 email itu adalah korpus? • Apakah 1000 email itu adalah korpus? • Berapa besar sebuah korpus? • Korpus apa yang paling besar?
Apa Maksud dari Pemrosesan? Empiris • Teks tidak hanya sekumpulan kata • Analisa data dan mengetes hipotesa • Temukan fakta baru ttg bahasa Teknik • Pengembangan aplikasi berbasis teks • Dapat dilatih secara otomatis • Cakupannya luas, tepat
Apa Maksud Pemrosesan Teks • Secara Statistik • Kenali karakteristik dari sampel teks Yang diperlukan adalah korpus dan cara untuk Memrosesnya
• Buat aplikasi yang berguna yang dapat mengerti Teks • Perolehan Informasi (Information Retrieval) • Pembuat ringkasan (Summarization) • Mesin Penerjemah (Machine Translation)
• Bagaimana cara melakukannya: probabilitas, statistik, teori informasi, machine learning • Model-model statistik • Metode-metode statisti
Melacak Teks • Temukan semua baris yang mengandung kata Subang Sejak awal Januari hingga 28 Agustus jumlah penderita demam Agustus, berdarah di Kabupaten Subang mencapai 797 orang, 11 di antaranya meninggal dunia. Dengan jumlah itu berarti dalam sebulan terjadi sekitar 100 kasus atau 3-4 kasus per hari. "Jumlah itu termasuk kasus-kasus demam berdarah dengue yang baru diduga atau suspect. CFR (crude fatality rate) atau angka kematiannya mencapai 1,5 persen," ujar Ananta Rahayu, Kepala Seksi Penanggulangan Penyakit Dinas Kesehatan Kabupaten Subang, Senin (28/8).
Menghitung Kata • Jumlah Kata – Seberapa besar korpus yang ada (N) • Jenis kata – Berapa jumlah kata yang unik? – Berapa besar perbendaharaan kata pada korpus? • Token kata – Berapa jumlah kata pada korpus? – Berapa frekuensi dari setiap jenis kata? • Kata apa yang paling sering muncul pada korpus?
Menghitung Kata • Kata bigrams apa yang paling sering muncul pada korpus? – Mis. Bukit Barisan, Iniversitas Indonesia • Kata trigrams apa yang paling sering muncul pada korpus? – Mis. seperti yang telah, presiden republik indonesia • Kata 4-grams apa yang paling sering muncul pada korpus? – Mis. daftar mata uang asing, daerah khusus ibukota jakarta
Aplikasi : IR IR mempelajari algoritma dan model untuk Memperoleh informasi dari koleksi dokumen Contoh : google
Aplikasi : Ringkasan • Bagaimana cara membuat ringkasan? Ambil 25% dari dokumen aslinya – Kalimat – Frase – Kata
Aplikasi : Ringkasan • Bagaimana cara memilihnya? – Pilih secara random – Pilih awal dari dokumen – Pilih bagian yang penting
Aplikasi : Mesin Penerjemah • Menerjemahkan dari satu bahasa ke bahasa yang lain (Mis. bhs Indonesia ke bhs Inggris) • Menulis program untuk melakukan penerjemahan Masalah yang sangat sulit • Perlu pengetahuan yang sangat banyak mengenai bahasa-2 tsb (linguistik yang mendalam). • Mempelajari korpus yang merupakan terjemahan dari bahasa-2 tsb (menggunakan korpus paralel).
Pertemuan 2 Korpus
Korpus • Masalah pada perancangan korpus – Ukuran – Jenis – Bahasa – Register
• Tokenisasi pada korpus • Anotasi pada korpus
Korpus • Korpus adalah badan dari teks yang muncul secara alami, biasanya dipilih dengan cara tertentu. • Korpus yang seimbang mencoba mewakili semua bahasa atau suatu domain. • Apakah baik untuk mempunyai korpus yang seimbang
Korpus Brown • Korpus awal yang terkenal Dibuat oleh Nelson Francis & Henry Kucera di Universitas Brown tahun 1960an • Merupakan korpus seimbang yang ditulis dalam bahasa Inggris Amerika Terdiri dari sejuta kata
Isi Korpus Jenis bahasa: • Teks : artikel, berita kawat, buku • Pidato spontan: pembicaraan (dialog), siaran Jenis • Novel bahasa Inggris pada abad 18 • Teks suratkabar, laporan berita kawat • Pembicaraan pemesanan penerbangan
Isi Korpus • Media: teks, audio, transkripsi, video Anotasi • Tokenisasi, struktur dokumen • Anotasi linguistik, format (markup language)
Tokenisasi • Tokenisasi adalah suatu tahap pemrosesan di mana teks input dibagi menjadi unit-unit yang disebut token yg merupakan suatu kata atau suatu angka atau suatu tanda baca. Perlu mengenali unit secara otomatis • Apakah kata itu? • Apakah suatu kata itu?
Apakah Kata itu? • Karakter alfanumerik yang bersambungan yang dipisahkan oleh whitespace. • Whitespace: spasi, tab, newline • • • •
Bagaimana dengan p2p, mazon.com,Micro$oft? Bagaimana dengan John’s, isn’t, Jum’at? Bagaimana dengan pro-aktif? Tanda sambung pada akhir baris?
Segmentasi Kata • Bagaimana dengan kata yang bukan bahasa Inggris? • Bahasa-bahasa di Asia Timur (Jepang, Cina), bahasa daerah • Indonesia (Jawa, Bali), tidak memecah kata dengan whitespace • Hard disk harddisk disk, • Kata gabungan dalam bhs Jerman: • Lebensversicherungsgesellschaftsangestellter (pegawai perusahaan asuransi jiwa) • Meskipun tokenisasi sederhana tidak terlepas dari kesalahan
PERTEMUAN 3
Pengenalan PERL
PERL • Practical Extraction and Report Language • Dikembangkan oleh Larry Wall pada tahun 1987 • Mengembangkan suatu bahasa script yang lebih baik daripada Unix shell tetapi tidak serumit C. • Berguna untuk memanipulasi teks yang • tidak dapat dilakukan oleh awk ataupun unix.
• #!/usr/local/bin/perl • #Ini adalah program untuk menulis kata ‘halo’ • print “Halo\n”;
Suatu program untuk menulis ‘Halo’ Tulis pada suatu file bernama ‘halo.p’ Untuk me-run pada Unix/Linux: • > perl halo.p
Jenis Data • • • •
Perl mempunyai 3 jenis data: Scalar Array dari data scalar Associative array atau hashes dari data scalar
• Nama variabel • Nama variabel scalar dimulai dengan $ (mis. $kelas) • Nama variabel array dimulai dengan @ (mis. @mahasiswa) • Nama variabel hash dimulai dengan % (mis. %tabel) • Nama variabel adalah case sensitive ($kelas ≠ $KELAS)
JENIS DATA (Lanjut) Data Scalar • Angka • digits, desimal, eksponensial dll. • $nilai = 350; • $nilai = 3.50 • St i Strings • Berada dalam tanda petik single / double; • Interpolasi dengan backslash • \n (newline) ; \t (tab) ; • \U (Uppercase) ; \L (Lower case) • print “\Uhalo\n”; HALO • print “ha\Ulo\n”; haLO
Operator Dasar • Operator untuk angka • arithmatic + - / * $x = (5+7) * (6+6); • exponential ** $x = 2 ** 3; • modulus % $x = 9 % 2; • Operator untuk string • Binary assignment += ; -= $x = $x + 5; sama dengan $x += 5 • Unary assignment ++ ; -- $x = $x + 1; sama dengan ++$x; • concatenation . $x = “halo” . “juga’ “halojuga” • repetition x $x = ui x 3; uiuiui
Operator Scalar Dasar • Operator untuk membandingkan • Perbandingan Numerik String • Sama == eq • Kurang dari < lt • L bihb d i > t • Lebih besar dari gt • Lebih kecil dari atau sama <= le • Lebih besar dari atau sama >= ge • Tidak sama != ne Operator untuk membandingkan • AND (&&), OR (||), NOT EQUAL (!)
Data Scalar Interpolasi variabel • $harga = ‘Rp 100’ • print “Harga gula satu kilo adalah $harga\n”; • Hasil : Harga gula satu kilo adalah Rp 100
Array & Data List • Suatu list adalah data scalar yang berturutan • Suatu array adalah suatu variabel yang berisi list Suatu array bisa berisi sejumlah elemen • (tidak perlu ditentukan panjangnya) • (1, 2, 3) • (“Senin”, “Selasa”, “Rabu”) • ()
Array • @namahari = (“Senin”, “Selasa”, “Rabu”); • @x = (1,2, 3) • @y = @x copy nilai x ke y • @y = (@x 4 5) nilai@y=(1 2 3 4 5) • x, 4, nilai @y = (1, 2, 3, 4, $z = @y panjang dari @y =5 • ($z) = @y $z = 1 mendapat elemen pertama • dari @y
Akses ke Array • Indeks pada array dimulai dari 0 • @nama = (“dani”, “irma”, “jojon”, “lili”); • $x = $nama[0] # $x = dani • $nama[2] = “gugun” # mengganti “jojon” menjadi “gugun” • gugun jojon gugun • @siswa = $nama[0,1] # @siswa berisi “dani’ dan “irma” • $i = 2 • $x = $nama[$i] # @nama = “jojon” • $x = $nama[$i-1] #nama = “irma”
• • • • • •
Control Structures Penggunaan IF / UNLESS if ($nilai > 60) { print “Lulus dengan ujian\n”; } else Fakultas Ilmu Komputer – Universitas Indonesia MA-39 • { print “ Tidak lulus ujian\n”; } • unless ($nilai > 60) • { print “Tidak lulus ujian\n”; }
Control Structures • Penggunaan WHILE / UNTIL • $i = 10; • while ($i > 5) • { $x = $i**; • print “Kuadrat dari $i adalah $x\n”; • } • until ($i < 5) • { print “ Kuadrat dari $i adalah $i**\n”; }
Control Structures Penggunaan for • for ($i = 1; $i <= 10; $i++) • { print “$i \n”; } • for ($i=0 ; $i<=$#nama; $i++) • { • $siswa = $nama[$i]; • $siswa =~ tr/a-z/A-Z/; • print "$siswa"; • }
Pertemuan 4 Manipulasi Teks
Tokenizing Menyusun kata-kata dari serangkaian karakter. Sulit dilakukan pada Bahasa Inggris, tetapi lebih sulit lagi pada bahasa lainnya. Sistem IR awal: 1. Beberapa rangkaian alphanumerik yang terdiri dari 3 karakter atau lebih. 2. Diakhiri dengan spasi atau karakter khusus lainnya. 3. Huruf besar diubah menjadi huruf kecil.
Tokenizing Contoh (dalam Bahasa Inggris): “Bigcorp's 2007 bi-annual report showed profits rose 10%.” Diubah menjadi: “bigcorp 2007 annual report showed profits rose” Terlalu sederhana untuk aplikasi-aplikasi pencarian bahkan untuk uji coba berskala besar. Kenapa? Terlalu banyak informasi yang hilang. 1. Keputusan kecil saat proses tokenizing akan berpengaruh besar pada keefektifan beberapa query.
Proses Tokenizing Langkah pertamanya adalah menggunakan parser untuk mengidentifikasi bagian-bagian dokumen yang sesuai untuk dijadikan token. Membedakan keputusan yang rumit pada komponen lainnya: Yang termasuk kata adalah serangkaian karakter alphanumerik, diakhiri dengan spasi atau karakter khusus, setiap huruf diubah menjadi huruf kecil. Setiap karakter harus diindeks. Contoh: 92.3 hasil proses tokenizingnya adalah 92 dan 3. Memadukan beberapa kaidah untuk mengurangi ketergantungan pada beberapa komponen transformasi query.
Proses Tokenizing Tidak jauh berbeda dengan proses tokenizing yang digunakan pada masa lalu. Contoh kaidah yang digunakan pada TREC: Tanda aposthrope/koma diatas (`) pada kata-kata diabaikan, misalnya: O`Connor menjadi oconnor Bob`s menjadi bobs Tanda titik (period) pada singkatan diabaikan, misalnya: I.B.M. menjadi ibm Ph.D menjadi phd
Stopping Kata fungsi (determiner dan preposisi) hanya memiliki sedikit makna asalnya. Memiliki frekuensi kemunculan yang tinggi (banyak ditemukan dalam dokumen). Dianggap sebagai kata henti (stop word) dan biasanya dihilangkan. Mengurangi penggunaan indeks, mempercepat waktu tanggap (response time) dan meningkatkan efektivitas. Tapi bisa menjadi sangat penting saat berada dalam suatu kombinasi, misalnya: “to be or not to be”
Stopping Daftar kata henti bisa dibuat dari kata-kata yang sering muncul (memiliki frekuensi tinggi) atau berdasarkan sebuah daftar standar. Daftarnya bisa disesuaikan dengan aplikasi, domain dan bahkan bagian-bagian dokumen. Sebagai contoh, “click” adalah kata henti yang baik untuk teks anchor (hyper link). Cara yang paling baik adalah dengan mengindeks seluruh kata dalam dokumen, kemudian membuat keputusan kata apa yang akan digunakan saat melakukan query.
Stemming Banyak variasi morpologis dari kata-kata.
Inflectional, contohnya kata jamak (plural) dan bentuk waktu (tenses). Derivational, contohnya pembentukan kata kerja, kata benda, dll. Pada banyak kasus, variasi morpologis ini memiliki arti yang sama. Stemmer digunakan untuk mengurangi variasi morpologis dari kata-kata menjadi bentuk stem yang umum. Biasanya dilakukan dengan menghilangkan akhiran (sufiks). Bisa dilakukan saat mengindeks atau sebagai bagian dari proses query (seperti kata henti/stop word).
Stemming Secara umum sangat kecil tapi signifikan untuk meningkatkan efektivitas. Bisa menjadi sangat krusial pada beberapa bahasa. Sebagai contoh, 5% s.d 10% peningkatan pada Bahasa Inggris, sampai 50% pada Bahasa Arab.
Stemming Dua tipe dasar:
Dictionary-based, menggunakan daftar kata-kata yang berhubungan. Algorithmic, menggunakan program untuk menentukan kata-kata yang berhubungan. Algorithmic stemmer Akhiran s: menghilangkan akhiran 's' yang diasumsikan kata jamak (plural). Contoh: cats menjadi cat, lakes menjadi lake, wiis menjadi wii. Bisa menjadi false negative, misalnya supplies menjadi suplie. Bisa menjadi false positive, misalnya ups menjadi up.
Frasa Banyak query merupakan frasa dari 2-3 kata. Frasa merupakan: Lebih teliti daripada kata tunggal. Contoh: dokumen yang berisi “Laut Hitam” bila dibandingkan dengan dua kata “laut” dan “hitam”. Tidak terlalu ambigu (bermakna ganda). Contoh: “apel yang besar” dibandingkan dengan “apel”.
Menyulitkan proses pemeringkatan (ranking). Sebagai contoh, diberikan sebuah query “fishing supplies”. Bagaimana cara kita me-ranking dokumen dengan: Frasa keseluruhan berulang kali, frase keseluruhan hanya sekali, kata individual pada kalimat yang sama, paragraf yang sama, dokumen yang sama atau variasi pada kata ?
Frasa Isu pada pemrosesan teks adalah bagaimana frasa dikenali. Tiga pendekatan yang mungkin: Mengidentifikasi sintaksis frasa menggunakan tanda part-of-speech (POS). Menggunakan kata n-gram. Menyimpan posisi kata dalam indeks dan menggunakan kedekatan operator dalam query.
PENGINDEKSAN Pertemuan 5
Indeks • Pengorganisasian berkas atau indeks digunakan untuk meningkatkan unjuk kerja dari sistem perolehan informasi • Pengindeksan teks adalah proses yang memutuskan apa yang akan digunakan untuk merepresentasikan dokumen tertentu • Indeks kata ini yang digunakan untuk mengindeks dokumen
Pengindeksan Secara Manual vs. Otomatis • Pengindeksan secara manual (dilakukan oleh manusia) • Pengindeks menentukan kata kunci yang diberikan kepada suatu dokumen berdasarkan perbendaharaan kata yang terkontrol (controlled vocabulary) • Biaya mahal • Pengindeksan secara otomatis • Program pengindeks menentukan kata atau frase tertentu dari teks pada dokumen • Prosesnya cepat
Tahapan Pengindeks 1. Lihat dokumen untuk mengenali strukturnya Mis. Judul, tanggal, dll. 2. Tokenisasi 3. Pembuangan stopwords 4. Proses pemotongan imbuhan (stemming) 5. Pembobotan kata 6. Pembuatan indeks
Tahapan Pengindeksan : Tokenisasi • Hilangkan karakter yang tidak penting / tanda-tanda(mis. HTML tags, tanda baca, karakter khusus), huruf besar, nomor Potong menjadi token • Bahasa seperti non-latin perlu segmentasi • Catat informasi posisi kata untuk operator • proximity
Pembuangan Stopwords • Semua kata yang termasuk dalam daftar stopwords, yaitu daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang • Jumlahnya bisa ratusan kata • Perhatikan kata yang menjadi bagian dari frase: Yang Maha kuasa, vitamin A, gerbang dan-atau (and-or gate) Berguna untuk menghemat penyimpanan indeks (efisiensi)
Proses Pemotongan Imbuhan (Stemming) • Pemrosesan morfologi terhadap sekelompok variasi kata: perubahan kata berimbuhan menjadi kata dasar • Misalnya: diberikan beri • Bisa salah tetapi banyak digunakan pada • IR system
Pembobotan Kata • Kata yang penting seharusnya diberi bobot yang lebih berat • Menggunakan frekuensi dalam dokumen dan koleksi
Efek Penggunaan Stemmer • Apakah penggunaan Stemmer dapat meningkatkan unjuk kerja dari sistem perolehan informasi? • Hasil penelitian penggunaan stemmer sangat beragam Ada yang dapat membantu meningkatkan jumlah dokumen pada suatu koleksi tapi pada koleksi yang lain dapat menurunkan jumlah dokumen yang diperoleh • Kurang berguna untuk koleksi Web yang sangat besar
Stemmer untuk Bahasa Indonesia • Imbuhan (afiks): Prefiks / awalan (meng, di, ber, peng, ke, se, ter) Mis. di + beri diberi • Sufiks / akhiran (I, kan, an) Mis. makan + an makanan • Confiks / gabungan prefiks & sufiks (me-kan, ber-an) Mis. meng + beli + kan membelikan • Prefiks & Sufiks dapat ditambahkan pada kata yang telah mempunyai prefiks atau confiks Mis. mem + per + hati + kan memperhatikan
Stemmer untuk Bahasa Indonesia Algoritma stemmer : • Kata dasar • Kata berakhiran – infleksional • Kata berimbuhan • Tidak ada • Menggunakan kamus yang berisi daftar kata dasar
Stemmer untuk Bahasa Indonesia Kata berakhiran – infleksional • Akhiran ku, mu, nya harus mendahului kah, lah, tah • Hasil : kata dasar atau kata berimbuhan Kata berimbuhan • Lihat apakah prefiks & sufiks sudah sesuai aturan Mis. Prefiks ber tidak dapat digabung dengan sufiks i Setelah dihilangkan konfiksnya, teliti apakah fonemnya perlu diubah (mis. meng + ambil mengambil ; meng + satukan menyatukan)
Stemmer untuk Bahasa Indonesia Evaluasi: • Dari 18,590 kata berimbuhan, 95 % bisa diperoleh kata dasarnya dengan benar dan 5 %-nya diperoleh kata yang salah Kesalahan: • Salah melakukan perubahan fonem Mis: mengawani = meng + awan + i atau meng + kawan + i • Mis-stemming (salah melakukan pemotongan kata)Mis. berikan = beri + kan atau ber-ikan
Stemmer untuk Bahasa Indonesia Understemming (kata terlalu sedikit yang dipotong) • Mis. beruangkah = beruang + kah atau ber + uang +kah
Pertemuan 6 Information Model
Model Perolehan Informasi • Model adalah suatu idealisasi / abstraksi dari proses yang sesungguhnya • Model matematika digunakan untuk mempelajari properti dari proses, mengambil kesimpulan, membuat ramalan
Model Perolehan Informasi Suatu Model Perolehan Informasi berisi : • Representasi dokumen • Representasi query • Fungsi Perolehan (Retrieval)
Perolehan Informasi Jenis indeks Manual • Indeks ditentukan secara manual oleh manusia berdasarkan suatu perbendaharaan kata yang sudah ditentukan • Pencari informasi menggunakan daftar perbendaharaan kata yang sama • Ketepatannya sangat tinggi
Perolehan Informasi Jenis indeks • Otomatis Indeks berisi kata-kata yang ada pada dokumen (inverted index)Kata-kata pada dokumen mengindikasikan isi dokumen • Pencari informasi menggunakan bahasa alami • Ketepatan pada perolehan dokumen ditentukan oleh bobot kata-kata pada dokumen
Model Boolean • Model Boolean adalah salah satu model pencocokan secara tepat (exact-match) Query mempunyai kriteria perolehan yang tepat • Setiap dokumen bisa cocok atau tidak cocok dengan query Hasilnya adalah suatu set dokumen (tidak ada urutan)
Model Boolean Operator Boolean yang murni: AND, OR, dan NOT • Kebanyakan sistem mempunyai operator proximity Mengapa exact match masih banyak digunakan di bidang komersial? • Perbedaan ‘budaya’ • Biaya pelatihan dan pengoperasian sistem baru • Tidak jelas perbedaan hasil penelitian pada koleksi besar dan kecil Untuk beberapa query atau koleksi, seringkali hasil Boolean lebih baik (mis., menggunakan AND di web)
Bahasa query sederhana: Boolean • Kata + Penghubung (atau operator) Kata • Kata yang di-stemmed • frase • Kata-kata dalam thesaurus Penghubung • AND • OR • NOT
Model Boolean • Set kata-kata hanya berisi “tidak ada” dan ada” • Nilai-nilai “Boolean” direpresentasikan sebagai 0 dan 1 • Kombinasikan barisnya dengan “operator Boolean” AND, OR, NOT • Hasil: setiap dokumen yang nilainya 1
Kelebihan dari Model Boolean • Operator Boolean bisa mendekati bahasa alami Cari dokumen tentang demonstrasi menentang kenaikan harga minyak tanah • AND dapat menemukan hubungan antara konsep Demonstrasi mahasiswa • OR dapat menemukan terminologi alternatif Demonstrasi karyawan • NOT dapat menemukan arti alternatif Demonstrasi memasak
Kelebihan dari Model Boolean • Query sederhana, mudah dimengerti • Relatif mudah untuk diimplementasikan
Kekurangan dari Model Boolean • Bahasa alami sangat kompleks Dia melihat seseorang di pantai dengan teropong • AND menemukan hubungan yang tidak ada Kata-kata di paragraf yang berbeda, bab, … • Menebak terminologi OR sangat sukar baik, bagus,…
Kekurangan dari Model Boolean • Sering menghasilkan terlalu banyak dokumen - Semua dokumen yang cocok akan muncul - Sukar mengurutkan dokumen • Sukar untuk mengekspresikan permintaan pemakai yang kompleks • Pemakai harus belajar lojik Boolean Perbendaraan kata pada indeks harus sama dengan perbendaharaan kata pada query
PENGERTIAN CITRA DIGITAL PERTEMUAN 9
Ada 3 bidang studi utama yg menangani data berbentuk gambar atau citra • Grafika komputer • Pengolahan Citra • Pengenalan Pola/visi komputer
Grafika Komputer • Melakukan proses yg bersifat sintesis • Data masukan berbentuk deskriptif • Keluaran hasil proses yg berbentuk gbr Contoh Proses penggambaran prespektif suatu objek tiga dimensi, yg menggunakan data masukan berupa koordinat titik – titik yg membentuk objek tsb.
Pengenalan pola/ Visi komputer • Data masukan berupa citra / gambar • Proses yg dilakukan adl proses penggalian strutur gambar dgn hasil keluaran berupa deskriptif Contoh Pengenalan jenis penyakit paru melalui citra sinar –X paru penderita
Pengolahan citra Merupakan proses pengolahan dan analisis citra yg banyak melibatkan persepsi visual Proses ini mempunyai ciri data masukan dan informasi keluaran berbentuk citra.
Dalam kenyataanya, batasan antara ketiga bidang studi diatas sulit untuk ditentukan Contoh Proses pembuatan film animasi, objek dan proses animasinya diciptakan dgn teknik grafika komputer sedangkan pembuatan latar belakangnya dilakukan dgn pengolahan citra.
Citra sbg keluaran suatu sistem perekaman data : • Bersifat Optik berupa foto • Bersifat analog berupa sinyal analog ( gbr pd monitor TV ) • Bersifat Digital yg dpt langsung di simpan pd suatu pita magnetik
Secara teoritis citra dpt dikelompokan pd kelas : • Kontinu – kontinu • Kontinu diskrit • Diskrit kontinu • Diskrit – diskrit Label pertama menyatakan presisi dari titik – titik koordinat pada bidang citra Label kedua menyatakan presisi nilai keabuan(warna)
• Kontinu dinyatakan dgn presisi angka tak terhingga • Diskrit dinyatakan dgn presisi angka terhingga Komputer digital bekerja dgn angka presisi terhingga ( kelas diskrit-diskrit yg diolah dgn komputer)
• Untuk mengubah citra yg bersifat kontinu menjadi digital diperlukan pembuatan kisikisi arah horizontal dan vertikal, sehingga diperoleh gbr dlm bentuk array 2 dimensi. • Proses tsb dikenal dgn proses digitasi atau sampling.
Proses kuantisasi, menyatakan tingkat keabuan piksel akan menentuekan resolusi kecerahan dari gbr yg diperoleh. Gambar dari memori citra kebentuk peragaan pd monitor TV dikenal sbg konversi digital – ke - analog
Citra monokrom(hitam-putih) • Citra monokrom(hitam-putih) merupakan citra satu kanal, • dimana citra f(x,y) merupakan tingkat fungsi keabuan dari hitam ke putih. • X menyatakan variabel baris/garis jelajah • Y menyatakan variabel kolom/posisi piksel
Citra berwarna • Dikenal dgn citra multi-spektral • Warna citra dinyatakan dgn 3 komponen (merah, hijau dan biru ). • Citra berwarna {fmerah(x,y),fhijau(x,y),fbiru(x,y)} merupakan fungsi harga vektor tingkat keabuan merah, hijau dan biru.
• Bila suatu masukan bentuk impuls dilakukan pd suatu filter, mk keluaran yg diperoleh dikenal dgn sebutan respon impuls. • Respon impuls adl citra hasil rekaman pd bidang keluaran dari suatu sumber titik ideal pd bidang masukan.
Suatu Filter disebut sbg filter linear bila memenuhi : • Alpha f(x) Alpha g(x) • f1(x) + f2(x) g1(x) + g2 • Alpha1 f1(x) + Alpha2 f2(x) Alpha1 g1(x) + Alpha2 g2(x)
Pertemuan 10 Perangkat Pengolah Citra
Sistem penangkap citra digital terdiri dari tiga komponen dasar : • Sensor citra bekerja sbg pengukur intensitas cahaya. • Perangkat penjelajah bertugas merekam hasil pengukuran intensitas pada seluruh bagian citra. • Pengubah analog ke digital Yang mengubah harga kontinu ke diskrit sehingga dpt diproses komputer.
Perangkat keras yg dibutuhkan sebagai pengolah citra : • Prosesor dengan kecepatan tinggi. • Pararell pipelined
Komputer merupakan bagian perangkat keras yg bersifat multiguna. Bagian ini terdiri dari sistem komputer yg dilengkapi : • Alat masukan • Alat keluaran • Terminal , digunakan untuk komunikasi antara pemakai dan sistem komputer
• Sub sistem masukan video digunakan untuk memasukan data citra yang berasal dari suatu alat perekam dan pembaca video, hasil foto melalui sistem kamera. • Keluaran video yang mengeluarkan hasil proses pengolahan citra, seperti dlm bentuk cetak film alat fotografi, cetak gbr hasil plotter, ataupun bentuk peragaan melalui layar peraga suatu monitor video seperti Televisi.
• Sistem kontrol proses interaktif terdiri dari peralatan yg digunakan utk melaksanakan komunikasi antar pemakai dengan mesin. • Alat yang paling sederhana berupa suatu terminal dan papan kuncinya untuk memasukan suatu karakter. • Komunikasi dpt dilakukan antara lain melalui trackball sbg alat penunjuk pd posisi layar peraga.
Perangkat lunak pengolahan citra Paket perangkat lunak pengolahan citra mencakup bidang aplikasi bidang: • Riset dan pengembangan • Seni grafis • Film animasi • Penginderaan jauh • Astronomi • Meteorologi • Oseanografi • Biomedis , dll
jenis paket lain yg dikombinasikan dgn perangkat keras tertentu dan membentuk suatu sistem turnkey: • Sistem ERDAS yg digunakan pd aplikasi penginderaan jauh yg dikembangkan oleh Gould Company dari Kanada • Meridian Image Analysis, utk aplikasi penginderaan jauh ataupun biomedis yg dikembangkan oleh MDA Macdonald Dettwiller and associates LTD dari Kanada
Tujuh modul yg merupakan pengelompokan rutin menurut fungsi yg sejenis : • Modul proses berkas masukan dan keluaran. Terdiri dari proses pemindahan berkas citra dan penyimpanan diluar seperti pita magnetik atau disk ke memori komputer, atau sebaliknya menurut format tertentu.
• Modul proses filtering dan koreksi radiometris. Merupakan modul yang menangani peningkatan mutu citra yang dilakukan dgn operasi kernel dan penggunaan looking up table. • Modul yg berfungsi melakukan proses koreksi geometris.menyediakan proses registrasi citra berdasarkan titik kontrol yg telah diketahui koordinatnya
Modul klasifikasi citra utk melakukan: • Pembentukan set sample • Proses pengelompokan data • Menghitung statistik ciri setiap kelas atau kelompok pola dari objek yg sama.
• Modul yg berfungsi menghitung segala nilai-nilai statistik citra yg biasanya dibutuhkan dlm proses analisis citra.
• • • • • •
nilai statistik yg sering dibutuhkan adalah: Harga rata-rata Standar deviasi Varian Matrik Vektor histrogram
Modul operasi matematika meliputi segala operasi yg yang bersifat arimatik seperti : • Tambah, kurang, kali, rasio, akar Bersifat logik : AND, OR, NOT dan XOR
Modul proses pembuatan laporan dan peragaan secara grafis
Pertemuan 11 Aplikasi penginderaan jauh
Aplikasi penginderaan jauh Merupakan suatu sistem yg digunakan utk merekam data mengenai permukaan bumi berdasarkan pengukuran yang dilakukan dari jarak jauh, dlm hal ini menggunakan pesawat terbang atau sistem satelit. Tujuan agar dpt merekam data daerah bumi yg cukup luas , utk kepentingan survai maupun pemantauan sumber daya alam
Komponen sistem penginderaan jauh • Sumber radiasi menggunakan sinar matahari , mk perekaman data hanya dpt dilakukan pada pagi sampai sore hari. kecuali perekam data dgn sensor infrared panas berdasarkan perbedaan temperatur. • Sensor, data yg direkam dpt berupa gbr pd layar peraga, berbentuk foto atau data digital yg direkam pada pita magnetik.
Aplikasi Robotik Pengolahan citra pd aplikasi dibidang robotik banyak menggunakan proses pengenalan objek. Contoh Dlm penyusunan program sebuah robot yg direncanakan utk dpt berjalan melalui jalur tertentu dan dpt menghindari objek – objek dgn bentuk tertentu.
• Jalur transmisi, dalam sistem ini dilakukan melalui atmosfir. • Sasaran, dlm hal ini adl suatu daerah pd permukaan bumi.
Tahapan proses pengolahan citra digital : • Koreksi geometris • Peningkatan mutu citra • Reduksi data • Klasifikasi dan segmentasi citra • Kombinasi peta
Aplikasi biomedis Proses – proses pengolahan biomedis secara digital umumnya bertujuan utk mendeteksi objek dan utk melakukan pengukuran yg lebih lanjut kemudian digunakan utk mendukung proses diagnosis
Aplikasi industri Proses pemeriksaan kualitas suatu produk industri, misalnya pemeriksaan wiring yg putus pd rangkaian elektronik atau penempatan dari suatu komponen elektronik yg tidak tepat.
Aplikasi Arsip citra dan dokumen Proses yg dibutukan pada pengaturantata letak gbr pd dokumen adalah : • Proses peningkatan mutu gbr • Proses pengaturan posisi, ukuran dan orientasi gambar.
Pertemuan 12 Peningkatan Mutu Citra
Proses pengolahan citra yg termasuk dlm katergori peningkatan mutu citra dari proses – proses yg bertujuan utk • memperoleh keindahan gambar • Kepentingan analisis citra • Mengkoreksi citra dari segala gangguan yg terjadi pd waktu perekaman data.
Peningkatan Kontras Citra • Kontras yg tidak baik karena terlalu terang, yg dlm istilah fotografi disebut over exposed • Kontras yg kurang baik di mana gbr mengalami underexposed • Kontras baik dimana tingkat keabuan secara penuh dgn distribusi piksel yg hampir merata pd setiap harga intensitas piksel.
Penggeseran dan pelebaran histogram • Teknik penggeseran histogram dilakukan dengan cara penambahran atau pengurangan nilai intensitas setiap piksel citra berhubungan dengan suatu harga konstanta integer. • Teknik pelebaran histogram dilakukan dengan cara pengalian atau pembagian nilai intensitas setiap piksel dengan suatu harga konstanta integer tertentu.
• Penambahan nilai intensitas piksel dgn suatu harga konstanta dgn memberikan efek gambar menjadi lebih terang. • Pengurangan mempunyai efek yg berlawanan, dimana gambar kelihatan menjadi lebih gelap.
• Pelebaran histogram dgn cara pengalian tingkat keabuan asli dgn sesuatu harga konstanta tertentu, akan memberikan efek serupa dgn proses penggeseran histogram cara penambahan. Gambar akan cenderung lebih terang. • Cara pembagian , gambar yg diperoleh cenderung lebih gelap, krn intensistas tingkat keabuan baru yang lebih rendah.
Kontras Biner Yaitu penggunaan hanya dua tingkat keabuan. Objek yg akan diteliti diberi warna yg jelas misalnya hitam dengan intensitas tingkat keabuan 1, sedangkan objek lainnya diberi warna yg sama dgn warna latar belakang misalnya putih dgn intensitas tingkat keabuan 0.
Pertemuan 13 Pengelompokan dan pengenalan pola
• Manusia memiliki kemampuan yg luar biasa untuk mengenali objek – objek berdasarkan ciri – ciri atau pengetahuan yg pernah diamatinya dari objek – objek yg bersangkutan. Contoh Penulisan huruf dgn tangan: a , a,A,T Tidak sulit bagi manusia untuk membedakan bentuk huruf yg dicetak, tetapi apakah komputer akan sanggup melakukan proses pengenalan tsb.
• Suatu alat yg mampu mengenali bentuk karakter terbatas telah dpt dibuat oleh manusia. Alat itu dikenal dgn sebutan Optical Character Recognation (OCR), namun sampai sekarang belum berhasil diperoleh suatu OCR yg mampu mengenali bentuk karakter sembarang. • Usaha – usaha tersebut telah mendukung berkembangnya suatu disiplin dan metodelogi yg kemudian dikenal dgn nama pengenalan pola
• Pola adalah intensitas yg terdefinisi dan dpt diberi sesuatu atau nama. contoh : gelombang suara sidik jari Raut wajah ,dan lain sebagainya. misalnya utk identifikasi seorang pembicara berdasarkan suaranya, maka digunakan pola hasil trasnformasi gelombang suara
Tahapan dan tujuan proses pengenalan pola 1. Memasukan pola kedalam suatu pola kelas yg belum dikenal prosesnya disebut clustering atau klasifikasi tidak terawasi. 2. Mengidentifikasi pola sebagai anggota dari kelas yg sudah dikenal, prosesnya disebut klasifikasi terawasi
Teknik – teknik pengenalan pola telah mengakibatkan revolusi pemrosesan data satelit dlm menghasilkan informasi mengenai kondisi tanah, ragam vegetasi, pola cuaca, topografi permukaan bumi.
Terdpt 2 pendekatan utama : • Pendekatan geometrik(statistik) pembedaan antara objek dilakukan berdasarkan ciri objek dan fungsi kerapatan pola. proses pengelompokan polanya dilakukan melalui proses estimasi dan klasifikasi.
• Pendekatan struktural(sintatik) dilakukan melalui penentuan primitif yg dpt menggambarkan objek bersangkutan dan penyusunan tata bahasa. pengelompokan pola dilakukan melalui proses inferensi dan deskripsi.
Sistem pengenalan pola beroperasi dlm 2 fase: 1. Fase Latih 2. Fase Pengenalan
• Fase Latih pengekstrasi ciri menentukan ruang ciri yg sesuai utk mempresentasikan pola. Pembuatan aturan klasifikasi mempartisi ruang sedemikian rupa shg jumlah tumpang tindih antara kategori menjadi sekecil mungkin.
• Fase pengenalan pengklasifikasian menentukan suatu pola masukan sbg salah satu kategori objek yg telah dispesifikasikan menurut ciri – ciri pengukuran objek.
Pertemuan 14 Klasifikasi dan Segmentasi Citra
Tujuan dari proses klasifikasi citra adalah utk mendapatkan gam bar atau peta tematik. Gambar tematik adalah suatu gambar yg terdiri bagian-bagian yg menyatakan suatu objek atau tema. Setiap objek pd gambar tersebut mempunyai simbol yg unik , yg dpt dinyatakan dgn warna atau pola tertentu.
Contoh Citra hasil suatu foto instrumen biomedis dpt diklasifikasikan menjadi bagian tulang, jaringan sehat, dan jaringan sakit.
Segmentansi citra itu sendiri mempunyai arti membagi suatu citra menjadi wilayah – wilayah yg homogen berdasarkan kriteria kesamaan yg tertentu antara tingkat keabuan suatu piksel dgn tingkat keabuan piksel – piksel tetangganya.
Segmentasi citra berdasarkan histogram Merupakan teknik citra yg paling mudah diterapkan. Proses diawali dgn pembuatan histogram dari citra yg akan disegmentasi. Proses segmentasi dilakukan dgn membagi citra kedlm beberapa kategori objek sesuai dgn pengelompokan tingkat keabuan yg terjadi pd histogram.
Karakteristik setiap objek pada pengamatan mempunyai pola tertentu. Sebagai contoh diambil citra hasil pengamatan sistem satelit sumber daya alam. Objek –objek permukaan bumi seperti tumbuhan , tanah dan air bisa dianggap sbg objek yg mempunyai pola tingkat keabuan yg dpt dibedakan.
Pada rekaman satelit cuaca, peta liputan awan yg diperoleh dpt di lihat bahwa semakin putih tingkat keabuanya makin besar jumlah awan yg menutupi wilayah bersangkutan. Besarnya curah hujan disuatu daerah juga dpt ditentukan melalui karakteristik dari awan.