Kode / Nama Rumpun Ilmu : 458/ Teknik Informatika Komputer Informatika ktro ELEKTRO
USULAN PENELITIAN DISERTASI DOKTOR
PELACAKAN OBYEK BERGERAK (MOTION TRACKING) PADA VIDEO TAGGING BERBASIS PEMBELAJARAN TIDAK TERBIMBING MENGGUNAKAN METODE KLASTERING
PENGUSUL Moch Arief Soeleman, M.Kom. NIDN: 0628027101
UNIVERSITAS DIAN NUSWANTORO SEMARANG APRIL 2014
1
2
DAFTAR ISI
RINGKASAN................................................................................................
1
BAB I. PENDAHULUAN............................................................................
2
BAB II. TINJAUAN PUSTAKA...............................................................
9
BAB III. METODE PENELITIAN............................................................
15
BAB IV. BIAYA DAN JADWAL PENELITIAN ...................................
16
DAFTAR PUSTAKA................................................................................
16
LAMPIRAN................................................................................................
19
Lampiran 1. Justifikasi Anggaran Penelitian.............................................. Lampiran 2. Dukungan Sarana dan Prasarana Penelitian ........................... Lampiran 3. Surat Keterangan Promotor …………………........................ Lampiran 4. Biodata Peneliti …................................................................... Lampiran 5. Surat Pernyataan Peneliti ………............................................
19 21 22 23 26
3
ABSTRAKSI Pesatnya pertumbuhan dan perkembangan dari teknologi digital serta ketersediaan pada peralatan berbasis video seperti kamera digital, telepon bergerak dengan kamera, menyebabkan terjadinya peningkatan secara cepat dalam perangkat penyimpanan, jaringan dan teknik kompresi dalam sekala besar. Dampaknya diperlukan teknologi yang dapat menyimpan secara efisien untuk data video. HEVC sebagai teknologi kompresi baru berbasis efisiensi video coding diharapkan menajdi kompresi data video terbaik dari segi efisiensi ukuran penyimpanan. Sebagai pembanding kompresi standar H.264/MPEG-4 AVC pada level kualitas video yang sama. HEVC mendukung 8K UHD dan ukuran resolusi hingga 8192 x 4320 piksel. Video object tagging sebagai riset dalam video pelabelan otomatis untuk video surveilance menjadi bagian dari aplikasi video intelligent system dan interaksi manusia dan komputer. Secara konseptual video object tagging merupakan proses pemberian label pada obyek bergerak khususnya di video yang bertujuan untuk membantu efisiensi dalam pencarian, klasifikasi atau pengenalan objek pada video. Pada riset ini, akan dikembangkan framework untuk menuju sistem video object tagging khususnya pada motion tracking berbasis unsupervised learning dengan menggunakan metode clustering. Pada tahapan ini akan dilakukan proses tracking, ektraksi objek dan proses pelabelan. Tujuan utama yang akan dicapai pada penelitian ini mendukung terbangunnya model framework proses video object tagging pada video surveilance. Metode yang akan dilakukan dalam penelitian ini dalam membangun framework video object tagging meliputi proses deteksi, tracking, ekstraksi fitur dan pelabelan. Pendeteksian obyek bergerak yang akan dilakukan dengan background subtraction, selanjutnya proses clustering digunakan untuk melakukan proses segmentasi fitur dengan menggunakan fuzzy c-means clustering. Dengan mencapai keberhasilan tracking dan segmentasi obyek bergerak maka akan didapatkan obyek yang akan diberikan pelabelan secara otomatis untuk pengenalan obyek dalam video surveilance. Penelitian video object tagging diharapkan menjadi penelitian pelopor dalam bidang video object yang semakin berkembang pesat. Keywords : Video tagging, Tracking, clustering, segmentasi.
4
BAB I PENDAHULUAN
1.1
Latar Belakang
Pesatnya pertumbuhan dan perkembangan dari teknologi digital serta ketersediaan pada peralatan berbasis video capture seperti kamera digital, telepon bergerak dengan kamera, menyebabkan terjadinya peningkatan secara cepat dalam perangkat penyimpanan, jaringan dan teknik kompresi dalam sekala besar. Awal pengembangan teknik kompresi video telah didominasi oleh keinginan untuk memaksimalkan kemampuan kompresi. Data video asli yang ukurannya terlalu besar diharapkan dapat disimpan ke dalam ukuran file yang cukup kecil. Selain itu, aspek lain yang perlu dipertimbangkan adalah seberapa besar data yang hilang akibat proses kompresi. Standar kompresi video yang paling sukses dan masih digunakan sampai saat ini yaitu H.262/MPEG-2 Video (1994) dan H.264/MPEG-4 AVC (1999). Keduanya dikembangkan oleh dua lembaga standarisasi internasional (joint project), yaitu ITU-T dan ISO/IEC. Saat ini, standar kompresi video terbaru yang dikenal sebagai High Efficiency Video Coding (HEVC). HEVC mampu menggandakan rasio kompresi data video jika dibandingkan kompresi standar H.264/MPEG-4 AVC pada level kualitas video yang sama. HEVC mendukung 8K UHD dan ukuran resolusi hingga 8192 x 4320 piksel. Beberapa ekstensi HEVC yang masuk dalam daftar pengembangan, meliputi ekstensi jangkauan (mendukung format video yang kualitasnya ditingkatkan), ekstensi coding yang scalable, serta ekstensi video 3D. Dari banyak keunggulan yang dimiliki, HEVC akan menentukan fase baru dalam hal teknologi kompresi yang ditargetkan untuk meningkatkan pengalaman pengguna dalam efisensi penyimpanan data. HEVC sangat efisien dalam mengatasi dari rendah ke resolusi sangat tinggi, sehingga dapat mendukung berbagai macam display yang baru. Studi yang mempelajari tentang tagging pada sekumpulan data set besar dari konsep semantic untuk data video merupakan harapan untuk menjembatani gap yang ada [1],[2],[3],[4]. Menurut Hauptmann [1] semantic gap antara low-level fitur dan informasi ke user dimasukkan ke dalam 2 kelompok gap, pertama pemetaan low-level fitur ke tingkat menengah konsep semantic, kedua pemetaan konsep tersebut ke dalam kebutuhan user. Annotation atau tagging memastikan langkah untuk menyelesaikan ke pendekatan low-level. 5
Video annotation secara otomatis juga di kenal dengan nama “video concept detection” [5], “video semantic analysis” [6] atau “high level feature extraction” [7]. Umumnya seperti diketahui bahwa metode labeling dalam gambar dapat dilakukan secara otomatis atau semi-otomatis. Terakhir kali, metode-metode dalam membantu untuk proses otomatis menghasilkan sekumpulan dari semantic label berbasis gambar pada konten visual diantaranya [8],[9],[10],[11],[12], metode ini pertama melakukan ekstraksi low-level feature pada citra gambar dan membuat sebuah matematika model untuk menghubungkan low-level isi citra gambar sehingga disebut dengan metode content based image tagging (CBIT) Dari hasil penelitian terdahulu tersebut mendorong peneliti dalam melakukan teknik automatic image annotation yang memfokuskan pada penandaan teks secara otomatis pada citra gambar sehingga citra gambar tersebut menjgap adi kunci pencarian. Tagging secara otomatis dapat dilakukan melalui ekstraksi beberapa feature dari sebuah citra gambar. Dari pemetaan feature tersebut akan dijadikan dalam kunci penulisan teks. Secara umum pemanfaatan feature dalam literature
dapat
dikelompokkan pada warna, texture dan bentuk. Beberapa tahun terakhir, tagging pada video mengalami kemajuan cukup signifikan. Beberapa usulan untuk pendekatan dalam video tagging, diantaranya seperti semi-suppervised learning [14],[15],[16], active learning [17,18], multiinstance learning [19] dan multi-label learning [20], ke semua metode telah berhasil meningkatkan performance dalam area masing-masing. Pada metode supervised, model dari konsep semantic dibangun melalui sekumpulan pelatihan penamaan, dan ketika ada penamaan sampel baru dapat diprediksi melalui model pembelajar. Sedangkan semi-supervised learning dan active learning merupakan dua pendekatan untuk mengatasi kesulitan pada data pelatihan yang tidak mencukupi pada model supervised. Metode Semi-supervised learning unlabeled data dengan asumsi yang pasti
mengekploitasi
dan memiliki keyakinan untuk
membangun model yang lebih akurat dibanding yang sudah dicapai pada model supervised. Problem dari semantic video object tagging berkaitan kuat dengan problem dasar pada visual categorization, seperti klasifikasi dari objek lebih dari pengenalan sebuah spesifik kelass dari obyek. Dari semua problem tersebut, problem dari semantic video tagging yang belum dilakukan dalam penelitian adalah pembahasan untuk mengenali obyek saat obyek bergerak. Untuk mencapai kondisi yang efektif 6
dari perubahan yang tampak maka fitur-fitur objek harus dapat dikenali dalam video obyek tagging.
1.2
Permasalahan
Beberapa permasalahan yang akan menjadi fokus dalam penelitian motion tracking pada video object tagging sebagai berikut : a. Bagaimana melakukan tracking pada motion obyek bergerak
berbasis
background subtraction b. Bagaimana melakukan ekstraksi terhadap obyek bergerak dengan menggunakan metode klastering secara otomatis. c. Bagaimana
melakukan pengenalan obyek bergerak pada video untuk
mendukung proses video tagging berbasis unsupervised untuk menyelesaikan problem video object tagging.
1.3
Tujuan Khusus
Adapun tujuan penelitian sebagai berikut : a. Menyelesaikan problem tracking dengan metode clustering pada obyek bergerak . b. Menyelesaikan problem dalam melakukan ektraksi fitur pada obyek bergerak untuk video object tagging. c. Menyelesaikan problem dalam mengenali semantic video object tagging pada video surveilance
1.4
Keutamaan Penelitian a. Dibentuk sebuah model untuk tracking obyek bergerak dengan metode clustering b. Dikembangkan sebuah sistem untuk ekstraksi obyek bergerak untuk video objek tagging berbasis clustering. c. Dikembangkannya sebuah sistem untuk video obyek tagging
untuk
mengenali / pelabelan obyek dalam sistem video surveillance.
1.5
Keterkaitan Penelitian dengan Penyelesaian Disertasi
Keterkaitan penelitian yang akan dilakukan terhadap penyelesaian disertasi adalah merupakan penelitian orisinalitas dan penemuan baru dalam penggunaan model video object tagging pada video surveilance. Motion tracking pada obyek bergerak 7
pada video yang nantinya dalam penyelesaian disertasi akan digabung menjadi sebuah teknik untuk melakukan pengenalan dari hasil pelacakan obyek bergerak dalam video. Tahapan yang dilakukan dalam penelitian ini ada 2 tahap dari 4 tahap yang akan dilakukan untuk penyelesaian disertasi. Dua tahap yang dilakukan pada penelitian ini merupakan langkah ketiga dan keempat dari penyelesaian disertasi. Hasil akhir tahap ketiga dalam video obyek tagging adalah melakukan ekstraksi obyek bergerak, hasil ekstraksi diharapkan menjadi referensi untuk mengenali dalam proses pelabelan. Hasil akhir tahap keempat adalah proses mengenali dari obyek yang telah diekstraksi untuk pelabelan pada video object tagging. 1.6
Luaran Penelitian
Luaran yang akan ditargetkan pada Penelitian Disertasi Doktor ini adalah: a.
Disertasi (draft disertasi) yang telah disetujui Pembimbing / Promotor dan
Co-promotor. b.
Publikasi ilmiah dalam jurnal bereputasi internasional yang terindek
SCOPUS
1.7
Kontribusi terhadap perkembangan IPTEKS
Penelitian ini berkontribusi terhadap pengembangan Ipteks antara lain : 1.
Dihasilkan metode baru dalam melakukan tracking obyek bergerak dalam
video untuk video surveilance. 2.
Dihasilkan metode yang lebih baik dalam dalam melakukan ekstraksi
terhadap obyek bergerak pada video terkompresi. 3.
Dihasilkan framework / model baru untuk video object tagging berbasis
unsupervised clsutering untuk menyelesaikan problem object tagging
8
BAB II TINJAUAN PUSTAKA
2.1
Video Tagging
Konsep video annotation atau tagging berhubungan dengan istilah pada “video concept detection” [5], “video semantic analysis” [6] atau “high level feature extraction” [7], dapat diselesaikan dengan metode pembelajaran mesin. Video tagging merupakan sebuah pendekatan atau proses dari merubah dari konten visual ke dalam sekumpulan dari kata-kata tekstual untuk mendiskripsikan semantik yang terkandung dalam video untuk memudahkan pencarian pada isi terkandung. Pada umumnya sebuah video tagging memiliki alur berikut, pertama video dilakukan segmentasi ke dalam unit-unit yang pendek seperti shot dan sub-shots. Kemudian low-level fitur dilakukan ektraksi dari tiap-tiap unit untuk dideskripsikan isinya. Video tagging kemudian di tetapkan untuk membelajarkan sekumpulan konsep standar dari setiap unit berdasarkan pada low-level fitur. The National Institute of Standars and Technology (NIST) telah membuktikan dalam “high level feature extraction” dalam sebuah TREC video retrieval evaluation (TRECVID) [6], [7], yang memberikan kontribusi untuk menyediakan dalam evaluasi teknologi video tagging.. 2.2
Digital Video
Digital video adalah representasi diskrit gambar dunia nyata dalam spasial dan domain temporal. Dalam sampel temporal domain biasanya jumlah frame per detik pada tingkat 20, 25, atau 30 frame per detik . Setiap frame video gambar diam terdiri atas piksel dibatasi oleh dimensi ruang . Pada umumnya domain video spasial resolusi berkisar 1280 x 720 ( HD ) atau 1920 x 1080 ( Full HD ) pixel. . Sebuah pixel memiliki satu atau lebih komponen sesuai dengan warna ruang, umumnya ruang warna RGBdan YCrCb. Ruang warna RGB menggambarkan proporsi relatif merah, biru, dan hijau di sebuah pixel. Komponen RGB umumnya diukur dalam kisaran 0-255 , yaitu 8 bit untuk masing-masing komponen dan 24 bit secara total. YCrCb ruang warna dikembangkan dengan sistem visual manusia 2.3.
Supervised Learning
9
Untuk melakukan proses video tagging, metode yang paling banyak dilakukan dengan menerapkan algoritma pembelajaran terbimbing, dimana yang pertama dilakukan dengan melakukan pelatihan secara di supervisi, kemudian melakukan membangun model untuk konsep yang diberikan selama pelatihan dan memberikan label dari sampel tetap kemudian disimpulkan berdasarkan pada model. Metode pembelajaran terbimbing dapat dikelompokkan ke dalam dua kategori [6], yaitu generative methods dan discriminative methods. Dalam motode generative, kondisi kelas probabilitas distribusi kepadataan
merupakan yang pertama di estimasi
kemudian kelas probabilitas diperoleh menurut aturan bayes. Sedangkan untuk metode diskriminatif, kelas probabilitas dimodelkan secara langsung tanpa mengestimasi probabilitas kepadatan.
2.4 Deteksi Pergerakan Objek Deteksi pergerakan objek dalam urutan video merupakan langkah paling awal untuk dapat melakukan ekstraksi informasi dalam beberapa area visi komputer seperti video pengamatan, monitoring trafik dan tracking manusia serta video tagging. Beberapa tugas dalam video melibatkan deteksi keberadaan dari sebuah objek dalam sebuah urutan gambar dan lokasi untuk pengenalan yang lebih presisi. Beberapa metode telah diusulkan oleh beberapa peneliti untuk deteksi objek dalam video surveillance berbasis [36]. Deteksi objek dapat dibagi sedikitnya dalam 5 pendekatan seperti frame difference [31], background subtraction [35], optical flow [33], ekastraksi warna kulit [38] dan pendekatan berbasis probabilitas [36]. Pada penelitian yang lain (Staufer & Grimson) mengusulkan sebuah metode Gausian mixture model berbasis pada background model untuk mendeteksi objek. Lipton et., al [36] mengusulkan metode frame difference yang digunakan pada pixel-wise differences antara
dua frame gambar untuk mengekstraksi daerah pergerakan.
Penelitian [34] mengusulkan sebuah kombinasi dari background subtraction dan frame difference yang meningkatkan hasil sebelumnya dari background subtraction dan frame difference. Kinerja dari sebuah proses video tagging, sangat tergantung pada kemampuan untuk melakukan deteksi objek bergerak di dalam lingkungan yang diamati. Sebuah tindakan berikutnya, seperti tracking, analisis pergerakan atau identifikasi objek, memerlukan sebuah akurasi ekstraksi dari laman depan objek, menjadikan deteksi objek bergerak bagian yang penting dari sebuah sistem. 10
2.5. Background Subtraction Background subtraction digunakan untuk mengenali perbedaan intensitas dari citra dan latar belakang citra. Background modeling menggunakan frame baru untuk memperbarui pada background model. Background model dibagi ke dalam rekursif dan non rekursif. Teknik rekursif menggunakan frame masukan untuk memperbarui background model tunggal secara rekursif. Dibanding pada model rekursif, non rekursif menggunakan antar frame untuk memisahkan piksel sebagai background atau foreground. Untuk melakukan threshold
menggunakan metode frame
difference, salah satu dari teknik non rekursif dalam background subtraction. Frame difference merupakan teknik background model yang paling sederhana, di samping rendah dalam kompleksitas komputasinya [34]. 1, if I x, y, t I x, y, t 1 Back / Foreground x, y, t 0, otherwise
(2.1)
Threshold (α) digunakan untuk mengklasifikasi antara foreground dan background yang biasa dilakukan secara manual oleh manusia. 2.6
Otsu Algorithm
Metode Otsu merupakan metode threshold untuk segmentasi yang berdasarkan pada histogram citra, histogram ini menunjukkan nilai instensitas dari tiap piksel pada citra dalam dimensi 1. Sumbu x menyatakan level intensitas yang berbeda, sedangkan sumbu Y menyatakan jumlah piksel yang memiliki nilai intensitas tersebut Threshold dari algoritma Otsu inisialisasi menggunakan t . Nilai bentangan dari t berkisar antara 1 dan L , dimana L 255 , probabilitas dari tiap piksel di dalam level ke- i dapat di jelaskan (2.2).
pi ni / N
(2.2)
ni adalah angka dari pixel di dalam i th level dan N merupakan banyaknya pixel.
Rata-rata gray level dari sebuah citra digunakan persamaan 2.3 :
T
L 1
i p
(2.3)
i
i 1
Untuk threshold tunggal, Otsu membagi pixel ke dalam dua kelas C1 0,1,..., t dan C2 t 1, t 2,..., L 1 . N Probabilitas dari kelas dapat di komputasi dengan (2.4).
11
t
p
2 (t )
i pi 1 (t )
2 (t )
1 (t )
i
t
i 1
p
(2.4.)
i
i 1
i 1
1 (t )
L 1
L 1
i pi
i 1
2
(t )
(2.5)
Nilai dari t dapat di komputasi menggunakan (2.5).
t * max B2 (t )
(2.6)
1 k L
dengan B2 t 1 t 1 t T
2
2 t 2 t T
2
(2.7)
2.7 Clustering Algoritma clustering dapat dipertimbangkan sebagai teknik untuk klasifikasi piksel sebagai foreground dan background. Algoritma clustering dapat dibagi ke dalam clustering keras dan lunak. Clustering keras diartikan sebuah objek keanggotaanya hanya pada satu clustering, sedangkan clustering lunak keanggotaanya dapat berada pada beberapa cluster. Fuzzy C-Means (FCM) merupakan algoritma clustering lunak yang menghasilkan sebuah keanggotaan bebas dari tiap objek ke seluruh cluster. FCM merupakan algoritma clustering tidak terbelajar yang berhasil pada sejumlah problem clustering, seperti segmentasi warna dan clustering citra gambar. FCM menghasilkan sebuah matrik keanggotaan yang berisi keanggotaan bebas dari sebuah pixel ke seluruh cluster. FCM mencoba meminimalkan jumlah kesalahan sum of square error (SSE). Adapun formulanya : N
SSE
2
C
uijm
xi c j ,1 m
i 1 j 1
(2.8)
uij merupakan representasi dari keanggotaan dari pixel xi di dalam j th cluster, c j adalah j th pusat cluster. c
u
ij
1,1 j n
i 1
12
(2.9)
uij 0,1 i c,1 j n
(2.10)
n
u
ij
1,1 i c
(2.11)
i 1
Algoritma FCM dapat di jelaskan dalam langkah sebagai berikut 1. Tentukan data input dari sebuah citra gambar. 2. Pilih angka dari jumlah cluster dan nilai dari ( 0 ). 3. Perhitungkan matrik partisi menggunakan persamaan
1
uik
2 m 1
(2.12)
dik d j 1 jk c
4. Perbaiki pusat cluster dengan menggunakan persamaan n
u
m ik xk
cj
k 1 n
u
(2.13)
m ik
k 1
5. Ulang langkah 3 sampai 4 dimana
c k c k 1
.
Mean Square Error (MSE) dan Peak Signal to Noise Ratio (PSNR) digunakan untuk mengukur performance dari proses segmentasi obyek bergerak. Nilai MSE yang kecil dan nilai angka PSNR yang besar menunjukkan metode deteksi lebih baik. Adapun persamaan MSE dan PSNR tersebut sebagai berikut :
M
N
X (i, j) Y (i, j)
(2.14)
max 2 PSNR X , Y 10.log10 MSE X , Y
(2.15)
MSE X , Y
1 MN
i 1 j 1
13
2.3 Peta Jalan Penelitian Pada Penelitian Disertasi Doktor ini, belum pernah ada penelitian dibidang video object tagging menggunakan metode klastering. Diharapkan penelitian dibidang video object tagging dapat mendorong untuk semakin meningkatkan penelitian di bidang video processing atau visi komputer. Dibawah ini peta jalan penelitian yang akan dilakukan :
Gambar 1. Road Map Penelitian Video Object Tagging
Gambar 2. Fishbone Road map Video Object Tagging 2.3.1 Peta jalan Penelitian 1: Deteksi objek bergerak dan threshold. Pada proses ini, untuk melakukan deteksi terhadap obyek bergerak digunakan pendekatan berbasis background subtraction. Pendekatan ini merupakan proses untuk mendeteksi pergerakan atau perbedaan yang signifikan di dalam video frame. 14
Untuk algoritma background subtraction diimplementasikan metode frame difference. Metode frame difference merupakan perbedaan antara dua frame secara berurutan dalam sebuah video dan sebuah reference background frame untuk ektrak daerah bergerak dari sebuah citra yang diciptakan sebuah citra berbeda. Adapun proposed algoritma sebagai berikut : Video Sequence Background Subtraction Adaptive Threshold
Classify Pixels
Morphology
Moving Object Segmented
Gambar 2.3. Model Alur dari Deteksi dan Threshold Objek Bergerak
15
Gambar 2.4 Clustering obyek bergerak dengan FCM dan OTSU (Vehicle)
Gambar 2. 5. Clustering obyek bergerak dengan FCM dan OTSU (Human)
Peta Jalan Penelitian 2 : Segmentasi objek bergerak . Pada tahap 2 ini proses segmentasi dari objek bergerak yang telah berhasil terdeteksi dengan metode clustering dilakukan proses segmentasi. Dari hasil segmentasi ini yang akan dilakukan prose pembelajaran terhadap data set untuk pelabelan. Adapun hasil segmentasi dapat dilihat pada gambar dibawah ini :
16
Gambar 2.6. Hasil dari segmentasi objek bergerak dari atas bawah menggunakan K-means, FCM and SOM (Sequence SC) 2.4 Hasil Publikasi yang Sudah Dicapai Capaian sementara yang telah dipublikasikan secara internasional :
1. Conference International di Surabaya Indonesia (ISICO), 2011 Moch Arief Soeleman, Yoyon Kusnendar, Mochamad Hariadi “Object Tracking Method using Background Subtraction and Mean Shift Algorithm”, Proceeding
of ICISO Conference, Surabaya Indonesia 2011 2.
Conference International TENCON 2012- IEEE Di Phillipne Moch Arief Soeleman, Mauridhy Heri Purnomo, Mochamad Hariadi, “Adaptive Threshold for Background Subtraction in Moving Object Detection using Fuzzy C-Means Clustering”, Proceeding of IEEE TENCON Conference , Philipine, 2012
3. In Review WIT Journal, 2014. (Scopus Index) Moch Arief Soeleman, Mauridhy Hery Purnomo, Mochamad Hariadi, Kondo Kunio, Masanori K, Mikami Koji, “Semi-Automatic Moving Objects Segmentation and Tracking Base on Background Subtraction Using Fuzzy CMeans”, 2014.
17
BAB III METODE PENELITIAN
3.1.
Bagan Penelitian First Stage Study of Video processing
Study of Frame Processing
Moving Object Detection using Background Subtraction
Study State of The Art
Study about Background Subtraction
Publication
Report
Second Stage Collecting Data
Preprocessing
Adaptive Threshold using FCM
Automatic Detection of Moving Object
Clasify Pixel and Morphology
Moving Object Segmented
Report
Publication
Third and Four Stage Moving Object Extraction
Clasification and Recognition Moving Object
Publication
Video Object Tagging
REPORT
Gambar 3.1 Skema Penelitian Video Tagging
Gambar 3.1 menjelaskan bahwa penelitian disertasi doktor terdiri atas 4 tahap 18
Deteksi moving object (1) kemudian adaptive threshold untuk melakukan proses deteksi dan clustering (2) tahap yang berikutnya proses segmentasi objek yang bergerak yang berhasil dilakukan klastering (3) dan yang terakhir adalah proses klasifikasi dan pengenalan serta pelabelan terhadap objek yang sudah dilakukan pembelajaran. Yang dilakukan dalam penelitian PDD ini adalah 2 tahap dari 4 tahap penyelesaian disertasi, yaitu : (1) Segmentasi secara automatik dan pelabelan dari objek yang tersegmentasi setelah dilakukan proses pembelajaran sehingga objek tagging berhasil di lakukan.
3.2 Lokasi Penelitian Lokasi penelitian direncanakan akan dilakukan di : (1) Laboratorium Telematika B-201, Teknik Elektro, FTI-ITS. (3) Laboratorium Riset, Magister Teknik Informatika Universitas Dian Nuswantoro. 3.3 Indikator Capaian Secara Terukur Hasil yang ditargetkan adalah video object tagging yang mampu melakukan proses tracking, segmentasi klasifikasi hingga pengenalan objek.
Tabel 3.1 Indikator Capaian No.
Rincian Kegiatan
Tolak Ukur
1
Target luaran
Terselesaikannya peneltian video object tagging yang dimulai dari deteksi, tracking, segmentasi objek, klasifikasi dan pengenalan label objek
2.
Sasaran sampel data
Data yang akan direkam dan di tagging mahsiswa Universitas Dian Nuswantoro dan Mahasiswa ITS
3.
Waktu dan jumlah sampel model
-
Kegiatan pengambilan data dilakukan selama 4 bulan
-
Pengembangan sistem dan survey selama 4 bulan
-
Penulisan paper dan jurnal dilakukan selama 4 bulan efektif
-
Waktu pelaksanaan bulan januari 2015 sd Desember 2015
-
Jumlah mahasiswa yang direkam 30 sd 40 mahasiswa
19
4.
Indikator Pencapaian
-
Minimal 85 persen penelitian ini membantu penyelesain disertasi doktor
-
Diterima sebagai paper dan jurnal pada publikasi internasional terindex scopus.
Institusi yang terlibat Institut Teknologi Sepuluh Nopember Surabaya
20
BAB 4. BIAYA DAN JADWAL PENELITIAN
Justifikasi anggaran penelitian yang telah disusun secara rinci dapat dilihat pada Lampiran 1. Rencana pembiayaan dari usulan penelitian disertasi doktor (PDD) yang akan dilaksanakan secara garis besar dapat dilihat pada ringkasan anggaran biaya dan jadwal penelitian pada Tabel 4.1 dan Tabel 4.2 seperti di bawah ini. Tabel 4.1 Ringkasan Anggaran Biaya Penelitian Disertasi Doktor No
Jenis Pengeluaran
Usulan Anggaran
1.
Gaji dan Upah ( Maks. 20%)18%
Rp.
9.072.000,00
2.
Bahan habis pakai dan peralatan (40-50%) Rp. 47%
23.625.000,00
3.
Perjalanan (15 – 25%) 21%
Rp.
10.346.000,00
4.
Lain-lain : publikasi, seminar, laporan Rp. (Maks. 15%) 14%
6.900.000,00
Jumlah
Rp.
49.943.000,00
Penelitian akan dilakukan selama 12 (dua belas) bulan, mulai bulan Januari hingga Desember 2015 dilanjutkan dengan penyusunan disertasi
Tabel 4.1 Jadwal penelitian desertasi doktor
No.
Jenis Kegiatan 1
1 2 3 4 5 6 7 8 9
2
3
Pengumpulan data penelitian Konsultasi ke Promotor Analisis data penelitian Penulisan untuk submit paper-1 Pengumpulan data lanjutan Konsultasi ke Promotor untuk tahap akhir Penulisan untuk submit paper-2 Penulisan laporan dan dokumentasi Penulisan draft disertasi dan ujian
21
Tahun 2015 (Bulan) 4 5 6 7
8
9
10 11 12
DAFTAR PUSTAKA
[1] A. G. Hauptmann, "Lessons for the future from a decade of informedia video
analysis research," in Proc. ACM Int. Conf. Image and Video Retrieval, Singapore, 2005, pp. 1-10. [2] A. G. Hauptmann, R. Yan, W. H. Lin, M. Christel, and H. Wactlar, "Can high-level
concepts fill the semantic gap in video retrieval? A case study with broadcast news," IEEE Trans. Multimedia, vol. 9, no. 5, pp. 958-966, Aug. 2007. [3] X. Li, D. Wang, J. Li, and B. Zhang, "Video search in concept subspace: A text-
like paradigm," in Proc. ACM Int. Conf. Image and Video Retrieval, Amsterdam, The Netherlands, 2007, pp. 603-610. [4] X. Mu, "Content-based video retrieval: Does video's semantic visual feature
matter?" in Proc. ACM SIGIR Conf. Research and Development Informa. Retrieval, Seattle, WA, 2006, pp. 679-680. [5] M. R. Naphade and J. R. Smith, "On the detection of semantic concepts at
TRECVID," in Proc. ACM Multimedia, New York, NY, 2004, pp. 660-667. [6] C. G. Snoek, M.Worring, and A.W. Smeulders, "Early versus late fusion in
semantic video analysis," in Proc. ACM Multimedia, Singapore, 2005, pp. 399402. [7] W. Kraaij and P. Over. "TRECVED-2005 high-level feature task: Overview," in Proc. TRECVID, Gaithersburg, MD, 2005 [8] D.M. Blei and M.I. Jordan, "Modeling Annotated Data," Proc. ACM SIGIR, pp. 127134, 2003. [9] G. Carneiro, A.B. Chan, P.J. Moreno, and N. Vasconcelos, "Supervised Learning of Semantic Classes for Image Annotation and Retrieval," IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 29, no. 3, pp. 394-410, Mar. 2007. [10] A.B. Chan, P.J. Moreno, and N. Vasconcelos, "Using Statistics to Search and Annotate Pictures: An Evaluation of Semantic Image Annotation and Retrieval on Large Databases," Proc. Am. Statistical Assoc., Aug. 2006. [11] P. Duygulu, K. Barnard, J. de Freitas, and D. Forsyth, "Object Recognition as Machine Translation: Learning a Lexicon for a Fixed Image Vocabulary," Proc. Seventh European Conf. Computer Vision, pp. 349-354, 2002. [12] J. Fan, Y. Gao, and H. Luo, "Hierarchical Classification for Automatic Image Annotation," Proc. ACM SIGIR, pp. 111-118, 2007. R. Datta, D. Joshi, J. Li, and J.Z. Wang, "Image Retrieval: Ideas, Influences, and Trends of the New Age," ACM Computing Surveys, vol. 40, no. 2, pp. 1-60, 2008. [13] Meng Wang, Xian-Seng Hua, Yan Song, Xun Yuan, Shipeng Li, Hong Jiang Zang, "Automatic Video Annotation by Semi-Supervised Learning with Kernel Density Estimation", MM 06 October 23, 2006, Santa Barbara, California, USA, 2006 ACM 1- 59593-447-2.
22
[14] Chapelle O, Zien A, Scholkopf B. Semi-Supervised Learning [M], MIT Press,
2006. [15] Zhu X. Semi-supervised learning literature survey [R]. Technical Report,
1530, University of Wisconsin-Madison. [16] Cohen D A, Ghahramani Z, Jordan M I. Active learning with statistical models
[J]. Journal of Artifial Intelligence Research, 1996,4: 129-145. [17] Naphade M, Smith J R. Active learning for simultaneous annotation of
multiple binary semantic concepts [C]. Proceedings of International Conference on Image Processing, 2004. [18] Boutell M, Luo J, Shen X, et al. Learning multi-label scene classication [J].
Pattern Recognition, 2004, 37: 1757-1771. [19] Dietterich T G, Lathrop R H, Lozano-Perez T. Solving the multi- instance
problem with axis-parallel rectangles [J]. Artiflcal Intelligence, 1997, 89 (12): 31[20] Carl Vondrick, Deva Ramanan, "Video Annotation and Tracking with Active
Learning" [21] Meng Wang, Xian Sheng Hua, Member, IEEE, Richang Hong, Jinhui Tang,
Guo Jun Qi,Yan Nong, "Unified Video Annotation via Multigraph Learning", IEEE Transaction On Circuits and Systems For Video Technology, Vol 19, No. 5, May 2009. [22] Tianzhu Zhang, Member, IEEE, Changseng Xu, Senior Member, IEEE,
Guangyu Zhu, Si Liu and Hanqing Lu, Senior Member, IEEE. " A Generic Framework for Video Annotation via Semi-Supervised Learning", IEEE Transactions On Multimedia, Vol. 14, No. 4, August 2012. [23] Carl Vondrick, Donald Patterson, Deva Ramanan, " Efficiently Scaling Up
Crowdsourced Video Annotation ", " A Set of Best Practices for High Quality, Economical Video Labeling", International Journal of Computer Vision 2012 [26] Jeny Yuen, Bryan Russell, Ce Lu, Antonio Toralba, " labelme video : Building
a Video Database with Human Annotations", 2009 IEEE 12th International Conference on Computer Vision (ICCV) [27] Lamberto Balan, Marco Bertini, Alberto Del Bimbo, Lorenzo Seidenari,
Giuseppe Serra, "Event Detection and Recognition for Semantic Annotation of Video", Journal Multimedia Tools and Applications Volume 51 Issue 1, January 2011, Pages 275 - 302 [28] Georgios Th. Papadopoulos, Student Member, IEEE, Alexia Briassouli,
Vasileios Mezaris, Member IEEE, Ioannis Kompatsiaris, Member, IEEE, and Michael G. Strintzis, Fellow, IEEE, "Statistical Motion Information Extraction Representation for Semantic Video Analysis", IEEE Transactios on Circuits and Systems for Video Technology, Vol.19, No. 10, October 2009. [29] Llaria Bartolini, Marco Patella, Corrado Romani, " SHIATSU : Semantic-
Based Hierarchical Automatic Tagging of Videos By Segmentation using 23
Cuts", AIEMPro'10, October 29, 2010, Florence, Italy. 2010 ACM 978-14503-014-0 [30] Yang Li, Yafei Zhang, Jiangjiang Lu, Ran Li, Jiabao Wang, "Video Analysis
and Trajectory Based Video Annotation System", Asia-Pacific Conference on Wearable Computing Systems. 2010. [31] Jui-Hsin Lai and Shao-Yi Chien, " Baseball and Tennis Video Annotation with
Temporal Structure Decomposition", Multi Media Signal Processing Proceeding on IEEE, 2008. [32] Lipton, A; Fujiyoshi, H. & Patil, R., “Moving target classification and tracking
from real-time video”, Proceeding of IEEE Workshop Applications of Computer Vision, pp. 8-14, 1998. [33] Stauffer, C. & Grimson, W., “Adaptive background mixture models for real-
time tracking”, Proceeding of IEEE Conf. on Computer Vision and Pattern Recognition, pp. 246- 252, 1999. [34] Meyer, D.; Denzler, J. & Niemann, H., “Model based extraction of articulated
objects in image sequences for gait analysis”, Proceeding of IEEE Int. Conf Image Proccessing, pp. 78-81, 1998. [35] Desa, S. M. & Salih, Q. A., “Image subtraction for real time moving object
extraction”, Proceeding of Int. Conf. on Computer Graphics, Imaging and Visualization (CGIV'04'), pp. 41-45., 2004. [36] Heikkila, J. & Silven, O., “A real-time system for monitoring of cyclists and
pedestrians", Proceeding of Second IEEE Workshop on Visual Surveillance, pp 74-81, 1999. [37] Collins, R. ; Lipton, A.; Kanade, T.; Fujiyoshi, H.; Duggins, D.; Tsin, Y.;
Tolliver, D.; Enomoto, N. & Hasegawa. “System for video surveillance and monitoring”, Technical Report CMU-RI-TR-00-12, Robotics Institute, Carnegie Mellon University, 2000.
24
Lampiran 1. Justifikasi Anggaran Penelitian
1. Honor Honor Peneliti
Honor/ jam (Rp) Rp
Waktu (jam/minggu)
6.750
Honor per Tahun (Rp)
Minggu
42
32
Rp
9.072.000
SUB TOTAL (Rp)
Rp
9.072.000
2. Peralatan Penunjang Material
Justifikasi Pemakaian
Alat Perekam / CCTV Wall Hdisk external 1 TB Baterei alkaline Pulsa
Pegambilan Data Penyimpanan Data Survey Survey
Biaya Sewa PC Intel Quad Core Memori 8 GB selama 12 bulan Micro SD 32 GB Kamera Video
Pengolahan Data Video Penyimpanan Data Survey
Harga Satuan (Rp)
Kuantitas 2 1 20 12
Rp 2.300.000 Rp 1.500.000 Rp 20.000 Rp 100.000
1 Rp 4.000.000 1 Rp 675.000 1 Rp 6.000.000 SUB TOTAL (Rp)
Harga Peralatan Penunjang (Rp) Rp Rp Rp Rp
4.600.000 1.500.000 400.000 1.200.000
Rp Rp Rp Rp
4.000.000 675.000 6.000.000 18.375.000
3. Bahan habis pakai Material
Justifikasi Pemakaian
Harga Satuan (Rp)
Kuantitas
Biaya per Tahun (Rp)
Kertas HVS (Rim) Map folio Tinta printer hitam Tinta Printer berwarna Set Alat tulis selama setahun
Survey Surve dll Survey dll Survey dll Survey dll
5 10 4 4 12
Rp Rp Rp Rp Rp
50.000 5.000 250.000 250.000 25.000
Rp Rp Rp Rp Rp
250.000 50.000 1.000.000 1.000.000 300.000
Biaya Pemakaian Internet selama Setahun
Survey dll
12
Rp
200.000
Rp
2.400.000
Odner
Survey dll
10
Rp
25.000
Rp
250.000
Rp
5.250.000
SUB TOTAL (Rp)
25
4. Perjalanan Kegiatan Survey ke lokasi Perjalanan Dalam Kota Tiket dan Penginapan selama konferensi di Luar Negeri
Justifikasi Perjalanan
Harga Satuan (Rp)
Kuantitas
Survey
12 1
Publikasi penelitian
Rp Rp
300.000 746.000
1 Rp 6.000.000 SUB TOTAL (Rp)
Biaya per Tahun (Rp) Rp Rp
3.600.000 746.000
Rp Rp
6.000.000 10.346.000
5. Lain-lain Harga Satuan (Rp)
Biaya per Tahun (Rp)
4 1
Rp Rp
100.000 500.000
Rp Rp
400.000 500.000
Publikasi penelitian
1
Rp 3.000.000
Rp
3.000.000
Publikasi penelitian
1
Rp 3.000.000
Rp
3.000.000
SUB TOTAL (Rp) TOTAL ANGGARAN YANG DIPERLUKAN SETAHUN (Rp)
Rp
6.900.000
Rp
49.943.000
Kegiatan Penggandaan laporan Pengiriman laporan Publikasi Jurnal Internasional Terindex SCOPUS Registrasi Konferensi di Luar Negeri (Asia)
Justifikasi
Kuantitas
26
Lampiran 2. Ketersediaan Sarana dan Prasarana Penelitian Sarana yang dibutuhkan dalam peneliltian ini pada umumnya sudah tersedia di Perguruan Tinggi Asal Universitas Dian Nuswantoro Semarang dan di Perguruan Tinggi Penyelenggara Program Doktor, yaitu: Institut Teknologi Sepuluh Nopember Surabaya. Sarana yang digunakan adalah laboratorium riset di UDINUS, Laboratorium Telematika di Jurusan Teknik Elektro ITS B-201, Laboratorium Pengukuran Instrumentasi dan Identifikasi di Jurusan Teknik Elektro ITS.
Daftar Instrumen Penelitian Nama Instrumen
Satuan Jumlah
Status
Keterangan
Alat Tulis Kantor
Paket
1 Belanja
Administrasi penelitian
Kertas HVS
Rim
5 Belanja
Administrasi penelitian
Hardisk External I Terra B
buah
1 Belanja
Backup dataset
Kamera Digital
Buah
1 Belanja
Survei
Perekam data / CCTV Wall
buah
2 Belanja
Pengambilan Data
Kamera Video
buah
1 Sewa
Pengambilan Data
Batere alkaline
buah
20 Belanja
Pengambilan Data
Micro SD 32 Gb
buah
1 Belanja
Penyimpanan Data
PC Intel Quad Core 8GB
buah
1 Sewa
Pengolahan Dataset
Note book
buah
1 milik pribadi
Administrasi penelitian
Printer Canon dan Scanner
buah
1 milik pribadi
Administrasi penelitian
Modem external
buah
1 milik pribadi
Tinta Printer Canon BW / Color
tube
8 Belanja
Searching data Administrasi penelitian, pelaporan
Handphone
buah
1 milik pribadi
Kendaraan
buah
1 milik pribadi
Alat Komunikasi Alat transportasi pencarian data
BBM Alat Transportasi
paket
1 Belanja
Pencarian data
Koneksi WIFI
4 MB
1 milik UDINUS
searching
27
Lampiran 3. SK Kandidasi DOKTOR
28
Lampiran 4. Biodata Peneliti
BIODATA PENELITI a. b. c. d. e. f.
Nama Lengkap dan Gelar : Mochamad Arief Soeleman, M.Kom Alamat Rumah : Jl. Gendong Selatan no. 1193 Semarang Telp/Handphone : 081-565-222-08 Email :
[email protected], Pendidikan Terakhir : S3 (In Progress) Pekerjaan : Dosen Instansi : Universitas Dian Nuswantoro Alamat Kantor : Jl. Imam Bonjol 205 – 207 Semarang Gol. Pangkat dan NPP : IV-A / 0686.11.1996.081 Jabatan Fungsional : Lektor Fakultas / Program Studi : Ilmu Komputer / S2- Teknik Informatika Perguruan Tinggi : Universitas Dian Nuswantoro Mata Kuliah Diampu : Artificial Intelligence, Computer Vision Bidang Keahlian : Artificial Intelligence, Video Processing g. Riwayat Pendidikan : SD Negeri Kartini Semarang (1978 – 1984) SMP Negeri 6 Semarang (1984 – 1987) SMA Negeri 2 Semarang (1987- 1990) S1 STMIK Dian Nuswantoro (1996 – 1999) S2 Magister Teknik Informatika Udinus (2002 – 2004) S3 Institut Teknologi Sepuluh Nopember Surabaya (2010 – Sekarang) h. Karya Ilmiah
No.
Judul
Status
Tahun
1.
Web Base Employment Portal to Help Job Seeker Compliance Framework and Institutions in Demand for Human Resources ( Dosen Muda DIKTI 2007)
Anggota Peneliti
2007
2.
Object Tracking Method Using Background Subtraction and Mean Shift Algorithm
in Proceedings of Information System International Conference (ISICO), Surabaya, Indonesia.
December, 2011
3.
Adaptive Threshold for Background Subtraction in Moving Object Using Fuzzy C Means Clustering
in Proceeding of IEEE TENCON Region 10, Cebu, Phillipines,
Nopember, 2012
29
4.
Semi-Automatic Moving Objects In Review WIT 2014 Segmentation Base on Background Transaction Journal, Subtraction Using Fuzzy C-Means Beijing China
Pengalaman Penelitian 1. Peserta Research Student pada program Sandwich
PKPI DIKTI ke Tokyo
University of Technology, Japan selama 4 bulan tahun 2013.
30
31