BAB II TINJAUAN PUSTAKA
2.1. Intelligent Transportation System Intelligent Transportation System (ITS) adalah kesatuan teknologi yang dibangun untuk mengatasi masalah-masalah yang terjadi pada transportasi (Wewengkang, Gunawan, Kusnandar, & Gunawan, 2012). Lebih jelasnya, intelligent transportation system adalah sistem yang mengintegrasikan transportasi dengan waktu yang akurat dan efisien dan di dalamnya diterapkan teknologi informasi, komputer, sensor, kontrol elektron, kontrol teori, sertai kecerdasan buatan (Zhou, Bus Passenger Recognition and Track of Video Sequence, 2013). Menurut Wewengkang (2012), Intelligent Transportation System umumnya membutuhkan teknologi
semisal
Automatic
Visual
Traffic
Surveillance
yang
menggunakan kamera sebagai alat utama sebagai penerima sensor. Zhou (2013) di dalam penelitiannya yang berjudul, "Bus Passenger Recognition and Track of Video Sequence", mengatakan bahwa pengenalan deteksi dan pelacakan dari obyek-obyek yang bergerak menjadi salah satu fokus dalam penelitian dalam dunia komputer yang yang berhubungan dengan computer vision. Pada saat ini, penelitian mengenai pelacakan obyek menggunakan computer vision tersebut, umumnya digunakan pada traffic surveillance, pelayanan perbankan, homing guidance dan penerbangan
9
10
militer. Dari sinilah, studi mengenai deteksi dan tracking pergerakan obyek menjadi hal yang realistik dan signifikan (Sch'uldt & Laptev, 2004).
2.2. Passenger Monitoring System Passenger monitoring system atau sistem pemantauan penumpang berarti sistem yang dapat digunakan untuk memantau ataupun melacak penumpang. Banyak penulisan yang ditujukan untuk mengembangkan sistem pemantau penumpang, misalnya dari studi kasus yang ditulis oleh Kilavo Hasan (2013) yang dalam penulisannya
melakukan penelitian
untuk mendeteksi kelebihan penumpang pada studi kasus dalam bus-bus publik di Tanzania. Dari hal ini, pemantauan penumpang dapat dilakukan juga saat melakukan penghitungan jumlah penumpang yang masuk ke dalam ataupun keluar dari alat transportasi.
2.3. Passenger Counting Passenger counting atau disebut juga penghitungan penumpang adalah penghitungan jumlah penumpang yang masuk ke dalam ataupun keluar dari alat transportasi. Salah satu faktor yang dapat diukur dalam melakukan pemantauan penumpang adalah dengan memanfaatkan jumlah penumpang yang keluar dan masuk dari kendaraan transportasi, dalam hal ini BRT, serta dari stasiun ataupun halte. Metode tersebut dikenal dengan istilah passenger counting system. Salah satu metode penghitungan jumlah penumpang baik yang masuk dan keluar halte adalah dengan menggunakan computer vision untuk mengenal obyek yang bergerak. Pengenalan pergerakan obyek dalam ilmu computer vision dikenal dengan istilah object motion tracking.
11
Banyak penelitian yang mencoba mengulas mengenai object motion tracking khususnya dalam menangani pergerakan obyek manusia. Penelitian yang dilakukan oleh Hee-Gu Kang (2005), melakukan pelacakan (tracking) dari pergerakan banyak obyek manusia secara realtime.
Penelitiannya
memanfaatkan
algoritma
CONDENSATION
(Conditional Density Propagation) dengan menerapkan tiga improvisasi untuk menangani performa tracking yang lambat. Pertama, menggunakan template yang efektif untuk bentuk manusia dengan menggunakan SOM (Self-Organizing Map). Kedua, menggunakan HMM (Hidden Markov Model) diskret untuk pemodelan dinamis yang akurat untuk transaksi perubahan bentuk dari manusia. Ketiga, menggunakan competition rule untuk memisahkan obyek-obyek manusia yang saling berdekatan secara efektif. Penelitian ini cocok untuk motion tracking pada obyek yang banyak (ramai). Selain itu, terdapat juga penulisan yang dilakukan oleh Bingbing Wang (2012) yang melakukan penelitian untuk mendeteksi penumpang dari karakteristik area kepala. Penelitiannya bertujuan untuk mendeteksi pergerakan dari pejalan kaki dengan cara mendeteksi pergerakan kepala manusia. Dalam penulisannya, dilakukan 2 langkah untuk untuk sampai ke tahap tracking kepala manusia. Langkah pertama adalah Ekstraksi Area Target. Langkah pertama ini menerapkan algoritma background difference, algoritma dynamic threshold, serta menggunakan metode morphological processing untuk melakukan filter terhadap noise. Sedangkan, untuk langkah kedua adalah identifikasi kepala, dimana
12
langkah ini terdiri dari 2 cara yakni, matching (pencocokan) dan identify. Untuk tahap pencocokan yang dilakukan dapat menggunakan mask template, lalu setelah tahap pencocokan dilakukan, tahap selanjutnya yang bisa dilakukan identifikasi kepala dari obyek yang ditargetkan. Hasil penelitiannya menunjukkan algoritma yang dibuat di dalamnya lebih cepat dari Hough transform dan algoritma HOG beberapa kali lipat, serta hanya membutuhkan computational cost yang rendah. Sedangkan pada penelitian lain yang dilakukan oleh Donghua Zhou (2013), dengan perspektif yang berbeda, sistem penghitungan volume dari passenger flow dilakukan dengan mencari pusat massa dari obyek yang bergerak. Terdapat 3 langkah yang dilakukan dalam penelitiannya, yakni yang pertama metode frame difference yang digunakan untuk mendeteksi target motion. Lalu, menggunakan fuzzy C mean clustering untuk mendapatkan pusat massa dari obyek. Setelah itu, pada tahap akhir, mencocokkan target tubuh dan melakukan tracking supaya didapatkan jumlah obyek (manusia) yang bergerak ke arah yang telah ditentukan. Dukungan penelitian lain mengenai computer vision dan passenger counting yang akan digunakan untuk penelitian ini cukup banyak. Penelitian yang dilakukan Ismail Haritaoglu dan S. Davis (2000), memberikan informasi mengenai pendeteksian dan tracking gerakan manusia pada lingkungan outdoor. Selain itu, penelitian lain yang dilakukan oleh Saipullah, dkk. juga memberikan informasi bahwa penggunaan
platform Android untuk
melakukan real-time video
13
processing dinilai lebih baik daripada penggunaan low-cost video camera, camcorder, ataupun alat lain (Saipullah, Anuar, Ismail, & Soo, 2012). Penelitian
lain
mengenai
algoritma
yang
dipakai
untuk
sistem
penghitungan volume dari passenger flow juga telah diberikan oleh Zhou (Zhou, Bus Passenger Recognition and Track of Video Sequence, 2013).
2.4. Pengenalan Computer Vision Menurut Michael C. Fairhust (1988), computer vision adalah ilmu yang mempelajari bagaimana cara komputer bisa mengenali obyek yang diterima. Computer vision adalah cabang ilmu dari artificial intelligence (intelegensia semu) yang tujuan utamanya adalah menganalisa dan menginterpretasi citra atau image (Veenman, Reinders, & Backer, 2003). Vision sendiri artinya melihat. Proses melihat terdiri dari penerimaan masukan berupa visual melalui alat penginderaan, contohnya mata sebagai sensor penerima citra, lalu mengirimkannya berupa informasi ke otak (interpreting device) (Milgram & Jr., 1999). Dengan analogi yang sama, kamera atau input device bisa dianggap sebagai alat penginderaan dan komputer sebagai interpreting device untuk mengolah citra yang diterima.
2.5. Citra Digital Image atau citra adalah gambar pada bidang dua dimensi. Dari sudut pandang matematis, citra adalah fungsi kontinyu dari intensitas radiasi pada bidang dua dimensi. Ketika sumber radiasi mengeluarkan radiasi dan radiasi tersebut mengenai obyek, obyek memantulkan kembali sebagian dari radiasi tersebut, pantulan dari radiasi inilah yang diterima oleh sensor berupa alat optik, misalnya mata dan kamera.
14
Citra dapat berupa foto hitam-putih atau berwarna, sinyal-sinyal video seperti gambar pada televisi, atau bersifat digital yang berarti dapat langsung disimpan pada pita magnetik. Citra dihasilkan dari gambar analog dua dimensi yang kontinyu menjadi gambar diskrit melalui proses pembuatan kisi-kisi ke arah vertikal dan horizontal, atau dikenal dengan istilah digitisasi atau sampling. Setiap kisi yang menjadi elemen baris vertikal dan horizontal pada citra disebut dengan piksel. Hasil keluaran dari citra bisa berupa 2 jenis yakni: 1. citra statis (still image) yang artinya citra tunggal yang tidak bergerak. 2. citra bergerak (moving image), yang merupakan rangkaian citra diam yang ditampilkan secara beruntun (sekuensial) sehingga memberikan kesan pada mata sebagai gambar yang bergerak, contohnya adalah video.
2.6. Pengenalan Object Tracking Object tracking atau pelacakan obyek merupakan suatu ilmu yang ada di dalam computer vision. Pelacakan obyek berarti metode yang digunakan untuk menemukan obyek tertentu di dalam citra digital yang di dalamnya terdapat pula obyek-obyek lain yang ikut terekam bersama-sama dengan dengan obyek yang menjadi pusat perhatian (Yilmaz, Javed, & Shah, 2006). Penggunaan Object tracking bisa diimplementasi pada tugastugas berikut ini: 1. motion-based
recognition,
biasanya
digunakan
mengidentifikasi gerak, misalnya gerak manusia.
untuk
15
2. automated surveillance, biasanya digunakan untuk memantau dan mendeteksi aktifitas ataupun kejadian-kejadian yang tidak biasanya. 3. video indexing, mengambil video dari database multimedia 4. human-computer interaction, misalkan dari gesture detection, eye gaze tracking, dan sebagainya. 5. traffic monitoring, memantau statistik lalu lintas secara real-time. 6. vehicle navigation, yakni memberikan navigasi bagi kendaraan dan juga kemampuan untuk menghindari obyek. Object tracking dapat didefinisikan sebagai suatu cara untuk mengestimasi lintasan obyek di dalam gambar di mana obyek tersebut begerak di sekeliling scene. Dengan kata lain, pelacak (tracker) menentukan label yang tetap pada obyek yang dilacak pada frame-frame yang berbeda dalam video. Berdasarkan domain yang dilacak, tracker juga dapat memberikan informasi dari sebuah obyek seperti orientasi, luas, atau bentuk dari sebuah obyek. Biasanya dalam mendapatkan informasi tersebut, ada beberapa masalah yang dihadapi, yakni: 1. Data yang tidak lengkap karena proyeksi bidang 3D ke dalam gambar 2D. 2. Noise pada gambar. 3. Gerakan obyek yang terlalu kompleks. 4. Oklusi penuh ataupun yang tidak penuh pada obyek. 5. Bentuk obyek yang kompleks. 6. Kebutuhan pemroresan secara real-time.
16
Untuk mengatasi masalah di atas, berbagai pendekatan telah dilakukan. Dalam skenario object tracking, obyek dapat dijelaskan sebagai apa saja yang menarik untuk dianalisa. Obyek dapat diwakilkan oleh bentuk dan tampilannya. Berikut merupakan perwakilan obyek yang sering digunakan: 1. Points (titik-titik), obyek diwakili oleh sebuah titik (Gambar a), disebut dengan titik centroid, ataupun sekumpulan titik (Gambar b). Penggunaan titik cocok untuk melacak obyek yang memiliki area kecil pada gambar. 2. Bentuk geometrik yang primitif, obyek diwakili oleh sebuah kotak (Gambar c), ataupun gambar melingkar/elips (Gambar d). Cara ini cocok untuk obyek yang kaku (rigid). 3. Siluet obyek dan kontur, obyek bisa diwakili dengan kontur (Gambar g, h) dan batasan obyek tersebut dapat didefinisikan. Daerah di dalam kontur disebut siluet obyek (Gambar i). Cara ini lebih cocok untuk obyek non-rigid yang kompleks. 4. Model bentuk artikulasi, yakni obyek yang diartikulasi tersusun atas rangkaian tubuh yang dihubungkan dengan sendi-sendi. Setiap bagian tubuh diwakili dengan elips atau silinder. 5. Model kerangka, yakni obyek yang diwakilkan dalam bentuk kerangka dan biasanya dipakai untuk mewakili obyek artikulasi dan rigid.
17
Gambar 2.1 Jenis-jenis representasi dari obyek: (a) centroid, (b) banyak titik, (c) segi empat (rektangular), (d) melingkar (elips), (e) artikulasi bentuk, (f) kerangka, (g) titik-titik pengontrol pada kontur obyek, (h) kontur obyek secara lengkap, dan (i) siluet (Yilmaz, Javed, & Shah, 2006)
Dalam melakukan object tracking, pemilihan fitur yang tepat sangat diperlukan. Pemilihan fitur sangat erat dengan representasi obyek karena dari fitur visual tersebut, keunikan obyek dapat ditemukan untuk dibedakan dengan obyek lain.
Berdasarkan survei yang ditulis oleh
18
Yilmaz, et. al. (2006), algoritma-algoritma untuk object tracking menggunakan kombinasi dari fitur-fitur berikut ini: 1.
Warna (Color), merupakan hal yang dipengaruhi dari 2 faktor, yakni daya spektral dari iluminan, misalnya penerangan cahaya, dan merupakan bagian dari pantulan permukaan obyek tersebut. Contoh sistem pewarnaan pada pemrosesan citra (image processing)
adalah sistem
pewarnaan RGB (Red, Green, Blue). Akan tetapi, sistem RGB dinilai tidak seragam, sehingga perbedaan yang dihasilkan oleh warna pada sistem RGB tidak selaras dengan warna yang dikenal manusia (Paschos, 2001). Sebagai tambahan, sistem RGB sangat berkorelasi. 2.
Edge, merupakan batasan obyek yang terbentuk dari perubahan yang drastis pada intensitas citra. Algoritmaalgoritma yang mendeteksi batasan (boundary) dari obyek biasanya menggunakan edge sebagai fitur yang dipilih untuk merepresentasikan. Hal penting dalam pendeteksian edge adalah tidak terlalu sensitif pada penerangan cahaya seperti pada fitur warna. Karena kemudahan dan akurasinya , pendekatan deteksi edge yang paling terkenal adalah Canny Edge Detector.
3.
Optical
flow,
merupakan
vektor-vektor
yang
merepresentasikan perpindahan piksel pada sebuah wilayah gambar. Vektor dihitung dari pengaruh brightness. Fitur ini
19
sering digunakan untuk segmentasi pergerakan obyek dan aplikasi tracking. 4.
Tekstur, merupakan ukuran intensitas pada permukaan obyek. Jika dibandingkan dengan fitur warna, fitur tekstur membutuhkan proses-proses untuk untuk menghasilkan deskriptor. Sama dengan fitur edge, fitur tekstur tidak sensitif terhadap perubahan cahaya dibandingkan dengan fitur warna.
Banyak algoritma yang dikembangkan untuk pelacakan obyek. Dari banyak algoritma tersebut, menurut penelitian yang disampaikan Piccardi (2004), algoritma background subtraction merupakan algoritma yang umum digunakan untuk mendeteksi obyek yang bergerak pada kamera statis. Oleh karena itu, dalam penelitian ini, algoritma background subtraction dipilih untuk melakukan object tracking serta akan dibahas pendekatan-pendekatan tertentu dari algoritma tersebut.
2.7. Algoritma Background Subtraction Background subtraction termasuk suatu teknik yang umum digunakan untuk mendeteksi obyek yang bergerak pada video dari kamera statik. Cara pendeteksiannya dilakukan dengan menemukan perbedaan antara frame video saat ini dengan frame yang dibandingkan (Piccardi, 2004). Cara pengerjaan background subtraction dapat diasumsikan bahwa obyek yang bergerak memiliki warna yang berbeda dari warna background, sehingga umumya penggunaan algoritma background
20
subtraction, mendapatkan perubahan posisi dari piksel-piksel pada waktu tertentu dari perubahan warnanya yang secara signifikan berbeda dari warna latarnya (background). Banyak teknik yang dikembangkan untuk menerapkan background subtraction. Salah satunya adalah langkah yang ditulis berdasarkan penelitian yang ditulis oleh A. Solihin (2013), yakni dengan mengurangkan setiap piksel pada citra dengan obyek dengan citra latar belakang. Pengurangannya dibuat absolut sehingga selalu bernilai positif. Setiap piksel dalam citra akan dibandingkan sehingga
harus
memiliki format data dan ukuran yang sama. Banyak pendekatan-pendekatan yang dilakukan untuk algoritma background subtraction. Penelitian yang dilakukan oleh Y. Benezeth, et. al. (2010), menunjukkan hasil pengukuran beberapa pendekatan yang sering dipakai untuk background subtraction. Dari penelitiannya, disebutkan tujuh pendekatan atau metode untuk background subtraction. Tujuh pendekatan itu adalah basic background subtraction, single Gaussian, MinMax Inter-Frame Difference, Gaussian Mixture Model (GMM), Kernel Density Estimation, Codebook (CBRGB) dan Eigen Backgrounds. Lebih jauh lagi Donovan Parks dan Fels, menguji 7 algoritma Background Subtraction yang paling sering dipakai, yakni: Adaptive Median Filtering, Running Gaussian Average, GMM, Adaptive GMM, Median Filtering, Mediod Filtering, dan EigenBackground. Penelitiannya
menyimpulkan
AMF
adalah
algoritma
background
subtraction dengan efisiensi yang tinggi dan computational cost yang rendah. Oleh karena itu AMF menjadi algoritma utama yang akan diujikan
21
dalam penelitian ini. Selain AMF dua algoritma background subtraction terbaru dipilih juga untuk penelitian ini. Kedua algoritma terbaru tersebut adalah
pixel-based
adaptive
segmenter
(PBAS)
dan
godbehere,
matsukawa, goldberg (GMG).
2.3.1. Pixel Based Adaptive Segmenter Pendekatan background subtraction dengan PBAS ditulis oleh M. Hoffman, P. Tiefenbacher, dan G. Rigoll(2012). Berikut adalah urutan pengerjaan background subtraction dengan pendekatan PBAS.
Gambar 2.2 Gambaran state machine dari Pixel-Based Adaptive Segmenter (Hofmann, Tiefenbacher, & Rigoll, 2012)
Pengerjaan PBAS diawali dengan pemodelan setiap piksel x_i menggunakan array dari nilai latar yang sering diobservasi. Pada blok Decision, terjadi pemilihan mengambil atau menolak foreground
22
berdasarkan citra saat itu dan background model B(x_i). Pemilihan tersebut didasarkan pada threshold pada setiap piksel B(x_i). Untuk selanjutnya, background model akan selalu diperbaharui (update) pada satuan waktu tertentu. Dalam model di atas, proses pembaharuan didasarkan pada per-pixel learning parameter T(x_i). Pada intinya, penggunaan background segmentation adalah untuk mendapatkan keputusan biner, apakah suatu piksel yang dibandingkan termasuk foreground atau background. Pengambilan keputusan tersebut didasarkan pada citra yang diinput. Ada 5 tahap utama yang dilakukan dalam PBAS, yakni: 1.
Segmentation Decision
Proses ini mengambil input image dan membandingkan dengan background model. 2.
Update Background Model
Proses ini melakukan pembaharuan background model dan pada proses ini terdapat penghitungan terhadap kondisi-kondisi tertentu misalnya perubahan cahaya (lighting), bayangan (shadow), dan obyek-obyek tambahan yang bergerak, misalnya pohon. 3.
Update untuk mendapatkan Threshold decision
Proses ini biasanya menentukan area dinamis pada video. Area dinamis tersebut dimaksudkan agar tidak termasuk dalam foreground. 4.
Update untuk Learning Rate
23
Tahap ini merupakan tahap terpenting, karena proses pemisahan obyek yang memang dituju dari background dilakukan. Obyek yang dipisah akan tergolong dengan foreground.
5.
Implementation Details
Pada pendekatan PBAS, inputan awal berupa 3 saluran warna (color channel). Setiap saluran warna (color channel) akan diolah oleh algoritma PBAS dengan proses yang berbeda.
2.3.2. GMG Nama pendekatan background subtraction dengan GMG diambil dari nama-nama penulisnya yakni A.B. Godbehere, Matsukawa dan K. Goldberg (2012). Pendekatan dengan cara GMG mengombinasikan background image estimation, per-pixel Bayesian segmentation, dan multi-target tracking problem using Kalman filters and Gale-Shapley matching. Pengerjaan GMG dimulai dari 2 tahap pertama, tahap pertama yakni
segmentasi
foreground
dengan
menggunakan
Bayessian
interference. Background model berupa nonparametric distributions untuk RGB color space, sehingga sifat estimasinya adalah adaptif. Tahap kedua adalah multi-visitor tracking system, di mana pada tahap ini melakukan pemfilteran terhadap obyek-obyek foreground. Proses filternya memakai model pengujian heuristik. Lalu pada tahap selanjutnya, untuk melakukan proses tracking yang diawali dengan penggunaan Kalman filter lalu mencocokkan track tersebut dengan algoritma Gale-Shapley. Algoritma
24
background subtraction dengan pendekatanan GMG tergolong nonparametric karena algoritmanya dirancang untuk mengestimasi secara otomatis setiap distribusi parameternya. Menurut Godbehere (2012), Kernel Density Estimator (KDE) sering digunakan untuk distribusi color space. Dalam penelitiannya, untuk menghasilkan distribusi pada setiap piksel secara efisien, proses distribusi yang dilakukan disesuaikan dengan penelitian yang ditulis L. Li, et. al. (2004). Berikut adalah diagram proses GMG dari penelitian yang ditulis oleh A. B. Godbehere, et. al. (2012):
Gambar 2.3 Alur pendekatan GMG dengan kombinasi beberapa algoritma (Godbehere, Matsukawa, & Goldberg, 2012)
Citra I(k) akan dilakukan proses quantize pada color-space dan dibandingkan dengan statitistical background image model. Citra akan difilter dengan operasi morfologikal dan akan disegmentasi dengan menjadi beberapa bounding box M(k) dengan algoritma penghubung
25
komponen-komponen. Selanjutnya, Kalman Filter Bank akan memantau sekumpulan tracked visitors Z(k) dan telah memprediksi beberapa bounding box dalam setiap satuan waktu (k). Lalu, algoritma pencocokan Gale-Shapley akan memasangkan elemen-elemen dari M(k) dengan Z(k). Hasil dari pasangan-pasangan ini akan digunakan untuk proses update pada Kalman Filter. Hasilnya berupa Z'(k) yang merupakan koleksi dari piksel yang diidentifikasi sebagai foreground.
2.3.3. Adaptive Median Filtering Pembuatan algoritma median filtering sebenarnya berasal dari kesuksesan teknik non-rekursif yakni median filtering. Oleh karena itu, McFarlane dan Schofield mengajukan sebuah teknik rekursif yang mudah untuk mengestimasi median. Teknik ini juga digunakan untuk background modelling pada traffic monitoring. Pada algoritma ini, estimasi kenaikan median dilakukan dengan penambahan angka 1 jika input pixel lebih besar dari yang diestimasikan dan dikurangi angka 1 jika input pixel lebih kecil dari yang diestimasikan. Berikut adalah formula yang dibuat oleh McFarlane dan Schofield: 1 1
,
Menurut penelitian yang dilakukan Donovan Parks (2008), kelebihan utama dari algoritma ini adalah computational eficiency, robustness to noise dan kemudahannya. Algoritma ini bisa dipakai dalam
26
pembuatan aplikasi-aplikasi yang bersifat produk. Namun, untuk kebutuhan penelitian.