1
SISTEM PENDETEKSI WAJAH MANUSIA PADA CITRA DIGITAL (Human Face Detection System on Digital Images) Setyo Nugroho1, Agus Harjoko2 Program Studi Ilmu Komputer Program Pascasarjana Universitas Gadjah Mada
ABSTRACT Face detection is one of the most important preprocessing step in face recognition systems used in biometric identification. Face detection can also be used in searching and indexing still image or video containing faces in various size, position, and background. This paper describes a face detection system using multi-layer perceptron and Quickprop algorithm. The system achieves its ability by means of learning by examples. The training is performed using active learning method to minimize the amount of data used in training. Experimental results show that the accuracy of the system strongly depends on the quality and quantity of the data used in training. Quickprop algorithm and active learning method improve the training speed significantly.
Keywords : face detection, neural networks, Quickprop, active learning
1. STMIK STIKOM Balikpapan 2. Fakultas MIPA Universitas Gadjah Mada, Yogyakarta
2
PENGANTAR Teknologi pengenalan wajah makin banyak diaplikasikan dalam sistem pengenalan biometrik, pencarian dan pengindeksan database citra dan video digital, sistem keamanan, konferensi video, dan interaksi manusia dengan komputer. Pendeteksian wajah (face detection) juga merupakan salah satu tahap awal yang sangat penting sebelum dilakukan proses pengenalan wajah (face recognition). Masalah deteksi wajah dapat dirumuskan sebagai berikut: diberikan masukan sebuah citra digital sembarang, maka sistem akan mendeteksi apakah ada wajah manusia di dalam citra tersebut. Jika ada maka sistem akan memberitahu berapa wajah yang ditemukan dan lokasi wajah-wajah tersebut di dalam citra. Keluaran dari sistem adalah posisi subcitra berisi wajah yang berhasil dideteksi. Deteksi wajah dapat dipandang sebagai masalah klasifikasi pola dimana inputnya adalah suatu citra dan outputnya adalah label kelas dari citra tersebut. Dalam hal ini terdapat dua label kelas, yaitu wajah dan non-wajah (Sung, 1996). Teknik-teknik pengenalan wajah yang dilakukan selama ini banyak yang menggunakan asumsi bahwa data wajah yang tersedia memiliki ukuran yang sama dan latar belakang yang seragam. Di dunia nyata, asumsi ini tidak selalu berlaku karena wajah dapat muncul di dalam citra dengan berbagai ukuran, berbagai posisi, dan latar belakang yang bervariasi (Hjelmas dan Low, 2001).
Supervised Learning Tujuan pada pembelajaran supervised learning adalah untuk menentukan nilai bobot-bobot koneksi di dalam jaringan sehingga jaringan dapat melakukan pemetaan
3
(mapping) dari input ke output sesuai dengan yang diinginkan. Pemetaan ini ditentukan melalui satu set pola contoh atau data pelatihan (training data set). Setiap pasangan pola p terdiri dari vektor input xp dan vektor target tp. Setelah selesai pelatihan, jika diberikan masukan xp seharusnya jaringan menghasilkan nilai output tp. Besarnya perbedaan antara nilai vektor target dengan output aktual diukur dengan nilai error yang disebut juga dengan cost function: E=
1 ∑∑ (t np − snp ) 2 2 p∈P n
(1)
di mana n adalah banyaknya unit pada output layer. Tujuan dari training ini pada dasarnya sama dengan mencari suatu nilai minimum global dari E.
Algoritma Quickprop Algoritma Quickprop merupakan hasil pengembangkan dari algoritma backpropagation standar. Pada algoritma Quickprop dilakukan pendekatan dengan asumsi bahwa kurva fungsi error terhadap masing-masing bobot penghubung berbentuk parabola yang terbuka ke atas, dan gradien dari kurva error untuk suatu bobot tidak terpengaruh oleh bobot-bobot yang lain (Fahlman, 1988). Dengan demikian perhitungan perubahan bobot hanya menggunakan informasi lokal pada masing-masing bobot. Perubahan bobot pada algoritma Quickprop dirumuskan sebagai berikut:
∂E (t ) ∂E ∂w ∆w(t ) = −ε (t ) + * ∆w(t − 1) ∂E ∂E ∂w (t − 1) − (t ) ∂w ∂w di mana: ∆w(t ) : perubahan bobot ∆w(t − 1) : perubahan bobot pada epoch sebelumnya ε : adalah learning rate
(2)
4
∂E (t ) : derivatif error ∂w ∂E (t − 1) : derivatif error pada epoch sebelumnya ∂w
Pada eksperimen dengan masalah XOR dan encoder/decoder (Fahlman, 1988), terbukti bahwa algoritma Quickprop dapat meningkatkan kecepatan training.
CARA PENELITIAN
Data yang digunakan dalam penelitian ini terdiri dari sekumpulan citra untuk pelatihan (training data set) dan sekumpulan citra untuk pengujian (testing data set). Jumlah citra wajah yang digunakan sebanyak 3000 buah dengan ukuran 20x20 pixel. Sedangkan citra non-wajah diambil dari file-file citra yang tidak terdapat wajah di dalamnya. Jaringan syaraf tiruan (JST) yang digunakan pada sistem ini menggunakan jenis multi-layer perceptron. Arsitektur yang digunakan diadaptasi dari hasil penelitian (Rowley dkk., 1998). Lapisan input terdiri dari 400 unit input, yang menerima masukan dari nilai grayscale pixel 20x20 dari subcitra yang akan dideteksi. Sebelum dijadikan input untuk JST, nilai grayscale yang berkisar dari 0 sampai 255 dinormalisasi menjadi antara –1 dan 1. Lapisan output terdiri dari sebuah unit dengan nilai keluaran berkisar antara –1 dan 1. Pada training data set didefinisikan nilai 1 untuk data wajah dan –1 untuk data non-wajah. Lapisan tersembunyi (hidden layer) terdiri dari total 25+16=41 unit. Bagian pertama terhubung dengan lapisan input yang membentuk 25 area berukuran 4x4 pixel.
5
Bagian kedua terhubung dengan lapisan input yang membentuk 16 area berukuran 5x5 pixel. Secara keseluruhan jaringan ini memiliki 883 bobot penghubung, sudah termasuk bias. Pada sistem (Rowley dkk., 1998) yang lebih kompleks, jumlah bobot penghubungnya mencapai 4357.
Teknik Active Learning
Dengan teknik active learning (Sung, 1996), training dilakukan secara bertahap. Pada tahap pertama training dimulai dengan menggunakan sedikit data non-wajah. Pada tahap berikutnya, data training non-wajah ditambah sedikit demi sedikit. Namun data tambahan tersebut diseleksi hanya untuk data tertentu saja, yaitu data yang yang dideteksi sebagai wajah (false positive) pada hasil training tahap sebelumnya. Dengan demikian jumlah data training yang digunakan untuk jaringan syaraf tiruan akan lebih sedikit. Karena data training yang digunakan lebih sedikit, waktu yang diperlukan untuk proses training juga akan lebih singkat. Gambar 1 menunjukkan penerapan teknik active learning untuk sistem pendeteksi wajah.
Detektor Wajah
Bagian detektor wajah ini menggunakan arsitektur jaringan syaraf yang sama dengan yang digunakan untuk training. Bobot penghubung yang digunakan diambil dari bobot terakhir yang dihasilkan pada proses training. Hasil deteksi akan diputuskan sebagai wajah jika output dari JST lebih dari 0, dan diputuskan sebagai non-wajah jika output JST kurang dari atau sama dengan 0.
6
Koleksi Contoh Data Wajah
Data Training
Data Awal Non-Wajah
Pilih random
Koleksi Contoh Data Non-Wajah
Trainer JST
Data Tambahan Non-Wajah
Bobot JST Hasil Training
Detektor Wajah
Hasil Deteksi (False Positive)
Gambar 1. Teknik Active Learning untuk Sistem Pendeteksi Wajah
Ekstraksi Subcitra
Pada citra yang akan dideteksi, posisi wajah bisa berada di mana saja. Pengklasifikasi jaringan syaraf tiruan pada detektor wajah memerlukan input citra 20x20 pixel. Karena itu digunakan window 20x20 pixel yang digeser melalui seluruh daerah citra. Detektor akan memeriksa satu persatu subcitra yang dilalui oleh window tersebut. Pada citra yang dideteksi, wajah bisa memiliki ukuran yang bervariasi. Karena itu citra akan diperkecil secara bertahap dengan skala perbandingan 1:1,2 sebagaimana
7
dilakukan pada (Rowley dkk., 1998). Pada setiap ukuran citra yang diperkecil, window 20x20 pixel akan digeser melalui seluruh area citra.
Preprocessing
Citra yang akan digunakan sebagai training data set akan mengalami tahaptahap preprocessing berikut: •
Histogram Equalization, untuk memperbaiki kontras citra.
•
Masking, yaitu menghilangkan bagian sudut-sudut citra untuk mengurangi variasi citra sehingga memperkecil dimensi data.
•
Normalisasi, yaitu mengkonversi nilai intensitas grayscale citra sehingga memiliki range dari –1 sampai dengan 1. Tahap-tahap preprocessing yang sama juga dilakukan pada saat proses
pendeteksian wajah.
Gambar 2. Contoh data wajah yang telah mengalami preprocessing
Merging
Pada saat dilakukan deteksi wajah pada citra, biasanya sebuah wajah akan terdeteksi pada beberapa lokasi yang berdekatan. Lokasi-lokasi ini disebut dengan kandidat wajah. Untuk itu perlu dilakukan proses penggabungan (merging), yaitu menyatukan lokasi kandidat-kandidat wajah yang berdekatan.
8
HASIL DAN PEMBAHASAN
Untuk mengukur evaluasi unjuk kerja dari detektor wajah, pada umumnya digunakan dua parameter, yaitu detection rate dan false positive rate (Yang dkk., 2002). Detection rate adalah perbandingan antara jumlah wajah yang berhasil dideteksi dengan jumlah seluruh wajah yang ada. Sedangkan false positive rate adalah banyaknya subcitra non-wajah yang dideteksi sebagai wajah. Gambar 3 menunjukkan contoh hasil deteksi yang dilakukan pada beberapa citra pengujian. Pengujian dilakukan dengan data uji citra yang berasal dari Massachusetts Institute of Technology (MIT) yang terdiri dari 23 file citra yang secara keseluruhan berisi 149 wajah (data uji MIT-23). Kumpulan citra ini pertama kali dipublikasikan pada (Sung dan Poggio, 1994). Pada data uji ini diperoleh hasil detection rate sebesar 71,14% dan false positives sebanyak 62. Hasil ini diperoleh dari
training yang
menggunakan 3000 data wajah dan 5200 data non-wajah yang diperoleh melalui metode active learning. Tabel 1 menunjukkan hasil deteksi yang pernah dilakukan oleh para peneliti lain dengan menggunakan data uji MIT-23. Perbandingan ini tidak bisa dijadikan patokan mutlak untuk menyimpulkan bahwa satu metode lebih baik dari metode yang lain, karena faktor-faktor berikut (Hjelmas dan Low, 2001): •
data set yang digunakan untuk training tidak sama
•
jumlah data yang digunakan untuk training tidak sama Metode Support vector machines (SVM) (Osuna, 1997) Distribution-based dan clustering (Sung, Poggio, 1994) Neural Networks (Rowley, 1998) Kullback relative information (Lew, Huijsmans, 1996)
Detection Rate 74,2% 79,9% 84,5% 94,1%
False Positive 20 5 8 64
Tabel 1. Beberapa hasil deteksi wajah pada data uji MIT-23
9
Gambar 3 Contoh hasil deteksi wajah pada beberapa citra uji
10
Pengaruh Jumlah Data Training yang Digunakan
Tabel 2 menunjukkan pengaruh jumlah data training yang digunakan terhadap hasil deteksi. Tabel ini berdasarkan hasil deteksi pada suatu citra berisi 15 wajah dan memiliki total 790.797 window. Terlihat bahwa semakin banyak data training nonwajah yang digunakan, semakin kecil angka false positive yang dihasilkan. Hal ini menunjukkan bahwa dengan data yang semakin lengkap, hasil belajar sistem akan semakin baik. Jumlah data training nonwajah total wajah 1000 1000 2000 1000 1200 2200 1000 1400 2400 1000 1600 2600 1000 1800 2800 1000 2000 3000 1000 2200 3200 1000 2400 3400 1000 2600 3600 1000 2800 3800 1000 3000 4000 1000 3200 4200 1000 3400 4400 1000 3600 4600 1000 3800 4800 1000 4000 5000
Detection Rate
False Positive
15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15 15/15
42 32 31 24 23 19 10 5 4 2 2 2 2 1 1 1
Tabel 2. Pengaruh Jumlah Data Training pada Unjuk Kerja Deteksi Wajah
Pengaruh Algoritma Quickprop pada Kecepatan Training
Tabel 3 menunjukkan perbandingan waktu training yang diperlukan antara training yang menggunakan algoritma backpropagation standar dengan training yang menggunakan algoritma Quickprop. Terlihat bahwa dengan jumlah data training yang semakin besar, algoritma Quickprop memberikan peningkatan kecepatan yang signifikan.
11
Waktu training (detik)
Jumlah Data training
Error
2000 3000 4000
0.05 0.05 0.05
Backprop standar 49 649 4664
Quickprop 12 96 867
Tabel 3. Pengaruh Algoritma Quickprop pada Kecepatan Training
Pengaruh Metode Active Learning
Tabel 4 menunjukkan perbandingan antara hasil training yang menggunakan metode active learning, dengan hasil training yang menggunakan data yang dipilih secara random. Jumlah data yang digunakan adalah sama. Terlihat bahwa teknik active learning memberikan hasil yang lebih baik. Ini berarti bahwa teknik active learning dapat memilih data yang benar-benar perlu, sehingga dapat meminimalkan jumlah data training yang digunakan. Data training wajah 3000 3000
nonwajah 5200 3000
Random Data total 8200 6000
Detection Rate 63,76% 62,42%
False Positive 732 1160
Active Learning Detection Rate 71,14% 71,14%
False Positive 62 201
Tabel 4. Pengaruh Active Learning pada Unjuk Kerja Deteksi Wajah
KESIMPULAN DAN SARAN Kesimpulan
Dari penelitian ini dapat diambil kesimpulan sebagai berikut: 1. Jaringan syaraf tiruan dapat dimanfaatkan untuk melakukan deteksi wajah pada citra digital. 2. Pada sistem deteksi wajah yang berbasis contoh, hasil yang diperoleh sangat tergantung dari kualitas dan banyaknya contoh yang diberikan.
12
3. Pada training dengan jumlah data yang besar, algoritma Quickprop dapat memberikan peningkatan kecepatan yang signifikan. 4. Metode active learning dapat digunakan untuk meminimalkan jumlah data training yang digunakan, sehingga mempercepat proses training. Saran
1. Untuk meningkatkan unjuk kerja sistem pendeteksi wajah, dapat diberikan pelatihan lebih lanjut dengan tambahan data training yang lebih banyak dan lebih bervariasi. 2. Sistem deteksi wajah ini dapat dimanfaatkan lebih lanjut untuk membangun sistem pengenalan wajah (face recognition).
DAFTAR PUSTAKA
Fahlman, S.E., 1988, “An Empirical Study of Learning Speed in Back-Propagation Networks”, Technical Report CMU-CS-88-162, Carnegie Mellon University, USA. Hjelmas, E., Low, B.K., 2001, “Face Detection: A Survey”, Computer Vision and Image Understanding. 83, pp. 236-274. Rowley, H., Baluja, S., Kanade, T., 1998, “Neural Network-Based Face Detection”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 20, no. 1. Sung, K.K., 1996, “Learning and Example Selection for Object and Pattern Detection”, AITR 1572, Massachusetts Institute of Technology AI Lab. Sung, K.K., Poggio, T., 1994, “Example-Based Learning for View-Based Human Face Detection”, Technical Report AI Memo 1521, Massachusetts Institute of Technology AI Lab. Yang, M.H., Kriegman, D., Ahuja, N., 2002, “Detecting Faces in Images: A Survey”, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 24, no. 1.