ESTIMASI POSE MODEL 3D DALAM LINGKUNGAN AUGMENTED REALITY BERBASIS TITIK FITUR WAJAH MENGGUNAKAN METODE POSIT Heri Pratikno1)
Mochamad Hariadi, ST., M.Sc., Ph.D 2)
AY
A
1) Bidang Keahlian Jaringan Cerdas Multimedia, Jurusan Teknik Elektro, Fakultas Teknologi Industri, Institut Teknologi Sepuluh Nopember Surabaya, email:
[email protected] 2) Institut Teknologi Sepuluh Nopember, Surabaya 60111, email:
[email protected]
Abstract: The main problem in objects tracking using cameras is to find the head pose estimation
R
AB
of the objects. In addition, it is necessary to rely on natural features since there is no light generated from the objects. This study aims to estimate the pose of a 3D head models using a single camera in a real-time Augmented Reality (AR) environment that is based on facial feature points. The position of the 3D models are translated into XYZ coordinate axes and rotated to the orientation angle RPY (Roll, Pitch, Yaw). The POSIT (Pose from Ortography and Scale with ITeration) is used for the pose estimation. The position and orientation of the 3D models are projected to facial feature points orthographically. In order to get the best pose, four to five iterations are performed in order to achieve the minimal error factor. The final results of this study can be considered as real-time systems as it can achieve 16 frames per second with an average angle rotational accuracy of 0.83o and translational deviation of 1.67 vector units.
SU
Keywords: Augmented Reality, Facial Feature, Pose Estimation, POSIT.
ST
IK
O
M
Markerless dalam Augmented Reality (AR) bertujuan untuk menghasilkan interaksi antara komputer dan pengguna lebih alami dan intuitif dibandingkan dengan model marker. Deteksi yang berbasiskan titik fitur wajah merupakan salah satu model markerless yang banyak menarik perhatian para praktisi dan peneliti. Proses deteksi dan pengenalan yang berbasiskan titik fitur wajah dapat diterapkan dalam bidang keamanan, absensi, e-commerce dan game. Proses estimasi pose (pose estimation) mempunyai tingkatan komputasi yang lebih sulit dan krusial dalam menentukan jumlah dan penempatan titik fitur wajah, transformasi model objek 3D serta akurasinya, dibandingkan dengan proses deteksi wajah (face detection) maupun pengenalan wajah (face recognition). Selain akurasi, proses recovery fitting antara image wajah 2D dan model objek 3D juga perlu diperhitungkan karena pergerakan terlalu cepat dari image wajah 2D aktor yang berfungsi sebagai landmark dari model objek 3D dapat menyebabkan kehilangan frame pelacakan dalam suatu scene. Berdasarkan penelitian dari Daniel F. DeMenthon [DeMenthon, 1995], metode POSIT mempunyai komputasi sistem estimasi pose bisa
sampai dua puluh lima kali lebih cepat dari pada metode Yuan [Yuan, 1989] maupun metode Lowe [Lowe, 1985] karena pada metode POSIT sudah tidak diperlukan lagi proses inisialisasi estimasi pose awal yang dilakukan secara manual dan inverse matrik dalam looping iterasinya. Metode POSIT akan mengekstraksi pose objek dengan pendekatan model 3D secara antroprometrik (rigid anthropometric) yang berkorespondensi dengan titik fitur image wajah. Dengan dasar pemikiran tersebut maka penelitian ini membahas tentang implementasi “Estimasi pose model 3D dalam lingkungan Augmented Reality berbasis titik fitur wajah menggunakan metode POSIT”. Beberapa metode sistem komputasi estimasi pose telah dikenalkan oleh Tsai [Tsai, 1987], Lowe dan Yuan. Pada metode Lowe dan Yuan mempunyai dua kelemahan yang cukup signifikan, yaitu: pertama, sebuah perkiraan atau pendekatan pose harus dimulai dengan proses iterasi. Kelemahan kedua adalah setiap langkah proses iterasi diperlukan pseudoinverse matrix Jacobian dengan dimensi 2N x 6 pada metode Lowe dan N x 6 untuk Yuan. Dimana N adalah jumlah titik fitur yang harus ditemukan, hal ini menjadikan sebuah operasi komputasional yang lebih lama dan rumit.
alami dibandingkan dengan penggunaan marker serta lebih responsif dilingkungan Augmented reality, karena pada metode POSIT sudah tidak diperlukan lagi proses inisialisasi pose awal titiktitik fitur di wajah yang dilakukan secara manual pada metode-metode sebelumnya.
METODE PENELITIAN
AB
AY
A
pada penelitian ini perancangan sistem secara garis besarnya dibagi menjadi tiga blok bagian utama, yaitu: proses deteksi, proses tracking dan proses estimasi pose. Sebagaimana tampak pada gambar 1.
ST
IK
O
M
SU
R
Metode Fully Projective [Araujo, 1998] merupakan pengembangan dari metode Lowe dan berhasil diimplementasikan dalam penelitian [Lim, 2002] dengan hasil penelitian sebagai berikut: tingkat kesalahan rotasi rata-rata sebesar 4° dan tingkat kesalahan translasinya rata-rata sebesar 5 cm. Berdasarkan pembahasan pada latar belakang penelitian dan hasil penelitian sebelumnya, maka dirumuskan permasalahan pada penelitian ini, yaitu: proses interaksi dalam lingkungan Augmented Reality secara umum masih menggunakan marker, pada kasus Augmented Reality yang melibatkan interaksi dengan kepala manusia maka penggunaan marker kurang cocok untuk diimplementasikan. Perlu adanya sistem yang mengimplementasikan metode POSIT agar proses interaksi dilingkungan Augmented Reality dapat dilakukan secara markerless, terkait dengan implementasi penggunaan metode POSIT tersebut maka perlu adanya pengujian terhadap performa estimasi pose pada POSIT dalam lingkungan Augmented Reality. Penelitian ini bertujuan untuk memberikan metode alternatif dalam penerapan sistem interaksi antara manusia dan komputer dalam lingkungan Augmented Reality tanpa menggunakan marker (markerless). kemudian dilakukan uji performasi estimasi pose pada metode POSIT tersebut, yaitu: translasi pada posisi sumbu koordinat XYZ dan rotasi pada sudut RPY (Roll, Pitch, yaw). Berdasarkan rumusan masalah, maka ada beberapa batasan masalah, antara lain : a. Jumlah orang pengendali gerakan model objek 3D pada lingkungan Augmented Reality hanya satu orang (aktor) dalam satu waktu. b. Pada penelitian ini tidak dibahas ekspresi dari model objek 3D. c. Kondisi pencahayaan merata dalam ruangan. Hasil penelitian ini diharapkan memberi manfaat terwujudnya inetraksi di lingkungan Augmented Reality dapat dilakukan dalam waktu nyata secara markerless, yaitu: menggunakan titik-titik fitur wajah sebagai landmark penempatan (layouting) model objek 3D yang bisa digerakkan kearah enam taraf kebebasan bergerak (6DOF – Six Degree of Freedom). Adapun hasil dari penelitian ini dapat digunakan untuk industry game, absensi online, ecommerce, media promosi dan sebagainya. Penelitian ini diharapkan bisa memberi kontribusi pada peningkatan interaksi yang lebih
Gambar 1. Bagan sistem
Proses Deteksi Pada tahapan ini bertujuan untuk pengambilan gambar (grabbing) tiap frame dalam waktu nyata (real-time capturing) dari sebuah scene menggunakan kamera tunggal. Jarak ideal dari posisi objek image wajah dengan kamera adalah sekitar 15 cm (near plane) sampai dengan 3 meter (far plane). Proses tracking pada penelitian ini menggunakan metode Viola-Jones [Paul Viola, 2001], dimana fungsinya adalah untuk deteksi wajah (face detection) dengan tujuan untuk membedakan area wajah dan bukan wajah dari objek. Algoritma Viola-Jones, terdiri dari tiga proses tahapan penting, yaitu: pertama adalah proses komputasi fitur (feature computation) yang dihasilkan oleh metode Haar-Like Feature. Proses kedua ialah seleksi fitur (feature selection) menggunakan metode pelatihan AdaBoost. Sedangkan proses yang ketiga adalah
ketepatan dalam waktu nyata (real-tiimeliness) o classifier. dengan metode cascade of Pada gambar 2 menunjukkan diagram alur tahapan proses pen ndeteksian, Haasil akhir a pada dari prosess deteksi image 2D kepala aktor penelitian ini, i tampak pad da gambar 3.
keperluan k jum mlah fitur yyang dialokaasikan, tampak t pada gaambar 5. Opticall flow adalah salah satu m metode pelacakan p obbjek secara real-time, ddimana algoritma a opttical flow daapat diintegraasikan dengan d algoritm ma yang lain uuntuk pelacakaan dan pengenalan p waajah.
Mulai
Data Latih
A
Deteksi wajah
Haar-Like H Features
(sub-windo ow)
Optical Flow LKT Pyramidal
AY
Cascade Trainer
Presenta asi image inte egral
E Ektraksi titik fitur wajah tterbaik (Shi-Thomasi)
Komputa asi Fitur
Seleksi fitur f AdaBoo ost
AB
Pilih titik fitur terbaiik (Pyramidal Lucas-Kan nade)
Classifier Cascade
1
Proses s beruruta an
Y
Cascad de tahap 2
-n
2
Wajah
T
Wajah
Y
Cascade tahap ke- n
Bukan wajah
T
Frame berikutnya ?
T
Wajah
SU
Berhenti
R
Cascade tahap 1
Gambar 2. 2 Diagram alurr proses detekssi metode Viola-Jones
Y
Lacak titik fitur terba aik (Optical Flow Lucas-Kanade e Thomasi)
M
End
Gambar 4. Proses Lucas-K Kanade Thomaasi
O
Gaambar 3. Posisi aktor terdetek ksi
Tracking Wajah
Gambar 5.. ekstraksi fiturr hasil penelitiaan
ST
IK
Unttuk melacak titik fitur wajah dari sebuah ima age, pada peneelitian ini men nggunakan algoritma Kanade-Lucas K Thomasi (KLT T) [Lucas and Kanad de, 1981]. Paada prinsipnyaa metode KLT mem mpunyai tiga tahapan dasaar dalam melacak titik fitur wajah h, yaitu: meng gekstraksi titik fitur wajah (featurre extraction), memilih w (feature selection) dan n melacak titik fitur wajah titik fitur (feature trracking). Seb bagaimana da gambar 4. tampak pad Polaa tekstur hany ya akan ada jik ka terlihat banyak pik ksel pada areea tersebut, fitur f yang terlacak ak kan lebih akurat apabila fitu ur window berisi inforrmasi tekstur. Area pada fitu ur window bisa berrmacam-macam m tergantun ng dari
Gambaar 6. Pelacakaan optical flow
Estimasi pose p HASIL H DAN N PEMBAHA ASAN
AY
A
Implem mentasi sistem pada penelitian ini terdiri t dari tiiga bagian uttama, yaitu: pproses pertama p adalahh deteksi imagge 2D wajah, pproses kedua k adalah ppenentuan dann tracking titikk fitur image i 2D waajah tiap fraame-nya, sedaangkan proses p ketiga adalah estim masi pose traanslasi kearah k sumbuu koordinat X XYZ dan rotaasi ke sudut s RPY.
AB
(a) (b) Gambar G 8. Tam mpilan GUI wiindow dari sisteem, a. W Window titik fituur wajah, b. W Window Auggmented Realityy model objek 3D.
Pengujian P Sisttem Untuk menguji siistem yang telah diimplementas d sikan pada ppenelitian ini akan dibahas d dari sudut panddang ke-akurrasian, ketangguhan k ppelacakan, penngaruh jumlahh titik fitur f image w ajah, jumlah fframe tiap detiknya serta s estimasi ppose. terkait ddengan ke-akurrasian akan ketepatan k daalam pelacaakan, ketanggguhan berhubungan b mampuan meelacak dengan kem dalam d perbeedaan intensitas cahaya dan kecepatan k gerrakan. Banyakknya jumlah fframe tiap t detiknya aakan memastikaan proses kom mputasi dalam d waktu nyata (reall-time) atau tidak, sedangkan s estiimasi pose meenunjukkan koorelasi posisi p dan orrientasi antaraa model objeek 3D dengan d pergerrakan atau peergeseran imagge 2D wajah w aktor.
SU
R
Pada dasarnya esttimasi pose ataau disebut juga extrin nsic camera ca alibration adallah proses untuk mengekstraksi in nformasi yan ng terkait dengan infformasi posisi dan orientasi titik yang korespondeensi atau berk kesesuaian darri sebuah model objek dan imag ge yang diperroleh dari kamera. Pose P dari seb buah objek merupakan m posisi dan orientasi pada objek yang mempunyai enam arah kebebasan daalam bergerak (6DOF – Six Degreee of Freedom). Pada gambar 7, algoritma PO OS (Pose from Ortho ography and Scale) S menghassilkan dua pose pada setiap iterasi pada algoritm ma POSIT. pi dalam praktteknya hanya satu yang Akan tetap diikuti ataau dua percab bangan, yang akhirnya dengan satu atau dua solusi yang layak (+), kedua situaasi tersebut terjjadi karena : 1. Pada siituasi pertama, langkah iterassi pertama dikomp putasi dengan dua d pose tetapi satu pose tidak laayak (-) atau dibuang d karenaa beberapa titik-titiik pose scen ne terletak dibelakang d kameraa. Sehingga han nya satu path layak (+) yang diiproses. 2. Pada siituasi kedua, kedua k pose darri langkah iterasi pertama adaalah layak (+), dan utkan iterasi pada keduaa cabang melanju (path). Pada langkah h kedua, masin ng-masing cabang masih tersediia dua pose yaang layak m g cabang (+), teetapi untuk masing-masing hanya pose p terbaik yaang akan diperttahankan.
M
Titik Image e Titik objek Coplanar Pusat Imag ge Focal length h Hitung i
T, R1
T, R2
O
POS
semua Zi > 0?
no
STOP
no
IK
ye es
ST
Temukan titik im mage, bandingkan dg image aktual, ukur kesallahan E1
semua Zi > 0 yes
Temukan titik ima age, bandingkan dg im mage aktual, ukur kesalah han E2
E1<E2 ?, E=E, R=R1 =R2 Lain E=E2, R=
no E < Threshold d?
no E(n) ≥ E(n-1))
ye es
yess STOP
Hasil T, R, E
Gambar G 7. Algoritma POSIT
Akurasi A Pelaccakan Pada im mplementasi sistem ini, aakurasi pelacakan p cukuup baik karenaa bisa menggerrakkan model m objek kepala 3D ppada layar annimasi dengan d pose aktor yang hhampir sama dalam waktu w nyata. H Hasil pelacakann (tracking) m mampu mendeteksi m im mage wajah 2D D dan menggerrakkan model m objek kkepala 3D rotaasi pada sudut Pitch (X=0) ( sebesar 129.1° ke araah +/-Y, rotasii pada sudut s Yaw (Y= =0) yang berpaaling ke +/- X besar simpangan s suudut sebesar 179.8°. Sedaangkan besarnya b rotassi pada suduut Roll (Z=0) +/-X adalah a 180°.
Tabell 1. Rotasi padaa sudut Roll Simpangan sudut
Deviasi
Ratta‐rata
( derajat ) 14.703 15.185 16.456 16.859 17.849 19.175 18.965 20.160 20.962 21.615 22.189 22.457 23.262 23.951 24.412 24.593 24.91 25.47 25.441
Antarra tiap frame (0)
Semuaa frame (0)
Roll (α)
0.48 82
1.271 0.40 03
0.99 1.32 26 0.21 1.19 95 0.802 0.65 53
0 0.623
0.574 0.26 68
A
ke‐ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Rotasi Di Sumbu Z
0.805 0.688 89
0.461
AY
Frame
0.18 81
0.317
0.56 6
0.029
Rotasi R Pada Su umbu Y (Yaw) w)
AB
han Pelacakan n Ketangguh Ketaangguhan dallam pelacakaan image wajah 2D serta pergerak kan model objek kepala garuhi oleh pen ncahayaan ruaangan dan 3D dipeng pencahayaaan pada aktor. Metode Lucaas-Kanade Tomasi berdasarkan paada tingkat kecerahan k ghtness) berjalaan pada cahaya ruangan objek (brig yang meratta dan normal. pencahayaaan pada hal ini berarti m aktor tiidak boleh terllalu gelap ruangan maupun atau terlaalu terang karena k hal itu bisa mengakibaatkan beberapaa pelacakan titik t fitur wajah berg geser dari temp pat seharusnyaa. Apabila banyak titik fitur image wajah yang hiilang atau bergeser maka m bisa men ngurangi tingkaat akurasi pelacakan.
M
SU
R
P Estimasi Pose Estiimasi pose model ob bjek 3D merupakan n kombinasi daari rotasi matriik 3D dan translasi veektor 3D yang mempunyai nilai relatif (b) (a) dengan kam mera, maka dip perlukan minim mal matrik G Gambar G 10. Rootasi pada sum mbu Y, a. di winndow 3 x 4. Karrena pada OpeenGL standar matriknya m traacking b. di w window model 33D untuk transsformasi mem mpunyai ordo 4 x 4 (16 elemen) dengan d prioritas perhitungaan pada Tabel 2. Rotasi padaa sudut Yaw kolom (1D). Frame Simpangan sudut Deviasi Ratta‐rata Rotasi p Jikaa menggunakaan proyeksi perspektif Di Sumbu Y Antaara tiap frame ( ) Semuaa frame ( ) ke‐ ( derajat ) maka hany ya diperlukan empat e titik non-coplanar 1 72.668 0.8 828 2 73.496 1.006 (kiri, kanaan, atas dan bawah) b sedang gkan pada 3 74.502 1.66 4 76.162 proyeksi ortografi yan ng digunakan n dalam 1.778 5 77.94 681 0.6 nam buah tiitik nonOpenGL diperlukan en 6 78.621 0.74 7 79.361 kiri, kanan, atas, bawah, dek kat (near) coplanar (k 0.0 002 8 79.363 1.159 dan jauh (fa far)). 9 78.204 1.0 003
IK
O
da Sumbu Z (R Roll) Rotasi Pad
10 11 12 13 14 15 16 17 18 19
0
Yaw (β)
79.207 79.199 79.59 79.982 80.308 79.891 79.235 74.611 76.986 76.912
0.008
0
1 1.007
0.3 391 0.392 0.3 326 0.417 0.6 656 4.624 2.3 375 0.074
Rotasi R Pada Su umbu X (Pitch h)
ST
(a) (b) umbu Z, a. di window w Gambar 9. Rotasi pada su tracking, t b. di window modell 3D.
(a) (b) Gambar G 11. R Rotasi pada sum mbu Z, a. di wiindow ttracking, b. di w window modell 3D.
Taabel 3. Rotasi pada p sudut Pitcch
Pitcch (β)
Simpangan sudut ( derajat ) ‐25.086 ‐25.292 ‐23.566 ‐22.398 ‐22.591 ‐26.456 ‐27.049 27.101 ‐25.098 ‐24.173 ‐24.373 ‐25.516 ‐25.726 ‐26.39 ‐26.516 ‐27.399 ‐28.659 ‐29.077 ‐29.078
Deviasi
R Rata‐rata 0
0
Antara tiap frame ( ) Sem mua frame ( ) 0.206
1.726 1.168
0.193 3.865 0.593 0.052 2.003 0.925 0.2
0.869
1.143
sebesar 16 fframe per secoond (FPS), sehhingga sudah term masuk dalam waktu nyata (realtime) yang men-syarat-kaan minimal 4 FPS. 3. 3 Diperlukann 200 titik fituur pada image wajah aktor sebaggai landmark m model objek 3D D agar tidak bergeetar (tremor). 4. 4 Estimasi ppose dicapaii dengan ratta-rata deviasi orieentasi sudut 0.83° dengan ratta-rata deviasi jarrak translasi 1.67 satuann unit vektor. Berikutt adalah beberapa saran untuk penelitian p lebihh lanjut: 1. 1 Penerapan metode Fuuzzy, AMM dan sebagainyaa untuk mendetteksi ekspresi wajah aktor. 2. 2 Untuk m mengatasi efeek Gimbal Lock direkomenddasikan mennggunakan m metode Quaternionn (4D).
A
Ro otasi Di Su umbu X
0.21 0.664 0.126 0.883 1.26 0.418 0.001
Translasi Pada P Sumbu XYZ X Tran nslasi dilakuk kan pada ketig ga sumbu XYZ, karrena keterbataasan jumlah halaman, maka hany ya translasi kearah k sumbu u Z yang digunakan sebagai contoh h.
AY
ke‐ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
AB
Frame
RUJUKAN R
R
Araujo A H., C Rodrigo L. B Brown Carceroni R Christoopher M., A Fully Projjective Formula lation to Improove the Accuraacy of Lowe’s Pose Estim mation Algoorithm, Vision and Im mages Computter Understtanding, Volum me 70, Pagess 227238, 19998. B. B D. Lucas an nd T. Kanadee., An ietrative iamge registraation techniquee with an application to sterreo vision, P Proceedings oof the DARPA A imagingg understaanding workshoop, pp. 121-130. 1981. Daniel D F. DeM Menthon, Larrry S. Davis., M ModelBased Object Pose in 25 Liness of Vision Code.Innternational Computer V Laborattory, Universityy of Maryland,1995. Lowe, L D.G., P Perceptual Orgaanization and V Visual Recognnition, Kluuwer Acaademic Publish ers, 1985. Paul P Viola, M Michael Jones.., Robust Reall-Time Object D Detection. Cannada. July 13, 22001. Resmana R Lim m. Davina. S Sivia R., Pelaacakan dan esstimasi Pose Video wajjah 3 Dimenssi, Jurnal Teknnik Elektro, volume 2, nomeer 2, UK Petra,, 2002. R.Y. R Tsai., Ann Effisient andd Accurate Caamera Calibraation Techniquue for 3D Maachine Vision. Proceeding oof IEEE Confeerence Pattern on Coomputer Vission and P Recognnition, Miami B Beach, FL, ppp. 364374, 19 86. Yuan, Y J.S.C.., A General Photogramm metric Methodd for Determinning Object Poosition and Oriientation,IEEE E Trans. on Roobotics and Auttomation, vol.55,pp.129-142, 1989.
SU
(aa) (b) Gambar 4.2 25 Translasi dari d +Z ke –Z, a. di window tracking, b. dii window Augmented Reality R model 3D.
T ke-15 langkah pada sumbu Z Tabel 4. Translasi Arah
Nilai
Rata‐rata
1.4425 1.453 1.4696 1.5157 1.5528 1.6033 1.6653 1.7201 1.8087 1.8608 1.8838 1.9347 1.9955 2.0266 2.0841
1.7344
M
Translasi mbu Sum Ke‐ 1 2 3 4 5 6 7 8 Z 9 10 11 12 13 14 15
IK
O
Depan ke Belakangg
Satuan
Unit Vektor
KESIMPULAN
ST
Darri hasil perancaangan sistem kemudian dilanjutkan n pengambilan n data, pengu ujian dan analisa, maka m dapat dissimpulkan bah hwa pada penelitian ini telah berh hasil diimplem mentasikan dengan hassil sebagai berikut: 1. Metodee POSIT daapat digunakaan untuk estimassi pose pada lingkungan Augmented A Reality dengan hasill interaksi leb bih alami karena sudah tidak meenggunakan marker lagi b titik fittur wajah. tetapi berbasis 2. Hasil keluaran k dari sistem yang diterapkan d