BAB 3
METODOLOGI
3.1. Kerangka Berpikir Pengenalan ekspresi wajah adalah salah satu bentuk representasi kecerdasan manusia yang dapat digunakan untuk mendeteksi kondisi emosi seseorang. Hal inilah yang mendorong adanya perkembangan teknologi intelegensia semu untuk melakukan deteksi ekspresi atau facial expression recognition. Adanya teknologi pengenalan ekspresi wajah tentunya akan membantu proses automatisasi informasi mengenai kondisi emosi seseorang serta lebih lanjut mendukung interaksi dari mesin kepada manusia yang lebih baik.
Langkah dasar yang dilakukan dalam proses pengenalan ekspresi wajah adalah dengan cara memproses gambar wajah manusia dengan ekspresi tertentu. Hal ini tentunya akan sangat sulit untuk dilakukan apabila data yang diambil sebagai parameter adalah piksel yang memiliki dimensi yang besar dalam satu gambar. Untuk itu, sebelum proses pengenalan/deteksi dapat dilaksanakan, data piksel perlu diekstraksi terlebih dahulu agar menjadi data dengan dimensi yang lebih kecil. Beberapa metode umum yang dilakukan untuk mereduksi dimensi adalah PCA (Principle Component Analysis), ICA (Independent component analysis), serta NMF (Non-Negative Matrix Factorization).
29
30
Dalam penelitian ini, penulis menggunakan NMF sebagai metode reduksi fitur. NMF menjadi unggul karena mampu mengurangi penyimpanan storage karena vektor fiturnya direduksi. Metode NMF memiliki kemampuan untuk belajar dari bagian – bagian dari objek (part based) sehingga tidak berdasarkan keseluruhan objek seperti yang dilakukan oleh metode PCA (Li et al, 2001)(Zhang, 2005). Selain itu, sifat ke-non-negatif-an dari NMF mendukung untuk proses komputasi pengenalan ekspresi wajah yang data-datanya tidak bernilai negatif pula. Sementara untuk classifier, penulis memilih untuk menguji artificial neural network (ANN) untuk melakukan deteksi dari hasil ekstraksi yang diberikan NMF. Penggunaan ANN sebagai classifier didasarkan atas kecenderungan ANN yang fault tolerant sehingga memungkinkan hasil deteksi yang lebih baik daripada NMF sebagai classifier.
3.2. Metodologi Dalam penelitian ini dilakukan pengenalan ekspresi wajah menggunakan 3 algoritma, yaitu NMF dan Back-Propagation serta gabungan dari kedua metode tersebut. Masing-masing memiliki 2 tipe metodologi yaitu proses pembelajaran (offline/training) dengan menggunakan 170 gambar (80% dari keseluruhan data ekspresi wajah) dan proses pengenalan (online/testing) dengan menggunakan 43 gambar (20% dari keseluruhan data ekspresi wajah) yang diambil dari database ekspresi wajah JAFFE.
31
3.2.1. Metode Non-Negative Matrix Factorization Facial Expression Image Database for training
Training Process (Offline)
Image Processing (Resize)
Feature Extraction with NMF (V = W . H)
H Matrix
W Matrix (image base)
Eucledian Distance
Pseudoinverse H = W’ . V
H Matrix
Testing Process (Online)
Facial Expression Image Database for training
Image Processing (Resize)
Classification Result
Gambar 3.1 Metode NMF
Proses pembelajaran dimulai dengan mengubah ukuran gambar ekspresi wajah. Proses ini bertujuan untuk mengecilkan ukuran dari tiaptiap gambar sehingga proses pembelajaran dapat berjalan lebih cepat. Gambar wajah asli yang berukuran 256 x256 diubah ukurannya menjadi ukuran 30 x 30. Pemrosesan ini dilakukan berulang-ulang sampai keseluruhan gambar telah selesai dikecilkan ukurannya.
32
Gambar 3.2 Proses Resize 256 x 256 menjadi 30 x 30
Sebanyak 170 gambar yang sudah berukuran 30 x 30 piksel, akan digunakan sebagai proses pelatihan (training). Masing-masing gambar tersebut dibentuk menjadi 1 kolom pada matriks V, sehingga matriks V akan berukuran 900 x 170 piksel. Matriks V akan difaktorisasi menghasilkan 2 matriks W dan H. Matriks W adalah basis gambar (image base) yang berukuran 900 x r, sedangkan matriks H adalah matriks koefisien (coefficient matrix) yang berukuran r x 170. Matriks W akan digunakan dalam proses pengenalan atau pengujian (testing) selanjutnya. Proses pengenalan (testing) dimulai dengan mengecilkan ukuran gambar ekspresi wajah dengan prosedur yang sama dengan proses pelatihan. Matriks V yang terbentuk akan berdimensi 900 x 43 piksel. Dengan perhitungan pseudoinverse terhadap matriks W yang telah diperoleh sebelumnya dari proses pelatihan, akan diperoleh matris H yang adalah hasil pengenalan.
33
Matriks H dari proses pelatihan akan dibandingkan dengan matriks H dari proses pengenalan dengan mencari jarak Eucledian diantara kedua matriks tersebut, sehingga diperoleh hasil klasifikasi berupa kelas ekspresi dari gambar yang diuji.
3.2.2. Metode Back-Propagation Facial Expression Image Database for training
Image Processing (Resize)
Training (Backpropagation)
Training Process (Offline)
Artificial Neural Network
Testing Process (Online) Classification (Backpropagation / feed-forward
Facial Expression Image Database for testing
Classification Result
Image Processing (Resize)
Gambar 3.3 Metode Back-Propagation
34
Perhitungan
jaringan
syaraf
tiruan
dilakukan
dengan
menggunakan Matlab NeuralNet Toolbox dengan jenis training yang dipilih adalah ‘trainingdx’, artinya menggunakan metode mencari global maxima dengan gradient descent dengan perhitungnan momentum dan nilai learning rate yang adaptif atau berubah-ubah sesuai kondisi pembelajaran. Nilai maksimum epocs maksimum yang digunakan adalah 5000 dengan mean square error (mse) sebesar 0.00001. Proses pelatihan dalam pengenalan ekspresi wajah menggunakan metode jaringan syaraf tiruan Back-Propagation dimulai dengan pemrosesan gambar. Pemrosesan gambar yang dilakukan adalah perubahan ukuran gambar (image resizing). Dalam penelitian ini, ukuran awal gambar sebesar 256x256 piksel dikecilkan menjadi 30x30 piksel. Setelah mengubah ukuran gambar, dilakukan proses pelatihan pada jaringan syaraf tiruan. Lapisan masukan diisi dengan 900 piksel dari gambar yang ingin dilatih. Penelitian ini menggunakan 1 lapisan tersembunyi untuk jaringan syaraf tiruan yang dibangun dengan variasi jumlah unit pada lapisan ini sebagai nilai yang diteliti untuk menemukan akurasi optimal, yaitu sekitar 400-800 unit. Lapisan keluaran pada jaringan ini memiliki 7 node yang bernilai 0 atau 1, bernilai 1 pada urutan ekspresi sebenarnya dari gambar dan bernilai 0 apabila bukan ekspresinya. Tahap pelatihan menghasilkan sebuah jaringan yang akan digunakan selanjutnya untuk proses pengenalan.
35
Proses pengenalan dimulai dengan mengecilkan ukuran gambar yang ingin dikenali. Ukuran gambar awal sebesar 256x256 piksel diubah menjadi 30x30 piksel. Gambar menjadi nilai masukan bagi lapisan masukan dalam jaringan syaraf tiruan yang akan menghasilkan nilai-nilai pada lapisan keluaran. Nilai tersebutlah yang diambil untuk menentukan kelas ekspresi dari gambar tersebut. Nilai tertinggi dari ketujuh node pada lapisan keluaran menentukan kelas ekspresi gambar.
3.2.3. Metode Kombinasi Non-Negative Matrix Factorization dan BackPropagation
Facial Expression Image Database for training
Image Processing (Resize)
Feature Extraction with NMF (V = W . H) Training Process (Offline)
H Matrix
W Matrix (image base)
Training (Backpropagation)
Artificial Neural Network
Testing Process (Online) Pseudoinverse H = W’ . V
Facial Expression Image Database for testing
H Matrix
Classification (Backpropagation)
Image Processing (Resize)
Gambar 3.4 Metode Kombinasi NMF dan Back-Propagation
Classification Result
36
Dalam metodologi gabungan ini, faktorisasi matriks non-negatif digunakan untuk mengekstrak fitur dari gambar dan jaringan syaraf tiruan Back-Propagation digunakan untuk pembelajaran dan klasifikasi ekspresi gambar atau sebagai classifier. Fase pelatihan dimulai dengan mengecilkan ukuran 170 gambar ekspresi wajah yang ingin dikenali menjadi 30x30 piksel. Masing-masing dari 170 gambar tersebut dibentuk menjadi 1 kolom membentuk matriks V berdimensi 900x170 piksel. Matriks V ini menjadi masukan untuk proses faktorisasi matriks yang menghasilkan matriks W sebagai basis gambar (image base) dan H sebagai matriks koefisien (coefficient matrix). Matriks W berdimensi 900 x r piksel dan matriks H berdimensi r x 170 piksel, dimana r < min (n,m). Matriks H digunakan sebagai nilai masukkan dalam jaringan syaraf tiruan. Sedangkan kelas ekspresi dari 170 gambar tersebut menjadi nilai pada lapisan keluarannya. Hasil dari pembelajaran pada jaringan syaraf tiruan ini adalah sebuah jaringan yang akan digunakan selanjutnya untuk mengenali ekspresi wajah. Fase pengenalan dimulai dengan mengecilkan ukuran gambar ekspresi wajah dengan metode yang sama seperti fase pelatihan. Masingmasing dari 43 gambar yang akan diuji tersebut dibentuk menjadi 1 kolom membentuk matriks V berdimensi 900 x 43. Dengan perhitungan pseudoinverse terhadap matriks W, diperolehlah matriks H yang akan digunakan sebagai masukan bagi jaringan syaraf tiruan BackPropagation.
37
Jaringan syaraf tiruan Back-Propagation yang digunakan memiliki unit pada lapisan keluaran sebesar nilai r hasil reduksi dari NMF. Lapisan tersembunyi yang sejumlah 1 lapisan dengan jumlah unit didalamnya sebanyak 2/3 dari unit pada lapisan masukkan ditambah dengan jumlah unit pada lapisan keluaran. Lapisan keluaran memiliki 7 node yang bernilai 0 atau 1, bernilai 1 pada urutan ekspresi sebenarnya dari gambar dan bernilai 0 apabila bukan ekspresinya. Pengenalan gambar menggunakan jaringan yang telah terbentuk sebelumnya. Hasil dari pengenalan tersebut berupa nilai-nilai pada lapisan keluaran dari jaringan syaraf tiruan ini. Kelas ekspresi masingmasing gambar ditentukan oleh nilai tertinggi dari antara unit-unit pada lapisan keluaran.
3.3. Distribusi Data Data ekspresi wajah yang digunakan dalam penelitian ini adalah data ekspresi wajah JAFFE. Data ekspresi wajah ini diambil oleh Miyuki Kamachi, Michael Lyons, and Jiro Gyoba. Data ekspresi wajah ini terdiri atas 213 gambar yang terbagi dalam 6 ekspresi dasar manusia ditambah ekspresi netral. Ketujuh ekspresi yang digunakan adalah angry, disgust, fear, happy, neutral, sad, dan surprised. Ekspresi wajah diambil dari 10 wanita Jepang yang masing-masing memiliki kira-kira 10 gambar dengan ketujuh ekspresi tersebut. Data ekspresi wajah tersebut dapat diakses melalui http://www.kasrl.org/jaffe.html.
38
Gambar 3.5 Gambar Database JAFFE
Tabel 3.1 Distribusi Database JAFFE No.
Ekspresi
Jumlah Gambar
1.
Marah (Angry)
30 gambar
2.
Jijik (Disgust)
29 gambar
3.
Takut (Fear)
32 gambar
4.
Senang (Happy)
31 gambar
5.
Netral (Neutral)
30 gambar
6.
Sedih (Sad)
31 gambar
7.
Terkejut (Surprised)
30 gambar
Gambar asli dari data ekspresi wajah adalah gambar bertipe data .tiff dengan ukuran 256x256 piksel.
39
3.4. Metode Evaluasi Untuk mengevaluasi metode-metode yang telah diterapkan digunakan suatu metode tersendiri yaitu metode confusion matrix. Confusion matrix digunaan untuk menghasilkan tingkat keakuratan yang dihasilkan. Setelah metode diuji akan dihasilkan suatu persentase yang menunjukan tingkat keakuratan. Tingkat keakuratan ini dapat diukur dengan membandingkan ekspresi wajah yang berhasil dikenali dengan benar dengan jumlah keseluruhan
Predicted
data pengujian.
Actual C1 C2 C3 C1 a b c C2 d e f C3 g
h
i
Gambar 3.6 Contoh Confusion Matrix dengan 3 kelas Confusion matrix menghitung akurasi dengan menghitung kumulatif dari jumlah prediksi yang benar dibagi dengan jumlah dari prediksi yang benar ditambah dengan prediksi yang salah. Perhitungan dirumuskan sebagai berikut :
ݕܿܽݎݑܿܿܣൌ
ܽ݁݅ ሺܽ ݁ ݅ሻ ሺܾ ܿ ݀ ݂ ݃ ݄ሻ