1
Implementasi Deteksi Citra Pornografi Berbasis Model Warna YCbCr dengan Metode Perbaikan C4.5 dan Shape Descriptor Untuk Filter Upload Foto di Media Sosial Erwin Rizki Ariyanto Fakultas Ilmu Komputer, Teknik Informatika, Universitas Dian Nuswantoro Semarang ABSTRAK Salah satu kerugian dari internet adalah masalah pornografi. Media sosial yang digunakan sebagai media komunikasi di dunia maya sering disalahgunakan dalam masalah pornografi. Para pelaku kejahatan seksual menggunakan media sosial untuk melakukan aksinya seperti melakukan penculikan terhadap remaja. Anak – anak di bawah umur harus dicegah untuk mendapatkan informasi yang mengandung konten pornografi. Metode yang digunakan dalam melakukan deteksi citra pornografi ini adalah skin detection, shape descriptor, dan klasifikasi C4.5. Metode Klasifikasi digunakan untuk mengklasifikasikan apakah suatu citra mengandung konten pornografi atau tidak. Dengan adanya library untuk deteksi citra pornografi ini diharapkan berkurangnya penyebaran foto – foto yang mengandung konten pornografi di media sosial dan kasus – kasus pornografi yang melibatkan anak – anak di bawah umur. Kata kunci: deteksi pornografi, skin detection, shape descriptor, library I.
PENDAHULUAN
Internet diakui telah memberikan banyak sekali keuntungan dan kemudahan bagi penggunanya. Namun, dari semua keuntungan yang didapatkan, ada juga kerugian yang perlu dihindari, salah satunya adalah pornografi di dunia maya. Pornografi di internet bisa meliputi konten – konten dewasa sampai dengan jebakan pornografi yang ditujukan kepada anak – anak di bawah umur [1]. Survey Komnas Perlindungan Anak tahun 2010 mengungkapkan bahwa 97% remaja pernah menonton atau mengakses materi pornografi, 93% remaja pernah berciuman, 62,7% remaja pernah berhubungan badan dan 21% remaja Indonesia telah melakukan aborsi. Pornografi memang sudah menyebar luas di Indonesia, tidak hanya remaja, anak – anak pun sudah banyak mengaksesnya. Secara umum, pornografi berpengaruh negatif terhadap perilaku belajar siswa. Pengaruh signifikan terjadi pada kedisiplinan siswa, sedangkan untuk motivasi belajar dan nilai akademik hanya sedikit mempengaruhi [2]. Teknologi internet telah membawa materi pornografi yang dulu hanya bisa diakses melalui buku maupun video ke dalam dunia cyber yang luas. Semua orang, tanpa melihat usia, bisa mengakses materi pornografi dari rumahnya asalkan ada komputer atau handphone dan akses internet [3]. Media sosial yang telah berkembang dengan cepat sebagai media baru yang digunakan orang untuk sarana komunikasi sering disalahgunakan, salah satunya adalah masalah pornografi. Para pelaku kejahatan seksual yang menggunakan situs media sosial untuk menarget para remaja telah beredar di
beberapa media, pelaku mungkin menggunakan informasi pribadi dari situs media sosial tersebut untuk menculik remaja [4]. Anak – anak dibawah umur harus dicegah untuk mendapatkan akses yang berisi informasi dewasa seperti gambar porno, sehingga perlu dikembangkan suatu teknologi untuk mengenali citra pornografi [5]. Ada beberapa penelitian yang telah dilakukan untuk mendeteksi citra pornografi. Pedro dan Luis [6] telah melakukan penelitian deteksi citra pornografi untuk membuat suatu software yang mempunyai kemampuan untuk mendeteksi gambar porno pada citra digital. Sotiris dan Nikos [7] mengusulkan suatu algoritma untuk mengidentifikasi gambar porno untuk project Safer Internet Access (POESIA). Basilio dan Torres [5] membuat suatu metode deteksi citra pornografi pada media penyimpanan seperti hard disk, memori USB, dan lain – lain. Liu [8] menggunakan dua metode untuk mendeteksi gambar porno, dan Lee [9] mengusulkan suatu sistem deteksi gambar porno dengan menggunakan tiga tahap utama. Salah satu algoritma untuk deteksi citra pornografi adalah dengan menggunakan model warna YCbCr. Algoritma ini berbasis pengolahan citra, skin detector, dan teknik pengenalan pola. Model warna YCbCr dapat mengurangi semua masalah pencahayaan yang dimiliki oleh suatu citra [5]. II.
METODE YANG DIUSULKAN
Penulis menerapkan beberapa metode dan prosedur penyelesaian yang bertujuan untuk menyelesaikan masalah yang ada dalam penelitian.
2 Prosedur penyelesaian sebagai berikut:
yang dilakukan adalah
B
Shape Descriptor
Gambar 3: Proses shape descriptor Gambar 1: Prosedur penyelesaian
Metode yang diusulkan dalam penelitian ada tiga metode yaitu sebagai berikut: A
Skin Detection
Hasil citra dari proses skin detection akan diproses kembali dalam metode shape descriptor. Shape merupakan karakter penting pada suatu obyek. Tujuan dari shape descriptor ini adalah untuk mengambil obyek yang ada pada suatu citra [15]. Shape descriptor yang digunakan adalah seven normal moment invariants. Langkah pertama dalam shape descriptor menurut [16] adalah menentukan nilai moment of order (p+q) yang didefinisikan sebagai berikut: =
#
"
! $ %(!, $)
(3)
Nilai mpq merupakan hasil dari moment order (p+q) dimana p,q = 1,2,3,... Menurut [16] central moment didefinisikan sebagai berikut:
µ pq = ∑∑ ( x − x ) p ( y − y ) q f ( x, y )
Gambar 2: Proses skin detection
x
Citra asal (C) merupakan citra dengan model warna RGB, pada tahap awal citra ini ditransformasikan ke model warna YCbCr menjadi citra C’. Menurut [14] rumus transformasi model warna RGB ke model warna YCbCr adalah sebagai berikut:
65,481 128,553 24,966 16 = 128 + −37,797 −74,203 112,000 112,000 −93,786 −18,214 128
(1)
Setelah teknik transformasi dilakukan, langkah selanjutnya yang dilakukan adalah skin threshold untuk segmentasi orang dalam gambar tanpa memperhatikan warna kulit sehingga citra C’ berubah menjadi citra C’’. Range untuk skin threshold yang optimal menurut [5] adalah: 77 ≤ ≤ 127 dan 133 ≤ ≤ 173
(2)
(4)
y
dimana !̅ =
)*+ )++
dan $, =
)+* )++
Normalized central moment dinotasikan sebagai ηpq, didefinisikan sebagai berikut:
η pq = dimana
(5)
µ pq µ 00γ γ=
p+q +1 2 dan p+q = 2,3,..
Langkah berikutnya, seven moment invariants dapat dihitung dengan persamaan berikut:
3 φ1 = η 20 + η 02
(6) 2
2 11
φ2 = (η 20 − η 02 ) + 4η
φ3 = (η30 − 3η12 ) 2 + (3η 21 − η 03 ) 2 φ4 = (η 30 + η12 ) 2 + (η 21 + η 03 ) 2 φ5 = (η30 − 3η12 )(η 30 + η12 )[(η 30 + η12 ) 2 − 3(η 21 + η 03 ) 2 ]
[
+ (3η 21 − η 03 )(η 21 + η 03 ) 3(η 30 + η12 ) 2 − (η 21 + η 03 ) 2
φ6 = (η 20 − η02 )[(η30 + η12 ) − (η 21 + η03 ) + 4η11 (η30 + η12 )(η 21 + η03 ) 2
2
]
]
φ7 = (3η 21 − η03 )(η30 + η12 )[(η30 + η12 ) 2 − 3(η21 + η03 ) 2 ]
[
+ (3η12 − η30 )(η 21 + η03 ) 3(η30 + η12 ) 2 − (η 21 + η03 ) 2 C
] -./(0, 1) = 2/345$(0) −
Klasifikasi C4.5
9 7:;
|07 | ∗ 2/345$(0.) |0|
(7)
S sebagai himpunan kasus, A merupakan atribut, n merupakan jumlah partisi atribut A, |Si| adalah jumlah kasus pada partisi ke i, dan |S| adalah jumlah kasus dalam S. Sedangkan untuk menghitung Entropy dapat dilihat pada rumus berikut [17]: 2/345$(0) =
9 7:;
− 5. ∗ <4=> 5.
(8)
S merupakan himpunan kasus, n adalah jumlah partisi S, dan pi adalah proporsi dari Si terhadap S dengan Si merupakan jumlah kasus pada partisi ke i. Setelah semua perhitungan selesai maka didapatkan suatu pohon keputusan yang bisa digunakan untuk mengklasifikasikan citra apakah mengandung konten pornografi atau tidak berdasarkan rules yang dibentuk oleh pohon keputusan. Gambar 4: Proses klasifikasi C4.5
A Setelah melewati tahap shape descriptor, hasil perhitungan seven moment invariant digunakan untuk proses klasifikasi apakah citra tersebut mengandung konten pornografi atau tidak. Algoritma yang digunakan untuk klasifikasi adalah algoritma C4.5. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut: pilih atribut sebagai akar, buat cabang untuk masing – masing nilai, bagi kasus dalam cabang, dan ulangi proses untuk masing – masing cabang sampai semua kasus pada cabang memiliki kelas yang sama [17]. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut – atribut yang ada. Untuk menghitung gain digunakan rumus berikut [17]:
III. IMPLEMENTASI Analisis Data Training Data training ini digunakan untuk pelatihan algoritma klasifikasi C4.5 dalam mengklasifikasikan suatu citra apakah termasuk dalam kategori porno atau tidak porno. Dalam pelatihan ini digunakan data 300 citra yang dibagi menjadi 4 kategori yaitu 75 citra porno, 75 citra bikini, 75 citra mug shots, dan 75 citra bukan porno. Sebelum dilakukan klasifikasi menggunakan algoritma C4.5, data citra tersebut akan ditransformasi menjadi citra YCbCr dan melakukan perhitungan seven moment invariant sesuai dengan yang dijelaskan di bab sebelumnya. Setelah melalui tahap transformasi dan perhitungan seven moment invariant, langkah berikutnya adalah klasifikasi menggunakan algoritma C4.5. Atribut yang digunakan dalam klasifikasi adalah hasil perhitungan seven
4 moment invariant, invariant, sedangkan label yang digunakan adalah hipotesis porno yang merupakan dugaan sementara penulis untuk mengkategorikan suatu citra apakah termasuk kategori gori porno atau bukan porno. Output yang dihasilkan dari algoritma klasifikasi C4.5 adalah suatu pohon keputusan. Pohon keputusan ini menunjukkan aturan untuk mengklasifikasikan apakah suatu citra mengandung konten pornografi atau tidak. Berikut merupakan rincian dari pohon keputusan yang terbentuk setelah melakukan klasifikasi data training:
B
Variabel Akar Jumlah Node Jumlah Daun Level
Nilai Moment 4 61 31 7
Analisis Data Testing Testing merupakan suatu proses untuk melakukan validasi terhadap data training. Data testing yang digunakan dalam penelitian ini berjumlah 40 citra yang dibagi menjadi 4 kategori seperti dalam data training. Testing dalam algoritma klasifikasi C4.5 berdasarkan berdasarkan pada pohon keputusan yang terbentuk dari data training. Atribut dan label yang digunakan dalam data testing sama dengan atribut dan label yang digunakan dalam data training. Dalam tahap testing ini, suatu citra harus melalui tahap transformasi dan perhitungan perhitungan seven moment invariant terlebih dahulu. Setelah melalui tahap klasifikasi terhadap pohon keputusan yang terbentuk dari data training, berikut hasil dari klasifikasi data testing: Tabel 2: 2: Tabel hasil klasifikasi data testing
No
Kategori
Total
1. 2. 3.
Bikini Porno Mug shots Bukan porno
4.
Gambar 5:: Halaman data training
Halaman ini berisi data – data training yang digunakan dalam penelitian. Dalam halaman ini user bisa menambahkan data training, menghapus data training, mengklasifikasi data training, dan membuat rules hasil klasifikasi.
Tabel 1:: Tabel hasil pohon keputusan
No 1. 2. 3. 4.
C
menunjukkan bahwa hasil klasifikasi tidak sama dengan hipotesis. Implementasi Hasil Penelitian
10 10 10
Jumlah klasifikasi benar 8 8 3
Jumlah klasifikasi salah 2 2 7
10
7
3
Tabel diatas menunjukkan jumlah klasifikasi benar dan jumlah klasifikasi salah untuk masing – masing kategori yang diuji. Klasifikasi benar berarti hasil klasifikasi sama dengan hipotesis, sedangkan klasifikasi salah
Gambar 6:: Halaman data testing
Halaman ini berisi data – data testing, isi dari halaman ini sama dengan halaman data training.
Gambar 7:: Halaman hasil klasifikasi
Halaman ini menampilkan decision tree hasil dari klasifikasi data training menggunakan algoritma C4.5 dan hasil pengujian metode yang mencakup accuracy dan error rate. rate
Gambar 8:: Halaman hasil pengujian
5 Halaman ini menampilkan decision tree hasil klasifikasi C4.5 dan hasil pengujian terhadap data testing.
A
IV. HASIL DAN PEMBAHASAN Pengujian Data Training Pengujian metode menggunakan tabel confusion matrix untuk menghitung akurasi, error rate, precision, dan recall. Dari data training diperoleh tabel confusion matrix berikut: Tabel 3: Tabel hasil pengujian confusion matrix data training
No. 1. 2. 3. 4.
Variabel True Positives (TP) False Positives (FP) False Negatives (FN) True Negatives (TN)
Jumlah 140 55 10 95
Dari hasil tabel confusion matrix tersebut diperoleh nilai akurasi, error rate, precision, dan recall sebagai berikut:
140 + 95 ∗ 100% = 78,33 % 300 55 + 10 C4 -3C = ∗ 100% = 21,67 % 300 140 5CD.A.4/ = = 0,718 140 + 55 140 CD-<< = = 0,93 140 + 10 -?@-A. =
B
Pengujian Data Testing Pengujian ini juga menggunakan tabel confusion matrix untuk menentukan akurasi, error rate, precision, dan recall. Dalam pengujian ini juga akan dihitung nilai Root Mean Squared Error (RMSE). Dari 40 data testing diperoleh hasil confusion matrix berikut:
Tabel 4: Tabel hasil pengujian confusion matrix data testing
No. 1. 2. 3. 4.
Variabel True Positives (TP) False Positives (FP) False Negatives (FN) True Negatives (TN)
Jumlah 16 10 4 10
Dari hasil confusion matrix tersebut, diperoleh nilai akurasi, error rate, precision, dan recall sebagai berikut: 16 + 10 ∗ 100% = 65% 40 10 + 4 ∗ 100% = 35% C4 -3C = 40 16 5CD.A.4/ = = 0,615 16 + 10
-?@-A. =
CD-<< =
16 = 0,8 16 + 4
Untuk mendapatkan nilai RMSE, label diinisialisasi sebagai 1 dan 0. Angka 1 menunjukkan kasus “Ya”, sedangkan angka 0 menunjukkan kasus “Tidak”. Nilai RMSE yang didapatkan adalah sebagai berikut: E02 = F
14 = G0,35 = 0,59 40
Hasil akurasi dan RMSE yang diperoleh diatas menggunakan data training yang berjumlah 300 gambar. Pengujian juga dilakukan menggunakan 100 data training dan 40 data testing untuk mengetahui apakah ada perbedaan akurasi terhadap banyaknya data training yang digunakan. Berikut hasil yang diperoleh dari pengujian tersebut: Tabel 5: Tabel perbandingan akurasi
No 1. 2
Jumlah data Jumlah data Akurasi training testing 100 40 60% 300 40 65%
V. PENUTUP Kesimpulan yang diperoleh setelah melakukan penelitian adalah sebagai berikut: 1. Hasil penelitian menunjukkan bahwa metode yang digunakan dalam penelitian kurang bisa mengenali citra mug shots. Hal ini ditunjukkan dengan jumlah klasifikasi benar 3 dan jumlah klasifikasi salah 7 dari total 10 data citra mug shots yang digunakan dalam data testing. 2. Dari 40 data testing yang dibagi menjadi 4 kategori yaitu citra porno, citra wanita memakai bikini, citra mug shots, dan citra bukan porno didapatkan True Positives (TP) 16, False Positives (FP) 10, False Negatives (FN) 4, True Negatives (TN) 10 dengan akurasi 65%, error rate 35%, precision 0,615, recall 0,8 serta nilai Root Mean Squared Error (RMSE) 0,59. 3. Banyaknya data yang digunakan dalam pelatihan berpengaruh terhadap keakuratan metode. Semakin banyak data yang digunakan dalam pelatihan, maka semakin akurat metode dalam melakukan deteksi citra pornografi. Pelatihan dengan 100 data mendapatkan akurasi 60% sedangkan pelatihan dengan 300 data mendapatkan akurasi 65% dari 40 data yang digunakan untuk testing.
6 Morphological Features," 2013. DAFTAR PUSTAKA [1] Ridwan Sanjaya, Parenting untuk Pornografi di Internet. Jakarta, Indonesia: Elex Media Komputindo, 2010. [2] Tri Suyatno, "Pengaruh Pornografi Terhadap Perilaku Belajar Siswa," Jurnal Pendidikan Dompet Dhuafa, vol. I, 2011. [3] Ventje Jeremias Lewi Engel, "Upaya Melindungi Anak-Anak Dari Pornografi di Internet," Jurnal Sosioteknologi, pp. 57-62, April 2012. [4] Kimberly J. Mitchell, David Finkelhor, M. Lisa Jones, and Janis Wolak, "Use of Social Networking Sites in Online Sex Crimes Against Minors: An Examination of National Incidence and Means of Utilization," Journal of Adolescent Health, pp. 1-8, 2010.
[5] Jorge Alberto Marcial Basilio, Gualberto Aguilar Torres, Gabriel Sanchez Perez, L. Karina Toscano Medina, and Hector M. Perez Meana, "Explicit Image Detection Using YCbCr Space Color Model as Skin Detection," 2011. [6] Pedro Ivan Tello Flores, Luis Enrique Colmenares Guillen, and Omar Ariosto Nino Prieto, "Approach of RSOR Algorithm Using HSV Color Model for Nude Detection in Digital Images," Journal Computer and Information Science, vol. 4, pp. 29-45, July 2011. [7] Sotiris Karavarsamis, Nikos Ntarmos, Kostantinos Blekas, and Ioannis Pitas, "Detecting Pornographic Images by Localizing Skin ROIs," International Journal of Digital Crime and Forensics, 2013. [8] Bei-Bei Liu, Jing-yong Su, Zhe-ming Lu, and Zhen Li, "Pornographic Images Detection Based on CBIR and Skin Analysis," 2008. [9] Jiann-Shu Lee, Feng-Shuo Yu, and Kai-Yang Huang, "Pornography Detection Based on
[10] T. Sutojo, Edy Mulyanto, Vincent Suhartono, Oky Dwi Nurhayati, and Wijanarto , Teori Pengolahan Citra Digital. Yogyakarta, Indonesia: ANDI, 2009. [11] Rinaldi Munir, Pengolahan Citra Digital Dengan Pendekatan Algoritmik. Jakarta, Indonesia: Informatika, 2004. [12] Darma , Jarot S., and Shenia A., Buku Pintar Menguasai Internet.: MediaKita, 2009. [13] Wahana Komputer, Seri Belajar Sekejap : Cara Mudah Kelola Banyak Akun Jejaring Sosial dengan Web Agregator.: ANDI, 2010. [14] Charles Poynton, Digital Video and HDTV Algorithms and Interfaces. San Fransisco, United States of America: Morgan Kaufmann, 2003. [15] Qing-Fang Zheng, Wei Zeng, Gao Wen, and Wei-Qiang Wang, "Shape-based Adult Images Detection," 2004. [16] Rafael C. Gonzalez and Richard E. Woods, Digital Image Processing Second Edition.: Prentice Hall, 2002. [17] Kusrini and Emha Taufiq Luthfi, Algoritma Data Mining. Yogyakarta: Andi Offset, 2009. [18] Daniel T. Larose, Discovering Knowledge In Data.: A John Wiley & Sons, 2005. [19] Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining Concepts and Techniques.: Morgan Kaufmann, 2012. [20] K. Pratheep Moses, "An Approach To Reduce Root Mean Square Error in Toposheets," European Journal of Scientific Research, vol. 91, pp. 268-274, November 2012.