BAB I PENDAHULUAN Bab pendahuluan berfungsi untuk menjelaskan apa yang diteliti, untuk apa dan mengapa penelitian ini dilakukan. Pada bab pendahuluan ini berisi latar belakang penelitian sistem penapis website negatif (porno), rumusan masalah, keaslian penelitian, tujuan dan manfaat sistem penapis website konten negatif (porno) yang dibangun serta kontribusi penelitian. 1.1
Latar Belakang Penggunaan internet di Indonesia tidak lepas dari penyimpangan dan
kejahatan (cyber crime). Salah satu bentuk penyimpangan dan kejahatan (cyber crime) yang sering ditemui di internet adalah pornografi. Menurut UU No. 44 Tahun 2008, pornografi merupakan gambar sketsa, ilustrasi, foto, tulisan, suara, bunyi, gambar bergerak, animasi, kartun, percakapan, gerak tubuh, atau bentuk pesan lainnya melalui berbagai bentuk media komunikasi dan/atau pertunjukan dimuka umum, yang membuat kecabulan atau eksploitasi seksual yang melanggar norma kesusilaan dalam masyarakat. Berdasarkan pengertian pornografi secara konseptual tersebut, konten teks pada halaman website yang mengandung unsur pornografi atau artikel yang mengandung materi vulgar (cerita dewasa) bisa dikategorikan sebagai pornografi. Kejahatan dalam
bentuk
pornografi
sudah
merusak
moral
dan
menimbulkan dampak negatif terhadap emosional dan fisik, terutama bagi anakanak dan remaja. Data hasil survei Komisi Perlindungan Anak Indonesia (KPAI) pada tahun 2012 terhadap 4.500 pelajar SMP dan SMA di 12 kota besar di Indonesia, ditemukan 97,2% dari responden pernah membuka website porno. Selain itu, data dari KPAI juga menyebutkan 91% responden sudah pernah melakukan kissing dan petting, 62,1% siswi SMP pernah melukan hubungan di luar nikah dan 22% siswi SMA pernah melukan abortus atau aborsi. Penyebab timbulnya kerusakan moral anak-anak dan remaja dari survei tersebut salah satu disebabkan oleh dunia internet. Website dan konten negatif (porno) di internet Indonesia semakin beragam, mudah diakses dan terus masuk dalam jumlah yang jutaan, baik dalam Bahasa Indonesia atau pun Bahasa Inggris. Mengatasi 1
permasalahan ini perlu adanya penanggulangan dalam penyebaran dan perkembangan konten negatif (porno). Menurut Septiana [1] ada beberapa cara dalam penanggulangan pornografi di Indonesia, yakni dengan membuat peraturan dalam bentuk undang-undang, menggunakan teknologi filtering atau pemblokiran, pendekatan budaya, pendekatan moral, pendekatan internasional dan pendekatan ilmiah. Lebih lanjut Septiana [1] menyatakan, penanggulangan pornografi dengan pendekatan teknologi merupakan cara yang efektif karena mencegah penyebaran pornografi secara langsung. Teknologi penapis konten negatif (porno) di internet atau teknologi content filteirng berfungsi untuk menyaring dan menapis konten-konten yang terdapat pada internet [2]. Dilihat dari jenisnya, teknologi content filtering dapat dibagi ke dalam 3 kategori, yaitu aplikasi desktop, aplikasi server dan DNS server. Teknologi content filtering yang berupa aplikasi desktop harus diinstall di dalam PC pengguna, seperti K9-Web Protection [3], Netdog Protection [4] dan Naomi Family Safe Internet [5]. Aplikasi server yang berfungsi untuk melakukan penapis konten negatif disebut squid (seperti Squid Guard) [6]. Dan teknologi content filtering dalam bentuk DNS server antara lain adalah OpenDNS [7] dan NawalaDNS [8]. Cara pemblokiran teknologi content filtering yang disebutkan diatas adalah dengan pemblokiran URL atau URL Blocking. Teknologi content filtering yang bekerja dengan metode URL Blocking menerapkan URL database lookup table, yakni alamat URL website dibagi menjadi dua kategori blacklist dan whitelist [2]. Blacklist adalah alamat URL yang tidak boleh diakses sedangkan whiltelist adalah alamat URL yang boleh diakses pengguna. Jika alamat URL yang diakses oleh pengguna masuk dalam kategori URL blacklist, maka sistem penapis akan menutup alamat URL dan konten yang terdapat di dalam halaman website tersebut. Biasanya sistem akan menglihkan (redirect) URL blacklist yang diakses ke halaman lain yang berisi informasi pemblokiran atau website lain yang tidak diblokir. Kekurangan teknologi yang menerapkan metode URL Blocking adalah konten negatif (porno) bisa diakses kembali dengan cara mengubah DNS website. 2
Pemilik website hanya perlu mengubah nama DNS yang diblokir dengan DNS baru, sehingga konten negatif yang telah diblok bisa diakses kembali. Misalnya sebuah website negatif (porno) Indonesia “elus.in” yang sudah diblok bisa diakses kembali dengan mengunakan DNS yang baru misalnya “bugilwap.org”. Penyebaran konten negatif (porno) saat ini tidak hanya menggunakan website yang bersifat komersial saja tetapi juga menggunakan halaman website yang bersifat umum seperti social network (facebook, twitter), blog (blogspot, wordpress), website sharing file, atau website video streaming (Youtube, vimeo). Selain itu, konten (teks, gambar, dan video) pada website umum baik mengandung unsur pornografi atau informasi lain diletakan dalam satu alamat URL atau satu halaman. Teknologi content filtering yang menerapkan metode URL Blocking tidak bisa melakukan pemblokiran konten negatif (porno) yang terdapat di dalam website umum seperti media sosial, file sharing, blog dan lainlain. Hal ini disebabkan teknologi pemblokiran akan memblokir website umum tersebut dan konten yang tidak mengandung unsur pornografi juga ikut terblokir. Misalkan konten negatif (porno) yang berupa cerita dewasa diletakan di dalam halaman facebook. Jika halaman facebook ini diblok oleh teknologi content filtering, maka semua pengguna tidak bisa mengakses halaman facebook. Dalam penelitian ini akan mengembangkan teknologi content filtering yang dapat melakukan pendeteksian dan pemblokiran webite negatif (porno) berdasarkan konten-konten yang terdapat di halaman website. Dalam melakukan deteksi website negatif (porno), sistem dirancang memiliki kemampuan cerdas agar mampu mengenali website negatif (porno). Kecerdasan yang diberikan pada sistem ini adalah kemampuan mengklasifikasikan website berdasarkan konten yang terdapat dalam halaman website. Konten yang bisa digunakan untuk mengenali website negatif umumnya menggunakan konten teks, konten video, konten gambar dan konten suara [9]–[15]. Metode pemblokiran konten negatif (porno) yang akan dikembangkan adalah pemblokiran berdasarkan konten, khususnya konten teks. Pemblokiran dilakukan dengan menghapus teks-teks yang mengandung unsur pornografi dan informasi lain yang tidak berhubungan dengan unsur pornografi tetap bisa diakses oleh pengguna.
3
1.2
Perumusan Masalah Berdasarkan latar belakang di atas, permasalahan yang dihadapi pada
penelitian teknologi filtering website negatif (porno) yang memanfaatkan konten teks sebagai dasar pendeteksian, pengklasifikasan dan penapis website negatif (porno) pada penelitian ini adalah sebagai berikut: 1. Teknologi filtering yang ada pada saat ini bekerja secara manual dalam melakukan pendataan URL yang masuk dalam blacklist dan whitelist. 2. Prinsip pemblokiran dengan metode URL Blocking atau DNS Blocking sulit melakukan pemblokiran pada website umum dan pemblokiran akan menghilangkan seluruh informasi dalam sebuah halaman website. 3. Belum tersedianya data negatif (porno) teks Bahasa Indonesia dan Bahasa
Inggris
dalam
membangun
sistem
pendeteksi,
pengklasifikasian dan penapis website konten teks negatif (porno). 4. Belum tersedia teknologi filtering website negatif (porno) yang mampu mampu melakukan ekstraksi teks pada sebuah halaman website. 1.3
Keaslian Penelitian Penelitian tentang pengklasifikasian website yang mengandung unsur
pornografi berdasarkan teks telah diteliti oleh peneliti sebelumnya. Penelitian Smith dkk. [10], dalam mendeteksi konten negatif (porno) dilakukan dengan mendeteksi gambar dan teks. Teks masukan pendeteksian website negatif (porno) dalam penelitian Smith dkk. [10], berupa teks yang terdapat pada META Tag dan titles, bagian komentar dan saran. Teks negatif (porno) di buat dalam bentuk kamus kata atau vocabulary. Dimana kata-kata yang terdapat di dalam halaman website akan dicocokan atau matching dengan kata daftar kata porno. Kata-kata yang muncul akan dikalkulasikan untuk mendapatkan nilai probabilitas. Nilai probabilitas dari perhitungan teks akan digabungkan dengan nilai probabilitas gambar untuk menentukan apakah sebuah website masuk dalam kategori negatif (porno) atau tidak. Kelebihan dari penelitian Smith dkk. [10] adalah telah menggunakan kamus kata porno, sehingga dalam klasifikasi teks bisa lebih cepat
4
dan tidak memerlukan alokasi memori yang banyak. Hal ini disebabkan klasifikasi hanya mengambil teks-teks nagatif (porno) yang sesuai dengan kamus kata porno. Penelitian content filtering berdasarkan teks yang ada di sebuah website juga dilakukan oleh Ho dan Watters [13], dengan menerapkan metode statistikal algoritme Naïve Bayes untuk mengklasifikasi website negatif (porno) Bahasa Inggris. Penelitian Ho dan Watter [13] bertujuan untuk melihat frekuensi kemunculan kata-kata yang berkonotasi negatif atau istilah negatif (porno) yang digunakan
pada
title,
meta
dan
body
dan
membuat
pengklasifikasian website negatif (porno) berdasarkan teks.
sebuah
sistem
Klasifikasi teks
dilakukan dengan membuat daftar kata negatif (porno). Daftar kata porno ini dibuat berdasarkan kata-kata yang frekuensi kemunculannya paling tinggi pada website porno. Penentuan pemblokiran URL website ditentukan dari hasil nilai probabilitas tertinggi dengan algoritme Naïve Bayes. Penelitian Ho dan Watter [13] menghasilkan akurasi sebesar 99,1% dalam melakukan klasifikasi website negatif (porno). Penelitian Kim dan Nam [15] melakukan pemblokiran website dengan cara menerapkan metode Rating System. Rating System merupakan metode klasifikasi halaman website dengan memasukan ke dalam 2 atau lebih kategori. Penentuan kategori dilakukan berdasarkan konten-konten yang terdapat di dalam halaman website. Halaman website pada penelitian Kim dan Nam [15] dibagi ke dalam empat kelompok atau disebut dengan 4-grades yakni kelompok yang tidak berbahaya atau 0-grade yang berisi kata-kata biasa seperti berita olah raga, politik cerita anak-anak dan lain-lain. Kedua adalah 1-grade yakni website yang bertemakan pendidikan seks, konsultasi seks atau artikel-arikel tentang seks. Pada ke-3 (2-grade) dan ke-4 (3-grade) merupakan website yang berisi konten negatif tetapi memiliki perbedaan dari segi materi yang disediakan. Pada 2-grade konten negatif berupa pornografi normal atau artikel erotis seperti video bertema straight, gay, fetish, bestiality, bisexual dan lain-lain. sedangkan pada 3-grade, konten negatif yang disajikan mengandung unsur kekerasan, tidak normal atau mengandung tindakan pidana seperi video perkosan, pedofil, dan bentuk video kekerasan seks lainnya.
5
Pendeteksi pornografi pada halaman website berdasarkan konten teks dan gambar juga dilakukan oleh Hu dkk. [11]. Penelitian ini dilakukan dengan menggunakan C4.5 decision tree. Data masukan yang digunakan dalam penelitian yang dilakukan Hu dkk. [11] adalah teks dan gambar. Dimana halaman website dibagi dalam tiga kategori yakni continuous text pages, discrete pages dan image pages. Continuous text pages adalah halaman website yang berisi artikel dengan sedikit gambar. Discrete text pages yakni teks yang menerangkan atau mendiskripsikan tentang website seperti title, meta text dan menu atau navigator. Sedangkan image pages adalah halaman website yang kontennya dominan berisi gambar. Nilai teks dan gambar yang terdapat dalam halaman website menentukan sebuah website termasuk negatif (porno) atau tidak. Dari hasil penelitian menunjukan akurasi pengenalan website negatif (porno) adalah sebesar 95,1%. Penelitian terkait dengan content filtering website negatif (porno) berdasarkan teks dilakukan oleh Polpinij dkk. [12], dengan melakukan pendeteksian website negatif (porno) dalam Bahasa Thai dan Bahasa Inggris. Pendeteksian website yang mengandung konten negatif, menggunakan dua buah algoritme Machine Learning yakni Naïve Bayes dan Support Vektor Machines (SVM). Tujuan penelitian Polpinij dkk. [12] adalah untuk membandingkan kinerja dari algoritme Naïve Bayes dan SVM. Dari hasil penelitian pada website Bahasa Thai menunjukan algoritme Naïve Bayes menghasilkan akurasi yang lebih tinggi dari SVM yakni 97,83% dan 95%. Sedangkan untuk website Bahasa Inggris menunjukan hal yang sebalik, yaitu algoritme Naïve Bayes menghasilkan akurasi 98% dan SVM menghasilkan akurasi 100%. Dari hasil penelitan yang telah dilakukan, menunjukan penggunaan SVM dalam klasifikasi teks porno Bahasa Thailand sangat sensitive akan error. Hal ini disebabkn oleh kata-kata dalam Bahasa Thai memiliki ambiguitas yang tinggi. Teks pada penelitian konten negatif yang telah dilakukan oleh peneliti sebelumnya hanya digunakan sebagai parameter untuk melakukan pendeteksian. Metode pemblokiran website negatif yang dilakukan adalah dengan menutup akses penuh pada website yang dikategorikan sebagai website porno atau dikenal dengan metode URL Blocking. Penerapan metode URL Blocking menyebabkan semua informasi tidak bisa diakses oleh pengguna. Selain itu, metode URL 6
Blocking tidak bisa melakukan pemblokiran pada konten porno yang berada di dalam website umum seperti blog, madie sosial dan file sharing. Penelitian yang dilakukan ini adalah mengembangkan sebuah model sistem pendeteksian dan penapisan website negatif (porno). Proses pendeteksian dilakukan berdasarkan konten teks yang terdapat pada halaman website. Metode pemblokiran dilakukan hanya menghilangkan konten teks negatif (porno), sehingga informasi lain yang tidak mengandung unsur pornografi masih tetap bisa diakses oleh pengguna (user). 1.3
Tujuan Penelitian Tujuan penelitian ini adalah mengembangkan model sistem pendeteksian,
pengklasifikasian dan penapis website negatif (porno) berdasarkan konten teks yang terdapat bekerja secara otomatis, cerdas dan mempu melakukan pemblokiran dengan menghilangkan konten teks negatif (porno) pada website negatif (porno) Bahasa Indonesia atau Bahasa Inggris. 1.4
Manfaat Penelitian Adapun manfaat dengan adanya penelitian membangun model sistem
pendeteksi, pengklasifikasi dan penapis website konten negatif (porno) berdasarkan konten teks adalah sebagai berikut: 1. Sebagai upaya nyata dalam menanggulangi pornografi (cyber porn) yang beredar di internet Indonesia untuk menyelamatkan bangsa khususnya generasi muda dari bahaya pornografi. 2. Sebagai bentuk pengembangan teknologi filtering website konten negatif (porno) yang ada saat ini agar bekerja secara otomatis dan cerdas serta mampu melakukan pemblokiran pada halaman website umum tanpa menghilangkan informasi penting lainnya. 3. Hasil penelitian baik berupa data teks, sistem dan laporan penelitian dapat dijadikan referensi dalam penelitian selanjutnya yang memiliki topik sistem pendeteksi dan penapis website konten negatif (porno) berdasarkan konten teks.
7
1.5 Kontribusi Penelitian Hasil yang didapatkan dalam penelitian model sistem penapis website konten teks negatif (porno) diharapkan dapat digunakaan antara lain: 1. Hasil dari penelitian ini dijadikan sebagai kerangka empirik atau sebagai
kerangka
acuan
dalam
melakukan
penelitian
dalam
mengembangkan model sistem penapis website konten teks negatif (porno) khususnya website negatif (porno) Bahasa Indonesia dan Bahasa Inggris. 2. Data penelitian (data pengujian, data pelatihan dan daftar kata porno) yang digunakan dalam penelitian ini akan di open source dan didistribusikan di internet agar bisa dimanfaatkan untuk lebih mendalami pengembangan sistem konten filtering atau memunculkan sistem yang baru. 3. Source code aplikasi conten filtering yang dikembangkan terdiri atas proses ekstraksi teks dan URL gambar, proses language detection, proses klasifikasi, proses penapisan, proses menghitung jumlah gambar, proses koneksi ke mongoDB dan proses voting akan didistribusikan secara open source agar sistem bisa dikembangkan lebih baik lagi. 4. Penelitian ini sebagai salah satu sumbangan pemikiran dalam memecahkan masalah (solusi) untuk menangani penyebaran pornografi di internet khususnya di Indonesia. 5. Proses ekstraksi konten teks dan URL Gambar pada HTML bisa digunakan untuk membangun sistem lain yang memerlukan masukan konten teks atau gambar dari halaman website.
8