2 BAB II LANDASAN TEORI
Pada bab ini mendeskripsikan teori-teori yang berkaitan dengan penelitian. Terdapat dua hal utama yang menjadi landasan teori yaitu online child grooming dan text mining. Sebelum membahas online child grooming akan dijelaskan mengenai pelecehan seksual terhadap anak (subbab2.1). Proses pendekatanyang dilakukan pelaku untuk melakukan pelecehan seksual terhadap anakdinamakan dengan child grooming (subbab2.2).Salah satu cara dalam melakukan child grooming yaitu memanfaatkan teknologi internet. Pendekatan tersebut dikenal dengan istilahonline child grooming (subbab2.3). Kemudian akan dideskripsikan mengenai
penelitian
lima
tahun
terakhiryang
melakukananalisis
dan
identifikasionline child grooming pada percakapan teks(subbab2.4). Sebelum
membahas
mengenai
text
miningakan
dijelaskan
data
mining(subbab2.5).Text mining(subbab2.6) merupakan salah satu pengaplikasian data mining. Untuk melakukan klasfikasi dalam text mining(subbab2.7),terdapat beberapa metode yang dapat digunakan seperti SVM(subbab2.8) dan NN(subbab2.9). Untuk mengetahui keakuratan, kecepatan, robustness dan skalabilitasmodel klasifikasi yang dibangun maka perlu dilakukanevaluasi terhadap model klasifikasi yang dibangun (subbab2.10).
2.1 Pelecehan Seksual Terhadap Anak Pelecehan seksual terhadap anak melibatkan anakdi bawah umursebagai korban dan orang yang lebih dewasa sebagai pelakuyang melanggar hak-hak 7
8
korban sehingga mengakibatkan kerugian bagi korbannya.Pelecehan seksual terhadap anak didefinisikan sebagai tindakan memaksa atau merayu anak untuk melakukan aktivitas seksual termasuk prostitusi baik anak tersebut menyadari atau tidak menyadari apa yang terjadi serta melibatkan kegiatan kontak fisik atau nonfisik(Borg, Snowdon, & Hodes, 2014).
2.1.1 Bentuk Pelecehan Seksual Bentuk pelecehan seksual terhadap anak dapat secara fisik atau non-fisik. Bentuk pelecehan seksual terhadap anak secara fisik dapat dibagi menjadi empat bentuk (Stoltenborgh, Ijzendoorn, Euser, & Bakermans-Kranenburg, 2011) yaitu 1. Penggunaan alat kelamin Pelecehan seksual menggunakan alat kelamin meliputi oral seks, sodomi, hubungan kelamin baik sesama jenis atau berlawanan jenis. 2. Penggunaan tangan atau barang ke dalam alat kelamin Pelecehan seksual menggunakan tangan atau barang lainnya untuk melakukan penetrasi terhadap alat kelamin korban atau pelaku. 3. Pelecehan terhadap alat kelamin Pelecehan seksual yang meliputi memegang, menyentuh atau merangsang alat kelamin pria atau wanita baik oleh korban atau terhadapkorban. 4. Lainnya Pelecehan seksual lainnya dengan melakukan kontak fisik selain alat kelamin seperti mencium, memeluk, meraba payudara, pantat dan bagian organ tubuh lainnya.
9
Sedangkan bentuk pelecehan seksual non-fisik dapat meliputi voyeurism, memgambil gambar atau memotret bagian intim korban, memperlihatkan alat kelamin kepada korban, memaksa korban melihat pelaku melakukan masturbasi, memaksa korban melihat konten berbau pornografi dan menulis komentar mengandung pornografi secara langsung maupun tidak langsung.
2.1.2 Pelaku Pelecehan Seksual Terhadap Anak Pelaku pelecehan seksual tidak hanya orang yang tidak dikenal oleh korban atau orang asing yang tertarik untuk mendekati korban, tapi bisa saja pelaku merupakan orang yang dikenal oleh korban seperti teman, kerabat dekat bahkan keluarga. Banyak faktor yang menyebabkan seseorang menjadi pelaku pelecehan seksual. Faktor utamanya yaitu pelaku memiliki kecanduan seks.71% pelaku merupakan pecandu seks(Herkov, 2013). Kecanduan seks dapat dideskripsikan sebagai kelainan pada seseorang yang memiliki kebutuhan seksual lebih yang ditandai dengan pemikiran dan tindakan seksual yang dilakukan terus menerus(Herkov, 2013). Pecandu seks tidak selalu menjadi pelaku pelecehan seksual dan tidak semua pelaku pelecehan seksual merupakan pecandu seks. Sekitar 55% pelaku pelecehan seksual merupakan pecandu seks. Menurut Sedlak et al (2015), Pelaku yang melakukan pelecehan seksual sebanyak 87% berjenis kelamin pria dan 13% berjenis kelamin perempuan.
10
2.1.3 Dampak Pelecehan Seksual Terhadap Anak Dampak dari pelecehan seksual memberikan trauma mendalam bagi korbannya baik secara psikologis atau fisik termasuk emosi, tingkah laku dan psychosocial. Dampak yang diakibatkan khususnya psikologis tidak dapat disembuhkan dalam waktu singkat dan membutuhkan terapi dalam waktu yang lama bagi korbannya (Michalopoulos dan Mavridis, 2011). Dalam pelecehan seksual anak, korban pelecehan seksual lebih banyak berjenis kelamin perempuan dibandingkan pria yaitu sebesar 67.7%.
2.2 Child Grooming Child grooming merupakan proses mendekati anak dengan tujuan membujuk mereka agar bersedia melakukan aktivitas seksual (Eneman, Gillespie, & Bernd, 2010). Pelaku menggunakan berbagai teknik untuk mengakses dan mengontrol korban. Proses ini membutuhkan akses, waktu, dan keterampilan interpersonal pelaku. Jika child grooming dilakukan dengan baik, korban secara tidak sadar akan mudah ‘bekerjasama’ dengan pelaku. Semakin mahir keterampilan pelaku dalam memilih dan merayu korban yang rentan, semakin sukses child grooming dilakukan. Keterampilan pelaku mencakup cara memilih korban, mengidentifikasi dan mengetahui kebutuhan korban, waktu yang dibutuhkan oleh pelaku untuk mendekati korban, merayu dan mengendalikan korban(Lanning, 2010). Dalam child grooming, pelaku mendekati dan merayu korban dengan memberikan perhatian, kasih sayang, kebaikan, hak istimewa, pengakuan, hadiah, alkohol, obat-obatan, atau uang sampai korban dapat ‘bekerjasama’ dengan
11
pelaku. Pelaku biasanya menyesuaikan metode yang digunakan sesuai dengan karakteristik korban. Dalam beberapa kasus saat melakukan child grooming terhadap anak yang masih muda (di bawah 10 tahun), pelaku tidak mendekatikorban melainkan orangtuanya(Lanning, 2010). Pelaku mendekati orangtuanya untuk mendapatkan kepercayaan mereka sehingga pelaku akan memiliki aksesuntuk mendekati anak yang menjadi targetnya. Pelaku menggunakan teknik seperti bermain untuk memanipulasi korbannya dalam melakukan hubungan seks.Sedangkan dalam melakukan child grooming terhadap anak yang lebih tua (di atas 10 tahun) biasanya pelaku
menggunakan
teknik yang
melibatkan
pemberontakan,
pengalaman, dan rasa ingin tahu untuk memanipulasi korbannya agar mau melakukan aktivitas seksual (Lanning, 2010). Selain itu, pelaku biasanya berusaha membuat korban percaya bahwa korban memiliki hubungan istimewa dengan pelaku dan aktivitas seksual dilakukan sebagai bagian dari hubungannya dengan pelaku. Menurut Dr. Michael Welner terdapat enam tahapan child grooming yaitu(Welner, 2010) 1. Tahap 1: Targeting the victim Pelaku menargetkan korban berdasarkan kerentanan, kebutuhan emosional, isolasi dan kepercayaan diri yang dimiliki. Anak yang kurang mendapat pengawasan dari orangtua merupakan korban yang paling berpotensial.
12
2. Tahap 2: Gaining the victim's trust Pelaku meningkatkan kepercayaan korbandengan mengumpulkan informasi tentang korban, mengetahui kebutuhan korban dan tahu cara memenuhi kebutuhan korban. 3. Tahap 3: Filling a need Pelaku mengisi kebutuhan korban sehingga korban menurunkan kecurigaan dan meningkatkan hubungan antara pelaku dengan korban. Korban akan menganggap pelaku adalah orang yang penting dalam hidupnya. Hadiah, perhatian ekstra, kasih sayang yang diberikan oleh pelaku dapat meningkatkan hubungan emosional antara pelaku dan korban. 4. Tahap 4: Isolating The Child Setelah hubungan dan ikatan antara pelaku dengan korban dibentuk. Perlahan-lahan pelaku menciptakan situasi di mana mereka berdua saja. Isolasi ini memperkuat hubungan antara pelaku dengan korban. Penitipan anak, bimbingan, pembinaan dan traveling merupakan hal-hal yang memungkinkan isolasi antara pelaku dan korban. Hubungan istimewa dapat lebih diperkuat ketika pelaku menanamkan kasih sayang sehingga korban merasa dicintai atau dihargai dengan cara yang lain yang mungkin tidak diberikan oleh orang tuanya. 5. Tahap 5: Sexualizing the relationship Pada tahap ini pelaku meningkatkan hubungan mereka ke dalam hubungan seksual dengan cara melakukan percakapan intim, mengirim gambar, bahkan menciptakan situasi. Selain itu, pelaku mengeksploitasi rasa ingin tahu
13
anaksecara alami serta menggunakan perasaan yang dimiliki korban untuk bersedia melakukan hubungan seksual. 6. Tahap 6: Maintaining control Setelah pelecehan seksual terjadi, pelaku biasanya meminta korban merahasiakan dan menyalahkan korban. Selanjutnya pelaku meminta korban untuk diam karena aktivitas seksual dapat menyebabkan anak menarik diri dari hubungan yang sudah dibangun. Selain itu, pelaku dapat mengancam korban apabila memutuskan hubungan dengan pelaku maka pelaku akan mengekspos,
mempermalukan
dan
membuat
korban
ditolak
oleh
lingkungannya.
2.3 Online Child Grooming Meningkatnya pelecehan seksual terhadap anak terjadi karena adanya kemudahan akses terhadap korbannya, dan teknologi internet mempermudah pelaku mengakses korban untuk melakukan child grooming (Katz, 2013). Hal ini biasa dikenal dengan online child grooming. Dengan kata lain, online child grooming merupakan proses mendekati anak dengan menggunakan teknologi internet yang bertujuan membujuk mereka untuk bersedia melakukan aktivitas seksual secara online atauoffline. Online child grooming dilakukan dengan berbagai tipe, durasi dan itensitas tergantung dari karakteristik dan perilaku masing-masing pelaku. Diantara berbagai cara dan variasi dalam melakukan online child grooming, terdapat enam hal umum yang mendasarionline child grooming yaitu sebagai berikut:
14
1. Manipulation Online child grooming melibatkan beberapa bentuk manipulasi. Terdapat berbagai jenis manipulasi yang dapat dilakukan oleh pelaku terhadap korbannya. Berbagai teknik manipulasi digunakan untuk meningkatkan kekuatan dan kontrol pelaku terhadap korbanserta meningkatkan ketergantungan korban pada pelaku sepertimemberikan pujian untuk membuat korban merasa istimewa. Cara manipulasi ini dilakukan agar korban merasa dicintai dan diperhatikan. Di sisi lain, pelaku dapat mengontrol korban dengan cara mengintimidasi sehingga korban merasa takut dengan pelaku. 2. Accessibility Kemudahan akses untuk berinteraksi dengan korban menjadi salah satu faktor terjadinyaonline child grooming. Pelaku dapat mengakses korban melalui internet tanpa harus bertatap muka secara langsung dan tanpa harus membuka identitas aslinya. Dalam dunia nyata, orang tua lebih berwaspada terhadap orang yang berinteraksi langsung dengan anak mereka. Namun, mereka tidak waspada dengan interaksi onlinedan kurang terlibat dalam kehidupan online anak mereka. Menurut penelitian, 20% anak yang menggunakan jejaring sosial mengatakanpernah berbicara dengan orang asingdi internet dan 20% diantara mereka berumur 9 hingga 12 tahun (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013).Pelaku memanfaatkan teknologi internet untuk berinteraksi baik satu atau dua arah dengan korbanmelalui chat room, blog, mediasosial, forum atau bulletin.
15
3. Rapport Building Sebagai
bagian
dari
membangun
hubungan,
pelaku
melakukan
penyesuaian perilaku dan gaya berkomunikasi sehingga membuat korban nyaman
berbicara
dengan
pelaku.
Selain
itu
pelaku
mencari
tahuketertarikandan keadaan sekeliling korbannya. Agar tindakan yang dilakukan oleh pelaku dengan korban tidak diketahui oleh orang lain, pelaku biasanya meminta korban merahasiakan hubungan mereka. 4. Sexual Context Hubungan seksual merupakan tujuanonline child grooming. Untuk kapan dan bagaimana hubungan seksualitas dimulai tergantung dari masingmasing pelaku. Untuk memulai hubungan seksual dapat dilakukan dengan berbagai macam seperti berbicara jorok, merayu korban, mengirim gambar porno atau menghubungkan ke dalam hal-hal berbau pornografi. 5. Risk Assessment Penilaian resiko terhadap korban dilakukan sebelum dan pada saat online child grooming. Penilaian resiko dilihat dari beberapa aspek yaitu individu korban,
faktor
yang
berkaitan
dengan
internet
dan
lingkungan
sekitarnya(Houtepen, Sijtsema, & Bogaerts, 2014). Selain itu, pelaku melakukan manajemen resiko. Terdapat tiga cara yang dilakukan oleh pelaku dalam management resiko (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013) yaitu a. Berhubungan dengan teknologi yang digunakan dan logistik yang terkait dengan pelaku. Sebagai contoh menggunakan beberapa
16
hardware, alamat IP yang berbeda, dan berbagai metode penyimpanan. b. Pelaku menahan diri berkomunikasi dengan korban di ruang publik dan memilih penggunaan email pribadi atau ponsel. c. Pelakubertemu dengan korban dengan melakukan pertemuan yang jauh dari lingkungan korban. Namun, ada penelitian yangmengatakan bahwa managemen resiko tidak dimanfaatkan oleh semua pelaku, karena mereka mengganggap tidak melakukan sesuatu yang salah sehingga tidak ada yang perlu disembunyikan. 6. Deception Dalam online child grooming, terkadang pelaku menyamar sebagai teman sebaya atau anak muda. Penelitian mencatat bahwa 5% pelaku menyamar sebagai anak muda ketika berkomunikasi dengan korban (Whittle, Hamilton-Giachritsis, Beech, & Collings, 2013). Sebagian besar pelaku memberitahu korban bahwa mereka adalah orang dewasa yangingin membangun hubungan khusus dengan korban. Sebagian besar korban bertemu pelakusecara langsung dan melakukan hubungan seks. Sehingga dapat disimpulkan sebagian besar korban sadar mereka berkomunikasi dengan orang dewasa dan mengambil risiko untuk berinteraksi dengan pelaku.
17
2.3.1 Tipe Pelaku Online Child Grooming Terdapat dua tipe pelaku dalam melakukan online child grooming (Katz, 2013) yaitu 1. Contact Driven Offender Pelaku memanfaatkan teknologi internet seperti chat room untuk mendekati dan membangun hubungan seksual dengan korbannya. Teknologi
internet
digunakan
sebagai
media
untuk
mencari,
berkomunikasi dan melakukan pendekatan dengan korban. 2. Fantasy Driven Offender Pelaku
memanfaatkan
teknologi
internet
sebagai
media
untuk
berhubungan dengan korban dengan tujuan cybersex dan masturbasi.
2.3.2 Proses Online Child Grooming Menurut O’Connell (2004), proses online child grooming terdiri dari lima proses. Kemudian disempurnakan kembali oleh Gupta, Kumaraguru, dan Ashish(2014) sehingga proses online child grooming terdiri enam proses yaitu: 1. Friendship Forming Stage Pada tahap ini pelaku berkenalan dengan korbannya seperti bertukar nama, lokasi, umur, dan lainnya. Selain itu, pelaku biasa menanyakan infomasi akun online lainnya serta meminta gambar dari korban untuk memastikan korban yang didekati belum dewasa. 2. Relationship Forming Stage Pada tahap ini, pelaku dan korban berbicara tentang keluarga dan sekolah kehidupan korban. Pelaku mencoba mengetahui minat dan hobi korban
18
sehingga pelaku dapat memanfaatkan informasi tersebut untuk membuat korban percaya bahwa mereka berada dalam suatu hubungan. 3. Risk Assessment Stage Pada tahap ini, pelaku mencoba untuk mengukur tingkat resiko, ancaman dan bahaya berhubungan dengan korban. Pelaku memastikan hubungan dengan korban tidak diketahui orang lain dari pihak korban dan memastikan orang lain tidak membaca percakapan mereka. Biasanya pelaku meminta korban menghapus history chat. 4. Execlusivity Stage Pada tahap ini, pelaku mencoba mendapatkan kepercayaan dari korban. Pelaku menegaskan kepada korban bahwa mereka mempunyai ikatan khusus. Seringkali konsep cinta dan perhatiandigunakan oleh pelaku pada tahap ini. 5. Sexual Stage Tahap ini yang paling berbeda dengan tahap lainnya karena rasa percaya dan 'cinta' telah dibangun oleh pelaku pada tahap ini. Pelaku membicarakan aktivitas seksual. Menurut O’Connell (2004) dalam tahap ini terdapat perilaku fantasi yang dilakukan. Berikut tahap-tahapnya yaitu: a. Initial Stage Pada tahap awal biasanya menggambarkan skenario tertentu. Misalnya “I am lying naked in warm bath and you are sitting at the edge of the bath wearing only a silk robe that falls open” (Pelaku).
b. Fantasy enactment based on perception of mutuality
19
Berbagai pendekatan berbeda dilakukan untuk mengajak atau mempengaruhi korban
secara
emosional
untuk
melakukan
cybersex seperti masturbasi, oral sex, virtual penetrativedan sex secara online. c. Fantasy enactment overt coercion counter balanced with intimacy Beberapa pelaku menerapkan pemaksaan terhadap korbannya agar bersedia menjadi bagian dari fantasi seks pelaku. Berikut contoh percakapan pelaku memaksa korban: Pelaku
: tell me how you would touch my c***k
Korban
: i fell uncomfortable
Pelaku
: just do it,come on just do it, what are you waiting for?
d. Cyber-rape fantasy enactment overt coercion, control and aggression Pada tahap ini, pelaku akan menggunakan kata-kata yang lebih agresif untuk memaksa korban. Pada tahap ini, pelaku seakan-akan memerintah korbannya. Berikut contohnya: “do as I f**king say right now bitch or you will be in big f**king trouble” (Pelaku) 6. Conclusion Stage Pada tahap ini, pelaku mengajak korban untuk bertemu secara pribadi. Pelaku biasanya membahas tentang di mana mereka dapat bertemu dan apa yang akan dilakukan ketika bertemu.
20
Untuk deskripsi dari masing-masing tahap yang telah dijelaskan di atas dapat dilihat pada Tabel 2.1. Tabel 2.1 Deskripsi Setiap Tahap Proses Online Child Grooming Tahap
Deskripsi 1
Deskripsi 2
Deskripsi 3
Deskripsi 4
Friendship
Bertukar alamat
Membicarakan
Mendapatkan
Menanyakan umur,
forming
email, foto,
tentang pacar
informasi
jenis kelamin, lokasi,
informasi
tentang akun
nama, informasi
webcam
online korban
pribadi, detil tentang
lainnya
keluarga korban
Relationship
Bertukar alamat
memberikan
Membicarakan
Membicarakan
forming
email, foto,
pujian seperti
hobi, aktivitas
tentang sekolah,
informasi lebih
manis, cantik
dan kesukaan
prestasi disekolah,
anak
tugas sekolah
mendalam Risk
Mengecek orang
Meminta korban
Mengecek
Secara langsung
assessment
tua korban ada
untuk
apakah korban
memastikan bahwa
didekatnya atau
menghapus chat
bersedia dekat
korban bukan polisi
siapa saja yang
log, memastikan
dengan pelaku
atau agen yang
menggunakan
tidak ada orang
menyamar sebagai
komputer korban
lain yang
anak
mengetahui password korban Exclusivity
Sexual
Mengekpresikan
Menjelaskan
Memberikan
Membangun rasa
jatuh cinta dan
aktivitas seksual
pujian yang kuat
percaya korban
memberikan
dan pengalaman
ekslusivitas
pelaku kepada
kepada korban
korban
Memberikan
Menjalin
Bertukar foto
Memberikan pujian
penjelasan
hubungan
seksual atau
yang mengandung
tentang istilah
(berpacaran)
bagian dari tubuh
seksualitas
Mengatur waktu
Mendiskusikan
Memastikan
Menentukan apa yang
dan lokasi untuk
bagaimana cara
korban akan
akan dilakukan ketika
bertemu secara
pulang pergi dari
datang sendiri
bertemu nanti
langsung
tempat
kepada pelaku
yang mengandung seksualitas Conclusion
pertemuan
21
2.3.3 Percakapan dalam Online Child Grooming Wollis (2011) melakukan penelitian untuk mengetahui kata-kata yang sering digunakan dalam percakapan online child grooming yang kemudian disempurnakan kembali oleh Black, Wollis, Woodworth, Hancock (2015). Katakata tersebut dikategorikan berdasarkan proses online child grooming menurut O’Connell (2004) pada Tabel 2.2. Tabel 2.2 Kata-Kata yang Sering Digunakan Dalam Percakapan Online Child Grooming Tahap Friendship forming
Relationship forming
Risk assessment stage
Kategori You Friend Social Work Leisure Positive emotion Achieve Money Religion Family Home They Negative emotion
Exclusivity
Anxious Negate We Quantitative Discrepancy Exclusive Sexual
Sexual
Conclusion
Feel Biology Body Time Motion Space Relative
Kata You Friend, boyfriend, girlfriend, lover Adult, anyone, personal, party, outsider, fight, story, mentions, dating, helpful, phone, private, public, gossip Homework, office, school Art, bands, game, hangout, sport, television, movie Cares, casual, cherish, comfort, cute, nice, LMAO Best, better, confidence, control, important, work Income, store, value, rich, wealth, compensate Church, God, heaven, hell, sacred, paradise Daughter, mother, husband, aunt, , brother, mom, dad, sister,uncle, family, and folks Apartment, kitchen, family, Bedroom, home, neighbor, Rooms They, their, they’d Crap, cry, difficult, hate, heartbreak, tough, unimportant, punish, sad, lose Worried, fearful, nervous Needn’t, neither, no, never, nope, nothing, shouldn’t, wasn’t, won’t We Greatest, lots, part, same, somewhat, single, several Could, couldn’t, desire, hope, need, normal, ought, prefer, rather, want, wish, would, wouldn’t But, without, exclude Hug, hump, make out, love, p*nis,prude, pussy, sex, vagina, virgin,dick, breast, cock, fuck, orgasm Caress, feel, grab, hot, rough, rub, squeeze, touch, wet Erection, jizz, sex, foreplay, nipple, fucked, hug, condom Anal, ass, breast, chest, cock, dick, pussy, horny, tit, vagina After, anytime, date, early, evening, fast, hurry, immediately, whenever, today, tomorrow, tonight, soon, now Appear, arrive, car, change, coming, drive, go, going, leaving, visit Anywhere, around, near, everywhere, street, map, where Sexual Anytime, city, close, far, heading, rush, whenever, weekend Horny, love, incest
22
2.3.4 Karakteristik Online Child Grooming Terdapat 20 karakteristikyang menggambarkan tindakan online child grooming (Pranoto, Gunawan, & Soewito, 2015): 1. Asking Question To Know Risk Of Conversation Pelaku mencari tahu resiko dari korban yang sedang didekati. Biasanya pelaku menanyakan apakah orangtua atau keluarga korban mengetahui percakapan yang dilakukan. Selain itu, pelaku menanyakan siapa saja yang menggunakan komputer ini, di mana letak komputer, dan menanyakan apakah orang tua korban mengetahui password dari aplikasi yang mereka gunakan untuk berkomunikasi. 2. Acknowledging wrong doing Pelaku memastikan korban menyadari resiko yang akan dihadapi. Pelaku akan menginformasikan kepada korban apa yang mereka lakukan salah, dan memiliki risiko hukum bagi pelaku. Dengan mengatakan ini kepada korban, pelaku berharap tidak terjerat kasus hukum karena hubungan mereka dibangun berdasarkan kemauan korban. 3. Asking relationship with parents Pelaku menanyakan hubungan korban dengan orangtuanya. Apabila korban memiliki hubungan yang buruk dengan orangtuanya maka akan menguntungkan pelaku. Karena anaktersebut akan membutuhkan kasih sayang dan perhatian. Dengan memanfaatkan ini pelaku mendekati korban dengan memberikan kasih sayang, perhatian besar dan memenuhi apa yang dibutuhkan oleh korban.
23
4. Asking if child is alone or adult supervision or friend Pelaku memastikan bahwa komputer tidak digunakan oleh orang lain, sehingga tidak ada kemungkinan pelaku akan terkena kasus hukum jika orang dewasa, kakak, dan teman korban melaporkan percakapan mereka kepada orang tua korban. 5. Other way contact Pelaku akan menanyakan cara lain untuk berkomunikasi dengan korban sehingga pelaku akan memiliki alternatif lain untuk berkomunikasi dengan korban baik suara, video ataupun gambar yang dapat meningkatakan kepuasan dalam berkomunikasi dengan korbannya. 6. Trying building mutual trust Pelaku mencoba untuk membangun rasa percaya dari korban karena jika mendapatkan kepercayaan dari korban maka akan memudahkan pelaku untuk membangun hubungan dengan korban ke tingkat berikutnya 7. Using word in feel category Dalam percakapan antara pelaku dan korban mengunakan kata-kata yang berhubungan dengan perasaan untuk mengungkapkan perasaan mereka. 8. Using word in biology, body, and sexual category Dalam percakapan antara pelaku dan korbanmenggunakan kata-kata yang mengandung konteks seksual. 9. Using child related vocabulary Pelaku kadang-kadang menggunakan istilah yang biasa digunakan oleh anak-anak saat menyebut organ seksual mereka.
24
10. Calling intimate parts using popular name or using slang word instead intimate parts Pelaku menggunakan istilah popular atau slang untuk menyebutkan bagian intim mereka. 11. Reframing Pelaku membawa topik pembicaraan kedalam topik yang berhubungan dengan seks. Pada saat membawa pembicaraan ke topik tersebut, pelaku memanipulasinya dengan hal lain seperti mengajak bermain, latihan dan mengajar. 12. Asking hot picture Pelaku meminta foto seksual korban. Foto tersebut akan digunakan untuk berimajinasi, atau sebagai alat untuk mengancam korbannya sehingga korban menuruti apa yang diminta oleh pelaku. 13. Communication desensitizing Untuk membuat korban merasa nyaman saat membahas sesuatu yang berhubungan dengan seks, pelaku akan melakukan proses desensitizing. Pelaku akan berpura-pura salah ketik dengan kata-kata yang termasuk dalam kategori seks, misalnya kata "pick" ditulis menjadi "d*ck”. 14. Telling the sexual preferences or desires and sexual experiences Pelaku
mencoba
mengetahui
preferensi
seksual
korban
dengan
menanyakanseperti apakah korban tidak keberatan untuk berhubungan seks dengan pelaku. Pelaku juga menanyakan pengalaman seksual korban. Menurut pelaku, korban yang pernah berhubungan seks akan lebih mudah
25
untuk berhubungan seks dengan pelaku, dan tidak tabu untuk membicarakan seks. 15. Introduced sexual stage Pelaku melakukan percakapan yang berhubungan dengan seks, namun belum sampai tahap imajinasi seks. 16. Fantasy enactment initial stage Pelaku akan membawa percakapan yang melibatkan imajinasi yang biasanya menggambarkan skenario tertentu 17. Fantasy enactment based activity Pelaku mengajak atau mempengaruhi korban secara emosional untuk melakukan cybersex seperti masturbasi, oral sex, virtual penetrative sex. 18. Fantasy enactment overt coercion counter balanced with intimacy Pelaku membawa percakapan ke dalam tahap imajinasi seksual dengan menggunakan kata-kata yang menunjukan aktivitas yang melibatkan keintiman dengan korbannya. Beberapa pelaku mungkin menerapkan pemaksaan agar korban bersedia menjadi bagian dari fantasi seks pelaku. 19. Fantasy enactment rape fantasy control and aggression Pelaku menggunakan kata-kata yang lebih agresif untuk memaksa korban menjadi bagian fantasi seksnya. Pelaku seakanmemerintah korbannya. 20. Arrange further contact and meeting Pelaku mengajak korban bertemu secara langsung baik dirumah korban maupun di tempat lainnya.
26
2.4 Penelitian Online Child Grooming Sebelumnya Beberapa tahun terakhir, beberapa peneliti melakukan penelitian terkait analisi dan deteksionline child grooming pada percakapan teks secara otomatis. Pada tahun 2010, Kontostathis, Edwards dan Leatherman mengidentifikasi tipetipe pelaku berdasarkan pola percakapanmenggunakan algoritma k-means. Terdapat delapan kategori yang digunakan untuk menentukan tipe pelaku yaitu activities,
personal
information,
compliment,
relationship,
reframing,
communicative desensitization, isolation,dan approach. Pada tahun 2011, Mcghee et al melakukan klasifikasi percakapan ke dalam kategori strategi yang digunakan pelaku dalam online child grooming. Peneliti membuat sistem yang dinamakan bernama ChatCoder 2 yang merupakan perbaikan dari ChatCoder 1 yang telah buat sebelumnya. ChatCoder 2 didesain untuk menentukan baris dari percakapan yang mengandung online child grooming. Peneliti menggunakan algoritma rule-base untuk mengklasifikasi percakapan ke dalam empat kategori komunikasi yang dilakukan pelaku dalam yaitu exchange personal information, grooming, approach dan tidak mengandung ketiganya. Pada tahun 2012, Pandey, Klapaftis dan Manandhar melakukan klasifikasi percakapan teks untuk mendeteksionline child grooming. Peneliti menggunakan konsep N-gramdi mana setiap N baris percakapan (satu baris sama dengan satu percakapan user) dikelompokan sebagai satu vektorpadasetiap dokumen percakapan. Perhitungan bobot setiap N-gram menggunakan TF-IDF. Untuk klasifikasi, peneliti menggunakan metode SVMdi mana setiap vektor (N-gram) akan diklasifikasi ke dalamkelas predatory atau non-predatory. Kemudian dari
27
hasil klasifikasi, sebuah percakapan dianggap online child grooming apabila hasil pembagian jumlah N-gramkelas predatory dengan jumlah N-gram percakapan lebih besar dari nilaithreshold yang ditentukan oleh peneliti. Akurasi klasifikasi paling baik didapatkan dengan menggunakan 3-gram, namun hasil akurasi klasifikasi meningkat dengan menambahkan stylistic untuk membedakan gaya penulisan. Hasil stylistic tersebut ditambahkan dengan hasil pembobotanTFIDFsebelum dilakukan klasifikasi. Pada tahun 2015, Pranoto, Gunawan dan Soewito melakukan penelitian klasifikasi percakapan teks untuk mendeteksi online child grooming. Setiap percakapan ditransformasi kedalam model vector space dengan melakukan ekstraksi fitur menggunakanTF-IDF. Kemudian, setiap percakapan diidentifikasi untuk mengetahui karakteristik online child grooming apa saja yang terdapat pada percakapan. Karakteristik tersebut dibatasi ke dalam dua puluh karakteristik yang ditandai dengan 1 apabila mengandung karakteristik tersebut atau 0 apabila tidak mengandung karakteristik tersebut. Peneliti membangun model logistic untuk mengetahui karakteristik yang paling menentukanhasil klasifikasi percakapan. Terdapat tiga model yang dihasilkan dan model ketiga menyatakan karakteristik “Other way contact” dan “Telling the sexual preference or desire and sexual experience” merupakan karakteristik yang paling menentukan percakapan sebagaipercakapanonline child grooming. Model logistic ketiga tersebut digunakan untuk klasifikasi percakapan.
28
2.5 Data Mining Data miningmerupakan proses menemukan pola menarik dan pengetahuan dari data berkapasitas besar (Han, Kamber, & Pei, 2012). Data miningakan mengekstrak informasi berharga dengan menganalisis pola-pola ataupun hubungan keterkaitan dari data-data. Data mining dapat diartikan sebagai “knowledge mining from data” atau menggali pengetahuan dari data.
2.5.1 Kategori Data Mining Data miningdibagi menjadi dua kategori (Han, Kamber, & Pei, 2012) yaitu: 1. Prediktif Tujuannya untuk memprediksi nilai dari atribut tertentu berdasarkan nilai atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas. 2. Deskriptif Tujuannya untuk mengidentifikasi karakteristik data dalam set data target.
2.5.2 Fungsionalitas Data Mining Fungsionalitas data mining digunakan untuk melakukan spesifikasi jenis pola yang ditemukan saat melakukan data mining. Berikut fungsionalitas data mining(Han, Kamber, & Pei, 2012):
29
1. Class/Concept Description: Characterization and Discrimination Bertujuan untuk mendapatkan karakteristik yaitu rangkuman dari karakteristik umum atau fitur dari kelas set data targetdan mendeteksi perbedaan
denganmembandingkanfiturumumobjekdata
targetdenganfiturumumobjek dari satuatausatu set datalainnya. 2. The Mining of frequent patterns, Associations, and Correlations Frequent Patterns adalah pola yang sering terjadi di dalam data. Ada banyak jenis dari frequent patterns, termasuk di dalamnya pola, sekelompok item set, sub-sequence, dan sub-struktur. Sebuah frequent patterns biasanya mengacu pada satu set item yang sering muncul bersama-sama dalam suatu kumpulan data transaksional. Associations Analysis adalah pencarian aturan-aturan asosiasi yang menunjukan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa Market Basket Analysis dan data transaksi. 3. Classification and Regression Klasifikasi adalah proses menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep. Model dibuat berdasarkan analisis data pelatihan (yaitu, objek data yang label kelas diketahui) yang kemudian digunakan untuk memprediksi label kelas objek yang label kelas tidak diketahui. Sedangkan regressionadalah metodologi statistik yang sering digunakan untuk prediksi numerik. Regressionjuga mencakup identifikasi distribusi tren berdasarkan data yang tersedia.
30
4. Clustering Analysis Tidak seperti classification dan regression yang melakukan analisis data yang label kelasnyasudah diketahui, clustering menganalisa data yang tidak mempunyai label class.Clusteringbertujuan untuk melakukan segmentasi data yang heterogen ke dalam subgrup berdasarkan kemiripan karakteristikdata. 5. Outlier Analysis Digunakan untuk menganalisis data yang tidak sesuai dengan model data. Data tersebut dinamakan outlier yang dianggap sebagai noise atau pengecualian. Teknik ini berguna dalam fraud detection dan rare events analysis 6. Evolution analysis Analisis evolusi memodelkan trend dari objek yang memiliki perilaku yang berubah setiap waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu.
2.5.3 AplikasiData Mining Data miningdapat diaplikasikan ke dalam berbagai domain. Berikut beberapa contoh: 1. Relational Marketing Data
mining
digunakan
untuk
mendukung
marketing
seperti
mengidentifikasi customer segmen yang untuk target marketing, memprediksi respon positif untuk kampanye produk.
31
2. Fraud Detection Data mining digunakan untuk mendeteksi penipuan dalam industri seperti asuransi (klaim palsu) atau banking (penggunaan kartu kredit secara ilegal). 3. Risk Evaluation Data mining digunakan untuk analisis resiko untuk memperkirakan resiko yang berhubungan dengan keputusan masa depan. 4. Medical diagnosis Data mining digunakan untuk diagnosis medis seperti
mendeteksi
penyakit sejak dini dengan menggunakan hasil tes lab. 5. Text mining Data mining digunakan untuk menganalisis teks yang tidak berstruktur untuk melakukan klasifikasi artikel, buku, dokumenatau halaman web. 6. Image Recognition Data mining digunakan untuk pengobatan dan klasifikasi citra digital, baik statis (gambar) dan dinamis (video) seperti mengidentifikasi tulisan, membandingkan dan mengidentifikasi wajah manusia, dan mendeteksi gerakan mencurigakan pada kamera tersembunyi. 7. Web Mining Data mining digunakan untuk menganalisa web seperti untuk menganalisis click stream (urutan halaman yang dikunjungi dan dipilih oleh pengunjung web).
32
2.6 Text Mining Text miningmerupakan salah satu aplikasi dari data mining. Text miningberusaha untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi pola yang menarik. Dalam text mining, sumber data berupa koleksi dokumen sehingga informasi maupun pola yang menarik ditemukan pada data yang berada pada koleksi dokumen(Feldman & Sanger, 2007). Dokumen berupa teks biasanya tidak terstruktur oleh karena itu text mining akan memproses data yang tidak terstruktur.
2.6.1 PreprocessingText Mining Text mining akan menggali dokumen berupa teks yang bentuknya tidak terstruktur sehingga informasi pada sumber data akan sulit untuk diekstrak. Dokumen merupakan entitas abstrak yang memilliki berbagai kemungkinan representasi yang sebenarnya. Oleh karena itu perlu dilakukan preprocessing terhadap sumber data yaitu teks sehingga menjadi lebih terstruktur. Untuk melakukan strukturisasi terhadap sumber data terdapat beberapa tahap yang perlu dilakukan yaitu (Feldman & Sanger, 2007): 1. Preparatory Processing Pada tahap ini struktur sumber data mentah ditransformasi menjadi struktur yang cocok untuk diproses lebih lanjut. Sebagai contoh, sumber data dari dokumen PDF, hasil scan, atau pidato. Pada tahap ini dilakukan konversi sumber data dalam bentuk teks seperti paragraf, kolom, atau tabel. Jumlah sumber data dokumen sangat besar, dan kemungkinanformat sumber data berbeda sehingga diperlukan beberapa teknik untuk
33
mengkonversi dari beberapa format menjadi bentuk teks seperti Optical Character Recognition (OCR), pengenalan suara, dan konversi file elektronik lainnya. 2. Natural Language Process Pada tahap ini, isi dari dokumen diproses agar dapat dipahami oleh komputer. Berikut beberapa natural languange process yang dapat dilakukan pada preprocessing: a. Tokenization Merupakan proses pemecahan dokumen. Dokumen dapat dipecah menjadi beberapa tingkat berbeda seperti bab, paragraf, kalimat, kata-kata bahkan suku kata. b. Stop Word Removal Merupakan proses menghapus kata yang terdapat dalam stop list (daftar kata umum yang tidak penting) pada dokumen. c. Stemming Merupakan
proses
mengubah
kata
menjadi
bentuk
kata
dasar.Proses stemming dilakukan dengan menghilangkan semua imbuhan (afiks) baik yang terdiri dari awalan (prefiks), sisipan (infiks) maupun akhiran (sufiks) dan kombinasi dari awalan dan akhiran (konfiks). Contoh: running menjadi run. Algoritma yang sering digunakan dalam bahasa inggris yaitu algoritma porter yang terdiri dari 5 langkah. Pada setiap langkah terdapat beberapa aturan dan kondisi untuk menghilangkan imbuhan(Porter, 1980).
34
d. Syntactical Parsing Merupakan proses melakukan analisis sintaksis kalimat menurut teori tata bahasa yang benar. e. Part-of-Speech (POS) Tagging Merupakan proses pemberian label kelas kata pada suatu kata.Tag POS ini akan memberikan informasi tentang isi semantik dari sebuah kata. Tag yang umum yaituarticle, noun, verb, adjective, preposition, number, dan proper noun.
2.6.2 Text Representation Text representation merupakan salah satu bagian utama dari text mining. Text representation merupakan hal mendasar dan diperlukan untuk pengolahan informasi inteligen berbasis teks (Wen, Yoshida, & Tang, 2011). Kemampuan klasifikasi dalam text miningsecara akurat bergantung pada representasi teks dari sumber data dokumen. Hal ini dikarenakan text miningmenggunakan data yang tidak terstruktur. Text
representation
digunakan
untuk
transformasi
teks
menjadi
vektoryang biasa dikenal dengan model vector space atau Vector Space Model yang disingkat VSM(Wen, Yoshida, & Tang, 2011).Dalam model vector space, dokumen diwakili dengan vektor dari fitur-fitur yangdiekstrak. Untuk mendapatkan
nilai
vektor
bobotyangmewakiliseberapa
dari
dokumen
tersebutdilakukanperhitungan pentingfiturdalamdokumendan
dalamkeseluruhankoleksi dokumen. Fitur-fitur yang akan dilakukan perhitungan bobot yaitu sebagai berikut(Khan, Baharudin, Lee, & Khan, 2010):
35
1. Fitur Unigram Dalam fitur ini, kata dan simbol dalam dokumendihitung sebagai satu fitur yang kemudian direpresentasikan dalam bentuk vektor. 2. Fitur N-gram Dalam fitur ini, gabungan N kata dan simbol dalam dokumendihitung sebagai satu fitur yang kemudian direpresentasikan dalam bentuk vektor. Semua fitur yang diekstrak dinyatakan dengan
,
,…,
yang membentuk
daftar kata. Sehingga dokumendirepresentasikan dalam vektor di mana
,
,…,
merupakan hasil perhitungan bobot fitur . Perhitungan bobot yang
biasa digunakan antara lain(Khan, Baharudin, Lee, & Khan, 2010): 1. Feature Frequency (FF) Pembobotan ini merupakan cara paling sederhana. Pembobotan dilakukan dengan menghitung jumlah kemunculan fitur dalam dokumen. Misalnya fitur “kelas” muncul sebanyak sepuluh kali dalam satu dokumen, maka bobot dari fitur tersebut adalah sepuluh. 2. Feature Presence (FP) Bentuk vektor dari pembobotan ini adalah vektor biner. Fitur yang ada dalam dokumen diberi bobot 1 dan yang tidak ada diberi bobot 0. Misalnyafitur “kelas” muncul sebanyak sepuluh kali dalam dokumen, maka bobot dari fitur tersebut adalah 1. 3. TermFrequency–InverseDocumentFrequency(TF-IDF) TF-IDF merupakan metode menghitung banyak term yang ditemukan dalam dokumen.TF-IDF terdiri dari dua hal yaitu frekuensi term dalam dokumen yang disebut term frequency(TF) dan frekuensi dokumen yang
36
mengandung
tersebut
term
yang
disebut
Inverse-Document
Frequency(IDF).PersamaanTF-IDFweighting term untuk term dokumen
sebagai berikut Weight
, IDF
di mana
pada
TF , log
IDF
1
N DF
2
TF
= Term Frequency
IDF
= Inverse Document Frequency
DF
= Document Frequency
N
= jumlah dokumen
Berikut contoh perhitungan bobot dengan menggunakan TF-IDF. Terdapat tiga buah dokumen. Dokumen 1:"A birthday present!" said white mouse. Dokumen 2:"a mouse present?" asked brown cat Dokumen 3: "Wow, a birthday present," said blackcat Dari ketiga dokumen tersebut akan dicari frekuensi term (TF) “birthday”, “said”, “mouse”. Hasilnya ditampilan pada Tabel 2.3. Tabel 2.3 Frekuensi Term (TF) “birthday”, “said”, “mouse” Pada Setiap Dokumen Term (t) Birthday Said Mouse
Kemudian
Dokumen 1 (d1) 1/6 1/6 1/6
dicari
frekuensi
, Dokumen 2 (d2) 0 0 1/6
dokumen
(DF)
Dokumen 3 (d3) 1/7 1/7 0
yang
mengandung
term“birthday”, “said”, “mouse” yang hasilnya ditampilkan pada Tabel 2.4.
37
Tabel 2.4DocumentFrequency (DF) yang Mengandung Setiap Term Term (t) Birthday
2
Said
2
Mouse
2
Setelah mendapatkan DF, kemudian didapatkan IDF dengan persamaan (2)yang hasilnya ditampilkan pada Tabel 2.5. Tabel 2.5Inverse Document FrequencyPada Setiap Term =
Term (t) Birthday Said Mouse
3 2 3 log 2 3 log 2 log
0.4055 0.4055 0.4055
Dari TF dan IDF maka akan didapatkan TF-IDF dengan persamaan (1)yang hasilnya ditampilkan pada Tabel 2.6. Tabel 2.6 Hasil TF-IDF Pada Setiap Dokumen ,
Term (t) Dokumen 1 (d1) Birthday Said Mouse
1 0.4055 6 1 0.4055 6 1 0.4055 6
* IDF
Dokumen 2 (d2)
0,067583
0
0,067583
0
0,067583
1 0.4055 6
Dokumen 3 (d3) 1 0.4055 7 1 0.4055 7
0,067583
0,0579285 0,0579285 0
2.7 Klasifikasi Klasifikasi merupakan proses menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep. Dalam klasifikasi, data dianalisa untuk membuat model atau clasifier yang digunakan untuk memprediksi kelas label (kategori) seperti “aman” atau “beresiko” untuk data
38
aplikasi peminjaman, “yes” atau “no” untuk data marketing, serta “cara 1”, “cara 2” atau “cara 3” untuk data medis (Han, Kamber, & Pei, 2012). Kategori dapat direpresentasikan menggunakan nilai diskrit (urutan nilai tidak memiliki arti) seperti nilai 1, 2, dan 3 digunakan untuk merepresentasikan cara 1, 2, dan 3. Dalam klasifikasi data terdapat dua proses yang dilakukan yaitu (Han, Kamber, & Pei, 2012): 1. Tahap Pembelajaran (Learning Step) Pada tahap ini, datapelatihan yang telah diketahui label-labelnya digunakan dan dianalisis untuk membangun model atau clasifier.
3
Gambar 2.1 Tahap Pembelajaran(Han, Kamber, & Pei, 2012)
2. Tahap Klasifikasi (Classification Step) Untuk mengetahui keakuratan model yang dibangun pada tahap pembelajaran, maka digunakan data pengujianuntuk memprediksi labellabelnya.
39
4
Gambar 2.2 Tahap Klasifikasi(Han, Kamber, & Pei, 2012):
2.8 Support Vector Machine (SVM) SVM diperkenalkan pertama kali olehVapnik, Boser dan Guyon pada tahun 1992. SVM merupakan metode klasifikasi untuk data linear dan non-linear (Han, Kamber, & Pei, 2012). SVM dapat melakukan klasifikasi untukinput space yang berdimensi tinggi (Khan, Baharudin, Lee, & Khan, 2010). Konsep SVM secara sederhana mencari hyperplane terbaik yang berfungsi sebagai pemisah dua buah kelas pada input space.Hyperplane terbaik memiliki margin paling besar. Dengan hyperplane terbaik, tidak hanya meminimalkan empirical risk yaitu rata-rata kesalahan pada data pelatihan, tetapi juga memiliki generalisasiyang
baik.
Generalisasi
merupakan
kemampuan
untuk
mengklasifikasikan data yang tidak terdapat dalam data pelatihan dengan benar. Untuk menjamin generalisasi ini, SVM bekerja berdasarkan prinsip Structural Risk Minimization(SRM)(Khan, Baharudin, Lee, & Khan, 2010).
40
2.8.1 SVM pada Linearly Separrable Datta Linearly separable s daata merupakkan data yaang dapat dipisahkan seecara linear.. Data yangg tersedia dinotasikan d sebagai masing g-masing diinotasikan yn {+1,−1} untuk
d
sedanggkan label kelas k ddi mana n ad dalah
banyak knya data. Pada gambaar 2.3terdappat berbagaii alternatif hyperplane h yang dapat memisahkan m n semua set datadalam d ddua buah kelaas.
Gambar G 2.3 3 Alternatif Hyperplanee yang Mem mbagi Dua B Buah Kelas ( ) SVM mencari hyperpllane terbaik yang memissahkan semuua set data sesuai nya dengan mengukur margin hypperplane dan n mencari margin terbbesar. kelasn Margin adalah jarrak antara hyyperplane ddengan data terdekat darri masing-maasing kelas. Subset set data yang paling p dekat ini disebut sebagai supp pportvector. Pada Gambar 2.4 ditam mpilkan hypeerplane terbbaik di antarra alternatif hyperplane pada Gambar 2.3.
41
Gamba ar 2.4HyperpplaneTerbaiik di Antaraa Alternatiff HyperplanePada Gambar Sebelumnya (Gambar 2.3). Suppoort vectorDiggambarkan Dengan Lingkarran Pada Seet Data. Keduua kelas –1 dan +1 dappat dipisah secara semppurna oleh hyperplane h b berdimensi d, d yang didefinisikan denngan persam maan berikut .
S Sebuah
yaang termasukk kelas –1 (ssampel negaatif) dapat dirrumuskan seebagai data
y yang memen nuhi pertidakksamaan untuk
S Sedangkan
yang term masuk kelas +1 (sampel positif) dappat dirumuskkan sebagai
d yang memenuhi data m perrtidaksamaann untuk
.
merupakaan normal bidang dan b m merupakan posisi p bidangg relatif terh hadap pusat k koordinat. N Nilai margin dirumuskann dengan perssamaan
d mana di
42
7
|| ||
Margin maksimal didapatkan apabila nilai ||w|| minimum dari persamaan hyperplane ·
0. Oleh karena itu, untuk mendapatkan margin terbesar
dapat dirumuskan ke dalam permasalahan constraint optimization menjadi persamaan berikut min subject to
1 | | 2
8
·
1
0.
Salah satu metode penyelesaian untuk permasalahan constraint optimization yaitu perkalian Lagrangesehingga dirumuskan menjadi persamaan berikut
min
, ,
1 || || 2
·
terhadap w dan b, maka dari
0
dan dari
9
0.
subject to
Dengan meminimumkan
1
0 diperoleh 10
0 diperoleh
0
0
11
43
Dari mensubtitusikan persamaan (10) dan (11), persamaan diubah ke dalampersamaan
(primal problem)
(dual problem) sebagai berikut 1 2
max
0 dan
subject to
12
. .
Dengan persamaan (12) akan didapatkan
yang bernilai positif dan nilai w
yangdidapatkan dengan persamaan (10). Data
yang nilai
lebih dari nol
disebut sebagai support vector. Dengan mengetahui support vector, nilai bakan didapatkan dengan persamaan berikut 1
13
.
Dengan mengetahui nilai w dan b maka persamaan hyperplane (1) didapatkan. Setelah menemukan persamaan hyperplane(1), selanjutnya klasifikasi data ke dalamkelasyn {+1,−1} didapatkan dengan persamaan berikut sgn
. .
1 1
.
1
14
1
atau
sgn
1
.
1
.
1
15
. 1
Sebagai contoh mencari hyperplane terbaik untuk dua buah data yang terpisah secara linear yaitu
1 dengan 0
1 dan
2 dengan 0
1. Dari persamaan (12) diselesaikan menggunakan quadratic programing menjadi
44
min 1 2
1
subject to
0 dan 0
∞
Kemudian disederhanakan menjadi 1
min 1 2
1 10
1
1 20
1
min 1 2
1 2
subject to 2
1 1 20
1
1
∞
2 4
1
0 dan
∞ 1 2
2
1
1 2
0 dan
subject to
2 0 2 0
1 10
0 dan
subject to
min 1 2
1 0 1 0
∞.
Dari persamaan quadratic programmingyang sudah disederhanakan akan dicari dan
menggunakan perkalian Lagrange(variabel Lagrange
diganti menjadi
) menjadi 2
2
. ,
Dari turunan parsial terhadap
dan
didapatkan tiga persamaan
0 0 Kemudian didapatkan nilai w sebagai berikut
0
2
1 2
0
. 1,
1 dan
. Setelah itu, didapatkan nilai
45
1
1 0
1
2 0
1 1
1 0
dan nilai b didapatkan menggunakan support vector yang didapatkan sebagai berikut 1
.
1 2
.
. 1 1 . 0 0
1
1 2 . 0 0
1
.
Setelah mengetahui nilai w dan b maka didapatkan persamaan hyperplane yaitu ·
0
1 · 0 Selanjutnya
0. untuk
klasifikasi
3 0
data
1 ke 0
dan
dalamkelas {+1,−1} didapat dengan
3 0
sgn
.
sgn
1 3 · 0 0
sgn
3 2
3 diklasifikasikan ke dalamkelas+1 dan 0
Sehingga data sgn
. 1 0
Sehingga data
3 2
sgn
1 · 0
1 0
3 2
1 diklasifikasikan ke dalamkelas-1. 0
sgn
5 2
46
2.8.2 SVM pada Non linearly Separable Data Persamaan SVM untuk data nonlinearly separableberbeda dengan data linearly separable. Pencarian hyperplane terbaik didapatkan dengan penambahan yang biasa dikenal dengan soft margin hyperplane.
variabel
Gambar 2.5Soft Margin Hyperplane(Institut für Statistik und Wirtschaftsmathematik, 2008) Sebuah
yang termasuk kelas –1 (sampel negatif) dapat dirumuskan
sebagai data yang memenuhi pertidaksamaan ·
1+ subject to
Sedangkan
untuk
1.
16
0.
yang termasuk kelas +1 (sampel positif) dapat dirumuskan sebagai
data yang memenuhi pertidaksamaan ·
1subject to
untuk
1
17
0.
Oleh karena itu, untuk mendapatkan margin terbesar dirumuskan ke dalam permasalahan constraint optimization menjadi persamaan berikut
47
min
18
1 || || 2
subject to
·
1
0
Variabel C merupakan parameter yang menentukan besar penalti akibat kesalahan dalam pengklasifikasian data dan nilainya ditentukan oleh pengguna. Persamaan (18) memenuhi prinsip SRM yang berarti meminimumkan error pada data pelatihan.Kemudian, permasalahan constraint optimizationdiselesaikan dengan menggunakan perkalian Lagrangesehingga dirumuskan menjadi persamaan berikut min
1 | | 2
, ,
·
subject to
Selanjutnya, formula
0 dan
19
1
0
(primal problem)(19) diubah ke dalam
yang menghasilkan formula yang sama dengan formula
(dual problem)
(dual problem) (12).
Sehingga untuk mencari hyperplane terbaik pada data non linearly separable dilakukan dengan cara yang hampir sama dengan mencari hyperplane pada data linearly separable. Yang membedakan yaitu rentang nilai . Apabila nilai
menjadi 0
maka data tersebut dinamakan bounded support vector.
Metode lain untuk melakukan klasifikasi data nonlinearlyseparable yaitu dengan mentransformasi data pada input spaceke dalamfeature space dari menjadi
sehingga data dapat dipisahkan secara linear pada feature space.
48
Gambar 2.6Pemetaan dari Input Space ke Feature Space untuk Non-Linear SVM(Sarkar, 2010) Dimensi data pada feature space yang dihasilkan i akan lebih tinggi dari dimensi data pada input space. Hal ini dapat mengakibatkan komputasi pada feature space menjadi sangat besar(Vercellis, 2009). Untuk mengatasi permasalahan ini dapat dilakukan dengan kernel.Dengan menggunakan kernel, fungsi transformasi
tidak perlu diketahui secara jelas. Berikut fungsi kernel
umum yang sering gunakan: 1. Kernel Linear ,
·
20
2. Kernel Polinomial(sampai dengan dimensi D) ,
1
21
·
3. Kernel Radial Basis Function (RBF) ,
exp
| ·
| di mana
0
22 23
Variabel
dinamakan dengan hyperparameter.
Sehinggapencarian hyperplane terbaik untuk data non linearly separable formula
(dual problem) pada persamaan (12) diubah menjadi berikut
49
1 2
max
24
. ∞ dan
subject to 0
Dengan persamaan (24) diperoleh
yang bernilai positif dan nilai w yang
didapatkan dengan persamaan yang sama denganpersamaan(10) namun menjadi
sebagai berikut 25
Data
yang nilai
lebih dari nol disebut sebagai support vector. Dengan
mengetahui support vector, nilai b didapatkan dengan persamaan berikut 1
26
.
27
1
. 1
Dengan mengetahui nilai w dan b maka persamaan hyperplane(1)didapatkan. Setelah menemukan persamaan hyperplane, selanjutnya klasifikasi data ke dalamkelasyn {+1,−1} dapat dilakukan dengan persamaan berikut sgn
. .
1 1
.
1
28
1
atau 1
. .
1
contoh
mencari
datanonlinearly separable yaitu 1 dan
29
.
sgn
Sebagai
1
2 dengan
hyperplane 1
1
terbaik
dengan
untuk 1,
dua 0
buah dengan
1. Dari persamaan (24) menggunakan
50
kernel polinomial dimensi 2 yaitu
,
1
·
yang diselesaikan
menggunakan quadratic programming menjadi berikut: , , ,
min 1 2
, , ,
, , ,
0 dan 0
subject to
1
∞.
Kemudian disederhanakan menjadi 4 1 9
min 1 2
1 1 1
0 dan
subject to min
9 1 25
2
∞ 1 2
9 0 dan
subject to
25 2
1 2
1 2
1 2
∞.
Dari persamaan quadratic programmingyang sudah disederhanakan akan dicari ,
dan
dengan menggunakan perkalian Lagrange(variabel Lagrange
diganti menjadi ) menjadi 2
9 .
,
Dari turunan parsial terhadap 0 0
,
dan
didapatkan tiga persamaan
4
1 2
9
0
Dari empat persamaan di atas didapatkan nilai Setelah itu, nilai b didapatkan sebagai berikut
0
. 3,
2,
1 dan
.
51
1 3
.
.
. 22
5
53
12.
3
Selanjutnya klasifikasi data
1 ke dalamkelas {+1,−1}
dan
didapat dengan: sgn
.
4
1
sgn
1.
1 1
sgn 48
2
4
2 2
49
2.
4
3 3
3.
4
3.
5
12
sgn 9 .
3 diklasifikasikan ke dalamkelas+1.
Sehingga data sgn
.
5
1
sgn
1.
1 1
sgn 0
2
5
2 2
1
2.
5
3 3
12
sgn 9 .
Sehingga data
1 diklasifikasikan ke dalamkelas+1.
2.9 K-Nearest Neighbor(k-NN) -Nearest Neighbor ( -NN) merupakan instant based learning algorithm yang melakukan klasifikasi data berdasarkan data dari set data pelatihan yang paling mirip data tersebut (Khan, Baharudin, Lee, & Khan, 2010). Pada metode -
52
NN akan ditentukan nilai
yang digunakan untuk mengambil sebanyak
data
dari set data pelatihan yang paling mirip dengan data yang akan diklasifikasi. Untuk mengukur kemiripan antara data yang akan diklasifikasi dengan data dari set data pelatihan dilakukan dengan cara menghitung jarak antara kedua data tersebut. Sebelum dilakukan perhitungan jarak, data yang akan diklasifikasi dan data dari set data pelatihan direpresentasikan ke dalam vektor terlebih dahulu. Semakin besar nilai dari perhitungan jarak yang dihasilkan menandakan data dari set data pelatihansemakin mirip dengan data yang akan diklasifikasikan. Salah satu metode yang sering digunakan untuk mengukur jarak yaitu euclidean distancedengan persamaan berikut 30
Di mana
,
,
,…,
dan
,
,
,…,
.
Klasifikasi menggunakan -NN dilakukan dengan dua tahap yaitu 1. Tahap Pembelajaran Pada tahap ini, datapelatihanyang telah ditransformasi kedalam bentuk vektor dan labelnya disimpan. 2. Tahap Klasifikasi Pada tahap ini, data yang akan diklasifikasi (data kueri) yang sebelumnya telah ditranformasi kedalam vektor mencari data dari set datapelatihan yang paling mirip dengan menghitung jarak antara kedua vektor tersebut. Dari hasil perhitungan tersebut, akan diambil sebanyak datapelatihanyang paling mirip. Dari
data dari set
data tersebut, data kueri dapat
53
diklasifikasikan dengan cara melihat label mayoritas dari seluruh
data
tersebut. Berikut contoh klasifikasi yang dilakukan menggunakan metode Terdapat dokumen
-NN.
yang akan diklasifikasi. Untuk melakukan klasifikasi
terdapat set datapelatihanyang terdiri dari 3 dokumen yaitu
1, 2, 3 beserta
labelnya.Dokumen-dokumen tersebut ditampilkan pada Tabel 2.7 Tabel 2.7Set dataPelatihan yang Terdiri Dari 3 Dokumen dan Dokumen yang Akan Diklasifikasi Nama
Isi Dokumen
Label Dokumen
1
Shipment of gold damaged in a fire
Gold
2
Delivery of silver arrived in a silver truck
Silver
3
Shipment of gold arrived in a truck
Gold
silver truck
?
Dokumen
Dari Tabel 2.7, dokumen
1, 2, 3 dari set datapelatihan dan dokumen
ditranformasi ke dalam model vector spacepada Tabel 2.8. ,
Tabel 2.8 Hasil Transformasi
,
Dalam Model Vector Space
Fitur (kata) A
1
1
1
0
Arrived
0
1
1
0
Damaged
1
0
0
0
Delivery
0
1
0
0
Fire
1
0
0
0
Gold
1
0
1
0
In
1
1
1
0
Of
1
1
1
0
Shipment
1
0
1
0
Silver
0
2
0
1
Truck
0
1
1
1
54
Hasil tranformasi dari 1, 2, 3 dan 1
1, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0
2
1, 1, 0, 1, 0, 0, 1, 1, 0, 2, 1
3
1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1
menjadi
0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1 Sebelum melakukan klasifikasi, ditentukan nilai
1. Setelah itu mencari
dokumen dari set data pelatihan yang mirip dengan dokumen
menggunakan
eucludian distance.
1,
1
3
2,
2
2.45
3,
3
2.64
Dari hasil perhitungan, dokumen yang memiliki jarak terdekat adalah yaitu 2. Label 2 yaitu silver sehingga data kueri diklasifikasikan sebagai silver.
2.10 Evaluasi Model Klasifikasi Dalam melakukan evaluasi model klasifikasi yang telah dibuat, terdapat beberapa kriteria yang dapat dinilai yaitu akurasi, kecepatan, robustness dan skalabilitas(Vercellis, 2009). Untuk mengevaluasi model klasifikasi berdasarkan akurasi dapat diukur dari ketepatan model dalam melakukan klasifikasi. Salah satu metodenya
yaituconfusion
matrix.
Confusion
matrixmerupakan
matriks
yangterdiri dari baris dan kolom. Barisberhubungan dengan nilai yang sudah
55
diketahui sebelumnya sedangkan kolom berhubungan dengan nilai hasil prediksi yang telah dilakukan oleh model klasifikasi (Vercellis, 2009). Misalnyaconfusion matrix untuk
memprediksi klasifikasi binaryuntuk nilai -1 (negatif) dan 1
(positif) pada Tabel 2.9. Tabel 2.9Confusion Matrix Prediction
Actual
-1 (negatif)
1 (positif)
-1 (negatif)
True Negative (TN)
False Positive (FP)
1 (positif)
False Negative (FN)
True Positive (TP)
Dengan confusion matrix akandidapatkan akurasi, positive predictive value (PPV) dan negative predictive value (NPV) dengan persamaan berikut: Accuracy =
TP TN TP TN FN FP
PPV = NPV =
TP TP
FP
TN TN
FN
31 32 33
5 Untuk mengevaluasi model berdasarkan kecepatan dapat diukur dari waktu untuk membuat model di mana datapelatihan yang telah diketahui labellabelnya digunakan dan dianalisis untuk membangun model atau clasifier. Selain itu kecepatan dapat diukur dari waktu yang dibutuhkan oleh model yang dibangun untuk melakukan klasifikasi terhadap data pengujian.Jika dilihat dari robustness, evaluasi model dapat diukur dari kemampuan model menghasilkan prediksi yang benar walaupun terdapat noise atau data yang tidak lengkap. Selain itu, evaluasi model dapat diukur berdasarkan skalabilitas yaitu kemampuan model menangani data yang berjumlah sangat besar secaraefisien. 6
56