BAB 1 PENDAHULUAN
1.1. Latar Belakang
Identifikasi file adalah proses yang dilakukan untuk memahami urutan dari byte-byte yang menyusun sebuah file, sehingga jenis file sebenarnya dari file tersebut dapat diketahui. Identifikasi file merupakan salah satu tahapan dari prosedur forensik digital yang diterapkan pada kasus kriminal untuk mendapatkan barang bukti digital yang valid digunakan dalam proses pengadilan. Pada kasus-kasus kriminal, seperti kasus korupsi, file-file dokumen yang tersimpan dalam hard disk komputer dapat dijadikan sebagai barang bukti. Tetapi pada kenyataannya dalam mengumpulkan file-file dokumen yang dapat menjadi bukti digital tersebut, para penyidik seringkali mengalami kesulitan karena dilakukannya file forgery oleh pihak tersangka. File forgery adalah pemalsuan file-file dokumen yang dapat menjadi bukti digital sehingga file-file dokumen tersebut tidak dapat dikenali sebagai file dokumen dengan mudah. Cara paling sederhana yang digunakan dalam file forgery adalah mengubah ekstensi dari file. File-file dokumen yang telah diubah ekstensinya menjadi tidak dapat dikenali secara langsung apabila di-browse melalui file browser saja, sebagai contoh sebuah file dokumen dengan ekstensi doc diganti extensinya menjadi jpg, file browser tidak lagi mengenali file tersebut sebagai file dokumen melainkan mengenalinya sebagai sebuah file citra. Hal ini dikarenakan file browser sistem operasi secara umum mengenali jenis dari sebuah file hanya dari ekstensi file tersebut. Salah satu cara untuk mengidentifikasi jenis file sebenarnya dari file dokumen yang telah diubah ekstensinya ini dapat dilakukan dengan mengecek magic bytes dari file tersebut (Hickok, et al. 2005). Magic Bytes adalah beberapa byte awal dari sebuah file yang menunjukkan isi dari file tersebut. Misalnya file dokumen dengan ekstensi doc memiliki magic bytes: “D0 CF 11 E0 A1 B1 1A E1”. Akan tetapi, cara identifikasi ini memiliki kelemahan yakni magic bytes dari sebuah file
Universitas Sumatera Utara
2
dapat diubah dengan mudah menggunakan hex editor, sehingga identifikasi jenis file tidak dapat dilakukan. Selain mengidentifikasi jenis file dari magic bytes, identifikasi jenis file juga dapat dilakukan melalui konten dari file menggunakan N-gram Analysis dan Vector Space Model (Cao, et al. 2010), Cosine distance similarity dan metode divide and conquer (Ahmed, et al. 2010), Jaringan Saraf Tiruan (Harris, 2007), serta Principal Component Analysis (PCA) dan Jaringan Saraf Tiruan (Amirani, et al. 2008). Apabila identifikasi dilakukan melalui konten file, maka pengubahan terhadap ekstensi maupun magic bytes dari file tidak akan mempengaruhi hasil identifikasi jenis file yang sebenarnya. Namun, penggunaan Jaringan Saraf Tiruan dalam identifikasi file memiliki kelemahan seperti sulitnya menentukan arsitektur dari system dan pembelajaran yang baru akan membuat sistem melupakan pembelajaran yang lama (Kasabov, 2007). Pelatihan yang hanya menggunakan satu Jaringan Saraf Tiruan juga memerlukan waktu pelatihan yang lama dan mengalami kesulitan dalam mengatasi data yang besar karena keterbatasan sumber daya. Dengan pertimbangan beberapa kelemahan dari Jaringan Saraf Tiruan ini, penulis mengajukan metode Distributed Autonomous Neuro-Gen Learning Engine (DANGLE). DANGLE merupakan mesin pembelajaran yang mengimplementasikan lebih dari satu Jaringan Saraf Tiruan dalam pembelajarannya, dimana kumpulan Jaringan Saraf Tiruan ini disebut dengan Distributed Adaptive Neural Network (DANN) dan setiap Jaringan Saraf Tiruan di dalam DANN dibangun, diatur dan dilatih oleh sebuah Gene Regulatory Engine (GRE). Adapun karakteristik dari DANGLE adalah adanya distribusi beban pada beberapa Jaringan Saraf Tiruan sekaligus, sehingga memungkinkan DANGLE untuk mengurangi waktu pelatihan yang diperlukan, mengatasi data yang besar serta memiliki fleksibilitas tinggi (tidak terikat pada satu jenis Jaringan Saraf Tiruan). DANGLE telah digunakan dalam menyelesaikan analisis lattice dari permasalahan identifikasi struktur kubik (Pasha, et al. 2010). Berdasarkan latar belakang diatas, penulis mengajukan penelitian dengan judul
“IDENTIFIKASI
FILE
DOKUMEN
BERDASARKAN
KONTEN
MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE”.
Universitas Sumatera Utara
3
1.2. Rumusan Masalah
Forgery terhadap file-file dokumen dengan cara mengubah ekstensi dari file dokumen maupun mengubah magic bytes dari file-file dokumen, membuat file-file dokumen susah diidentifikasi secara langsung melalui file browser, sehingga menyulitkan para penyidik dalam menemukan file-file dokumen yang dapat saja menjadi bukti digital dalam proses pengadilan tersangka pada kasus-kasus kriminal. Bagaimana mengidentifikasi file-file sehingga dapat diketahui apakah jenis file sebenarnya adalah merupakan file dokumen atau bukan?
1.3. Tujuan Penelitian
Mengidentifikasi file-file berdasarkan konten menggunakan Distributed Autonomous Neuro-Gen Learning Engine, sehingga dapat diketahui apakah file merupakan file dokumen atau bukan.
1.4. Batasan Masalah
Untuk menghindari penyimpangan dan perluasan yang tidak diperlukan, penulis membuat batasan: 1.
Identifikasi dilakukan pada file dokumen, dengan ekstensi dari file dokumen yang akan diidentifikasi adalah doc, html, pdf, ppt, dan xls.
2.
Identifikasi dilakukan hanya melalui konten atau isi dari file, dengan tidak mempertimbangkan nama file, file header, file trailer serta atribut file yang lainnya.
Universitas Sumatera Utara
4
1.5. Manfaat Penelitian
Manfaat yang diperoleh dari penelitian ini adalah: 1.
Membantu proses identifikasi file-file dokumen dari sekumpulan file yang tidak diketahui jenis file sebenarnya.
2.
Mengetahui kemampuan Distributed Autonomous Neuro-Gen Learning Engine dalam mengidentifikasi file-file dokumen.
3.
Memberikan masukan pada bidang forensik digital serta kecerdasan buatan.
1.6. Metodologi Penelitian
Tahapan-tahapan yang akan dilakukan pada pelaksanaan penelitian adalah sebagai berikut: 1.
Studi Literatur Studi Literatur dilakukan dalam rangka pengumpulan bahan referensi mengenai forensik digital, file, ekstraksi fitur, identifikasi file, jaringan saraf tiruan, dan Distributed Autonomous Neuro-Gen Learning Engine.
2.
Analisis Permasalahan Pada tahap ini dilakukan analisis terhadap bahan referensi yang telah dikumpulkan pada tahap sebelumnya untuk mendapatkan pemahaman mengenai metode yang diterapkan yakni Distributed Autonomous Neuro-Gen Learning Engine, serta domain masalah yang akan diselesaikan yakni permasalahan identifikasi file.
3.
Pengumpulan Data Pada tahap ini dilakukan pengumpulan data serta pembagian data yang telah didapatkan ke dalam training dataset dan testing dataset.
4.
Implementasi Pada tahap ini dilakukan implementasi metode Distributed Autonomous NeuroGen Learning Engine dalam penyelesaian masalah identifikasi file dokumen menggunakan data yang telah dikumpulkan sebelumnya.
Universitas Sumatera Utara
5
5.
Evaluasi dan Analisis Hasil Pada tahap ini dilakukan evaluasi serta analisis terhadap hasil yang didapatkan melalui implementasi metode Distributed Autonomous Neuro-Gen Learning Engine dalam penyelesaian masalah identifikasi file dokumen
6.
Dokumentasi dan Pelaporan Pada tahap ini dilakukan dokumentasi dan penyusunan laporan hasil evaluasi dan analisis serta implementasi Distributed Autonomous Neuro-Gen Learning Machine dalam identifikasi jenis file dokumen.
1.7. Sistematika Penulisan
Sistematika penulisan dari skripsi ini terdiri atas lima bagian utama sebagai berikut:
Bab 1: Pendahuluan Bab ini berisi latar belakang dari peneltian yang dilaksanakan, rumusan masalah, tujuan penelitian, batasan masalah, manfaat penelitian, metodologi penelitian, serta sistematika penulisan.
Bab 2: Landasan Teori Bab ini berisi teori-teori yang diperlukan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan forensik digital, file, ekstraksi fitur, identifikasi file, jaringan saraf tiruan serta Distributed Autonomous Neuro-Gen Learning Engine akan dibahas pada bab ini.
Bab 3: Analisis dan Perancangan Bab ini membahas analisis dan penerapan metode Distributed Autonomous NeuroGen Learning Engine untuk melakukan identifikasi file dokumen. Pada bab ini dijabarkan arsitektur umum, pre-process yang dilakukan serta desain jaringan yang digunakan.
Universitas Sumatera Utara
6
Bab 4: Implementasi dan Pengujian Bab ini berisi pembahasan tentang implementasi dari perancangan penerapan yang telah dijabarkan pada bab 3. Selain itu, hasil yang didapatkan dari pengujian yang dilakukan terhadap implementasi yang dilakukan juga dijabarkan pada Bab ini.
Bab 5: Kesimpulan dan Saran Bab ini berisi ringkasan serta kesimpulan dari rancangan yang telah dibahas pada bab 3, serta hasil penelitian yang dijabarkan pada bab 4. Bagian akhir dari bab ini akan berisi saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.
Universitas Sumatera Utara