IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
SKRIPSI
AARON 101402027
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi
AARON 101402027
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2014
Universitas Sumatera Utara
ii
PERSETUJUAN
Judul
: IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
Kategori
: SKRIPSI
Nama
: AARON
Nomor Induk Mahasiswa
: 101402027
Program Studi
: S1 TEKNOLOGI INFORMASI
Departemen
: TEKNOLOGI INFORMASI
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc M.Sc
Prof. Dr. Opim Salim Sitompul, M.Sc
NIP. 19860303 201012 1 004
NIP. 19610817 198701 1 001
Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
Muhammad Anggia Muchtar, ST., MM.IT NIP. 19800110 200801 1 010
Universitas Sumatera Utara
iii
PERNYATAAN
IDENTIFIKASI FILE DOKUMEN BERDASARKAN KONTEN MENGGUNAKAN DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 25 Mei 2014
Aaron 101402027
Universitas Sumatera Utara
iv
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikah kehadirat Tuhan Yang Maha Esa yang telah memberikan rahmat serta restu-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi. Pertama, penulis ingin mengucapkan terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc. M.Sc selaku pembimbing kedua yang telah membimbing penulis dalam penelitian serta penulisan skripsi ini. Tanpa inspirasi serta motivasi yang diberikan dari kedua pembimbing, tentunya penulis tidak akan dapat menyelesaikan skripsi ini. Penulis juga mengucapkan terima kasih kepada Bapak Muhammad Fadly Syahputra, B.Sc. M. Sc. IT sebagai dosen pembanding pertama dan Bapak M. Anggia Muchtar, ST. MM.IT sebagai dosen pembanding kedua yang telah memberikan masukan serta kritik yang bermanfaat dalam penulisan skripsi ini. Ucapan terima kasih juga ditjukan kepada semua dosen serta semua pegawai pada program studi S1 Teknologi Informasi, yang telah membantu serta membimbing penulis selama proses perkuliahan. Penulis tentunya tidak lupa berterima kasih kepada kedua orang tua penulis, Bapak penulis Amin Maslim, serta Alm. Ibu Miwana Agus yang telah membesarkan penulis dengan sabar dan penuh cinta. Terima kasih juga penulis ucapkan kepada adik penulis, Vincent Maslim, yang selalu memberikan dukungan kepada penulis. Penulis juga berterima kasih kepada seluruh anggota keluarga penulis yang namanya tidak dapat disebutkan satu satu. Terima kasih juga penulis ucapkan kepada seluruh teman-teman angkatan 2010 yang telah bersama-sama penulis melewati perkuliahan pada program studi S1 Teknologi Informasi, serta teman-teman mahasiswa Teknologi Informasi lainnya. Secara khusus, penulis juga mengucapkan terima kasih kepada Eka Pratiwi Goenfi yang selalu menemani dan memberikan perhatiannya kepada penulis.
Universitas Sumatera Utara
v
ABSTRAK
Identifikasi jenis file merupakan salah satu tahapan yang dilakukan pada forensik komputer terutama identifikasi jenis file dokumen, dimana identifikasi jenis file merupakan proses mengetahui format dari sebuah file sehingga dapat didapatkan jenis file sebenarnya dari file tersebut. Metode-metode identifikasi jenis file berdasarkan magic bytes dan ekstensi nama file sangat mudah dikelabui dengan melakukan pemalsuan file sederhana, seperti pengubahan ekstensi nama file ataupun pengubahan beberapa byte awal sebuah file. Atas dasar hal ini, metode identifikasi jenis file berdasarkan konten menjadi sangat penting. Metode yang diajukan pada penelitian ini adalah penggunaan fitur Byte Frequency Distribution, dilanjutkan dengan ekstraksi fitur dengan Principal Component Analysis dan implementasi mesin pembelajaran Distributed Autonomous Neuro-Gen Learning Engine dalam melakukan identifikasi jenis file dokumen berdasarkan konten. Pada penelitian ini ditunjukkan bahwa metode yang diajukan mampu melakukan identifikasi file dokumen dengan hasil akurasi yang cukup baik untuk lima jenis file dokumen.
Kata kunci: forensik digital dan komputer, identifikasi file berbasis konten, Principal Component Analysis, Distributed Autonomous Neuro-Gen Learning Engine, Distributed Adaptive Neural Network, Gene Regulatory Engine.
Universitas Sumatera Utara
vi
CONTENT-BASED DOCUMENT FILE TYPE IDENTIFICATION USING DISTRIBUTED AUTONOMOUS NEURO-GEN LEARNING ENGINE
ABSTRACT
File type identification is one of the phases being done in computer forensics, especially document file type identification. File type identification is a process of knowing the format of a file to determine the real file type of the file. File identification methods based on magic bytes and file name extension are easily spoofed by simple file forgery such as changing the file name extension or editing the first few bytes of a file. A content-based file type identification method become very important because of the fact stated before. The method proposed in this research consists of using Byte Frequency Distribution of a file as features, using Principal Component Analysis for dimensionality reduction of features and finally implementing a Distributed Autonomous Neuro-Gen Learning Engine in identifying a document file based on its content. In this research, it is shown that the proposed method is capable of identifying document files with good accuracy for five types of document files.
Keywords: digital and computer forensics, content-based file identification, Principal Component Analysis, Distributed Autonomous Neuro-Gen Learning Engine, Distributed Adaptive Neural Network, Gene Regulatory Engine.
Universitas Sumatera Utara
vii
DAFTAR ISI
Hal. Persetujuan
ii
Pernyataan
iii
Ucapan Terima Kasih
iv
Abstrak
v
Abstract
vi
Daftar Isi
vii
Daftar Tabel Daftar Gambar
BAB 1 Pendahuluan
x xii
1
1.1. Latar Belakang
1
1.2. Rumusan Masalah
3
1.3. Tujuan Penelitian
3
1.4. Batasan Masalah
3
1.5. Manfaat Penelitian
4
1.6. Metodologi Penelitian
4
1.7. Sistematika Penulisan
5
BAB 2 Landasan Teori
7
2.1. Forensik Digital
7
2.2. Dokumen
8
Universitas Sumatera Utara
viii
2.3. File
8
2.3.1. Identifikasi Format File
8
2.3.2. File forgery
13
2.4. Normalisasi
14
2.5. Companding Function
16
2.6. Ekstraksi Fitur menggunakan Principal Component Analysis
16
2.7. Artificial Neural Network
19
2.7.1. Kelemahan Artificial Neural Network
21
2.7.1. Multilayer Perceptron
21
2.8. Distributed Autonomous Neuro-Gen Learning Engine
24
2.8.1. Gene Regulatory Engine
25
2.8.2. Distributed Adaptive Neural Network
30
BAB 3 Analisis dan Perancangan
32
3.1. Arsitektur Umum
32
3.2. Dataset
34
3.3. Pre-process
35
3.3.1. Kalkulasi Byte Frequency Distribution
36
3.3.2. Normalisasi Byte Frequency Distribution
36
3.3.3. Kompresi dan Ekspansi Byte Frequency Distribution
37
3.3.4. Principal Component Analysis
40
3.4. Implementasi Distributed Autonomous Neuro-Gen Learning Engine 40 3.4.1. Implementasi jaringan
41
3.4.2. Parameter pelatihan yang digunakan
42
3.4.3. Partisi data
42
Universitas Sumatera Utara
ix
3.4.4. Modifikasi
43
3.4.5. Target output
44
BAB 4 Implementasi dan Pengujian
45
4.1. Hasil dari DANN
45
4.2. Hasil dari GRE
48
4.2.1. Hasil objective function
49
4.2.2. Hasil dari regulator mutasi
50
4.2.3. Hasil fitness function
53
4.3. Hasil pengujian
BAB 5 Kesimpulan dan Saran
53
57
5.1. Kesimpulan
57
5.2. Saran
58
Daftar Pustaka
59
Lampiran A: Source Code Aplikasi Client
62
Lampiran B: Source Code Aplikasi Server
70
Universitas Sumatera Utara
x
DAFTAR TABEL
Hal. Tabel 2.1. Daftar magic bytes untuk beberapa jenis file dokumen
10
Tabel 3.1. Spesifikasi file-file yang digunakan sebagai data penelitian
34
Tabel 3.2. Spesifikasi training dataset
35
Tabel 3.3. Spesifikasi testing dataset
35
Tabel 3.4. Tabel BFD untuk file sampel
37
Tabel 3.5. Tabel BFD hasil normalisasi
37
Tabel 3.6. Tabel BFD hasil kompresi dan ekspansi
39
Tabel 3.7. Tabel fitur hasil ekstraksi metode PCA
40
Tabel 3.8. Nilai-nilai parameter DANGLE
42
Tabel 3.9. Partisi data untuk setiap node
43
Tabel 3.10. Target output untuk setiap jenis file
44
Tabel 4.1. Hasil akhir gen node 1
45
Tabel 4.2. Hasil akhir gen node 2
46
Tabel 4.3. Hasil akhir gen node 3
46
Tabel 4.4. Hasil akhir gen node 4
46
Tabel 4.5. Hasil akhir gen node 5
47
Tabel 4.6. Akurasi hasil pelatihan untuk setiap node pada generasi ke-6
48
Tabel 4.7. Hasil akurasi untuk setiap jenif file pada pengujian menggunakan dataset pelatihan
54
Tabel 4.8. Hasil akurasi untuk setiap jenif file pada pengujian menggunakan dataset pengujian
54
Tabel 4.9. Confusion Matrix untuk dataset pelatihan
55
Universitas Sumatera Utara
xi
Tabel 4.10. Confusion Matrix untuk dataset pengujian
55
Tabel 4.11. Hasil akurasi untuk setiap jenis file pada pengujian menggunakan file-file yang telah dipalsukan
56
Universitas Sumatera Utara
xii
DAFTAR GAMBAR
Hal. Gambar 2.1. Distribusi Frekuensi untuk dua file rtf yang berbeda (McDaniel, 2001) 12 Gambar 2.2. Distribusi Frekuensi untuk dua file gif yang berbeda (McDaniel, 2001) 12 Gambar 2.3. Arsitektur umum sebuah jaringan saraf tiruan (Negnetvisky, 2005)
20
Gambar 2.4. Fungsi aktivasi dari sebuah neuron (Negnetvisky, 2005)
20
Gambar 2.5. Arsitektur Multilayer Perceptron dengan dua hidden layer (Negnetvisky, 2005)
22
Gambar 2.6. Arsitektur Gene Regulatory Engine (Rahmat, 2008)
25
Gambar 2.7. Diagram lengkap model GRE (Rahmat, 2008)
26
Gambar 2.8. Node Behavior’s Gene (Pasha, 2010)
27
Gambar 2.9. Neural Network’s Gene (Rahmat, 2008)
27
Gambar 2.10.Arsitektur umum dari Distributed Autonomous Neural Network (Rahmat, 2008)
31
Gambar 3.1. Arsitektur umum metode yang diajukan
33
Gambar 3.2. Grafik BFD hasil normalisasi
38
Gambar 3.3. Grafik BFD hasil kompresi dan ekspansi
39
Gambar 3.4. Rancangan jaringan implementasi DANGLE
41
Gambar 4.1. Hasil output untuk setiap node pada setiap generasi
48
Gambar 4.2. Hasil RMSE untuk setiap node pada setiap generasi
49
Gambar 4.3. Mutasi Epoch pada setiap node untuk setiap generasi
50
Gambar 4.4. Mutasi jumlah hidden layer pada setiap node untuk setiap generasi
51
Gambar 4.5. Mutasi jumlah neuron hidden layer 1 pada setiap node untuk setiap generasi
51
Universitas Sumatera Utara
xiii
Gambar 4.6. Mutasi jumlah neuron hidden layer 2 pada setiap node untuk setiap generasi
52
Gambar 4.7. Mutasi jumlah neuron hidden layer 3 pada setiap node untuk setiap generasi
52
Gambar 4.8. Hasil fitness function untuk setiap generasi
53
Universitas Sumatera Utara