IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
SKRIPSI FILBERT NICHOLAS 101402066
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat mencapai gelar Sarjana Teknologi Informasi
FILBERT NICHOLAS 101402066
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2015
ii PERSETUJUAN
Judul
: IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
Kategori
: SKRIPSI
Nama
: FILBERT NICHOLAS
Nomor Induk Mahasiswa
: 101402066
Program Studi
: S1 TEKNOLOGI INFORMASI
Departemen
: TEKNOLOGI INFORMASI
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc. Prof. Dr. Opim Salim Sitompul, M.Sc NIP 19860303 201012 1 004 NIP 19610817 198701 1 001
Diketahui/Disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
Muhammad Anggia Muchtar NIP 19800110 200801 1 010
iii
PERNYATAAN
IDENTIFIKASI TIPE FILE DARI FILE FRAGMENT MENGGUNAKAN LONGEST COMMON SUBSEQUENCES (LCS)
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, 23 Maret 2015
Filbert Nicholas 101402066
iv
UCAPAN TERIMA KASIH
Puji dan syukur penulis sampaikan kehadirat Tuhan Yang Maha Esa atas berkat dan rahmat yang telah diberikan sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi Universitas Sumatera Utara. Penulis mengucapkan banyak terima kasih kepada Bapak Prof. Dr. Opim Salim Sitompul selaku dosen pembimbing pertama dan Bapak Romi Fadillah Rahmat, B.Comp.Sc, M.Sc. selaku dosen pembimbing kedua yang telah membimbing, memberi kritik dan saran kepada penulis selama proses penelitian serta penulisan skripsi. Tanpa inspirasi serta motivasi dari kedua dosen pembimbing, tentunya penulis tidak akan mampu menyelesaikan skripsi ini. Penulis juga mengucapkan terima kasih kepada Ibu Sarah Purnamawati, ST., M.Sc. selaku dosen pembanding pertama dan Bapak Dani Gunawan ST., MT. sebagai dosen pembanding kedua yang telah membantu memberikan kritik dan saran yang membantu penulis dalam pengerjaan skripsi ini. Ucapan terima kasih juga penulis tujukan pada semua dosen, pegawai serta staff pada program studi S1 Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan. Penulis juga berterima kasih terutama kepada kedua orang tua penulis, Bapak Thomas Udjung serta Ibu Jap Mie Giok yang telah membesarkan penulis dengan sabar dan penuh kasih sayang. Penulis juga berterima kasih kepada seluruh anggota keluarga penulis yang namanya tidak dapat disebutkan satu per satu. Terima kasih juga penulis ucapkan kepada senior-senior serta junior-junior Terknologi Informasi di Universitas Sumatera Utara. Secara khusus, penulis juga mengucapkan terima kasih juga kepada seluruh teman-teman angkatan 2010 Teknologi Informasi yang telah membantu dan bersama-sama dengan penulis melewati seluruh proses perkuliahan di Universitas Sumatera Utara ini.
v ABSTRAK
Analis forensik komputer merupakan pihak yang melakukan investigasi dan pencarian barang bukti digital. Pada kasus tertentu, file yang dibutuhkan sebagai barang bukti digital untuk proses pengadilan telah dihapus. Pada saat proses restore, header file dari file tersebut seringkali hilang atau bahkan file tersebut tidak diketahui tipe file-nya sehingga mempersulit proses rekonstruksi file. Metode identifikasi file fragment melalui ekstensi nama file tidak dapat dilakukan dikarenakan kemungkinan besar file fragment kehilangan header file. Atas dasar ini, metode identifikasi tipe file dari file fragment menjadi hal yang penting. Metode yang diajukan pada penelitian ini adalah penggunaan metode Longest Common Subsequences, dengan melalui tiga tahap, yaitu tahap training, testing, dan validasi. Pada penelitian ini ditunjukkan bahwa metode yang diajukan mampu melakukan identifikasi tipe file dari file fragment dengan hasil akurasi 92.91% untuk tiga jenis tipe data.
Kata kunci: forensik digital, identifikasi file, file fragment, identifikasi tipe file fragment, Longest Common Subsequences.
vi
FILE TYPE IDENTIFICATION FROM FILE FRAGMENT USING LONGEST COMMON SUBSEQUENCES (LCS)
ABSTRACT
Computer forensic analyst is a person in charge of investigation and evidence tracking. In certain cases, the file that is needed for digital evidence to be presented to court was deleted. While the file is being restored, it is often lost its header and cannot be identified, therefore it is hard to reconstruct the file. For this reason, a method for file fragment‟s file type identification is needed. The method proposed in this research is using Longest Common Subsequences, consists of three steps: training, testing and validation. In this research, it can be seen that this method works well and achieves 92.91% accuracy of identifying the file type of file fragment for three data types. Keywords: digital forensic, file identification, fragment file, fragment file identification, Longest Common Subsequences.
vii
DAFTAR ISI
Persetujuan
Hal. ii
Pernyataan
iii
Ucapan Terima Kasih
iv
Abstrak
v
Abstract
vi
Daftar Isi
vii
Daftar Tabel
ix
Daftar Gambar
x
BAB 1 Pendahuluan
1
1.1 Latar Belakang
1
1.2 Rumusan Masalah
2
1.3 Tujuan Penelitian
2
1.4 Batasan Masalah
3
1.5 Manfaat Penelitian
3
1.6 Metodologi Penelitian
3
1.7 Sistematika Penulisan
4
BAB 2 Landasan Teori
6
2.1 Forensik Digital
6
2.2 File
7
2.2.1. File Types and Format
8
2.2.2.File Type Validation
10
2.2.3.File Fragment
10
2.2.4.File Recovery
12
2.3 Jenis-Jenis File
13
2.3.1.PDF
13
viii 2.3.2.RTF
16
2.2.7.DOC
17
2.4 Binary File
18
2.5 Longest Common Subsequences
20
BAB 3 Analisis dan Perancangan Sistem 3.1 Arsitektur Umum
26 26
3.1.1. Fase Training
27
3.1.2. Fase Testing
29
3.1.3. Fase Validasi
29
3.2 Membaca Hex Number dan Generate String
30
3.3 Aplikasi Algoritma LCS
31
3.4 Perhitungan Rata-Rata Persentase untuk Mendapatkan Tipe File
33
3.5 Validasi
34
3.6 Dataset
35
3.7 Proses Pengecekan Akurasi
37
BAB 4 Implementasi dan Pengujian Sistem
38
4.1 Hasil Training
38
4.2 Hasil Testing
40
4.3 Validasi
48
BAB 5 Kesimpulan dan Saran
49
5.1 Kesimpulan
49
5.2 Saran
50
Daftar Pustaka
51
Lampiran A : List File untuk Fase Training
54
Lampiran B : Rincian Training LCS
62
ix
DAFTAR TABEL
Hal. Tabel 2.1. Contoh Signature File pada Header file
8
Tabel 2.2. Komposisi Struktur dari file PDF (Roussev & Garfinkel, 2009)
15
Tabel 3.1. Tabel Perbandingan LCS
31
Tabel 3.2. Tabel Rumus Apabila String Cocok
32
Tabel 3.3. Tabel Rumus Apabila String tidak Cocok
32
Tabel 3.4. Tabel Hasil Perbandingan LCS
32
Tabel 3.5. Spesifikasi file-file data penelitian untuk fase training
36
Tabel 3.6. Spesifikasi file-file data penelitian untuk fase testing
36
Tabel 4.1. Tabel Perbandingan LCS File Utuh dengan File Fragment
40
Tabel 4.2. Tabel Perbandingan LCS Trailer File Utuh dengan File Fragment
41
Tabel 4.2. Tabel Perbandingan LCS Trailer File Utuh dengan File Fragment (lanjutan)
42
Tabel 4.3. Tabel Akurasi Hasil Pengujian dengan Data Uji File Utuh
43
Tabel 4.4. Tabel Akurasi Hasil Pengujian dengan Data Uji File Fragment
44
Tabel 4.5. Tabel Spesifikasi File HTML
47
Tabel 4.6. Hasil Identifikasi File HTML
47
Tabel 4.7. Tabel Hasil Identifikasi HTML Setelah Training
47
Tabel 4.8. Tabel Hasil Validasi
48
x
DAFTAR GAMBAR
Hal. Gambar 2.1. Ilustrasi hex number file terpotong
11
Gambar 2.2. Ilustrasi hex number file tertimpa file lain
11
Gambar 2.3. Komponen dari file PDF (Adobe, 2008)
14
Gambar 2.4. Contoh rangkaian hex number dari random PDF (Roussev & Garfinkel, 2011)
15
Gambar 2.5. Contoh rangkaian hex number dari random RTF
17
Gambar 2.6. Contoh rangkaian hex number dari random DOC
18
Gambar 2.7. Binary pada file PDF
19
Gambar 2.8. Hex pada file PDF
20
Gambar 2.9. Kesamaan substring S1 dan S2
22
Gambar 2.10. Tabel X dan Y
23
Gambar 2.11. Gambar ilustrasi perhitungan LCS
24
Gambar 3.1. Arsitektur umum fase training
28
Gambar 3.2. Arsitektur umum fase testing
29
Gambar 3.3. Arsitektur umum fase validasi
30
Gambar 4.1. Hasil training LCS PDF
39
Gambar 4.2. Hasil training LCS RTF
39
Gambar 4.3. Hasil training LCS DOC
39
xi Gambar 4.4. Grafik Hasil Identifikasi dengan Tipe File Fragment PDF
45
Gambar 4.5. Grafik Hasil Identifikasi dengan Tipe File Fragment RTF
46
Gambar 4.6. Grafik Hasil Identifikasi dengan Tipe File Fragment DOC
46