ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA
TESIS
SAIFULLAH 117038036
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
Universitas Sumatera Utara
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika
SAIFULLAH 117038036
PROGRAM STUDI MAGISTER (S2) TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2013
Universitas Sumatera Utara
PERSETUJUAN
Judul
: ANALISIS PERBANDINGAN ALGORITMA DECESION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA
Nama Mahasiswa
: SAIFULLAH
Nomor Induk Mahasiswa : 117038036 Program Studi
: MAGISTER TEKNIK INFORMATIKA
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Dr. Zakarias Situmorang
Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh Magister Teknik Informatika Ketua,
Prof. Dr. Muhammad Zarlis NIP : 195707011986011003
Universitas Sumatera Utara
PERNYATAAN
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA
TESIS
Saya mengakui semua karya tesis ini adalah hasil kerja saya sendiri kecuali kutipan dan ringkasan yang tiap bagiannya telah dijelaskan sumbernya.
Medan, 19 Desember 2013
SAIFULLAH NIM : 117038036
Universitas Sumatera Utara
PERNYATAAN PERSETUJUAN PUBLIKASI Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini:
Nama
: SAIFULLAH
NIM
: 117038036
Program Studi
: Magister (S2) Teknik Informatika
Jenis Karya Ilmiah
: TESIS
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty free Right) atas Tesis saya yang berjudul:
ANALISIS PERBANDINGAN ALGORITMA DECISION TREE DENGAN ALGORITMA RANDOM TREE UNTUK PROSES PRE PROCESSING DATA
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan Tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan, 19 Desember 2013
SAIFULLAH NIM : 117038036
Universitas Sumatera Utara
Telah diuji pada Tanggal : 19 Desember 2013
PANITIA PENGUJI TESIS Ketua
:
Prof. Dr. Muhammad Zarlis
Anggota
:
1. Dr. Zakarias Situmorang 2. Prof. Dr. Herman Mawengkang 3. Prof. Dr. Tulus 4. Dr. Erna Budhiarti Nababan, M.IT
Universitas Sumatera Utara
RIWAYAT HIDUP
DATA PRIBADI Nama lengkap (berikut gelar)
: Saifullah, S.Kom
Tempat dan Tanggal Lahir
: Kota Pari, 07 Mei 1979
Alamat Rumah
: Jl. Tanah Jawa No. 42 Pematangsiantar
Telepon / HP
: 085296690027
Email
:
[email protected]
Instansi Tempat Bekerja
: AMIK Tunas Bangsa
Alamat Kantor
: Jl. Jendral Sudirman Blok A No. 1,2,3 Pematangsiantar
Telepon
: (0622) 22431
DATA PENDIDIKAN
SD
: SD NEGERI Kota Pari
Tamat
: 1992
SLTP
: SMP NEGERI 1 Pantai Cermin
Tamat
: 1995
SLTA
: SMA NEGERI 1 Perbaungan
Tamat
: 1998
D3
: AMIK Tunas Bangsa Pematangsiantar
Tamat
: 2006
Strata-1
: STMIK TIME Medan
Tamat
: 2010
Strata-2
: TEKNIK INFORMATIKA USU
Tamat
: 2013
Universitas Sumatera Utara
KATA PENGANTAR
Puji syukur kehadirat Allah SWT Tuhan Yang Maha Esa atas segala limpahan rakhmad dan karunia-Nya sehingga Tesis ini dapat diselesaikan melalui bimbingan, arahan dan bantuan yang diberikan berbagai pihak khususnya pembimbing, pembanding, para dosen, rekan-rekan mahasiswa/i, khususnya mahasiswa/i Program Studi Magister (S2) Teknik Informatika di FASILKOM Universitas Sumatera Utara. Tesis dengan judul: “Analisis Perbandingan Algoritma Decision Tree Dengan Algoritma Random Tree Untuk Proses Pre Processing Data” adalah merupakan Tesis dan syarat untuk memperoleh gelar Magister Komputer dalam Program Studi Magister (S2) Teknik Informatika pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara. Dengan selesainya tesis ini, perkenankanlah penulis mengucapkan terima kasih yang sebesar-besarnya kepada: Ketua Yayasan Muhammad Nasir AMIK Tunas Bangsa Pematangsiantar H. Maulia Ahmad Ridwan Syah yang telah memberikan izin, bantuan moril dan materil dan kesempatan kepada penulis untuk mengikuti pendidikan lanjutan pada Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara. Direktur AMIK Tunas Bangsa Pematangsiantar Rahmat Widia Sembiring SE, Msc.IT dan Plt. Direktur Dedy Hartma, ST, M.Kom yang telah memberikan izin, bantuan moril dan materil dan motivasi dalam penyelesaikan pendidikan Program Magister (S2). Rektor Universitas Sumatera Utara, Prof. Dr. dr. Syahril Pasaribu, DTM&H, M,Sc (CTM), Sp. A(K) atas kesempatan yang diberikan kepada penulis untuk mengikuti dan menyelesaikan pendidikan Program Magister (S2). Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, Prof. Dr. Muhammad Zarlis atas kesempatan yang diberikan kepada penulis menjadi mahasiswa Program Magister (S2) pada Program Pascasarjana Fasilkom Universitas Sumatera Utara. Ketua Program Studi Magister (S2) Teknik Informatika, Prof. Dr.
Universitas Sumatera Utara
Muhammad Zarlis, Sekretaris Program Studi Magister (S2) Teknik Informatika M. Andri Budiman, ST, M. Comp. Sc, M.EM beserta seluruh Staff dan Staff Pengajar pada Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fasilkom-TI Universitas Sumatera Utara, yang telah bersedia membimbing penulis, sehingga dapat menyelesaikan pendidika Pascasarjana. Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama dan Dr. Zakarias Situmorang selaku Pembimbing Anggota yang dengan penuh kesabaran membimbing, memotivasi, memberikan dukungan moril, kritik dan saran serta memberikan bahan-bahan yang berkaitan dengan penyusunan tesis ini sehingga penulis dapat menyelesaikan tesis ini dengan baik. Terimakasih yang tak terhingga dan penghargaan setinggi-tingginya kami ucapkan kepada Prof. Dr. Herman Mawengkang, Prof. Dr. Tulus, dan Dr. Erna Budhiarti Nababan, M.IT sebagai pembanding, yang telah memberikan saran, masukan dan arahan yang baik demi penyelesaian tesis ini. Seluruh Staf Pengajar dan Administrasi, Program Studi Magister (S2) Teknik Informatika Program Pascasarjana Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara yang telah memberikan bantuan dan pelayanan yang baik kepada penulis selama mengikuti perkuliahan. Orangtua tercinta Ayahanda dan Ibunda, serta Ibu Mertua serta semua keluarga yang senantiasa mendoakan, dan memberikan dorongan kepada penulis. Anak tercinta, Inda Ramadhani yang selalu mendoakan, memberikan semangat, serta kesabarannya untuk menanti penulis pulang dalam masa pendidikan, budi baik ini tidak dapat dibalas hanya diserahkan kepada Allah SWT, Tuhan Yang maha Esa. Rekan Mahasiswa baik yang senior maupun Angkatan ke Tiga Program Studi Magister (S2) Fasilkom-TI Universitas Sumatera Utara dan Rekan Sejawat di AMIK Tunas Bangsa Pematangsiantar yang telah banyak membantu penulis selama mengikuti perkuliahan. Kepada semua pihak yang tidak dapat penulis sebutkan satu persatu dalam tesis ini, terima kasih atas segala bantuan yang diberikan. Sekecil apapun yang
Universitas Sumatera Utara
Anda berikan untuk penulis turut menghantarkan penulis untuk menyelesaikan pendidikan yang ditempuh selama ini. Dengan segala kekurangan dan kerendahan hati, semoga kiranya Allah SWT Tuhan Yang Maha Kuasa membalas segala bantuan, kebaikan yang telah diberikan.
Medan, 19 Desember 2013 Penulis,
Saifullah
Universitas Sumatera Utara
ABSTRAK
Pemrosesan data sangatlah dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik. Perbandingan-perbandingan dari metode tersebut sangat dibutuhkan untuk pengolahan data yang lebih baik. Penelitian ini ditujukan dataset sebagai inputan preprocessing, dan selanjutnya digunakan pada aplikasi model aturan algoritma decision tree, random tree dan random forest, menggunakan software rapidminer. Pohon Keputusan digunakan untuk membuat model aturan yang akan dipilih dalam mengambil keputusan. Dari pendekatan preprocessing data dan model aturan yang didapat, dapat menjadi perhatian bagi pengambil keputusan untuk melihat dan mengambil keputusan variabel mana yang harus diperhatikan untuk mendukung peningkatan kinerja karyawan.
KataKunci
: Pre-processing Data, Decision Tree, Random Tree, Random Forest.
Universitas Sumatera Utara
ANALYSIS OF THE COMPARISON OF ALGORITHM DECISION TREE WITH ALGORITHM RANDOM TREE FOR DATA PRE-PROCESSING PROCESS
ABSTRACT
Data processing is needed several methods to get better results. Comparisons of these methods are needed to get better data processing. This research shows that a dataset as input preprocessing, and subsequently used in the application of the model rules of decision tree algorithm, random tree and random forest algorithm using the software RapidMiner. Decision trees are used to make the model rules to be selected in making decisions. From the data preprocessing approach and the model rules obtained can be a concern for decision makers to see and make decisions, which variables must be considered to support the improvement of employee performance.
Keywords : Pre-processing Data, Decision Tree, Random Tree, Random Forest.
Universitas Sumatera Utara
DAFTAR ISI
Halaman
KATA PENGANTAR
i
ABSTRAK
iv
ABSTRACT
v
DAFTAR ISI
vi
DAFTAR TABEL
viii
DAFTAR GAMBAR
ix
DAFTAR LAMPIRAN BAB I
BAB II
BAB III
PENDAHULUAN
1
1.1
Latar Belakang
1
1.2
Perumusan Masalah
2
1.3.
Batasan Masalah
2
1.4
Tujuan Penelitian
2
1.5
Manfaat Penelitian
3
LANDASAN TEORI
4
2.1
Pendahuluan
4
2.2
Data Mining
4
2.3
Decision Tree
9
2.4
Random Tree
12
2.5
Random Forest
13
2.6
Preprocessing data
14
2.6.1
Jenis-Jenis Metode Preprocessing Data
14
METODE PENELITIAN
16
3.1.
Pendahuluan
16
3.2
Rancangan Penelitian
16
3.3
Pelaksanaan Penelitian
18
3.4
Perancangan Model Analisis
18
3.5
Kontribusi Penelitian
19
Universitas Sumatera Utara
BAB IV
HASIL DAN PEMBAHASAN
20
4.1.
Pendahuluan
20
4.2
Hasil Percobaan
20
4.2.1 Diskripsi Sampel Data
21
4.2.2 Hasil Processing
22
4.2.2.1 Decision Tree
22
4.2.2.2 Random Tree
23
4.2.2.3 Random Forest
26
4.2.3 Preprocessing dengan Missing Value
BAB V
39
4.2.3.1 Decision Tree
39
4.2.3.2 Random Tree
41
4.2.3.3 Random Forest
43
KESIMPULAN DAN SARAN
56
5.1.
Kesimpulan
56
5.2.
Saran
56
DAFTAR PUSTAKA
57
LAMPIRAN
Universitas Sumatera Utara
DAFTAR TABEL
Hal. Tabel 4.1.
Deskripsi Data
21
Tabel 4.2.
Keterangan Rule Grafik Decision Tree
23
Tabel 4.3.
Keterangan Rule Grafik Random Tree
25
Tabel 4.4.
Keterangan Rule Grafik Random forest Model 1
26
Tabel 4.5.
Keterangan Rule Grafik Random forest Model 2
27
Tabel 4.6.
Keterangan Rule Grafik Random forest Model 3
29
Tabel 4.7.
Keterangan Rule Grafik Random forest Model 4
30
Tabel 4.8.
Keterangan Rule Grafik Random forest Model 5
31
Tabel 4.9.
Keterangan Rule Grafik Random forest Model 6
32
Tabel 4.10. Keterangan Rule Grafik Random forest Model 7
34
Tabel 4.11. Keterangan Rule Grafik Random forest Model 8
35
Tabel 4.12. Keterangan Rule Grafik Random forest Model 9
36
Tabel 4.13. Keterangan Rule Grafik Random forest Model 10
38
Tabel 4.14. Keterangan Rule Grafik Decision Tree
40
Tabel 4.15. Keterangan Rule Grafik Random Tree
42
Tabel 4.16. Keterangan Rule Grafik Random forest Model 1
44
Tabel 4.17. Keterangan Rule Grafik Random forest Model 2
45
Tabel 4.18. Keterangan Rule Grafik Random forest Model 3
46
Tabel 4.19. Keterangan Rule Grafik Random forest Model 4
47
Tabel 4.20. Keterangan Rule Grafik Random forest Model 5
49
Tabel 4.21. Keterangan Rule Grafik Random forest Model 6
50
Tabel 4.22. Keterangan Rule Grafik Random forest Model 7
51
Tabel 4.23. Keterangan Rule Grafik Random forest Model 8
52
Tabel 4.24. Keterangan Rule Grafik Random forest Model 9
53
Tabel 4.25. Keterangan Rule Grafik Random forest Model 10
55
Universitas Sumatera Utara
DAFTAR GAMBAR
Hal. Gambar 2.1. Bidang Ilmu Data Mining
5
Gambar 2.2. Proses dari Data Mining
7
Gambar 3.1. Alur Pre Processing data
17
Gambar 4.1. Model Preprocessing Handle missing value as category dengan implentasi decision tree
22
Gambar 4.2. Hasil decision tree
22
Gambar 4.3. Rule decision tree dengan implentasi handle missing value category
23
Gambar 4.4. Model Preprocessing handle missing value as category dengan implementasi random tree
24
Gambar 4.5. Hasil random tree implentasi handle missing value as category
24
Gambar 4.6. Rule random tree dengan implementasi handle missing value as category
25
Gambar 4.7. Model 1 preprocessing handle missing value as category dengan implementasi random forest
26
Gambar 4.8. Model 1 handle missing value as category dengan implementasi random forest
26
Gambar 4.9. Teks model 1 rule random forest dengan implentasi handle missing value as category
27
Gambar 4.10. Model 2 handle missing value as category dengan implementasi random forest
27
Gambar 4.11. Teks model 2 rule random forest dengan implementasi handle missing value as category
28
Gambar 4.12. Model 3 handle missing value as category dengan implementasi random forest
28
Gambar 4.13. Teks model 3 rule random forest dengan implementasi handle missing value as category
29
Universitas Sumatera Utara
Gambar 4.14. Model 4 handle missing value as category dengan implementasi random forest
29
Gambar 4.15. Teks Model 4 rule random forest dengan implementasi handle missing value as category
30
Gambar 4.16. Model 5 handle missing value as category dengan implementasi random forest
30
Gambar 4.17. Teks Model 5 rule random forest dengan implementasi handle missing value as category
31
Gambar 4.18. Model 6 handle missing value as category dengan implementasi random forest
32
Gambar 4.19. Teks model 6 rule random forest dengan implementasi handle missing value category
33
Gambar 4.20. Model 7 handle missing value as category dengan implementasi random forest
33
Gambar 4.21. Teks Model 7 rule random forest dengan implementasi handle missing value as category
34
Gambar 4.22. Model 8 handle missing value as category dengan implementasi random forest
35
Gambar 4.23. Teks Model 8 rule random forest dengan implementasi handle missing value as category
35
Gambar 4.24. Model 9 handle missing value as category dengan implementasi random forest
36
Gambar 4.25. Teks Model 9 rule random forest dengan implementasi hiandle missing value as category
37
Gambar 4.26. Model 10 handle missing value as category dengan implementasi random forest
37
Gambar 4.27. Teks Model 10 rule random forest dengan implementasi handle missing value as category
38
Gambar 4.28. Model preprocessingnya missing value replenishment dengan implementasi decission tree
39
Universitas Sumatera Utara
Gambar 4.29. Hasil decission tree implementasi missing value replenishment
39
Gambar 4.30. Rule decision tree dengan implementasi missing value replenishment
40
Gambar 4.31. Model Preprocessing missing value replenishment dengan implementasi random tree
41
Gambar 4.32. Hasil random tree implementasi missing value replenishment
41
Gambar 4.33. Rule random tree dengan implementasi missing value replenishment
42
Gambar 4.34. Model Preprocessingnya Missing value replenisment dengan implementasi random tree
43
Gambar 4.35. Model 1 Missing value replenishment dengan implementasi random forest
43
Gambar 4.36. Teks Model 1 rule random forest dengan implementasi missing value replenishment
44
Gambar 4.37. Model 2 Missing value replenishment dengan implementasi random forest
44
Gambar 4.38. Teks Model 2 rule random forest dengan implementasi missing value replenishment
45
Gambar 4.39. Model 3 Missing value replenishment dengan implementasi random forest
46
Gambar 4.40. Teks Model 3 rule random forest dengan implementasi missing value replenishment
47
Gambar 4.41. Model 4 Missing value replenishment dengan implementasi random forest
47
Gambar 4.42. Teks Model 4 rule random forest dengan implementasi missing value replenishment
48
Gambar 4.43. Model 5 Missing value replenishment dengan implementasi random forest
48
Universitas Sumatera Utara
Gambar 4.44. Teks Model 5 rule random forest dengan implementasi missing value replenishment
49
Gambar 4.45. Model 6 Missing value replenishment dengan implementasi random forest
49
Gambar 4.46. Teks Model 6 rule random forest dengan implementasi missing value replenishment
50
Gambar 4.47. Model 7 Missing value replenishment dengan implementasi random forest
51
Gambar 4.48. Teks Model 7 rule random forest dengan implementasi missing value replenishment
51
Gambar 4.49. Model 8 Missing value replenishment dengan implementasi random forest
52
Gambar 4.50. Teks Model 8 rule random forest dengan implementasi missing value replenishment
53
Gambar 4.51. Model 9 Missing value replenishment dengan implementasi random forest
53
Gambar 4.52. Teks Model 9 rule random forest dengan implementasi missing value replenishment
54
Gambar 4.53. Model 10 Missing value replenishment dengan implementasi random forest
54
Gambar 4.54. Teks Model 10 rule random forest dengan implementasi missing value replenishment
55
Universitas Sumatera Utara