DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE
SKRIPSI
MARSHA AYUDIA 111402104
PROGRAM STUDI S1 TEKNOLOGI INFORMASI FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2016
Universitas Sumatera Utara
iv
PERSETUJUAN
Judul
: DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE
Kategori
: SKRIPSI
Nama
: MARSHA AYUDIA
Nomor Induk Mahasiswa
: 111402104
Program Studi
: SARJANA (S1) TEKNOLOGI INFORMASI
Departemen
: TEKNOLOGI INFORMASI
Fakultas
:
ILMU
KOMPUTER
DAN
TEKNOLOGI
INFORMASI Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Romi Fadillah Rahmat, B.Comp.Sc., M.Sc
Dr. Erna Budhiarti Nababan, M.Sc, IT
NIP. 19860303 201012 1004
NIP. –
Diketahui/disetujui oleh Program Studi S1 Teknologi Informasi Ketua,
Muhammad Anggia Muchtar, ST., MM.IT NIP. 198001102008011010
Universitas Sumatera Utara
iii
PERNYATAAN
DATA CLEANING PADA DATA DUPLIKAT MENGGUNAKAN LEVEINSTHEIN DISTANCE
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Oktober 2016
MARSHA AYUDIA 111402104
Universitas Sumatera Utara
iv
UCAPAN TERIMA KASIH
Puji dan syukur kehadirat Allah SWT, karena rahmat dan izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk memperoleh gelar Sarjana Komputer, pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
Ucapan terima kasih penulis sampaikan kepada:
1.
Bapak Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera Utara
2.
Bapak Prof. Dr. Opim Salim Sitompul, M.Sc selaku Dekan Fasilkom-TI USU
3.
Bapak Muhammad Anggia Muchtar, ST., MM.IT selaku Ketua Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.
4.
Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembimbing I yang telah memberikan bimbingan dan saran kepada penulis.
5.
Bapak Romi Fadhillah Rahmat, ST., M.Sc selaku Dosen Pembimbing II yang telah memberikan bimbingan dan saran kepada penulis.
6.
Bapak Dani Gunawan ST., M.T selaku Dosen Pembanding I yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
7.
Ibu Amalia ST., M.T selaku Dosen Pembanding II yang telah memberikan kritik dan saran dalam penyempurnaan skripsi ini.
8.
Seluruh Dosen dan Pegawai Program Studi S1 Teknologi Informasi Universitas Sumatera Utara
9.
Ayahanda Ir.Dasmen Nazar M.M dan Ibunda drg.Nelmi Jamali yang selalu memberikan doa, kasih sayang dan dukungan kepada penulis.
10. Adik penulis Febbyola Ramanda, S.Ked., dan Sherly Fratista yang selalu mendukung dan mendoakan penulis.
Universitas Sumatera Utara
v
11. Kerabat dekat Bapak Fajar, Ibu Liliana Sari, Ibu dr. Zarni Jamali, Ibu Cici Siska Yani, Ibu Yunizam, drg.Vanazia Rizka Anggarini, Ayu Wahyuni dan Bapak Sony yang selalu memberikan doa, dan dukungan kepada penulis 12. Teman – teman wacana skripsi, Ade Oktariani, Fahrunissa Khairani, Mewati Panjaitan, Karina Ginting, Chairunnisaq, Rauva Chairani, Nabila Pindya dan Abbas Munandar yang telah memberikan dukungan dan bantuan kepada penulis. 13. Teman seangkatan Wulandari Taringan, Anwar Pasaribu, Nurul Fatihah, Ruri Dwi Pari, Tiffany Zatalini, Vanesa Felicia, Para senior Teknologi Informasi Indra Aulia, Rini Jannati, Silvi Ou, Handra Akira Saito, dan Andean Arippa yang telah memberikan nasehat dan pengetahuan kepada penulis. 14. Devina Monica, Jessica Putri, Nur Endah Safitri, Farah Nurul Huda yang selalu memberikan semangat dan motivasi kepada penulis. 15. Semua pihak yang terlibat langsung ataupun tidak langsung yang tidak dapat penulis ucapkan satu per satu yang telah membantu penyelesaian skripsi ini.
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan
bantuan,
perhatian,
serta
dukungan
kepada
penulis
dalam
menyelesaikan skripsi ini.
Medan, Oktober 2016
Penulis
Universitas Sumatera Utara
vi
ABSTRAK
Data cleaning merupakan salah satu tahap pada data mining. Data cleaning biasa disebut dengan data cleansing atau scrubbing. Proses data cleaning dilakukan untuk menghilangkan kesalahan informasi pada data. Data cleaning dapat dilakukan dengan satu sumber atau beberapa sumber data. Salah satu permasalahan kesalahan pada data dari satu sumber data adalah data duplikat. Data cleaning dapat dilakukan pada data duplikat untuk mendapatkan data yang berkualitas baik. Kualitas data yang baik dapat diketahui dengan adanya informasi yang benar pada data tanpa adanya data duplikat. Namun pembersihan data yang dilakukan secara manual membutuhkan ketelitian dan menghabiskan banyak waktu karena jumlah data yang besar. Penelitian ini mengidentifikasi data duplikat dalam proses cleaning data duplikat pada data identitas. Proses identifikasi data duplikat menggunakan metode leveinsthein distance untuk mengidentifikasi kemiripan jarak antara dua string pada data. Dalam penelitian ini menggunakan 3023 data dengan tingkat akurasi yang diperoleh mencapai 95%.
Kata Kunci : data duplikat, leveinsthein distance, data cleaning, data mining.
Universitas Sumatera Utara
vii
DATA CLEANING ON DUPLICATE DATA WITH LEVEINSTHEIN DISTANCE METHOD
ABSTRACT
Data cleaning is one of the phases in data mining. Data cleaning is often called as data cleansing or data scrubbing. The process of data cleaning is aimed at removing the false information in the data. Data cleaning can be performed by one or several data resources. One of the common problems in data is duplicate data. Data cleaning can be used to remove duplicate data in order to get good quality of data. Quality of data can be seen from the availability of the right information without the existence of duplicate data. Unfortunately, data cleaning which is often performed manually needs thoroughness and spends a lot of time due to the size of the data. This research is to identify duplicate data existed in data cleaning from identity data. The identification process of duplicate data using leveinsthein distance has the purpose to identify the similarity of both string’s distance in data. This research was using 3023 data with 95% of accuracy rate.
Keywords: data mining, duplicate data, levenshtein distance, data cleaning.
Universitas Sumatera Utara
viii
DAFTAR ISI
Hal.
PERSETUJUAN
ii
PERNYATAAN
iii
UCAPAN TERIMA KASIH
iv
ABSTRAK
vi
ABSTRACT
vii
DAFTAR ISI
viii
DAFTAR GAMBAR
xi
DAFTAR TABEL
xii
BAB 1 PENDAHULUAN 1.1
Latar Belakang
1
1.2
Rumusan Masalah
2
1.3
Batasan Masalah
3
1.4
Tujuan Penelitian
3
1.5
Manfaat Penelitian
3
1.6
Metodologi Penelitian
4
1.7
Sistematika Penulisan
5
BAB 2 LANDASAN TEORI 2.1
Data Mining
6
2.2
Data Cleaning
8
2.3
Data Duplikat
9
2.4
Pre-Processing
9
2.5
Multi-pass Neighborhood
10
2.6
N-gram
11
Universitas Sumatera Utara
2.7
Jaccard
11
2.8
Approximate String Matching
11
2.8. 1 Leveisthein Distance
12
Transitive Closure
13
2.9
2.10 Penelitian Terdahulu
13
BAB 3 ANALISI DAN PERANCANGAN 3.1
Data Yang Digunakan
17
3.2
Analisis Sistem
18
3.2.1
Input Data
19
3.2.2
Pre-Processing
20
3.2.3
Prmbentukan Key
20
3.2.4
Pengurutan Data pada Key
22
3.2.5
Pemisahan string pada Key
22
3.2.7
Pengukuran Kesamaan pada Key
23
3.2.8
Pengukuran Kesamaan Data Tiap Kolom pada Data
24
3.2.9
Pembacaan Data Duplikat pada Suatu Window
25
3.3
3.4
Perancangan Sistem
25
3.3.1
Analisis Pengguna
25
3.3.2
Diagram Use Case
25
3.3.3
Deskripsi Use Case
26
3.3.4
Activity Diagram
26
Perancangan Antarmuka
29
3.4.1
Rancangan Tampilan Halaman Utama
29
3.4.2
Rancangan Tampilan Halaman Proses
29
BAB 4 IMPLEMENTASI DAN PENGUJIAN 4.1
4.2
Kebutuhan Aplikasi
32
4.1.1
Perangkat Keras
32
4.1.2
Perangkat Lunak
32
Implementasi Perancangan Antarmuka
33
4.2.1
33
Halaman Utama
Universitas Sumatera Utara
33
4.2.2 4.3
Halaman Proses
Pengujian Sistem
33 37
BAB 5 KESIMPULAN DAN SARAN 5.1
Kesimpulan
41
5.2
Saran
42
DAFTAR PUSTAKA
43
Universitas Sumatera Utara
DAFTAR GAMBAR
Hal. Gambar 2.1. Tahap pada Knowledge Discovery Database
6
Gambar 2.2. Gambar Tabel Data Yang Terdapat Duplikat
9
Gambar 2.3. Gambar Tabel Data Dan Key
10
Gambar 2.4. Window Pada Tahap Merge
11
Gambar 3.1. Penggunaan Data
17
Gambar 3.2. Arsitektur Umum
19
Gambar 3.3. Gambar Data Setelah Preprocessing
21
Gambar 3.4. Gambar Data Hasil Pembentukan Key 1, Key 2, Key 3
21
Gambar 3.5. Gambar Data Hasil Ascending
22
Gambar 3.6. Gambar Data Hasil N-Gram
22
Gambar 3.7. Gambar Data Hasil Jaccard
23
Gambar 3.8. Gambar Data Hasil Leveinsthein Distance
24
Gambar 3.9. Use Case sistem
26
Gambar 3.10. Activity Diagram Melihat Form Utama
27
Gambar 3.11. Activity Diagram Halaman Data Cleaning
27
Gambar 3.12. Activity Diagram Proses Data Cleaning
28
Gambar 3.14. Rancangan Tampilan Halaman Utama
29
Gambar 3.15. Rancangan Tampilan Proses
30
Gambar 4.1. Tampilan Halaman Utama
33
Gambar 4.2. Tampilan Halaman Proses
34
Gambar 4.3. Tampilan File Location
34
Gambar 4.4. Tampilan Pop-up pada saat tombol browse di klik
35
Gambar 4.5. Tampilan Setelah Tombol Proses Diklik
35
Gambar 4.6. Tampilan Proses Data Cleaning
36
Gambar 4.7. Tampilan Hasil Output Data Duplikat
36
Universitas Sumatera Utara
DAFTAR TABEL
Hal. Tabel 2.1.
Peneliti Terdahulu
14
Tabel 3.1.
Deskripsi Use Case Data Cleaning
26
Tabel 4.1.
Tabel Data
37
Tabel 4.2.
Tabel Hasil Data duplikat
38
Tabel 4.3.
Tabel Pengujian
39
Tabel 4.4.
Tabel Hasil Pengujian
39
Universitas Sumatera Utara