Manajemen Data
Dosen Nama NIM
: Dr. Yan Rianto Rini Wijayanti, M.Kom : Yoga Prihastomo : 1011601026
MAGISTER ILMU KOMPUTER
UNIVERSITAS BUDI LUHUR 2011
DIT TI / DJHKI SKPL-DJHKI-01.04.2011.xx Halaman 0 dari 33 Dokumen ini dan informasi yang dimilikinya adalah milik Direktorat TI untuk DJHKI dan bersifat rahasia. Dilarang mereproduksi dokumen ini tanpa diketahui Direktorat TI DJHKI. Sebagian data pada dokumen ini merupakan asumsi.
1. Apa yang dimaksud dengan data mining dan jelaskan peran data mining dalam proses pengambilan keputusan? Jawab: Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data yang berbentuk tabulasi, seperti yang banyak diimplementasi-kan dalam teknologi manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis teks, dan multimedia (citra). Data mining menggunakan pendekatan discovery-based dimana pencocokan pola (pattern-matching) dan algoritma-algoritma yang lain digunakan untuk menentukan relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen baru pada arsitektur sistem pendukung keputusan (DSS-Decision Support System) di perusahaan. Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Pada dasarnya penggalian data dibedakan menjadi dua fungsionalitas, yaitu deskripsi dan prediksi. Berikut ini beberapa fungsionalitas penggalian data yang sering digunakan: Karakterisasi dan Diskriminasi Penggalian pola berulang Klasifikasi Prediksi Penggugusan/Cluster analysis Analisis outlier Analisis trend dan evolusi Jika ditinjau dari fungsionalitas di atas, maka data mining dapat membantu penggunanya dalam proses pengambilan keputusan. Jika dua saja digunakan fungsionalitas di atas yakni prediksi dan analisis trend, maka data mining dengan teknik tertentu akan mengolah berbagai informasi menjadi sebuah hasil yang signifikan untuk membantu proses pengambilan keputusan.
1
2. Proses data mining umumnya didahului dengan preprocessing. Jelaskan minimal 3 tahapan dalam preprocessing tersebut? Jawab: Tahapan tersebut nampak pada gambar berikut:
Ekstraksi. Data-data yang dikumpulkan dalam proses transaksi sering kali ditempatkan pada lokasi yang berbeda-beda. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional, sering kali data tersebut diupload ke sebuah server yang lebih terpusat. Hal ini dapat dilakukan secara harian, mingguan, atau bulanan tergantung jumlah data, keamanan dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat. Seleksi & Pembersihan. Proses pembersihan data, dimana informasi yg tidak dibutuhkan dibuang. Data dikonfigurasi ulang untuk memastikan format yg konsisten krn berasal dari berbagai sumber. Data-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan. Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan attributattribut, merasionalisasi struktur data, dan mengendalikan data yang hilang. Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan data juga dapat membantu perusahaan untuk mengkonsolidasikan record. Hal ini sangat berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang pelanggan. Setiap record atau file
2
pelanggan mempunyai nomor pelanggan yang sama, tetapi informasi dalam tiap filenya berbeda. Transformasi. Transformasi data adalah melakukan peringkasan data dengan mengasumsikan bahwa data telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah diekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat penyimpanan tunggal. Fungsi-fungsi agregate yang sering digunakan antara lain: summarizations, averages, minimum, maximum, dan count. 3. Dalam transaksi pembelian tercatat beberapa transaksi berikut ini: Trans_ID
Customer_ID
Date
111 111 111 112 112 112 113 113 113 114 114 114 114 114
201 201 201 105 105 105 106 106 106 201 201 201 201 201
05/01/2002 05/01/2002 05/01/2002 06/03/2002 06/03/2002 06/03/2002 05/10/2002 05/10/2002 05/10/2002 06/01/2002 06/01/2002 06/01/2002 06/01/2002 06/01/2002
Item Ink Milk Juice Pen Ink Water Pen Water Milk Pen Ink Juice Water Milk
Berdasarkan data tersebut, carilah aturan asosiasi yang terbentuk jika diberikan minimum support 60% dan minimum confidence 90% Jawab: Rumus confidence adalah sebagai berikut: Confidence = Support (X U Y) Support (X)
3
Trans_ID
Customer_ID Date
111 112 113 114
201 105 106 201
Item
05/01/2002 06/03/2002 05/10/2002 06/01/2002
Ink, Milk, Juice Pen, Ink, Water Pen, Water, Milk Pen, Ink, Juice, Water, Milk
L-1 Candidate -1 Item
Jumlah
Support
3 3 1 3 3
3/4 3/4 1/4 3/4 3/4
Ink Milk Juice Pen Water
Keterangan Memenuhi Memenuhi Tdk Memenuhi Memenuhi Memenuhi
L-2 {Ink, Milk, Pen, Water} Candidate -2 Item {Ink, Milk} {Ink, Pen} {Ink, Water} {Milk, Pen} {Milk, Water} {Pen, Water}
Jumlah
Support
2 2 2 2 2 3
2/4 2/4 2/4 2/4 2/4 3/4
Keterangan Tdk Memenuhi Tdk Memenuhi Tdk Memenuhi Tdk Memenuhi Tdk Memenuhi Memenuhi
L-3 Candidate - 3 Item = L-3 = Ǿ ITEM
PERSENTASE
Keterangan
L = {Pen, Water} L = {Water, Pen}
(3/4) : (3/4) = 1 = 100 % (3/4) : (3/4) = 1 = 100%
Memenuhi Memenuhi
Kesimpulan Confidence >= 90 % Pen Water Water Pen
4
4. Dengan menggunakan rapidminer, buatlah 3 cluster untuk data dibawah ini dan jelaskan hasilnya (setiap cluster ada berapa item dan item-item tersebut masuk ke cluster mana) X1
X2
10 20 30 30 5 15 10 30 20
5 20 10 15 10 20 20 20 5
Jawab: Spesifikasi: Rapidminer
: 5.1
External data
: Excel
Clustering
: k-Means
Cluster (k)
: 3
Hasil yang didapatkan setelah me-run rapid miner adalah:
5
Cluster Model: Cluster 0: 3 items Cluster 1: 3 items Cluster 2: 3 items Total number of items: 9
6
5. Buatlah tree untuk mendeteksi penyakit jantung berdasarkan data dibawah ini: Usia
Jenis Kelamin
Merokok
Olah Raga
Jantung
Tua Tua Muda Tua Muda Muda Tua Muda Tua Muda Tua Muda Tua Muda
Pria Pria Pria Pria Wanita Pria Wanita Pria Pria Pria Pria Pria Pria Pria
Tidak Ya Ya Tidak Tidak Tidak Tidak Ya Ya Ya Ya Tidak Tidak Ya
Ya Ya Tidak Tidak Tidak Ya Tidak Tidak Tidak Ya Tidak Tidak Ya Tidak
Tidak Tidak Tidak Tidak Ya Tidak Ya Tidak Tidak Ya Tidak Tidak Tidak Tidak
Jawab: Usia Tua Tua Muda Muda
Jantung
Jumlah
Ya Tidak Ya Tidak Total
1 6 2 5 14
Usia = Tua Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 Usia = Muda Q2= –2/7 Log2(2/7) – 5/7 Log2(5/7) = 0.86 Entropy untuk Usia E= 7/14(0.59) + 7/14(0.86) = 0.73
Jenis Kelamin
Jantung
Pria Pria Wanita Wanita
Ya Tidak Ya Tidak Total
Jumlah 1 11 2 0 14
7
Jenis Kelamin = Pria Q1= –1/12 Log2(1/12) – 11/12 Log2(11/12) = 0.41 Jenis Kelamin = Wanita Q2= –2/2 Log2(2/2) – 0/2 Log2(0/2) = 0 Entropy untuk Jenis Kelamin E= 12/14(0.41) + 2/14(0) = 0.50
Merokok
Jantung
Ya Ya Tidak Tidak
Ya Tidak Ya Tidak Total
Jumlah 1 6 2 5 14
Merokok = YA Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 Merokok = TIDAK Q2= –2/7 Log2(2/7) – 5/7 Log2(5/7) = 0.86 Entropy untuk Merokok E= 7/14(0.59) + 7/14(0.86) = 0.73
Olah Raga
Jantung
Ya Ya Tidak Tidak
Ya Tidak Ya Tidak Total
Jumlah 1 4 2 7 14
Olah Raga = YA Q1= –1/5 Log2(1/5) – 4/5 Log2(4/5) = 0.72 Olah Raga = TIDAK Q2= –2/9 Log2(2/9) – 7/9 Log2(7/9) = 0.76 Entropy untuk Olah Raga E= 5/14(0.72) + 9/14(0.76) = 0.75
8
Penentuan leaf node untuk jenis kelamin Pria Usia
Jenis Kelamin
Merokok
Olah Raga
Jantung
Tua Tua Muda Tua Muda Muda Tua Muda Tua Muda Tua Muda
Pria Pria Pria Pria Pria Pria Pria Pria Pria Pria Pria Pria
Tidak Ya Ya Tidak Tidak Ya Ya Ya Ya Tidak Tidak Ya
Ya Ya Tidak Tidak Ya Tidak Tidak Ya Tidak Tidak Ya Tidak
Tidak Tidak Tidak Tidak Tidak Tidak Tidak Ya Tidak Tidak Tidak Tidak
Usia
Jantung
Tua Tua Muda Muda
Ya Tidak Ya Tidak Total
Jumlah 1 6 0 5 12
Usia = Tua Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59 Usia = Muda Q2= –0/5 Log2(0/5) – 5/5 Log2(5/5) = 0 Entropy untuk Usia E= 7/12(0.59) + 5/12(0) = 0.35
Merokok
Jantung
Ya Ya Tidak Tidak
Ya Tidak Ya Tidak Total
Jumlah 1 6 0 5 12
Merokok = YA Q1= –1/7 Log2(1/7) – 6/7 Log2(6/7) = 0.59
9
Merokok = TIDAK Q2= –0/5 Log2(0/5) – 5/5 Log2(5/5) = 0 Entropy untuk Merokok E= 7/12(0.59) + 7/12(0) = 0.35
Merokok
Jantung
Ya Ya Tidak Tidak
Ya Tidak Ya Tidak
Jumlah 1 4 0 7 12
Total Olah Raga = YA
Q1= –1/5 Log2(1/5) – 4/5 Log2(4/5) = 0.72 Olah Raga = TIDAK Q2= –0/7 Log2(0/7) – 7/7 Log2(7/7) = 0 Entropy untuk Olah Raga E= 5/12(0.72) + 7/12(0) = 0.30 Penentuan leaf node untuk olah raga Ya Usia
Jenis Kelamin
Merokok
Olah Raga
Jantung
Tua Tua Muda Muda Tua
Pria Pria Pria Pria Pria
Tidak Ya Tidak Ya Tidak
Ya Ya Ya Ya Ya
Tidak Tidak Tidak Ya Tidak
Usia
Jantung
Tua Tua Muda Muda
Ya Tidak Ya Tidak Total
Jumlah 0 3 1 1 5
Usia = Tua Q1= –0/3 Log2(0/3) – 3/3 Log2(3/3) = 0
10
Usia = Muda Q2= –1/2 Log2(1/2) – 1/2 Log2(1/2) = 1 Entropy untuk Usia E= 3/5(0) + 2/5(1) = 0.40
Merokok
Jantung
Ya Ya Tidak Tidak
Ya Tidak Ya Tidak
Jumlah
Total
1 1 0 3 5
Merokok = YA Q1= –1/2 Log2(1/2) – 1/2 Log2(1/2) = 1 Merokok = TIDAK Q2= –0/3 Log2(0/3) – 3/3 Log2(3/3) = 0 Entropy untuk Merokok E= 2/5(1) + 3/5(0) = 0.40 Pada kondisi merokok terdapat 1 data menyatakan YA R1= IF Jenis Kelamin = Wanita THEN Jantung = YA R2 = IF Jenis Kelamin = Pria ^ Olah Raga = Tidak THEN Jantung = TIDAK R3 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Tua THEN Jantung = Tidak R4 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Muda ^ Merokok = TIDAK THEN Jantung = Tidak R5 = IF Jenis Kelamin = Pria ^ Olah Raga = YA ^ Usia = Muda ^ Merokok = YA THEN Jantung = YA
11
Tree yang dihasilkan adalah sebagai berikut:
Jenis Kelamin
Pria
Wanita
Olah Raga
Ya
Ya
Tidak
Usia
Muda
Tidak
Tua
Merokok
Ya
Tidak
Tidak
12