BAB 2
LANDASAN TEORI
2.1 Penambangan Data (Data Mining)
Pengertian data mining, berdasarkan beberapa orang: 1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau informasi yang berguna dari data berskala besar. Sering juga disebut segabai bagian proses KDD (Knowledge Discovery in Databases) (Santosa, 2007). 2. Data mining adalah bagian dari proses KDD yang terdiri dari beberapa tahapan seperti pemilihan data, pra-pengolahan, transformasi, data mining, dan interpretasi hasil (Sitompul, 2008). 3. Data mining adalah proses menemukan korelasi-korelasi penuh arti, pola-pola dan trend dengan penyaringan melalui sejumlah data yang besar pada tempat penyimpanan, dan menggunakan teknologi pengenalan pola seperti yang terdapat pada teknik-teknik di statistika dan matematika (Larose, 2005). 4. Data mining adalah mengenai pemecahan masalah dengan menganalisa data yang ada di dalam database dan sering juga didefinisikan sebagai proses menemukan pola dalam data, dimana proses tersebut harus otomatis atau semi-otomatis dan pola yang ditemukan harus bermakna (Chakrabarti, et al., 2009). 5. Data mining adalah ilmu pengetahuan dan teknologi mengeksplorasi data untuk menemukan pola yang sebelumnya tidak diketahui, merupakan bagian dari proses KDD (Lior, et al., 2008). 6. Data mining adalah penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar (Davies, et al., 2004). 7. Data mining adalah kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau
Universitas Sumatera Utara
7
penyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu β ilmu lain, seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spatial data analysis, image database, signal processing (Han, et al., 2006). 8. Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar (Witten, et al., 2005). . Karakteristik data mining sebagai berikut: a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya. b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih percaya. c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategis (Davies, et al., 2004).
2.1.1
Tahap-tahap Penambangan Data(Data mining)
Data mining dipahami sebagai suatu proses, yang memiliki tahapan-tahapan tertentu yang bersifat interaktif dan juga ada umpan balik dari setiap tahapan sebelumnya (Kusnawi, 2007). Adapun tahapan tersbut dapat dilihat pada gambar 2.1.
Universitas Sumatera Utara
8
Evaluation and Presentation
Data Mining
1
2
3
4
Knowladge
5
Pattern
Selection and Transformation
Data warehouse Cleaning and Integration
Database Flat Files
Gambar 2.1 Tahap-tahap penambangan data. (Han, et al., 2006) Tahap β tahap tersebut, bersifat interaktif dimana pemakai terlibat langsung atau dengan perantaraan knowledge base.
1. Pembersihan data Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
Universitas Sumatera Utara
9
2. Integrasi data Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.
3. Seleksi data Data yang ada pada database sering kali tidak semuanya dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.
4. Transformasi data Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data.
5. Proses mining Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.
Universitas Sumatera Utara
10
6. Presentasi pengetahuan Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
2.2 Decision Tree
Decision tree adalah teknik model prediksi yang digunakan pada klasifiksi, clustering, dan prediksi tugas. Decision tree menggunakan teknik βmembagi dan menaklukkanβ untuk membagi ruang pencarian masalah menjadi himpunan masalah. (Dunham, 2003).
Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node (Yusuf, 2007).
Decision tree adalah sturktur flowchart yang menyerupai tree (pohon), dimana setiap simpul internal menandakan suatu tes pada atribut, dimana setiap cabang merepresentasikan hasil tes, dan simpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri dari simpul akar ke simpul daun yang memegang prediksi kelas (Kusnawi, 2007).
Universitas Sumatera Utara
11
2.3 Algoritma C5.0
C5.0 adalah versi komersial dari C4.5 yang secara luas digunakan di banyak pemaketan data mining seperti Clementine and RuleQuest. Tidak seperti C4.5, penggunaan algoritma yang tepat untuk C5.0 belum terungkap. Hasil menunjukkan bahwa C5.0 meningkatkan pada penggunaaan memori sekitar 90%, lebih cepat daripada C4.5. (Dunham, 2003)
Algoritma C5.0 adalah salah satu algortitma klasifikasi data mining yang khususnya diterapkan pada teknik decision tree. C5.0 merupakan penyempurnaan algoritma sebelumnya yang dibentuk oleh Ross Quinlan pada tahun 1987, yaitu ID3 dan C4.5. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain. Dalam memilih atribut untuk pemecah obyek dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain paling besar. Atribut dengan nilai information gain tertinggi akan dipilih sebagai parent bagi node selanjutnya. Formula untuk information gain adalah (Kantardzic, 2003): π
πΌ π1, π2 , β¦ . , ππ = β
ππ β log 2 ππ ................................................. 1 π=1
Ket :
S
= himpunan kasus
S1
= jumlah sampel
Pi
= proporsi kelas
Untuk mendapatkan informasi nilai subset dari atribut A tersebut maka digunakan formula dibawah ini : πΈ π΄ = Ket :
π1π +β―+πππ π
π¦ π1π + β¦ +πππ π =1 π
πΌ π1π , β¦ πππ ................................................. 2
= jumlah subset j yang dibagi dengan jumlah sampel S
Untuk mendapatkan nnilai gain selanjutnya digunakan formula dibawah ini :
Ket :
πΊπππ π΄ = πΌ π1 , π2 , β¦ , ππ β E ................................................. 3 A = atribut S
= himpunan kasus
S1
= jumlah sampel
Universitas Sumatera Utara
12
2.4 Penelitian yang Berkaitan
Penelitian yang telah dilakukan oleh Lobban (2008) pada program Ilmu Komputer di California State University, Chico, dari hasil penelitian tersebut hanya dapat memprediksi 75% tingkat keakuratannya, dimana atribut tambahan mengenai Ilmu Komputer dan kelas khusus yang telah diambil mahasiswa akan meningkatkan akurasi prediksi prestasi akademik.
Ogor (2007) juga telah melakukan penelitian mengenai Student Academic Performance Monitoring And Evaluation Using Data Mining Techniques, dimana Ogor membandingkan beberapa algoritma antara lain: C5.0, C&RT, ANN, CHAID.
Dalam penelitian lain
yang dilakukan Bidgoli
(2003), penggunaan
Combination of Multiple Classifiers (CMC) dapat mencapai peningkatan akurasi secara signifikan pada semua kasus 2, 3, dan 9-kelas dan penggunaan Genetic Algorithm (GA) akan meminimalkan tingkat kesalahan akurasi prediksi minimal 10% pada semua kasus 2, 3, dan 9-kelas.
Penelitian yang dilakukan oleh Sajadin (2009) menggunakan J48 decision tree untuk merepresentasikan aturan logika, yang menghasilkan beberapa aturan dan menerapkan multiclass SSVM klasifikasi biner, kemudian menggunakan algoritma Kernel K-Means.
Penggunaan Artificial Neural Network dalam penelitian lain yang dilakukan Oladokun (2008) dapat memprediksi kinerja mahasiswa dengan tingkat keakuratan 70%, dimana dalam penelitian ini dibagi dengan beberapa faktor yang mempengaruhi, antara lain: usia saat masuk kuliah, latar belakang orangtua, jenis dan lokasi sekolah menengah, gender, dan lainnya.
Universitas Sumatera Utara