BAB II TINJAUAN PUSTAKA
II.1 Data Mining Data mining merupakan teknologi yang menggabungkan metoda analisis tradisional dengan algoritma yang canggih untuk memproses data dengan volume besar. Data mining adalah suatu istilah yang digunakan untuk menemukan pengetahuan yang tersembunyi di dalamdatabase.Data mining merupakan proses semi otomatik yang menggunakan teknik statistik, matematika, kecerdasanbuatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi pengetahuan potensial dan berguna yang bermanfaat yang tersimpan di dalam database besar. (Turban et al, 2005 ). Beberapa definisi awal dari data mining meyertakan focus pada proses otomatisasi. Berry danLinoff, (2004) dalam buku Data Mining Technique for Marketing, Sales, and Customer Support mendefinisikan data mining sebagai suatu proses eksplorasi dan analisis secara otomatis maupun semi otomatis terhadap data dalam jumlah besar dengan tujuan menemukan pola atau aturan yang berarti (Larose, 2006). Analisis yang diotomatisasi yang dilakukanoleh data mining melebihi yang dilakukan oleh sistem pendukung keputusan tradisional yang sudah banyak digunakan. Data Mining dapat menjawab pertanyaan-pertanyaan bisnis yang dengan caratradisional memerlukan banyak waktu dan cost tinggi. Data Mining mengeksplorasi basis datauntuk menemukan pola-pola yang tersembunyi, mencari informasi untuk memprediksi yangmungkin saja terlupakan oleh para pelaku bisnis karena terletak di luar ekspektasi mereka. Perkembangan
yang
cepat
dalam
teknologi
pengumpulan
dan
penyimpanan data telah memudahkan organisasi untuk mengumpulkan sejumlah data berukuran besar, sehingga menghasilkan gunung data. Data Maining adalah proses pencarian secara otomatis informasi yang berguna dalam tempat
Universitas Sumatera Utara
penyimpanan data berukuran besar. Istilah lain yang sering digunakan diantaranya knowledge discovery (mining) indatabases (KDD). Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining.
II.2 Pengertian Teknik Data Mining Ada beberapa definisi dari data mining yang dikenal diiantaranya adalah : 1. Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. 2. Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya 3. Data mining atau Knowledge Discovery in Databases (KDD) adalah pengambilan informasi yang tersembunyi, dimana informasi tersebut sebelumnya tidak dikenal dan berpotensibermanfaat. Proses ini meliputi sejumlah pendekatan teknis yang
berbeda,
seperti
clustering,
data
summarization,
learning
classification rules.
Teknik Data Maining digunakan untuk memeriksa basis data berukuran besar sebagai cara untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian informasi dinyatakan sebagai Data Maining. Sebagai contoh, pencarian record individual menggunakan database management system atau pencarian web tertentu melalui query kesemua searce engine adalah pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval. Teknikteknik data maining dapat digunakan untuk meningkatkan kemampuan sistemsistem information retrieval.
Universitas Sumatera Utara
II.2.1 Teknik Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidak diketahui secara manual. Perlu diingat bahwa katamining sendiri berarti usaha untuk mendapatkan sedikit data berharga dari sejumlah besar datadasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu sepertikecerdasan buatan (artificial intelligent), machine learning, statistik dan basisdata. Beberapa teknikyang sering disebut-sebut dalam literatur data mining antara lain yaitu association rule mining,clustering, klasifikasi, neural network, genetic algorithm dan lain-lain. Model maupun hasil analisanya, salah satunya dengan kemampuan pembelajaran yang dimiliki beberapa teknik data mining seperti klasifikasi.Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulandata berupa pengetahuan yang selama ini tidak diketahui secara manual. Perlu diingat bahwa katamining sendiri berarti usaha untuk mendapatkan sedikit data berharga dari sejumlah besar datadasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu sepertikecerdasan buatan (artificial intelligent), machine learning, statistik dan basisdata. Beberapa teknikyang sering disebut-sebut dalam literatur data mining antara lain yaitu association rule mining,clustering, klasifikasi, neural network, genetic algorithm dan lain-lain.
A. Classification Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telahdidefinisikan.Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi datayang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlahaturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik inimenggunkan supervised induction, yang memanfaatkan kumpulan pengujian dari record yangterklasifikasi untuk menentukan kelas-kelas tambahan. Salah satu contoh yang mudah dan populeradalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling populer karena mudahuntuk diinterpretasi. Decision tree adalah model
Universitas Sumatera Utara
prediksi menggunakan struktur pohon atau strukturberhirarki.Decision tree adalah struktur flowchart yang menyerupai tree (pohon), dimana setiapsimpul internal menandakan suatu tes pada atribut, setiap cabang merepresentasikan hasil tes, dansimpul daun merepresentasikan kelas atau distribusi kelas. Alur pada decision tree di telusuri darisimpul akar ke simpul daun yang memegang prediksikelas untuk contoh tersebut. Decision tree mudah untuk dikonversi ke aturan klasifikasi(classification rules)
Gambar 2.1 Contoh decision tree
B. Association
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimanalink asosiasi muncul pada setiap kejadian. Contoh dari aturan assosiatif dari analisa pembelian disuatu pasar swalayan adalah bisa diketahui berapa besar kemungkinan seorang pelanggan membeliroti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengaturpenempatan barangnya atau merancang kampanye pemasaran dengan memakai kupon diskon
Universitas Sumatera Utara
untukkombinasi barang tertentu.Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, supportyaitu prosentasi kombinasi atribut tersebut dalam basisdata dan confidence yaitu kuatnya hubunganantar atribut dalam aturan asosiatif.Motivasi awal pencarian association rule berasal dari keinginanuntuk menganalisa data transaksi supermarket, ditinjau dari perilaku customer dalam membeliproduk. Association rule ini menjelaskan seberapa sering suatu produk dibeli secara bersamaan.Sebagai contoh, association rule “beer =>diaper (80%)” menunjukkan bahwa empat dari limacustomer yang membeli beer juga membeli diaper. Dalam suatu association rule X =>Y, X disebutdengan antecedent dan Y disebut dengan consequent.Rule.
C.
Clustering
Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip denganklasifikasi,
namun
pengelompokkan
belum
didefinisikan
sebelum
dijalankannya tool data mining. Biasanya menggunkan metode neural network atau statistik. Clustering membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining.Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas danmeminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memilikibeberapa atribut yang dipetakan sebagai ruang multidimensi. Ilustrasi dari clustering dapat dilihatdi Gambar 3 dimana lokasi, dinyatakan dengan bidang dua dimensi, dari pelanggan suatu tokodapat dikelompokkan menjadi beberapa cluster dengan pusat cluster ditunjukkan oleh tanda positif(+). Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data,diperlukan juga metoda untuk normalisasi bermacam atribut yang dimiliki data.
Gambar 2.2 : Contoh klasterisasi
Universitas Sumatera Utara
II.3 Definisi Data Mining Kemajuan dalam pengumpulan data dan teknologi penyimpanan yang cepatmemungkinkan organisasi menghimpun jumlah data yang sangat luas. Alat dan teknik analisis datayang tradisional tidak dapat digunakan untuk mengektrak informasi dari data yang sangat besar.Untuk itu diperlukan suatu metoda baru yang dapat menjawab kebutuhan tersebut. Data miningmerupakan teknologi yang menggabungkan metoda analisis tradisional dengan algoritma yangcanggih untuk memproses data dengan volume besar.
II.4 Tahapan Data Mining
Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalahdiperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketikamempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksiataupun keputusan yang bermanfaat.Data mining seharusnya dipahami sebagai suatu proses, yang memiliki tahapantahapantertentu dan juga ada umpan balik dari setiap tahapan ke tahapan sebelumnya. Pada umumnyaproses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidaksesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.
Universitas Sumatera Utara
Gambar 2.3. Tahap-Tahap Data Mining
Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap yangdiilustrasikan di Gambar 1. Tahap-tahap tersebut. bersifat interaktif di mana pemakai terlibatlangsung atau dengan perantaraan knowledge base. 1.
Pembersihan
data,
Digunakan
untuk
membuang
data
yang
tidakkonsisten dan noise 2.
Intergrasi Data, Data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Hasil integrasi data sering diwujudkan dalam sebuah datawarehouse karena dengan data warehouse, data dikonsolidasikan dengan struktur khusus yangefisien. Selain itu data warehouse juga memungkinkan tipe analisa seperti OLAP.
Universitas Sumatera Utara
3.
Transformasi data,Transformasi dan pemilihan data ini untuk menentukan kualitas dari hasil data mining, sehinggadata diubah menjadi bentuk sesuai untuk di-Mining.
4.
Aplikasi Teknik Data Mining,Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining Ada beberapa teknik data mining yang sudah umum dipakai.
5.
Evaluasi pola yang ditemukan,Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksidievaluasi untuk menilai apakah hipotesa yang ada memang tercapai.
6.
Presentasi Pengetahuan,Presentasi pola yang ditemukan untuk menghasilkan aksi tahap terakhir dari proses data miningadalah bagaimana memformulasikan keputusan atau aksi dari hasil analisa yang didapat.
Sesuai yang tercantum dalam buku “Advances in Knowledge Discovery danData mining” terdapat definisi sebagai berikut: Knowledge discovery (data mining) in databases (KDD) adalah keseluruhan proses non-trivial untuk mencari dan mengidentifikasi pola (pattern) dalam data, dimana pola yang ditemukan bersifat sah (valid), baru (novel), dapat bermanfaat (potentially usefull), dapat dimengerti (ultimately understandable)[2].Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbedaakan tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut[2]: 1. Data Selection Pemilihan (seleksi) data dan sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisahdari basis data operasional.
Universitas Sumatera Utara
2. Pre-processing/ Cleaning Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaningpada data yang menjadi focus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).
Juga
dilakukan
proses
enrichment,
yaitu
proses
“memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 3. Transformation Codinga dalah proses transformasipada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data 4. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 5. Interpretation/ Evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation.
Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap-tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ketahap sebelumnya. Sebagai
Universitas Sumatera Utara
contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.
II.5 Arsitektur Sistem Data mining Data mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki komponen-komponen utama yaitu: 1. Basis data, data warehouse atau tempat penyimpanan informasi lainnya. 2. Basis data dan data warehouse server. Komponen ini bertanggung jawab dalam pengambilan relevant data, berdasarkan permintaan pengguna. 3. Basis pengetahuan. Komponen ini merupakan domain knowledge yang digunakan untuk memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut atau nilai atribut ke dalam level abstraksi yang berbeda. Pengetahuan tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari domain knowledge adalah threshold dan metadata yang menjelaskan data dari berbagai sumber yang heterogen. 4. Data mining engine. Bagian ini merupakan komponen penting dalam arsitektur sistem data mining. Komponen ini terdiri modul-modul fungsional data mining seperti karakterisasi, asosiasi, klasifikasi, dan analisis cluster. 5. Modul evaluasi pola. Komponen ini menggunakan ukuran-ukuran kemenarikan dan berinteraksi dengan modul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola dapat menggunakan threshold kemenaikan untuk mem-filter pola-pola yang diperoleh.
Universitas Sumatera Utara
6. Antarmuka pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem data mining. Melalui modul ini, pengguna berinteraksi dengan sistem mengan menentukan kueri atau task data mining. Antarmuka juga menyediakan informasi untuk memfokuskan pencarian dan melakukan eksplorasi data mining berdasarkan hasil data mining antara. Komponen ini juga memungkinkan pengguna untuk mencari (browse) basis data dan skema data warehouse atau struktur data, evaluasi pola yang diperoleh dan visualisasi pola dalam berbagai bentuk.
Data mining dapat diaplikasikan pada berbagai jenis penyimpanan data seperti basis data relational, data warehouse, transactional database, objectoriented and object-relational databases, spatial databases, time-series data and temporal data, text databases and multimedia databases, heterogeneous and legacy databases dan WWW. 1. Basis data Relasional Basis data relasional merupakan koleksi dari table. Setiap table berisi atribut (field) dan biasanya menyimpan sejumlah besar tuple (record). Setiap tuple dalam table relasional merepesentasikan sebuah objek yang diidentifikasikan oleh kunci unik dan dideskripsikan oleh sekumpulan nilai atribut. Data relasional dapat diakses oleh kueri basis data yang ditulis dalam bahasa kueri relasional seperti SQL atau dengan bantuan antarmuka pengguna grafis. 2. Data warehouse Data warehouse merupakan tempat penyimpanan
informasi yang dikumpulkan dari berbagai sumber, disimpan dalam skema yang dipersatukan (unified schema) dan biasanya bertempat pada tempat penyimpanan tunggal. Data warehouse dikonstruksi melalui sebuah proses data cleaning, data transformation, data integration, data loading dan periodic data refreshing. Untuk memfasilitasi proses pembuatan keputusan, data dalam data warehouse diorganisasikan ke dalam subjek utama seperti customer, item,
Universitas Sumatera Utara
supplier atau aktivitas. Data disimpan untuk menyediakan informasi dari perspektif sejarah (seperti 5-10 tahun yang lalu) dan biasanya data tersebut diringkas (summarized). Sebagai contoh, daripada menyimpan data rinci dari transaksi penjualan, data warehouse dapat menyimpan ringkasan dari transaksi per tipe item untuk setiap toko atau diringkas dalam level yang lebih tinggi seperti daerah pemasaran. Data
warehouse
biasanya
dimodelkan
oleh
struktur
basis
data
multidimensional, dimana setiap dimensi berkaitan dengan sebuah atribut atau sekumpulan atribut dalam skema, dan setiap sel menyimpan nilai dari ukuran agregasi seperti count dan sales_amount. Struktur fisik dari data warehouse dapat berupa
penyimpanan
basis
data
relasional
atau
sebuah
kubus
data
multidimensional. Selain data warehouse, terdapat istilah penyimpanan data yang lain yaitu data mart. Sebuah data warehouse mengumpulkan informasi mengenai subjeksubjek yang menjangkau seluruh organisasi, dengan demikian cakupannya enterprise-wide. Sedangkan data mart merupakan sub bagian dari data warehouse. Fokus data mart adalah pada subjek yang dipilih dan dengan demikian cakupannya adalah department-wide. 3. Basis data Transaksional Secara umum, basis data transaksional terdiri dari sebuah file dimana setiap record merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang membuat transaksi (seperti item yang dibeli dalam sebuah took). Basis data transaksi dapat memiliki tabel tambahan, yang mengandung informasi lain berkaitan dengan penjualan seperti tanggal transaksi, customer ID number, ID number dari sales person dan dari kantor cabang (branch) dimana penjualan terjadi.
Universitas Sumatera Utara
II.6 Tugas-tugas dalam Data mining
Tugas-tugas dalam data mining secara umum dibagi ke dalam dua kategori utama: 1. Prediktif. Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai dari atribut-atribut lain. Atribut yang diprediksi umumnya dikenal sebagai target atau variabel tak bebas, sedangkan atribut-atribut yang digunakan untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas. 2. Deskriptif. Tujuan dari tugas deskriptif adalah untuk menurunkan polapola (korelasi, trend, cluster, trayektori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik postprocessing untuk validasi dan penjelasan hasil.
Berikut adalah tugas-tugas dalam data mining: 1. Analisis Asosiasi (Korelasi dan kausalitas) Analisis asosiasi adalah pencarian aturan-aturan asosiasi yang menunjukkan kondisi-kondisi nilai atribut yang sering terjadi bersama-sama dalam sekumpulan data. Analisis asosiasi sering digunakan untuk menganalisa market basket dan data transaksi. Aturan-aturan asosiasi memiliki bentuk X ⇒ Y, bahwa A1 ∧ A2 ∧ … ∧ Am → B1 ∧ B2 ∧ … ∧ Bn, dimana Ai (untuk i = 1, 2, …, m) dan Bj (untuk j = 1, 2, …,
n) adalah pasangan-pasangan nilai atribut. Aturan asosiasi X ⇒ Y
diinterpretasikan sebagai tuple-tuple basis data yang memenuhi kondisikondisi dalam X juga mungkin memenuhi kondisi dalam Y. Contoh dari aturan asosiasi adalah age(X, “20..29”) ^ income(X, “20..29K”) ⇒ buys(X, “PC”) [support = 2%, confidence = 60%]
contains(T, “computer”) ⇒ contains(x, “software”) [1%, 75%]
Universitas Sumatera Utara
Klasifikasi dan Prediksi Klasifikasi adalah proses menemukan model (fungsi) yang menjelaskan dan membedakan kelas-kelas atau konsep, dengan tujuan agar model yang diperoleh dapat digunakan untuk memprediksikan kelas atau objek yang memiliki label kelas tidak diketahui. Model yang turunkan didasarkan pada analisis dari training data (yaitu objek data yang memiliki label kelas yang diketahui). Model yang diturunkan dapat direpresentasikan dalam berbagai bentuk seperti aturan IF-THEN klasifikasi, pohon keputusan, formula matematika atau jaringan syarf tiruan. Dalam banyak kasus, pengguna ingin memprediksikan nilai-nilai data yang tidak tersedia atau hilang (bukan label dari kelas). Dalam kasus ini biasanya nilai data yang akan diprediksi merupakan data numeric. Kasus ini seringkali dirujuk sebagai prediksi. Di samping itu, prediksi lebih menekankan pada identifikasi trend dari distribusi berdasarkan pada data yang tersedia. 1.
Analisis Cluster Tidak seperti klasifikasi dan prediksi, yang menganalisis objek data yang diberi label kelas, clustering menganalisis objek data dimana label kelas tidak diketahui. Clustering dapat digunakan untuk menentukan label kelas tidak diketahui dengan cara mengelompokkan data untuk membentuk kelas baru. Sebabai contoh clustering rumah untuk menemukan
pola
distribusinya.
Prinsip
dalam
clustering
adalah
memaksimumkan kemiripan intra-class dan meminimumkan kemiripan interclass. 2.
Analisis Outlier Outlier merupakan objek data yang tidak mengikuti perilaku umum dari data. Outlier dapat dianggap sebagai noise atau pengecualian. Analisis data outlier dinamakan outlier mining. Teknik ini berguna dalam fraud detection dan rare events analysis.
3.
Analisis Trend dan Evolusi Analisis evolusi data menjelaskan dan memodelkan trend dari objek yang memiliki perilaku yang berubah setiap
Universitas Sumatera Utara
waktu. Teknik ini dapat meliputi karakterisasi, diskriminasi, asosiasi, klasifikasi, atau clustering dari data yang berkaitan dengan waktu. Data mining merupakan bidang interdisplin. Disiplin ilmu ini banyak dipengaruhi oleh disiplin sistem basis data, statistika, ilmu informasi, mesinpembelajaran, dan visualisasi. Sistem data mining dapat diklasifsikasikan berdasarkan beberapa kategori, yaitu :
1. Klasifikasi berdasarkan data yang akan di-mine seperti relational, transactional, object-oriented, object-relational, spatial, time-series, text, multi-media dan www. 2. Klasifikasi berdasarkan pengetahuan yang akan di-mine, yaitu berdasarkan fungsionalitas data mining seperti karakterisasi, diskriminasi, asosiasi, klasifikasi, clustering, analisis outlier dan analisis evolusi. Sistem data mining yang komprehensif biasanya menyediakan beberapa fungsi-fungsi data mining. 3. Klasifikasi berdasarkan teknik yang akan digunakan seperti databaseoriented,
data
warehouse
(OLAP),
machine learning,
Statistics,
Visualization dan neural network. 4. Klasifikasi berdasarkan aplikasi yang diadaptasi, sebagai contoh system data mining untuk keuangan, telekomunikasi, DNA, dan e-mail.
II.7 Pengertian SSVM (Smooth Support Vektor Machine). Support Vector Machine (SVM) pertama kali diperkenalkan oleh Vapnik pada tahun 1992 sebagai rangkaianharmonis konsep-konsep unggulan dalam bidang pattern recognition. Sebagai salah satu metode pattern recognition,usia SVM terbilang masih relatif muda. Walaupun demikian, evaluasi kemampuannya dalam berbagai aplikasinyamenempatkannya sebagai state of the art dalam pattern recognition. SVM adalah metode learning machine yang bekerja atas prinsip Structural RiskMinimization (SRM) dengan tujuan menemukan hyperplane terbaik yang memisahkan dua buah class pada inputspace. Tulisan ini membahas
Universitas Sumatera Utara
teori dasar SVM dan aplikasinya dalam bioinformatika, khususnya pada analisaekspresi gen yang diperoleh dari analisa microarray.Konsep SVM dapat dijelaskan secara sederhanasebagai usaha mencari hyperplaneterbaik yangberfungsi sebagai pemisah dua buah class padainput space. Konsep dasar SVMsebenarnya merupakan kombinasi harmonis dariteori-teori komputasi yang telah ada puluhantahun sebelumnya, seperti margin hyperplane(Duda & Hart tahun 1973, Cover tahun 1965,Vapnik 1964, dsb.), kernel diperkenalkan olehAronszajn tahun 1950, dan demikian jugadengan konsep-konsep pendukung yang lain. Akan tetapi hingga tahun 1992, belum pernahada upaya merangkaikan komponenkomponentersebut.
II.7.1 KARAKTERISTIK SVM Karakteristik SVM sebagaimana telah dijelaskanpada bagian sebelumnya, dirangkumkan sebagaiberikut: 1. Secara prinsip SVM adalah linear classifier 2. Pattern recognition dilakukan denganmentransformasikan data pada input spaceke ruang yang berdimensi lebih tinggi, danoptimisasi dilakukan pada ruang vector yangbaru tersebut. Hal ini membedakan SVMdari solusi pattern recognition padaumumnya, yang melakukan optimisasiparameter pada ruang hasil transformasiyang berdimensi lebih rendah daripadadimensi input space. 3. Menerapkan strategi Structural RiskMinimization (SRM) 4. Prinsip kerja SVM pada dasarnya hanyamampu menangani klasifikasi dua class.
II.7. 2 KELEBIHAN DAN KEKURANGAN SVM Dalam
memilih
solusi
untuk
menyelesaikansuatu
masalah,
kelebihan
dan
kelemahanmasing-masing metode harus diperhatikan.Selanjutnya metode yang tepat dipilih denganmemperhatikan karakteristik data yang diolah.Dalam hal SVM, walaupun berbagai studi telahmenunjukkan kelebihan metode SVMdibandingkan metode konvensional lain, SVMjuga memiliki berbagai kelemahan. KelebihanSVM antara lain sbb.
Universitas Sumatera Utara
1.
Generalisasi Generalisasi
didefinisikan
sebagaikemampuan
suatu
metode
(SVM,
neuralnetwork, dsb.) untuk mengklasifikasikansuatu pattern, yang tidak termasuk data yangdipakai dalam fase pembelajaran metode itu.Vapnik menjelaskan bahwa generalizationerror dipengaruhi oleh dua faktor: errorterhadap training set, dan satu faktor lagiyang dipengaruhi oleh dimensi VC(Vapnik-Chervokinensis). Strategipembelajaran pada neural network danumumnya
metode
learning
machinedifokuskan
pada
usaha
untukmeminimimalkan error pada training-set.Strategi ini disebut Empirical RiskMinimization (ERM). Adapun SVM selainmeminimalkan error pada training-set, jugameminimalkan faktor kedua. Strategi inidisebut Structural Risk Minimization (SRM),dan dalam SVM diwujudkan denganmemilih hyperplane dengan margin terbesar.Berbagai studi empiris menunjukkan bahwapendekatan SRM pada SVM memberikanerror generalisasi yang lebih kecil daripadayang diperoleh dari strategi ERM padaneural network maupun metode yang lain. 2.
Curse of dimensionality. Curse of dimensionality didefinisikansebagai masalah yang dihadapi suatumetode
pattern
recognition
dalammengestimasikan
parameter
(misalnyajumlah hidden neuron pada neural network,stopping criteria dalam proses pembelajarandsb.) dikarenakan jumlah sampel data yangrelatif sedikit dibandingkan dimensionalruang vektor data tersebut. Semakin tinggidimensi dari
ruang
vektor
informasi
yang
diolah,
membawa
konsekuensi
dibutuhkannya jumlah data dalam proses pembelajaran. ada kenyataannya seringkali terjadi, data yang diolah berjumlah terbatas, dan untuk mengumpulkan data yang lebih banyak tidak mungkin dilakukan karena kendala biaya dan kesulitan teknis. Dalam kondisi tersebut, jika metode itu “terpaksa”harus
bekerja
pada
data
yang
berjumlah
relatif
sedikit
dibandingkan dimensinya,akan membuat proses estimasi parameter metode menjadi sangat sulit.Curse of dimensionality sering dialami dalam aplikasi di
Universitas Sumatera Utara
bidang biomedicalengineering, karena biasanya data biologi yang tersedia sangat terbatas, dan penyediaannya memerlukan biaya tinggi.Vapnik membuktikan bahwa tingkat generalisasi yang diperoleh oleh SVM tidak dipengaruhi oleh dimensi dari input vector. Hal ini merupakan alasan mengapa SVM merupakan salah satu metode yang tepat dipakai untuk memecahkan masalah berdimensi tinggi, dalam keterbatasan sampel data yang ada. 3.
Landasan teoriSebagai metode yang berbasis statistik,SVM memiliki landasan teori yang dapatdianalisa dengan jelas, dan tidak bersifat.
Universitas Sumatera Utara