Kisi2 UTS Konsep Data Mining 2010 Note : w gak tau ya nih jawaban bener pa gak.. Yang penting w udah usaha n cari” jawabannya. W jg gak tau soal KDM bentuknya essay or GP, tp pak avinantanya hanya kasih nih doank. Klo salah jawaban jangan nyalahin w ya.. Heheheeeeeeeeeeeeeeee…….. 1. Data Mining secara general dan contoh aplikasinya Jawab : Data mining adalah proses yang memperkejakan satu/lebih teknik" pembelajaran komputer (mechine learning) untuk menganalisis & mengekstraksi pengetahuan (knowledge) secara otomatis dngn proses iteratif & interaktif untuk menemukan pola/model yg sahih, baru, bermanfaat dan dimengerti dlm suatu dtbse yg sngat bsr (massive dtbase). ex aplikasi: mendeteksi adanya penggunaan krtu krdit ilegal, mendeteksi SPAM, prediksi tumor pada atribut'y, kategorisasi otomatis berita pada news portal.
2. Klasifikasi : Proses induksi dan proses deduksi Jawab : –
proses induksi akan mempelajari hal" yg bersifat khusus pd training set, untuk selanjutnya membuat/belajar membentuk suatu model yg dipadukan dngn algoritma pembelajaran. Induksi merupakan teknik inferensi informasi yang digeneralisasi dari database, contohnya setiap pegawai mempunyai manajer.
–
proses deduksi akan merepresentasikan model baku yg dihasilkan dari proses induksi pembelajaran dimana hal khusus tadi digunakan sebagai acuan jika pd masa yg akan dtg terdapat inputan/set yg baru. Deduksi merupakan teknik inferensi informasi dari konsekuensi logis informasi pada database, contohnya operasi join pada dua tabel, dimana yang pertama mengenai pegawai dan departemen sedangkan yang kedua mengenai departemen dan manajer, menghasilkan relasi antara pegawai dan manajer.
Kartika Nur Ramadha 4KA12
Page 1
Teknik-teknik dan modelnya Jawab : • Teknik” data mining : 1. Analisis cluster • Dalam lingkungan ‘unsupervised learning’, sistem harus mendapatkan klas”nya sendiri dan ini dilakukan dengan mengcluster data dalam database. • Langkah pertama adalah dengan mendapatkan subset” dari objek” yang terhubung, kemudian mencari deskripsinya cth, D1, D2, D3, dst, yang menggambarkan masing” subset. 2. Induksi (pohon keputusan dan aturan induksi) Pohon keputusan merupakan representasi pengetahuan yang simpel. Pohon keputusan ini mengklasifikasikan contoh” pada klas” dengan angka finit, node diberi nama atribut, edge di beri nilai atribut sedangkan leave diberi nama klas. Objek” diklasifikasikan dengan struktur pohon, dengan menggunakan dahan2nya sebagai nilai atribut dari objek. 3. Jaringan syaraf buatan (Neural Network) Merupakan pendekatan perhitungan yang melibatkan pengembangan struktur secara matematis dengan kemampuan untuk ‘belajar’. 4. Online Analytical Processing (OLAP) OLAP atau On line Analytical Processing merupakan salah satu aplikasi database untuk memproses database yang sangat besar dengan data yang kompleks. 5. Visualisasi data Visualisasi data memungkinkan si analis menperoleh pemahaman yang dalam dan lebih intuitif mengenai data dan dapat bekerja sebaik mungkin pada data mining. • Model” data mining : 1. Model Verifikasi : menggunakan pendekatan top down dengan mengambil hipotesa dari user dan memeriksa validitasnya dengan data sehingga bias dibuktikan kebenarannya hipotesa tersebut. 2. Model Knowledge Discovery menggunakan pendekatan bottom up untuk mendapatkan informasi yang sebelumnya tidak diketahui.
Kartika Nur Ramadha 4KA12
Page 2
Input pada neural network
•
•
layer bawah adalah lapisan input dengan x1 – x5. Layer tengah disebut juga layer tersembunyi dengan sejumlah variabel node. Layer atas merupakan layer output dengan node z1 – z2 yang diperoleh dari input yang dicobakan. Setiap node yang ada pada layer tersembunyi, secara keseluruhan terhubung dengan input, berarti setiap yg dipelajari didasarkan pada semua input yg diambil bersamaan. Model data mining dibagi 2 yaitu : Prediction Methods : Menggunakan beberapa variabel untuk memprediksi sesuatu nilai yang akan datang. Description Methods : Mendapatkan pola penafsiran (human interpretable patterns) untuk menjelaskan data.
Perhitungan GINI dan Best Split • Perhitungan GINI : Gini Index for a given node t :
(NOTE: p( j | t) is the relative frequency of class j at node t). – Maximum (1 - 1/nc) when records are equally distributed among all classes, implying least interesting information - Minimum (0.0) when all records belong to one class, implying most interesting information
Kartika Nur Ramadha 4KA12
Page 3
• Used in CART, SLIQ, SPRINT. • When a node p is split into k partitions (children), the quality of split is computed as,
where,
ni = number of records at child i, n = number of records at node p. • Splits into two partitions • Effect of Weighing partitions: - Larger and Purer Partitions are sought for.
Kartika Nur Ramadha 4KA12
Page 4
3. Asosiasi • Perhitungan support dan confidence Association Rule dinyatakan dalam bentuk X => Y, di mana X dan Y merupakan Itemset. Contohnya : {Milk, Diaper} => {Beer}. Support (s) dan Confidence (c) merupakan metrik yang digunakan pada Association Rule. Support menunjukkan persentasi jumlah transaksi yang berisi X dan Y. Sedangkan Confidence menunjukkan persentasi banyaknya Y pada transaksi yang mengandung X. Bentuk persamaan matematisnya dapat dituliskan seperti ini: Support (X ==> Y) = P (X u Y) Confidence (X ==> Y) = P (Y|X) Contoh: Berikut ini adalah contoh Association Rule :
{Milk, Diaper} => {Beer} Support ({Milk,Diaper} ==> {Beer}) = 2/5 = 0.4 = 40% Confidence ({Milk,Diaper} ==> {Beer} ) =2/3 =0.667 = 66.7% Support menunjukkan presentasi jumlah transaksi yang mengandung item {Milk,Diaper,Beer}
Selamat Ujian !!!
Kartika Nur Ramadha 4KA12
Page 5