Concept Description S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha
1
Concept Description : Characterization & Comparison •
Dari sisi analisis data, DM dapat dikategorikan : • Descriptive DM •
•
Predictive DM •
•
User biasanya menyukai melihat data secara deskriptif , menyajikan gambaran kelas data atau membedakan data dari sekumpulan kelas-kelas tertentu.
Characterization : •
•
Menganalisis data untuk membangun satu atau sekumpulan model dan mencoba untuk memprediksikan tingkah laku himpunan data (data set) yang baru
Comparison / Discrimination : •
•
Menggambarkan himpunan data secara singkat dan padat, dan menampilkan hal-hal umum yang menarik dari data
User biasanya menyukai data set yang mudah dan fleksibel untuk dapat digambarkan dalam berbagai tingkat granularitas dan dari berbagai sisi.
Concept description : descriptive data mining dengan comparison dan characterization
2
Concept Description •
Bentuk descriptive data mining yang paling sederhana.
•
Concept : kumpulan data, misal frequent_buyers, graduate_students.
•
Menghasilkan deskripsi untuk charaterization dan comparison data.
•
Class description : jika concept yang akan digambarkan mengacu pada pada kelas object tertentu
•
Characterization : summarization kumpulan data yang singkat dan padat.
3
Concept Description •
Concept/class comparison (discrimination) : deskripsi perbandingan 2 atau lebih kumpulan data.
•
Concept description berhubungan erat dengan generalization. Jika data digeneralisasi dalam beberapa level, user dapat memeriksa tingkah laku umum data.
•
Contoh: Daripada memeriksa detail transaksi customer, sales manager lebih suka melihat data yang digeneralisasi, misalnya meringkas customer group-nya berdasarkan area, frekuensi pembelian per grup, dan pendapatan.
•
Bentuknya mirip dengan OLAP.
•
Perbedaan Concept Description dan OLAP : • •
Tipe data dan agregasi lebih kompleks OLAP user controlled, proses CD lebih otomatis
4
Data Generalization & Summarization Based Characterization •
Data generalization : proses melakukan abstraksi dari suatu himpunan besar taskrelevant data dalam database dari level konseptual yang relatif rendah ke level konseptual yang lebih tinggi.
•
Metode pendekatannya : • •
1 2 3
data cube / OLAP induksi berorientasi atribut
4 5
5
Induksi Berorientasi Atribut (AOI) •
Merupakan teknik analisis data online, relational DB berorientasi query, berbasis generalisasi.
•
Langkah-langkah : • •
•
Mengumpulkan task-relevant data menggunakan relational DB query. Melakukan generalisasi berdasarkan jumlah distinct value untuk masing-masing atribut dalam data.
Cara generalisasi : • •
Attribute removal Attribute aggregation
6
Attribute Removal •
Jika terdapat himpunan besar distinct value pada suatu atribut, tetapi •
•
•
Tidak terdapat operator generalisasi pada atribut tersebut (misal tidak terdapat hirarki konsep pada atribut) atau Konsep pada tingkat yang lebih tinggi-nya diekspresikan dalam atribut lain
Maka atribut tersebut harus dibuang
7
Attribute Generalization •
Jika terdapat himpunan besar distinct value pada suatu atribut, dan •
•
Terdapat sekumpulan operator generalisasi pada atribut tersebut,
Maka sebuah operator generalisasi harus dipilih dan diaplikasikan pada atribut tersebut.
8
Generalization Control •
Mengontrol sampai sejauh mana generalisasi dilakukan sehingga tidak terjadi under/overgeneralization
•
Tekniknya : •
Attribute generalization threshold control •
•
Generalization relation threshold control •
•
Banyaknya nilai (value) yang berbeda (Range : 2-8) Banyaknya tuple yang berbeda (Range : 10 – 30)
Dapat diaplikasikan berurutan
9
Contoh AOI Name
Gen Major Birth_ Birth_ Residence der place date
Phone#
gpa
Jim Woodman
M
CS
Vancou ver,BC, Canada
8-12-76
3511 Main St, Richmond
687-4598
3.67
Scott Lachance
M
CS
Montrea l, Que, Canada
28-7-75
345 1st Ave, Richmond
253-9106
3.70
Laura Lee
F
Physics
Seattle, WA, USA
25-8-70
125 Austin Ave, Burnaby
420-5232
3.83
10
Contoh AOI •
Name : terdapat banyak distinct value, tidak ada operasi generalisasi, atribut dihilangkan.
•
Gender : terdapat hanya 2 distinct value. Atribut dipertahankan, tidak dilakukan generalisasi.
•
Major : misalkan terdapat hierarki konsep yang telah ada yang menyatakan bahwa atribut major digeneralisasikan ke nilai-nilai sbb : {arts&science, engineering, business}. Misalkan attribute generalization thresholdnya adalah 5, dan terdapat lebih dari 20 distinct value untuk major, maka atribut ini harus digeneralisasikan sesuai hirarki konsepnya.
11
Contoh AOI •
Birth_place : terdapat distinct value yang sangat besar sehingga harus digeneralisasi. Misalkan terdapat hirarki konsep untuk birth place yang didefinisikan sebagai city < province_or_state < country. Jika jumlah distinct value untuk country lebih besar dari attribute generalization threshold, maka birth_place harus dihilangkan karena meskipun terdapat operator generalisasi di situ, tetapi tidak memenuhi generalization threshold. Jika jumlah distinct value kurang dari threshold, maka birth_place harus digeneralisasikan ke birth_country.
12
Contoh AOI •
Birth_date : misalkan terdapat hirarki yang dapat menggeneralisasi birth_date ke age, dan age ke age_range, dan jumlah age range di bawah threshold, maka generalisasi harus dilakukan pada birth_date.
•
Residence : misalkan residence ditentukan oleh atribut number, street, residence_city, residence_province_or_state, dan residence_country. Jumlah distinct value untuk number dan street akan sangat besar, harus dihilangkan, sehingga residence digeneralisasikan ke residence_city yang distinct valuenya lebih kecil. 13
Contoh AOI •
Phone# : seperti pada atribut name, terlalu banyak distinct value dan harus dihilangkan.
•
GPA : misalkan terdapat hirarki konsep untuk gpa yang mengelompokkan nilai gpa ke interval numerik seperti {3.75-4, 3.5-3.75,…} yang kemudian diubah menjadi nilai deskriptif seperti {excellent, very good, …}, maka atribut tersebut dapat digeneralisasi.
14
Contoh AOI •
Proses generalisasi akan menghasilkan grupgrup dengan tuple-tuple yang identik, misal pada tuple 1 & 2.
•
Tuple yang identik akan di-merge menjadi 1 dengan di-count.
•
Hal ini akan mengarah pada tabel yang tergeneralisasi
15
Contoh AOI Gender Major
Birth_co Age_ra Residence_c Gpa untry nge ity
count
M
Science Canada 20-25 Richmond Very_ 16 good
F
Science Foreign 25-30 Burnaby
16
Excell 22 ent
Mempresentasikan Derived Generalization •
Biasanya ditampilkan dalam bentuk tabel yang telah tergeneralisasi (generalized relation), cross-tabulation (baik 2D maupun 3D), bar & pie chart, kurva, rule
17
Attribute-Oriented Induction: Algoritma Dasar •
InitialRel: •
•
PreGen: •
•
Berdasarkan dari analisis dari jumlah distinct values dalam setiap atribut, tentukan rencana generalisasi untuk setiap atribut: removal? atau seberapa jauh menggeneralisasi?
PrimeGen: •
•
Pemrosesan kueri dari data dari tugas terkait, menghasilkan initial relation
Berdasarkan rencana PreGen, laksanakan generalisasi pada tingkat yang tepat untuk mendapatkan hubungan tergeneralisasi, akumulasi count-nya.
Presentation: •
Interaksi user: (1) sesuaikan tingkat dengan drilling, (2) pivoting, (3) pemetaan ke dalam aturan, cross tabs, presentasi visual
18
Class Characterization: Sebuah Contoh Name
Gender
Jim Initial Woodman Relation Scott Lachance Laura Lee … Removed
M
Major
M F … Retained
M F …
Birth_date
Vancouver,BC, 8-12-76 Canada CS Montreal, Que, 28-7-75 Canada Physics Seattle, WA, USA 25-8-70 … … … Sci,Eng, Bus
Gender Major
Prime Generalized Relation
Birth-Place
CS
Science Science …
Country
Age range
Residence
Phone #
GPA
3511 Main St., Richmond 345 1st Ave., Richmond
687-4598
3.67
253-9106
3.70
125 Austin Ave., Burnaby …
420-5232 …
3.83 …
City
Removed
Excl, VG,..
Birth_region
Age_range
Residence
GPA
Canada Foreign …
20-25 25-30 …
Richmond Burnaby …
Very-good Excellent …
Count 16 22 …
Birth_Region Canada
Foreign
Total
Gender M
16
14
30
F
10
22
32
Total
26
36
62
19
Mining Class Comparisons •
Comparison: Membandingkan dua atau lebih class
•
Metode: Mempartisi set dari data yang relevan ke dalam class – class target dan class – class yang kontras • Menggenalisasi kedua kelas ke dalam konsep level tingkat lebih tinggi yang sama. • Membandingkan tuples (gabungan data) dengan deskripsi tingkat lebih tinggi yang sama. • Mempresentasikan setiap tuple dalam deskripsinya dan dua nilai: •
• •
• •
Support – distribusi dalam satu class Comparison – distribusi antar class
Menggarisbawahi tuple – tuple dengan fitur – fitur diskriminan yang kuat
Relevance Analysis: •
Menemukan atribut – atribut (fitur – fitur) yang paling tepat dalam membedakan class – class yang berbeda
20
20
Quantitative Discriminant Rules •
Cj = class target
•
qa = sebuah tuple yang digeneraliasi yang meliputi beberapa tuple – tuple dari class •
•
Tapi dapat juga meliputi tuple – tuple dari class yang berbeda
d-weight •
d weight
range: [0, 1]
count(q a C j ) m
count(q
a
Ci )
i 1
•
Bentuk aturan quantitative discriminant X, target_cla ss(X) condition( X) [d : d_weight]
21
21
Contoh: Quantitative Discriminant Rule Status
Birth_country
Age_range
Gpa
Count
Graduate
Canada
25-30
Good
90
Undergraduate
Canada
25-30
Good
210
Menghitung distribusi antara mahasiswa graduate dan undergraduate untuk sebuah tuple yang tergeneralisasi
•
Aturan Quantitative discriminant
X , graduate _ student ( X ) birth _ country ( X ) " Canada " age _ range ( X ) "25 30 " gpa ( X ) " good " [ d : 30 %] •
where 90/(90 + 210) = 30%
22
Deskripsi Class •
Aturan karakteristik kuantitatif •
Necessary X, target_cla ss(X) condition( X) [t : t_weight]
•
Aturan diskriminan kuantitatif •
Sufficient X, target_cla ss(X) condition( X) [d : d_weight]
•
Aturan deskripsi kuantitatif •
necessary and sufficient
X, target_cla ss(X) condition 1(X) [t : w1, d : w 1] ... condition n(X) [t : wn, d : w n]
23
Contoh:
Aturan Deskripsi Kuantitatif
Crosstab menunjukkan nilai – nilai t-weight, d-weight terasosiasi dan jumlah (dalam ribuah) dari TV dan komputer terjual pada AllElectronics di 1998
•
Aturan deskripsi kuantitatif untuk class target Europe
X, Europe(X) (item(X) " TV" ) [t : 25%, d : 40%] (item(X) " computer" ) [t : 75%, d : 30%]
24