1 Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ASSOCIATION RULES PADA TEXT MINING Budi Susanto versi 1.42 Text dan Web Mining - FTI UKDW - BUDI SUS...
ASSOCIATION RULES PADA TEXT MINING Budi Susanto versi 1.4
1
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
2
Tujuan • Memahami algoritma Apriori dan FP-Growth
• Memahami penerapannya pada penambangan dokumen • Memamahmi algoritma GSP • Memahami penerapannya pada penambangan dokumen
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
3
Pendahuluan • Analisis aturan asosiasi merupakan tugas dasar pada
data mining. • Tujuannya: • Menemukan hubungan kemunculan bersamaan (asosiasi) diantara
item-item data.
• Aplikasi klasik yang menggunakan metode ini adalah
market basket data analysis. • Tujuannya: menemukan bagaimana item-item barang yang dibeli
oleh pelanggan diasosiasikan.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
4
Pendahuluan • Contoh: • Sabun Mandi Pasta Gigi • [support: 40%, confidence = 80%] • 40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan • 80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi.
• Dalam text mining, association rules dapat digunakan
untuk menemukan hubungan kemunculan kata.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
5
Konsep Dasar Association Rules
I = {i1,i2 ,...,im }
Himpunan item
T = {t1, t2 ,..., tn }
Himpunan transaksi
Ti adalah himpunan item dimana
ti Í I
Bentuk implikasi pada association rules:
X Y, dimana
X Ì I,Y Ì I, X ÇY = 0
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
6
Ukuran • Support • Seberapa sering aturan yang dihasilkan berlaku pada himpunan transaksi T. • Confidence • Dilihat sebagai probabilitas kondisional terhadap aturan. • Aturan yang terpilih adalah aturan yang memenuhi
Algoritma Apriori • Terdapat dua tahap utama: • Hasilkan semua frequent itemsets (itemset yang memiliki support > minsupport) • Hasilkan semua aturan asosiasi dari frequent itemsets (confident > minconfident)
• Jumat item dalam sebuah itemset ditentukan, k.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
9
Apriori: pembentukan itemset • Apriori menganut prinsip downward closure property • Jika sebuah itemset memiliki support minimum, maka setiap subset non-empty dari itemset tersebut juga memiliki support minimum. • Item-item dalam I, sudah dalam keadaan terurutkan
secara lexicographic order.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
Algoritma Apriori
10
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
11
Algoritma Apriori: pembentukan kandidat itemset
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
Contoh: Data TID 001 002 003 004 005 006 007 008 009 010
Lift Ratio • Jika suatu rule memiliki confidence tinggi, berarti rule
tersebut mencirikan aturan asosiasi yang kuat. • Pemilihan rule berdasar confidence bisa menipu, sebab jika (A)ntecedent/(C)onsequent memiliki support yang tinggi, maka rule dapat memiliki confidence tinggi, walaupun sebetulnya independen.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
32
Lift Ratio • Ukuran yang lebih baik untuk mengukur kekuatan aturan
asosiasi adalah • Membandingkan confidence rule dengan confidence yang
diharapkan. • Kemunculan consequent itemset dalam transaksi bersifat independen
terhadap kemunculan antecedent tiap rulenya. • Support consequent dibagi dengan jumlah transaksi.
• Expected confidence dari sebuah rule adalah perkalian
support antecedence dan consequence dibagi dengan support dari antecedence.
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
33
Lift Ratio • Sebuah lift ratio > 1.0 menyatakan Ant dan Cons muncul
lebih sering dari yang diharapkan • kemunculan rule Ant memiliki efek positif terhadap kemunculan
Cons
• Sebuah lift ratio < 1.0 menyatakan Ant dan Cons muncul
lebih jarang dari yang diharapkan • kemunculan rule Ant memiliki efek negatif terhadap kemunculan
Cons
• Sebuah list ratio ≈ 1.0 menyatakan Ant dan Cons muncul
hampir selalu bersamaan seperti yang diharapkan • kemunculan rule Ant hampir tidak memiliki pengaruh terhadap
kemunculan Cons
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
Lift Ratio s ( A ÈC ) c ( A Þ C ) = P (C | A) = s ( A)
s(A)´ s(C) c' ( A Þ C ) = s ( A)
34
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
Contoh Lift Ratio
35
36
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
Contoh Lift Ratio A
C
c(A)
s(C)
c(A U C)
conf
lift
{1,2}
{5}
4
2/9
2
2/4
18/8
{1,5}
{2}
2
7/9
2
2/2
9/7
{2,5}
{1}
2
6/9
2
2/2
9/6
{1}
{2,5}
6
2/9
2
2/6
9/6
{2}
{1,5}
7
2/9
2
2/7
9/7
{5}
{2,1}
2
4/9
2
2/2
9/4
{1,2}
{3}
4
6/9
2
2/4
9/12
{1,3}
{2}
4
7/9
2
2/4
18/28
{2,3}
{1}
4
6/9
2
2/4
9/12
{1}
{2,3}
6
4/9
2
2/6
9/12
{2}
{1,3}
7
4/9
2
2/7
9/14
{3}
{1,2}
6
4/9
2
2/6
9/12
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
37
SEQUENCE PATTERN
Text dan Web Mining - FTI UKDW - BUDI SUSANTO
38
Sequential Pattern Mining • Diberikan sebuah himpunan sequential, temukan
himpunan lengkap dari frequent subsequences. Sebuah sequence : < (ef) (ab) (df) c b >