ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK
TESIS Karya tulis sebagai salah satu syarat Untuk memperoleh gelar Magister dari Institut Teknologi Bandung
Oleh IVAN MICHAEL SIREGAR NIM: 23505001 Program Studi Magister Informatika
SEKOLAH TEKNIK ELEKTRO DAN INFORMATIKA INSTITUT TEKNOLOGI BANDUNG 2008
ABSTRACT Knowledge discovery in data (KDD) is a process of discovering interesting knowledge from large amounts of data, and data mining is one of its process. Data mining is a technology to extract useful pattern. It has two methods: predictive and descriptive. At predictive method, Bayesian network (BN) is one of classification technics which is constructed using d-separation concept. Some of its algorithms need node ordering (NO). At descriptive method, sequential pattern (SP) is one of association technics, which represents time sequence of events. This research is aimed to discover relevancy between NO and SP, especially the usage of SP as NO information to algorithm of learning BN from data. NO written by notation (n1,n2,n3,n4,...ni) and SP by notation 〈s1,s2,s3,s4,...sj〉 have similarities in notation and the order of node appereance. Some algorithms for learning BN from data can use NO to find proper cut which reduces total number of conditional independency test (CI test). SP uses frequent itemset to discover the sequence. This research is focused on exploring characteristics of NO and SP, shows that NO implies not only temporal information but also causal information, while at the other hand SP represents only temporal information. Therefore, SP can be utilized for constructing NO. This can be achieved by adding some causality tests.
This thesis concludes that SP represents temporal information can be utilized for constructing NO by adding some causality tests. SP that represents temporal information is subset of NO that represents both temporal information and causality. Future research can be done on dynamic Bayesian network area that represents temporal information.
Keywords: knowledge
discovery
in
data,
data mining,
Bayesian network,
d-separation, node ordering, CI test, sequential pattern, temporal information, causality.
i
ABSTRAKSI Knowledge discovery in data (KDD) adalah proses mencari dan menemukan pengetahuan yang bermanfaat dari kumpulan data, dan data mining adalah salah satu prosesnya. Data mining adalah teknologi untuk mengekstrak pola yang bermanfaat dengan dua pendekatan yaitu prediktif dan deskriptif. Pada pendekatan prediktif, Bayesian network (BN) adalah teknik pada klasifikasi yang dibangun dengan konsep d-separation. Beberapa algoritma konstruksi struktur BN membutuhkan node ordering (NO). Pada pendekatan deskriptif, sequential pattern (SP) adalah salah satu teknik asosiasi, yang merepresentasikan urutan waktu terjadinya peristiwa. Tujuan penelitian adalah melakukan kajian korelasi SP dan NO, dan secara secara khusus pemanfaatan SP sebagai informasi NO pada algoritma konstruksi struktur BN. NO dengan notasi (n1,n2,n3,n4,...ni) dan SP dengan notasi 〈s1,s2,s3,s4,...sj〉 memiliki kesamaan dalam penulisan notasi dan urutan kemunculan, yang menjadi dasar hipotesis bahwa SP dapat dimanfaatkan sebagai NO. Dalam algoritma konstruksi struktur BN, NO berperan saat menentukan cut set yang tepat sehingga jumlah pengujian conditional independency (CI test) dapat dikurangi. SP memanfaatkan konsep frequent itemset dalam menemukan sequence. Penelitian yang difokuskan pada karakteristik serta peran dari NO dan SP menunjukkan bahwa bahwa NO merepresentasikan informasi temporal dan kausalitas, sedangkan SP hanya merepresentasikan informasi temporal. SP dapat dimanfaatkan untuk mempersempit ruang pencarian dalam menentukan NO. SP dapat juga dimanfaatkan sebagai NO namun pada SP harus ditambahkan uji kausalitas sehingga SP merepresentasikan informasi temporal dan kausal. Sebagai kesimpulan, dinyatakan bahwa secara matematis SP adalah himpunan bagian dari NO. Dalam konteks konstruksi struktur BN, SP dapat dimanfaatkan sebagai NO namun tidak memadai. Penelitian lebih lanjut dapat dilakukan dalam dynamic Bayesian network yang merepresentasikan informasi temporal. Kata kunci: knowledge discovery in data, data mining, Bayesian network, dseparation, node ordering, CI test, sequential pattern, temporal, kausal. ii
PENGESAHAN ANALISIS PEMANFAATAN SEQUENTIAL PATTERN UNTUK MENENTUKAN NODE ORDERING PADA ALGORITMA KONSTRUKSI STRUKTUR BAYESIAN NETWORK
Oleh Ivan Michael Siregar NIM: 23505001
Program Studi Magister Informatika Institut Teknologi Bandung
Menyetujui Tim Pembimbing Tanggal 03 Juli 2008
Pembimbing 1
Pembimbing 2
Dr. Ir. Benhard Sitohang
Dr. Ir. G.A. Putri Saptawati, M.Comm
iii
PEDOMAN PENGGUNAAN TESIS Tesis S2 yang tidak dipublikasikan terdaftar dan tersedia di Perpustakaan Institut Teknologi Bandung, dan terbuka untuk umum dengan ketentuan bahwa hak cipta ada pada pengarang dengan mengikuti aturan HaKI yang berlaku di Institut Teknologi Bandung.
Referensi kepustakaan diperkenankan dicatat, tetapi pengutipan atau
peringkasan hanya dapat dilakukan seizin pengarang dan harus disertai dengan kebiasaan ilmiah untuk menyebutkan sumbernya. Memperbanyak atau menerbitkan sebagian atau seluruh tesis haruslah seizin Direktur Program Pascasarjana Institut Teknologi Bandung.
iv
KATA PENGANTAR Segala pujian, hormat, dan kemuliaan hanya bagi Tuhan Yesus Kristus yang telah menjadi Penolong dalam menyelesaikan penelitian ini. Tulisan ini kupersembahkan untuk kemuliaanMu. Terimakasih yang tulus dari hati yang terdalam kepada kedua dosen pembimbing yaitu Bapak Dr. Ir. Benhard Sitohang dan Ibu Dr. Ir. G.A. Putri Saptawati, M.Comm yang telah memberikan bimbingan dan bantuan selama melakukan penelitian ini. Mohon maaf atas segala kesalahan dan kekurangan yang ada Terimakasih juga kepada kedua dosen penguji yaitu Bapak Dr. tech. Saiful Akbar, S.T., M.T. dan Bapak Adi Mulyanto, S.T., M.T untuk segala masukan konstruktif dalam penyempurnaan tulisan ini. Terimakasih kepada keluarga yang telah memberikan dukungan lewat doa yang penuh kuasa, sehingga proses pendidikan dapat selesai dengan sangat baik. Sungguh mujizat itu nyata bagi kita.
Bandung, 30 Juni 2008
Ivan Michael Siregar
v
DAFTAR ISI ABSTRACT .......................................................................................................... i ABSTRAKSI ......................................................................................................... ii PENGESAHAN ........................................................................................................ iii PEDOMAN PENGGUNAAN TESIS .................................................................................. iv KATA PENGANTAR ..........................................................................................................v DAFTAR ISI ........................................................................................................ vi DAFTAR GAMBAR ....................................................................................................... vii BAB 1 ..........................................................................................................1 PENDAHULUAN ..........................................................................................................1 1.1. 1.2. 1.3. 1.4. 1.5.
Latar Belakang............................................................................................................1 Rumusan Masalah.......................................................................................................4 Tujuan Penelitian ........................................................................................................7 Batasan Masalah .........................................................................................................7 Metodologi..................................................................................................................7
BAB 2 DASAR TEORI 2.1.
2.2. 2.3. 2.4.
..........................................................................................................9 ..........................................................................................................9
Bayesian Network.......................................................................................................9 2.1.1. Konsep Dasar................................................................................................9 2.1.2. Conditional Independency Test (CI Test)...................................................15 2.1.3. Directional Separation (d-separation).........................................................17 Three Phases Dependency Analysis Phi (TPDA -∏) ...............................................20 2.2.1. Algoritma TPDA ∏ ....................................................................................20 Node Ordering, Kausalitas, dan Informasi Temporal...............................................24 Sequential Pattern .....................................................................................................28 2.4.1. Konsep dasar ..............................................................................................28 2.4.2. Teori Sequential Pattern .............................................................................30 2.4.3. Contoh Sequential Pattern ..........................................................................32
BAB 3 ........................................................................................................34 ANALISIS HIPOTESIS .......................................................................................................34 3.1. 3.2. 3.3.
Node Ordering ..........................................................................................................34 Sequential Pattern .....................................................................................................37 Analisis Hipotesis .....................................................................................................39 3.1.1. Kesimpulan Analisis Hipotesis...................................................................43
BAB 4 ........................................................................................................46 KESIMPULAN DAN SARAN.............................................................................................46 4.1. Kesimpulan Penelitian ...................................................................................46 4.2. Saran ..............................................................................................................47 PUSTAKA ........................................................................................................48 LAMPIRAN A ........................................................................................................50 BAYESIAN NETWORK DAN TEORI INFORMASI........................................................50 A.1. Konsep Dasar ........................................................................................................50 A.2. Kondisi Markov ........................................................................................................52 LAMPIRAN B ........................................................................................................59 ALGORITMA TPDA ∏.......................................................................................................59 B.1. Algoritma TPDA ∏ ..................................................................................................59 B.2. Menentukan Minimum Cut Set.................................................................................62 LAMPIRAN C ........................................................................................................65 SEQUENTIAL PATTERN MINING...................................................................................65 C.1. Algoritma Sequential Pattern....................................................................................66 vi
DAFTAR GAMBAR Gambar I.1. Gambar II.1. Gambar II.2. Gambar II.3. Gambar II.4. Gambar II.5. Gambar II.6. Gambar II.7. Gambar II.9. Gambar II.10. Gambar III.1. Gambar L.1. Gambar L.2. Gambar L.3. Gambar L.4. Gambar L.5. Gambar L.6. Gambar L.7. Gambar L.8. Gambar L.9. Gambar L.10. Gambar L.11. Gambar L.12. Gambar L.13. Gambar L.14. Gambar L.15.
Ilustrasi langkah-langkah dalam proses KDD [HAN06] ................................2 Bayesian network [NEA04] ..........................................................................11 Representasi nilai dari simpul-simpul pada BN pada gambar II.1 ...............11 DAG yang digunakan untuk mengilustrasikan d-separation........................17 DAG-DAG ini merupakan ekuivalen Markov,.............................................19 DAG pattern yang merepresentasikan kelas ekuivalen Markov ..................19 pada gambar II.3 [NEA04] ...........................................................................19 Hasil fase 1, 2, 3 dari algoritma TPDA ∏: ...................................................21 (a) Graf sesungguhnya (b) Hasil fase 1.........................................................21 (c) Hasil fase 2 (d) Hasil fase 3.....................................................................21 Struktur BN dengan dua correct ordering yaitu ............................................25 A-B-C-D-B dan A-B-D-C-E.........................................................................25 Basis data dikelompokkan berdasarkan id_pelanggan .................................33 Sequence pelanggan......................................................................................33 Cuplikan proses pembentukan sequential pattern: .......................................38 (a) Data seluruh transaksi dikelompokkan dan diurutkan (b) Sequence pelanggan ......................................................................................................38 Cut set 52 Sebuah DAG untuk mengilustrasikan kondisi Markov [NEA04] ................53 Kebebasan kondisional dari DAG pada gambar lampiran 2.........................53 IP({D},{A|B}) dapat diperoleh dari kondisi Markov [NEA04] ...................54 Distribusi probabilitas yang hanya memiliki IP({X},{Z}|{Y}) faithful terhadap DAG pattern ini..............................................................................56 DAG faithful .................................................................................................57 Skema pembentukan struktur BN dengan TPDA ∏....................................59 Algoritma minimum cut-set..........................................................................63 Basis data transaksi pelanggan yang asli ......................................................66 Basis data yang diurutkan berdasarkan id_pelanggan dan waktu_transaks..67 Basis data sequence pelanggan .....................................................................67 Large itemset.................................................................................................68 Basis data yang telah ditransformasi.............................................................69 Menentukan maximal sequence....................................................................70 Hasi dari sequential pattern mining ..............................................................70
vii