SESINDO 2010-Jurusan Sistem Informasi ITS
PENGEMBANGAN ALGORITMA CB UNTUK KONSTRUKSI STRUKTUR BAYESIAN NETWORK DARI DATA TIDAK LENGKAP Humasak Tommy Argo Simanjuntak1) Manajemen Informatika, Politeknik Informatika Del Jl. Sisingamangaraja, Sitoluama, Laguboti, Tobasa, 22381 Telp : (0632) 331234, Fax : (0632) 331116
E-mail :
[email protected])
Abstract Data mining merupakan proses inti pada Knowledge Discovery in Databases. Salah satu representasi model yang digunakan pada data mining adalah Bayesian Network (BN). BN terdiri dari struktur network yang disebut Directed Acyclic Graph yang merepresentasikan kebebasan kondisional, dan parameter network yang merepresentasikan nilai Joint Probability Distribution. Konstruksi struktur BN dapat dilakukan dengan dua pendekatan, yaitu search & scoring dan dependency analysis. Algoritma CB merupakan algoritma pengkonstruksi struktur BN yang mengkombinasikan pendekatan search and scoring dan dependency analysis. Salah satu kelemahan dari algoritma CB adalah tidak dapat melakukan konstruksi struktur dari data yang tidak lengkap. Hal ini terjadi karena beberapa langkah pada algoritma mensyaratkan data pada kondisi lengkap. Oleh karena itu, pada kajian ini, dilakukan analisis, implementasi, pengujian, dan analisis hasil uji dari algoritma CB yang dikembangkan untuk melakukan konstruksi struktur dari data tidak lengkap. Algoritma CB dikembangkan menjadi dua tipe algoritma, yaitu algoritma CB dengan ignore tuple dan algoritma CB* (kombinasi algoritma CB, algoritma BSEM, dan metode ignore tuple). Dari hasil kajian yang menggunakan kasus Visit To Asia dan Fire, algoritma CB* lebih baik daripada algoritma CB dengan ignore tuple. Namun, performansi waktu yang dibutuhkan oleh algoritma CB* lebih besar jika dibandingkan dengan algoritma CB yang hanya menggunakan ignore tuple. Keywords: Bayesian Network, Algoritma CB, Data Mining 1.
melakukan konstruksi struktur Bayesian Network dari data. Namun, algoritma-algoritma tersebut merupakan algoritma dengan pendekatan search & scoring, sedangkan algoritma yang berdasarkan pendekatan analisis dependensi belum dapat menangani data tidak lengkap.
PENDAHULUAN
Data mining merupakan proses ekstraksi pengetahuan dari sejumlah data yang besar. Salah satu data mining task adalah klasifikasi, yaitu mengelompokkan data yang terdapat dalam basis data menjadi beberapa kategori berdasarkan aturan klasifikasi atau model yang diperoleh dari data tersebut [1].
Algoritma CB adalah algoritma pengkonstruksi struktur Bayesian Network dengan mengkombinasikan algoritma dengan pendekatan metode analisis dependensi (algoritma PC) dan metode search & scoring (algoritma K2) [4]. Tujuan utama dari algoritma CB adalah memperoleh algoritma pencarian struktur yang secara komputasi mudah dikerjakan, yaitu tidak terlalu bergantung pada CI (conditional independence) test dan tidak membutuhkan node ordering [4]. Namun, algoritma CB mensyaratkan data lengkap.
Salah satu teknik yang digunakan dalam klasifikasi data adalah Bayesian Network. Bayesian Network merupakan model dalam bentuk grafik yang dapat merepresentasikan tingkat ketergantungan dari variabel acak dengan menggunakan struktur graf. Keadaan data, yaitu data lengkap atau data tidak lengkap mempengaruhi konstruksi struktur Bayesian Network. Pada saat ini, algoritma pengkonstruksi struktur Bayesian Network dari data tidak lengkap sudah berkembang. Beberapa algoritma tersebut adalah algoritma BSEM, BC, dan EMCMC. Algoritma ini menangani missing value tanpa tahap preprocessing. Penanganan missing value diintegrasikan pada saat
Kajian ini akan menyelesaikan persoalan pengembangan algoritma CB untuk data tidak lengkap. Metode yang akan digunakan dalam mengembangkan algoritma CB adalah metode ignore tuple [1]. Metode ignore tuple akan mengabaikan setiap tuple yang mengandung
71
SESINDO 2010-Jurusan Sistem Informasi ITS missing value (unknown value). Selain itu, algoritma CB dengan metode ignore tuple juga akan dikembangkan dengan menggunakan algoritma BSEM dan diberi nama algoritma CB*. Algoritma BSEM digunakan untuk mengganti penggunaan algoritma K2 pada algoritma CB. Penggunaan algoritma BSEM didasarkan pada kemampuan algoritma BSEM yang dapat melakukan estimasi terhadap data yang hilang untuk mengkonstruksi struktur BN dari data tidak lengkap.
merepresentasikan adanya hubungan kebergantungan langsung (pengaruh sebab akibat di antara variabel yang dihubungkan). Tidak adanya arc menandakan adanya hubungan kebebasan kondisional di antara variabel. Himpunan parameter mendefinisikan distribusi probabilitas kondisional untuk setiap variabel. Distribusi probabilitas kondisional direpresentasikan pada setiap node dengan menggunakan tabel yang disebut conditional probability table (CPT). CPT berisi probabilitas kondisional dari nilai-nilai node, diberikan setiap kombinasi nilai parent nodenya, kecuali pada node yang tidak mempunyai parent, CPT berisi probabilitas awal dari nilai-nilai node. Gambar 1 berikut menunjukkan contoh Bayesian Network dengan 5 node.
Beberapa masalah utama yang perlu diperhatikan dalam melakukan konstruksi struktur Bayesian Network dari data tidak lengkap meliputi persentase jumlah data yang tidak lengkap, keakuratan struktur yang dihasilkan, dan waktu yang dibutuhkan oleh sebuah algoritma dalam mengkonstruksi struktur Bayesian Network. Masalah tersebut merupakan hal utama yang akan diperhatikan dalam melakukan pengembangan algoritma CB. Dengan demikian, pada kajian ini juga akan dilakukan perbandingan bagaimana penanganan missing value pada algoritma CB dengan metode ignore tuple dan algoritma CB*. Perbandingan tersebut dilakukan berdasarkan kriteria hasil struktur yang dihasilkan, pengaruh persentase jumlah data yang tidak lengkap, dan waktu yang dibutuhkan dalam melakukan konstruksi struktur Bayesian Network.
P(h2)
0,2
0,8
H H
P(b1)
P(b2)
h1
0,25
0,75
h2
0,05
0,95
B
L F
B
L
P(f1)
P(f2)
b1
l1
0,75
0,25
b1
l2
0,1
0,9
b2
l1
0,5
0,5
b2
l2
0,05
0,95
H
P(l1)
h1
0,03
0,97
h2
0,00005
0,99995
P(l2)
C L
P(c1)
l1
0,6
0,4
l2
0,03
0,98
P(c2)
Gambar 1 Bayesian Network yang terdiri dari 5 variabel (node).
Tujuan utama kajian ini adalah mengembangkan algoritma CB untuk data tidak lengkap dalam mengkonstruksi struktur Bayesian Network. Selain itu, kajian ini juga bertujuan untuk mengetahui pengaruh metode ignore tuple dalam menangani data tidak lengkap untuk melakukan konstruksi struktur Bayesian Network dengan melakukan perbandingan antara pengembangan algoritma CB dengan metode ignore tuple dan algoritma CB* (algoritma CB dengan metode ignore tuple dan algoritma BSEM). 2.
P(h1)
1.2 Metode Konstruksi Struktur Bayesian Network Dalam melakukan konstruksi struktur BN dari data, ada dua buah pendekatan atau metode yang digunakan, yaitu metode search & scoring dan metode analisis dependensi [8]. Metode search & scoring melakukan konstruksi struktur dengan mencari sebuah struktur yang paling cocok dengan data. Contoh: Algoritma K2 (dari cooper dan Herskovits) untuk basis data yang lengkap, Algoritma BSEM, dan Algoritma BC untuk basis data tidak lengkap. Sedangkan metode analisis dependensi melakukan konstruksi struktur BN dengan mengidentifikasi hubungan kebebasan kondisional di antara node-node. Hal ini dilakukan dengan melakukan beberapa tes statistik (seperti chi-squared), sehingga dapat ditemukan hubungan kebebasan kondisional di antara node-node dan hubungan tersebut digunakan sebagai batasan untuk mengkonstruksi struktur BN. Contoh: Algoritma PC dan Algoritma B. Selain kedua metode tersebut, pada saat ini juga telah muncul suatu metode yang merupakan kombinasi dari metode search & scoring dan metode analisis dependensi. Tujuan utama dari
BAYESIAN NETWORK
2.1 Pengertian Dasar Bayesian Network adalah jenis Probabilistic Graphical Model (PGM) dengan arc berarah yang digunakan untuk merepresentasikan pengetahuan tentang hubungan kebergantungan/kebebasan diantara variabelvariabel dari domain persoalan yang dimodelkan [1]. Pengetahuan tersebut direpresentasikan secara kualitatif menggunakan struktur graf dan secara kuantitatif menggunakan parameterparameter numerik. Struktur graf BN disebut directed acyclic graph (DAG), yaitu graf berarah tanpa siklus berarah. DAG terdiri dari node dan arc. Node merepresentasikan variabel acak dan arc
72
SESINDO 2010-Jurusan Sistem Informasi ITS Expectation step berfungsi melakukan ekspektasi probabilitas data dengan memperhitungkan jumlah hilangnya data serta jumlah data yang dapat ditelaah (observed data). Hasil dari expectation step adalah nilai-nilai probability masing-masing variabel acak serta nilai conditional probability dari edge yang mungkin muncul, yang akan digunakan untuk membangun struktur. Expectation step ini menggunakan algoritma MAP [2]. Setelah melalui langkah Expectation step, maka dicari model-model yang mungkin dengan diberikannya sejumlah nilai conditional probability dari data. Masing-masing model dihitung scorenya menggunakan fungsi scoring sebagai berikut:
metode ini adalah untuk memperoleh algoritma pencarian struktur yang secara komputasi mudah dikerjakan, dimana algoritma tersebut adalah algoritma yang tidak terlalu tergantung pada CI test dan tidak membutuhkan node ordering. Contoh: Algoritma CB yang melakukan kombinasi antara algoritma PC yang telah dimodifikasi (metode analisis dependensi) dan algoritma K2 (metode search & scoring). 1.3 Algoritma Pengkonstruksi Bayesian Network
Struktur
Subbab berikut ini akan menjelaskan secara ringkas beberapa algoritma yang digunakan dalam kajian ini.
Score( M : M n )
1.3.1
Algoritma CB
M
i
¬
i
M i
h n
Mº , 4n » ¼
(1)
Dalam hal ini, sisi kanan persamaan di atas menyatakan akumulasi/jumlah nilai estimasi untuk setiap variabel acak dari sebuah model yang ditawarkan.
Algoritma CB merupakan algoritma yang melakukan kombinasi dari dua pendekatan untuk pencarian struktur BN. Pada dasarnya algoritma CB terdiri dari dua fase, yang telah dijelaskan pada [4] dan [3], yaitu: Fase I: menggunakan CI test untuk menghasilkan sebuah undirected graph dengan memeriksa kebebasan kondisional antar variabel. Pada fase ini juga akan dilakukan orientasi arah sisi untuk mendapatkan node ordering. Fase II: Mengambil masukan node ordering yang dihasilkan fase I dan menjalankan algoritma K2 untuk membangun struktur network.
3.
ANALYSIS
Pada awalnya algoritma-algoritma pengkonstrusi struktur BN yang menggunakan CI test mempunyai kelemahan dari sisi waktu dan besarnya volume data masukan, sedangkan algoritma-algoritma non CI test pada umumnya membutuhkan node ordering. Berdasarkan cara kerja algoritma CB, algoritma CB yang mengkombinasikan metode analisis dependensi dan metode search & scoring merupakan salah satu algoritma yang tidak terlalu bergantung pada CI test dan tidak membutuhkan node ordering [4]. Algoritma ini bertujuan untuk memperoleh metode pencarian struktur yang secara komputasi mudah dikerjakan. Namun, algoritma CB hanya mampu menangani konstruksi BN dari basis data lengkap. Hal ini disebabkan oleh beberapa hal, yaitu: 1. Test kebebasan (Chi-Squared test) yang dilakukan oleh algoritma CB dalam menghasilkan node ordering hanya dapat dilakukan dengan asumsi data pada kondisi lengkap. Adanya data yang bernilai null (unknown value) akan mempengaruhi derajat kebebasan, frekuensi amatan, dan frekuensi harapan yang digunakan dalam test kebebasan, sehingga CI test tidak dapat dilakukan. 2. Bayesian Scoring Function yang digunakan oleh algoritma CB dalam pemberian orientasi arah edge yang masih undirected maupun bidirected hanya dapat dilakukan dengan mensyaratkan data lengkap. 3. Algoritma K2 pada algoritma CB tidak menangani estimasi atau penanganan unknown value.
Kedua fase akan dieksekusi secara iteratif, mulai dari CI test orde ke-0, CI test orde ke-1, dan seterusnya sampai kriteria terminasi terpenuhi Algoritma K2 yang digunakan oleh algoritma CB dalam pemberian parent node untuk mencari model struktur yang terbaik adalah algoritma yang telah didefinisikan pada [6]. 1.3.2
ª ¦ E «log F S | o, M
Algoritma BSEM
Algoritma BSEM merupakan salah satu algoritma dengan pendekatan search & scoring yang dapat melakukan estimasi terhadap data yang hilang. Proses estimasi data hilang dilakukan dengan menggunakan algoritma Maximum Posteriori Parameter (MAP) [2]. Pada dasarnya, algoritma Bayesian Structural Expectation Maximization (BSEM) adalah pengembangan dari algoritma Expectation Maximization (EM) yang ditujukan untuk membangun struktur maksimal hanya berdasarkan pengetahuan dari data. Bentuk umum algoritma BSEM dapat dilihat pada [9]. Secara garis besar, ada tiga tahap utama pada algoritma BSEM yaitu Expectation step, pencarian dan perhitungan score model-model, dan Maximization step yang memanfaatkan hasil-hasil perhitungan sebelumnya.
73
SESINDO 2010-Jurusan Sistem Informasi ITS Berikut adalah deskripsi dari flowchart pada Gambar 4. Perangkat Lunak PuCiBi* melakukan proses pengambilan data dengan melakukan query ke basis data untuk mengambil data record dan nama atribut tabel. Setelah data record diperoleh, perangkat lunak mempersiapkan data sesuai dengan pesentase missing value. Proses persiapan data tersebut menghasilkan data kombinasi unik nilai record dan jumlahnya. Data yang dihasilkan pada proses ini dapat disimpan pada basis data dengan membuat tabel baru. Proses selanjutnya yaitu pencarian struktur BN dengan dua buah tipe pengembangan algoritma CB. Proses ini menerima masukan data kombinasi unik nilai record dan jumlahnya dari proses persiapan data serta melakukan pembacaan arsip posisi untuk mendapatkan informasi posisi node. Proses pencarian struktur BN dengan tipe pengembangan algoritma CB merupakan pilihan dari pengguna. Proses ini akan menghasilkan struktur hasil konstruksi dan mencatat langkah-langkah konstruksi ke dalam arsip log. Pada proses menampilkan hasil, struktur hasil konstruksi dan representasi struktur BN akan ditampilkan ke layar. Pengguna dapat menyimpan gambar struktur hasil konstruksi dengan melakukan proses Menyimpan Gambar Struktur BN. Selanjutnya, pengguna dapat memilih apakah akan melakukan pencarian struktur BN lagi atau tidak. Jika ya, proses Reset akan mengembalikan perangkat lunak ke kondisi semula sehingga siap untuk melakukan pencarian struktur BN dari awal. Jika tidak maka pencarian struktur BN berakhir. Deskripsi fungsional pengembangan perangkat lunak PuCiBi* yang berupa Data Flow Diagram (DFD) dapat dilihat pada Gambar 5 berikut ini.
Oleh karena itu, algoritma CB perlu melakukan penanganan terhadap tuple yang mengandung missing value agar dapat melakukan konstruksi struktur Bayesian Network dari data. Gambaran pengembangan algoritma CB untuk konstruksi struktur BN pada data tidak lengkap ditunjukkan pada Gambar 3 berikut ini: Data Lengkap CB
Data Tidak Lengkap PC modified + K2 + Ignore Tuple
PC modified + K2 CB* = PC modified + BSEM + Ignore Tuple
Gambar 2 Diagram pengembangan algoritma CB 4. ANALISIS, PERANCANGAN, DAN IMPLEMENTASI PERANGKAT LUNAK Perangkat lunak pengkonstruksi struktur BN yang dikembangkan adalah perangkat lunak PuCiBi* yang dapat melakukan konstruksi BN dari data tidak lengkap. Tahapan proses yang terdapat pada PL PuCiBi* dapat dilihat melalui flowchart pada Gambar 4 berikut.
5.
HASIL DAN PENGUJIAN
Implementasi program pada kajian ini dilakukan untuk menguji konstruksi struktur BN dengan melakukan pengembangan algoritma CB pada data tidak lengkap. Pengujian bertujuan untuk melihat: i. Pengaruh missing data terhadap hasil konstruksi, dan ii. Membandingkan hasil konstruksi struktur yang dilakukan oleh dua tipe pengembangan algoritma CB. Beberapa batasan dalam melakukan pengujian Perangkat Lunak PuCiBi* adalah sebagai berikut: 1. Pengujian dilakukan dengan menggunakan kasus Visit to Asia dan Fire, baik berupa data lengkap maupun tidak lengkap. 2. Untuk data tidak lengkap, pengujian hanya dilakukan untuk kasus dengan jumlah data
Gambar 3 Flowchart Perangkat Lunak PuCiBi*
74
SESINDO 2010-Jurusan Sistem Informasi ITS tidak lengkap kurang dari atau sama dengan 20% ( d 20% ). Level of significance dari CI test yang digunakan untuk adalah 0,01 dan 0,05.
400 350 300 Waktu
3.
Dari hasil evaluasi kasus uji data Visit to Asia dan Fire yang telah dilakukan, perbandingan struktur yang dihasilkan oleh algoritma CB dengan ignore tuple maupun algoritma CB*, meliputi penambahan edge, pengurangan edge dan arah edge yang salah diberikan pada gambar berikut ini:
150 50 0 0
5
10
15
20
Persentase Missing Value
Gambar 6 Grafik performansi waktu pengembangan algoritma CB untuk data Visit to Asia dan Fire menggunakan nilai level significance 0.01
8 7 Jumlah edge
Visit to Asia dengan CB + ignore tuple dengan level significance 0.01 Visit to Asia dengan CB* dengan level significance 0.01 Fire dengan CB + ignore tuple dengan level significance 0.01 Fire dengan CB* dengan level significance 0.01
200 100
9
6 Penambahan edge
5
250
Pengurangan edge
4
Arah edge salah
3 2
400
1
350 300
0 5
10
15
20
Waktu
0
Persentase missing value
250 200
Visit to Asia dengan CB + ignore tuple dengan level significance 0.05 Visit to Asia dengan CB* dengan level significance 0.05 Fire dengan CB + ignore tuple dengan level significance 0.05 Fire dengan CB* dengan level significance 0.05
150
Gambar 4 Grafik struktur BN Fire menggunakan algoritma CB dengan ignore tuple
100 50 0 0
5
5
10
15
20
Persentase Missing Value
Jumlah edge
4
Gambar 7 Grafik performansi waktu pengembangan algoritma CB untuk data Visit to Asia dan Fire menggunakan nilai level significance 0.05
Penambahan edge
3
Pengurangan edge 2
Arah edge salah
1
Gambar 10 dan Gambar 11 menunjukkan bahwa performansi waktu yang diberikan oleh algoritma CB* lebih besar dibandingkan performansi waktu yang diberikan oleh algoritma CB dengan ignore tuple. Pada evaluasi ini juga dapat dilihat bahwa level significance CI test (0.01 dan 0.05) tidak mempengaruhi performansi waktu yang dihasilkan pada setiap pengembangan algoritma CB. Evaluasi pengujian kasus uji kedua juga menunjukkan bahwa pada algoritma CB dengan ignore tuple, semakin besar jumlah data tidak lengkap maka score struktur yang dihasilkan semakin besar untuk struktur yang cenderung tetap dan tidak akurat. Sedangkan pada algoritma CB*, semakin besar jumlah data tidak lengkap, maka score struktur yang dihasilkan semakin kecil (relative makin kecil). Hal ini menunjukkan bahwa persentase data tidak lengkap sangat mempengaruhi struktur yang dihasilkan oleh algoritma CB dengan ignore tuple, sedangkan untuk algoritma CB*, persentase data tidak lengkap tidak mempengaruhi.
0 0
5
10
15
20
Persentase missing value
Gambar 5 Grafik struktur BN Fire menggunakan algoritma CB* Gambar 6 sampai dengan Gambar 9 menunjukkan bahwa struktur BN yang dihasilkan oleh algoritma CB dengan ignore tuple cenderung tidak akurat jika dibandingkan dengan struktur BN yang dihasilkan oleh algoritma CB*. Hal ini ditunjukkan oleh banyaknya penambahan edge dan jumlah edge yang salah yang dihasilkan oleh algoritma CB dengan ignore tuple. Struktur yang dihasilkan oleh algoritma CB* memiliki struktur yang lebih mirip dengan struktur asal dari kasus Visit to Asisa dan Fire. Pada evaluasi hasil kasus uji kedua akan dianalisis performansi waktu pengembangan algoritma CB dengan ignore tuple dan algoritma CB*. Grafik perbandingan performansi waktu konstruksi struktur Bayesian Network dengan menggunakan pengembangan algoritma CB diberikan pada gambar berikut ini:
75
SESINDO 2010-Jurusan Sistem Informasi ITS
Gambar 8 DFD level 1 perangkat lunak PuCiBi*
76
SESINDO 2010-Jurusan Sistem Informasi ITS
7.
20
DAFTAR PUSTAKA
18
Jumlah edge
16
(Reference from Book) [1] Han, Jiawei dan Micheline Kamber. (2001). Data Mining: Concept and Techniques. Morgan Kaufmann Publishers: 279-296.
14 12
Penambahan edge
10
Pengurangan edge Arah edge salah
8 6 4 2
[2] Neapolitan, Richard E (2004). Learning Bayesian Networks. Pearson Prentice Hall Inc.
0 0
5
10
15
20
Persentase missing value
[3] Sandhyaduhita, Puspa, I. (2005). Algoritma CB: Algoritma yang Dibangun dengan Dua Pendekatan untuk Konstruksi Struktur Bayesian Network dalam Data Mining. Departemen Teknik Informatika ITB.
Gambar 9 Grafik struktur BN Visit to Asia menggunakan algoritma CB dengan ignore tuple 5
[4] Singh, M.; Valtorta, M. (1995). Construction of Bayesian Network Structures from Data: a Brief Survey and an Efficient Algorithm. Dept. of Computer Science, University of South Carolina, Columbia, USA.
Jumlah edge
4 Penambahan edge
3
Pengurangan edge 2
Arah edge salah
1 0 0
5
10
15
(Reference from Conference paper) [5] Fayyad, U.;Piatestky-Shapiro, G.; Smyth, P. (1996). From Data Mining to Knowledge Discovery. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, Cambridge, Mass
20
Persentase Missing Value
Gambar 10 Grafik struktur BN Visit to Asia menggunakan algoritma CB* Untuk semua kasus pengujian, node ordering yang dihasilkan oleh Fase I pada setiap pengembangan algoritma CB memberikan node ordering yang sama. Hal ini terjadi karena penggunaan metode yang sama, yaitu: metode ignore tuple pada Fase I untuk menangani data tidak lengkap. Oleh karena itu, penyebab utama perbedaan struktur yang dihasilkan oleh algoritma CB dengan ignore tuple dan algoritma CB* terletak pada Fase II, yaitu langkah untuk melakukan pemberian parent dan pembangunan struktur dengan score yang maksimal.
[6] Ruiz, Carolina. (1993). Illustration of the K2 Algorithm for Learning Bayes Net Structures. Department of Computer Science, WPI. [7] Ramoni, Marco dan Paola Sebastiani. (1997). Parameter Estimation in Bayesian Networks from Incomplete Database. Technical Report KMi-TR57, Knowledge Media Institute, The Open University. [8] Cheng, Jie, David Bell, Weiru Liu. (1998). Learning Bayesian Networks from Data: An Efficient Approach Based On Information Theory. Faculty of Informatics, University of Ulster, U.K.
Penggunaan sample data yang berbeda untuk jumlah missing value tertentu belum tentu menghasilkan struktur BN yang sama. Hal ini berarti, untuk jumlah missing value yang sama tetapi distribusi missing value yang berbeda, dapat memberikan struktur dan score yang berbeda pula. 6.
[9] Friedman, Nir. (1998). The Bayesian Structural EM Algorithm. Computer Science Division, University of California, Berkeley
SIMPULAN
Hasil pengembangan algoritma CB untuk menangani data tidak lengkap menunjukkan bahwa pengembangan algoritma CB menjadi algoritma CB* lebih baik daripada pengembangan algoritma CB dengan ignore tuple saja. Hal ini dibuktikan melalui hasil pengujian yang menunjukkan bahwa struktur yang dihasilkan oleh algoritma CB* merupakan struktur yang lebih akurat jika dibandingkan dengan struktur asal maupun struktur dari data lengkap.
77