Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
(M.4) MENGHITUNG FUNGSI RESIKO DAN KEGAGALAN PADA MODEL LINEAR
Mulyana Jurusan Statistika FMIPA Unpad Jl. Raya Bandung Sumedang Km 21 Jatinangor – Sumedang e_mail :
[email protected]
Abstrak Model linear adalah model yang sering digunakan dalam persoalan peramalan. Karena proses analisisnya cukup sederhana. Pada model linear Y = Xβ + ε , dengan Y : nx1 vektor respon
; X : nxm , m < n , matriks prediktor ; β , mx1 , vektor parameter ; dan ε , nx1 vektor kekeliruan dengan asumsi E( ε ) = 0 dan E( ε ε ’) = σ2I , I , nxn matriks identitas. Jika rank X penuh, maka ∧
∧
penaksir β sama dengan β = (X’X)-1X’ Y . Sehingga taksiran faktual dari Y , sama dengan Y = X ∧
∧
∧
β . Berdasarkan sifat kelinearan, penaksir rata-rata Y , E( Y ), juga sama dengan E(Y) = X β .
Berdasarkan kondisi ini, perlu dibangun fungsi target dan dihitung fungsi resiko dan kegalan ∧
pada saat menentukan peran dari β . Teori ini dapat digunakan untuk membandingkan pendapat konsumen dan produsen terhadap produk yang dibuat produsen tersebut. Kata Kunci : fungsi target, fungsi kegagalan, fungsi resiko. Abstract Linear models is models often use in forecasting problem. Because simple in analysisis. In models , Y = Xβ + ε with Y : nx1 respon vektor ; X : nxm , m < n , predictor matrix ; β : mx1
parameter vektor and ε : nx1 error vektor of , with assumption E( ε ) = 0 ,
E( ε ε ) = σ2I ,
∧
I identity matrix. If X rank full, then estimation β is β = (X’X)-1X’ Y . Then factual estimation of ∧
∧
∧
∧
Y is Y = X β . Be base on linearity, mean estimation of Y , E( Y ) ,is same is that E(Y) = X β . Be
base on this condition, need building target function, and computing risk and loss function, when ∧
determine function of β . This theory can be use for compare opinion of consumer and producer, in case product was make by that’s producer.
130
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Pendahuluan
Dalam model linier dengan asumsi kekeliruannya berdistribusi identik independen dengan rata-rata 0 dan varians konstan sama dengan σ2, menggabungkan antara penaksir aktual (nilai ramalan) dengan nilai rata-rata merupakan segi (aspect) penting dalam analisis regresi terapan. Misalkan sebuah pabrik farmasi membuat obat dengan formulasi baru dan ingin menelaah daya sembuhnya jika dibandingkan dengan formulasi lama, yang tingkat (lama) kesembuhannya dipengaruhi oleh beberapa variabel pada pasien. Dalam hal ini biasanya yang ditelaah pihak produsen adalah rata-rata tingkat kesembuhan, sedangkan pasien nilai aktualnya, sehingga persoalannya bagaimana menggabungkan kedua telaahan itu secara statistika ? Teori
Perhatikan model linier Y = Xβ + e
(1)
dengan Y , vektor variabel respon (variabel tidak bebas) berukuran nx1 X , matriks variabel explanatory (variabel bebas) berukuran nxm , m < n, m > 2 , dengan rank penuh β , vektor parameter model berukuran mx1
′ 2 e , vektor kekeliruan model berukuran nx1, dengan asumsi E (e ) = 0 , dan E ee = σ I , I
matriks identitas berukuran nxn Dengan menggunakan metode kuadrat terkecil, penaksir untuk β adalah ∧
β = (X′X ) X ′Y −1
(2)
yang merupakan statistik tak-bias dan bervarians minimum, sehingga penaksir aktual untuk Y ∧
∧
adalah Y = Xβ . Karena E (Y ) = Xβ , maka berdasarkan sifat kelinieran, penaksir untuk rata-rata Y , E(Y ) ∧
∧
∧
adalah E (Y ) = Xβ , sehingga dari paparan tersebut tersurat bahwa Xβ memiliki peran dua penaksir, yaitu sebagai penaksir nilai aktual dan nilai rata-rata untuk Y . Persoalannya ∧
bagaimana menyajikan statistik Xβ jika diinginkan perannya lebih dominan sebagai penaksir nilai aktual dari pada sebagai nilai rata-rata atau sebaliknya? Berdasarkan teori StatistikaMatematis, untuk keperluan tersebut diperlukan formulasi dari jumlah kuadrat kekeliruan model, agar bisa dibangun fungsi target beserta fungsi kegagalan (loss function) dan fungsi resikonya (risk function). Jumlah kuadrat kekeliruan model adalah 131
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
′ ′ e e = (Y − Xβ ) (Y − Xβ) (3) yang jika dijabarkan akan diperoleh persamaan ∧ ′ ∧ ∧ ′ ∧ ′ e e = Y − Xβ Y − Xβ + Xβ − Xβ Xβ − Xβ (4) ∧
Pada Persamaan (4) tersurat, fungsi kegagalan untuk Xβ jika digunakan sebagai penaksir Xβ dibangun atas kombinasi linier yang diboboti dengan persamaan ∧ ∧ ′ ∧ ∧ ′ ∧ f Xβ, Xβ = c Y − Xβ Y − Xβ + (1 − c ) Xβ − Xβ Xβ − Xβ (5) c : skalar nonstokastik, 0 < c < 1 Karena suku pertama pada Persamaan (4) merupakan jumlah kuadrat penaksir nilai aktual Y dan suku keduanya jumlah kuadrat residu E(Y ) , sehingga fungsi target untuk Y dapat dibangun berdasarkan persamaan T = (1 − λ )Y + λ E (Y ) (6) λ : skalar nonstokastik, 0 < λ < 1 Dapat ditunjukan bahwa ∧
∧
∧
∧
T = (1 − λ )Y + λ E(Y ) = Xβ dan E (T ) = X β
yang berarti ∧
∧
E (T ) = Xβ , ∧
sehingga T identik dengan Y . Fungsi kegagalan untuk T jika digunakan sebagai penaksir T sama dengan ∧ ′ ∧ ∧ f T, T = T − Xβ T − Xβ ∧ ′ ∧ ∧ ′ ∧ 2 = (1 − λ ) Y − Xβ Y − Xβ + λ2 Xβ − Xβ Xβ − Xβ ∧ ′ ∧ + 2λ(1 − λ ) Y − Xβ Xβ − Xβ (7)
132
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Pada Persamaan (7) tersurat, dua suku pertamanya identik dengan Persamaan (5) dan suku ketiganya merupakan kovarian yang diboboti antara residu nilai aktual dengan residu rata-rata hitung Y . Sehingga Persamaan (7) merupakan pengembangan sederhana (simple extention) dari ∧
Persamaan (5), yang berarti Persamaan (7) merupakan fungsi kegagalan untuk Xβ (jika digunakan sebagai penaksir Xβ ) yang sebaiknya digunakan, dengan fungsi resiko sama dengan ∧ ′ ∧ ∧ ′ ∧ ∧ 2 2 E f T, T = (1 − λ ) E Y − Xβ Y − Xβ + λ E Xβ − Xβ Xβ − Xβ ′ ∧ ∧ + 2λ(1 − λ )E Y − Xβ Y − Xβ yang sama dengan total dari penaksir rata-rata jumlah kuadrat kekeliruan (total predictive mean square error). Dari paparan ini disimpulkan bahwa formulasi untuk menggabungkan antara penaksir nilai aktual dengan rata-rata hitungnya harus mengikuti Persamaan (6). Shalabh (1999) mengemukakan, menggunakan fungsi resiko di bawah fungsi kegagalan dengan Persamaan (7) dapat digunakan dua bentuk penaksir untuk β , yaitu penaksir kuadrat terkecil seperti pada Persamaan (2), dan penaksir berdasarkan aturan Stein (Stein-rule estimator), yang persamaannya ′ C ∧ a Y H Y ∧ βS = 1 − β n − m + 2 Y′ HY (8) a : a > 0, skalar karakaterisasi penaksir −1 H = X (X ′X ) X ′ , H C = I − H , I matriks identitas ∧
Dapat ditunjukan β S bukan penaksir takbias, dan akan merupakan penaksir takbias jika ∧ ′ Y H C Y = 0 , yaitu jika Y = Y (model regresi sangat cocok sebagai model ramalan), sehingga dalam penggunaannya harus dikombinasi linierkan dengan penaksir kuadrat terkecil, dengan persamaan ∧
∧
b = (1 − w )β + w βS
(9) 0<w<1, skalar nonstokastik Jadi dalam hal ini penaksir untuk Xβ , bisa digunakan ∧
−1 p = Xβ = X(X′X ) X′Y = H Y
(10) atau
133
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
′ C ′ C a a Y H Y ∧ YH Y HY pS = XβS = X 1 − ′ β = H Y − n − m + 2 Y′ H Y n − m + 2 Y H Y ∧
(11) atau kombinasi liniernya P = (1 − w )p + w pS a YH C Y = (1 − w )H Y + w H Y − HY n − m + 2 YH Y C a YH Y = HY − w HY n − m + 2 YH Y (12) yang formulasinya setara dengan Persamaan (11). Jika p dan P digunakan sebagai penaksir untuk fungsi target T , maka E (T − p ) = E{(1 − λ )Y + λE Y − H Y} = (1 − λ )E Y + λE { E( Y )} − HE Y = (1 − λ )E Y + λ E( Y ) − X( X ′X ) −1 X ′Xβ = E Y − Xβ = Xβ − Xβ = 0
(13) dan ′ C a Y H Y HY E (T − P ) = E (1 − λ )Y + λE Y − H Y + w n − m + 2 Y′HY ′ C a Y H Y HY = E{(1 − λ )Y + λE Y − H Y} + Ew n − m + 2 Y′HY ′ C ′ C a a Y H Y Y H Y Xβ HE Y w = = w n − m + 2 Y′ HY n − m + 2 Y′ HY
(14) karena C a YH Y 0 < w < 1, n − m + 2 YH Y
maka
(
)
E T − p < E (T − P )
Fungsi resiko jika p dan P digunakan sebagai penaksir untuk fungsi target T , masing-masing sama dengan ′ 2 R (p) = E T − p T − p = (1 − λ ) n − (1 − 2λ )m σ 2 (15)
(
)(
) {
}
134
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
{
}
2 ′ R (P ) = E(T − P ) (T − P ) = (1 − λ ) n − (1 − 2λ )m σ 2
− wa
1 n−m {2λ(m − 2) − wa}σ 4 E ′ n − m + 2 Y HY
(16) Dari Persamaan (13), (14), (15) dan (16) dapat disimpulkan 1. jika λ = 0 , maka T = Y , R p = (n − m )σ 2 ,
()
R (P ) = (n − m )σ 2 + w 2 a 2 sehingga R (p ) ≤ R (P ) .
1 4 n−m σ , E n − m + 2 Y′HY
Hal ini berarti p superior dari P jika p digunakan sebagai penaksir nilai aktual Y , dan ∧
∧
karena p = Xβ , maka jika Xβ digunakan sebagai penaksir nilai aktual Y maka nilai ∧2
∧2
resikonya sama dengan (n − m ) σ , σ varians residu 2λ (m − 2 ) 2. jika 0 < λ < 1 , dan jika wa < 2λ (m − 2 ) atau a < , m > 2 maka w n − m 1 {2λ(m − 2) − wa} > 0 wa E n − m + 2 Y ′ H Y sehingga R (p ) ≥ R (P ) . Hal ini berarti P superior dari p jika P digunakan sebagai penaksir rata-rata Y , yang ∧
berarti Xβ tidak sepenuhnya dapat dijadikan penaksir aktual Y karena terkombinasi dengan sebagai penaksir rata-rata ∧
Dari paparan tersebut, disimpulkan jika Xβ digunakan sebagai penaksir nilai aktual Y , ∧2
∧2
maka resikonya (n − m ) σ , σ varians residu, dan nilai ini akan cukup kecil jika model regresi cocok digunakan sebagai model ramalan, dan untuk penaksir rata-rata Y , E( Y ), sebaiknya digunakan statistik C ∧ a YH Y ∧ Xβ P = Xβ − w n − m + 2 YH Y ∧2
karena nilai resikonya lebih kecil dari (n − m ) σ , jika a < Terapan
135
2λ (m − 2 ) ,m > 2. w
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Untuk menggunakan teori ini diperlukan dua kelompok sampel yang identik, dengan sampel kedua merupakan sampel lanjutan dari sampel pertama, misalnya untuk kasus pabrik farmasi seperti yang dikemukan pada pendahuluan, sampel pertama adalah tingkat penyembuhan obat dengan formulasi lama, dan yang kedua dengan formulasi baru. Jika model linier sampel pertama disajikan seperti pada Persamaan (1), maka untuk sampel kedua oleh Y f = Xf β + ef (17) dengan Y t vektor berukuran kx1, Xf matriks berukuran kxm dengan rank penuh, m < k < n . Sudah dikemukakan pada teori, pada sampel pertama penaksir untuk Xβ adalah p = X (X ′X ) X ′Y −1
atau ′ C a Y H Y P = (1 − w )p − w p n − m + 2 YH Y dengan 2λ (m − 2 ) a< ,m > 2, w −1 H = X (X ′X ) X ′ , H C = I − H , I matriks identitas berukuran mxm dan fungsi targetnya T = (1 − λ ) Y + λE (Y ) = Y − λ{Y − E (Y )} sehingga pada sampel kedua penaksir untuk X f β dapat digunakan C
−1 a ′ ′ Yf Hf Yf p f = X f X f X f X f Y f atau P f = (1 − w )p f − w p k − m + 2 Yf Hf Yf f
dengan 2λ (m − 2 ) , m > 2, a< w −1 ′ ′ H f = X f X f X f X f , H f C = I f − H f , If matriks identitas berukuran kxk. dan fungsi targetnya T f = (1 − λ )Y f + λE (Y f ) = Y f − λ{Y f − E (Y f )} ∧
Pada sampel pertama, jika p sebagai penaksir T (atau Xβ sebagai nilai ramalan Y , ∧
∧2
∧
∧2
Y = Xβ ) maka nilai resikonya sama dengan (n − m ) σ , σ varians residu sampel pertama. ∧
Dan jika P sebagai penaksir T (atau P sebagai penaksir rata-rata Y , E (Y ) = P ) maka nilai ∧2
resikonya lebih kecil dari (n − m ) σ .
136
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010 ∧
Analog untuk sampel kedua, jika p f sebagai penaksir T f (atau X f β sebagai nilai ramalan Y f , ∧
∧2
∧
∧
Y f = X f β ) maka nilai resikonya sama dengan (k − m ) σ f , σ f 2 varians residu model sampel kedua. ∧
Dan jika P f sebagai penaksir T f (atau P f sebagai penaksir rata-rata Y f , E(Y f ) = P f ) maka ∧
nilai resikonya lebih kecil dari (k − m ) σ f . Sehingga jika hasil penaksiran pada sampel pertama dan kedua digabungkan, maka penaksir nilai aktual respon sama dengan (1 − λ)p f + λ p , 2
dan penaksir rata-ratanya sama dengan (1 − λ ) P f + λ P .
Kepustakaan Searle, S. R. , 1971 , Linear Models , John Wiley & Sons , New York. Drafer, N. & Smith, H. , 1981 , Applied Regression Analysis, second edition , John Wiley & Sons , New York. Shalabh , 1999 , Improving The Prediction in Linear Regression Models , Journal of Statistical Research , Vol. 3 No. 1 pp 33 – 39 , Bangladesh. Graybill, F. A. , 1961 , An Introduction to Linear Statistical Models , McGraw-Hill Book Co. Inc. , New York Berger, J. O. , 1985 , Statistical Decision Theory and Bayesian Analysis , second edition , Springer-Verlag , New York. Ohtani, K. , 1998 , The Excact Risk of Weighted Average Estimator of OLS and Stein-rule Estimator in Regression under Balanced Loss , Statistics & Decisions , Vol. 16 , pp 35 – 45. Hogg, R. V. & Craig, A. T. , 1978 , Introduction to Mathematical Statistics, fourth edition , Macmillan Pub. Co. Inc. , New York.
137
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
(M.5) PEMBENTUKAN FAST ALGORITHM FUZZY C-MEANS CLUSTER DENGAN INDEKS VALIDITAS XIE DAN BENI (XB) DAN PROPORSI EIGEN VALUE DARI MATRIKS SIMILIARITY
Anindya Apriliyanti Pravitasari1 Email:
[email protected] ABSTRAK Dalam analisis pengelompokkan (cluster), banyak kelompok menjadi suatu masalah yang berarti. Beberapa peneliti memilih banyak kelompok sesuai dengan kebutuhan dalam penelitiannya. Beberapa penelitian dalam analisis cluster lebih menitikberatkan pada struktur dan metode pengelompokkan yang terus berkembang dari waktu ke waktu. Metode terakhir yang sedang diminati adalah Fuzzy C-means Cluster. Fuzzy C-means Cluster melakukan pengelompokkan dengan prinsip meminimumkan fungsi objektif pengelompokkannya dimana salah satu parameternya adalah fungsi keanggotaan dalam fuzzy (sebagai pembobot) yang disebut juga dengan fuzzier (Klawonn dan Höppner, 2001). Makalah ini selain mengkaji metode pengelompokkan dengan Fuzzy C-means Cluster juga akan memilih banyak kelompok ideal dengan menggunakan indeks XB (Xie dan Beni). Untuk jumlah objek yang besar, indeks XB akan dihitung sebanyak objek yang dikelompokkan, maka hal ini tidaklah efektif. Untuk itu dicoba untuk membatasi banyak kelompok dengan menggunakan proporsi eigen value dari matriks kemiripan (similarity). Dengan membatasi banyak kelompok, perhitungan untuk mendapatkan kelompok ideal akan semakin cepat. Hal ini akan sangat berguna untuk efisiensi algoritma perhitungan indeks XB. Kata kunci : analisis pengelompokkan, cluster, fuzzy c-means, indeks XB, proporsi, eigen value, matriks kemiripan, similarity.
1. Pendahuluan
Analisis Cluster adalah salah satu analisis data eksploratori yang bertujuan untuk menentukan kelompok atau grup dari sekelompok data. Awal mulanya metode ini dikembangkan 1
Staf Pengajar Jurusan Statistika, FMIPA, Universitas Padjadjaran Bandung
138
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
dengan menemukan struktur pengelompokkan diantara objek yang akan dikelompokkan. Paradigma data clustering mulai banyak diminati berbagai kalangan dan ditulis dalam berbagai paper dan jurnal (Shihab, 2000). Analisis cluster sempat disebut sebagai “primary tool for socalled knowledge discovery” (Fayyad et al, 1996) karena tingkat temuan struktur dan metode yang berkembang begitu pesat seiring dengan perkembangan paradigma lain diluar statistik, seperti fenomena data mining, intelligent data analysis (Liu, 2000), sampai image processing yang saat ini banyak diteliti. Faktanya, karena menggunakan data yang besar dan algoritma yang secara iteratif menentukan pengelompokkan, maka analisis cluster memiliki kepekaan akan kebutuhan yang tinggi dalam komputasi. Perkembangan analisis cluster dimulai dari metode hierarchical yang secara garis besar membentuk sebuah tree diagram yang biasa disebut dengan dendogram yang mendeskripsikan pengelompokan berdasarkan jarak, graph-theoritic melihat objek sebagai node pada network terboboti, mixture models mengasumsikan suatu objek dihasilkan dari skala data yang berbedabeda, partitional lebih dikenal dengan metode non-hierarchy termasuk didalamnya adalah metode K-means cluster. Perkembangan terakhir dari analisis cluster mempertimbangkan tingkat keanggotaan yang mencakup himpunan fuzzy sebagai dasar pembobotan bagi pengelompokan yang disebut dengan fuzzy clustering (Bezdek, 1981). Metode ini merupakan pengembangan dari metode partitional dengan pembobotan fuzzy yang memungkinkan pengelompokkan dimana kelompok data tidak terdistribusi secara jelas. Sejalan dengan perkembangan metode dalam analisis cluster, penentuan jumlah kelompok tetap dilakukan secara subjektif. Metode hierarchi (single linkage, complete linkage dan average linkage) membuat cut off dari dendogram kemudian menentukan jumlah kelompok yang ideal. Metode non-hierarci atau partitional menentukan terlebih dahulu jumlah cluster yang akan dibentuk, termasuk juga pembentukan kelompok dalam Fuzzy C-means Cluster. Penentuan jumlah kelompok biasanya disesuaikan dengan tujuan penelitian. Suatu masalah kemudian timbul, bagaimana jumlah kelompok ideal yang meminimumkan fungsi objektif sebagai dasar pengelompokkan. Jika dilakukan pemilihan jumlah kelompok dari satu kesatuan kelompok besar sampai sebanyak objek yang akan dikelompokkan, maka penyelesaiannya akan trivial. Karena bagaimanapun juga fungsi objektif akan optimal saat jumlah kelompok yang terbentuk sama dengan jumlah objek yang dikelompokkan. Hal ini dikarenakan tingkat kemiripan (similiarity) yang tinggi terhadap objek itu sendiri. Oleh karena itu dicoba untuk membatasi jumlah pengelompokkan berdasarkan proporsi eigen value dari matrik korelasi objek yang akan dikelompokkan. Prinsipnya hampir sama dengan principal komponen dan analisis faktor yang menggunakan proporsi eigen value sebagai ukuran kontribusi yang dapat diberikan ketika mereduksi dimensi variable. Pembatasan jumlah pengelompokkan ini kemudian dikontrol dengan Indeks XB (Xie dan Beni), dimana kelompok hasil pemilihan dari proporsi eigen value yang memaksimumkan Indeks XB adalah ukuran kelompok yang terbaik.
139
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
2. Fuzzy C-Means Cluster
Secara umum teknik dari fuzzy cluster adalah meminimumkan fungsi objektif dimana parameter utamanya adalah fungsi keanggotaan dalam fuzzy (membership function) yang disebut juga dengan fuzzier (awonn dan Höppner, 2001). Klawonn secara khusus mendalami fuzzy clustering sebagai metode yang baik untuk digunakan dalam pengelompokkan data spasial dan image analysis (Laboratorium of Data analysis and Pattern Recognition). Oleh karena itu sebagian besar referensi dari tulisan ini didapatkan dari jurnal penelitian Klawonn bersama peneliti lainnya. Fuzzy C-means cluster pertama kali dikemukakan oleh Dunn (1973) dan kemudian dikembangkan oleh Bezdek (1981) yang banyak digunakan dalam pattern recognition. Metode ini merupakan pengembangan dari metode non hierarki K-means Cluster, karena pada awalnya ditentukan dulu jumlah kelompok atau cluster yang akan dibentuk. Kemudian dilakukan iterasi sampai mendapatkan keanggotaan kelompok tersebut. Metode ini adalah metode yang paling digemari karena merupakan metode yang paling robust (( Klawonn dan Höppner, 2001) dan (Klawonn, 2000)) dan memberikan hasil yang smooth (halus) dengan toleransi relatif (Shihab, 2000). Prinsip utama pengelompokkan dengan fuzzy c-means cluster adalah meminimumkan fungsi objektif c
N
J FCM (P, U, X , c , m ) = ∑∑ (u ik ) m d ik2 (x k , p i )
(1)
i =1 k =1
dengan constraint atau fungsi batasan c
∑u
ik
= 1 , untuk ∀k ∈ {1, K , N}.
(2)
i =1
Keterangan: P dan U adalah variabel yang kondisi optimalnya diharapkan, untuk matriks U kondisi optimalnya berarti konvergensi keanggotaan kelompok dalam FCM. X, c, m adalah parameter input dari JFCM, dimana: • c adalah jumlah cluster yang memenuhi X (jumlah cluster yang diinginkan, 2 ≤ c < N ) • m ≥ 1 adalah tingkat ke-fuzzy-an dari hasil pengelompokkan. Parameter ini disebut dengan fuzzier, nilai dari m yang sering dipakai dan dianggap yang paling halus adalah m=2 (Klawonn dan Höppner, 2001) • uik adalah tingkat keanggotaan yang merupakan elemen dari matriks U. • N jumlah observasi. • d ik2 adalah jarak observasi yang dapat dirumuskan sebagai berikut:
d ik2 (x k , p i ) = x k − p i
2 A
= (x k − p i ) A (x k − p i ) T
140
(3)
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Jika A adalah matriks identitas maka d ik2 adalah jarak Euclid. Algoritma pengelompokan Fuzzy C-means cluster diberikan sebagai berikut: 1. Menentukan c banyak cluster atau kelompok yang ingin dibuat. 2. Menentukan tingkat ke-fuzzy-an hasil pengelompokan (m). 3. Menghitung fuzzy cluster center (P) dengan persamaan (2) N
∑u * i
p =
m ik
xk
k =1 N
∑u
(4) m ik
k =1
4. Update anggota matriks U dengan persamaan 1 u ik* = 1 / ( m −1) 2 c d ik ∑ 2 j =1 d jk
(5)
5. Bandingkan nilai keanggotaan dalam matriks U, jika || U(k+1) - U(k)||< ε maka sudah konvergen dan iterasi dihentikan. Jika tidak maka kembali ke langkah 3.
3. Penentuan Banyak Kelompok
Penentuan banyak kelompok dalam Fuzzy C-Means Cluster didasarkan pada dua hal. Yang pertama adalah dengan membatasi banyak kelompok yang terbentuk melalui proporsi eigen value matriks korelasi dari objek yang akan dikelompokkan. Yang kedua adalah melakukan kontrol dengan indeks XB. Tujuannya adalah untuk mengetahui apakah benar banyak kelompok terbaik bisa didapatkan diantara banyak cluster yang dibatasi oleh proporsi eigen value matriks korelasi. Berikut ini adalah ulasan mengenai proporsi eigen value matriks korelasi dan Indeks XB. 3.1 Proporsi Eigen Value Matriks Korelasi
Analisis Eigen adalah salah satu teknik yang memberikan ringkasan struktur data yang direpresentasikan oleh matriks korelasi ataupun kovarians (Johnson dan Wichern, 2002). Proporsi dari eigen value menggambarkan seberapa besar struktur data yang dapat diwakili atau direpresentasikan oleh matriks korelasi atau kovarians tersebut. Dalam analisis komponen utama dan analisis faktor, proporsi dari eigen value memberikan interpretasi mengenai seberapa besar data dapat terwakili dalam dimensi yang telah direduksi. 141
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Pada kasus pengelompokkan dalam analisis cluster, matriks yang digunakan adalah matriks kemiripan dari objek yang akan dikelompokkan. Prinsipnya adalah semakin nilai kemiripan antara objek satu dengan yang lain mendekati 1, maka nilai pengamatan antar objek tersebut memiliki banyak kesamaan (berarti memungkinkan untuk menjadi satu kelompok). Proporsi eigen value untuk ilustrasi ini berarti memberikan informasi besarnya tingkat kesamaan antar objek. Proporsi eigen value 100 persen diberikan oleh semua eigen yang terbentuk yang banyaknya sama dengan banyak objek yang dikelompokkan. 3.2 Indeks XB (Xie dan Beni)
Sesuai dengan namanya Indeks XB ditemukan oleh Xie dan Beni yang pertama kali dikemukakan pada tahun 1991. Validitas dalam FCM ditentukan oleh banyak kelompok optimum melalui perhitungan Indeks validitas. Formula dari Indeks XB diberikan pada (6). Formula ini mirip dengan Separation Index dengan nilai m yang dapat berubah-ubah, oleh karena itu indeks ini dapat digunakan untuk metode hard partition seperti K-means cluster maupun FCM. Kriterianya banyak kelompok optimum diberikan oleh nilai XB yang minimum. c
XB(c ) =
N
∑∑ (u
ik
) m d ik2 (x k , p i )
i =1 k =1
N min i , j p i , p j
(6)
2
Dengan c menyatakan banyak cluster, uik adalah tingkat keanggotaan, d ik2 adalah jarak observasi dengan pusat cluster, pi adalah pusat cluster, N merupakan banyak objek yang akan 2
dikelompokkan, min i , j p i , p j menyatakan jarak minimum antara pusat cluster pi dan pj. Kriteria banyak cluster optimum diberikan oleh indeks XB yang minimum. 4. Analisis efisiensi algoritma dengan menggunakan notasi Big-O Efisiensi di dalam algoritma sangat dipertimbangkan karena suatu masalah dapat diselesaikan dengan berbagai macam cara yang dalam hal ini disebut sebagai algoritma (langkah penyelesaian masalah). Algoritma yang bagus adalah algoritma yang efisien dimana algoritma tersebut dikatakan bagus karena dinilai dari aspek kebutuhan waktu dan ruang membutuhkan jumlah yang sedikit. Notasi Big-O adalah notasi matematika yang digunakan untuk menggambarkan suatu fungsi asimptotik. Notasi Big-O sering digunakan untuk menjelaskan berapa besar ukuran dari suatu data mempengaruhi penggunaan sebuah algoritma dari sumber komputasi. Notasi Big-O
142
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
juga biasa disebut sebagai notasi Landau (Landau notation), Bachman-Landau notation, dan notasi asimptotik (Asimptotik notation). Notasi Big-O mempunyai aplikasi pada dua buah bidang. Pada bidang matematika, notasi tersebut biasanya digunakan untuk menjelaskan tahap sisa dari deret tak terhingga, khususnya pada deret asimptotik. Pada bidang ilmu komputer, notasi ini sangat berguna dalam analisis dari kompleksitas algoritma. 5. Pembentukan Fast Algorithm, Simulasi dan Perhitungan Big-O Algoritma baru yang terbentuk adalah sebuah kelengkapan algoritma dengan menambahkan batasan perulangan program yang tadinya sebanyak objek (N) berkurang menjadi sebanyak M (banyaknya nilai eigen yang secara cepat membentuk proporsi 100%). Perbandingan Algoritma lama dan baru terdapat pada Tabel 1.
Tabel 1. Perbandingan ALgoritma lama dan baru Old Algorithm Fast Algorithm Tahap Persiapan Pembentukan Matriks O (Nk ) kemiripan O (N ) Perhitungan Eigen Value
Tahap Clustering Lakukan dari 2 sampai N O(( N − 1)h) Pembentukan Kelompok O ( N − 1) Perhitugan Indeks XB Pencarian XB minimum Dengan:
O ( N − 1)
Penentuan banyaknya nilai eigen yang menghasilkan proporsi 100% Tahap Clustering Lakukan dari 2 sampai M Pembentukan Kelompok
O (( M − 1) h)
Perhitugan Indeks XB
O ( M − 1)
Pencarian XB minimum
O ( M − 1)
O (N )
N: banyak objek; k: banyak variable; M: banyak nilai eigen yang jumlahan proporsinya 100%; h: banyak iterasi dalam pembentukan kelompok.
Simulasi dilakukan untuk melihat apakah benar bahwa nilai XB minimum dapat diperoleh dengan pembatasan perulangan program menggunakan banyaknya nilai eigen dari 143
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
matriks similarity yang proporsinya 100%, dan apakah algoritma baru yang terbentuk cukup efisien. Beberapa jenis data simulasi dibangkitkan dan dicari banyak pengelompokan optimum menggunakan algoritma lama dan baru. Hasilnya ditampilkan pada Tabel 2. Tabel 2. Simulasi Data Data
Simulasi 1
Simulasi 2
Simulasi 3
Simulasi 4
Kriteria Banyak Objek (N) Banyak Variabel (k) Banyak nilai eigen (M) XB minimum Banyak iterasi (h) Big-O Banyak Objek (N) Banyak Variabel (k) Banyak nilai eigen (M) XB minimum Banyak iterasi (h) Big-O Banyak Objek (N) Banyak Variabel (k) Banyak nilai eigen (M) XB minimum Banyak iterasi (h) Big-O Banyak Objek (N) Banyak Variabel (k) Banyak nilai eigen (M) XB minimum Banyak iterasi (h) Big-O
Old Algorithm 23 5 5 200 O(4400) 100 10 7 200 O(19800) 117 4 9 300 O(38400) 290 15 18 500 O(144500)
Fast Algorithm 23 5 6 5 200 O(800) 100 10 7 7 200 O(1200) 117 4 12 9 300 O(2400) 290 15 23 18 500 O(8500)
Pada Tabel 2 terlihat bahwa nilai XB minimum yang menggambarkan banyak kelompok ideal yang terbentuk selalu berada pada range M. Hal ini membuktikan bahwa pembatasan perulangan pada algoritma FCM dapat dilakukan dengan mencari banyaknya nilai eigen yang membentuk proporsi 100%. Selain itu dengan melakukan pembatasan perulangan, maka algoritma yang tercapai akan lebih efisien, hal ini terlihat dengan nilai Big-O pada fast algorithm yang jauh lebih kecil dari pada old algorithm. 6. Kesimpulan 144
Prosiding Seminar Nasional Statistika Universitas Padjadjaran, 13 November 2010
Penentuan jumlah cluster yang ideal dapat dilakukan dengan perhitungan indeks XB. Namun untuk jumlah data yang besar, maka perhitungan indeks XB akan dilakukan sampai jumlah pengelompokkan maksimum, yaitu sebanyak jumlah objek itu sendiri. Hal ini kurang efisien, maka direkomendasikan untuk menentukan banyaknya cluster yang mungkin terbentuk dengan memperhatikan proporsi kumulatif eigen value matriks similarity dari objek dalam pengelompokkan.
Referensi : Bezdek, James., 1981. Pattern Recognition with Fuzzy Objective Function Algorith, Plenum Press, New York. Calinski and Harabasz, (1974), “A Dendrite Method for Cluster Analysis”. Communication in Statistics 3, 1-27. Dunn, J.C., (1973), “A Fuzzy Relative of the ISODATA Process and Its Use in Detecting Compact well-Separated Cluster”, Journal of Cybernetic 3, 32-57. Fayyad, U, M., Piatetsky-Saphiro, G., Smith., (1996). Advance and Knowledge discovery and data mining, Part 2.33, http://AAIPress.com/AdvanceKnowledgedisc-Fayyadetal// Johnson, Wichern, (2002), Applied Multivariate Statistical Analysis, Prentice Hall, New Jersey. Klawonn, Frank., (2000), “Fuzzy Clustering: Insight and a New Approach”, Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn. Klawonn dand Höppner, (2001), “What is Fuzzy about Fuzzy Clustering? Understanding and Improving the Concept of the Fuzzier”. Science Journal, http://public.rz.fhwolfenbuettel.de/klawonn. Klawonn dan Keller, (1997), “Fuzzy Clustering and Fuzzy Rules”, Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn. Klawonn dan Klementida, (1997), “Matematical Analysis of Fuzzy Clasifiers”, Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn. Klawonn dan Kruse, (1995), “Clustering Method in Fuzzy Control”, Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn. Sharma, S, (1996), Applied Multivariate Techniques, John Wiley and Sons, Inc, New York. Shihab, A.I., (2000) “Fuzzy Clustering Algorithm and Their Application to Medical Image Analysis”. Dissertation, University of London, London. Pickert, Klawonn, dan Wingender., (1997), “Fuzzy Cluster Analysis for Identification of Gene Regulation Region”. Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn. Zadeh, Lotfi. A., (1965), Fuzzy Sets. Information Control, vol 8, 338-353.
145