Latar Belakang
Jurusan Teknik Informatika, FTI UII
Analisis Cluster (teknik analisis statistika multivariat ) mengelompokkan n objek pengamatan ke dalam k kelompok (k < n) berdasarkan p peubah
PENDEKATAN ANALISIS FUZZY CLUSTERING PADA PENGELOMPOKKAN STASIUN POS HUJAN UNTUK MEMBUAT ZONA PRAKIRAAN IKLIM (ZPI) Nama Mahasiswa
:
Azwar Habibi
NRP
:
1308201003
Pembimbing
:
1. Dr. Sutikno, S.Si, M.Si
Co-Pembimbing
:
2. Dr. Ir. Setiawan, M.S
1. eksplorasi data, 2. reduksi data, dan 3. pelapisan data 3
Pada proses pengelompokkan secara klasik, pembentukan partisi dilakukan sedemikian rupa sehingga setiap objek berada tepat pada satu partisi. Akan tetapi, pada suatu saat, hal itu tidak dapat dilakukan, karena sebenarnya objek tersebut terletak diantara dua atau lebih partisi yang lain. Sehingga perlu dilakukan pengelompokkan dengan menggunakan Fuzzy clustering dimana dalam melakukan pengelompokkan mempertimbangkan tingkat keanggotaan himpunan fuzzy sebagai dasar pembobotan.
Surabaya, Senin 28 Juli 2010
What is Fuzzy Clustering ? Fuzzy clustering Î salah satu metode untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal euclidian untuk jarak antara vektor, yang bertujuan untuk mengelompokkan n objek yang disajikan dengan vektor ke dalam c suatu kelompok berdasarkan kesamaannya dengan pusat cluster yang diukur melalui fungsi jarak.
1. metode fuzzy c-means cluster, 2. metode fuzzy c-shell cluster, 3. metode fuzzy Subtractive cluster, dan lain-lain
Penelitian Terdahulu ¾ Bunkers et al. (1996) Î average linkage mempunyai kinerja yang baik. ¾ Gong dan Richman (1995) Î metode Ward’s mempunyai kinerja yang baik diantara metode-metode hierarkhi lainnya. ¾ Sutikno (2008), Î membahas tentang evaluasi Zona Prakiraan Iklim (ZPI) BMG dengan pendekatan analisis kelompok khususnya yang berhirarki yaitu membandingkan metode complete linkage, average linkage, dan Ward’s. ¾ Berbeda dengan penelitian terdahulu pada penelitian ini akan dilakukan pengelompokkan dan evaluasi zona prakiraan iklim (ZPI). Khususnya akan dibahas Metode analisis Fuzzy clustering yaitu metode fuzzy c-means cluster, fuzzy c-shell cluster. ¾ Metode Fuzzy C-means cluster sering digunakan dalam melakukan pengelompokan, karena metode ini memberikan hasil yang halus dan cukup efektif untuk meningkatkan homogenitas tiap cluster yang dihasilkan (shihab, 2000).
Why using Fuzzy Clustering?...
Kriteria indeks validitas
1. Memiliki toleransi terhadap data yang tidak tepat 2. Memberikan hasil pengelompokkan bagi objek-objek yang tersebar tidak teratur 3. Memberikan hasil yang halus karena pembobotan yang digunakan berdasarkan himpunan fuzzy 4. Mampu memetakan input kedalam output tanpa mengabaikan faktorfaktor yang ada
Indeks validitas
nilai simpangan baku dalam kelompok (Sw) (Within/Intra cluster) Î minimum nilai simpangan baku antar kelompok (SB) (between/inter cluster) Î maksimum
5. Metodenya sangat fleksibel Data curah hujan yang ada tersebar tidak teratur dengan banyak pengamatan yang ekstrim didalamnya yaitu antara data curah hujan di musim kemarau dan di musim hujan sehingga analisis Fuzzy clustering sangat relevan untuk digunakan. Fuzzy clustering dianggap mampu memetakan suatu input kedalam suatu output tanpa mengabaikan faktorfaktor yang ada. Sehingga, sangat fleksibel dan memiliki toleransi terhadap data-data yang ada.
1
Perumusan Masalah & Tujuan 1. Mengkaji metode fuzzy c-shell cluster; 2. membangun pengelompokkan zona prakiraan iklim di Stasiun-stasiun Pos Hujan di Kabupaten Karawang, Subang dan Indramayu dengan metode Fuzzy c-means cluster dan Fuzzy c-shell cluster ? 3. membandingkan kinerja dari hasil pengelompokan evaluasi zona prakiraan iklim antara metode Fuzzy c-means cluster dan Fuzzy c-shell cluster serta zona prakiraan iklim hasil BMKG?
Manfaat Penelitian Menambah wawasan dan pemahaman tentang fuzzy clustering
Fuzzy c-means cluster
Fuzzy c-shell cluster
kasus pengelompokan k l k evaluasi l i zona prakiraan iklim,
metode penyelesaian dalam fuzzy clustering yang lebih efektif
Batasan Masalah Fuzzy c-means cluster
Fuzzy c-shell cluster
TINJAUAN PUSTAKA ANALISIS CLUSTER KONSEP HIMPUNAN FUZZY
kasus pengelompokan evaluasi zona prakiraan iklim FUZZY C-MEANS CLUSTER Stasiun Pos Hujan di Kabupaten Karawang, Subang, dan Indramayu
FUZZY C-SHELL CLUSTER EVALUASI HASIL PENGELOMPOKKAN ANALISIS FAKTOR TINJAUAN CURAH HUJAN
2.1 ANALISIS CLUSTER
Teknik analisis statistika multivariat yang bertujuan untuk mengelompokan n objek pengamatan ke dalam k kelompok (k < n) berdasarkan p peubah, sehingga setiap pengamatan yang terletak dalam satu kelompok mempunyai sifat yang lebih besar dibandingkan dengan pengamatan yang terletak dalam kelompok lain.
2.2 KONSEP HIMPUNAN FUZZY
Proses pemetaan himpunan fuzzy didefinisikan dalam bentuk μ A ( x) ∈ [0,1] dengan A = {x, μ A ( x) x ∈ X } μ A ( x) = fungsi keanggotaan x di A yang memetakan X ke ruang keanggotaan M yang terletak pada rentang [0,1]. Fungsi keanggotaan adalah suatu fungsi yang mendefinisikan bagaimana memetakan titik-titik dalam ruang masukan ke dalam derajat keanggotaannya yaitu antara 0 dan 1.
2
Algoritma Fuzzy c-means cluster
2.3 FUZZY C-MEANS CLUSTER
M u la i
B aca : X C
¾Fuzzy c-means cluster adalah suatu teknik pengclusteran data yang mana keberadaan tiap-tiap data dalam suatu cluster ditentukan oleh nilai keanggotaan; Fungsi objektif FCM : JW (U,V,X) = jarak observasi :
c
N o r m a lis a s i X
T e n tu k a n : m , t = 0 T e n tu k a n s e c a ra a c a k : u (t) d a n v (t)
F o r i = 1 to c
∑ (( μ n
Vi =
n
∑
)m ⋅ xk
ik
k =1
(μ
)
)m
ik
k =1
n
∑∑ (μ i =1 k =1
d ( xk , vi ) = xk − vi 2 ik
2
ik
) m (d ik ) 2
F o r i = 1 to c
t = t + 1
F o r i = 1 to k
= ( xk − vi ) ( xk − vi ) T
μ
1
=
ik
m
∑
j =1
⎛ d ⎜⎜ d ⎝
1 ( m −1)
⎞ ⎟⎟ ⎠
2 ik 2 jk
T id a k
Δ = m a x Pt − Pt − 1 < ξ Ya
S e le s a i
2.4
FUZZY C-SHELL CLUSTER
Algoritma Fuzzy c-shell cluster M u la i
B a c a
T e n tu k a n T e n tu k a n
Fuzzy c-shell cluster menjelaskan teknik pendekatan yang dipakai dalam pengelompokan bersifat geometris, khususnya menggunakan bentuk lingkaran dan ellips. Fungsi objektif FCS : J s (U , V , R ) = jarak observasi :
c
F o r i =
i =1 k =1
ik
N o r m a lis a s i X
: u ( t) , r ( t) d a n
1
∑ (( μ
to
V
i
=
⋅ x
m
)
ik
)
k
k = 1
n
∑
( μ
v (t)
c
n
m
)
ik
k = 1
n
∑∑ (u
: X C
: m , t = 0 s e c a ra a c a k
F o r i =
) m ( Dik ) 2
1
to
m
x
c
n
ri =
∑
(u
ik
k = 1
)
∑
(u
ik
k = 1
( Dik ) 2 = ( x k − vi − ri ) 2 μ
ik
1
F o r i =
1
1
m
m a x
m
)
to
c
to
k
1
= j = 1
=
j +
i
T id a k
F o r i =
∑
Δ
j =
− v
k
n
⎛ d ⎜⎜ d ⎝
(U
j
2 ik 2 jk
− U
⎞ ⎟⎟ ⎠
1
( m − 1 )
j − 1
)<
ε
Y a
S e le s a i
2.6 Analisis Faktor
2.5 EVALUASI HASIL PENGELOMPOKKAN
9 kriteria nilai simpangan baku, yaitu: dalam kelompok (Sw) dan antar kelompok (SB) (Bunkers et al. 1996). 1/ 2 K K ⎡ dan 2⎤ −1 S w = K −1 ∑ S k S B = (K − 1) Xk − X k =1
⎢ ⎣
∑( k =1
mendapatkan sejumlah kecil faktor (komponen utama)
Tujuan
)⎥ ⎦
K = banyaknya kelompok yang terbentuk; Sk = simpangan baku kelompok ke-k; X k = rataan kelompok ke-k; X = rataan keseluruhan kelompok. 9 Semakin kecil nilai Sw (minimum) dan semakin besar nilai SB (maksimum), maka metode tersebut memiliki kinerja yang baik, artinya mempunyai homogenitas yang tinggi.
menerangkan semaksimal mungkin keragaman data model analisis faktor
X 1 − μ1 = l 11F1 + l 21F2 + ... + l 1m Fm + ε1
X 2 − μ2 = l 12 F1 + l 22 F2 + ... + l 2 m Fm + ε 2
M
M
M
M
M
M
X p − μ p = l p1F1 + l p1F2 + ... + l pm Fm + ε p
3
2.7 TINJAUAN CURAH HUJAN
3. METODOLOGI PENELITIAN 3.1 Ilustrasi Data
Zona Prakiraan Iklim (ZPI)
daerah yang pola hujan rataratanya memiliki perbedaan yang jelas antara periode musim kemarau dan musim hujan
Data
Sifat hujan dibagi menjadi 3 (tiga) kategori, yaitu : 1. Sifat Hujan Atas Normal (AN) : jika nilai curah hujan lebih dari 115% terhadap rata-ratanya. 2. Sifat Hujan Normal (N) : jika nilai curah hujan antara 85% 115% terhadap rata-ratanya. 3. Sifat Hujan Bawah Normal (BN) : jika nilai curah hujan kurang dari 85% terhadap rata-ratanya.
104 Stasiun Pos Hujan diKabupaten I d Indramayu, S b Subang dan Karawang Tingkat curah hujan tiap stasiun di kabupaten Karawang, Subang dan Indramayu
3.2 Identifikasi Variabel
3.3.1 Mengkaji metode fuzzy c-shell cluster
3.3 Metode Analisis Data
Melakukan optimasi dengan meminimumkan fungsi objektif
Metode fuzzy c-means cluster
Analisis Fuzzy Clustering
Data curah hujan bulanan
Data sekunder
c
n
J s (U , V , R ) = ∑ ∑ (uik ) m ( Dik ) 2
Metode fuzzy c-shell cluster
i =1 k =1
menggunakan pengganda lagrange. S k Struktur F Fungsii cmean dan d cshell Pada Software R
R 2.9.0.lnk
ArcView GIS 3.3.lnk
LFCS (U , V , R ) = J s + λk (constrain)
Membuat Peta Kontur untuk Mendeskripsikan Hasil Dari ZPI
4.1 Optimasi Fungsi Objektif pada Metode Fuzzy C-Shell Cluster
3.3.2 Tahapan Analisis Data
Data Curah Hujan
Mendeskripsikan Data Curah Hujan per Stasiun
c
i =1 k =1
c
•Fungsi pembatas :
Membentuk Kelompok dengan Metode Fuzzy c-means cluster dan Fuzzy c-shell cluster
∑u i =1
Tahap 1 Evaluasi Kinerja dengan nilai simpangan baku dalam kelompok (Sw) dan antar kelompok (SB)
ik
=1
•Jarak observasi : ( D ) 2 = ( x − v − r ) 2 ik k i i •Fungsi lagrange : LFCS (U ,V , R) = J s + λk (constrain)
Menentukan Metode Terbaik Metode Terbaik
n
2 m •Fungsi objektif FCS : J s (U , V , R) = ∑∑ (uik ) ( Dik )
Mereduksi Data Curah Hujan dengan Analisis Faktor
• Nilai optimum dari Peta Elevasi Kabupaten Karawang, Subang dan Indramayu
n
n
m
Identifikasi Kontur Curah Hujan
Tahap 2
Identifikasi Anggota ZPI ZPI BMKG
ZPI Baru
Membandingkan nilai hasil evaluasi simpangan baku dalam kelompok (Sw) dan antar kelompok (SB) ZPI Terbaik
uik (derajat keanggotaan)
⎛ c ⎞ uik = ∂ ∑∑ (uik ) D + ∑ λk ⎜ ∑ ( uik − 1) ⎟ i =1 k =1 k =1 ⎝ i =1 ⎠ =0 ∂uik c
2 ik
= Tahap 3
1 ( m −1)
1 1 ( m −1)
⎛ 1 ⎞ ⎟ 2 ⎟ j =1 ⎝ jk ⎠ 1 c
∑ ⎜⎜ D
⎛ 1 ⎞ ⎜ 2⎟ ⎝ Dik ⎠
1 ( m −1)
⎛ Dik2 ⎞ 2 ⎟ ⎟ j =1 ⎝ jk ⎠ c
∑ ⎜⎜ D
4
Optimasi Fungsi Objektif pada Metode Fuzzy CShell Cluster…1
4.2 Deskripsi Umum Curah Hujan Tiap Stasiun Pos Hujan di Kabupaten Karawang, Subang dan Indramayu Bulan
• Nilai optimum dari vi (pusat cluster)
∂LFCS ∑ (uik )m xk =0 ⇔ vi = k =1n ∂vi
Minimum
Maksimum
Rata-rata
Simpangan baku
Januari
162,3
569,5
338,3
83,31
Februari
123,9
442,5
238,1
65,35
Maret
95,65
491,50
198,82
79,65
April
64,6
427,9
157,7
79,14
Mei
31,70
297,95
92,68
48,42
Juni
19,63
146,40
62,29
27,11
Juli
10,69
119,09
42,71
20,51
n
ik
k =1
)
350
m
• Nilai Nil i optimum ti d darii ri (Jari-jari (J i j i cluster) l t )
∂LFCS (uik ) m ∑ =0 k =1 r = i ∂ri n n
k =1
ik
)m
Agustus
1,53
94,29
28,44
18,18
Septembe r
9,58
124,47
37,11
21,37
Oktober
Multicollinearity is a natural problem in clustering F1
F2
F3
F4
Januari
0.138
0.947
0.210
0.131
Februari
0.436
0.749
0.319
0.311
Maret
0.836
0.346
0.251
0.279
April
0.872
0.209
0.272
0.283
Mei
0.675
0.393
0.531
0.229
Juni
0.594
0.483
0.580
0.093
Juli
0.401
0.418
0.668
0.387
Agustus
0.455
0.543
0.593
0.308
September
0.487
0.385
0.314
0.687
Oktober
0.792
0.198
0.282
0.457
November
0.894
0.120
0.288
0.237
Desember
0.856
0.402
0.254
0.051
150 100
32,40
246,90
85,65
43,64
Novembe r
74,9
410,8
161,6
69,54
Desember
91,88
459,70
203,84
66,60
0
Bulan
Interpretasi Analisis Fuzzy clustering Menggunakan Bantuan Software Statistika R
Scree Plot of Jan, ..., Des 10
8
Eigen nvalue
200
4.4 Analisis Fuzzy Clustering dengan Metode Fuzzy C-Means Cluster dan Metode Fuzzy C-Shell Cluster
4.3 Interpretasi Analisis Faktor Variabel/ Bulan
250
50
x k − vi
∑ (u
300
mm
∑ (u
400
Metode fuzzy c-means cluster
Metode fuzzy c-shell cluster
6
St u tu Fungsi Struktur u gs c cmean ea da dan cs cshell e dalam pustaka e1071 Pada Paket R
4
> library(e1071) lib ( 1071)
2
Import Data From EXCEL Data Set
0 1
2
3
4
5
6 7 8 Jumlah Faktor
9
10
11
inputfuzzy <- sqlQuery(channel = 1, select * from[inputscorefac$])
12
Menentukan pengelompokkan
Menentukan Kualitas Kelompok…1
#optimasi pengelompokkan yaitu 2 sampai 10 kelompok untuk metode fuzzy c-means cluster inputfuzzy for (i in 2:10){ kelompok
cluster_quality<-function(x,y){ mk<-tapply(y, list(kelompok=x),mean,na.rm=TRUE) # mean sk<-tapply(y, list(kelompok=x),sd, na.rm=TRUE) # std. deviations sw<-(sum(sk))/max(x) sb<-sqrt(sum((mk-mean(y))^2)/(max(x)-1)) lambda<-(sw/sb) cat("===========================================================================\n") cat("Rataan kelompok ke k\n") print(mk) cat("===========================================================================\n") cat("Simpangan cat( Simpangan baku kelompok ke k\n k\n") ) print(sk) cat("===========================================================================\n") cat("Simpangan baku dalam kelompok\n") print(sw) cat("===========================================================================\n") cat("Simpangan baku antar kelompok\n") print(sb) cat("===========================================================================\n") cat("Rasio Sw/Sb (lambda)\n") print(lambda) cat("===========================================================================\n") } cluster_quality(kelompok$cmeans_2,kelompok$sf1)
5
Menentukan Kualitas Kelompok…2
Menentukan luasan zona prakiraan iklim…1
Metode fuzzy c-means cluster Kelompok
sf1
sf2
sf3
sf4
Average
2
1,213697
11,27121
1,991437
3,970954
4,61182
3
1,032743
0,843682
1,558744
2,301805
1,43424
4
0,712229
0,797347
1,79438
1,162965
5
0,386079
0,624076
1,578754
1,074696
0,91590
6
0,29502
0,525813
1,38641
1,00606
0,80333
7
Output pengelompokkan yang optimum Konvert ke-software ArcView GIS 3.3 (program yang dapat menjelaskan data spasial bereferensi geografis)
1,11673
0,608651
0,600526
1,118468
0,831346
0,78975
8
0,328027
0,565375
0,909921
0,803536
0,65171
9
0 344277 0,344277
0 581724 0,581724
0 799283 0,799283
0 759908 0,759908
0 62130 0,62130
10
0,344298
0,565003
0,516359
0,506571
0,48306
Metode Fuzzy C-Shell Cluster Kelompok
sf1 2
sf2
sf3
sf4
Average
21,7036
2,141962
444,9992
19,47861
122,08084
3
3,223711
5,666965
2,922989
4,057012
3,96767
4
2,575579
2,399504
4,538213
7,135729
4,16226
5
4,833121
3,31824
1,993173
4,991448
3,78400
6
3,105102
2,260952
3,210055
4,674141
3,31256
7
4,907659
1,144484
1,577645
2,307168
2,48424
8
0,738159
0,967343
2,433433
1,859901
1,49971
9
2,116312
2,257872
1,900561
1,581344
1,96402
10
1,072381
0,673956
0,779972
0,666793
0,79828
Menentukan luasan zona prakiraan iklim…2
Menentukan luasan zona prakiraan iklim…3
Menentukan Re-grouping…1
Menentukan Re-grouping…2 Zona
Kode stasiun awal
Kode Keterangan stasiun dominan
Zona 1
1
1
Tidak mengalami revisi
Zona 2
9
9
Tidak mengalami revisi
Zona 3
4, 5, 7, 8, dan 9
10
Kode 4 sebanyak 1; 5 sebanyak 5; 7 sebanyak 5; 8 sebanyak 3; 9 sebanyak 1
Zona 4
5, 7
4
Kode 5 sebanyak 2; 7 sebanyak 1
Zona 5
2, 5, 6, dan 8
7
Kode 2 sebanyak 1; 5 sebanyak 1; 6 sebanyak 1; 8 sebanyak 2
Zona 6
8
8
Tidak mengalami revisi
Zona 7
3, 8
3
Kode 8 sebanyak 1
Zona 8
2, 8
2
Kode 8 sebanyak 1
Zona 9
5, 6
6
Kode 5 sebanyak 2
6
Perbandingan Hasil Pengelompokkan Metode Fuzzy C-Means Cluster dengan ZPI BMKG
KESIMPULAN...1
uik (derajat keanggotaan)
• Nilai optimum dari
⎛ c ⎞ uik = ∂ ∑∑ (uik ) D + ∑ λk ⎜ ∑ ( uik − 1) ⎟ i =1 k =1 k =1 ⎝ i =1 ⎠ =0 ∂uik c
n
2 ik
• Nilai optimum dari vi (pusat cluster) n
∑ ik k ∂LFCS k =1 = 0 ⇔ vi = n ∂vi ∑ (uik )m (u ) m x
=
1 ( m −1)
1
n
m
1 ( m −1)
⎛ 1 ⎞ 2 ⎟ ⎟ j =1 ⎝ jk ⎠ 1 c
∑ ⎜⎜ D
⎛ Dik2 ⎜⎜ 2 ∑ j =1 ⎝ D jk c
⎛ 1 ⎞ ⎜ 2⎟ ⎝ Dik ⎠
1 ( m −1)
⎞ ⎟⎟ ⎠
k =1
• Nilai optimum dari ri (Jari-jari cluster) Simpangan baku
SF1
SF2
SF3
SF4
------ ZPI BMKG -----0,40 0,52 0,68 0,41 1,11 1,23 0,88 1,66
Sw SB
SF1
SF2
SF3
SF4
------ ZPI Baru -----0.30 0.48 0,60 0.40 1.07 0,87 0,70 0,66
KESIMPULAN...2 2. Nilai rataan rasio Sw/Sb optimal untuk kedua metode adalah sama yaitu sebanyak 10 kelompok. Metode fuzzy c-means cluster = 0,48306; metode fuzzy c-shell cluster yaitu 0,79828; diperoleh 9 kelompok atau 9 zona (dari re-grouping); Anggota kelompok masing-masing zona adalah sebagai berikut: Zona
Wilayah
Zona 1
Karawang bagian barat laut
Zona 2
Karawang bagian barat daya
Zona 3
Karawang bagian tengah, sebagian Subang bagian utara
Zona 4
Pantai utara Karawang/Subang/Indramayu
Zona 5
Sebagian Subang bagian tengah sebelah timur, sebagian Indramayu bagian tengah sebelah barat
Zona 6
Sebagian subang bagian tenggara, sebagian indramayu bagian barat daya
Zona 7
Subang bagian selatan
Zona 8
sebagian Indramayu bagian selatan dan barat daya
Zona 9
sebagian Indramayu bagian timut dan tenggara
n
∂LFCS r = =0 i ∂ri
∑ (u k =1
ik
) m x k − vi
n
∑ (u k =1
ik
)m
KESIMPULAN...3
3. Homogenitas iklim hasil zona revisi menggunakan Metode fuzzy c-means cluster (ZPI revisi) mempunyai kinerja lebih bagus dari pada hasil pengelompokkan yang diperoleh dari hasil ZPI BMKG.
Saran
1. Dengan Software Statistik R dapat dibuat graphical user interface (GUI) khusus tentang analisis Fuzzy clustering Î memudahkan dalam p penggunaannya. gg y 2. Lakukan pengelompokkan ZPI dengan metode Fuzzy clustering lainnya dan gunakan indeks validitas Fuzzy clustering lainnya.
TERIMA KASIH
7