Latar Belakang. What is Fuzzy Clustering? Why using Fuzzy Clustering?... Kriteria indeks validitas. Penelitian Terdahulu

Latar Belakang

Jurusan Teknik Informatika, FTI UII

Analisis Cluster (teknik analisis statistika multivariat ) mengelompokkan n objek pengamatan ke dalam k kelompok (k < n) berdasarkan p peubah

PENDEKATAN ANALISIS FUZZY CLUSTERING PADA PENGELOMPOKKAN STASIUN POS HUJAN UNTUK MEMBUAT ZONA PRAKIRAAN IKLIM (ZPI) Nama Mahasiswa

:

Azwar Habibi

NRP

:

1308201003

Pembimbing

:

1. Dr. Sutikno, S.Si, M.Si

Co-Pembimbing

:

2. Dr. Ir. Setiawan, M.S

1. eksplorasi data, 2. reduksi data, dan 3. pelapisan data 3

Pada proses pengelompokkan secara klasik, pembentukan partisi dilakukan sedemikian rupa sehingga setiap objek berada tepat pada satu partisi. Akan tetapi, pada suatu saat, hal itu tidak dapat dilakukan, karena sebenarnya objek tersebut terletak diantara dua atau lebih partisi yang lain. Sehingga perlu dilakukan pengelompokkan dengan menggunakan Fuzzy clustering dimana dalam melakukan pengelompokkan mempertimbangkan tingkat keanggotaan himpunan fuzzy sebagai dasar pembobotan.

Surabaya, Senin 28 Juli 2010

What is Fuzzy Clustering ? Fuzzy clustering Î salah satu metode untuk menentukan cluster optimal dalam suatu ruang vektor yang didasarkan pada bentuk normal euclidian untuk jarak antara vektor, yang bertujuan untuk mengelompokkan n objek yang disajikan dengan vektor ke dalam c suatu kelompok berdasarkan kesamaannya dengan pusat cluster yang diukur melalui fungsi jarak.

1. metode fuzzy c-means cluster, 2. metode fuzzy c-shell cluster, 3. metode fuzzy Subtractive cluster, dan lain-lain

Penelitian Terdahulu ¾ Bunkers et al. (1996) Î average linkage mempunyai kinerja yang baik. ¾ Gong dan Richman (1995) Î metode Ward’s mempunyai kinerja yang baik diantara metode-metode hierarkhi lainnya. ¾ Sutikno (2008), Î membahas tentang evaluasi Zona Prakiraan Iklim (ZPI) BMG dengan pendekatan analisis kelompok khususnya yang berhirarki yaitu membandingkan metode complete linkage, average linkage, dan Ward’s. ¾ Berbeda dengan penelitian terdahulu pada penelitian ini akan dilakukan pengelompokkan dan evaluasi zona prakiraan iklim (ZPI). Khususnya akan dibahas Metode analisis Fuzzy clustering yaitu metode fuzzy c-means cluster, fuzzy c-shell cluster. ¾ Metode Fuzzy C-means cluster sering digunakan dalam melakukan pengelompokan, karena metode ini memberikan hasil yang halus dan cukup efektif untuk meningkatkan homogenitas tiap cluster yang dihasilkan (shihab, 2000).

Why using Fuzzy Clustering?...

Kriteria indeks validitas

1. Memiliki toleransi terhadap data yang tidak tepat 2. Memberikan hasil pengelompokkan bagi objek-objek yang tersebar tidak teratur 3. Memberikan hasil yang halus karena pembobotan yang digunakan berdasarkan himpunan fuzzy 4. Mampu memetakan input kedalam output tanpa mengabaikan faktorfaktor yang ada

Indeks validitas

nilai simpangan baku dalam kelompok (Sw) (Within/Intra cluster) Î minimum nilai simpangan baku antar kelompok (SB) (between/inter cluster) Î maksimum

5. Metodenya sangat fleksibel Data curah hujan yang ada tersebar tidak teratur dengan banyak pengamatan yang ekstrim didalamnya yaitu antara data curah hujan di musim kemarau dan di musim hujan sehingga analisis Fuzzy clustering sangat relevan untuk digunakan. Fuzzy clustering dianggap mampu memetakan suatu input kedalam suatu output tanpa mengabaikan faktorfaktor yang ada. Sehingga, sangat fleksibel dan memiliki toleransi terhadap data-data yang ada.

1

Perumusan Masalah & Tujuan 1. Mengkaji metode fuzzy c-shell cluster; 2. membangun pengelompokkan zona prakiraan iklim di Stasiun-stasiun Pos Hujan di Kabupaten Karawang, Subang dan Indramayu dengan metode Fuzzy c-means cluster dan Fuzzy c-shell cluster ? 3. membandingkan kinerja dari hasil pengelompokan evaluasi zona prakiraan iklim antara metode Fuzzy c-means cluster dan Fuzzy c-shell cluster serta zona prakiraan iklim hasil BMKG?

Manfaat Penelitian Menambah wawasan dan pemahaman tentang fuzzy clustering

Fuzzy c-means cluster

Fuzzy c-shell cluster

kasus pengelompokan k l k evaluasi l i zona prakiraan iklim,

metode penyelesaian dalam fuzzy clustering yang lebih efektif

Batasan Masalah Fuzzy c-means cluster

Fuzzy c-shell cluster

TINJAUAN PUSTAKA ANALISIS CLUSTER KONSEP HIMPUNAN FUZZY

kasus pengelompokan evaluasi zona prakiraan iklim FUZZY C-MEANS CLUSTER Stasiun Pos Hujan di Kabupaten Karawang, Subang, dan Indramayu

FUZZY C-SHELL CLUSTER EVALUASI HASIL PENGELOMPOKKAN ANALISIS FAKTOR TINJAUAN CURAH HUJAN

2.1 ANALISIS CLUSTER

Teknik analisis statistika multivariat yang bertujuan untuk mengelompokan n objek pengamatan ke dalam k kelompok (k < n) berdasarkan p peubah, sehingga setiap pengamatan yang terletak dalam satu kelompok mempunyai sifat yang lebih besar dibandingkan dengan pengamatan yang terletak dalam kelompok lain.

2.2 KONSEP HIMPUNAN FUZZY

Proses pemetaan himpunan fuzzy didefinisikan dalam bentuk μ A ( x) ∈ [0,1] dengan A = {x, μ A ( x) x ∈ X } μ A ( x) = fungsi keanggotaan x di A yang memetakan X ke ruang keanggotaan M yang terletak pada rentang [0,1]. Fungsi keanggotaan adalah suatu fungsi yang mendefinisikan bagaimana memetakan titik-titik dalam ruang masukan ke dalam derajat keanggotaannya yaitu antara 0 dan 1.

2

Algoritma Fuzzy c-means cluster

2.3 FUZZY C-MEANS CLUSTER

M u la i

B aca : X C

¾Fuzzy c-means cluster adalah suatu teknik pengclusteran data yang mana keberadaan tiap-tiap data dalam suatu cluster ditentukan oleh nilai keanggotaan; Fungsi objektif FCM : JW (U,V,X) = jarak observasi :

c

N o r m a lis a s i X

T e n tu k a n : m , t = 0 T e n tu k a n s e c a ra a c a k : u (t) d a n v (t)

F o r i = 1 to c

∑ (( μ n

Vi =

n

∑

)m ⋅ xk

ik

k =1

(μ

)

)m

ik

k =1

n

∑∑ (μ i =1 k =1

d ( xk , vi ) = xk − vi 2 ik

2

ik

) m (d ik ) 2

F o r i = 1 to c

t = t + 1

F o r i = 1 to k

= ( xk − vi ) ( xk − vi ) T

μ

1

=

ik

m

∑

j =1

⎛ d ⎜⎜ d ⎝

1 ( m −1)

⎞ ⎟⎟ ⎠

2 ik 2 jk

T id a k

Δ = m a x Pt − Pt − 1 < ξ Ya

S e le s a i

2.4

FUZZY C-SHELL CLUSTER

Algoritma Fuzzy c-shell cluster M u la i

B a c a

T e n tu k a n T e n tu k a n

Fuzzy c-shell cluster menjelaskan teknik pendekatan yang dipakai dalam pengelompokan bersifat geometris, khususnya menggunakan bentuk lingkaran dan ellips. Fungsi objektif FCS : J s (U , V , R ) = jarak observasi :

c

F o r i =

i =1 k =1

ik

N o r m a lis a s i X

: u ( t) , r ( t) d a n

1

∑ (( μ

to

V

i

=

⋅ x

m

)

ik

)

k

k = 1

n

∑

( μ

v (t)

c

n

m

)

ik

k = 1

n

∑∑ (u

: X C

: m , t = 0 s e c a ra a c a k

F o r i =

) m ( Dik ) 2

1

to

m

x

c

n

ri =

∑

(u

ik

k = 1

)

∑

(u

ik

k = 1

( Dik ) 2 = ( x k − vi − ri ) 2 μ

ik

1

F o r i =

1

1

m

m a x

m

)

to

c

to

k

1

= j = 1

=

j +

i

T id a k

F o r i =

∑

Δ

j =

− v

k

n

⎛ d ⎜⎜ d ⎝

(U

j

2 ik 2 jk

− U

⎞ ⎟⎟ ⎠

1

( m − 1 )

j − 1

)<

ε

Y a

S e le s a i

2.6 Analisis Faktor

2.5 EVALUASI HASIL PENGELOMPOKKAN

9 kriteria nilai simpangan baku, yaitu: dalam kelompok (Sw) dan antar kelompok (SB) (Bunkers et al. 1996). 1/ 2 K K ⎡ dan 2⎤ −1 S w = K −1 ∑ S k S B = (K − 1) Xk − X k =1

⎢ ⎣

∑( k =1

mendapatkan sejumlah kecil faktor (komponen utama)

Tujuan

)⎥ ⎦

K = banyaknya kelompok yang terbentuk; Sk = simpangan baku kelompok ke-k; X k = rataan kelompok ke-k; X = rataan keseluruhan kelompok. 9 Semakin kecil nilai Sw (minimum) dan semakin besar nilai SB (maksimum), maka metode tersebut memiliki kinerja yang baik, artinya mempunyai homogenitas yang tinggi.

menerangkan semaksimal mungkin keragaman data model analisis faktor

X 1 − μ1 = l 11F1 + l 21F2 + ... + l 1m Fm + ε1

X 2 − μ2 = l 12 F1 + l 22 F2 + ... + l 2 m Fm + ε 2

M

M

M

M

M

M

X p − μ p = l p1F1 + l p1F2 + ... + l pm Fm + ε p

3

2.7 TINJAUAN CURAH HUJAN

3. METODOLOGI PENELITIAN 3.1 Ilustrasi Data

Zona Prakiraan Iklim (ZPI)

daerah yang pola hujan rataratanya memiliki perbedaan yang jelas antara periode musim kemarau dan musim hujan

Data

Sifat hujan dibagi menjadi 3 (tiga) kategori, yaitu : 1. Sifat Hujan Atas Normal (AN) : jika nilai curah hujan lebih dari 115% terhadap rata-ratanya. 2. Sifat Hujan Normal (N) : jika nilai curah hujan antara 85% 115% terhadap rata-ratanya. 3. Sifat Hujan Bawah Normal (BN) : jika nilai curah hujan kurang dari 85% terhadap rata-ratanya.

104 Stasiun Pos Hujan diKabupaten I d Indramayu, S b Subang dan Karawang Tingkat curah hujan tiap stasiun di kabupaten Karawang, Subang dan Indramayu

3.2 Identifikasi Variabel

3.3.1 Mengkaji metode fuzzy c-shell cluster

3.3 Metode Analisis Data

Melakukan optimasi dengan meminimumkan fungsi objektif

Metode fuzzy c-means cluster

Analisis Fuzzy Clustering

Data curah hujan bulanan

Data sekunder

c

n

J s (U , V , R ) = ∑ ∑ (uik ) m ( Dik ) 2

Metode fuzzy c-shell cluster

i =1 k =1

menggunakan pengganda lagrange. S k Struktur F Fungsii cmean dan d cshell Pada Software R

R 2.9.0.lnk

ArcView GIS 3.3.lnk

LFCS (U , V , R ) = J s + λk (constrain)

Membuat Peta Kontur untuk Mendeskripsikan Hasil Dari ZPI

4.1 Optimasi Fungsi Objektif pada Metode Fuzzy C-Shell Cluster

3.3.2 Tahapan Analisis Data

Data Curah Hujan

Mendeskripsikan Data Curah Hujan per Stasiun

c

i =1 k =1

c

•Fungsi pembatas :

Membentuk Kelompok dengan Metode Fuzzy c-means cluster dan Fuzzy c-shell cluster

∑u i =1

Tahap 1 Evaluasi Kinerja dengan nilai simpangan baku dalam kelompok (Sw) dan antar kelompok (SB)

ik

=1

•Jarak observasi : ( D ) 2 = ( x − v − r ) 2 ik k i i •Fungsi lagrange : LFCS (U ,V , R) = J s + λk (constrain)

Menentukan Metode Terbaik Metode Terbaik

n

2 m •Fungsi objektif FCS : J s (U , V , R) = ∑∑ (uik ) ( Dik )

Mereduksi Data Curah Hujan dengan Analisis Faktor

• Nilai optimum dari Peta Elevasi Kabupaten Karawang, Subang dan Indramayu

n

n

m

Identifikasi Kontur Curah Hujan

Tahap 2

Identifikasi Anggota ZPI ZPI BMKG

ZPI Baru

Membandingkan nilai hasil evaluasi simpangan baku dalam kelompok (Sw) dan antar kelompok (SB) ZPI Terbaik

uik (derajat keanggotaan)

⎛ c ⎞ uik = ∂ ∑∑ (uik ) D + ∑ λk ⎜ ∑ ( uik − 1) ⎟ i =1 k =1 k =1 ⎝ i =1 ⎠ =0 ∂uik c

2 ik

= Tahap 3

1 ( m −1)

1 1 ( m −1)

⎛ 1 ⎞ ⎟ 2 ⎟ j =1 ⎝ jk ⎠ 1 c

∑ ⎜⎜ D

⎛ 1 ⎞ ⎜ 2⎟ ⎝ Dik ⎠

1 ( m −1)

⎛ Dik2 ⎞ 2 ⎟ ⎟ j =1 ⎝ jk ⎠ c

∑ ⎜⎜ D

4

Optimasi Fungsi Objektif pada Metode Fuzzy CShell Cluster…1

4.2 Deskripsi Umum Curah Hujan Tiap Stasiun Pos Hujan di Kabupaten Karawang, Subang dan Indramayu Bulan

• Nilai optimum dari vi (pusat cluster)

∂LFCS ∑ (uik )m xk =0 ⇔ vi = k =1n ∂vi

Minimum

Maksimum

Rata-rata

Simpangan baku

Januari

162,3

569,5

338,3

83,31

Februari

123,9

442,5

238,1

65,35

Maret

95,65

491,50

198,82

79,65

April

64,6

427,9

157,7

79,14

Mei

31,70

297,95

92,68

48,42

Juni

19,63

146,40

62,29

27,11

Juli

10,69

119,09

42,71

20,51

n

ik

k =1

)

350

m

• Nilai Nil i optimum ti d darii ri (Jari-jari (J i j i cluster) l t )

∂LFCS (uik ) m ∑ =0 k =1 r = i ∂ri n n

k =1

ik

)m

Agustus

1,53

94,29

28,44

18,18

Septembe r

9,58

124,47

37,11

21,37

Oktober

Multicollinearity is a natural problem in clustering F1

F2

F3

F4

Januari

0.138

0.947

0.210

0.131

Februari

0.436

0.749

0.319

0.311

Maret

0.836

0.346

0.251

0.279

April

0.872

0.209

0.272

0.283

Mei

0.675

0.393

0.531

0.229

Juni

0.594

0.483

0.580

0.093

Juli

0.401

0.418

0.668

0.387

Agustus

0.455

0.543

0.593

0.308

September

0.487

0.385

0.314

0.687

Oktober

0.792

0.198

0.282

0.457

November

0.894

0.120

0.288

0.237

Desember

0.856

0.402

0.254

0.051

150 100

32,40

246,90

85,65

43,64

Novembe r

74,9

410,8

161,6

69,54

Desember

91,88

459,70

203,84

66,60

0

Bulan

Interpretasi Analisis Fuzzy clustering Menggunakan Bantuan Software Statistika R

Scree Plot of Jan, ..., Des 10

8

Eigen nvalue

200

4.4 Analisis Fuzzy Clustering dengan Metode Fuzzy C-Means Cluster dan Metode Fuzzy C-Shell Cluster

4.3 Interpretasi Analisis Faktor Variabel/ Bulan

250

50

x k − vi

∑ (u

300

mm

∑ (u

400

Metode fuzzy c-means cluster

Metode fuzzy c-shell cluster

6

St u tu Fungsi Struktur u gs c cmean ea da dan cs cshell e dalam pustaka e1071 Pada Paket R

4

> library(e1071) lib ( 1071)

2

Import Data From EXCEL Data Set

0 1

2

3

4

5

6 7 8 Jumlah Faktor

9

10

11

inputfuzzy <- sqlQuery(channel = 1, select * from[inputscorefac$])

12

Menentukan pengelompokkan

Menentukan Kualitas Kelompok…1

#optimasi pengelompokkan yaitu 2 sampai 10 kelompok untuk metode fuzzy c-means cluster inputfuzzy for (i in 2:10){ kelompok
cluster_quality<-function(x,y){ mk<-tapply(y, list(kelompok=x),mean,na.rm=TRUE) # mean sk<-tapply(y, list(kelompok=x),sd, na.rm=TRUE) # std. deviations sw<-(sum(sk))/max(x) sb<-sqrt(sum((mk-mean(y))^2)/(max(x)-1)) lambda<-(sw/sb) cat("===========================================================================\n") cat("Rataan kelompok ke k\n") print(mk) cat("===========================================================================\n") cat("Simpangan cat( Simpangan baku kelompok ke k\n k\n") ) print(sk) cat("===========================================================================\n") cat("Simpangan baku dalam kelompok\n") print(sw) cat("===========================================================================\n") cat("Simpangan baku antar kelompok\n") print(sb) cat("===========================================================================\n") cat("Rasio Sw/Sb (lambda)\n") print(lambda) cat("===========================================================================\n") } cluster_quality(kelompok$cmeans_2,kelompok$sf1)

5

Menentukan Kualitas Kelompok…2

Menentukan luasan zona prakiraan iklim…1

Metode fuzzy c-means cluster Kelompok

sf1

sf2

sf3

sf4

Average

2

1,213697

11,27121

1,991437

3,970954

4,61182

3

1,032743

0,843682

1,558744

2,301805

1,43424

4

0,712229

0,797347

1,79438

1,162965

5

0,386079

0,624076

1,578754

1,074696

0,91590

6

0,29502

0,525813

1,38641

1,00606

0,80333

7

Output pengelompokkan yang optimum Konvert ke-software ArcView GIS 3.3 (program yang dapat menjelaskan data spasial bereferensi geografis)

1,11673

0,608651

0,600526

1,118468

0,831346

0,78975

8

0,328027

0,565375

0,909921

0,803536

0,65171

9

0 344277 0,344277

0 581724 0,581724

0 799283 0,799283

0 759908 0,759908

0 62130 0,62130

10

0,344298

0,565003

0,516359

0,506571

0,48306

Metode Fuzzy C-Shell Cluster Kelompok

sf1 2

sf2

sf3

sf4

Average

21,7036

2,141962

444,9992

19,47861

122,08084

3

3,223711

5,666965

2,922989

4,057012

3,96767

4

2,575579

2,399504

4,538213

7,135729

4,16226

5

4,833121

3,31824

1,993173

4,991448

3,78400

6

3,105102

2,260952

3,210055

4,674141

3,31256

7

4,907659

1,144484

1,577645

2,307168

2,48424

8

0,738159

0,967343

2,433433

1,859901

1,49971

9

2,116312

2,257872

1,900561

1,581344

1,96402

10

1,072381

0,673956

0,779972

0,666793

0,79828



Menentukan Re-grouping…1

Menentukan Re-grouping…2 Zona

Kode stasiun awal

Kode Keterangan stasiun dominan

Zona 1

1

1

Tidak mengalami revisi

Zona 2

9

9


Zona 3

4, 5, 7, 8, dan 9

10

Kode 4 sebanyak 1; 5 sebanyak 5; 7 sebanyak 5; 8 sebanyak 3; 9 sebanyak 1

Zona 4

5, 7

4

Kode 5 sebanyak 2; 7 sebanyak 1

Zona 5

2, 5, 6, dan 8

7

Kode 2 sebanyak 1; 5 sebanyak 1; 6 sebanyak 1; 8 sebanyak 2

Zona 6

8

8


Zona 7

3, 8

3

Kode 8 sebanyak 1

Zona 8

2, 8

2

Kode 8 sebanyak 1

Zona 9

5, 6

6

Kode 5 sebanyak 2

6

Perbandingan Hasil Pengelompokkan Metode Fuzzy C-Means Cluster dengan ZPI BMKG

KESIMPULAN...1

uik (derajat keanggotaan)

• Nilai optimum dari

⎛ c ⎞ uik = ∂ ∑∑ (uik ) D + ∑ λk ⎜ ∑ ( uik − 1) ⎟ i =1 k =1 k =1 ⎝ i =1 ⎠ =0 ∂uik c

n

2 ik

• Nilai optimum dari vi (pusat cluster) n

∑ ik k ∂LFCS k =1 = 0 ⇔ vi = n ∂vi ∑ (uik )m (u ) m x

=

1 ( m −1)

1

n

m

1 ( m −1)

⎛ 1 ⎞ 2 ⎟ ⎟ j =1 ⎝ jk ⎠ 1 c

∑ ⎜⎜ D

⎛ Dik2 ⎜⎜ 2 ∑ j =1 ⎝ D jk c

⎛ 1 ⎞ ⎜ 2⎟ ⎝ Dik ⎠

1 ( m −1)

⎞ ⎟⎟ ⎠

k =1

• Nilai optimum dari ri (Jari-jari cluster) Simpangan baku

SF1

SF2

SF3

SF4

------ ZPI BMKG -----0,40 0,52 0,68 0,41 1,11 1,23 0,88 1,66

Sw SB

SF1

SF2

SF3

SF4

------ ZPI Baru -----0.30 0.48 0,60 0.40 1.07 0,87 0,70 0,66

KESIMPULAN...2 2. Nilai rataan rasio Sw/Sb optimal untuk kedua metode adalah sama yaitu sebanyak 10 kelompok. Metode fuzzy c-means cluster = 0,48306; metode fuzzy c-shell cluster yaitu 0,79828; diperoleh 9 kelompok atau 9 zona (dari re-grouping); Anggota kelompok masing-masing zona adalah sebagai berikut: Zona

Wilayah

Zona 1

Karawang bagian barat laut

Zona 2

Karawang bagian barat daya

Zona 3

Karawang bagian tengah, sebagian Subang bagian utara

Zona 4

Pantai utara Karawang/Subang/Indramayu

Zona 5

Sebagian Subang bagian tengah sebelah timur, sebagian Indramayu bagian tengah sebelah barat

Zona 6

Sebagian subang bagian tenggara, sebagian indramayu bagian barat daya

Zona 7

Subang bagian selatan

Zona 8

sebagian Indramayu bagian selatan dan barat daya

Zona 9

sebagian Indramayu bagian timut dan tenggara

n

∂LFCS r = =0 i ∂ri

∑ (u k =1

ik

) m x k − vi

n

∑ (u k =1

ik

)m

KESIMPULAN...3

3. Homogenitas iklim hasil zona revisi menggunakan Metode fuzzy c-means cluster (ZPI revisi) mempunyai kinerja lebih bagus dari pada hasil pengelompokkan yang diperoleh dari hasil ZPI BMKG.

Saran

1. Dengan Software Statistik R dapat dibuat graphical user interface (GUI) khusus tentang analisis Fuzzy clustering Î memudahkan dalam p penggunaannya. gg y 2. Lakukan pengelompokkan ZPI dengan metode Fuzzy clustering lainnya dan gunakan indeks validitas Fuzzy clustering lainnya.

TERIMA KASIH

7

Latar Belakang. What is Fuzzy Clustering? Why using Fuzzy Clustering?... Kriteria indeks validitas. Penelitian Terdahulu

Recommend Documents