Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009
APLIKASI ANALISIS KLASTER PADA DATA SIMULASI INDEKS GEOMAGNET LOKAL John Maspupu Pusfatsainsa LAPAN, Jl. Dr. Djundjunan No. 133 Bandung 40173, Tlp. 0226012602 Pes. 106. Fax. 0226014998 E-mail:
[email protected]
Abstrak Makalah ini membahas suatu aplikasi analisis pengklasteran pada data simulasi indeks geomagnet lokal dari beberapa tempat observasi (stasion geomagnet-SG). Indeks geomagnet lokal yang dimaksud dalam pembahasan ini adalah indeks K. Perincian dari indeks K ini dapat dijelaskan sebagai berikut, untuk K = 0 atau 1 ditafsirkan sebagai tingkat gangguan geomagnet yang sangat rendah. Kemudian untuk K = 2 atau 3 atau 4 ini mengindikasi tingkat gangguan geomagnet yang sedang. Selanjutnya untuk K = 5 atau 6 atau 7 atau 8 atau 9 , ini berarti tingkat gangguan geomagnet yang sangat tinggi. Adapun tujuan pembahasan makalah ini adalah untuk
mengklasifikasi frekuensi-frekuensi
observasi atau selang-selang waktu pengamatan indeks K, ke dalam bentuk klaster-klaster yang relatif homogen, sesuai dengan pertimbangan empiris. Pada proses pengelompokkan ini, banyaknya klaster harus lebih sedikit daripada banyaknya frekuensi observasi semula. Namun tidak mengurangi sedikitpun informasi yang terkandung dalam data aslinya (data awal indeks K). Selain itu prosedur yang digunakan untuk merealisasi tujuan di atas ini adalah klaster hirarki (hierarchical clustering), disertai dengan ukuran jarak maupun tahapan metodenya, yaitu jarak yuklidian (Eucledean distance) dan metode Ward (Ward’s method) serta metode pusat (centroid method). Hasil yang diperoleh dari aplikasi analisis klaster ini nantinya mempunyai kontribusi didalam analisa kondisi geomagnet lokal (tingkat gangguan geomagnet) di setiap klaster observasi indeks K. Kata kunci : observasi indeks K , Klaster hirarki , Jarak Yuklidian , Metode Ward dan pusat.
1. Pendahuluan Konsep pengklasteran adalah suatu bagian analisis interdependensi yang fokusnya pada objek pengamatan (bukan pada variabel observasi). Selain itu analisis klaster juga merupakan salahsatu teknik statistik multivariat yang digunakan untuk pengelompokkan objek-objek pengamatan, secara homogen atau relatif homogen dalam kelompoknya. Namun sangat heterogen diantara kelompok yang satu dengan lainnya. Selain itu publikasi 1
tentang analisis klaster ini dapat dibaca pada referensi [5], begitu juga peran analisis klaster ini telah diterapkan pada pengamatan dan penelitian data-data atmosfer ( lihat [2] ). Selain itu beberapa aplikasi pengklasteran pernah dilakukan oleh Kalkstein dan kawan-kawannya dalam masalah-masalah yang berkaitan dengan iklim ataupun cuaca ( lihat [3] ). Pada tahun 1993, Cheng dan Wallace juga pernah mengaplikasikan analisis klaster pada data geopotensial untuk mengidentifikasi jenis-jenis aliran fluida di atmosfer ataupun di ruang antar planet ( lihat [1] dan [4] ). Oleh karena itu dengan mempertimbangkan beberapa referensi
yang telah dikemukakan di atas, muncul pemikiran untuk mengaplikasikan
analisis klaster ini pada data simulasi indeks geomagnet lokal. Dengan demikian tujuan pembahasan makalah ini adalah untuk mengklasifikasi frekuensi-frekuensi observasi atau selang-selang waktu pengamatan indeks K, ke dalam bentuk klaster-klaster yang relatif homogen, sesuai dengan pertimbangan fisis tertentu. Namun yang menjadi masalah adalah bagaimana proses pengklasteran ini dilakukan? Dan berapa banyak klaster yang cocok untuk kasus ini?. Kemudian infomasi seperti apa yang diperoleh dari hasil pengklasteran kasus ini?. Untuk menjawab semua permasalahan di atas ini, perlu disusun suatu metodologi yang tepat serta dapat memberikan solusi secara tuntas dan bermanfaat.
2. Metodologi Konsep yang digunakan dalam pembahasan makalah ini adalah menyangkut analisa klaster dengan pilihan prosedur dan ukuran jarak pada klaster hirarki (hierarchical clustering) dan jarak yuklidian (Eucledean distance). Sedangkan fokus metodenya pada metode Ward (Ward’s method) dan metode pusat (centroid method). Jarak yuklidian maupun kedua metode di atas ini dapat dilihat pada referensi [6]. Selanjutnya tahapan analisis klaster ini dapat dijabarkan dalam beberapa langkah berikut : i). Kompilasi data pengamatan (data asli) dan tentukan variabel yang akan digunakan untuk pengklasteran, dengan syarat variabel yang dipilih harus dapat menyatakan kemiripan antar objek dan juga mempunyai relevansi dengan masalah riset tersebut. ii). Lakukanlah standarisasi data variabel asli dengan menggunakan variabel transformasi
X *ij =
2 1 n 1n Xij X j , dalam hal ini (Xij X j ) , j = 1,.....,K. Xj Xij dan S j ni1 ni1 Sj
iii). Memilih ukuran jarak yang diperlukan untuk mengakses kemiripan objek-objek tersebut. Pada pembahasan kasus dalam makalah ini dipilih ukuran jarak 2
yuklidian(antara dua objek xi dan xj ) yang mengikuti formulasi berikut di bawah ini, K
dij
1 2 2
wk(xik xjk)
k 1
dengan bobot jarak wk 1 , untuk setiap k = 1, 2, ..., K.
iv). Memilih prosedur pengklasteran, dalam hal ini telah ditentukan klaster hirarki dengan alur klasifikasi prosedurnya sebagai berikut : Hirarki
Aturan aglomeratif
Metode Ward dan pusat.
Pengklasteran dengan aturan aglomeratif artinya dimulai dari setiap objek dalam suatu klaster yang terpisah. Kemudian klaster dibentuk dengan cara mengelompokkan objekobjek tersebut sehingga semakin bertambah banyak objek yang terlibat menjadi anggota klaster. Proses ini diteruskan sampai semua objek menjadi anggota dari suatu klaster tunggal. Selain itu tahapan metode Ward dan pusat dapat dijelaskan sebagai berikut : a. Bentuklah n klaster sesuai dengan n objek pengamatan dan hitung rata-rata klaster (cluster centroid) yaitu rata-rata variabel dari semua objek dalam setiap klaster dengan formulasi
Xi
1 K
K
Xij , i = 1, ...., n dan j = 1, ...., K. Dalam hal ini K adalah j 1
banyaknya variabel dan n merupakan banyaknya objek (frekuensi observasi). b. Hitung jarak yuklidian dari setiap objek ke rata-rata klaster dengan formulasi 2 (Xij Xi ) , i = 1, ...., n dan j = 1, ...., K.
sebagai berikut,
c. Jumlahkan jarak yuklidian untuk masing-masing klaster dengan formulasi sebagai K
berikut, Ji =
( Xij Xi )2 , i = 1,....,n.
j 1
d. Hitung selisih dari jumlah jarak yuklidian antar masing-masing klaster yaitu ij
Ji J j dengan i ≠ j dan
ij
ji
, i = 1, ...., n ; j = 1, ...., n .
e. Untuk setiap tahap, gabungkan dua klaster menjadi satu klaster baru dengan urutan selisih ij
yang terkecil.
f. Hitung pusat variabel masing-masing klaster baru dengan formulasi sebagai berikut
XGi
xgj xhj , i = 1, ...., n -1 dan j = 1, ...., K. 2
g. Hitung jarak diantara masing-masing klaster yaitu formulasi
dGi,Gi 1
dGi,Gi 1, dGi,Gi 2,....,dGi,Gi n 2 dengan
XGi XGi 1 dan seterusnya.
h. Gabungkan tiap dua klaster menjadi satu klaster baru lagi dengan urutan-urutan 3
dGi,Gi 1, dGi,Gi 2,....,dGi,Gi n 2 yang terkecil. i. Kembali lagi ke langkah f) , g) , dan h). Proses ini diteruskan sampai diperoleh banyaknya klaster yang diinginkan. Dengan demikian untuk pembentukan klaster baru umumnya diperoleh dari salah satu cara berikut yaitu : dua objek digabung bersama (objek digabung dengan objek) atau satu objek digabung dengan klaster yang telah terbentuk sebelumnya, minimal klaster tersebut sudah memiliki dua anggota (klaster digabung dengan objek) atau dua klaster yang sudah terbentuk digabung bersama (klaster digabung dengan klaster). v).Menentukan banyaknya klaster , sesuai dengan kasus atau masalah yang dihadapi. Sebenarnya tidak ada aturan baku untuk menentukan berapa banyak klaster secara eksak yang diperlukan. Namun demikian, beberapa petunjuk yang dapat digunakan sebagai pertimbangan, antara lain : a. Berdasarkan faktor empiris, praktis, teoritis atau konseptual, mungkin dapat disarankan berapa banyak klaster yang cocok untuk kasus-kasus yang dihadapi (misalnya 3 atau 4 atau 5 klaster) dan seterusnya. b.Pada prosedur pengklasteran hirarki, jarak minimum untuk penggabungan klaster dapat digunakan sebagai kriteria. c. Pada prosedur pengklasteran non hirarki, rasio jumlah variansi dalam klaster dan jumlah variansi antar klaster dapat diplot melawan (versus) banyaknya klaster. Sehingga banyaknya klaster ditunjukkan oleh absis koordinat titik, di saat terjadinya suatu siku atau lekukan tajam pada hasil ploting tersebut. Selain itu perlu dicatat bahwa pemecahan banyaknya klaster yang menghasilkan klaster dengan satu objek tidak akan bermanfaat. vi). Interpretasi tentang profil klaster, dalam hal ini meliputi pengkajian nilai pusat. Nilai pusat dimaksud adalah rata-rata nilai objek yang terdapat dalam klaster pada setiap variabel. Nilai ini akan memberikan informasi pada setiap variabel dengan cara pemberian suatu nama atau label. Jika program komputasi pengklasteran ini, tidak mencetak informasi tentang pusat(centroid) maka dapat diperoleh melalui analisis diskriminan.
4
3. Hasil dan Pembahasan Data yang digunakan dalam pembahasan makalah ini adalah data simulasi indeks K dari beberapa lokasi SG (Stasion Geomagnet). Data-data ini diamati selama 20 selang waktu dengan pengertian tiap selang waktu adalah 3 jam dan ditabulasikan dalam tabel 1, sebagai berikut: Tabel 1. Data simulasi indeks K dari keenam lokasi stasion geomagnet
Observasi Lokasi
Lokasi
Lokasi
Lokasi
Lokasi
Lokasi
ke- n
SG 1
SG 2
SG 3
SG 4
SG 5
SG 6
Xi1
Xi2
Xi3
Xi4
Xi5
Xi6
1.
6
4
7
3
2
3
2.
2
3
1
4
5
4
3.
7
2
6
4
1
3
4.
4
6
4
5
3
6
5.
1
3
2
2
6
4
6.
6
4
6
3
3
4
7.
5
3
6
3
3
4
8.
7
3
7
4
1
4
9.
2
4
3
3
6
3
10.
3
5
3
6
4
6
11.
1
3
2
3
5
3
12.
5
4
5
4
2
4
13.
2
2
1
5
4
4
14.
4
6
4
6
4
7
15.
6
5
4
2
1
4
16.
3
5
4
6
4
7
17.
4
4
7
2
2
5
18.
3
7
2
6
4
3
19.
4
6
3
7
2
7
20.
2
3
2
4
7
2
Misalkan variabel Xij adalah data observasi ke-i di lokasi SG yang ke- j , i = 1, 2,..,20 dan j = 1, 2, ....,6. Dalam hal ini variabel Xi1 merupakan indikasi kondisi geomagnet lokal di SG1 dengan 5
tingkat gangguan umumnya sedang , namun masih terganggu dan kadangkala rendah. variabel Xi2 merupakan indikasi kondisi geomagnet lokal di SG2 dengan tingkat gangguan sering sedang , namun masih terganggu dan tidak pernah rendah. variabel Xi3 merupakan indikasi kondisi geomagnet lokal di SG3 dengan tingkat gangguan umumnya sedang , namun masih terganggu dan kadangkala rendah. variabel Xi4 merupakan indikasi kondisi geomagnet lokal di SG4 dengan tingkat gangguan sering sedang , namun masih terganggu dan tidak pernah rendah. variabel Xi5 merupakan indikasi kondisi geomagnet lokal di SG dengan tingkat gangguan umumnya sedang, namun masih sedikit terganggu dan kadangkala rendah. variabel Xi6 merupakan indikasi kondisi geomagnet lokal di SG6 dengan tingkat gangguan sering sedang , namun masih terganggu dan tidak pernah rendah. Perlu diketahui bahwa variabel-variabel yang akan dianalisis secara pengklasteran lebih dahulu harus distandarisasi menjadi variabel standar seperti pada langkah ii) di bagian metodologi ( x* 0 dan
sx* 1). Hasil dari standarisasi ini ditabulasikan dalam tabel 2.
Tabel 2. Data simulasi indeks K dari tabel 1, yang telah distandarisasi
Observasi Ke- n
X*i1
X*i2
X*i3
X*i4
X*i5
X*i6
1.
1,14
-0,07
1,52
-0,72
-0,82
-0,91
2.
-0,98
-0,78
-1,47
-0,06
0,88
-0,23
3.
1,67
-1,49
1,02
-0,06
-1,39
-0,91
4.
0,08
1,35
0,03
0,59
-0,26
1,11
5.
-1,51
-0,78
-0,97
-1,38
1,45
-0,23
6.
1,14
-0,07
1,02
-0,72
-0,26
-0,23
7.
0,61
-0,78
1,02
-0,72
-0,26
-0,23
8.
1,67
-0,78
1,52
-0,06
-1,39
-0,23
9.
-0,98
-0,07
-0,47
-0,72
1,45
-0,91
10.
-0,45
0,64
-0,47
1,25
0,31
1,11
6
11.
-1,51
-0,78
-0,97
-0,72
0,88
-0,91
12.
0,61
-0,07
0,52
-0,06
-0,82
-0,23
13.
-0,98
-1,49
-1,47
0,59
0,31
-0,23
14.
0,08
1,35
0,03
1,25
0,31
1,78
15.
1,14
0,64
0,03
-1,38
-1,39
-0,23
16.
-0,45
0,64
0,03
1,25
0,31
1,78
17.
0,08
-0,07
1,52
-1,38
-0,82
0,44
18.
-0,45
2,06
-0,97
1,25
0,31
-0,91
19.
0,08
1,35
-0,47
1,91
-0,82
1,78
20.
-0,98
-1,49
-0,97
-0,06
2,02
-1,58
Data simulasi indeks K yang telah distandarisasi ini, awalnya sudah terbentuk dalam dua puluh kelompok sesuai dengan banyaknya observasi dan masing-masing kelompok terdiri dari satu anggota (objek observasi). Kemudian dihitung jarak yuklidian antar masing-masing kelompok dan diseleksi, mulai dari urutan yang terkecil. Hasilnya dapat dilihat pada tabel 3.
Tabel 3. Hasil seleksi perhitungan jarak yuklidian dari setiap pasang objek
Kombinasi Tahap
K1
kelompok K2
Jarak yuklidian
1.
14
16
0, 89
2.
1
6
1,01
3.
3
8
1,10
4.
5
11
1,11
5.
2
13
1,12
6.
10
14
1,16
7.
7
12
1,23
8.
4
10
1,34
9.
1
7
1,35
10.
5
9
1,39
11.
2
5
1,61
12.
4
19
1,66
13.
1
3
1,82 7
14.
1
17
1,84
15.
9
20
1,86
16.
1
15
1,99
17.
4
18
2,57
18.
2
4
3,38
19.
1
2
4,21
Selanjutnya dihitung pusat variabel masing-masing kelompok baru yang terbentuk dari dua anggota (objek observasi). Hasilnya dapat dilihat pada tabel 4. Tabel 4. Pusat variabel masing-masing kelompok baru yang diperoleh dari tabel 3.
Kelompok Objek ke- n
observasi
X1
X2
X3
X4
X5
X6
1.
14 & 16
3,5
5,5
4
6
4
7
2.
1 & 6
6
4
6,5
3
2,5
3,5
3.
3 & 8
7
2,5
6,5
4
1
3,5
4.
5 & 11
1
3
2
2,5
5,5
3,5
5.
2 & 13
2
2,5
1
4,5
4,5
4
6.
10 & 14
3,5
5,5
3,5
6
4
6,5
7.
7 & 12
5
3,5
5,5
3,5
2,5
4
8.
4 & 10
3,5
5,5
3,5
5,5
3,5
6
9.
1 & 7
5,5
3,5
6,5
3
2,5
3,5
10.
5 & 9
1,5
3,5
2,5
2,5
6
3,5
11.
2 & 5
1,5
3
1,5
3
5,5
4
12.
4 & 19
4
6
3,5
6
2,5
6,5
13.
1 & 3
6,5
3
6,5
3,5
1,5
3
14.
1 & 17
5
4
7
2,5
2
4
15.
9 & 20
2
3,5
2,5
3,5
6,5
2,5
16.
1 & 15
6
4,5
5,5
2,5
1,5
3,5
17.
4 & 18
3,5
6,5
3
5,5
3,5
4,5
18.
2 & 4
3
4,5
2,5
4,5
4
5
19.
1 & 2
4
3,5
4
3,5
3,5
3,5
8
Dari tabel 4 ini dihitung pula jarak diantara kelompok-kelompok yang terkait dengan anggota-anggota didalamnya. Hasil perhitungan ini ditabulasikan dalam tabel 5A, tabel 5B dan tabel 5C. Tabel 5A. Jarak diantara masing-masing kelompok untuk klaster I yang diperoleh dari tabel 4.
Kelompok
G1
G6
G8
G12
G17
G1
0
0,707
1,323
1,803
2,958
0
0,866
1,658
2,398
0
1,414
1,871
0
2,449
G6 G8 G12 G17
0
Dalam tabel 5A ini dipilih nilai minimum yang tidak nol menurut masing-masing baris yaitu 0,707 ; 0,866 ; 1,414 ; dan 2,449. Akibatnya akan terbentuk Klaster I sesuai kelompokkelompok yang terkait dengan nilai-nilai minimumnya yaitu (G1,G6), (G6,G8), (G8,G12) dan (G12,G17). Dengan demikian Klaster I terdiri dari 6 objek yaitu 4, 10, 14, 16, 18, dan 19. Atau ditulis Klaster I = [4, 10, 14, 16, 18,19].
Tabel 5B. Jarak diantara masing-masing kelompok untuk klaster II yang diperoleh dari tabel 4.
Kelompok
G4
G5
G10
G11
G15
G4
0
2,739
1,000
1,000
2,121
0
3,162
2,000
3,240
0
1,414
1,581
0
2,236
G5 G10 G11 G15
0
Dalam tabel 5B ini dipilih nilai minimum yang tidak nol menurut masing-masing baris yaitu 1,000 ; 2,000 ; 1,414 ; dan 2,236. Akibatnya akan terbentuk Klaster II sesuai kelompokkelompok yang terkait dengan nilai-nilai minimumnya yaitu (G4,G10) , (G5,G11) , (G10,G11) dan (G11,G15). Dengan demikian Klaster II terdiri dari 6 objek yaitu 2, 5, 9, 11, 13, dan 20. Atau ditulis Klaster II = [2, 5, 9, 11, 13, 20]. Tabel 5C.Jarak diantara masing-masing kelompok untuk klaster III yang diperoleh dari tabel 4.
9
G2
G2
G3
G7
G9
G13
G14
G16
0
2,549
1,658
0,707
1,658
1,414
1,581
2,958
2,549
1,118
2,784
2,915
1,323
2,345
1,936
2,062
1,658
1,224
1,871
2,398
2,179
G3
0
G7
0
G9
0
G13
0
G14
0
G16
2,000 0
Dalam tabel 5C ini dipilih nilai minimum yang tidak nol menurut masing-masing baris yaitu 0,707 ; 1,118 ; 1,323 ; 1,224 ; 2,179 dan 2,000. Akibatnya akan terbentuk Klaster III sesuai kelompok-kelompok yang terkait dengan nilai-nilai minimumnya yaitu (G2,G9), (G3,G13), (G7,G9), (G9,G14), (G13,G16) dan (G14,G16). Dengan demikian Klaster III terdiri dari 8 objek yaitu 1, 3, 6, 7, 8, 12, 15, dan 17. Atau ditulis Klaster III = [1, 3, 6, 7, 8, 12, 15, 17]. Perlu diketahui bahwa pemilihan nilai minimum pada tabel 5A, tabel 5B dan tabel 5C di atas dapat juga melalui masingmasing kolom. Selanjutnya dihitung nilai pusat dari masing-masing klaster tersebut dan hasilnya dicantumkan dalam tabel 6.
Tabel 6. Nilai pusat yang diperoleh dari ketiga jenis klaster terakhir yaitu I, II, III
Jenis Klaster
Xi1
Xi2
Xi3
Xi4
Xi5
Xi6
III
5,750
3,625
6,000
3,125
1,750
3,875
II
1,667
3,000
1,833
3,500
5,500
3,333
I
3,500
5,833
3,333
6,000
3,500
6,000
4. Simpulan Dari tabel 6, dapat disimpulkan beberapa interpretasi tentang kalster-klaster tersebut sebagai berikut : Klaster III mempunyai nilai pusat yang tinggi di lokasi-lokasi SG SG
3
1
dan
(variabel-variabel Xi1 dan Xi3). Namun di pihak lain klaster ini mempunyai nilai
pusat relatif rendah di lokasi SG5 (variabel Xi5). Dengan demikian klaster III disebut sebagai kondisi geomagnet lokal dengan tingkat gangguan sedang dan masih terjadi badai-badai kecil, namun kadangkala tidak ada badai. Sebaliknya Klaster II mempunyai 10
nilai pusat relatif rendah di lokasi-lokasi SG1 dan SG3 (variabel-variabel Xi1 dan Xi3). Sedangkan di pihak lain klaster ini mempunyai nilai pusat yang tinggi di lokasi SG5 (variabel Xi5). Sehingga dalam hal ini klaster II dapat disebut sebagai kondisi geomagnet lokal dengan tingkat gangguan sedang, namun hampir tidak ada badai. Selain itu Klaster I mempunyai nilai pusat yang tinggi di lokasi-lokasi SG2, SG4 dan SG6 (variabel-variabel Xi2, Xi4 dan Xi6). Dengan demikian klaster I dapat dikatakan sebagai kondisi geomagnet lokal dengan tingkat gangguan sering sedang, namun masih terjadi badai. Daftar Pustaka [1]. Cheng X. And Wallace J.M., (1993)., Cluster analysis of the northern hemisphere wintertime height field , J. of the Atmospheric Sciences, 50, pp. 2674 – 2696. [2]. Gong and Richman (1995)., On the application of cluster analysis to growing season precipitation data in north America east of the Rockies, Journal of Climate, 8,pp. 897 – 931. [3]. Kalkstein et.al. (1987)., An evaluation of three clustering procedures for use in synoptic climatological classification, J. of Climate and Applied Meteorology, 26, pp. 717 – 730. [4]. Mo K.C. and Ghill M. (1988)., Cluster analysis of multiple planetary flow regimes, Journal of Geophysical Research, D93, pp. 10927 – 10952. [5]. Romesburg (1984)., Cluster analysis for Researchers, wadsworth / lifetime learning Publications, 334pp. [6].Wilks, D.S (2006)., Statistical methods in the atmospheric sciences, AP ELSEVIER, Book Aid International Sabre Foundation, New- York.
11