DPP/SPP Tahun 2006 HASIL PENELITIAN TENTANG KAJIAN ANALISIS CLUSTER PADA DATA BERSKALA CAMPURAN
Oleh: Adji Achmad Rinaldo Fernandes, S.Si. Prof. Dr. Ir. Loekito Adi Soehono, M.Agr.
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS BRAWIJAYA MALANG 2006
1
ABSTRAK
Penelitian ini berjudul Kajian Analisis Cluster pada Data Berskala Campuran. Pada sebuah penelitian peubah ganda seringkali muncul kasus data berskala campuran (nominal, ordinal, interval dan rasio). Untuk mengelompokkan obyek yang peubahnya berskala campuran maka sebelum melakukan Analisis cluster digunakan Analisis Komponen Utama Nonlinier terlebih dahulu agar dihasilkan skor komponen yang berskala ukur rasio. Penelitian ini menggunakan kombinasi 3 macam jarak (Euclid, Manhattan dan Mahalanobis) dan 3 metode pautan (Average Linkage, Complete Linkage dan Single Lingkage). Untuk memperoleh jarak dan metode pautan terbaik serta kelompok optimum dilakukan pengujian Validitas Cluster dengan metode validitas gabungan. Sebagai aplikasi digunakan data industri tempe di Kota Malang pada tahun 2000, 2003 dan 2005. Dari uji Validitas Cluster dihasilkan 3 kelompok optimum dengan jarak Euclid dan metode pautan single linkage untuk data industri tempe di Malang tahun 2000. Tahun 2003, 2 kelompok optimum dengan jarak Euclid dan metode pautan single linkage. Untuk data industri tempe di Malang tahun 2005 dihasilkan 2 kelompok optimal dengan jarak Euclid dan metode pautan average linkage. Pada tahun 2000, 6 industri tempe Kelompok rendah, 95 industri tempe Kelompok sedang, dan 1 industri tempe Kelompok tinggi. Tidak terjadi perbedaan pengelompokan industri tempe di Kota Malang pada tahun 2003 dan 2005. Terbentuk 2 kelompok industri tempe yang terdiri dari 99 industri tempe Kelompok besar dan 3 industri tempe Kelompok kecil. Oleh karena itu diharapkan adanya pembinaan dari Dinas Perindustrian dan Perdagangan Kota Malang terhadap pengusaha industri tempe. Kata kunci: skala campuran, jarak, pautan, validitas cluster ABSTRACT
In research using multivariate analysis, often emerges the data case with mixed scale (nominal, ordinal, interval and ratio). To group the object with mixed scale variable then before cluster analysis is performed, Non Linear Principal Component Analysis is performed first to produce component score with ratio scale. It used 3 distance combinations (Euclid, Manhattan and Mahalanobis) and 3 linkage methods (Average Linkage, Complete Linkage, and Single Linkage). To obtain the best distance and linkage method and also optimal group, the cluster validity test is performed with combined validity method. As application, Tempe industry data at Malang City of year 2000, 2003 and 2005 is used. Cluster validity produced: In 2000, it is produced 3 optimum groups with Euclid distance and single linkage method, In 2003, 2 optimal groups with Euclid distance and single linkage method, and in 2005. For Tempe industry at Malang of 2005, it is produced 2 optimal groups with Euclid distance and average linkage method. In 2000, 6 Tempe industries of small groups, 95 Tempe industries of medium groups, and 1 Tempe industri of big group. There is no difference of grouping Tempe industry at Malang in year 2003 and 2005. It is formed 2 Tempe industry that consist of 99 Tempe industries of big groups and 3 Tempe industries of small groups. Because of that, it needs construction from Dinas Perindustrian dan Perdagangan of Malang City toward tempe industry. Key words: mixed scale, distance, linkage, cluster validity
2
BAB I PENDAHULUAN
1. Latar Belakang Pengukuran terhadap suatu peubah dalam penelitian untuk mendapatkan data pada hakekatnya mengukur karakteristik atau sifat-sifat populasi. Dengan merujuk pada pengertian tersebut, maka karakteristik populasi yang ingin diselidiki harus diketahui secara komprehensif. Oleh karena itu, peubah yang diamati di dalam suatu penelitian umumnya lebih dari satu (multi peubah) dan sangat jarang peneliti hanya mengamati satu peubah. Multi peubah yang diamati merupakan karakteristik dari suatu obyek dan pengamatannya dilakukan secara simultan. Data yang diperoleh dari pengamatan yang demikian harus di analisis secara simultan. Metode statistika yang analisisnya melibatkan multi peubah secara simultan, tercakup di dalam analisis peubah ganda. Analisis cluster (kelompok) merupakan suatu metode dalam analisis peubah ganda yang bertujuan untuk mengelompokkan n satuan pengamatan ke dalam k kolompok, sehingga unit-unit pengamatan dalam satu kelompok mempunyai ciri-ciri yang lebih homogen dibandingkan unit pengamatan dalam kelompok lain (Mattjik, dkk., 2002). Tujuan utama analisis cluster adalah mengelompokkan obyek-obyek (isi peubah) berdasarkan kesamaan karakteristik di antara obyek-obyek tersebut. Obyek bisa berupa produk (barang dan jasa), benda (tumbuhan atau lainnya), daerah (propinsi, kota, negara), ataupun orang (responden, konsumen atau yang lain). Obyek tersebut akan diklasifikasikan ke dalam satu atau lebih cluster sehingga obyek-obyek yang berada dalam satu cluster akan mempunyai kemiripan satu dengan yang lain. Seiring dengan perkembangan ilmu pengetahuan dan teknologi, muncul kasus dengan data peubah ganda berskala campuran nominal, ordinal (nonmetrik) dan interval, rasio (metrik). Sayangnya, hingga saat ini sering dijumpai beberapa penelitian yang menggunakan data berskala campuran tetapi masih menggunakan Analisis Cluster yang hanya bisa digunakan untuk data berskala metrik. Akhir-akhir ini telah dikembangkan suatu metode analisis peubah ganda yang dapat menyelesaikan permasalahan untuk data berskala campuran. Misalnya pada bidang peternakan, dalam suatu penelitian melibatkan peubah berskala nonmetrik yaitu warna bulu dan jenis domba, dan peubah berskala metrik yaitu tinggi badan, berat badan, dan lain sebagainya. Oleh karena itu pada penelitian ini mengembangkan teknik Analisis Cluster yang menggunakan data berskala campuran. Sebelum melakukan Analisis cluster digunakan suatu analisis yang merupakan pengembangan Analisis Komponen Utama yang disebut Analisis Komponen Utama Nonlinier. Analisis Komponen Utama Nonlinier menghasilkan skor komponen obyek yang memiliki skala ukur rasio atau berjenis data metrik sehingga dapat dianalisis lebih lanjut dengan Analisis cluster. Dalam Analisis Komponen Utama Nonlinier juga dapat dihasilkan skor komponen obyek yang juga berguna untuk analisis lanjut, yaitu Analisis Cluster. Skor komponen obyek memiliki skala ukur rasio atau berjenis data metrik sehingga dapat dianalisis lebih lanjut dengan Analisis Cluster. Setelah melakukan Analisis Cluster, perlu dilakukan juga validitas cluster, karena penentuan jumlah kelompok dalam Analisis cluster belum ada dasar yang kuat mengenai jumlah kelompok terbaik. Validitas cluster mempunyai arti prosedur untuk mengevaluasi hasil analisis cluster secara kuantitatif sehingga dihasilkan kelompok optimum. Kelompok optimum yaitu kelompok yang mempunyai jarak yang padat antar individu dalam kelompok dan terisolasi dari kelompok lain dengan baik.
3
2. Perumusan Permasalahan Berdasarkan latar belakang di atas, permasalahan yang ingin dikemukakan adalah sebagai berikut: 1. Bagaimana penggunaan analisis cluster pada data berskala campuran (nominal, ordinal, interval dan rasio) dan menerapkan analisis cluster pada data perkembangan Industri Tempe di Sentra Industri Tempe Kota Malang tahun 2000, 2003 dan 2005? 2. Bagaimana menentukan kelompok optimum melalui validitas cluster terhadap hasil pengelompokkan? 3. Tujuan dan Manfaat Penelitian Tujuan dari penelitian ini adalah: 1. Menggunakan Analisis Cluster pada data berskala campuran (nominal, ordinal, dan interval atau rasio) dan menerapkan pada data perkembangan Industri Tempe di sentra industri tempe kota Malang tahun 2000, 2003 dan 2005. 2. Menentukan kelompok optimum melalui Validitas Cluster terhadap hasil pengelompokkan.
Manfaat dari penelitian ini adalah: dengan diadakannya penelitian ini, para peneliti dapat menggunakan Analisis Cluster pada data berskala campuran dengan menggunakan Analisis Komponen Utama Nonlinier. Diharapkan dari penelitian ini dapat menjawab permasalahan secara lebih tepat di bidang-bidang yang bersesuaian (bidang pertanian, peternakan, epidemilogi, taksonomi, meteorologi, dan kedokteran) dan pengembangan ilmu pengetahuan dan teknologi khususnya pada bidang Statistika Multivariat.
4
BAB II TINJAUAN PUSTAKA
1. Analisis Cluster Santoso (2002) menyatakan bahwa proses dari analisis kelompok adalah pengelompokkan data yang dilakukan dengan dua macam metode yaitu metode hirarki dan metode non hirarki. Pada metode non hirarki, telah ditentukan jumlah kelompok terlebih dahulu. Sedangkan metode hirarki digunakan bila jumlah kelompok ditentukan berdasarkan hasil analisis. Metode hirarki merupakan metode pengelompokan yang terstruktur dan bertahap berdasarkan pada kemiripan sifat antar obyek. Kemiripan sifat tersebut dapat ditentukan dari kedekatan jarak. Proses pengelompokan untuk metode hirarki secara umum adalah sebagai berikut: 1. Membentuk matriks jarak untuk masing-masing obyek. Terdapat 3 jarak yang biasa digunakan sebagai berikut: a. Jarak Euclid Misalkan dua obyek ke-i dan ke-j yang berada pada m dimensi (di mana m adalah banyaknya peubah). Jarak euclid didefinisikan sebagai berikut: m d(i,j) = ( xik x jk ) 2 k 1 b. Jarak City Block (Manhattan) Jarak ini menggunakan rumus sebagai berikut: 1
d(i,j) =
| x m
k 1
ik
x jk |
2
(1)
(2)
c. Jarak Mahalanobis Jarak antara dua obyek i dan j dinyatakan dalam bentuk vektor dan matriks. d(i,j)2 = (Xik – Xjk)T S-1 (Xik – Xjk) (3) Dengan Xik dan Xjk adalah nilai vektor untuk individu ke-i dan ke-j dan S merupakan matriks ragam peragam. 2. Menggabungkan masing-masing obyek secara terstruktur berdasarkan kemiripan sifatnya. Dua obyek yang mempunyai jarak terdekat digabung di dalam satu kelompok. Hasil penggabungan antar obyek ini dibentuk dalam suatu diagram yang dinamakan dendogram. Metode penggabungan (pautan) yang biasa digunakan adalah: a. Average Linkage Average Linkage yaitu jarak rata-rata antara seluruh contoh yang ada pada kelompok yang berbeda, dirumuskan dengan: 1 d(c1,c2) = (4) d( x, y ) n1 n2 xc1 yc2
di mana n1 dan n2 adalah jumlah contoh pada kelompok c1 dan c2. b. Complete Linkage Complete Linkage yaitu jarak antara contoh paling jauh dari dua kelompok berbeda, dirumuskan dengan: d(c1,c2) = max d ( x , y ) (5) xc1 , yc2 c. Single Linkage Single Linkage yaitu jarak terdekat antara dua contoh dari dua kelompok berbeda, dirumuskan dengan: d(c1,c2) = min d ( x , y ) (6) xc1 , yc2
5
Agar analisis cluster dapat digunakan untuk data berskala campuran (metrik dan nonmetrik), terlebih dahulu dilakukan Analisis Komponen Utama Nonlinier, karena hasil dari skor komponen pada analisis komponen utama nonlinier memiliki skala ukur rasio.
2. Analisis Komponen Utama Nonlinier Analisis Komponen Utama Nonlinier merupakan pengembangan dari Analisis Komponen Utama dan biasa disebut juga Princals (Principal Component Analysis by Alternating Least Squares) atau Analisis Komponen Utama dengan menggunakan pendekatan alternating least squares (Gifi, 1990). Apabila terdapat suatu data yang dibentuk ke dalam matriks H yang berukuran n m , maka untuk memudahkan perhitungan Analisis Komponen Utama Nonlinier dipakai notasi: n = banyak pengamatan (obyek) ; i = 1, 2, …, n m = banyak peubah kj = banyak kategori pada peubah ke-j ; j = 1, 2, …, m hj = vektor kolom ke-j dari matriks H berukuran n 1 Gj = matriks indikator dari hj berukuran n k j di mana: 1, jika obyek ke-i berada dalam kategori ke-r dari peubah j g(j)ir = 0, jika obyek ke-i tidak berada dalam kategori ke-r dari peubah j i = 1, 2, …, n dan r = 1, 2, …, kj m
G = (G1, G2, …, Gj, …, Gm) berukuran n k j j 1
Pada kasus data lengkap (tanpa ada data hilang), Gj dikatakan lengkap apabila setiap baris pada Gj hanya mempunyai satu unsur bernilai satu dan yang lainnya bernilai nol. Sedangkan Gj dikatakan tidak lengkap jika ada baris yang semua nilai elemennya bernilai nol. Dari matriks Gj akan diperoleh frekuensi tiap kategori pada setiap peubah. Jika mempunyai data lengkap maka berlaku persamaan sebagai berikut: G ju M ju (7)
M M j m karena Mj = I
(8)
D j G j 'G j
(9)
m
j 1
M berisi banyaknya nilai data aktif untuk tiap obyek.
di mana: u = vektor kolom yang semua elemennya adalah 1 Mj = matriks bujur sangkar yang berupa matriks I Dj = matriks diagonal yang merupakan jumlah kolom dari Gj Isi diagonal utama matriks Mj adalah: 1, jika obyek ke-i berada dalam selang [1, kj] m(j)ii = 0, jika obyek ke-i berada di luar selang [1, kj] Matriks kategori kuantifikasi peubah ke-j dirumuskan sebagai berikut: Y j Dj G j'X
(10)
X m 1 GY
(11)
1
dengan matriks skor komponen obyek: Matriks kuantifikasi dinotasikan sebagai berikut:
6
qj = vektor dengan panjang n dengan hitungan obyek (quantification of object) yang berkenaan dengan peubah hj yj = vektor hitungan kategori tunggal (single category quantification) untuk peubah hj x = vektor rata-rata untuk qj X = matriks skor komponen obyek berordo n p di mana p = banyaknya dimensi (pm) Yj = hitungan kategori berganda berordo k j p Y = kumpulan dari multiple dan single category quantification yaitu matriks perhitungan m
aj =
kategori berordo k j p j 1
y ' D y
bobot peubah atau sama dengan komponen loading berukuran 1 p di mana a j Y j 'D j y j
j
j
j
Q = matriks data transformasi berordo n m dengan kolom q j G j y j Model Analisis Komponen Utama Nonlinier adalah sebagai berikut:
qij xis a js p
s 1
(12)
di mana i 1,2, , n ; j 1,2, , m ; s 1,2, , p Analisis Komponen Utama Nonlinier didasarkan pada teori meet loss yang bertujuan untuk meminimumkan fungsi homogeneity loss ( M ):
M X ,Y m 1 X G j Y m
j 1
j
X G '
j
Y
j
(13)
dengan normalisasi AVE(xs) = 0 untuk dimensi s 1,2, , p dan X ' X . Digunakan notasi M (meet loss) karena M X , Y 0 secara tidak langsung menunjukkan bahwa meet rank dari Gj paling sedikit adalah p. Algoritma untuk menghitung p dimensi pertama secara simultan dan meminimumkan M dengan menggunakan alternating least square adalah: 1 Y j Dj G j'X (14) Z
G m
j 1
(15)
jY j
X GRAM (Z )
(16) GRAM(Z) = matriks ortogonal dari ortogonalisasi Gram-Schmidt dari matriks Z. AVE(xs) = vektor yang merupakan rata-rata kolom dari elemen matriks xs. Kelebihan penggunaan M adalah dapat dipaksakan kondisi Y j y j a j ' untuk
beberapa peubah dan tidak untuk peubah yang lain. Jika kondisi tersebut dipaksakan untuk seluruh peubah, kemudian meminimumkan j maka yang dilakukan adalah Analisis Komponen Utama Linier. Sebaliknya jika tidak dipaksakan kondisi tersebut untuk seluruh peubah maka yang dilakukan adalah Homogeneity Analysis. Untuk peubah nominal, kuantifikasi tunggal biasanya sangat tidak natural. Sebagai konsekuensinya dihitung single quatification untuk peubah ordinal serta numerik dan multiple quantification untuk peubah nominal. Dalam meminimumkan M tidak perlu menormalkan Y karena X sudah dinormalkan. Dengan syarat X X , X dinormalisir dengan kondisi X M X mn dan u M X 0 yang berimplikasi bahwa X adalah skor standar jika Mj = I untuk semua j. Nilai X baru dengan nilai Y yang sudah diketahui dapat dihitung dengan langkah-langkah sebagai berikut: '
'
'
7
Langkah 1. Dihitung:
Z M jG jY m
j 1
(17)
j
Langkah 2. Nilai Z dipusatkan ke M didapatkan: M uu ' M ~ Z M ' u M u
Z
(18)
Langkah 3. Dihitung matriks orthogonal X dengan ortogonalisasi Gram-Schmidt: 1 / 2 1 / 2 ~ 1/ 2 X m M GRAM M Z (19) Solusi Gram-Schmidt merupakan rotasi solusi yang optimum karena dalam solusi ini Yj akan dirotasi dengan cara yang sama pada iterasi selanjutnya sehingga nilai M akan menurun sebanyak iterasi sebelumnya. Dengan menggunakan solusi Gram-Schmidt akan diperoleh penurunan M yang lebih kecil pada langkah untuk memperbaharui X tetapi akan memberikan penurunan M yang lebih besar pada langkah selanjutnya untuk memperbaharui Yj (Gifi, 1990). Menurut Anonim (2001), sasaran dari Princals adalah untuk mencari nilai skor komponen obyek X dan Yj ( j 1,2, , m ) sedemikian hingga fungsi:
X ,Y m 1 tr X G j Y j ' M j X G j Y j m
j 1
dapat minimal dengan kondisi batasan normalisasi X M X mn '
(20)
di mana berlaku
persamaan (20) dan I adalah matriks identitas dengan ordo p p . Masuknya matriks M
dalam X , Y menjamin bahwa tidak ada pengaruh nilai data di luar selang [1, kj] yang mungkin benar-benar merupakan data hilang. Skor komponen obyek juga akan terpusat ' dengan memenuhi kondisi u M X 0 . j
3. Validitas Cluster Permasalahan utama dalam Analisis Cluster adalah jumlah kelompok yang harus ditentukan oleh peneliti karena belum ada dasar yang kuat mengenai jumlah kelompok terbaik. Langkah selanjutnya yaitu melakukan uji validitas cluster untuk mengevaluasi hasil dari Analisis Cluster secara kuantitatif sehingga dihasilkan kelompok optimum. Kelompok optimum adalah kelompok yang mempunyai jarak yang padat antar individu dalam kelompok dan terisolasi dari kelompok lain dengan baik (Dubes and Jain, 1988). Indeks-indeks yang bisa dijadikan tolok ukur dalam pengujian validitas cluster adalah sebagai berikut: 1. Indeks Dunn (D) Indeks validasi Dunn dilambangkan dengan D dihitung dengan rumusan berikut: d ( c , c ) i j D = min min (21) 1 i n 1 j n ,i j max( d`( c )) k 1 k n di mana d(ci,cj) = jarak antar kelompok ci dan cj d'(ck) = jarak dalam kelompok ck Nilai terbesar dari D diambil sebagai jumlah optimum kelompok (Azuaje dan Bolshakova, 2001).
8
2. Indeks Davies-Bouldin (DB) Rumus indeks Davied-Bouldin dapat ditulis sebagai: d`( ci ) d`( c j ) 1 n DB = max (22) n i 1 i j d ( ci , c j ) di mana n = jumlah kelompok d(ci,cj) = jarak antar kelompok ci dan cj d'(ck) = jarak dalam kelompok ck Nilai indeks Davies-Bouldin yang kecil menunjukkan kelompok yang baik (Su, 2003).
3. Indeks C Indeks ini dapat dijelaskan sebagai berikut: S S min C= (23) S max S min di mana S = jumlah jarak pada semua pasangan obyek amatan dari kelompok yang sama, dengan jumlah pasangan tersebut, Smin = jumlah dari jarak terkecil jika semua pasangan contoh berada pada kelompok yang berbeda. Smax = jumlah dari jarak terbesar dari semua pasangan. Nilai C yang kecil menandai kelompok yang baik (Bolshakova, 2003). 4. Indeks Global Silhoutte (GSu) Untuk mendapatkan indeks Silhoutte S(i) digunakan rumus berikut: b( i ) a( i ) S( i ) (24) maxa( i ), b( i ) di mana a(i) = rata-rata perbedaan dari i-obyek dengan semua obyek lain di dalam kelompok yang sama. b(i) = nilai minimum dari rata-rata perbedaan dari i-obyek dengan semua obyek pada kelompok lain (di kelompok terdekat). Nilai yang paling besar dari Indeks Global Silhoutte menandai jumlah kelompok terbaik yang kemudian diambil sebagai kelompok optimum. Rumusan Global Silhoutte diberikan oleh: 1 n (25) GS u S ( i ) n i 1 di mana S(i) = Silhoutte kelompok ke-i n = jumlah kelompok
5. Indeks Goodman-Kruskal (GK) Dimisalkan empat pasang dari seluruh obyek amatan adalah (q,r,s,t), dengan d(x,y) merupakan jarak antara obyek x dan y. Empat pasang obyek tersebut dikatakan konkordan jika memenuhi kondisi d(q,r) < d(s,t), di mana q dan r berada pada kelompok yang sama dan s dan t pada kelompok yang berbeda. Sebaliknya, empat pasang obyek dikatakan diskordan jika memenuhi kondisi yaitu: d(q,r) < d(s,t), di mana q dan r berada pada kelompok yang berbeda dan s dan t pada kelompok yang sama. Indeks GK dihitung dari hasil perhitungan nilai pasangan konkordan dan diskordan dengan rumus: S Sd GK c (26) Sc Sd di mana Sc = jumlah pasangan konkordan 9
Sd = jumlah pasangan diskordan Nilai-nilai GK yang besar menunjukkan kelompok yang optimum (Bolshakova,2003).
Semua indeks yang dihitung dapat memberikan jumlah kelompok yang optimum, akan tetapi ada kemungkinan tiap indeks memberikan hasil yang berbeda. Pouwels (1998) memberikan alternatif untuk memilih jumlah kelompok optimum dengan mengkombinasikan indeks validitas kelompok yang kemudian dapat dipilih jumlah kelompok optimumnya pada saat indeks tersebut berkombinasi paling banyak. Langkahnya adalah menghitung kelima indeks validitas, lalu memberi ranking tiap jumlah kelompok yang mungkin pada masingmasing indeks. Jumlah kelompok optimum diperoleh pada rata-rata rangking yang paling tertinggi.
10
BAB III METODE PENELITIAN
3.1. Bahan Penelitian ini dilakukan di Program Studi Statistika, Jurusan Matematika FMIPA Universitas Brawijaya dan di Sentra Industri Tempe pada Kelurahan Tulusrejo, Merjosari, Lesanpuro, Sanan, dan Mulyorejo Kota Malang. Kelurahan ini adalah kelurahan yang ditunjuk Dinas Perindustrian sebagai Sentra Industri Tempe di Kota Malang. Penelitian dilakukan mulai Bulan April sampai dengan September 2006. Data yang digunakan dalam penelitian ini adalah data sekunder dari skripsi Wawan Agus Hermayudi (2004) mahasiswa Jurusan Teknologi Industri Pertanian Fakultas Teknologi Pertanian Universitas Brawijaya yang berjudul “Pengelompokkan Industri Tempe Berdasarkan Klasifikasi Industri dengan Analisis Cluster (Studi Kasus di Sentra Industri Tempe Kota Malang)” dengan enam peubah yang diamati adalah sebagai berikut: X1 : Jumlah tenaga kerja (orang) X2 : Nilai produksi (rupiah/tahun) X3 : Jumlah bahan baku (kg/tahun) X4 : Nilai investasi (Rp) X5 : Teknologi yang digunakan, yang meliputi 1 (masih tradisional) 2 (menggunakan alat modern, misalnya penggilingan mesin) X6 : Aneka olahan, yang meliputi 1 (hanya memproduksi tempe) 2 (juga memproduksi kripik selain tempe)
Pada data sekunder ini, pengamatan dilakukan pada tahun 2004 dengan 102 responden sebagai sampel penelitian. Untuk data primer, akan dilakukan pengumpulan data untuk masing-masing peubah dan obyek yang sama untuk tahun 2000, 2003 dan 2005 di Sentra Industri Tempe Kota Malang.
11
3.2. Metode Metode yang digunakan dalam penelitian ini dijelaskan pada diagram alir berikut: Mulai Data 2000
Data 2003
Data 2005s
Analisis Deskriptif AKU Nonlinier Data Skor Komponen Analisis Cluster Hirarki Uji Validitas Cluster Jumlah Cluster Optimum Membandingkan hasil pengelompokkan 2000,2003,2005 Selesai
Gambar 1. Diagram Alir Analisis Cluster pada Data Berskala Campuran
12
BAB IV HASIL DAN PEMBAHASAN
1. Hasil Penelitian a. Analisis Deskriptif Analisis deskriptif masing-masing peubah adalah sebagai berikut: 3,0E+08 2,5E+08
3,0 2,5
Rata-rata
Rata-rata
4,0 3,5 2,0 1,5 1,0
2,0E+08 1,5E+08 1,0E+08 5,0E+07
0,5 0,0
2000
2003
0,0E+00
2005
Tahun
(a) Jumlah tenaga kerja (X1) 6,0E+06
4,0E+04
4,0E+06
3,0E+04 2,0E+04 1,0E+04
3,0E+06 2,0E+06
2000
2003
Tahun
0,0E+00
2005
(c) Jumlah bahan baku (X3) 99
60
0
6
3
3
2000
2003
2005
Tahun
Alat Modern
Tradisional
(e) Teknologi yang digunakan (X5)
2000
2003
2005
Tahun
(d) Nilai investasi (X4)
Frekuensi
Frekuensi
99
96
80
20
Tahun
1,0E+06
0,0E+00
40
2005
5,0E+06 Rata-rata
Rata-rata
5,0E+04
100
2003
(b) Nilai produksi (X2)
6,0E+04
120
2000
80 70 60 50 40 30 20 10 0
71
36
31
2000
70
66
2003
Tahun
Tempe & Kripik
32
2005
Tempe saja
(f) Aneka olahan (X6)
Gambar 2. Hasil Analisis Deskriptif Data Industri Tempe di Malang
13
Dari Gambar di atas diperoleh gambaran bahwa untuk peubah jumlah tenaga kerja, nilai produksi, jumlah bahan baku, dan nilai investasi cenderung mengalami peningkatan setiap tahunnya. Untuk peubah teknologi yang digunakan, pada tahun 2003 mengalami peningkatan penggunaan alat modern, sedangkan untuk peubah aneka olahan pada tahun 2003 mengalami peningkatan jumlah industri tempe yang memproduksi kripik selain tempe, akan tetapi pada tahun 2005 mengalami penurunan. b. Analisis Komponen Utama Nonlinier Pada penelitian ini menggunakan data berskala campuran, yaitu peubah jumlah tenaga kerja (X1), nilai produksi (X2), jumlah bahan baku (X3), dan nilai investasi (X4) berskala rasio, sedangkan teknologi yang digunakan (X5), dan aneka olahan (X6) berskala ordinal. Analisis Cluster Hirarki menggunakan Analisis Komponen Utama tidak dapat dilakukan karena Analisis Komponen Utama hanya digunakan pada data berskala minimal interval. Analisis Cluster Hirarki dapat digunakan pada data berskala campuran bila terlebih dahulu dilakukan Analisis Komponen Utama Nonlinier, karena pada hasil dari Analisis Komponen Utama Nonlinier memiliki skala ukur rasio. Besarnya nilai akar ciri untuk masing-masing dimensi dapat dilihat pada Tabel 1 berikut.
Dimensi 1 2 3 4 5 6
Tabel 1. Akar Ciri dan Proporsi Keragaman Tahun 2000 Tahun 2003 Tahun 2005 Proporsi Proporsi Proporsi Akar Ciri Akar Ciri Akar Ciri Keragaman Keragaman Keragaman (Eigen (Eigen (Eigen Kumulatif Kumulatif Kumulatif Value) Value) Value) (%) (%) (%) 0,8023 61,4366 0,5680 56,3996 1,0419 69,3675 0,2243 78,6125 0,2049 76,7451 0,2135 83,5819 0,1629 91,0866 0,1432 90,9642 0,1498 93,5553 0,0648 96,0487 0,0607 96,9914 0,0688 98,1358 0,0516 100,0000 0,0303 100,0000 0,0280 100,0000 1,75.10-17 100,0000 3,1.10-17 100,0000 2,11.10-16 100,0000
Dari Tabel di atas diperoleh bahwa dengan menggunakan 5 dimensi pertama sudah dapat menerangkan hampir 100% dari total keragaman data, maka digunakan 5 dimensi pertama saja untuk digunakan analisis cluster. Masuknya peubah ke dalam suatu dimensi tergantung pada besarnya komponen loading yang merupakan nilai korelasi antara peubah dengan dimensi. Peubah dengan nilai komponen loading terbesar memiliki peran utama dalam dimensi tersebut. Lampiran 1 menjelaskan besarnya komponen loading setiap peubah. Hasil komponen loading dapat dijabarkan sebagai berikut: 1. Pada tahun 2000, dimensi 1 didominasi oleh peubah nilai produksi (X2) dan jumlah bahan baku (X3), dimensi 2 didominasi oleh peubah teknologi yang digunakan (X5), dimensi 3 didominasi oleh peubah aneka olahan (X6), dimensi 4 didominasi oleh peubah nilai investasi (X4), dan dimensi 5 didominasi oleh peubah jumlah tenaga kerja (X1). 2. Pada tahun 2000 dan 2005 diperoleh hasil yang sama, di mana dimensi 1 didominasi oleh peubah nilai produksi (X2) dan jumlah bahan baku (X3), dimensi 2 didominasi oleh peubah teknologi yang digunakan (X5), dimensi 3 didominasi oleh peubah aneka olahan (X6), dimensi 4 didominasi oleh peubah jumlah tenaga kerja (X1), dan dimensi 5 didominasi oleh peubah nilai investasi (X4). Hasil akhir Analisis Komponen Utama Nonlinier adalah skor komponen obyek ke lima dimensi yang terbentuk, yang digunakan untuk Analisis Cluster. 14
c. Analisis Cluster Setelah skor komponen didapatkan maka nilai skor komponen digunakan sebagai masukan untuk menentukan banyaknya cluster yang terbentuk. Pembentukan cluster menggunakan kombinasi 3 jarak yaitu Euclid, Manhattan, dan Mahalanobis, dan 3 metode pautan, yaitu average linkage, complete linkage, dan single linkage). Untuk dapat menentukan jumlah cluster optimum, digunakan indeks validitas cluster, yaitu Indeks Dunn, Indeks Davies-Bouldin, Indeks C, Indeks Global Silhoutte, dan Indeks Goodman-Kruskal. Hasil perhitungan ranking indeks validitas cluster disajikan secara lengkap pada Lampiran 2. Hasil pengujian validitas cluster adalah sebagai berikut: 1. Tahun 2000 terbentuk 3 cluster, dengan jarak terbaik adalah jarak Euclid dan pautan tunggal (single linkage). 2. Tahun 2003 terbentuk 2 cluster, dengan jarak Euclid sebagai jarak terbaik dengan pautan tunggal (single linkage) sebagai pautan terbaik. 3. Tahun 2005 terbentuk 2 cluster, dengan jarak terbaik adalah jarak Euclid dan pautan yang digunakan adalah pautan rata-rata (average linkage). Setelah cluster terbentuk dilakukan interpretasi terhadap hasil cluster yang terbentuk, yaitu memberi nama spesifik untuk menggambarkan isi kelompok tersebut. Tabel 2. Deskripsi Masing-Masing Cluster Industri Tempe
Tahun
Cluster
n
2000
1 2 3 1 2 1 2
6 95 1 99 3 99 3
2003 2005
X1
3.500 2.421 5.000 2.586 3.667 2.556 3.667
X2
Rata-rata
75.920.000 92.515.974 438.000.000 136.457.364 80.482.333 143.955.631 77.745.000
X3
19.163 23.310 109.500 27.413 16.425 31.372 17.033
X4
1.154.167 2.766.632 11.400.000 3.011.152 1.083.333 3.068.818 1.083.333
Frekuensi
1 6 0 0 0 3 0 3
X5
X6
2 1 2 0 5 1 95 65 30 1 1 0 99 67 32 0 3 0 99 63 36 0 3 0
Nama Cluster
Rendah Sedang Tinggi Tinggi Rendah Tinggi Rendah
Dari analisis deskripsi diperoleh bahwa hasil pembentukan cluster pada tahun 2000, terdapat 6 industri tempe diklasifikasikan rendah, 95 industri tempe diklasifikasikan sedang, dan 1 industri tempe diklasifikasikan tinggi. Pada tahun 2003 ke 2005 tampak tidak terjadi perubahan yang berarti di mana terdapat 2 klasifikasi industri tempe yaitu rendah sebanyak 3 industri tempe, dan tinggi sebanyak 99 industri tempe.
2. Pembahasan Pengelompokkan obyek pada kasus di mana peubah yang digunakan berskala campuran, dapat menggunakan Analisis Cluster Hirarki dengan menggunakan Analisis Komponen Utama Nonlinier terlebih dahulu, karena Skor Komponen Utama hasil Analisis Komponen Utama Nonlinier berskala rasio. Pengelompokkan industri tempe di Kota Malang berdasarkan atas 6 peubah yaitu: peubah jumlah tenaga kerja (X1), nilai produksi (X2), jumlah bahan baku (X3), nilai investasi (X4), teknologi yang digunakan (X5), dan aneka olahan (X6). Dari hasil Analisis Komponen Utama Nonlinier, diperoleh 5 dimensi pertama telah menghasilkan 100% dari keragaman data awal. Dari hasil Analisis Komponen Utama Nonlinier diperoleh bahwa peubah nilai produksi (X2) dan jumlah bahan baku (X3) adalah peubah yang identik (hampir sama), maka kedua peubah ini berada pada dimensi yang sama. Dengan menggunakan lima skor komponen utama hasil Analisis Komponen Utama Nonlinier dilakukan Analisis Cluster Hirarki. Penentuan banyaknya kelompok optimal menggunakan indeks validitas Cluster yaitu Indeks Dunn, Indeks Davies-Bouldin, Indeks C, 15
Indeks Global Silhoutte, dan Indeks Goodman-Kruskal. Dari hasil indeks validitas Cluster diperoleh: 1. Pada tahun 2000, terjadi 3 kelompok di mana ada 6 industri tempe yang harus diperhatikan perkembangannya karena termasuk dalam kategori rendah, dan pada tahun tersebut terdapat 1 industri tempe yang nilai dari keempat peubah cukup tinggi dengan industri lainnya. 2. Pada tahun 2003 dan 2005 hasil yang diperoleh hampir sama, di mana hanya ada 3 industri tempe yang termasuk kategori rendah yang patut diperhatikan oleh instansi yang terkait agar bisa lebih berkembang, dan sisanya 99 industri tempe telah tergolong cukup tinggi tingkat perkembangan industri tempe. Hasil Analisis Cluster pada tiga tahun pengamatan dapat dilihat dengan membuat plot 2 dimensi pertama dari hasil Analisis Komponen Utama Nonlinier yang disajikan pada Gambar 2 berikut: 2.0
Dimensi 2
1.0 0.0
Rendah
-1.0
Sedang
-2.0
Tinggi
-3.0 -4.0
-5.0 -8.0
-6.0
-4.0
-2.0
Dimensi 1
0.0
2.0
Gambar 3a. Plot 2 Dimensi Pertama AKU Nonlinier Tahun 2000 6.0
Dimensi 2
5.0 4.0 3.0
Tinggi
2.0
Rendah
1.0 0.0
-1.0
-2.0 -8.0
-6.0
-4.0
-2.0
Dimensi 1
0.0
2.0
Gambar 3b. Plot 2 Dimensi Pertama AKU Nonlinier Tahun 2003
16
6.0
Dimensi 2
5.0 4.0 3.0
Tinggi
2.0
Rendah
1.0 0.0
-1.0
-2.0 -2.0
0.0
2.0
Dimensi 1
4.0
6.0
Gambar 3c. Plot 2 Dimensi Pertama AKU Nonlinier Tahun 2005 Pada tahun 2000, dua dimensi pertama menjelaskan 78,61% dari total keragaman dan tampak bahwa telah terjadi tiga pengelompokkan yang sangat jelas terlihat. Demikian pula pada tahun 2003, dua dimensi pertama menjelaskan 76,75% dari keragaman total dan tampak bahwa telah terjadi dua pengelompokkan. Sedangkan pada tahun 2005, dua dimensi pertama menjelaskan 83,58% dari total keragaman dan tampak telah terjadi dua pengelompokkan yang sangat jelas terlihat.
17
BAB V KESIMPULAN DAN SARAN
1. Kesimpulan Dari hasil penelitian yang dilakukan dapat diambil kesimpulan sebagai berikut: 1. Analisis Cluster dapat digunakan pada data berskala campuran (nominal, ordinal, interval atau rasio) dengan terlebih dahulu menggunakan Analisis Komponen Utama Nonlinier. Analisis Cluster dapat digunakan pada data perkembangan Industri Tempe di Sentra Industri Tempe di Kota Malang yang menggunakan data berskala campuran. 2. Penentuan banyaknya kelompok optimum pada Analisis Cluster dapat menggunakan Indeks Validitas Cluster yaitu: Indeks Dunn, Indeks Davies-Bouldin, Indeks C, Indeks Global Silhoutte, dan Indeks Goodman-Kruskal. Selain itu indeks validitas Cluster juga dapat menentukan jarak dan metode pautan terbaik yang dapat digunakan. Pada tahun 2000 terbentuk 3 Cluster dengan menggunakan jarak Euclid dan metode pautan tunggal, di mana dari 102 industri tempe yang dijadikan sampel pada penelitian ini, 6 industri tempe diklasifikasikan rendah, 95 industri tempe diklasifikasikan sedang, dan 1 industri tempe diklasifikasikan Pada tahun 2003 terbentuk yaitu 2 Cluster dengan menggunakan jarak Euclid dan metode pautan tunggal, di mana 99 industri tempe dikategorikan tinggi, dan hanya 3 industri tempe dikategorikan sedang. Sedangkan pada tahun 2005, terbentuk 2 Cluster dengan menggunakan jarak Euclid dan metode pautan rata-rata, di mana 99 industri tempe dikategorikan tinggi, dan hanya 3 industri tempe dikategorikan sedang. 2. Saran Perlu dipelajari tentang Analisis Cluster Two Step, di mana metode ini dapat digunakan pada data berskala campuran tanpa harus menggunakan Analisis Komponen Utama Nonlinier terlebih dahulu.
18
DAFTAR PUSTAKA Afifi, A.A. and Clark,V. 1990. Computer Aided Multivariate Analysis. Chapman and Hall. New York.
Anonim. 2001. PRINCALS. http://www.rrz.uni-hamburg.de/RRZ/Sofware/SPSS/ Algorith.115/princals.pdf. Tanggal akses: 16 Februari 2006. Anggraeni, D. 2005. Kajian Perbandingan Jarak Minkowski, City Block (Manhattan), dan Mahalanobis Dalam Analisis Kelompok Hirarki. Tugas Akhir Program Studi Statistika. Universitas Brawijaya. Malang (tidak dipublikasikan). Azuaje, F and Nadia, B. 2001. Improving Expression Data Mining through Cluster Validity. Departement of Computer Science. Trinity College Dublin. Ireland. http://www.cs.tcd.ie/publications/techreports/reports.02/TCD-CS-2002-.pdf. Tanggal akses: 24 Februari 2006. Backer, E. 1995. Computer-Assisted Reasoning in Cluster Analysis. Prentice Hall. New York.
Bolshakova, N. 2003. Cluster Validity Algorithms. Departement of Computer Science.Trinity College Dublin. Ireland. http://www.cs.tcd.ie/Nadia.Bolshakova/ validation_algorithms.html. Tanggal akses: 24 Februari 2006. Dubes and Jain, A.K.1988. Algorithm for Clustering Data. Prentice Hall. New Jersey. Gifi, A. 1990. Nonlinear Multivariate Analysis. John Wiley & Sons Inc. Chichester.
Gumus, M., and Hamarat, B. 2004. Knowledge Management Perceptions of Managers. Journal of Knowledge Management Practice. http://www.tlainc.com/articl64.html. Tanggal akses: 16 Februari 2006. Hair, J.F.Jr., Anderson, R.E., Thatham R.L., and Black, W.C. 1998. Multivariate Data Analysis. Fifth Ed. Prentice Hall International, Inc. New Jersey.
Hermayudi, W.A. 2004. Pengelompokan Industri Tempe Berdasarkan Klasifikasi Industri dengan Cluster Analysis (Studi Kasus di Sentra Industri Tempe Kota Malang). Tugas Akhir Jurusan Teknologi Industri Pertanian. Fakultas Teknologi Pertanian Universitas Brawijaya, Malang (tidak dipublikasikan). Konig, R. 2002. On the Rotation of Nonlinear Principal Component Analysis (PRINCALS) Solutions. ZUMA nachrichten. Vol. 50. http://www.oase.uci.kun.nl/ ~rkonig/rotation_princals. Tanggal akses: 16 Februari 2006.
Kroonenberg, P. M., Harch, B. D., Basford, K. E., and Cruickshank, A. 1997. Combined Analysis of Categorical and Numerical Descriptors of Australian Groundnut Accession Using Nonlinear Principal Component Analysis. Journal of Agricultural, Biological, and Environmental Statistics, Vol. 2. No. 3. Mattjik, A., Sumertajaya, I.M., Wijayanto, H., Indahwati, Kurnia A., dan Sartono, B.. 2002. Aplikasi Analisis Peubah Ganda. Depdiknas. Bogor. 19
Meirusanti, D. 2005. Analisis Komponen Utama Nonlinier Pada Data Berskala Campuran. Tugas Akhir Program Studi Statistika. Universitas Brawijaya. Malang (tidak dipublikasikan).
Pouwels, E.1998. Selecting An Optimum Clustering by Combining Cluster Validity Indices. http://www.estat.kuleuven.ac.be/`pauwels/pocv-98. Tanggal akses: 24 Februari 2006. Santoso, S. 2002. Statistika Multivariat dengan SPSS. PT. Elex Media Komputindo. Jakarta.
Sayindra, D. 2003. Kajian Pemilihan Metode Pautan Pada Analisis Kelompok Hirarki. Tugas Akhir Program Studi Statistika. Universitas Brawijaya. Malang (tidak dipublikasikan). Siegel, S. 1994. Statistika Nonparametrik untuk Ilmu-ilmu Sosial. Gramedia Pustaka Utama. Jakarta.
Spiegel, M. R. 1992. Schaum`s Outline Series Theory and Problems of Statistics. Second Edition. McGraw-Hill Book Company. London.
Su, M.C. 2003. A New Index of Cluster Validity. http://www.cs.missouri.edu/ ~skubic/8820/ClusterValid.pdf. Tanggal akses: 24 Februari 2006. Walker, M.D. 1998. Types of data. http://www.Colorado.edu/epob/epob460mwalker/ lect9.html. Tanggal akses: 16 Februari 2006. Yitnosumarto, S. 1994. Dasar-Dasar Statistika. PT. Raja Grafindo Persada. Jakarta.
20