1
Analisis Cluster pada Kabupaten di Papua Berdasarkan Faktor-Faktor yang Mempengaruhi Indeks Pembangunan Manusia (IPM) Tahun 2013 Syahrul Eka A.L, Dedi Setiawan, Rizky Mubarok, Ernawati dan Bambang W. Otok Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 Indonesia E-mail :
[email protected] ,
[email protected] Abstract— Development is a step in making something that has not existed yet or made a change that make things better or improved. A national development based on equitable distribution of development and outcomes, high economic growth and healthy and dynamic national stability. The main goal of development is to create an environment that enables people to have enjoy, healthy, and productive lives. There are three factors that influence the human development index (HDI), those are education, health, and economy. Some of the variables to assess HDI from a region are literacy rates, life expectancy, and poverty. Literacy rate is the percentage of population aged 15 years and over who can read and write to all population aged 15 years and above in an area. AMH is used as an educational indicator that is used to know the number of people who are literate in an area. The higher the literacy rate means the better the quality of the population in the region. The expectation of life at birth, usually symbolized by the e0 symbol and often abbreviated to AHH, is the average life to be lived by a newborn in a given year. AHH is one of the common indicators used to describe the level of progress in health. With life expectancy, it can be seen the development of health level in a region and also can be seen comparison of health level between regions. Keywords— Cluster Analysis, Human Development Index, Literacy Rates, Life Expectancy, Poverty, Single Linkage, Complete Linkage, K-Means.
I. PENDAHULUAN
P
embangunan merupakan suatu langkah dalam membuat sesuatu yang belum ada menjadi ada atau membuat suatu perubahan yaitu membuat sesuatu menjadi lebih baik atau meningkat. Pembangunan nasional yang berlandaskan pemerataan pembangunan dan hasilnya, pertumbuhan ekonomi yang cukup tinggi dan stabilitas nasional yang sehat dan dinamis. Tujuan utama pembangunan adalah menciptakan lingkungan yang memungkinkan rakyat menikmati umur panjang, sehat, dan menjalankan kehidupan yang produktif. Terdapat tiga faktor yang mempengaruhi IPM adalah pendidikan, kesehatan, dan ekonomi. Beberapa variabel untuk menilai IPM dari suatu daerah adalah angka melek huruf (AMH), angka harapan hidup (AHH), dan kemiskinan. Angka melek huruf merupakan persentase penduduk usia 15 tahun ke atas yang bisa membaca dan menulis terhadap seluruh penduduk berumur 15 tahun ke atas di suatu daerah. AMH ini digunakan sebagai indikator pendidikan yang digunakan untuk mengetahui banyaknya penduduk yang melek huruf di suatu daerah. Semakin tinggi nilai melek huruf berarti makin baik mutu penduduk di wilayah tersebut. Angka harapan hidup waktu lahir (expectation of life at birth) yang biasanya dilambangkan dengan simbol e0 dan sering disingkat dengan AHH adalah rata – rata hidup yang akan dijalani oleh bayi yang baru lahir
pada tahun tertentu. AHH ini merupakan salah satu indikator yang biasa digunakan untuk menggambarkan tingkat kemajuan dibidang kesehatan. Dengan angka harapan hidup, dapat dilihat perkembangan tingkat kesehatan pada suatu wilayah serta dapat pula dilihat perbandingan tingkat kesehatan antar wilayah [1]. Analisis cluster merupakan teknik multivariat yang mempunyai tujuan utama untuk mengelompokkan objekobjek berdasarkan karakteristik yang dimilikinya. Dalam laporan ini penulis menjelaskan dan memaparkan hasil analisis cluster terhadap kabupaten di Papua pada tahun 2013. Terdapat 3 variabel diantaranya adalah angka melek huruf (AMH), angka harapan hidup (AHH), dan kemiskinan. Tujuan penelitian ini adalah untuk mengkelompokkan daerah di papua berdasarkan variabel tersebut. II. TINJAUAN PUSTAKA A. Statistika Deskriptif Statistika deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna. Mean adalah salah satu ukuran untuk memberikan gambaran yang lebih jelas dan singkat tentang sekumpulan data. Mean juga merupakan wakil dari sekumpulan data atau dianggap suatu nilai yang paling dekat dengan hasil pengukuran yang sebenarnya. Rumus yang digunakan untuk menghitung mean data adalah : n 1 (1) x xi n
i 1
Keterangan: Xi = data pengamatan ke-i n = banyaknya data Standaar deviasi merupakan akar kuadrat dari varians. Rumus yang digunakan untuk menghitung nilai standar deviasi adalah :
n xi x 2 s i 1 n 1
Keterangan : s = standar deviasi xi = nilai tengah x = rata-rata n = banyak data Minimum adalah nilai terendah dari suatu data. Sedangkan maksimum adalah nilai tertinggi dari suatu data.[2]
(2)
2 B. Analisis Cluster Analisis cluster adalah metode analisis yang digunakan untuk mengelompokkan obyek-obyek pengamatan menjadi beberapa kelompok sehingga variabiliti dalam kelompok minimum dan variabilitas antar kelompok maksimum [2]. C. Metode Hierarki Metode cluster hierarki diawali dengan mengelompokkan obyek-obyek yang memiliki kesamaan yang paling dekat. Kemudian dilanjutkan pada obyek lain yang mempunyai kedekatan kedua dan seterusnya. Semakin kecil variabilitas maka kelompok akan menjadi satu [3]. Berikut adalah algoritma cluster secara hierarki. 1. Menentukan sebanyak N cluster yang dapat terbentuk, dimana N adalah banyak obyek yang diamati dan di dalamnya terdapat jarak D={dik}. 2. Menentukan matrik jarak terpendek antar cluster. 3. Menggabungkan cluster yang terbukti memiliki kedekatan 4. Ulangi langkah 2-4 sebanyak N-1 kali hingga diperoleh cluster yang memiliki kesamaan. Hasil pengelompokan dapat dijelaskan secara visual oleh dendogram. Metode perhitungan jarak yang sering digunakan dan yang akan digunakan dalam penilitian adalah jarak Euclidean. Rumus jarak Euclid dari objek ke-i menuju objek ke-j dirumuskan pada persamaan [4]:
d (i, j )
p k 1
( x ik x jk ) 2
(3)
dimana, i = 1,2,...,n (banyaknya observasi) k = 1,2,...,p (banyaknya variabel) i≠j Beberapa macam metode hierarki penggabungan (agglomerative) berdasarkan linkage diantaranya sebagai berikut [5] 1) Single Linkage Pengelompokan dilakukan dengan menggabungkan pengamatan objek yang memiliki kesamaan terdekat. Jika ditentukan matriks jarak D = {dij} dan objek koresponden adalah U dan V, jadi untuk membentuk cluster (UV), maka harus ditentukan jarak antara (UV) dengan cluster lain misalnya W, dengan cara d(uv)w = min{duw, dvw} (4) duw adalah jarak objek U dan objek W, dvw adalah jarak objek V dan objek W. d(uv)w adalah jarak minimum antara objek UV dan W [3]. 2) Complete Linkage Proses complete linkage clustering hampir sama dengan single linkage hanya saja pengelompokkan dilakukan berdasarkan pada jarak terjauh dari objek. Proses penggabungan di awali dengan menemukan dua obyek yang mempunyai jarak minimum. Jika ditentukan matriks jarak D ={dij} dan obyek koresponden adalah U dan V, jadi untuk membentuk cluster (UV) harus ditentukan jarak antara (UV) dengan cluster lain, misalnya W dengan cara d(uv)w = max{duw, dvw} (5) duw adalah jarak objek U dan obyek W, dvw adalah jarak objek V dan objek W, d(uv)w adalah jarak maksimum antara objek UV dan W [3]. D. Metode Non-Hirarki Metode ini dipakai jika banyaknya cluster sudah diketahui dan biasanya metode ini dipakai untuk
mengelompokkan data yang berukuran besar, yang termasuk dalam metode ini adalah metode K’means. Untuk menyatakan suatu observasi atau variabel menpunyai sifat yang lebih dekat dengan observasi tertentu daripada dengan observasi yang lain digunakan fungsi yang disebut jarak (distance). Suatu fungsi disebut jarak jika mempunyai sifat: a. Tak negatif d ij 0 dan d ij 0 jika i = j b. Simetri d ij d ji c. d ij d ik d jk panjang salah satu sisi segitiga selalu lebih kecil atau sama dengan jumlah dua sisi yang lain. Dengan d merupakan suatu jarak yang digunakan yang menyatakan suatu observasi atau variabel mempunyai sifat yang lebih dekat dengan observasi tertentu daripada dengan observasi yang lain [2]. Salah satu metode non hierarki adalah metode K-means. Prosedur metode k-means adalah dengan mempartisi obyek ke dalam sejumlah cluster yang telah ditentukan oleh peneliti, kemudian secara iteratif melakukan pemindahan pengamatan pada cluster sampai beberapa kriteria numerik terpenuhi. Tujuannya adalah untuk meminimalkan variabilitas antar objek dalam satu kelompok dan memaksimalkan variabilitas antar kelompok [3] E. Dendogram Dendogram adalah garfik pohon yang terstruktur yang digunakan untuk memetakan atau memvisualisasi hasil perhitungan cluster. Hasil pengelompokkan akan disajikan dlam bentuk diagram, sebagai jarak atau kesamaan antara baris atau kolom tergantung pada ukuran jarak yang dipilih [3]. F. Pdeudo-f Metode yang digunakan untuk menentukan banyaknya kelompok yang optimum adalah Pseudo F-statistic. Pdeudof tertinggi menunjukkan bahwa kelompok tersebut menunjukkan hasil yang optimal, dimana keragaman dalam kelompok sangat homogen sedangkan antar kelompok sangat heterogen. Berikut rumus yang digunakan untuk mencari Pdeudo-f [6].
R c 1 2
Pseudo F
dimana, R2
1 R2
nc
(6)
(SST SSW ) SST nc
c
p
SST xijk x k
(7) 2
i 1 j 1 k 1
nc
c
p
(8)
SSW xijk x j i 1 j 1 k 1
2
k
(9)
Keterangan SST = (Sum Square Total) total jumlah kuadrat dari kuadrat jarak terhadap rata-rata keseluruhan SSW = (Sum Square Within) total jumlah dari kuadrat jarak sampel terhadap rata-rata kelomponya) n = banyaknya sampel/observasi c = banyaknya cluster p = banyaknya variabel
3 = sampel ke-i pada kelompok ke-j dan variabel ke-k = rata-rata seluruh sampel pada variabel ke-k = rata-rata sampel padakelompok ke-j dan variabel ke-k
[7]
Variabel angka melek huruf (AMH) mewakili komponen pendidikan, variabel angka harapan hidup (AHH) mewakili dari komponen kesehatan, sedangkan untuk variabel prosentase kemiskinan di provinsi Papua mewakili komponen ekonomi
G. Internal Cluster Dispersion Rate (Icdrate) Perbandingan metode pengelompokan dapat diukur dengan menghitung rata-rata persebaran internal cluster terhadap partisi secara keseluruhan. Metode ini sering digunakan dalam menaksir akurasi atau performansi dari kelompok yang dibentuk. Semakin kecil nilai icdrate, semakin baik hasil pengelompokannya. Perhitungan internal cluster dispersion rate (icdrate) sebagai berikut : (10) icdrate 1 R 2 dimana untuk nilai R2 diperoleh berdasarkan rumus (7).
C. Langkah Analisis Langkah analisis yang dilakukan dalam proses pembuatan praktikum ini adalah sebagai berikut : 1. Mengumpulkan data sekunder. 2. Menginput data. 3. Melakukan eksplorasi data. 4. Melakukan analisis multivariat dengan menggunakan analisis cluster. 5. Interpretasi data. 6. Kesimpulan dan saran.
xijk xk
xj
k
H. Boxplot Box plot atau boxplot (juga dikenal sebagai diagram boxand-whisker) merupakan suatu box (kotak berbentuk bujur sangkar). Boxplot adalah salah satu cara dalam statistik deskriptif untuk menggambarkan secara grafik dari data numeris melalui lima ukuran. 1. Nilai observasi terkecil, 2. Kuartil terendah atau kuartil pertama (Q1), yang memotong 25 % dari data terendah 3. Median (Q2) atau nilai pertengahan 4. Kuartil tertinggi atau kuartil ketiga (Q3), yang memotong 25 % dari data tertinggi 5. Nilai observasi terbesar.[8] I. Indeks Pembangunan Manusia (IPM) Indeks Pembangunan Manusia (IPM) merupakan salah satu indeks komposit yang digunakan untuk mengukur pembangunan manusia dalam tiga dimensi kehidupan yang sangat mendasar yaitu dimensi kesehatan, dimensi pendidikan, serta dimensi ekonomi yang diukur dari tingkat kehidupan yang layak (kesejahteraan)secara keseluruhan. Pembangunan manusia yang berhasil akan membuat usia rata-rata masyarakatnya meningkat dan peningkatan pengetahuan yang bermuara pada peningkatan kualitas sumber daya manusia. Pencapaian dual hal tersebut selanjutnya akan meningkatkan produktivitas sehingga pada akhirnya akan meningkatkan mutu hidup dalam arti hidup layak[9]. III. METODE PENELITIAN A. Sumber Data Data yang digunakan pada penelitian ini adalah data sekunder yang diperoleh dari BPS untuk data pada tahun 2013. Data yang digunakan berjumlah 29, yaitu sejumlah kab/kota di Papua. B. Variabel Penelitian Variabel yang digunakan dapat dilihat pada Tabel 1, dimana variabel-variabel tersebut merupakan faktor-faktor yang mempengaruhi IPM di Papua. Tabel 1 Variabel Penelitian
Variabel X1 X2 X3
Keterangan Angka Melek Huruf (AMH) Angka Harapan Hidup (AHH) (tahun) Kemiskinan (persen)
IV. ANALISIS DAN PEMBAHASAN Pada analisis cluster terhadap faktor-faktor yang memepengaruhi Indeks Pembangunan Manusia (IPM) di Papua pada tahun 2013 digunakan variabel angka melek huruf, angka harapan hidup, dan prosentase penduduk miskin di Papua. Kompenen pendidikan diwakili oleh variabel angka melek huruf, komponen kesehatan diwakili oleh variabel angka harapan hidup sedangkan komponen ekonomi diwakili oleh prosentase penduduk miskin. Berikut analisis cluster dari faktor-faktor yang mempengaruhi IPM Papua. A. Statistika Deskriptif Sebelum melakukan analisis cluster perlu dilihat untuk karateristik dara data faktor-faktor yang mempengaruhi Indeks Pembangunan Manusia di Papua pada tahun 2013, berikut merupakan tabel statistika deskriptif Tabel 2 Statistika Deskriptif
Variabel Angka melek huruf Angka harapan hidup
Mean
StDev
59.72
28.21
67.18
1.22
% kemiskinan
33.21
9.69
Min 28.08 (Intan Jaya) 63.85 (Merauke) 12.33 (Merauke)
Max 99.86 (Jayapura) 70.88 (Mimika) 47.52 (Deiyai)
N* 0 0 0
N* jumlah missing value Pada Tabel 2 dapat diketahui bahwa lebih dari setengah penduduk di provinsi Papua sudah bisa membaca, untuk di Kota Jayapura memiliki AMH yang terbesar diantara yang lain. Kab. Intan Jaya memiliki AMH yang paling rendah yaitu hanya sebesar 28.21 artinya dari 100 penduduk di Kab. Intan jaya hanya ada 28 penduduk yang bisa membaca. Sedangkan untuk angka harapan hidup di papua sebesar 67.18 tahun, untuk Kab. Mimika memiliki AHH yang paling tinggi di Prov. Papua. Sedangkan untuk Merauke memiliki AMH yang paling rendah yaitu hanya sebesar 67.18 tahun. Sepertiga dari jumlah penduduk di Papua mengalami kemiskinan, untuk Kab. Deiyai memiliki jumlah penduduk miskin paling banyak yaitu sebesar 47.52. Pada data juga tidak ditemukan missing value sehingga tidak dilakukan penanganan khusus.
4
100 80 A MH
60 70
40 68 10
66 20
30
Kemiskinan
40
A HH
64
Gambar 2 Hubungan antara AMH, AHH dan % Kemiskinan
Berdasarkan Gambar 2 dapat dikatahui bahwa untuk kab/kota yang diduga memiliki nilai IPM tertinggi adalah saat AMH tinggi, AHH tinggi dan % kemiskinan yang rendah. Kab/kota di prov. Papua yang diduga mempunyai IPM paling tinggi adalah Kota Jayapura dan Merauke sedangkan yang paling rendah adalah Deiyai. B. Analisis Cluster Pada praktikum ini dalam melakukan analisis cluster pada kabupaten di Papua berdasarkan faktor-faktor yang mempengaruhi IPM pada tahun 2013 menggunakan metode hierarki dan non-hierarki. Metode hiarerki menggunakan single linkage dan complete linkage, sedangkan untuk nonhierarki menggu-nakan k-mean. Jarak yang digunakan adalah Eucledian, berikut analisis yang diperoleh 1) Jarak Eucledian Jarak Euclidean digunakan mengidentifikasi hubungan antar Kota/Kab di papua berdasarkan faktor-faktor yang memengaruhi IPM. Ketika antar kab/kota mempunyai jarak eucledian semakin kecil maka hubungan antar kab/kota tersebut semakin dekat. Untuk jarak eucledian antar kab/kota di papua pada tahun 2013 berdasarkan faktorfaktor yang digunakan dapat dilihat pada Lampiran A.2. Dengan menggunakan metode eucledian didapatkan jarak terkecil untuk Yalimo dengan Mambermo Tengah yaitu dengan nilai 1.146, artinya antara Yalimo dan Mamberamo memiliki kemiripan yang lebih erat sehingga akan masuk ke dalam cluster yang sama. Sedangkan untuk jarak terbesar didapatkan antara Intan Jaya dan Kota Jayapura dengan nilai sebesar 76.313, dapat dijelaskan bahwa antara kedua daerah terssebut tidak memiliki kemiripan yang erat, sehingga saat pengelompokan Kota Jayapura dan Intan Jaya tidak akan masuk dalam kelompok yang sama. Begitu juga untuk kab/kota lain di Papua, semakin kecil jarak eucledian maka memiliki kemiripan karakteristik untuk IPM semakin erat. 2) Metode Hierarki Pada praktikum ini menggunakan metode hierarki single dan complete linkage. Berikut untuk analisis yang diperoleh a. Metode Single Linkage Pengklasifikasian metode single linkage dilakukan dengan memilih jarak terkecil dari matriks jarak Euclidean. Untuk pembentukan cluster pertama yang terbentuk adalah Membramo Tengah dan Yalimo. Untuk hasil akhir cluster yang terbentuk dapat dilihat pada denogram pada Gambar 1 sebagai berikut
Gambar 1 Dendogram Metode Single Linkage
Berdasarkan Gambar 1 maka ketika menggambil batas cluster sebanyak 2, 3, dan 4 diperoleh pengelompokan sebagai berikut (untuk output dapat dilihat pada Lampiran A.4 ) Tabel 3 Hasil Pengelompokan Menggunakan Metode Single Linkage
Jumlah Cluster
Cluster ke1
4
2 3 4
1
3
2
3
1 2 2
Anggota Cluster (Kab/Kota) Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Mimika, Sarmi, Keerom, Kota Jayapura Jayawijaya, Paniai, Mamberamo Raya Puncak Jaya, Waropen, Supiori Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Mimika, Sarmi, Keerom, Kota Jayapura, Puncak Jaya, Waropen, Supiori Jayawijaya, Paniai, Mamberamo Raya Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Mimika, Sarmi, Keerom, Kota Jayapura, Jayawijaya, Paniai, Mamberamo Raya, Puncak Jaya, Waropen, Supiori Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai
Berdasarkan Tabel 3 didapatkan anggota untuk masingmasing cluster, untuk pembagian jumlah kelompok dapat dijelaskan sebagai berikut. Saat menggunakan 4 cluster diperoleh untuk kelompok 1 berjumlah 9, kelompok 2 berjumlah 3 anggota, kelompok 3 berjumlah 3, sedangkan untuk kelompok 4 berjumlah 14 kelompok. Ketika menggunakan 3 cluster maka didapatkan jumlah anggota
5 masing-masing cluster 1, 2, dan 3 secara berurutan adalah sebagai berikut 12, 3 dan 14. Sedangkan saat menggunakan 2 cluster didapatkan jumlah masing-masing cluster adalah 15 untuk kelompok 1 dan 14 untuk kelompok 2. Untuk boxplot dan scatter plot masing-masing cluster dapat dilihat pada Lampiran A.5. b. Metode Complete Linkage Setelah dilakukan pengolahan data menggunakan program paket, maka didapat hasil pengklasifikasian untuk data faktor-faktor yang mempengaruhi IPM di Papua pada tahun 2013 dapat ditampilkan pada denogram pada Gambar 2. Berdasarkan Gambar 2 maka ketika menggambil batas cluster sebanyak 2, 3, dan 4 diperoleh pengelompokan yang terlihat pada Tabel 4 (untuk output dapat dilihat pada Lampiran A.7 )
2
Jayawijaya, Paniai, Mamberamo Raya, Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai
Berdasarkan Tabel 4 didapatkan anggota untuk masingmasing cluster, untuk pembagian jumlah kelompok dapat dijelaskan sebagai berikut. Saat menggunakan 4 cluster diperoleh untuk kelompok 1 berjumlah 6, kelompok 2 berjumlah 3 anggota, kelompok 3 berjumlah 7, sedangkan untuk kelompok 4 berjumlah 14 kelompok. Ketika menggunakan 3 cluster maka didapatkan jumlah anggota masing-masing cluster 1, 2, dan 3 secara berurutan adalah sebagai berikut 12, 3 dan 14. Sedangkan saat menggunakan 2 cluster didapatkan jumlah masing-masing cluster adalah 15 untuk kelompok 1 dan 14 untuk kelompok 2. Untuk boxplot dan scatter plot masing-masing cluster dapat dilihat pada Lampiran A.8. 3) Metode Non-hierarki Berikut hasil analisis untuk metode non-hierarki menggunakan K-means untuk 2, 3 dan 4 cluster a. K-means 2 Cluster Pertama melakukan iterasi menggunakan jumlah cluster sebanyak 2 cluster, setelah dilakukan analisis menggunakan software didapatkan jumlah masing-masing cluster adalah 13 untuk cluster 1 dan 16 untuk cluster 2 (Lampiran A.9). Untuk mengetahui apakah variabel yang digunakan berpengaruh signifikan terhadap cluster yang terbentuk dapat dilihat pada Tabel 5 sebagai berikut ini. Tabel 5 Signifikansi Variabel Terhadap Cluster yang Terbentuk untuk 2 Cluster K-means
Variabel
Gambar 2 Dendogram Metode Complete Linkage Tabel 4 Hasil Pengelompokan Menggunakan Metode Complete Linkage
Jumlah Cluster
Cluster ke1 2 3
4 4
1
3
2
3
2
1
Anggota Cluster (Kab/Kota) Merauke, Jayapura, Mimika, Sarmi, Kota Jayapura Jayawijaya, Paniai, Mamberamo Raya Nabire, Yapen Waropen, Biak Numfor, Puncak Jaya, Keerom, Waropen, Supiori Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai Merauke, Jayapura, Mimika, Sarmi, Kota Jayapura, Nabire, Yapen Waropen, Biak Numfor, Puncak Jaya, Keerom, Waropen, Supiori Jayawijaya, Paniai, Mamberamo Raya Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai Merauke, Jayapura, Mimika, Sarmi, Kota Jayapura, Nabire, Yapen Waropen, Biak Numfor, Puncak Jaya, Keerom, Waropen, Supiori
P-value
AMH
0.000
AHH % Kemiskinan
0.338 0.000
Berdasarkan Tabel 5 didapatkan kesimpulan bahwa untuk variabel yang signifikan terhadap cluster yang terbentuk adalah AMH dan % kemiskinan karena kedua variabel mempunyai nilai p-value < 0.05. untukk variabel AHH tidak berpengaruh signifikan terhadap cluster yang dibentuk karena didapatkan nilai p-value > 0.05. Pada Tabel 5 hasil pengelompokan yang terbentuk sebgai berikut Tabel 6 Hasil Pengelompokan K-Means 2 Cluster
Cluster ke1
2
Anggota Cluster (Kab/Kota) Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Puncak Jaya, Mimika, Sarmi, Keerom, Waropen, Supiori, Mamberamo Raya, Kota Jayapura Jayawijaya, Paniai, Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai
Pada Tabel 7 dapat diketahui untuk nilai rata-rata untuk setiap variabel pada setiap cluster Tabel 7 Hasil Rata-Rata
Variabel
Cluster 1
Cluster 2
AMH
88.86
36.05
AHH
67.43
66.98
% Kemiskinan
26.74
38.47
Setelah dilakukan pengelompokan, maka dapat dibuat untuk scatter plot dan boxplot masing-masing variabel yang
6 mempengaruhi IPM di Papua pada tahun 2013. Scatter plot dan boxplot dapat menjelaskan secara visulisasi perbedaan cluster 1 dan 2. Berikut hasil yang diperoleh 1 AMH
100
2 AHH
70
80
68
60
66
40
Tabel 9 Hasil Pengelompokan K-Means 3 Cluster
64
20
Cluster ke-
Kemiskinan
50
Berdasarkan Tabel 8 didapatkan kesimpulan bahwa untuk variabel yang signifikan terhadap cluster yang terbentuk adalah AMH dan % kemiskinan karena kedua variabel mempunyai nilai p-value < 0.05. untukk variabel AHH tidak berpengaruh signifikan terhadap cluster yang dibentuk karena didapatkan nilai p-value > 0.05. Nilai 0.05 adalah tingkat signifikansi alfa yang diinginkan Pada Tabel 9 hasil pengelom-pokan yang terbentuk sebagai berikut Anggota Cluster (Kab/Kota) Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai Jayawijaya, Paniai, Waropen, Mamberamo Raya Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Puncak Jaya, Mimika, Sarmi, Keerom, Supiori, Kota Jayapura
40 30
1
20 10 1
2
2
Cluster
Gambar 3 Boxplot Variabel dengan 2 Cluster
3
Berdasarkan Gambar 3 dapat diketahui bahwa untuk median antara cluster 1 dan 2 pada variabel AHH nilai median tidak berbeda jauh, sehingga secara visual memang variabel ini tidak berpengaruh signifikan terhadap cluster yang terbentuk, sebaliknya untuk var AMH dan % kemiskinan yang berpengaruh terhadap cluster yang terbentuk. Berdasarkan hasil clustering diperoleh bahwa untuk cluster 1 memilki memiliki AMH dan AHH yang tinggi dan % kemiskinan yang rendah, sebaliknya untuk cluster 2 memiliki nilai AMH dan AHH yang rendah dan % kemiskinan yang tinggi. Sehingga untuk cluster 1 diduga memmpunya IPM yang tinggi. Berikut untuk scatter plot untuk semua variabel K-Means2 1 2
Pada Tabel 9 dapat diketahui untuk nilai rata-rata untuk setiap variabel pada setiap cluster, berikut merupakan nilai rata-rata yang diperoleh dari hasil perhitungan Tabel 9 Hasil Rata-Rata
Variabel
Cluster 1
Cluster 2
AMH
32.91
64.96
91.95
AHH
66.89
66.95
67.63
% Kemiskinan
38.11
38.37
25.10
Setelah dilakukan pengelompokan, maka dapat dibuat untuk scatter plot dan boxplot masing-masing variabel yang mempengaruhi IPM di Papua pada tahun 2013. Scatter plot dan boxplot dapat menjelaskan secara visulisasi perbedaan cluster 1, 2, dan 3. Berikut hasil yang diperoleh 1 AMH
100
60
68 66
40 70
40 68 66
10
20
30
40
64
20
A HH
3
70
60
80 A MH
2 AHH
80
100
Cluster 3
Kemiskinan
50
64
40
Kemiskinan
30 20
Gambar 4 Scatter Plot tiap Variabel dengan 2 Cluster
Berdasarkan Gambar 4 diketahui bahwa titik-titik warna merah merupakan anggota dari cluster 1 sedangkan warna merah adalah anggota dari cluster 2. Ketika dibuat garis lurus dapat membagi anggota antara cluster 1 dan 2. Selanjutnya akan dilakukan analisis untuk iterasi cluster 3. b. K-means 3 Cluster Saat menggunakan iterasi dengan 3 cluster didapatkan hasil clustering adalah 14 anggota untuk cluster 1, 4 anggota untuk cluster 2 dan 11 anggota untuk cluster 3 (Lampiran A.10). Untuk mengetahui apakah variabel yang digunakan berpengaruh signifikan terhadap cluster yang terbentuk dapat dilihat pada Tabel 8 sebagai berikut ini. Tabel 8 Signifikansi Variabel Terhadap Cluster yang Terbentuk untuk 3 Cluster K-means
Variabel
P-value
AMH
0.000
AHH % Kemiskinan
0.307 0.000
10 1
2
3
Cluster
Gambar 5 Boxplot Variabel dengan 3 Cluster
Berdasarkan Gambar 5 dapat diketahui bahwa untuk median antara cluster 1 dan 2 tidak berbeda signifikan, sedangkan untuk median cluster 1 atau 2 terhadap median cluster 3 pada variabel AHH nilai median berbeda signifikan. Untuk AMH dan % kemiskinan yang berpengaruh terhadap cluster yang terbentuk. Berikut untuk scatter plot untuk semua variabel
7 Tabel 12 Hasil Rata-Rata K-Means3 1 2 3
Variabel AMH AHH % Kemiskinan
100 80 A MH
70 68 10
66 20
30
40
A HH
Gambar 6 Scatter Plot tiap Variabel dengan 3 Cluster
Berdasarkan Gambar 6 dapat diketahui bahwa untuk cluster 1 akan diduga memiliki nilai IPM pada tahun 2013 yang rendah terbukti dari plot yang berada di bawah. Untuk cluster 2 diduga memilki nilai IP yang sedang, sedangkan untuk cluster 1 akan diduga memiliki nilai IPM yang tinggi. Ketika variabel AMH dan AHH suatu daerah tinggi dan prosentase kemiskinan yang rendah maka daerah tersebut diduga akan mempunyai nilai IPM yang tinggi. Selanjutnya akan dilakukan analisis untuk iterasi cluster 3. c. K-means 4 Cluster Saat menggunakan iterasi dengan 4 cluster didapatkan hasil clustering adalah 7 anggota untuk cluster 1, 4 anggota untuk cluster 2 , 4 anggota untuk cluster 3 dan 14 anggota untuk cluster 4 (Lampiran A.11). Untuk mengetahui apakah variabel yang digunakan berpengaruh signifikan terhadap cluster yang terbentuk dapat dilihat pada Tabel 10 sebagai berikut ini.
Metode Single Linkage Complete Linkage
K-Means
P-value
AMH
0.000
AHH % Kemiskinan
0.509 0.000
Berdasarkan Tabel 10 didapatkan kesimpulan bahwa untuk variabel yang signifikan terhadap cluster yang terbentuk adalah AMH dan % kemiskinan karena kedua variabel mempunyai nilai p-value < 0.05. untukk variabel AHH tidak berpengaruh signifikan terhadap cluster yang dibentuk karena didapatkan nilai p-value > 0.05. Nilai 0.05 adalah tingkat signifikansi alfa yang diinginkan Pada Tabel 11 hasil pengelompokan yang terbentuk sebagai berikut Tabel 11 Hasil Pengelompokan K-Means 4 Cluster
2 3
4
63.85
66.34
66.53
66.87
12.33
34.25
41.50
42.03
Tabel 13 Hasil Perhitungan R2, Pdeudo-f dan icdrate
a)
1
Cluster 4 28.08
C. Pemilihan Jumlah Cluster Optimum & Metode Terbaik Penentuan jumlah cluster optimum dapat menggunakan nilai dari Pdeudo-f sedangkan untuk menentukan metode mana yang paling baik dapat menggunakan Icdrate (Internal Cluster Dispersion Rate). Untuk menentukan metode yang paling diambil yang mempunyai nilai Pdeudo-f yang paling besar, sedangkan untuk menentukan jumlah cluster optimum diambil untuk nilai icdrate yang paling kecil. Perhitungan nilai Pseudo-f dan Icdrate menggunakan syntax R seperti terlihat pada Lampiran A.13 Pada Tabel 13 dibawah hasil untuk perhitungan nilai R2, Pdeudo-f dan nilai icdrate
Tabel 10 Signifikansi Variabel Terhadap Cluster yang Terbentuk untuk 4 Cluster K-means
Cluster ke-
Cluster 3 96.76
64
Kemiskinan
Variabel
Cluster 2 65.43
Untuk melihat perbedaan secara visual untung masingmasing cluster dapat menggunakan boxplot dan scatter plot, boxplot dan scatter plot dapat dilihat pada Lampiran A.12
60 40
Cluster 1 88.55
Anggota Cluster (Kab/Kota) Merauke, Jayapura, Nabire, Mimika, Sarmi, Keerom, Kota Jayapura Yapen Waropen, Biak Numfor, Puncak Jaya, Supiori Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Puncak Jaya, Mimika, Sarmi, Keerom, Supiori, Kota Jayapura Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah, Yalimo, Puncak, Dogiyai, Intan Jaya, Deiyai
Pada Tabel 11 dapat diketahui untuk nilai rata-rata untuk setiap variabel pada setiap cluster, berikut merupakan nilai rata-rata yang diperoleh dari hasil perhitungan
Jumlah Cluster 4a,d 3 2 4 3 2a 4 3 2a
R2 0.941 0.910 0.806 0.940 0.990 0.834 0.939 0.912 0.842
Pdeudo-f 132.084b 130.871 112.101 130.560 130.871 135.922b 127.716 135.178 143.008b
Icdrate 0.059c 0.090 0.194 0.060 0.090 0.166 0.061 0.087 0.158
Jumlah cluster optimal setiap metode Pdeudo-f terbesar setiap metode c) Icdrate terkecil d) Jumlah cluster optimal Untuk menentukan jumlah cluster yang optimum maka dapat dilihat dari nilai Pdeudo-f yang paling terbesar untuk setiap metode yang digunakan. Pada hasil analisis didapatkan untuk metode single linkage adalah 4 cluster, metode complete linkage dan k-means sebanyak 2 cluster. Untuk metode yang optimum untuk clustering faktor-faktor yang mempengaruhi IPM di Papua pada tahun 2013 adalah metode Single Linkage dengan jumlah cluster optimum sebanyak 4, karena jika dibandingkan dengan metode Complete Linkage dan K-means memiliki nilai icdrate yang terendah yaitu sebesar 0.059. Dapat diambil kesimpulan bahwa untuk clustering pada kasus ini adalah sebagai berikut ini Cluster 1 : Merauke, Jayapura, Nabire, Yapen Waropen, Biak Numfor, Mimika, Sarmi, Keerom, Kota Jayapura Cluster 2 : Jayawijaya, Paniai, Mamberamo Raya Cluster 3 : Puncak Jaya, Waropen, Supiori Cluster 4 : Boven Digoel, Mappi, Asmat, Yahukimo, Pegunungan Bintang, Tolikara, Nduga, Lanny Jaya, Mamberamo Tengah b)
8 V. KESIMPULAN DAN SARAN A. Kesimpulan Berdasarkan hasil analisis diatas didapat kesimpulan bahwa dengan dalam metode single linkage diambil batas cluster 2, 3, 4 dan hasil dari analisis Pdeudo-f menyatakan bahwa jumlah cluster optimum pada metode single linkage adalah sebanyak 4 cluster. Sama halnya dengan metode single linkage, metode complete linkage juga mengambil batas cluster 2,3,4 dan hasil analisis Pdeudo-f menyatakan bahwa jumlah cluster optimum pada metode complete linkage adalah sebanyak 2 cluster. Dalam analisis K-Means dengan 2, 3 dan 4 cluster didapatkan hasil bahwa variabel AMH dan variabel % kemiskinan adalah variabel yang signifikan terhadap cluster, sedangkan variabel AHH tidak signifikan terhadap cluster. Metode yang paling optimum adalah metode single linkage dengan jumlah cluster sebanyak 4 cluster karena nilai icdratenya paling rendah disbanding complete linkage dan k-means, yaitu sebesar 0.059. B. Saran Saran untuk penelitian selanjutnya adalah pegambilan data harus dilakukan dengan teliti agar tidak terjadi kesalahan dan kehilangan data. Bagi pemerintah provinsi Papia diharapkan melakukan pengelompokkan dengan baik, agar hasil pengelompokkan dapat digunakan lebih lanjut. DAFTAR PUSTAKA [1]
Kementrian Kesehatan Republik Indonesia. 2010. 24 Indikator Kesehatan dalam IPKM. Diakses pada http://www.depkes.go.id/article/print/1337/24indikator-kesehatan-dalam-ipkm.html tanggal 30 April 2017
[2]
Hair, J. F. Jr. 1995. Multivariate Data Analysis with Readings, 4th edition. Madison : Pearson Prentice-Hall. Johnson, Richard. 2007. Applied Multivariate Statistical Analysis. Madison: Pearson Prentice Hall. Lazulfa, Indana. 2013. “Analisis Cluster Kabupaten/Kota di Jawa Timur Berdasarkan Tingkat Pencemaran Udara”. FMIPA ITS. Kuncoro, M . 2003. “Metode Riset Untuk Bisnis dan Ekonomi”. Jakarta: Erlangga. A.R Orpin dan V.E Kostylev, 2006. Towards a statistically valid method of textural sea floor characterization of benthic habitats. Marine Geology 225 : 209-222. [10] A. Hinde, T. Whiteway, R. Ruddick, dan A.D Heap, 2007. Seascape of the Australian Margin and adjacent sea floor: Keystroke Methodology. Canberra: Geoscience Australia.
[3] [4]
[5] [6]
[7]
[8] [9]
Cooley J W & Tukey J W. An algorithm for the machine calculation of complex Fourier series. Math. Computer. NY; Princeton University Badan Pusat Statistik. (2008). Indeks Pembangunan Manusia 20062007. Badan Pusat Statistik. Jakarta.
9 LAMPIRAN Lampiran A.1 Kab/Kota
Lampiran A.2 AMH
AHH
Kemiskinan
Merauke
88,55
63,85
12,33
Jayawijaya
53,08
66,86
41,81
Jayapura
97,21
67,74
17,58
Nabire
83,73
68,05
27,69
Yapen Waropen
90,94
69,10
29,32
Biak Numfor
99,01
67,06
30,28
Paniai
62,97
68,36
40,15
Puncak Jaya
86,83
67,86
39,92
Mimika
88,27
70,88
20,37
Boven Digoel
35,28
67,62
23,70
Mappi
33,50
66,66
30,35
Asmat
31,18
67,34
33,84
Yahukimo Pegunungan Bintang
32,77
67,44
43,27
32,64
66,24
37,23
Tolikara
33,56
66,24
38,00
Sarmi
87,77
66,58
17,72
Keerom
92,50
67,53
23,23
Waropen
78,35
66,24
37,27
Supiori
96,76
66,53
41,50
Mamberamo Raya
65,43
66,34
34,25
Nduga
30,61
66,02
39,69
Lanny Jaya Mamberamo Tengah
36,93
66,70
43,79
34,58
66,62
39,59
Yalimo
33,72
66,78
40,33
Puncak
32,17
67,85
41,96
Dogiyai
34,68
67,44
32,25
Intan Jaya
28,08
66,87
42,03
Deiyai
31,05
66,64
47,52
Kota Jayapura
99,86
68,77
16,19
Lampiran A.2
10 Lampiran A.3
Lampiran A.5 4 Cluster Boxplot of AMH; AHH; Kemiskinan 1
2
AMH
100
3
4
AHH 70
80 68
60
66
40
64
20
Kemiskinan
50 40 30 20 10 1
2
3
4
4 Cluster
3D Scatterplot of AMH vs AHH vs Kemiskinan 4 Cluster 1 2 3 4
100 80 A MH
Lampiran A.4
60 70
40 68 66
10
20
30
A HH
64
40
Kemiskinan
3 Cluster Boxplot of AMH; AHH; Kemiskinan 1
2
AMH
100
3
AHH 70
80 68
60
66
40
64
20
Kemiskinan
50 40 30 20 10 1
2
3
3 Cluster
3D Scatterplot of AMH vs AHH vs Kemiskinan 3 Cluster 1 2 3
100 80 A MH
60 70
40 68 10
66 20
30
Kemiskinan
40
64
A HH
11 2 Cluster
Lampiran A.7 Boxplot of AMH; AHH; Kemiskinan 1 AMH
100
2 AHH
70
80 68
60
66
40
64
20
Kemiskinan
50 40 30 20 10 1
2
2 Cluster
3D Scatterplot of AMH vs AHH vs Kemiskinan 4 Cluster 1 2 3 4
100 80 A MH
60 70
40 68 10
66 20
30
40
A HH
64
Kemiskinan
Lampiran A.6
Lampiran A.8 4 Cluster Boxplot of AMH; AHH; Kemiskinan 1 AMH
100
70 68
60
66
40
64 Kemiskinan
50 40 30 20 10 1
2
3 AHH
80
20
2
3
4
4 Cluster C
4
12
3D Scatterplot of AMH vs AHH vs Kemiskinan
3D Scatterplot of AMH vs AHH vs Kemiskinan
2 Cluster C 1 2
4 Cluster C 1 2 3 4
100
100
80
80 A MH
A MH
60 70
40 68 66
10
20
30
60 70
40 68
A HH
10
64
40
3 Cluster
Lampiran A.9 Boxplot of AMH; AHH; Kemiskinan 1
2
AMH
3
AHH 70
80 68
60
66
40
64
20
Kemiskinan
50 40 30 20 10 1
2
3
3 Cluster C
3D Scatterplot of AMH vs AHH vs Kemiskinan 3 Cluster C 1 2 3
100 80 A MH
60 70
40 68 10
66 20
30
A HH
64
40
Kemiskinan
2 Cluster Boxplot of AMH; AHH; Kemiskinan 1 AMH
100
70
80 68 66
40
64
20
Kemiskinan
50 40 30 20 10 1
2 AHH
60
30
Kemiskinan
Kemiskinan
100
66 20
2
2 Cluster C
40
64
A HH
13 Lampiran A.10
Lampiran A.11
Lampiran A.12 Boxplot of AMH; AHH; Kemiskinan 1
2
AMH
100
3
4
AHH 70
80 68
60
66
40
64
20
Kemiskinan
50 40 30 20 10 1
2
3
4
K-Means4
3D Scatterplot of AMH vs AHH vs Kemiskinan K-Means4 1 2 3 4
100 80 A MH
60 70
40 68 10
66 20
30
Kemiskinan
40
64
A HH
14 Lampiran A.13 icdrate = function(Data, nc, c) { n = dim(Data)[1] p = dim(Data)[2] X = Data[,1:(p-1)] Group = Data[,p] p = dim(X)[2] Mean.X = matrix(ncol = p, nrow = (nc+1)) for (i in 1:nc) { for (j in 1:p) { Mean.X[i,j] = mean(X[which(Group==i),j]) Mean.X[(nc+1),j] = mean(X[,j]) } } SST = matrix(ncol=p, nrow=n) for (i in 1:n) { for (j in 1:p) { SST[i,j] = (X[i,j] - Mean.X[(nc+1),j])^2 } } SST = sum(sum(SST)) SSE = matrix(ncol=p, nrow=n) for (i in 1:n) { for (j in 1:p) { for (k in 1:nc) { if (Group[i]==k) { SSE[i,j] = (X[i,j] - Mean.X[k,j])^2 } } } } SSE = sum(sum(SSE)) Rsq = (SST-SSE)/SST icdrate = 1-Rsq Pseudof = (Rsq/(c-1))/((icdrate)/(nc-c)) list(Rsq=Rsq, icdrate=icdrate, pseudof=Pseudof) }