DRAFT JURNALIJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 ISSN: 1978-1520
1
Metode Clustering Untuk Mengelompokan Data Balita Peserta Posyandu Menggunakan Algoritma K-Means Faradila Mulyaningrum1, Usman Sudibyo2 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Jl. Nakula I No. 5-11, Semarang E-mail:
[email protected] ,
[email protected]
Abstrak Usia balita merupakan kelompok usia yang rawan pada masalah gizi. Status gizi balita dapat diketahui melalui pengukuran Antropometri, dimana parameter yang digunakan adalah umur, berat badan, dan panjang/tinggi badan sehingga ada 3 indikator penentu yaitu BB/U, TB/U, dan BB/TB. Untuk mengelompokan data balita agar dapat diketahui status gizi balita digunakan suatu metode dalam data mining yaitu Clustering dengan menggunakan algoritma K-Means. Algoritma K-Means adalah algortima yang mudah untuk diaplikasikan yaitu dengan mengelompokan sejumlah data kedalam beberapa cluster yang telah ditentukan dengan melihat jarak terdekat data kepusat cluster. Algortima K-Means diaplikasikan kedalam program matlab dan membaginya menjadi 4 cluster. Data yang digunakan sebanyak 563 dengan jumlah balita laki – laki sebanyak 288 dan balita perempuan sebanyak 275. Setelah dilakukan pengujian, kemudian hasil dari clustering dianalisis berdasarkan pengukuran Antropometri dengan memperhatikan nilai Z-Score, ternyata dari 4 cluster keadaan gizi yang dominan adalah baik dan normal yang merata kesemua cluster. Sehingga penelitian ini bisa dikatakan belum sesuai dengan yang diharapkan. Untuk penelitian selanjutnya disarankan untuk mencoba dengan menggunakan metode lainnya agar hasil yang didapatkan lebih baik lagi. Kata kunci : balita, status gizi, antropometri, data mining, clustering, k-means
Abstract Age of under 5-years-old children is a vulnerable age group on nutritional problems. Nutritional status can be known through Anthropometric measurements, where the parameters used are age, weight, and length/height, that have three determinants namely W/A, H/A and W/H. For grouping the data of under 5-years-old children to know the nutritional status used a method in data mining clustering using K-Means algorithm. K-Means algorithm is the algorithm that easy to apply, namely by classifying some data into some clusters that have been determined by looking at the closest distance data to the cluster center. K-Means algorithm applied to the Matlab program and divide it into 4 clusters. The data used as much as 563 data with the number the boys is 288 data and the girls is 275 data. After testing, then the result of clustering analysis based Anthropometric measurements by taking into the value of the Z-Score, apparently from 4 clusters predominantly in good nutrition and normal that evenly to all clusters. So this research can be said to be not as expected. For next research is encouraged to try to use other methods in order to obtain the better results. Keywords : under 5-years-old children, nutritional status, anthropometric, data mining, clustering, k-means Received June1st,2012; Revised June25th, 2012; Accepted July 10th, 2012
2
ISSN: 1978-1520
1.
D
PENDAHULUAN
i Indonesia, permasalahan status gizi menjadi masalah yang sangat kompleks dan penting. Hal ini dikarenakan kenaikan dan penurunan jumlah balita yang mengalami permasalahan
status gizi tiap tahunnya tidak menentu sehingga tidak ada ujung penyelesaiannya. Balita merupakan kelompok masyarakat yang rentan gizi. Pada kelompok tersebut mengalami siklus pertumbuhan dan perkembangan yang membutuhkan zat – zat gizi yang lebih besar dari kelompok unsur yang lain sehingga balita paling mudah menderita kelainan gizi [1]. Balita menjadi golongan masyarakat yang paling rawan terhadap gangguan gizi. Masa balita yang dimulai dari 0 – 60 bulan merupakan periode emas pertumbuhan, khususnya saat 24 bulan pertama. Hal ini disebabkan oleh adanya perubahan dan cepatnya pertumbuhan balita pada usia 0 – 24 bulan, sehingga dibutuhkan nutrisi makanan yang relatif lebih banyak mengandung gizi dengan kualitas yang lebih tinggi. Bahkan pertumbuhan saat dewasa pun sangat bergantung pada bagaimana kondisi gizi yang diterimanya saat balita. Maka dari itu, kebutuhan gizi saat balita haruslah diperhatikan dengan baik. Keadaan/status gizi balita dapat ditentukan dengan beberapa cara salah satunya melalui pengukuran anthropometri. Dalam pengukuran anthropometri mencakup berat badan, tinggi badan, lingkar kepala, lingkar lengan atas, dan sebagainya. Tetapi dalam banyak kasus, berat badan dan tinggi badanlah yang paling sering digunakan dalam penentuan status gizi dan tentunya dengan memperhatikan umur dari balita itu sendiri. Indikator yang digunakan dalam pengukuran anthropometri terbagi menjadi 3 macam yaitu BB/U (Berat Badan menurut Umur), TB/U atau PB/U (Tinggi/Panjang Badan menurut Umur), dan BB/TB atau BB/PB (Berat Badan menurut Tinggi/Panjang Badan). Sehingga dari data yang telah didapatkan, parameter yang digunakan untuk menentukan status gizi adalah umur, berat badan dan tinggi/panjang badan. Untuk mengelompokan keadaan/status gizi balita, dibutuhkan suatu kajian ilmu yang dapat mengelompokkan data berdasarkan pada laporan data pengukuran dan penimbangan posyandu. Maka dari itu digunakanlah metode Clustering yang berasal dari ilmu Data Mining yang memiliki fungsi untuk mengelompokkan obyek – obyek data berupa pola kedalam sejumlah cluster tertentu [2]. Salah satu algortima dalam clustering adalah K-Means, dimana data akan dikelompokan berdasarkan jarak terdekat data ke pusat cluster. Hasil dari clustering nantinya akan di analisis agar dapat diketahui keadaan gizi balita tersebut. Diharapkan hasil dari clustering dapat mengelompokan data balita berdasarkan status giziyang disetiap cluster terdapat status gizi yang dominan. Penelitian ini nantinya diharapkan dapat menjadi
IJCCS Vol. x, No. x, July201x : first_page–end_page
ISSN: 1978-15202
pertimbangan lain untuk mengetahui keadaan gizi balita dan membantu pihak Posyandu maupun Puskesmas. 2. LANDASAN TEORI 2.1. Data Data merupakan keterangan atau fakta yang dikumpulkan dari suatu populasi yang akan digunakan untuk menerangkan ciri - ciri populasi yang bersangkutan [3]. Dengan kata lain data merupakan fakta yg terekam dan belum memiliki arti apa – apa. Data yang baik adalah data yang bisa dibuktikan kevalidannya (reliable), tepat waktu dan mencakup ruang lingkup yang luas dan memberikan gambaran tentang suatu masalah secara menyeluruh.
2.2. Status Gizi Balita Status gizi adalah suatu ukuran mengenai kondisi tubuh seseorang yang dapat dilihat dari makanan yang dikonsumsi dan penggunaan zat-zat gizi di dalam tubuh. Dibedakan atas status gizi buruk, gizi kurang, gizi baik, dan gizi lebih [4].
2.3. Pengukuran Antropometri Antropometri gizi adalah berhubungan dengan berbagai macam pengukuran dimensi tubuh dan komposisi tubuh dari berbagai tingkat umur dan gizi. Tujuan yang hendak dicapai dalam pemeriksaan antropometris adalah besaran komposisi tubuh yang dapat dijadikan isyarat dini perubahan status gizi. Terdapat 3 indikator untuk menentukan status gizi balita yaitu BB/U, TB/U, dan BB/TB [5].
2.4. Data Mining Data mining adalah proses yang menggunakan teknik statistic matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Dalam data mining terdapat bebrapa metode yang digunakan yaitu Estimation, Prediction, Classifiction, Clustering dan Association.
2.5. Clustering Clustering merupakan salah satu teknik dalam pengkategorian dokumen. Ide dasarnya adalah dengan mengelompokan dokumen - dokumen ke dalam grup-grup atau cluster berdasarkan kemiripan (similarity) antar dokumen, sehingga dokumen yang berhubungan dengan suatu topik tertentu ditempatkan pada cluster yang sama [6]. Tujuan dari pengelompokan Clustering dapat dibedakan menjadi 2 yaitu [4] :
IJCCS Vol. x, No. x, July201x : first_page–end_page
3IJCCS
ISSN: 1978-1520
a. Untuk pemahaman, tujuan ini hanya sebagai proses awal untuk kemudian dilanjutkan dengan pekerjaan seperti summarization, pelabelan kelas untuk setiap kelompok sehingga dapat digunakan sebagai data training dalam klasifikasi supervised. b. Untuk penggunaan, tujuan ini digunakan untuk mencari prototype / model / pola kelompok yang paling representative terhadap data, memberikan abstraksi dari setiap obyek data dalam kelompok dimana sebuah data terletak didalamnya.
2.6.
K-Means
Algoritma k-means adalah algoritma pengelompokan sederhana iterative yang membagi dataset yang diberikan menjadi sejumlah cluster k yang ditentukan oleh pengguna [7]. Algoritma KMeans ini sangat sederhana untuk diterapkan dan dijalankan, relative cepat, mudah diadaptasi, dan umum digunakan. K-Means berusaha untuk membagikan data kedalam kelompok cluster sehingga data yang memiliki karakteristik sama dimasukkan ke dalam satu cluster yang sama. Adapun tujuannya adalah untuk meminimalkan fungsi obyektif yang diset dalam proses pengelompokan yang pada umumnya berusaha meminimalkan variasi di dalam suatu kelompok dan memaksimalkan variasi antar kelompok [2]. Langkah – langkah algoritma K-Means yaitu [11] : a. Tentukan jumlah cluster k. b. Menentukan cluster awal secara acak. c. Hitung jarak masing – masing data ke pusat cluster, kemudian pilih yang memiliki jarak terdekat dengan pusat cluster. Dengan demikian berarti masing – masing pusat cluster memiliki sebuah subset dari dataset, sehingga mewakili bagian dari dataset. d. Untuk setiap cluster k, kelompokan semua data sesuai dengan clusternya masing – masing. e. Hasil cluster dianalisis untuk dilihat apakah masih ada data yang berubah. Jika ada, maka ulangi kembali langkah ketiga dengan menghitung pusat cluster yang baru. Jika tidak ada, proses akan langsung selesai.
Title of manuscript is short and clear, implies research results (First Author)
ISSN: 1978-15204 Start
Tentukan jumlah cluster k
Tentukan pusat cluster secara acak
Hitung jarak data ke pusat cluster k
Hitung pusat cluster k baru
Kelompokan semua data sesuai dengan clusternya
Apakah masih ada data yang berubah ?
End
Gambar 1. Flowchart proses K-Means Untuk menghitung jarak dari data ke pusat cluster k digunakan rumus Euclidean Distance. Euclidean Distance digunakan untuk menghitung akar dari kuadrat perbedaan 2 vektor. Berikut rumus untuk Euclidean Distance : (1) dik
= Jarak antara data ke-I ke titik pusat cluster k
m
= Jumlah atribut
xij
= Data ke-i
ckj
= Data pusat cluster ke-k
Sedangkan untuk mencari nilai cluster baru, dapat dihitung dengan mencari nilai rata – rata sesuai dengan jumlah anggota masing – masing cluster menggunakan rumus berikut : (2)
ckj
=
Pusat cluster baru
p
=
Jumlah semua anggota cluster
h
=
Jumlah awal anggota cluster
yhj
=
Jumlah data
Perhitungan akan selesai jika sudah tidak ada lagi anggota cluster yang berubah / berpindah ke cluster lainnya.
IJCCS Vol. x, No. x, July201x : first_page–end_page
5IJCCS
ISSN: 1978-1520
3. METODE PENELITIAN Untuk menyusun suatu laporan penelitian dibutuhkan data dan informasi yang dapat diujian keaslian atau kevalidannya. Dan tentunya data yang diperoleh harus sesuai dengan masalah yang dihadapi. Data dan informasi untuk selanjutnya akan diolah sebagai tujuan dari permasalahannya. Untuk mendapatkan data dan informasi yang berkualitas diperlukan metode dan cara yang sesuai.
Gambar 2. Data Awal Balita Data yang digunakan dalam penelitian ini adalah data Posyandu di Puskesmas Ngemplak Simongan. Oleh karena itu, pengambilan data harus mendapatkan ijin dari Dinas Kesehatan Kota Semarang dan Kepala Puskesmas Ngemplak Simongan. Data yang didapatkan sebanyak 563 record yang merupakan data penimbangan dan pengukuran balita yang mengikuti Posyandu pada bulan Januari 2016. Data tersebut terdiri dari 7 variabel antara lain nama balita, jenis kelamin, nama orangtua, kelurahan, umur (bulan), berat badan (kg), dan tinggi badan (cm). Data balita
Mengelompokan data berdasarkan hasil cluster
Seleksi Data
Analisis data hasil cluster
Clustering
K-Means
Gambar 3. Metode Yang Diusulkan Title of manuscript is short and clear, implies research results (First Author)
ISSN: 1978-15206
Dari gambar diatas dapat dijelaskan : 1. Data yang diuji untuk penelitian adalah data Posyandu pada Januari 2016 dan terdiri dari jenis kelamin, umur balita, berat badan, dan tinggi badan. 2. Data asli diseleksi dengan menghilangkan data yang tidak lengkap. 3. Menentukan jumlah cluster untuk masing – masing pengukuran. 4. Perhitungan Euclidean Space untuk menentukan cluster dengan mencari jarak terdekat ke pusat cluster. 5. Mengelompokan hasil clustering sesuai dengan clusternya masing – masing. 6. Analisis hasil cluster dengan membandingkannya dengan data pendukung untuk menentukan keadaan gizi balita.
4. HASIL DAN PEMBAHASAN Pada penelitian ini data yang digunakan berjumlah 563 data balita yang terbagi menjadi data balita laki – laki sebanyak 288 balita dan data balita perempuan sebanyak 275 balita. Metode Clustering untuk penelitian ini diimplementasikan kedalam sebuah aplikasi Matlab untuk melihat hasil dari Clustering menggunakan Algoritma K-Means. Hasil Clustering yang didapatkan berupa pengelompokkan data – data kedalam sejumlah cluster yang telah ditentukan, dalam penelitian ini ditentukan dalam 4 cluster. Berikut adalah tampilan interface untuk aplikasi.
Gambar 4. Tampilan Interface Menggunakan Matlab
Gambar 4 adalah tampilan untuk input data yang akan diolah menggunakan Metode Clustering dengan Algoritma K-Means. Format data yang diinput dalam bentuk .txt .
IJCCS Vol. x, No. x, July201x : first_page–end_page
7IJCCS
ISSN: 1978-1520
Gambar 5. Tampilan Hasil Clustering Menggunakan Matlab
Gambar 6. Hasil Clustering Data Perempuan
Pada gambar 5 dan 6 adalah hasil dari proses clustering menggunakan Algoritma K-Means yang terbagi menjadi 4 cluster, dimana hasil yang keluar juga dalam format .txt. Setelah hasil clustering didapatkan, data hasil clustering akan dianalisis untuk mendapatkan informasi dari tiap cluster. Masing –masing isi dari cluster tersebut mengandung informasi yang berkaitan dengan keadaan gizi balita. Cara menganalisinya digunakan perhitungan Z-Score pengukuran Antropometri dimana terdapat 3 indikator untuk mengetahui keadaan gizi yaitu BB/U, TB/U, dan BB/TB. Berikut adalah rumus untuk menghitung Z-Score :
Title of manuscript is short and clear, implies research results (First Author)
ISSN: 1978-15208
Dari hasil perhitungan Z-Score akan diketahui bagaimana keadaan gizi dari balita dengan memperhatikan nilai ambang batas antara -3 SD (Standar Deviasi) sampai +3 SD. Berikut adalah hasil dari perhitungan Z-Score : Tabel 1. Hasil Analisis Z-Score Balita Laki – laki Cluster
C1
C2
C3
C4
BB/U
TB/U
BB/TB
Buruk = 2, Kurang = 3,
Sgt pendek = 5, pendek =
Sgt kurus, kurus = 1,
Baik = 59, Lebih = 0
14, normal = 43, tinggi = 2
normal = 52, gemuk = 11
Buruk = 1, kurang = 8,
Sgt pendek = 9, pendek =
Sgt kurus = 3, kurus = 2,
baik = 71, lebih = 4
13, normal = 58, tinggi = 5
normal = 74, gemuk = 6
Buruk = 0, kurang = 4,
Sgt pendek = 4, pendek =
Sgt kurus, kurus = 2,
baik = 69, lebih = 6
6, normal = 64, tinggi = 5
normal = 67, gemuk = 10
Buruk = 1, kurang = 2,
Sgt pendek = 1, pendek =
Sgt kurus = 1, kurus = 2,
baik = 47, lebih = 10
2, normal = 54, tinggi = 3
normal = 43, gemuk = 14
Tabel 2. Hasil Analisis Z-Score Perempuan Cluster
C1
C2
C3
C4
BB/U
TB/U
BB/TB
Buruk = 0, Kurang = 4,
Sgt pendek = 2, pendek =
Sgt kurus, kurus = 4,
Baik = 52, Lebih = 3
2, normal = 54, tinggi = 1
normal = 53, gemuk = 2
Buruk = 0, kurang = 3,
Sgt pendek = 6, pendek =
Sgt kurus = 0, kurus = 4,
baik = 79, lebih = 2
10, normal = 64, tinggi = 4
normal = 74, gemuk = 6
Buruk = 0, kurang = 8,
Sgt pendek = 3, pendek =
Sgt kurus= 1, kurus = 2,
baik = 51, lebih = 6
9, normal = 53, tinggi = 0
normal = 50, gemuk = 12
Buruk = 0, kurang = 2,
Sgt pendek = 0, pendek =
Sgt kurus = 0, kurus = 2,
baik = 58, lebih = 7
4, normal = 60, tinggi = 3
normal = 51, gemuk = 14
Dari kedua tabel hasil analisis perhitungan Z-Score didapati hasil bahwa dari semua cluster baik pada data balita laki – laki maupun perempuan keadaan/status gizi yang dominan adalah baik dan normal. Sehingga tidak dapat ditentukan keadaan/status gizi dari tiap cluster.
IJCCS Vol. x, No. x, July201x : first_page–end_page
9IJCCS
ISSN: 1978-1520 5.
KESIMPULAN
Melihat dari tujuan penelitian ini, tujuan yang ingin dicapai adalah menerapkan / memanfaatkan salah satu metode pengolahan data pada data mining menggunakan metode Clustering dengan Algoritma K-Means. Kemudian hasil dari Clustering akan dianalisis untuk diketahui bagaimana keadaan gizi dari balita berdasarkan pengukuran Antropometri. Pada hipotesa / tujuan awal setelah pengelompokkan data diharapkan analisis dari masing – masing cluster dapat memberikan informasi berupa status gizi balita dengan melihat dominasi status gizi balita dari tiap cluster. Tapi dari hasil penelitian ternyata dari semua cluster, keadaan gizi yang mendominasi adalah baik/normal. Sehingga penelitian ini bisa dikatakan belum sesuai dengan yang diharapkan. Karena balita dengan keadaan gizi normal/baik menyebar merata kesemua cluster. Hal ini disebabkan karena pemilihan anggota cluster pada proses clustering dilihat dari jarak terdekat data ke pusat cluster. Sedangkan untuk menentukan status gizi balita disetiap umur, berat badan ataupun tinggi/panjang badan memiliki ukuran standar tersendiri untuk mengetahui balita tersebut masuk ke dalam golongan gizi yang seperti apa. Maka dari itulah mengapa dalam satu cluster ada variasi status gizi balita. Oleh karena itu, melihat dari hasil penelitian dan tujuan awal penelitian dapat disimpulkan bahwa metode clustering ini tidak dapat / tidak cocok digunakan dalam kasus gizi untuk menentukan status gizi balita. 6. SARAN
Untuk penelitian lebih lanjut ada beberapa masukan diantaranya : a. Pengujian menggunakan metode/algoritma lainnya agar hasil yang didapatkan lebih baik lagi. b. Percobaan pada studi kasus atau dataset lainnya yang memiliki masalah yang sama seperti data yang digunakan dalam penelitian ini, dimana data tidak memiliki label/class. DAFTAR PUSTAKA [1] D. Novitasari, "Faktor - Faktor Resiko Kejadian Gizi Buruk Pada Balita Yang Dirawat Di RSUP Dr. Kariadi Semarang," Fakultas Kedokteran Universitas Diponegoro, Semarang, 2012. [2] Suprayogi, "Data Mining Clustering," UDINUS Repository, Semarang, 2015. [3] R. Lungan, Aplikasi Statistika dan Hitung Peluang, Yogyakarta: Graha Ilmu, 2006. [4] A. William, "Gambaran Status Gizi Anak di Panti Asuhan Yayasan Terima Kasih Abadi Kecamatan Medan Barat Tahun 2010," USU Institutional Repository, p. 1, 2010. [5] Y. Zebua, "Gambaran Status Gizi Balita dan Faktor-Faktor yang Mempengaruhinya di Wilayah Kecamatan Afulu Kabupaten Nias Utara," USU Institutional Repository, p. 7, 2014.
Title of manuscript is short and clear, implies research results (First Author)
ISSN: 1978-1520 10
[6] Vidya Ayuningtias, M. Arif Bijaksana, Rimba Widhiana Ciptasari, "Pengkategorian Hasil Pencarian Dokumen Dengan Clustering," Tugas Akhir - 2008, pp. 1-8, 2008. [7] T. Hariyadi, "Penerapan Algoritma K-Means Untuk Pengelompokan Data Nilai Siswa," Udinus Repository, pp. 1-9, 2013.
IJCCS Vol. x, No. x, July201x : first_page–end_page