1
PENGELOMPOKKAN ANGKA PARTISIPASI PENDIDIKAN WAJIB BELAJAR SE-INDONESIA MENGGUNAKAN METODE FUZZY C-MEANS Nila Yuliani 1) Mardhiah Fadli 2) Warnia Nengsih3) Program Studi Sistem Informasi Politeknik Caltex Riau, 1) email:
[email protected] dan 2)
[email protected] Program Studi Komputer Politeknik Caltex Riau, 3)email:
[email protected]
Abstrak Menumpuknya data statistik pendidikan di Badan Pusat Statistik (BPS), mengakibatkan data-data tersebut tidak terkelola dengan baik. Data tersebut dapat digunakan sebagai informasi bagi pemerintah mengenai pendidikan setiap provinsi di Indonesia. Untuk menggali informasi tersebut, maka perlu adanya pengelompokan data indikator pendidikan setiap provinsi, yaitu Angka Partisipasi Sekolah (APS), Angka Partisipasi Murni (APM) dan Angka Partisispasi Kasar (APK). Sistem yang dibangun menggunakan metode data mining yaitu Fuzzy C-Means Clustering yang di visualisasikan ke dalam bentuk peta. Fuzzy C-means Clustering adalah suatu teknik clustering atau pengelompokan data dimana tiap data dalam suatu cluster ditentukan oleh derajat keanggotaanya. Output dari sistem ini berupa peta yang mampu menampilkan informasi hasil olahan Fuzzy C-Means yang dibagi menjadi tiga kelompok dengan karakteristik yang berbeda. Interpretasi setiap kelompok berdasarkan ranking nilai standar devisiasi pusat cluster , sehingga diperoleh provinsi yang termasuk ke dalam kelompok yang memiliki angka partisipasi pendidikan dari tahun 2003 hingga 2012 yang termasuk kategori rendah setiap tahunnya, yaitu Kalimantan Timur, Lampung, Papua Barat dan Provinsi Aceh. Kata Kunci : angka partisipasi pendidikan , Fuzzy C-Means Clustering (FCM) I.
Pendahuluan
Di era globalisasi perkembangan teknologi memberikan dampak positif bagi kehidupan masyarakat. Berkembangnya teknologi tersebut mendukung untuk dapat membuat sistem yang akan membantu kepentingan banyak pihak, salah satunya ialah Badan Pusat Statistik (BPS). Adapun teknologi yang dapat membantu yaitu mampu mengolah dan menganalisa data. Badan Pusat Statistik (BPS) mempunyai tugas menyediakan data dan informasi statistik berkualitas yang meliputi : akurasi, relevansi, up to date, lengkap, dan berkelanjutan. Salah satu pemanfaatan data statistik yaitu data angka partisipasi pendidikan yang digunakan pada instansi pemerintah dalam mengukur keefektifitasan
program pendidikan dalam menyerap potensi pendidikan di masyrakat. Efektifitas program dapat dilihat dari data angka partisipasi pendidikan setiap provinsi berupa Angka Partisipsi Sekolah (APS), Angka Partisipasi Murni (APM) dan Angka Partisipasi Kasar (APK). Data-data tersebut masih ditampilkan dalam format excel sehingga menyulitkan pihak terkait dalam melakukan analisis yang dapat membantu mengambil kebijakan sehingga berguna untuk masa yang akan datang. Untuk mengatasi masalah tersebut maka digunakan suatu metode clustering dengan Algoritma Fuzzy C-Means. Dengan membangun Pengelompokkan Angka Partisipasi Pendidikan berdasarkan Wajib
2
1)
2)
Belajar Se-Indonesia yang divisualisasikan kedalam bentuk peta. Manfaat dari proyek akhir ini adalah memberikan gambaran tingkat keberhasilan partisipasi pendidikan di setiap provinsi bagi pemerintah,masyarakat umum dan Badan Pusat Statistik di Indonesia.
penemuan (discovery) akan dilakukan. Hasil seleksi disimpan dalam suatu berkas yang terpisah dari basis data operasional. b.
Pre-Processing dan Cleaning Data Pre-Processing dan Cleaning Data dilakukan membuang data yang tidak konsisten dan noise, duplikasi data, memperbaiki kesalahan data, dan bisa diperkaya dengan data eksternal yang relevan.
c.
Transformation Proses ini mentransformasikan atau menggabungkan data ke dalam yang lebih tepat untuk melakukan proses mining dengan cara melakukan peringkasan (agregasi).
d.
Data Mining Proses data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik, metode atau algoritma tertentu sesuai dengan tujuan dari proses KDD secara keseluruhan.
e.
Interpretation / Evaluasi Proses untuk menerjemahkan polapola yang dihasilkan dari data mining.
II. Tinjauan Pustaka
2.1 Data Mining Menurut Han & Kamber(2006) mengatakan bahwa mengatakan bahwa data mining adalah sebuah proses dari pencarian korelasi yang baru, pola dan trend yang memberikan informasi, dengan cara menyaring data dalam kuantitas yang besar, menggunakan teknologi pola pengenalan yang serupa dengan teknik statistik dan teknik matematika.
2.2
Gambar 2. Proses KDD
Tahapan proses KDD terdiri dari : a.
3)
Nila Yuliani , Mardhiah Fadly , Warnia Nengsih
Data Selection Pada proses ini dilakukan pemilihan himpunan data, menciptakan himpunan data target, atau memfokuskan pada subset variabel (sampel data) dimana
Fuzzy C-Means Metode FCM pertama kali dikenalkan oleh Jim Bezdek pada tahun 1981. FCM adalah salah satu teknik pengelompokkan data yang mana keberadaan tiap titik data dalam suatu kelompok (cluster) ditentukan oleh derajat keanggotan. Algoritma FCM secara lengkap diberikan sebagai berikut (Luthfi. 2007) : 1. Menentukan nilai-nilai inputan terlebih dahulu : a. Matriks X berukuran n x m, dengan n = jumlah data yang akan di cluster dan m = jumlah variabel (kriteria). b. Jumlah cluster yang akan dibentuk (C ≥ 2)
SMART GIS PENGELOMPOKKAN ANGKA PARTISIPASI PENDIDIKAN TINGKAT SD/SMP/SMA SE-INDONESIA MENGGUNAKAN METODE FUZZY C-MEANS
3
c. Pangkat (pembobot w > 1 ). d. Maksimum iterasi. e. Kriteria penghentian ( ε = nilai positif yang sangat kecil). 2. Membentuk matriks partisi awal U (derajat keanggotaan dalam cluster), matriks partisi awal biasanya dibuat secara acak : U= μ11(x1) μ12(x2) μ1n(xn) (2.1) ⋮ ⋮ ⋮ [ ]........................... μc1(x1) μc2(x2) μcn(xn)
3. Hitung pusat cluster (Vij) untuk setiap cluster : ∑n (μik )w .Xkj Vij k=1 …………………….....(2.2) ∑n (μ )w ik
k=1
4. Perbaiki derajat keanggotaan (μik ) setiap data pada setiap cluster (perbaiki matriks partisi( dik )) : μik = [∑cj=1 (
dik djk
2/(w−1) −1
)
Gambar 3.1 Usecase Diagram
3.2
Entity Relationship Diagram
] ……………...(2.3)
Dengan :
idprovinsi
nama
dik = d(xk − vi ) = [∑m j=1(xkj − 1/2
vij )]
5. Tentukan kriteria penghentian iterasi, yaitu perubahan matriks partisi pada iterasi sekarang dan iterasi sebelumnya : t = ‖Ut − Ut−1 ‖…………………………..(2.5)
Jika: ( t < ε (threshold)) atau (t > MaxIter) maka berhenti; Jika tidak: t = t+1, ulangi langkah ke-4. III. 3.1
Perancangan Usecase Diagram
Perancangan usecase diagram dimaksudkan untuk mempresentasikan fungsionalitas yang disediakan oleh sistem. Pada sistem ini pengguna ada dua yaitu admin dan guest.
1
Provinsi
………………………...............(2.4)
Id_penduduk
Memiliki
Jml_penduduk
Penduduk
n
1 Jml_butahuruf Memiliki
Tahun n
DataIndikator
n
Memiliki
1
idhasilcluster
HasilCluster
u1
iddataindikator Label Kategori Tahun
u2 APM APS
u3
Keterangan
APK
Gambar 3.2 Entity Relationship Diagram
Gambar 3.2 berikut merupakan Entity Relational Diagram (ERD) dari database yang nantinya akan digunakan oleh aplikasi. Setiap tabel memiliki Primary Key yang menjadi ciri khas pada tabel berikut. Primary Key tersebut juga dapat digunakan untuk merelasikan suatu tabel dengan tabel lainnya sehingga nantinya Primary Key tersebut akan menjadi Foreign Key ditabel lain.
4
1)
2)
3)
Nila Yuliani , Mardhiah Fadly , Warnia Nengsih
IV. Pengujian dan Analisa
4.1
Pengujian Sistem
Pengujian sistem dari aplikasi yang dibangun secara keseluruhan dilakukan dengan memeriksa satu persatu bagian-bagian aplikasi yang dibangun tanpa memperhatikan struktur logika internal sistem.
Gambar 5(g). Lihat Grafik Cluster (Riau Kategori SD) Gambar 4 (a). Form Login Gambar 5(b). Import Data
Gambar 4(a). Halaman Login
4.2
Analisa dan Pembahasan
Setelah data terkumpul, maka dilakukan pengolahan dan analisis pada data tersebut. Pengolahan dan analisa dilakukan dengan menggunakan analisis Fuzzy C-Means clustering sesuai dengan tahap-tahap data mining berdasarkan yang sebelumnya telah dibahas pada tinjauan pustaka : 1. Pembersihan data
Gambar 4(b). Halaman Import Data
Gambar 4(c). Lihat Data Indikator
Pada proyek akhir ini pembersihan data dilakukan secara manual.Data yang didapatkan dari website Badan Pusat Statistik (BPS) yaitu data yang bersifat sekunder. Data-data tersebut harus dirapikan kembali menggunakan format Microsoft Excel (.xls) agar dapat dilakukan import ke dalam sistem. Dapat dilihat pada gambar 4.13.
Gambar 4.13 Data mentah dari BPS
SMART GIS PENGELOMPOKKAN ANGKA PARTISIPASI PENDIDIKAN TINGKAT SD/SMP/SMA SE-INDONESIA MENGGUNAKAN METODE FUZZY C-MEANS
2. Integrasi data Penggabungan data pada proyek akhir ini dilakukan secara manual. Setiap data angka partisipasi pendidikan akan dipisah sesuai tahun dan kategori. Kemudian datadata tersebut disimpan ke dalam file Microsoft Excel (.xls) yang nantiya digunakan untuk proses Import data. Dapat dilihat pada gambar 4.14.
5
cluster tingkat partisipasi pendidikan di Indonesia, berikut salah satu hasil pola yang didapatkan dengan menggunakan metode fuzzy c-means clustering. Dapat dilihat pada gambar 4.15 :
Gambar 4.15 Data Tahun 2003 Kategori SD
Berdasarkan peta Indonesia pada tahun 2003 dengan kategori SD terlihatbahwa :
Gambar 4.14 Format Data Siap Diolah
3. Transformasi data Pada tahap ini, transformasi data telah dilakukan sebelumnya yaitu pada tahap pembersihan data dan integrasi data sehingga tidak ada lagi data yang harus ditransformasikan. 4. Data Mining Pada tahapan ini adalah proses dimana clustering dihitung dengan menggunakan metode fuzzy c-means dan menghasilkan output berupa kelompok-kelompok provinsi berdasarkan angka partisipasi pendidikan. 5. Evaluasi pola Pada tahapan ini didapatkan hasil dari proses data mining berupa tiga
1. Indikator atau provinsi yang termasuk ke dalam cluster 1 dengan warna hijau, yaitu : Gorontalo, Papua dan Sulawesi Selatan 2. Indikator atau provinsi yang termasuk ke dalam cluster 2 dengan warna merah, yaitu : Bali, Banten, Bengkulu, DI. Yogyakarta, DKI Jakarta, Jawa Barat, Kalimantan Barat, Kalimantan Selatan, Kalimantan Timur, Lampung , Maluku, Nusa Tenggara Barat, Nusa Tenggara Timur, Sulawesi Tengah, Sulawesi Tenggara, Sumatera Barat, Sumatera Selatan. 3. Indikator atau provinsi yang termasuk ke dalam cluster 3 dengan warna biru, yaitu : Aceh, Jambi, Jawa Tengah, Jawa Timur, Kalimantan Tengah, Kep.Bangka Belitung, Maluku Utara, Riau, Sumatera Utara
6
1)
6. Presentasi pengetahuan Pada tahapan terakhir dari data mining ini, presentasi pengetahuan mengenai metode Fuzzy C-Means yang digunakan untuk memperoleh informasi mengenai tingkat angka partisipasi pendidikan adalah output berupa grafik berbentuk pie dan peta dengan keterangan-keterangan seperti Tinggi, Sedang dan Rendah. Dapat dilihat pada gambar 4.15 yang menggunakan data tahun 2003 untuk kategori SD :
Gambar 4.16 Peta hasil interprestasi pola hasil metode FCM
Karakteristik kelompok dapat digambarkan melalui pusat cluster dan rata-rata dari kelompok. Pada tabel 4.1 dibawah ini merupakan pusat cluster pada tahun 2003 dengan k ategori SD. Tabel 4.1 Karakteristik Kelompok Berdasarkan Pusat Kelompok/Cluster
Dengan menggunakan rumus standar devisiasi : ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ ∑𝑛=1(𝑥𝑖 − 𝑥̅ )^2 s = √ 𝑖 𝑛−1 ........................... (4.1) Diperoleh nilai rata-rata standar devisiasi setiap cluster . 86.03 centroid(𝑣𝑖 )= [95.71 98.03
84.9 92.82 94.32
2)
3)
Nila Yuliani , Mardhiah Fadly , Warnia Nengsih
7.7 98.9 106.48]= [7.1]...... (4.2) 107.63 6.8
Berdasarkan perhitungan hasil standar devisiasi pusat cluster maka kelompok pertama dengan karakteristik APS, APM dan APK yang paling tinggi ranking nya di beri label kategori rendah, sedangkan kelompok tiga memiliki rata-rata yang paling rendah rankingnya di beri label kategori tinggi. Berdasarkan ranking kelompok tersebut, maka dapat diinterpretasikan karakteristik dari tiap-tiap cluster yang ada, yang diurutkan dari nilai terkecil hingga terbesar , sebagai berikut : Kelompok 3 : Kelompok ini terdiri dari provinsi-provinsi yang paling tinggi tingkat kesadaran akan pentingnya menyekolahkan anaknya pada jenjang pendidikan tertentu. Tampak pada nilai APK nya yang lebih unggul daripada kelompok lainnya. Hal ini berarti menunjukkan minat anak untuk menuntaskan program wajib belajar telah berjalan dengan baik pada kelompok ini. Kelompok 2 : Kelompok ini merupakan kelompok yang memiliki rata-rata angka partisipasi pendidikannya termasuk sedang, Pada kelompok ini, provinsiprovinsi yang termasuk ke dalam kelompok ini menunjukkan terbukanya peluang yang lebih besar dalam mengakses pendidikan secara umum. Hal ini ditinjau pada kelompok ini memiliki nilai APS yang lebih tinggi dibandingkan dua kelompok lainnya. Namun, secara keseluruhan nilai indikator pendidikannya masih diatas cluster 3 dan dibawah cluster 1. Kelompok 1 : Kelompok ini terdiri dari provinsi-provinsi yang memiliki ciri-ciri provinsi yang memiliki tingkat kesadaran untuk bersekolah paling rendah. Hal ini dikarenakan provinsi-
SMART GIS PENGELOMPOKKAN ANGKA PARTISIPASI PENDIDIKAN TINGKAT SD/SMP/SMA SE-INDONESIA MENGGUNAKAN METODE FUZZY C-MEANS
provinsi dalam kelompok ini memiliki nilai minimum pada APK dan APM.Artinya,tingkat pelayanan pendidikan pada setiap jenjang pendidikan di kelompok ini belum maksimal di sosialisasikan. 7. Analisa Perbandingan Hasil Setiap Data Sesuai Jenjang Pendidikan. Tabel 4.2 Rekap Data Persentase Diagram Pie Hasil Pengelompokan Provinsi dari tahun 2003 hingga 2012 Nama Provinsi
2003-2012 SD
2003-2012 SMP
2003-2012 SMA
Aceh
Sedang (33,3%)
Rendah
(75%)
Sedang
Bali
Sedang (59,9%)
Sedang
(44,4%)
Rendah (60,6%)
Banten
Rendah (39,9%)
Sedang
(44,4%)
Rendah (69,9%)
Bengkulu
Sedang (50%)
Tinggi
DI. Yogyakarta
Tinggi
Tinggi
DKI Jakarta
Rendah (50%)
Rendah
(44,44%)
Tinggi
Gorontalo
Sedang (39,9%)
Sedang
(44,4%)
Rendah (60,6%)
Jambi
Sedang (50%)
Tinggi
(44,4%)
Rendah (50%)
Jawa Barat
Sedang (39,9%)
Sedang
(44,44%)
Sedang (60%)
Jawa Tengah
Rendah (50%)
Tinggi
(44,4%)
Tinggi
Jawa Timur
Rendah (50%)
Tinggi
(55,5%)
Rendah (50%)
Kalimantan Barat
Rendah (39,9%)
Sedang
(44,4%)
Sedang (39,9%)
Kalimantan Selatan
Sedang (60%)
Rendah
(44,4%)
Tinggi
Kalimantan Tengah
Tinggi
Tinggi
Kalimantan Timur
Rendah (50%)
Rendah
(50%)
Rendah (50%)
Kep. Bangka Belitung
Sedang (39,9%)
Sedang
(33,3%)
Sedang (50%)
Kep. Riau
Tinggi
Tinggi
71,4%)
Rendah (50%)
Lampung
Rendah (50%)
Rendah
(66,6%)
Rendah (50%)
Maluku
Tinggi
(59,7%)
Rendah
(44,44%)
Tinggi
(49,9%)
Maluku Utara
Tinggi
(59,9%)
Sedang
(39,9%)
Tinggi
(59,9%)
Nusa Tenggara Barat
Tinggi
(39,9%)
Rendah
(66,6%)
Sedang (60%)
Nusa Tenggara Timur
Tinggi
(49,9%)
Tinggi
Papua
Tinggi
(50%)
Sedang
(73%)
Rendah (69%)
Papua Barat
Rendah (42%)
Rendah
(50%)
Rendah (57%)
RIAU
Tinggi
Tinggi
(44,4%)
Sedang (39,3%)
Sulawesi Barat
Sedang (42,8%)
Tinggi
(50%)
Rendah (57%)
Sulawesi Selatan
Sedang (39,9%)
Sedang
(44,4%)
Rendah (50%)
Sulawesi Tengah
Rendah (39,9%)
Sedang
(79,9%)
Sedang (79,9%)
Sulawesi Tenggara
Sedang (69,9%)
Sedang
(44,41%)
Sedang (39,9%)
Sulawesi Utara
Sedang (39,9%)
Rendah
(44,44%)
Sedang (44,4%)
Sumatera Barat
Rendah (45%)
Tinggi
(44,4%)
Sedang (50%)
Sumatera Selatan
Rendah (50%)
Tinggi
(55,5%)
Tinggi
Sumatera Utara
Sedang (50%)
Tinggi
(55,5%)
Sedang (39%)
(39,9%)
(60%)
(42,3%)
(39,9%)
(66,6%)
(66,6%)
Rendah (50%)
(44,4%)
Rendah (50%)
(55,5%)
(66,6%)
(39,9%)
(50%)
(50%)
Rendah (60%)
Rendah (69%)
(49,9%)
Berdasarkan tabel 4.2 diatas, dapat dilihat bahwa minat anak untuk bers sekolah pada jenjang pendidikan tertentu di tingkat SD dan SMA masih rendah, hal ini didasari dari hasil pengelompokan data setiap tahunnya, setiap provinsi termasuk ke dalam kategori rendah. Namun pada tingkat SMP jumlah provinsi yang memiliki nilai partisipasi pendidikan yang tergolong ke dalam kelompok tinggi lebih banyak daripada kelompok SD maupun SMA. Ada beberapa provinsi dimana untuk semua jenjang pendidikannya dalam kategori rendah, provinsi tersebut ialah Kalimantan Timur, Lampung, Papua Barat dan Jawa Barat. Keempat provinsi tersebut memiliki daerah-daerah yang masih kental dengan adat istiadat dan susahnya jangkauan
7
transportasi untuk masuk ke daerah tersebut sehingga informasi tentang pendidikan belum terealisasi dengan baik. Sama halnya dengan provinsi Aceh, provinsi ini merupakan provinsi yang memiliki persentasi paling tinggi untuk kategori partisipasi pendidikannya rendah di tingkat SMP. Hal ini berarti menunjukkan bahwa di Aceh, minat untuk melanjutkan sekolah ke tingkat SMP sangatlah minimum. Hal ini disebabkan Aceh merupakan provinsi yang pernah mengalami bencana alam terbesar di dunia. Faktor ini sangat mempengaruhi menurunnya minat bersekolah di provinsi ini.
8
V.
1)
2)
3)
Nila Yuliani , Mardhiah Fadly , Warnia Nengsih
KESIMPULAN DAN SARAN
3.
3.1 Kesimpulan Setelah dilakukan pengujian beserta analisa pada proyek akhir ini, maka dapat diambil kesimpulan sebagai berikut: 1. Sistem ini mampu mengolah dan menganalisa pengelompokan provinsi berdasarkan angka partisipasi pendidikan menggunakan metode Fuzzy CMeans yang menghasilkan output berupa pembagian tiga kelompok yang memiliki nilai pusat cluster dengan karakteristik yang berbedabeda setiap tahunnya. Dari tiga kelompok tersebut di interpretasikan berdasarkan ranking nilai terkecil dari standar devisiasi setiap pusat cluster yang diberi label Tinggi, Sedang dan Rendah. 2. Hasil perbandingan setiap jenjang pendidikan dengan provinsi lainnya menunjukkan bahwa provinsi Kalimantan Timur, Lampung dan Papua Barat serta Aceh memiliki nilai paling minimum untuk setiap jenjang pendidikan dengan kategori rendah. Hal ini berarti, menunjukkan kurangnya kesadaran pada masyarakat pada provinsi ini dalam menyekolahkan anak-anak pada usia sekolah untuk mendapatkan dan memanfaatkan fasilitas pendidikan sampai jenjang pendidikan tertentu. Sehingga perlu adanya tindak lanjut dengan kebijakan dari pemerintah untuk mensosialisasikan pendidikan di provinsi tersebut.
Pada tahapan terakhir data mining yaitu presentasi pengetahuan, hasil pengelompokan di visualisasikan ke dalam bentuk peta menggunakan aplikasi Statplanet. Aplikasi Statplanet mampu menampilkan informasi pengelompokan yang mudah di mengerti bagi pengguna. Sehingga mempermudah pengguna dalam mengambil suatu kebijakan di masa yang akan datang.
V.2 Saran Untuk pengembangan sistem ini, maka beberapa hal yang dapat penulis sarankan adalah: 1. Diharapkan pemilihan event dalam melakukan data mining tidak hanya pertahun namun diharapkan dapat mengelompokkan provinsi menggunakan rentang waktu seperti tiga tahun sekali atau sepuluh tahun sekali sesuai dengan survey yang dilakukan oleh BPS. 2. Menambahkan metode lain seperti Klasifikasi atau membandingkan dengan metode clustering yang terbaru seperti Relational Clustering. 3. Diharapkan untuk selanjutnya sistem ini dapat memperhitungkan pengaruh kedekatan wilayah terhadap hasil pengelompokan. I. [1]
[2]
Daftar Pustaka Pravitasari, A.A.(2008). Penetuan Banyak Kelompok dalam Fuzzy CMeans Cluster Berdasarkan Proporsi eigen Value Dari Matriks Similarity dan Indeks XB(Xie dan Beni). Universitas Padjadjaran Bandung Luthfi, E.T. (2007). Fuzzy C-Means Clustering Data (Studi Kasus : Data Performance Mengajar Dosen). Makalah disampaikan pada Seminar
SMART GIS PENGELOMPOKKAN ANGKA PARTISIPASI PENDIDIKAN TINGKAT SD/SMP/SMA SE-INDONESIA MENGGUNAKAN METODE FUZZY C-MEANS
[3] [4]
Nasional Teknologi 2007. Yogyakarta Kusrini & Luthfi, E.T. (2009). Algoritma Data Mining. Yogyakarta : Andi Offset Han, Jiewai & Kamber, Micheline. (2006). Data Mining Concepts and Techniques. San Francisco : Morgan Kaufmann.
9