DATA CLUSTERING MENGGUNAKAN METODE CRISP DM UNTUK MENGETAHUI KEBUTUHAN TENAGA PENDIDIK JENJANG SMA DI KABUPATEN BANJAR
Oleh : Muhammad Zaien J1F111016
KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN UNIVERSITAS LAMBUNG MANGKURAT FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM PROGRAM STUDI S1 ILMU KOMPUTER BANJARBARU 2014
Bab 1 :
PENDAHULUAN
1.1 Latar Belakang Dalam proses pendidikan, guru tidak hanya menjalankan fungsi alih ilmu pngetahuan (transfer of knowledge) tapi juga berfungsi untuk menanamkan nilai (value) serta membangun karakter (Character Building) peserta didik secara berkelanjutan dan berkesinambungan. (Sri Sunarti, 2012). Oleh karena itu pembagian jumlah tenaga pendidik di tiap kecamatan dapat membantu dalam program pendidikan di tiap kecamatan. Untuk mengetahui bagaimana kebutuhan tenaga pendidik di kabupaten banjar saya menggunakan teknik clustering untuk mengelompokkan kebutuhan tenaga pendidik di tiap kecamatan kabupaten banjar. Clustering
merupakan teknik
data mining
yang berfungsi untuk
mengelompokan data berdasarkan kemiripan data pada suatu kelompok dan meminimalkan kemiripan pada kelompok lain (Irwan Budiman, 2012). Sehingga didapat kelompok kecamatan yang masih membutuhkan tenaga pendidik. Sebelumnya disini saya ingin menerangkan kenapa dibagi per kecamatan, karena data yang saya dapat di internet untuk statistik siswa kabupaten banjar sudah dikelompokkan per kecamatan. 1.2 Perumusan Masalah Berdasarkan latar belakang
yang diuraikan diatas maka untuk perumusan
masalah adalah bagaimana kebutuhan tenaga pendidik di kabupaten banjar per kecamatan untuk jenjang SMA dan sederajat. 1.3 Batasan Masalah Batasan masalah dalam laporan ini adalah : 1. Database yang diolah adalah database sekolah yang berisi data guru dan sekolah untuk jenjang SMA/SMK/MA yang bersumber dari Sistem Informasi Administrasi Pendidikan Kabupaten Banjar (SIAP) . Serta data
1
statistik siswa yang bersumber dari Buku tahunan “Kabupaten banjar dalam angka 2013” yang diterbitkan oleh Badan Pusat Statistik Kabupaten Banjar. 2. Metodologi yang digunakan adalah CRISP-DM 3. Algoritma
Clustering
yang
digunakan
adalah
K-Means
dengan
menggunakan Aplikasi Matlab. 4. DBMS yang digunakan adalah Microsoft Access. 1.4 Tujuan Tujuan dari pembuatan laporan ini adalah : 1. Untuk memenuhi tugas pengganti UTS 2. Pembelajaran dalam melakukan Data Mining dengan metode CRISP-DM.
2
Bab 2 :
Isi Laporan
2.1 Alat dan Bahan Bahan dalam laporan ini adalah : 1. Database sekolah dan statistik siswa.
Alat yang digunakan : 1. Microsoft Access 2010 2. Matlab 3. Metodologi CRISP-DM. 4. Teknik Data Mining : Clustering 5. Algoritma K-Means 2.2 Hasil Berikut alur proses data mining mengikuti standar proses metodologi Cross Industry Standard Process for Data Mining (CRISP-DM).
Gambar 1. Proses Data
2.2.1 Business Understanding Pemahaman bisnis mengacu pada mengetahui kebutuhan tenaga pendidik di kabupaten banjar per kecamatan. 1. Determine Business Objectives Tujuan bisnis pada laporan ini adalah sebagai referensi dalam evaluasi pemerataan pendidikan di kabupaten banjar untuk tiap kecamatan, dengan pengetahuan terhadap kebutuhan tenaga pendidik di tiap kecamatan.
3
2. Assess The Situation a. Perubahan Jumlah Siswa selalu terjadi tiap tahun sehingga statistik siswa berubah sehingga kebutuhan tenaga pendidikpun berubah. b. Perubahan Jumlah siswa dan penduduk dapat memicu pembangunan sekolah baru sehingga dengan adanya sekolah baru maka kebutuhan tenaga pendidik pun bertambah. c. Data pada program SIAP, kurang lengkap sehingga datanya rinciannya sedikit. 3. Determine The Data Mining Goals Tujuan data mining ini adalah mengelompokkan kebutuhan tenaga pendidik per kecamatan di kabupaten banjar. 2.2.2 Data Understanding Pemahaman data mengacu pada database sekolah dan guru, serta data statistik siswa yang diambil dari SIAP kabupaten banjar dan buku tahunan “Kabupaten Banjar dalam Angka 2013” yang diterbitkan badan pusat statistik kabupaten banjar. 1. Collect Initial Data Tahap mengumpulkan data dari website SIAP kabupaten banjar Buku tahunan “Kabupaten banjar dalam angka 2013” yang diterbitkan oleh Badan Pusat Statistik Kabupaten Banjar. Data tersebut didapat dalam bentuk tabular dan laporan. Oleh karena itu disini saya coba rancang database dengan inputan data dari kedua sumber tersebut. 2. Describe the Data Seperti yang dijelaskan pada bagian Collect initial data, data yang saya dapatkan berbentuk tabular dan laporan, untuk data yang saya dapatkan pun terdapat isian-isian yang masih kosong, sehingga pada rancangan database isian tersebut tidak dibuat. Berikut gambar bentuk data yang saya dapatkan.
4
Gambar 3. Data Sekolah (SIAP)
Gambar diatas table data sekolah yang terdaftar dalam program SIAP.
Gambar 4. Detail Sekolah
5
Diatas adalah gambar detail info dari sekolah, disana terlihat beberapa isian yang kosong, sehingga isian-isian tersebut tidak dimasukkan dalam rancangan database.
Gambar 5. Data Guru satu sekolah
Diatas merupakan data guru untuk satu sekolah, disana ada beberapa guru yang isian No Pegawai dan Nomor Unik Pendidik dan Tenaga Kependidikan (NUPTK) yang kosong. Untuk data Siswa pada SIAP ini masih belum tersedia sehingga data statistik siswa didapat dari Buku tahunan “Kabupaten Banjar dalam Angka 2013” sebagai berikut :
6
Gambar 6. Statistik Siswa
Gambar diatas adalah statistik siswa dari buku tahunan. Dalam buku tersebut data statistik siswa digolongkan berdasar, jenjang sekolah (SD,SMP,SMA,SMK,MA) dan status nya swasta atau negeri. 3. Explore the Data Dari data-data tersebut agar memudahkan dalam pencarian knowledge maka dirancang database nya dengan hasilnya sebagai berikut
Gambar 7. Relasi Database
7
Dari ke enam tabel tersebut 5 diisi data dari data SIAP, dan 1 tabel statistik siswa disi dari data yang diambil dari buku tahunan statistik kabupaten banjar. Sehingga hasil pengisian datanya sebagai berikut :
Gambar 8. Tabel Sekolah
Gambar 9. Tabel Kecamatan, Status Sekolah, dan Tipe
8
Gambar 10. Tabel Guru
Gambar 11. Tabel StatistikSiswa
4. Verify Data Quality Dalam data terdapat beberap kekurangan : a. Terdapat sekolah yang nama dan alamatnya sama, tapi no NPSN nya berbeda, sehingga akan membingungkan yang mana no NPSN yang valid. b. Pada tabel guru, terdapat No pegawai dan No NUPTK yang kosong.
9
2.2.3 Data Preparation 1. Data Set Description Untuk data set desciption, disini menyesuaikan Business understanding yaitu kebutuhan guru di kabupaten banjar per kecamatan. Untuk mengetahui kebutuhan guru didapat dari data jumlah guru, jumlah murid dan jumlah sekolah. Dari tiga data tersebut akan dibuat ratio guru-murid, dan ratio guru-sekolah, dengan rumusan : Ratio Guru-Murid = Ratio Guru-Sekolah =
Sehingga bentuk akhir dari format tabelnya adalah sebagai berikut : Nama Field KodeKec Kecamatan RatioGuru RatioSekolah
Tipe Data Number Text Number Number
Keterangan Kode Kecamatan Kab. Banjar Kecamatan Kab. Banjar Nilai Ratio Guru-Murid Nilai Ratio Guru-Sekolah
2. Select Data Data yang dipilih untuk menghitung jumlah guru,dan sekolah perkacamatan ada pada tabel : Sekolah, Kecamatan, dan Guru, sedangkan untuk jumlah siswa menggunakan tabel : StatistikSiswa dan kecamatan. 3. Construct Data Untuk tabel jumlah guru yang diambil dari 3 tabel tersebut menggunakan query berikut : SELECT
Sekolah.Kecamatan,
Kecamatan.NamaKec,
Count(Guru.NIP)
AS
JumlahGuru FROM (Kecamatan INNER JOIN Sekolah ON Kecamatan.KodeKec = Sekolah.Kecamatan)
INNER
JOIN
Guru
ON
Sekolah.NPSN
Guru.NPSNSekolah GROUP BY Sekolah.Kecamatan, Kecamatan.NamaKec;
10
=
Gambar 12. Design SQL Tabel Jumlah Guru
Untuk tabel Jumlah Sekolah per kecamatan sebagai berikut : SELECT
Kecamatan.KodeKec,
Count(Sekolah.Kecamatan) Kecamatan
INNER
Sekolah.Kecamatan
AS
JOIN GROUP
JumlahSekolah Sekolah
BY
Kecamatan.NamaKec, ON
INTO
Kecamatan.KodeKec
Kecamatan.KodeKec,
Sekolah.Kecamatan;
Gambar 13. Design SQL Tabel Jumlah Sekolah
11
JumlahSekolah
FROM =
Kecamatan.NamaKec,
Untuk tabel jumlah Siswa per kecamatan sebagai berikut : SELECT
StatistikSiswa.KodeKec,
Kecamatan.NamaKec,
Sum(StatistikSiswa.JumlahSiswa) AS JumlahSiswa FROM Kecamatan INNER JOIN
StatistikSiswa
ON
Kecamatan.KodeKec
=
StatistikSiswa.KodeKec
GROUP BY StatistikSiswa.KodeKec, Kecamatan.NamaKec;
Gambar 14. Design SQL Tabel Jumlah Siswa
4. Integrate Data & Format Data Disini digabungkan tabel jumlah guru,jumlah sekolah dan jumlah siswa yang telah dibuat diatas dan dilakukan format data untuk mencari nilai ratio guru murid dan ratio guru sekolah dengan rumus yang telah dijelaskan diatas. Berikut Query SQL dan design nya : SELECT
Kecamatan.KodeKec,
Kecamatan.NamaKec,
Format(([JumlahGuru].[JumlahGuru]/[JumlahSiswa].[JumlahSiswa]),"0.00 00")
AS
RatioGuru,
Format(
[JumlahSekolah].[JumlahSekolah] (JumlahGuru
INNER
JOIN
( )
[JumlahGuru].[JumlahGuru]
,"0.0000")
(JumlahSiswa
INNER
AS
RatioSekolah
JOIN
Kecamatan
/ FROM ON
JumlahSiswa.KodeKec = Kecamatan.KodeKec) ON JumlahGuru.Kecamatan = Kecamatan.KodeKec) INNER JOIN JumlahSekolah ON Kecamatan.KodeKec = JumlahSekolah.KodeKec;
12
Gambar 15. Design SQL Ratio
2.2.4 Modelling 1. Select Modelling Technique Teknik data mining yang dipilih adalah clustering dengan menggunakan algoritma K-means. Clustering
dan algortima K-means digunakan untuk
mengelompokkan kebutuhan tenaga pendidik di kabupaten banjar per kecamatan. 2. Build Model Algoritma yang digunakan untuk clustering adalah K-Means dengan Data set yang diambil adalah data set terakhit pada Data Prepartion yaitu tabel ratio. Jumlah kluster yang digunakan pada proses ini adalah 2, diharapkan dari 2 kluster tersebut adalah satu untuk mewakili “Ratio Rendah”, dan satu lagi untuk mewakili “Ratio Tinggi”. 3. Assess Model Untuk proses clustering dengan K-Means disini saya menggunakan matlab sehingga untuk inisiasi pusat kluster otomatis dilakukan oleh program tersebut.
13
2.2.5 Evaluation 1. Evaluation Result Sebelum membahas hasil, kita kembali ke rumus ratio Guru-Murid, dan GuruSekolah. Dari ratio tersebut dapat kita ambil kesimpulan bahwa jika rationya rendah (baik ratio Guru-Murid dan Guru-Sekolah) maka ada kemungkinan membutuhkan tambahan tenaga pendidik, dan sebaliknya. Berikut hasil clustering dengan algoritma K-Means menggunakan aplikasi matlab, (dalam bentuk grafik) :
Gambar 16. Hasil Clustering
Dari hasil diatas, terlihat Cluster 1 memiliki 3 anggota, dan cluster 2 memiliki 11 anggota. Berdasarkan kesimpulan dari rumus ratio diatas berarti dapat diartikan bahwa Cluster 1 (ratio rendah) yang memiliki 3 anggota memerlukan tambahan tenaga pendidik, sedangkan Cluster 2 (ratio tinggi) yang memiliki 11 anggota dapat diartikan Cukup atau belum memerlukan tenaga pendidik tambahan, atau ada kemungkinan bisa diartikan kelebihan tenaga pendidik.
14
2. Review Process Untuk review process disini saya menyadari banyak kekurangannya, khususnya dibagian kelengkapan data, banyak data yang masih kurang, khususnya data sekolah, dan jumlah guru. Sehingga hasil ini masih belum bisa dijadikan masukan untuk pemerataan pendidikan. Dan untuk dibagian lain mungkin pada Data Preparation, disini dihasilkan data ratio untuk data set clustering. Mungkin ada kritik saran untuk penggunaan data set tersebut untuk melakukan clustering dengan tujuan Bisnis Understanding seperti tercantum di atas. 3. Determine Next Steps Untuk menghasilkan pengetahuan yang dapat digunakan tentu perlu dilakukan perbaikan pada bagian-bagian yang telah disebutkan pada Review Process. Jadi, untuk langkah selanjutnya baiknya kembali ke tahap awal, dengan persiapan data yang lebih lengkap.
15