IndoMS Journal on Statistics Vol.1, No. 1, (2013), Page 63-82
SPASIAL DATA MINING MENGGUNAKAN MODEL SPATIAL AUTOREGRESSIVE (SAR) DAN EKSPANSI SAR UNTUK PEMETAAN MUTU PENDIDIKAN DI PROVINSI BANTEN Atje Setiawan Abdullah Staf pengajar Jurusan Matematika, FMIPA Unpad Jl. Raya Bandung-Sumedang Km. 21 Jatinangor E-mail:
[email protected]
Abstract Spatial data mining is used to extract regular knowledge from a large spatial database in many applications, such as remote sensing, geography information system, cartography computer, environment planning, etc. The step of spatial data mining can be done through preparation of the Base National Survey for Education at year 2003 (SDPN 2003) data, cleaning data, variable selection for input, process and output, transformation process from variables to be a ratio indicator using query and spatial variables based on coordinate, and then processing indicator data mining using SAR model and Expansion SAR to get a knowledge for prediction a quality of education. The result of processing data using SAR and Expansion SAR model describes a classification of quality education for elementary school at Banten Province based on indicators education. In this paper, we apply SAR and Expansion SAR or Casetti model to predict the quality of elementary education as an implementation of spatial data mining. For case study we choose the elementary school data at Banten Province based on SDPN 2003. Keywords: SAR, Expansion SAR, Casetti model, spatial data mining, elementary education Abstrak Spasial data mining digunakan untuk mengekstrak pengetahuan dari database spasial yang besar dalam banyak aplikasi, seperti penginderaan jauh, sistem informasi geografi, komputer kartografi, perencanaan lingkungan, dan lain-lain. Tahapan spasial data mining dilakukan melalui penyusunan data Survey Dasar Pendidikan Nasional 2003 (SDPN 2003), pembersihan data, pemilihan variabel untuk input, proses dan output, proses transformasi dari variabel menjadi indikator rasio menggunakan variabel query dan spasial berdasarkan koordinat, dan kemudian memproses data mining menggunakan variabel indikator dengan model SAR dan Ekspansi SAR untuk mendapatkan pengetahuan bagi prediksi kualitas pendidikan.Hasil analisis data menggunakan model SAR dan Ekspansi SAR menggambarkan klasifikasi kualitas pendidikan di sekolah dasar Propinsi Banten berdasarkan beberapaindikator pendidikan. Dalam makalah ini, kami menerapkan model SAR dan ekspansi SAR dari Casetti untuk memprediksi kualitas pendidikan dasar sebagai
2010 Mathematics Subject Classification: 62M10, 62M30, 62P25. 63
64
Atje Setiawan Abdullah
implementasi dari spasial data mining. Untuk studi kasus dipilih data sekolah dasar di Provinsi Banten berdasarkan SDPN 2003. Kata kunci: SAR, Ekspansi SAR, model Casetti, spasial data mining, pendidikan dasar 1. Pendahuluan 1.1 Latar Belakang Penelitian Survei Dasar Pendidikan Nasional 2003 (SDPN 2003) merupakan realisasi dari pendataan pendidikan, baik persekolahan, perguruan tinggi, maupun Pendidikan Luar Sekolah (PLS). Hasil SDPN 2003 merupakan data yang sangat besar, karena menjaring data persekolahan secara nasional sebanyak 203.590 record dan 569 indikator [3]. Luasnya sebaran wilayah pendidikan di Indonesia dengan kondisi sosial, ekonomi, serta budaya, mutu pendidikan di persekolahan pada berbagai lokasi di Indonesia merupakan kajian menarik untuk diteliti melalui metode spasial data mining. 1.2 Permasalahan Salah satu model spasial data mining yang dapat digunakan untuk deskripsi dan prediksi adalah model Spatial AutoRegressive (SAR), dan model Ekspansi SAR. Model SAR digunakan untuk prediksi observasi di lokasi-lokasi tersampel, dalam mengukur heterogenitas didasarkan pada koordinat lokasi spasial. Selain itu diperlukan suatu metode untuk mengklasifikasikan hasil SAR yang dapat memetakan mutu pendidikan ke dalam peta lokasi. Untuk memudahkan dalam penafsiran, model Ekspansi SAR dinyatakan dalam suatu grafik korelasi spasial, γ x dan γ y diplot untuk perluasan x-y, dan γ d untuk perluasan jarak. Grafik tersebut memberikan informasi pengaruh total (pengaruh non spasial dan spasial) variabel bebas ke-i terhadap variabel dependen. Jika grafik menunjukkan kecenderungan turun, maka dapat diinterpretasikan semakin jauh dari koordinat pusat, semakin kecil pengaruh suatu variabel independen terhadap variabel dependen. Oleh karena itu permasalahan dalam penelitian ini adalah bagaimana melakukan deskripsi dan prediksi mutu pendidikan menggunakan model SAR dan model Expansi SAR, khususnya untuk jenjang SD di wilayah Provinsi Banten. Dalam penelitian ini dikaji penerapan model SAR dan Ekspansi SAR menggunakan spasial data mining untuk pemetaan mutu pendidikan di lokasi tersampel berdasarkan data hasil UAS itu sendiri dan faktor-faktor eksternal, serta unsur error. 1.3 Tujuan Penelitian Penelitian ini bertujuan untuk: Mengkaji konsep spasial data mining untuk memodelkan prediksi mutu pendidikan jenjang SD, di provinsi Banten, melalui pendekatan model Spatial Auto Regressive (SAR) dan Ekspansi SAR. 2) Menerapkan konsep spasial data mining untuk mendeskripsikan korelasi spasial menggunakan korelasi Moran, untuk klasifikasi data spasial pada indikator mutu pendidikan jenjang SD di provinsi Banten.
1)
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
3)
65
Menerapkan konsep spasial data mining, yang dinyatakan dalam suatu grafik korelasi spasial, untuk memberikan informasi pengaruh total (pengaruh non spasial dan spasial) variabel bebas ke-i terhadap variabel dependen, untuk klasifikasi data spasial pada indikator mutu pendidikan jenjang SD di provinsi Banten. 2. Metode Penelitian
2.1 Model Proses Input Output Pendidikan Mutu pendidikan didefinisikan sebagai prestasi dicapai siswa dan diukur berdasarkan nilai Ujian Akhir Nasional (UAN) pada jenjang SD [11]. Pada tingkat pendidikan dasar dan menengah proses pembelajaran dilakukan melalui sekolah, dikenakan kepada siswa agar mempunyai tingkat mutu/kompetensi tertentu secara kognitif, psikomotorik, dan afektif, sesuai kurikulum yang ditetapkan. 2.2 Variabel Penelitian Variabel yang digunakan, adalah variabel dasar dan variabel indikator. Variabel dasar merupakan variabel di dalam “raw data individual sekolah”. Variabel indikator adalah variabel yang diperoleh berdasarkan variabel dasar. Variabel dasar meliputi identitas sekolah, indikator siswa, indikator sarana, indikator guru, dan total nilai UAN. Dari indikator tersebut dibangun sistem input dan output mutu pendidikan, yang digambarkan pada Gambar 2.1 [1]. Berdasarkan Gambar 2.1 diperoleh hasil reduksi indikator yang berpengaruh terhadap mutu pendidikan, menggunakan analisis faktor dan SEM meliputi: input 3 indikator, rasio siswa terhadap rombongan belajar (RSTRB), rasio siswa baru asal TK terhadap jumlah siswa tingkat 1 (RSB), dan rasio jumlah siswa umur 7 tahun terhadap siswa tk1(RSB7). Proses terdiri atas 2 indikator yaitu rasio ruang baik terhadap seluruh ruang (RSB) dan rasio guru layak terhadap seluruh guru (RSGLY). Output terdiri atas 2 indikator, total nilai UAS, dan tingkat kelulusan [1].
Gambar 2.1. Hasil Reduksi Variabel
66
Atje Setiawan Abdullah
2.3 Data Mining Sejalan dengan pertumbuhan teknologi informasi, data mining merupakan salah satu bidang yang berkembang pesat karena besarnya kebutuhan akan nilai tambah dari database skala besar yang makin banyak terakumulasi. Beberapa definisi umum data mining adalah sebagai berikut : Data mining merupakan serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data. Proses KDD terdiri dari 3 tahap: data preprocessing, data mining dan postprocessing. Proses data mining dan Knowledge Discovery in Databases (KDD) secara garis besar dijelaskan sebagai berikut: data selection, pre-processing/ cleaning,transformation, data mining,interpretation/ evaluation. Tugas data mining secara umum terdiri dari dua kategori prediksi (predictive tasks) dan deskripsi (descriptive tasks). Metodologi data mining secara ringkas dapat dibagi menjadi beberapa tahap: data cleaning, integrasi data, transformasi data, aplikasi teknik data mining, evaluasi pola yang ditemukan, dan presentasi pengetahuan [6]. Proses data mining terdiri dari tujuh langkah, yaitu: (a) definisi tujuan analisis, (b) seleksi dan organisasi data, (c) analisis eksplorasi dan transformasi data, (d) spesifikasi metode statistika yang akan digunakan pada tahap analisis, (e) analisis data berdasarkan metode yang dipilih, (f) evaluasi dan perbandingan metode, dan (g) interpretasi model untuk pengambilan keputusan [5]. Metodologi data mining mengikuti proses tingkat tinggi dari siklus yang mengikuti empat proses bisnis secara umum terdiri dari: identifikasi masalah bisnis meliputi permasalahanpermasalahan dan areanya dimana analisis data dapat memberikan nilai, transformasi data ke dalam informasi hasil tindakan menggunakan teknik data mining, aktivitas dalam informasi tindakan, dan ukuran-ukuran tindakan dari usaha untuk memberikan pengetahuan bagaimana memanfaatkan data [10]. Cross-Industry Standard Process for Data Mining (CRISP-DM), adalah suatu set fase yang dapat digunakan dalam studi data mining, terdiri dari: pertama memahami bisnis khususnya menentukan tujuan penelitian data mining; kedua memahami data melalui seleksi data yang berhubungan dengan tujuan dari database; ketiga menyiapkan data melalui membersihkan data hasil seleksi untuk mendapatkan kualitas data yang baik; keempat memodelkan, mengembangkan software data mining yang akan digunakan untuk analisis; kelima mengevaluasi, membuat interpretasi dari hasil analisis disesuaikan dengan tujuan penelitian, dan mengembangkan data mining dengan menyimpulkan hasil penelitian data mining untuk mendapatkan pengetahuan baru, sesuai dengan tujuan [12]. 2.4 Spasial Data Mining Database spasial menyimpan objek-objek spasial yang direpresentasikan oleh tipe data spasial dan hubungan spasial di antara objek-objek. Data spasial membawa topologi atau informasi jarak dan seringkali disusun oleh struktur indeks spasial yang dapat diakses oleh metode-metode spasial. Pengembangan database spasial seperti struktur data spasial dan komputasional geometri, memberikan jalan untuk mengkaji spasial data mining. Spasial data mining adalah suatu proses mengekstrak pengetahuan yang diinginkan dari relasi spasial atau berbagai pola yang secara eksplisit tidak ditemukan dalam database [6].
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
67
Metode spasial data mining dapat digunakan untuk mengekstrak pengetahuan regular dan menarik dari database spasial yang besar. Masing-masing bagian, dapat digunakan untuk memahami data spasial, menemukan hubungan antara data spasial dan non spasial, membangun base pengetahuan spasial, optimisasi query, reorganisasi database spasial, menjelaskan karakteristik umum melalui cara yang sederhana. Salah satu teknik klasifikasi adalah pengembangan teknik penambangan data klasik untuk menggabungkan autokorelasi spasial, yang menjadi kunci untuk membedakan properti data spasial. Dengan menggunakan regresi linier sebagai prototype, metode-metode klasifikasi dapat dikembangkan untuk model autokorelasi spasial. Salah satu teknik regresi yang menjelaskan autokorelasi spasial paling sederhana adalah dengan memodifikasi model regresi melalui bantuan matriks bobot spasial W berupa model SAR dan Ekspansi SAR [7]. Analisis data berupa penaksiran parameter model SAR dan Ekspansi SAR serta output lainnya dapat dilakukan secara komputerisasi, misalnya menggunakan perangkat lunak MATLAB. MATLAB merupakan suatu perangkat lunak yang terkenal untuk kalkulasi data dan representasi grafik. Struktur dalam MATLAB memungkinkan user memanggil fungsi-fungsi yang berkaitan dengan analisis data spasial, melakukan komputasi dengan matriks sparse (unsur-unsur bernilai nol yang banyak) seperti matriks bobot spasial, penaksiran parameter model spasial dan sebagainya. Desain dan implementasi spasial data mining menggunakan MATLAB untuk disain fungsi brain image dalam pemetaan parameter-parameter secara statistika (Statistical Parameters Mapping/SPM). SPM adalah salah satu contoh keberhasilan MATLAB dalam analisis data dan penggunaan GUI (Graphical User Interface). Kombinasi MATLAB, GIS dan spasial data mining membangun perangkat lunak kerangka sistem spasial data mining dalam flatform MATLAB yang diintegrasikan dalam algoritma-algoritma seperti: aturan asosiasi spasial, analisis pengelompokan spasial, analisis keputusan pohon (decision tree) dan penggunaan sistem untuk database spasial dalam penggunaan daratan, pemrosesan data vektor spasial dan berbagai aspek lainnya [9]. 2.5 Model Spatial Autoregressive Model spatial autoregressive (SAR) secara umum dirumuskan [8] sebagai berikut:
y = ρ W1y + Xβ + u
u = λ W2u + ε
(2.1)
y adalah vektor n ×1 dari variabel dependen, X adalah matriks variabel bebas n × k . W adalah matriks bobot spasial n × n , berisi relasi contiguity atau fungsi jarak. Jika X = 0 dan W2 = 0, maka model spasial autoregressive disebut model spatial autoregressive order pertama dinyatakan: (2.2) y = ρ Wy + ε. Matriks W perlu dibakukan sehingga jumlah unsur setiap baris dari matriks adalah satu dan vektor y unsurnya merupakan penyimpangan dari rata-ratanya.
68
Atje Setiawan Abdullah
Untuk keperluan pengujian hipotesis perlu diasumsikan bahwa ε ∼ N (0, σ 2 I n ) . Taksiran kuadrat terkecil (OLS) ρ dinyatakan [2] dan [8]:
ρˆ = ( y'W'Wy ) y'W'y. −1
(2.3)
2.6 Korelasi Moran dan Plot Moran Otokorelasi spasial sebagai suatu pola peta, juga memberikan berbagai interpretasi. Diukur melalui perluasan koefisien korelasi product moment dari Pearson dengan menggunakan bobot matriks spasial biner C, dengan cij = 1 menunjukkan pengamatan j relatif dekat lokasi ke i. Perluasan koefisien korelasi dikenal koefisien Moran [8]: MC =
n
∑ ∑ n
n
i =1
j =1 ij
c
∑ ∑ c ( x − x )( x ∑ (x − x) n
n
i =1
j =1 ij
i
2
n
i =1
j
− x)
.
(2.4)
i
Interpretasi otokorelasi spasial merupakan trend atau pola umum dalam peta, nilai MC mendekati 1 jika nilai pengamatan similar mengelompok dalam suatu peta, otokorelasi spasial positif. MC mendekati -1 jika nilai dissimilar mengelompok dalam suatu peta. Pola acak nilainilai suatu variabel dalam peta mengakibatkan nilai MC mendekati nol jika banyaknya pengamatan relatif besar. Nilai MC tidak dibatasi dalam rentang [-1,1] , tetapi rentangnya ditentukan oleh minimum dan maksimum dari Eigenvalue matriks C. Koefisien korelasi Moran dapat dibuat dalam suatu scatter plot antara vektor ( y − y ) dan lag spasial dari variabel W ( y − y ) , dengan W adalah matriks bobot spasial. Salah satu cara membuat plot yaitu hubungan outoregresif pertama:
( y − y ) = ρW( y − y ) + ε
(2.5)
dengan є menyatakan error yang diasumsikan berdistribusi normal dengan rata-rata nol dan varians σ ε2 I n . Persamaan koefisien kemiringan sebesar ρ , untuk nilai mendekati 1 menunjukkan tingkat otokorelasi spasial positif tinggi, plot Moran menyatakan terdapat banyak pengamatan dominan berada di kuadran I, nilai tinggi ( y − y ) berhubungan nilai tinggi
W ( y − y ) , kuadran III menggambarkan banyak pengamatan dominan nilai rendah
(y − y)
berhubungan nilai rendah W ( y − y ) . Scatter plot menunjukkan pola acak, tidak ada ketergantungan antara pengamatan ( y − y ) dan W ( y − y ) . Nilai negatif ρ mengindikasikan banyak pengamatan di kuadran II, dan IV. 2.6 Model Ekspansi SAR Pada model SAR dalam mengukur heterogenitas spasial didasarkan kepada neighborhood. Model spasial linear secara lokal dalam hal mengukur heterogenitas didasarkan pada koordinat
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
69
lokasi spasial atau suatu koordinat. Model spatial seperti ini pertama kali diperkenalkan oleh Casetti (1972) dalam [2] dan [7]. Perhatikan model regresi berikut ini: y = β0 + β1x + ε (2.6) dengan βo dan β1 masing-masing menyatakan koefisien regresi, dan x adalah vektor pengamatan dari variabel bebas. Koefisien-koefisien regresi dalam persamaan tersebut menunjukkan heterogenitas spasial dalam unit pengamatan. Untuk itu, dalam persamaan tersebut perlu dilibatkan sejumlah variabel perluasan, misalnya z1 dan z2 sedemikian hingga berlaku:
β1 = γ 0 + γ 1 z1 + γ 2 z2 .
(2.7)
Jika persamaan (2.2) tersebut disubstitusikan ke dalam persamaan (2.1) diperoleh:
y = β 0 + γ 0 x + γ 1 ( z 1 x) + γ 2 ( z 2 x) + ε .
(2.8) Persamaan (2.3) dinamakan model Casetti dan secara umum dalam bentuk vektor dinyatakan:
y = Xβ + ε
β = ZJβ0 . Parameter model ekspansi SAR β x dan β y pada persamaan (2.4)
(2.9) ditaksir dengan
menggunakan metode kuadrat terkecil. Alternatif lain model ini didasarkan kepada vektor jarak. Jarak dari pusat pengamatan dirumuskan:
di =
(z xi − z xc )2 + (z yi − z y )2
(2.10)
dengan z xi , z yi adalah koordinat pengamatan ke-i dan z xc , z yc adalah koordinat titik pusat lokasi. Model ekspansi jarak secara umum dirumuskan:
y = Xβ + ε
β = DJβ 0
(2.11)
dengan D = diag (d1 , d 2 , …, d n ) adalah jarak pengamatan dari pusat pengamatan dan β 0 menunjukkan vektor pengamatan yang berukuran k × 1 untuk pusat pengamatan. Matriks J dalam model tersebut adalah J = ( I k , I k ,…, I k ) . Casetti dalam [2] menyatakan bahwa persamaan (2.11) dapat ditulis: (2.12) y = α + Xβ + XZ x β x + XZ y β y + ε . Jika persamaan tersebut melibatkan jarak, persamaan tersebut menjadi:
y = α + Xβ + XDβ0 + ε .
Penafsiran koefisien model perluasan spasial melalui persamaan berikut:
( 2.13)
70
Atje Setiawan Abdullah
γ xi = βi + Z x β xi γ yi = βi + Z y β yi γ di = βi + Dβ oi .
(2.14)
Persamaam (2.14) menunjukkan koefisien dari variabel individual, yang menggambarkan pengaruh total terhadap variabel dependen karena variabel bebas. Untuk memudahkan dalam penafsiran dinyatakan dalam suatu grafik, γ x dan γ y di-plot untuk perluasan x-y, dan γ d untuk perluasan jarak. Grafik tersebut memberikan informasi pengaruh total (pengaruh non spasial dan spasial) variabel bebas ke-i terhadap variabel dependen y. 2.7 Penyiapan Data Penyiapan data berupa tabel dan relasi antar tabel dari SDPN 2003 disimpan dalam database terdiri dari tabel berikut : SD-ID dengan primary key ID dan jumlah field 15, SD_SISWA dengan primary key ID dan jumlah filed 73, SD_GURU dengan primary key ID dan 58 field, SD_SARANA dengan primary key ID dan jumlah field 47, KAB dengan prymary key KODE jumlah field 2, KEC dengan primary key KODE jumlah field 3. Serta tabel KEC_Line Capital dengan primary key KODE_KEC jumlah field 3. Relasi antar tabel digambarkan sebagai berikut [1]:
Gambar 2.2. Relasi Antar Tabel
1). Select Data Data yang diambil meliputi nomor ID, kode kecamatan, nilai rata-rata UAS/UAN, guru per pendidikan, ruangan berdasarkan kondisi. Data referensi seperti data kecamatan, kabupaten dan koordinat spasial kecamatan. 2). Clean Data Cleaning data untuk membersihkan: Tuples tidak memiliki nilai untuk atribut. Duplicate records dan incomplete data sehingga pembersihan pada data dilakukan agar data yang dipakai terbebas dari error. 3). Transformasi data
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
71
Pembuatan agregat data, menghitung rasio guru layak ≥ D2 terhadap guru, rasio ruang baik terhadap ruang, total UAS/UAN, mengunakan query : SELECTkdkec,(sum(RTUAS_MAT)/ Count(*)+sum(RTUAS_indo)/count(*)+sum(RTUAS_ipa)/count(*)+ sum(RTUAS_ips)/count(*))AS TOTUAS FROM SD GROUP BY kdkec; 4). Integrate data Semua data yang telah dibersihkan dan diperlukan disimpan dalam suatu database. 5). Menyiapkan Format Data untuk MATLAB Data agregat dalam database dikonversi kedalam bentuk teks file akan dibaca oleh software MATLAB. sebagai berikut : 1. Data yang telah diagregate direlasikan dengan data koordinat spasial kecamatan. 2. Kelompokan, 1 file teks mewakili 1 provinsi. 3. Hilangkan kode kecamatan, yang dikonversi fieldnya mulai dari rasio siswa terhadap rombel 4. Konversi format teks space delimited, simpan file sesuai nama provinsi tambah nama jenjang di akhir nama ProvBantenSD. Teks file hasil konversi seperti Gambar 2.3. 5. Data siap digunakan
Gambar 2.3. Data Teks Provinsi Banten SD
2.9 Aplikasi Spasial Data Mining Menu utama dari aplikasi spasial data mining menggunakan model SAR, dimulai dengan pemilihan data lokasi provinsi kemudian lokasi kabupaten dan jenjang persekolahan dengan pilihan SD/SMP/SMA. Kemudian dilanjutkan dengan pemilihan model SAR. Ketiga menu tersebut diperlihatkan pada Gambar 2.4.
72
Atje Setiawan Abdullah
Gambar 2.4. Data Teks Provinsi Banten
Output dari taksiran Model SAR orde 1 dan indeks plot Moran disajikan pada Gambar 2.5 sebagai berikut. Selanjutnya digambarkan plot Moran untuk memetakan masing-masing variabel indikator terhadap variasi mutu pendidikan jenjang SD di Provinsi Banten.
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
73
Gambar 2.5. Hasil Model SAR dan Indeks Moran SD Provinsi Banten
3. Hasil dan Pembahasan 3.1 Analisis Data menggunakan Model SAR Tabel 3.1 menunjukkan hasil analisis data mutu pendidikan provinsi Banten menggunakan model SAR. Koefisien determinasi, R 2 dikelompokkan ke dalam tiga kategori: 0.00-0.35, 0.360.65, dan > = 0.65, masing-masing menunjukkan hubungan ‘lemah’, ‘sedang’, dan ‘kuat’. Tabel 3.1. Rekapitulasi Hasil Analisis Model SAR Banten NO 1 2 3 4 5 6
NAMA INDIKATOR RSTRB RSB RSBR7 RSRB RSGLTG TOTUAS
RSQUARE 0.52 0.60 0.28 0.35 0.08 0.33
KOEF RHO 0.74 0.84 0.60 0.65 0.35 0.68
MODEL SAR Y=0,74WY Y=0,84WY Y=0,60WY Y=0,65WY Y=0,35WY Y=0,68WY
RELASI SEDANG SEDANG LEMAH SEDANG LEMAH LEMAH
74
Atje Setiawan Abdullah
1. Rasio Siswa Terhadap Rombel (RSTRB) Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.74. Persamaan taksiran SAR diperoleh y=0,74Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap RSTRB adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSTRB sebesar 0.74. Koefisien determinasi sedang, menjelaskan bahwa 52% model spasial RSTRB dipengaruhi oleh spasial, sedangkan sisanya sebesar 48% dipengaruhi unsur lain yang tercakup dalam error. 2. Rasio Siswa Baru Terhadap Seluruh Siswa (RSB) Berdasarkan hasil analisis data dengan model SAR, diperoleh taksiran model SAR y=0,84Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap RSB sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSB sebesar 0.84. Koefisien determinasi sedang, menjelaskan bahwa 60% model spasial RSB dipengaruhi oleh spasial, sedangkan sisanya 40% dipengaruhi oleh unsur lain yang tercakup dalam error. 3. Rasio Siswa Usia 7 Tahun terhadap Siswa Baru (RSBR7) Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.60. Persamaan SAR diperoleh y=0,60Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap RSB adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSBR7 sebesar 0.60. Koefisien determinasi lemah menjelaskan bahwa 28% model spasial RSB dipengaruhi oleh spasial, sedangkan sisanya sebesar 72% dipengaruhi oleh unsur lain yang tercakup dalam error. 4. Rasio Ruang Baik Terhadap Seluruh Ruang (RSRB) Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.65. Persamaan SAR diperoleh y=0,65Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap RSRB adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSRB sebesar 0.65. Koefisien determinasi sedang menjelaskan bahwa 35% model spasial RSRB dipengaruhi oleh spasial, sedangkan sisanya sebesar 65% dipengaruhi oleh unsur lain yang tercakup dalam error. 5. Rasio Guru Layak Terhadap Seluruh Guru (RSGLTG) Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi sebesar 0.35. Persamaan SAR diperoleh y=0,35Wy. Hal ini menunjukkan bahwa pengaruh spasial terhadap RSDAFTS adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSRB sebesar 0.08. Koefisien determinasi lemah menjelaskan bahwa 8% model spasial RSDAFTS dipengaruhi oleh spasial, sedangkan sisanya sebesar 82% dipengaruhi unsur lain yang tercakup dalam error. 6. Total UAS (TOTUAS) Berdasarkan hasil analisis data dengan model SAR, diperoleh koefisien regresi (rho) sebesar 0.68. Persamaan SAR diperoleh y=0,68Wy. Hal ini menunjukkan bahwa pengaruh spasial
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
75
terhadap RSLABTS adalah sedang (p < 10%). Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata variabel RSRB sebesar 0.33. Koefisien determinasi lemah menjelaskan bahwa 33% model spasial RSGLTG dipengaruhi oleh spasial, sedangkan sisanya sebesar 67% dipengaruhi unsur lain yang tercakup dalam error. 3.2 Analisis Data menggunakan Indeks Moran Tabel 3.2 menunjukkan hasil analisis data menggunakan Indeks Moran. Tabel 3.2. Rekapitulasi Hasil Analisis Indeks Moran Provinsi Banten NO
NAMA INDIKATOR
INDEKS MORAN
1
RSTRB
0.31
2
RSB
0.34
3
RSB7
0.25
4
RSRB
0.37
5
RSGLTG
0.28
Interpretasi autokorelasi spasial dari output di atas menunjukkan bahwa untuk kelima variabel tersebut indeks Moran mendekati +1, artinya nilai pengamatan cenderung mengelompok dalam suatu peta, dengan otokorelasi spasial bernilai positif. 3.3 Pemetaan Moran Scatter Plot menggunakan Peta Spasial Kecamatan di Provinsi Banten dengan format ArcView (*.shp) Dengan format ArcView dapat digambarkan korelasi spasial melalui Plot Moran untuk setiap variabel penelitian tentang mutu pendidikan jenjang SD di Provinsi Banten [1] sebagai berikut:
76
Atje Setiawan Abdullah
Gambar 3.1. Rasio Siswa Usia 7 Tahun terhadap Siswa Baru (RSBR7) Gambar 3.3 menunjukkan indikator rasio siswa baru usia 7 tahun terhadap jumlah tingkat 1 (RSBR7) berada di kuadran III, nilai koefisien kemiringan rho positif yaitu 0,31. Artinya rasio siswa baru usia 7 tahun terhadap siswa kelas 1 SD mempunyai tingkat otokorelasi spasial positif. Hal ini menunjukkan banyak pengamatan dominan nilai-nilai tinggi (y − y )
berhubungan dengan nilai tinggi W(y − y ) . Dari peta dapat dilihat untuk sekolah yang berada di kecamatan-kecamatan berlokasi di wilayah Provinsi Banten Utara, rasio siswa baru umur 7 tahun terhadap jumlah siswa tingkat 1, rendah. Sebaliknya untuk sekolah yang berada di kecamatan-kecamatan wilayah Provinsi Banten Selatan masih memiliki budaya menyekolahkan anak 7 tahun atau lebih. Hal ini menunjukkan rata-rata menyekolahkan siswa 7 tahun ke atas, atau kesadaran menyekolahkan anak relatif rendah.
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
77
Tabel 3.3. Rekapitulasi Hasil Analisis Model Expansi SAR Jenjang SD Provinsi Banten NO
RSTRB
RSB
RSBR7
RSRB
RSGL
TOTUAN
Banten Utara
T
T
R
T
T
T
2
Banten Selatan
R
R
T
R
R
R
3
Banten Timur
R
T
R
R
R
R
4
Banten Barat
R
R
R
R
T
T
1
LOKASI
Berdasarkan Tabel 3.3 diperoleh sebagai berikut: a. Untuk lokasi Banten Utara, RSTRB, RSB, RSRB, RSGL, dan TotUAS adalah tinggi. Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan di Banten Utara memiliki rombel tinggi, rata-rata siswa baru berasal dari TK tinggi, rasio ruang baik terhadap ruang tinggi, rasio guru layak tinggi dan total UAS relatif tinggi. Sedangkan untuk rasio siswa baru berusia tujuh tahun rendah, artinya rata-rata menyekolahkan siswa di bawah 7 tahun. b. Untuk lokasi Banten Selatan, RSTRB, RSB, RSRB, RSGL, dan TotUAS adalah rendah. Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan di Banten Selatan memiliki rombel rendah, rata-rata siswa baru berasal dari TK rendah, rasio ruang baik terhadap ruang rendah, rasio guru layak rendah dan total UAS relatif rendah. Sedangkan untuk rasio siswa baru berusia tujuh tahun tinggi, artinya rata-rata menyekolahkan siswa di atas 7 tahun relatif tinggi. c. Untuk lokasi Banten Timur, RSTRB, RSBR7, RSRB, RSGL, dan TotUAS adalah rendah. Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan di Banten Timur memiliki rombel rendah, rata-rata siswa baru berasal dari TK rendah, rasio ruang baik terhadap ruang rendah, rasio guru layak rendah dan total UAS relatif rendah. Sedangkan untuk rasio siswa baru asal TK tinggi, artinya rata-rata menyekolahkan siswa asal TK relatif tinggi. d. Untuk lokasi Banten Barat, RSTRB, RSB, RSBR7, RSRB, dan TotUAS adalah rendah. Hal ini menunjukkan bahwa untuk sekolah-sekolah yang berada di kecamatan-kecamatan di Banten Barat memiliki rombel rendah, rata-rata siswa baru berasal dari TK rendah, rasio siswa baru 7 tahun rendah, dan rasio ruang baik terhadap ruang rendah. Sedangkan untuk rasio Guru layak relatif tinggi, dan total UAS relatif tinggi, artinya rata-rata guru sudah layak mengajar relatif tinggi, dan rata-rata nilai UAS relatif tinggi.
78
Atje Setiawan Abdullah
3.4 Hasil Analisis Data Model Ekspansi SAR
Gambar 3.2. Hasil Model Expansi SAR SD Provinsi Banten
Gambar 3.2 merupakan hasil analisis model Ekspansi SAR. Hasil di atas menunjukkan bahwa mutu pendidikan jenjang SD di provinsi Banten dipengaruhi oleh faktor non spasial dan faktor spasial yang diukur berdasarkan jarak antara 2 lokasi (kecamatan). Koefisien determinasi menjelaskan variasi mutu pendidikan dipengaruhi oleh faktor spasial dan non spasial sebesar 44%. Model taksiran mutu pendidikan tersebut dapat digunakan untuk memprediksi mutu di suatu kecamatan di wilayah Provinsi Banten, apabila delapan indikatornya diketahui dan koordinat dari kecamatan tersebut juga diketahui. Taksiran MUTU = 25.45 - 0.01 RSRBL + 11.61 RSB + 0.85 RSB7 - 12.35 RSRB - 0.44 RSGLY + 0.44 DRSRBL - 16.00 DRSB - 23.08 DRSBR7 - 3.87 DRSRB + 2.36 DRSGLYK
3.5 Grafik Hasil Analisis Menggunakan Model Ekspansi SAR Untuk memudahkan dalam penafsiran hasil analisis ekspansi SAR dinyatakan dalam suatu grafik, γ x dan γ y di-plot untuk perluasan x-y, dan γ d untuk perluasan jarak. Grafik tersebut memberikan informasi pengaruh total (pengaruh non spasial dan spasial) variabel bebas ke-i terhadap variabel dependen. Aturan pengelompokan besarnya koefisien determinasi, yaitu R 2 dikelompokkan ke dalam tiga kategori: 0.00-0.35, 0.36-0.65, dan > = 0.65 berturut-turut menyatakan kekuatan hubungan ‘lemah’, ‘sedang’, dan ‘kuat’. Untuk Provinsi Banten, berdasarkan perhitungan diperoleh koefisien determinasi 48% yang berarti mempunyai hubungan sedang antara pengaruh non spasial dan spasial terhadap mutu pendidikan jenjang SD di Banten.
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
79
Gambar 3.3. RSTRB SD dan RSB Provinsi Banten
Gambar 3.3 bagian kiri Grafik korelasi spasial pada menunjukkan kecenderungan naik, dapat diinterpretasikan semakin jauh dari koordinat pusat, semakin besar pengaruh suatu variabel independen terhadap variabel mutu pendidikan. Sedangkan Gamabar 3.3 bagian kanan Grafik korelasi spasial pada menunjukkan kecenderungan turun, dapat diinterpretasikan semakin jauh dari koordinat pusat, semakin kecil pengaruh suatu variabel independen terhadap variabel mutu pendidikan. Secara detail Gambar 3.3 sebelah kiri menggambarkan Rasio Siswa terhadap Rombel, semakin jauh dari pusat, pengaruh RSTRB semakin besar terhadap mutu pendidikan. Hal ini menjelaskan bahwa semakin jauh dari pusat kota, pengaruh rasio siswa terhadap rombel semakin besar, mengingat jumlah rombel di pedesaan relative kecil, umumnya kelas di pedesaan merupakan kelas besar, jarang adanya kelas paralel, mengingat jumlah guru terbatas. Sedangkan untuk perkotaan yang jaraknya relatif dekat dengan pusat, pengaruh rasio siswa terhadap rombel semakin kecil. Hal ini menunjukkan di lokasi yang jaraknya dekat dengan pusat rata-rata memiliki rombel, dan kesadaran untuk memberikan pelajaran secara optimal dilakukan, mengingat jumlah siswa banyak dengan guru yang banyak. Sedangkan Gambar 3.3 sebelah kanan menunjukkan korelasi spasial variabel Rasio Siswa Baru asal TK terhadap Siswa kelas 1 kecenderungan turun. Artinya semakin jauh dari pusat kota, pengaruh rasio siswa baru asal TK semakin kecil terhadap mutu pendidikan, mengingat di kecamatan-kecamatan yang jauh dari pusat pemerintahan jumlah TK relatif kecil. Sedangkan untuk perkotaan yang jaraknya relatif dekat dengan pusat kota pengaruh siswa baru asal TK terhadap mutu pendidikan semakin besar, mengingat hampir semua siswa kelas 1 berasal dari TK, sehingga pengaruhnya terhadap mutu pendidikan juga semakin besar.
80
Atje Setiawan Abdullah
Tabel 3.4. Rekapitulasi Hasil Analisis Data Menggunakan Indeks Moran NO 1
INDIKATOR
GRAFIK EKSPANSI SAR
RSTRB
NAIK
2
RSB
TURUN
3
RSBR7
TURUN
4
RSRB
TURUN
5
RSGL
NAIK
Tabel 3.4 menjelaskan untuk indikator RSB, RSB7, dan RSRB grafik cenderung turun. Artinya semakin jauh dari pusat, pengaruh rasio siswa asal TK, rasio siswa baru umur 7 tahun, dan rasio ruang baik terhadap seluruh ruang terhadap mutu pendidikan semakin kecil. Sedangkan untuk indikator RSTRB dan RSGL grafik cenderung naik. Artinya semakin jauh dari pusat, pengaruh RSTRB dan RSGL terhadap mutu pendidikan semakin tinggi.
Gambar 3.4. Perbandingan Aktual dengan Prediksi Provinsi Banten
Gambar 3.4 memperlihatkan pola data aktual hampir mirip dengan pola model prediksi, ini berarti model ekspansi Ekspansi SAR dapat menggambarkan keadaan yang sebenarnya. Pola residual juga memperlihatkan pola yang sama dengan model ekspansi SAR. Artinya secara garis besar model ekspansi SAR cocok untuk digunakan dalam menganalisis indikator-indikator mutu pendidikan di Sekolah Dasar Provinsi Banten. 4. Kesimpulan 1. Model SAR, menunjukkan bahwa pengaruh spasial terhadap indikator-indikator RSRB, RSB,
RSBR7, RSRB, RSGLY, dan R_UAN sangat signifikan (p < 10%). Interpretasi untuk setiap indikator dapat diklasifikasikan sebagai berikut: Pergeseran wilayah untuk setiap satu satuan akan meningkatkan rata-rata indikator-indikator dan RSRB (74%) , RSB (84%), dan RSB
Spasial Data Mining Menggunakan Model Spatial Autoregressive (SAR) ...
81
(60%) mempunyai koefisien determinasi sedang, untuk indikator-indikator RSBR7 (65%), RGLYK (35%) dan R_UAN (68%), mempunyai koefisien determinasi lemah. 2. Indeks Moran, menunjukkan otokorelasi spasial untuk kelima variabel tersebut mendekati +1, artinya nilai pengamatan similar cenderung mengelompok dalam suatu peta, dimana otokorelasi spasial bernilai positif. Grafik menunjukkan indikator-indikator RSRB, RSB, RSBR7, RSRB, dan RGLYK ada di kuadran III, nilai koefisien kemiringan rho positif. Artinya rasio RSRB (0,31), RSB (0,34), RSBR7 (0,25), RSRB (0,37), RGLY (0,28), secara kewilayahan mempunyai tingkat autokorelasi spasial positif. Hal ini menunjukkan banyak pengamatan dominan pada nilai-nilai rendah ( y − y ) berhubungan dengan nilai rendah W( y − y) . 3. Prediksi mutu pendidikan di provinsi Banten, dapat diperoleh dengan menggunakan persamaan Taksiran MUTU = 25.45 - 0.01 RSRBL + 11.61 RSB + 0.85 RSB7 - 12.35 RSRB - 0.44 RSGLY + 0.44 DRSRBL - 16.00 DRSB - 23.08 DRSBR7 -3.87 DRSRB + 2.36 DRSGLYK 4. Pola data aktual hampir mirip dengan pola model prediksi model ekspansi SAR. Artinya
secara garis besar model ekspansi SAR cocok untuk digunakan dalam menganalisis indikator-indikator mutu pendidikan pada jenjang Sekolah Dasar di provinsi Banten. 5. Mutu sekolah yang berada di kecamatan-kecamatan yang berlokasi di wilayah Utara Provinsi Banten, relatif lebih baik dibanding lokasi lainnya, sedangkan sekolah yang berada di kecamatan-kecamatan wilayah Banten Selatan mutu pendidikannya relatif rendah. 6. Untuk meningkatkan mutu indikator RSB, RSBR7, dan RSRB, pembinaan sebaiknya dimulai dari sekolah-sekolah yang berada di kecamatan-kecamatan yang lokasinya jauh dari pusat pemerintahan. Sedangkan untuk meningkatkan mutu indikator RSTRB, dan RSGL , pembinaan sebaiknya dimulai dari sekolah-sekolah yang berada di kecamatan-kecamatan yang dekat dengan pusat pemerintahan. 5. Saran Perlu pengembangan lebih lanjut dari sisi model spasial dalam spasial data mining, aplikasi, dan pemutakhiran data. Karena model Ekspansi SAR hanya dapat digunakan untuk prediksi mutu pendidikan di lokasi-lokasi yang tersampel, maka diperlukan model untuk dapat memprediksi di lokasi-lokasi yang tidak tersampel, salah satunya menggunakan model SARKriging.
82
Atje Setiawan Abdullah
Ucapan Terimakasih Penulis mengucapkan terima kasih kepada Prof. Drs. Subanar, Ph.D, Drs. Retantyo Wardhoyo, M.Sc, Ph.D, Dra. Sri Hartati, M.Sc, Ph.D, Drs. Agus Harjoko, M.Sc, Ph.D yang telah memberi dukungan terhadap penelitian ini.
Daftar Pustaka [1] Abdullah, A. S. 2009. Implementasi Spasial Data Mining menggunakan Model Spatial Autoregressive-Kriging (SAR-Kriging). Disertasi tidak dipublikasikan. Program Doktor Ilmu Komputer, PPs UGM. Yogyakarta. [2] Anselin, L. 1988, Spatial Econometrics: Method and Models,London: Kluwer Academic publisher.. [3] Balitbang Depdiknas. 2003. Survei Dasar Pendidikan Nasional Tahun 2003. Jakarta. [4] Giannotti Fosca, Pedreschi, 2008, Mobility, Data mining and privacy, Geographic Knowledge Discovery, Springer-VerlagBerlinHeidelberg. [5] Giudici, P. 2003. Applied Data Mining Statistical Methods for Business and Industry. England: John Wiley & Sons Ltd. [6] Han, J. and Kamber, M. 2006. Data Mining, Concept and Techniques. Academic Press, USA. [7] Koperski, K., Han, J., and Adhikary, J. 1997. Spatial Data Mining: Progress and Challenges. School of CS, Canada. [8] LeSage P. J. 1999. The Theory and Practice of SpatialEconometrics. Department of Economics, University Toledo. [9] Lu, Z., Xinqi, Z., and Shuqing, W. 2008. Design and Implementation of Spatial Data Mining System (M-SDM) based on MATLAB. Journal of Computer. Vol. 3. No. 10. China University of Geosciences, Beijing. [10] Michael, J.A. Berry,Gordon S. Linoff, 2000, Mastering Data Mining the Art and Science of Customer Relationship Management”, John Wiley & Soon, Inc. [11] Nababan, H., 2003, Indikator Mutu Pendidikan di Lingkungan Pendidikan. Balitbang Depdiknas, Jakarta. [12] Olson, D., dan Shi, Y., 2007, Introduction to Business Data Mining, McGraw-Hill International Edition, Singapore. [13] Soukup, T. and Davidson, I. 2002, Visual Data Mining, Techniques and Tools for Data Visualization and Minning. John Willey & Sons, Inc., Canada.