Perangkat lunak: Sistem operasi: Windows XP Home Edition, WEKA versi 3.5.7, ArcView GIS 3.3, Map Server For Windows (ms4w) 2.3.1 Chameleon 2.4.1 Perangkat keras: Prosessor intel Pentium 4 ~2GHz Memory 2 GB RAM Monitor dengan resolusi 1024×768 Mouse dan keyboard HASIL DAN PEMBAHASAN Praproses Data Data awal penelitian ini diperoleh dari hasil operasi OLAP. Data ini merupakan data titik panas untuk wilayah Indonesia pada tingkat pulau, provinsi dan kabupaten dalam tahun, quarter dan bulan periode 2000 hingga 2004. Tahap pengambilan data yaitu dengan menggunakan modul php sederhana. Data yang didapat dari operasi OLAP disimpan dalam format txt dengan ukuran 349kb. Data ini mempunyai 15895 record dan mempunyai dua atribut yaitu nama wilayah (pulau/ provinsi/ kabupaten) [spasi] waktu (tahun/quarter/bulan) dan jumlah titik panas. Atribut yang digunakan pada tahap clustering yaitu atribut jumlah titik panas karena atribut ini merupakan atribut numerik, karena clutering hanya bisa dilakukan pada atribut numerik. Atribut ini nantinya akan dikelompokan kedalam 9 kelompok yang kemudian akan diolah untuk keperluan clustering dengan menggunakan WEKA. Tahapan praproses yang dilakukan antara lain: Pengelompokan data. Data yang didapat dalam file txt tadi dikelompokan berdasarkan jangkauan wilayah dan waktunya. Pengelompokan dilakukan dengan algoritme php sederhana. Hasil dari pemisahan ini menghasilkan 9 file txt. Masing-masing file mempunyai tingkatan berbeda. Hasil dari pemisahan ini yaitu: o Tingkat Pulau dalam Tahun o Tingkat Pulau dalam Quarter o Tingkat Pulau dalam Bulan o Tingkat Provinsi dalam Tahun o Tingkat Provinsi dalam Quarter o Tingkat Provinsi dalam Bulan o Tingkat Kabupaten dalam Tahun o Tingkat Kabupaten dalam Quarter
o
Tingkat Kabupaten dalam Bulan. Pembersihan data dilakukan pada file dbf, yaitu penghilangan atribut-atribut yang tidak dipergunakan dan penyesuaian nama-nama wilayah pada file dbf agar sama dengan nama wilayah pada hasil operasi OLAP. Transformasi data. Data hasil pengelompokan diubah menjadi format ARFF agar dapat diproses dalam perangkat lunak WEKA. Atribut yang dipergunakan dalam clustering adalah atribut jumlah titik panas yang bertipe numerik karena algoritme K-means bekerja secara baik pada data dengan tipe numerik, sedangkan atribut keterangan wilayah dan waktu merupakan data yang bertipe kategorik dan hanya dipergunakan sebagai keterangan.
Clustering Tahap clustering dilakukan menggunakan algoritme K-Means yang dilakukan menggunakan WEKA versi 3.5.7. Data yang di-cluster-kan yaitu data jumlah titik panas. Percobaan dilakukan untuk ukuran cluster sebanyak 4 cluster dan dilakukan percobaan dengan random seed (s) 5, 10, 15, 20. Percobaan dilakukan pada sembilan kombinasi clustering, sembilan kombinasi tersebut mewakili tingkatan cakupan wilayah dan tingkatan cakupan waktu. Clustering dilakukan sebanyak jumlah kombinasi data berdasarkan cakupan wilayah dan waktu. Total percobaan clustering adalah 9 × 4 = 36 percobaan. Clustering tidak dilakukan berdasarkan tiap hasil operasi OLAP karena jika dilakukan clustering untuk tiap hasil operasi OLAP. Sebagai contoh, misalnya data pada tahun 2000 untuk wilayah A dilakukan clustering yang berbeda dengan data tahun 2001 untuk wilayah A, data hasil clustering kurang sesuai karena tidak ada patokan untuk cluster satu dan cluster lainnya, misal nilai besar untuk tahun 2000 termasuk kecil pada tahun 2001, padahal jika di lihat dari datanya, tahun 2000 memiliki jumlah titik panas yang lebih sedikit dari tahun 2001, namun karena data pembanding berbeda hasil dari clustering akan berbeda, sehingga diperlukan standar untuk semua clustering agar terdapat patokan nilai titik panas untuk suatu wilayah tergolong low, medium, high, atau very high. Hal ini diterapkan agar standar nilai kecil pada tahun misalnya 2000 dengan batas kecil pada tahun 2001 sama, hal ini juga bisa digunakan untuk
6
memantau perubahan titik panas dari waktu ke waktu. Hasil dari algoritme K-means adalah pusat cluster (means) untuk masing-masing cluster sesuai dengan ukuran clusternya. Pemilihan jumlah 4 cluster disesuaikan dengan banyaknya kelas yang di representasikan yaitu low, medium, high, dan very high. Pusat cluster yang dihasilkan dari clustering dengan k=4 dan random seed s=5 pada data tingkat provinsi dengan periode waktu bulan dapat dilihat pada Tabel 1. Pusat cluster untuk kombinasi lain dapat dilihat pada Lampiran 1. Tabel 1 Pusat cluster untuk k=4 dan s=5 Cluster
Pusat cluster
Cluster 0
13.1344
Cluster 1
431.0612
Cluster 2
1240
Cluster 3
3060.6
Persentase dan jumlah anggota masingmasing cluster untuk ukuran cluter k=4 dan s=5 pada tingkat provinsi dan periode waktu bulan disajikan dalam Tabel 2. Persentase dan jumlah anggota masing-masing cluster disajikan pada Lampiran 2. Tabel 2 Persentase dan jumlah anggota cluster untuk k=4 dan s=5 Cluster 0 1 2 3
Jumlah anggota 1131 49 15 5
Persentase(%) 94 4 1 0
Hasil dari tiap kombinasi wilayah dan waktu dengan kombinasi k (ukuran cluster) dan s (random seed) dievaluasi menggunakan total SSE (Sum of square error). Total SSE sudah mencukupi untuk evaluasi cluter menggunakan K-means karena meminimalkan SSE (cohesion) ekuivalen dengan memaksimalkan SSB (separation), (Tan P 2006). Pada nilai k yang sama dengan perbedaan nilai s, hasil clustering tidak menunjukkan perbedaan yang berarti. Pada Tabel 3 dapat dilihat bahwa nilai SSE rata-rata terbaik didapat pada saat penggunaan random seed 5.Perbedaan iterasi juga tidak terlalu berubah untuk nilai k yang sama. Hal ini dapat dilihat pada Tabel 4 yakni iterasi pada k=4. Karena nilai K-means menghitung error dengan mengambil jarak titik tengah dari nilai tiap anggota. Jadi ketika jumlah anggota sama dengan jumlah cluster, tiap cluster akan memiliki anggota yang nilainya sama dengan nilai titik tengah nya sehingga tidak ada nilai error. Semua clustering menggunakan jumlah cluster 4 sehingga didapat standar yang sama sebagai patokan untuk semua clustering. Pembagian cluster menjadi 4 cluster terdiri dari cluster 0 yang merupakan clustering dengan jumlah titik panas kecil, cluster 1 yang merupakan clustering dengan jumlah titik panas sedang, cluster 2 yang merupakan clustering dengan jumlah titik panas besar, cluster 3 yang merupakan clustering dengan jumlah titik panas sangat besar.
Evaluasi Cluster Tabel 3 Total SSE dengan k=4 dengan kombinasi random seed Bln-Kab Qtr-Kab Thn-Kab Bln-prov Qtr-prov Thn-prov Bln-plu Qtr-plu Thn-plu Rata-rata
S=5 0.5527 0.4260 0.3276 0.2979 0.2755 0.3238 0.2755 0.1369 0.0339 0.294422
S=10 0.5527 0.4260 0.3276 0.2979 0.2755 0.3238 0.2755 0.1369 0.0339 0.294422
S=15 0.5527 0.4260 0.3276 0.2979 0.2755 0.3238 0.2755 0.1369 0.2462 0.318011
S=20 0.5527 0.4260 0.3276 0.2979 0.2755 0.3238 0.2755 0.1369 0.2462 0.318011
7
Tabel 4 Jumlah iterasi dengan k=4 random seed Bln-Kab Qtr-Kab Thn-Kab Bln-prov Qtr-prov Thn-prov Bln-plu Qtr-plu Thn-plu Rata-rata
S=5
S=10
S=15
S=20
25 22 21 20 17 5 14 15 8 16.33
26 22 21 20 17 7 18 14 2 16.33
26 21 21 19 17 9 18 13 6 16.33
24 19 22 20 13 7 18 16 4 15.88
Visualisasi Clustering Hasil clustering dari data persebaran titik panas divisualisasikan agar mempermudah analisis. Untuk keperluan tersebut maka dibuatlah aplikasi dalam bentuk sistem informasi geografis (SIG) berbasis web. Aplikasi yang dikembangkan ini menggunakan metode dan modul-modul yang sebelumnya telah dikembangkan oleh Harianja (2008). Aplikasi ini memplotkan hasil clustering dengan melibatkan aspek spatialya dan menampilkan nilai titik tengah tiap cluster dan detail nilai atributnya Aplikasi visualisasi ini diintegrasikan pada aplikasi OLAP yang sebelumnya telah dikembangkan oleh Hayardisi (2008). Aplikasi ini dikembangkan menggunakan Mapserver sebagai web servernya, map file sebagai konfigurasi, Chameleon sebagai framework, modul php dan html file sebagai template. Pada penelitian ini modul-modul dan file-file yang dipakai tersebut sebelumnya dibuat dengan modul php, namun pengaturan dan formatnya sama dengan modul dan filefile yang telah dikembangkan oleh Harianja (2008), namun karena modul visualisasi yang akan dikembangkan ingin bersifat dinamis maka beberapa file-file yang dipakai dibuat pada saat dibutuhkan. Map file menyimpan konfigurasi dari aplikasi yang dibutuhkan oleh Mapserver. Konfigurasi ini meliputi informasi mengenai ukuran peta, warna peta, path dari file shp dan dbf, huruf yang digunakan, dan lain-lain. File html digunakan untuk menyimpan template yang dipergunakan. Template ini berisi komponen-komponen yang akan dipakai untuk keperluan visualisasi. Komponenkomponen tersebut telah disediakan oleh
Chameleon. Komponen yang dipergunakan antara lain mapDHTML, KeyMap, ZoomIn, ZoomOut, PanMap, Recenter, ZoomAllLayers, Extent, Query. Modul php adalah modul untuk melihat detail data setiap ukuran cluster. Penambahan pengaturan yang dilakukan yaitu pada map file. Pada map file ditambahkan class untuk menutup daerah yang tidak ingin divisualisasikan. Data yang dipakai untuk keperluan visualisasi disimpan dalam file .dbf. Data ini berisi hasil operasi OLAP yang telah dicluster-kan. Hasil dari data yang diolah ini adalah peta yang memplotkan suatu daerah dalam wilayah dan periode tertentu, serta label cluster-nya. Proses pemasukan nilai cluster pada file dbf dilakukan dengan menggunakan spreadsheet. Pada halaman visualisasi diplotkan dengan warna yang berbeda untuk tiap cluster. Komponen lain yang terdapat pada halaman visualisasi antara lain legend. Komponen legend memberi keterangan tentang warna untuk tiap cluster. Dalam halaman ini juga terdapat komponen scalebar, dan navigation tools yang terdiri dari zoom in, zoom out, recenter, pan, map unit, left extent (batas kiri), right extent(batas kanan), top extent (batas atas), dan bottom extent (batas bawah) dari map . Mouse x dan mouse y menyatakan letak pointer pada map. Semua komponen ini juga telah tersedia pada aplikasi yang sebelumnya (Harianja, 2008) untuk lebih jelasnya tampilan aplikasi yang telah dikembangkan (Harianja 2008) dapat dilihat pada Gambar 4.
Gambar 4 halaman web aplikasi clustering Integrasi OLAP dan SIG Integrasi dilakukan dengan memodifikasi modul utama aplikasi OLAP, yaitu untuk menghubungkan web server Apache dan WebServis. Modifikasi tersebut dilakukan pada modul olapCrosstab.php dan pada
8
index.php yaitu dengan menambahkan modul untuk pemilihan waktu dan wilayah. Pada modul pemilihan tahun dan wilayah, data kombinasi yang dipilih yaitu data dari semua periode waktu. Pemilihan waktu bisa dilakukan pada tingkat tahun, quarter, dan bulan. Setelah memilih tahun, kombinasi yang bisa dipilih adalah kombinasi wilayah. Batasan pemilihan wilayah yaitu dari tingkat pulau sampai pada tingkat kabupaten saja. Modul yang dibuat selanjutnya adalah modul untuk membuat file-file yang diperlukan oleh aplikasi visual clustering. File tersebut adalah file dalam bentuk file map dan file phtml. Setelah diperoleh data yang ingin ditampilkan, file-file tersebut ditulis, file-file tersebut kemudian dimuat ke dalam modul visualisasi untuk keperluan visualisasi. Pada pengintegrasian antara aplikasi OLAP dan SIG sebelumnya harus dilakukan pengaturan terlebih dahulu, yang meliputi penentuan file-file yang dibutuhkan (extension untuk library php nya) yang perlu ditambahkan dan dibutuhkan serta framework. Modul visualisasi dan modul OLAP merupakan dua modul yang terpisah. Modul visualisasi mengolah data di luar aplikasi OLAP. Data yang diolah merupakan data persebaran titik panas yang telah dilakukan clustering. Data tersebut disimpan dalam file dbf. Data ini kemudian di-load untuk keperluan visualisasi. Data yang disimpan ini berupa data titik panas dan keterangan
mengenai clusternya. Nilai cluster inilah yang digunakan sebagai pembeda pengelompokan warna antar tiap daerah. Selain nilai cluster, atribut yang diambil yaitu atribut wilayahnya. Fasilitas-fasilitas yang sebelumnya telah ada pada aplikasi OLAP (Hayardisi 2008) antara lain (dapat dilihat pada Gambar 5): Pengguna dapat memilih database, kubus data dan dimensi yang akan ditampilkan Visualisasi dalam bentuk crosstab dan grafik yang bisa berupa bar plit dan pie plot (dapat dilihat pada Gambar 6) Operasi OLAP seperti drill down dan roll up Filter dimensi untuk menyeleksi tampilan pada kolom (x-axis) dan baris (y-axis). Filter pada dimensi waktu meliputi quarter dan bulan Fasilitas yang ditambahkan pada aplikasi OLAP (dapat dililhat pada Gambar 7): Filter dimensi waktu dan wilayah untuk visualisasi. Clustering data persebaran titik panas dari operasi OLAP dengan batasan bulan dan kabupaten. Visualisasi dalam bentuk SIG yang dikembangkan dari aplikasi visual clustering (Harianja 2008), dapat dilihat pada Gambar 8. Detail data hasil clustering yang dikembangkan oleh Harianja (2008).
Gambar 5 Tampilan utama aplikasi OLAP
9
Gambar 6 Visualisasi grafik hasil operasi OLAP.
Gambar 7 Modul filter Visualisasi GIS.
10
Gambar 8 Visualisasi GIS hasil Clustering. Gambar 8 bagian kiri merupakan legend. Legend disini berfungsi untuk menampilkan layer-layer yang di load pada peta. Gambar di tengah merupakan visualisasi hasil clustering berupa peta. Bagian atas tengah merupakan judul atau keterangan mengenai lokasi dan waktu yang divisualisasikan (tampilan utama). Tampilan sebelah kanan merupakan keymap (peta kecil untuk mempermudah navigasi), zoom in, zoom out, recenter, pan , dan lainlain Bagian bawah dari gambar merupakan informasi dari hasil clustering. Pada bagian ini dijelaskan tiap cluster memiliki nilai tengah berapa, standar deviasinya berapa beserta jumlah hotspot/titik panas. Jadi untuk tiap cluster dapat dilihat berapa jumlah jangkauan titik panasnya. Presentasi Clustering
Persebaran
Hotspot
Hasil
Dari aplikasi OLAP diambil 9 kombinasi clustering pada wilayah Indonesia dari tahun 2000 sampai tahun 2004 dengan tingkat wilayah kabupaten, provinsi dan pulau.
Pada tingkat kabupaten dan bulan, diambil data titik panas untuk semua kabupaten di Indonesia pada bulan Januari 2000 sampai bulan desember 2004. Data ini kemudian di-cluster-kan. Sebagai contoh ketika ingin dilihat clustering untuk kabupaten pada provinsi Kalimantan tengah bulan Januari 2000, pertama-tama dipilih periode tahun 2000 dan bulan Januari, kemudian dipilih kabupaten-kabupaten pada provinsi Kalimantan tengah. Hasil clustering bisa dilihat pada Lampiran 3. Pada tingkat kabupaten dan quarter, diambil data titik panas untuk semua kabupaten di Indonesia pada quarter pertama 2000 sampai quarter ke empat tahun 2004. Data ini kemudian di-cluster-kan. Sebagai contoh ketika ingin dilihat clustering untuk kabupaten pada Kalimantan tengah pada quarter pertama tahun 2000, pertama-tama dipilih periode tahun yaitu tahun 2000 dan quarter 1, kemudian dipilih kabupatenkabupaten pada provinsi Kalimantan tengah. Hasil clustering bisa dilihat pada Lampiran 4. Pada tingkat kabupaten dan tahun, diambil data titik panas untuk semua kabupaten di Indonesia pada tahun 2000 11
sampai tahun 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk kabupaten pada Kalimantan tengah pada tahun 2000, pertamatama dipilih periode tahun yaitu tahun 2000, kemudian dipilih kabupaten-kabupaten pada provinsi Kalimantan tengah. Hasil clustering bisa dilihat pada Lampiran 5. Pada tingkat provinsi dan bulan, diambil data titik panas untuk semua provinsi di Indonesia pada bulan Januari 2000 sampai bulan desember 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk provinsi Kalimantan pada bulan Januari 2000, pertama dipilih periode tahun 2000 dan bulan Januari, kemudian dipilih provinsi Kalimantan. Hasil clustering bisa dilihat pada Lampiran 6. Pada tingkat provinsi dan quarter, diambil data titik panas untuk semua provinsi di Indonesia pada quarter pertama 2000 sampai quarter ke-empat 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk provinsi Kalimantan pada quarter pertama 2000, pertama-tama dipilih periode tahun 2000 dan quarter 1, kemudian dipilih provinsi Kalimantan. Hasil clustering bisa dilihat pada Lampiran 7. Pada tingkat provinsi dan tahun, diambil data titik panas untuk semua provinsi di Indonesia pada tahun 2000 sampai tahun 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk provinsi Kalimantan pada tahun 2000, pertama-tama dipilih periode tahun 2000, kemudian dipilih provinsi Kalimantan. Hasil clustering bisa dilihat pada Lampiran 8. Pada tingkat pulau dan bulan, diambil data titik panas untuk semua pulau di Indonesia pada bulan Januari 2000 sampai bulan desember 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk pulau di Indonesia bulan Januari 2000, pertama-tama dipilih periode tahun 2000 dan bulan Januari, kemudian dipilih All Indonesia. Hasil clustering bisa dilihat pada Lampiran 9. Pada tingkat pulau dan quarter, diambil data titik panas untuk semua pulau di Indonesia pada quarter pertama tahun 2000 sampai quarter ke-empat 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk pulau di Indonesia quarter pertama tahun
2000, pertama dipilih periode tahun 2000 dan quarter 1, kemudian dipilih All Indonesia. Hasil clustering bisa dilihat pada Lampiran 10. Pada tingkat pulau dan tahun, diambil data titik panas untuk semua pulau di Indonesia dari tahun 2000 sampai tahun 2004. Data ini kemudian dilakukan clustering. Sebagai contoh ketika ingin dilihat clustering untuk pulau di Indonesia tahun 2000, pertamatama dipilih periode tahun 2000, kemudian dipilih All Indonesia. Hasil clustering bisa dilihat pada Lampiran 11
KESIMPULAN DAN SARAN Kesimpulan Proses clustering yang dilakukan pada penelitian ini menggunakan algoritme KMeans data persebaran titik panas dari hasil operasi OLAP. Hasil clustering ini kemudian diplotkan dengan melibatkan aspek spatialnya untuk membantu keperluan visualisasi dalam bentuk Sistem Informasi Geografis (SIG) berbasis web. Clustering dilakukan dengan ukuran cluster 4 dan random seed 5, 10, 15, 20. Clustering dilakukan dengan ukuran cluster 4 dan random seed 5 karena pada ukuran ini didapat range dan nilai SSE yang cukup baik. Dari visualisasi terlihat bahwa clustering jumlah titik panas untuk pulau Kalimantan dan Sumatera sama kecuali pada tahun 2000, di mana pulau Sumatera tergolong dalam cluster 3, sementara pulau Kalimantan pada cluster 1. Untuk pulau Jawa dan Sulawesi juga mempunyai kesamaan clustering kecuali pada tahun 2004, di mana pulau Sulawesi tergolong cluster 1 sementara pulau jawa tergolong cluster 0. Jumlah titik panas terbesar terdapat pada tahun 2004. Dari penelitian dapat dilihat juga bahwa dari periode tahun 2000 sampai 2004, pulau Jawa tergolong pada cluster 0. Dari visualisasi bisa diketahui bahwa pulau Sumatera dan Kalimantan memiliki jumlah titik panas yang besar, sehingga dapat dilakukan langkah-langkah pencegahan atau penanganan. Saran Modul tambahan pada aplikasi OLAP ini masih memiliki beberapa kekurangan. Saran untuk penelitian lebih lanjut adalah :
12