MODUL 4 SPATIAL DATA MINING Pengantar Data mining juga popular disebut dengan knowledge discovery from data (KDD)merupakan ekstrasi otomatis dari pola-‐pola mewakili pengetahuan implisit yang disimpan dan tertangkap dalam suatu basis data besar, gudang data, web, data stream atau repository informasi masif yang lain. Data mining merupakan bidang multidisiplin yang melibatkan berbagai area kerja seperti teknologi basis data, mesin pembelajaran, statistic, pengenalan pola, pencarian informasi, jaringan saraf, sistem berbasis pengetahuan, kecerdasan buatan, komputasi berkinerja tinggi dan visualisasi data. Tahapan Data Mining Langkah-‐langkah yang terlibat dalam data mining bila dilihat sebagai proses penemuan pengetahuan adalah sebagai berikut : •
Pembersihan data, yaitu suatu proses untuk menghilangkan atau mengubah data yang rusak dan data yang tidak konsisten
•
Integrasi data, yaitu tahap dimana beberapa sumber data dapat dikombinasikan
•
Seleksi data, yaitu tahap dimana memilih data yang relevan dengan tugas analisis yang diambil dari basis data
•
Transformasi data, merupakan suatu tahap dimana data diubah atau dikonsolidasikan ke dalam bentuk yang sesuai untuk mining
•
Data mining, merupakan proses penting dimana metode yang cerdas dan efisien diterapkan untuk mengekstrak pola
•
Evaluasi pola, merupakan tahap dimana dilakukan suatu proses untuk mengidentifikas pola yang benar-‐benar menarik untuk mewakili pengetahuan berdasarkan beberapa kriteria dan tindakan ketertarikan. Modul 4 Basis Data Spasial 1
•
Presentasi pengetahuan, dimana visualisasi dan teknik representasi pengetahuan digunakan untuk menyajikan pengetahuan yang telah ditambang kepada pengguna.
Seperti yang telah disampaikan pada pertemuan sebelumnya, bahwa manfaat data mining dalam kebutuhan bisnis adalah sebagai berikut : Suatu toserba dapat menggunakan data mining untuk membantu kampanye pemasaran target. MDengan menggunakan fungsi data mining seperti asosiasi, toko dapat menggunakan aturan asosiasi untuk menentukan produk yang dibeli oleh suatu kelompok pelanggan yang mungkin akan mengarahkan kepada pembelian produk tertentu lainnya. Dengan infromasi ini, toko bisa mengirimkan materi pemasaran hanya untuk tipe pelanggan tersebut yang menunjukkan kemungkinan besar untuk membeli produk tambahan. Analisis statistic sederhana tidak dapat menangani sejumlah besar data seperti data pelanggan di suatu department store. Fungsi Data Mining Data mining memiliki beberapa fungsi sebagai berikut : •
Characterization, merupakan ringkasan dari karakteristik umum atau fitur dari kelas target data. Misalnya saja profil dari semua mahasiswa ITech tahun pertama yang memiliki IPK tinggi.
•
Discrimination, merupakan perbandingan fitur umum dari sasaran obyek kelas data dengan fitur umum dari satu atau sekumpulan kelas yang berlawanan. Misalnya, fitur umum dari mahasiswa dengan IPK tinggi bisa dibandingkan dengan fitur umum dari mahasiswa dengan IPK yang rendah.
•
Association, merupakan penemuan aturan sosiasi yang menampilkan kondisi nilai atribut yang sering terjadi bersama-‐sama dalam satu set data. Misalnya suatu sistem data mining menemukan aturan asosiasi seperti 𝑚𝑎𝑗𝑜𝑟 (𝑋,teknik informatika)⇒ memiliki (X, 𝑘𝑜𝑚𝑝𝑢𝑡𝑒𝑟𝑝𝑟𝑖𝑏𝑎𝑑𝑖") [𝑠𝑢𝑝𝑝𝑜𝑟𝑡 = 12%, 𝑐𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 = 98%
2
Modul 4 Basis Data Spasial
Dimana X merupakan variable yang mewakili mahasiswa. Aturan mengindikasikan bahwa mahasiswa yang masih kuliah, 12 %(support) di Teknik Informatika dan memiliki computer pribadi. Terdapat probabilitas 98% (confidence, atau kepastian) bahwa mahasiswa dalam grup ini memiliki computer pribadi. •
Classification, membangun suatu set model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep. Klasifikasi digunakan untuk memprediksi label kelas dari obyek data.
•
Clustering, menganalisis obyek data tanpa berhubungan dengan label kelas yang diketahui. Obyek-‐obyek dikelonpokkan berdasarkan prinsipmemaksimalkan
kesamaan
intraclass
dan
meminimalkan
kesamaan interclass. Setiap cluster yang terbentuk dapat dilihat sebagai kelas obyek. Clustering juga dapat memfasilitasi pembentukan taksonomi, yaitu pengamatan organisasi ke dalam hierarki kelas ke dalam kelompok yang serupa. •
Data evolution analysis, mendeskripsikan evolusi dan keteraturan model atau kecenderungan untuk obyek yang perilakunya berubah seiring waktu,
meskipun
mungkin
termasuk
dalam
characterization,
discrimination, association, classification, atau clustering data yang berhubungan dengan waktu. Fitur yang berbeda dari analisis tersebut meliputi analisis data berdasarkan waktu, urutan atau pencocokan pola secara periodic, dan kesamaan berbasis analisis data. Konsep Data Mining Spasial Data mining spasial adalah penerapan metode data mining untuk data spasia. Data mining spasial memiliki fungsi yang sama dengan data mining dalam basis data relasional, namun memiliki tujuan akhir untuk menemukan suatu pola dalam geografi. Bisa dikatakan bahwa Data Mining Spasial meruupakan proses untuk menemukan pola non trivia yang menarik dan berguna dari data set spasial yang besar. Modul 4 Basis Data Spasial 3
Komponen dari Data Mining , sebagai berikut : •
Input, merupakan tabel dengan beberapa kolom yang merupakan domain o Data, terdiri atribut spasial dan non spasial o Hubungan antara data, bisa secara spasial dan non spasial. Hubungan data non spasial, misalnya secara ranking, aritmetik dan biasanya eksplisit. Hubungan data spasial biasanya implisit, dan berdasarkan beberapa kategori seperti set-‐oriented (union, intersection, membership, dan sebagainya), topological (meet, within, overlap,dsb), directional (left, above, behind, North, dsb). Metric (jarak, arah, perimeter,dsb), dinamis (update, create, dsb), serta berdasarkan bentuk dan visibilitas.
•
Dasar Statistik
•
Output, merupakan ukuran ketertarikan dan pola
•
Proses komputasi, merupakan algoritma yang digunakan
Menurut Kriegel, perbedaan utama antara data mining dalam basis data relasional dengan data mining dalam basis data spasial adalah bahwa atribut dari beberapa objek yang menarik dari tetangga mungkin memiliki pengaruh pada obhek dank arena itu harus dipertimbangkan juga. Lokasi yang eksplisit dan perluasan objek spasial juga mendefinisikan hubungan implisit dari lingkungan spasial, seperti topologi, hubungan jarak dan arah yang digunakan oleh algortima data mining spasial. Oleh karena itu,, teknik baru sangat diperlukan untuk data mining yang efektif dan efisien. Sebagai contoh, suatu tanaman industri baru dapat mencemari lingkungan yang tergantung pada jarak dan arah utama angina. Perhatikan Gambar 1. Gambar tersebut memperlihatkan peta yang digunakan dalam penilaian lokasi yang mungkin dapat digunakan untuk industry tanaman baru.. Peta menunjukkan tiga daerah dengan derajat yang berbeda polusi (ditandai dengan warna yang berbeda) yang disebabkab oleh industri tanaman yang direncanakan. Selain itu, gambar tersebut juga menunjukkan obyek lain yang dipengaruhi, seperti masyarakat dan hutan. 4
Modul 4 Basis Data Spasial
Dalam ruang spasial terdapat tiga hubungan biner, yaitu topologi, jarah dan hubungan arah. Objyek spasial dapat berupa titik (point) atau obyek spasial yang diperpanjang, seperti garis, polygon atau polyhedron. Obyek spasial yang diperpanjang dapat diwakili oleh satu set point pada permukaannya. Sebagai contoh oleh titik yang terkandung dalam obyek, seperti piksel dari suatu obyek dalam citra raster (representasi raster). Oleh karena itu, kita dapat menggunakan set titik sebagai representasi generic spasial obyek. Hubungan topologi (topological relations) adalah hubungan yang invariant dalam transformasi topologi, yaitu jika kedua obyek diputar (dirotasikan), diterjemahkan, atau ditingkatkan secara bersamaan. Perhatikan ilustrasi berikut. Suatu hubungan topologi antara dua obyek A dan B, berasal dari Sembilan persimpangan dari batas-‐batas dalan melengkapi satu sama lain. Hubungan tersebut adalah : A disjoint B, A meets B, A overlap B, A equals B, A covers B, A covers B, A covered by B, A contains B, A inside B, dan sebagainya Hubungan jarak (distance relations) adalah hubungan yang membandingkan jarak duaobyek secara konstan dengan menggunakan salah satu operator aritmatika. Sebagai contoh, jika dist adalah fungsi jarak, dan σ menjadi salah satu predikat aritmatika <,> atau = , jika c merupakan bilangan real serta A dan B merupakan obyek spasial : A,B ∈ 2 titik. Maka hubungan jarak A distance σ c B ,holds iff dist (A,B) σ c. Untuk definisi arah,perhatikan ilustrasi berikut : Jika rep (A) menjadi wakil dari obyek A, maka B northeast A terjadi, iff ∀ b ∈B: bx ≥ 𝑟𝑒𝑝 𝐴
! ∧ 𝑏! ≥
𝑟𝑒𝑝 (𝐴)!
Dimana southeast, southwest dan northwest didefinisikan secara analog Beberapa Fungsi Data Mining Spasial Clustering adalah tugas pengelompokan obyek-‐obyek basis data ke dalam sub class bermakna yaitu cluster, sehingga anggota cluster yang sama menjadi Modul 4 Basis Data Spasial 5
semirip mungkin, sedangkan anggota kelompok yang berbeda cluster, memiliki perbedaan sebanyak mungkin. Aplikasi pengelompokkan atau clustering dalan basis data spasial misalnya deteksi kesalahan seismic oleh grup. Ilustrasi ini menggunakan dua filter predikat yang berbeda dalam entri suatu katalog gempa atau menciptakan peta tematik di sistem informasi geografis dengan mengelompokkan fitur. Characterizing merupakan tugas untuk menemukan dekripsi yang ringkas untuk subses yang dipilih (target yang ditetapkan) dari basis data. Suatu karakterisasi spasial adalah deskripsi dari sifat spasial dan non spasial yang khas untuk obyek sasaran tetapi tidak untuk seluruh basis data. Frekuensi related dari nilai atribut non-‐spasial dari jenis obyek berbeda digunakan sebagai sifat yang menarik. Misalnya jenis obyek berbeda dalam basis data geografis adalah masyarakat, gining, danau, jalan raya, rel kereta api, dan sebagainya. Untuk mendapatkan karakterisasi spasial, tidak hanya property dari obyek target yang dinilai, tetapi juga sifat-‐sifat tetangga mereka (sampai jumlah maksimum edge yang diberikan dalam grafik lingkungan relevan) juga dianggap. Deteksi tren spasial merupakan perubahan biasa dari satu atau lebih atribut non-‐spasial ketika bergerak menjauh dari yang diberikan pada objek o. Lingkungan jalur mulai dari o digunakan untuk model gerakan dan analisis regeresi dilakukan pada nilai atribut masing-‐masing untuk objek dari jalan tetangga untuk menggambarkan keteraturan perubahan. Untuk regresi, jarak dari o adalah variable independen dan perbedaan dari nilai atribut merupakan variable dependen untuk regresi. Korelasi nilai atribut yang diamati dengan nilai-‐nilai diprediksi oleh regresi fungsi menghasilkan ukuran kepercayaan untuk menemukan tren. Contoh Penggunaan Data Mining Spasial Beberapa organisasi di USA yang menggunakan data mining spasial antara lain : •
NASA Earth Observing System (EOS) : digunakan untuk menambang data ilmu bumi
6
Modul 4 Basis Data Spasial
•
US National Intitute of Justice : digunakan untuk memetakan criminal
•
US Census Bureau, Departement of Commerce : digunakan untuk mensensus data
•
US Departement of Transportation (DOT) : digunakan untuk menambah data lalu lintas.
•
US National Institute of Health (NIH) : digunakan untuk mengelompokkan penyebaran kanker.
Tantangan dalam Data Mining Spasial Miller dan Han (2001) menyampaikan beberapa tantangan yang dihadapi sekaligus kebutuhan dalam penelitian dan pengembangan Data Mining Spasial yaitu : •
Mengembangkan dan mendukung gudang data geografis (Geographic Data Warehouse); sifat spasial biasanya sering direduksi menjadi atribut non spasial sederhana dalam gudang data utama. Membuat gudang data terpadu
membutuhkan
solusi
dalam
pemecahan
masalah
interoperabilitas data spasial dan temporal, termasuk perbedaan semantic, sistem referensi, geometri, akurasi dan posisi. •
Representasi spatio-‐temporal yang lebih baik dalam penemuan pengetahuan geografis; metode penemuan pengetahuan geografis saat ini umumnya menggunakan representasi obyek geografis dan hubungan spasial yang sangat sederhana. Metode data mining geografis harus mengenali obyek geografis yang lebih kompleks (seperti garis dan polygon) dan hubungan (jarak non-‐Euclidean, arah, konektivitas dan interaksi yang dibentuk ruang geografis seperti daerah).Waktu juga harus lebih terintegrasi ke dalam hubungan dan representasi geografis.
•
Penemuan pengetahuan geografis menggunakan beragam jenis fata; metode penemuan pengetahuan geografis harus dikembangkan untuk dapat menangani beragam jenis data di luar model raster dan vector tradisional, termasuk citra, multimedia berbasis geografis, serta data tipe dinamis (seperti animasi dan video stream).
Modul 4 Basis Data Spasial 7
Referensi : Ester, Martin, Hans-‐Peter Kriegel and Jorg Sander. 1999. Knowledge Discovery in Spatial Databases. Paper at German Conferences on Artificial Intelligence. Germany. Miller, H. and Han, J., (eds.), 2001, Geographic Data Mining and Knowledge Discovery, (London: Taylor & Francis)
8
Modul 4 Basis Data Spasial