DATA MINING: TREN ANALISA DATA BERSKALA BESAR TERKAIT PENELITIAN EKOLOGI (Yuli Sudriani – Puslit Limnologi LIPI)
[email protected] Teknologi informasi yang berkembang menciptakan sekumpulan data dan informasi yang semakin besar. Hal ini merupakan dampak dari peningkatan kebutuhan teknologi terhadap data, media penyimpanan, penggunaan database, penggunaan otomatisasi data via sensor, penelitian terkait sistem monitoring dan aplikasi mobile atau smartphone. Untuk menganalisa data dan membuat suatu pola dari data yang ada, maka data harus disusun, ditransformasi, diproses,dan dianalisa. Data mining atau eksplorasi data yang dikenal dengan nama Knowledge Discovery Database (KDD) adalah suatu proses komputasi di dalam aplikasi dengan menggunakan algoritma tertentu untuk menemukan, mengekstraksi polapola dan informasi dari sekumpulan data yang ada. Semakin besar data yang disimpan maka semakin kaya hasil ekstraksi data yang didapat, sehingga semakin banyak pembuktian hipotesis yang dihasilkan. Melalui data mining dapat dilakukan ekstraksi pengetahuan dan analisa data untuk menemukan hubungan tiap data, struktur data, pola, dan regularities. Teknik metode statistik banyak dipakai sebagai alat utama menganalisa data untuk mengidentifikasi hubungan sebab akibat. Teknik data mining memberikan hasil yang lebih daripada sebab akibat karena kemampuannya dalam menemukan, menganalisa pola dan hubungan dari data-data penelitian yang ada. Data mining dan analisa statistik konvensional memiliki perbedaan tujuan. Metode statistik klasik memiliki fokus utama yaitu memverifikasi hipotesis yang dibuat, sedangkan fokus utama metode data mining yaitu mencari secara menyeluruh hubungan antar data untuk semua kemungkinan hipotesis termasuk hipotesis yang belum diketahui atau belum dibuat. Data mining juga memiliki kelebihan dalam mengurangi data-data noise pada sekumpulan data yang besar. Melalui data mining dapat dilakukan ekplorasi data secara menyeluruh. Proses eksplorasi dilakukan untuk mencari informasi dari data termasuk di dalamnya menjangkau sekumpulan massive data dengan efektif dan efisien. Informasi dari data tersebut akan disimpan, diakses atau digunakan kembali tanpa melalui proses sebelumnya, sehingga memudahkan dalam menemukan interaksi dari data yang ada untuk dimodelkan dan diinterpretasi (Hampton et al. 2013). Data mining menggunakan suatu metode algoritma untuk menganalisa data. Terdapat 10 algoritma eksplorasi data yang paling populer dan teratas berdasarkan The IEEE International Conference on Data Mining series (ICDM) 2006 yaitu C4.5, K-Means, Super Vector Machine (SVM), Apriori, EM, pageRank, AdaBoost, k-Nearest Neighbour (kNN), CSR, dan Naive Bayes. Pengolahan data yang dapat dieksplorasi yaitu Data mining, Text mining, Web Mining, Image Mining, Mining of picture, Mining of time series data, dan Spatial Data Mining
(SDM). Pada Gambar 1, diperlihatkan peningkatan penggunaan teknik data mining di berbagai bidang yang cenderung mengalami peningkatan. Persentase Penguna Data Mining 12 10 8 6
persentase
4 2 0 1985 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011
Gambar 1. Perkembangan penggunaan data mining di dalam berbagai bidang penelitian dari tahun 1993-2012 ( Paulheim et al. 2015 ) Teknik data mining Ada dua tahap dari teknik data mining yaitu pre processing tasks (ekstraksi data, pembersihan data, data fusion, pengurangan data, dan melakukan konstruksi data) dan post processing tasks (sekumpulan pola dan menterjemahkan pola, penemuan hipotesa, dan uji hipotesa). Proses ini dilakukan secara perulangan ( iterasi ) dalam suatu algoritma perhitungan komputerisasi. Data mining mempunyai lima fungsi yaitu ( Gibert et al. 2008 ): a. Classification, yaitu menyimpulkan definisi-definisi karakteristik sebuah grup b. Clustering, yaitu mengindentifikasi kelompok-kelompok dari data–datayang mempunyai karakteristik khusus (clustering berbeda dengan classification, dimana pada clustering tidak terdapat definisi-definisi karakteristik awal yang diberikan pada waktu classification) c. Association, yaitu mengidentifikasi hubungan antara kejadian-kejadian yang terjadi pada suatu waktu d. Sequencing, hampir sama dengan association, sequencing mengidentifikasi hubungan-hubungan yang berbeda pada suatu periode waktu tertentu e. Forecasting, yaitu memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola unik yang ada. Proses dari data mining (Gambar 2) adalah sebagai berikut ( Gibert et al. 2008 ):
a. Data Cleansing, adalah sebuah fase dimana data-data tidak lengkap, memiliki error dan tidak konsisten akan dibuang dari koleksi data, sehingga data yang telah bersih dapat digunakan untuk diproses ulang untuk penggalian pengetahuan (Discovery Knowledge) b. Data Integration, pada tahap ini terjadi integrasi data,dimana sumbersumber data yang berulang (multiple data), file-file yang berulang (multiple file), dapat dikombinasikan dan digabungkan kedalam suatu sumber. c. Data Selection, pada tahap ini, data yang relevan terhadap analisis dapat dipilih dan diterima dari koleksi data yang ada. d. Data Transformation atau data consolidation. Pada tahap ini, data-data yang telah terpilih ditransformasikan kedalam bentuk-bentuk yang cocok untuk prosedur penggalian dengan cara melakukan normalisasi dan agregasi data. e. Data Mining, tahap ini untuk mengekstrak pola-pola data yang berguna. f. Pattern Evaluation, pola-pola unik yang mempresentasikan pengetahuan dari data akan diproses. g. Knowledge Representation, merupakan tahap terakhir dimana pengetahuan yang telah ditemukan ditampilkan kepada pengguna secara visual.Tahap penting ini menggunakan teknik visualisasi untuk membantu pengguna dalam mengerti dan menginterpresentasikan hasil dari data mining.
Gambar 2. Proses data mining ( Fayyad et al. 1996 ) Metode digunakan di banyak bidang, salah satunya adalah penelitian ekologi. Tiga kelebihan dari data mining dalam eksplorasi data pada penelitian ekologi yaitu menghasilkan prediksi, mengidentifikasi variabel penting dalam memprediksi, dan menemukan susunan hubungan antara prediksi dan respon yang terjadi. Hasil prediksi yang akurat merupakan salah satu tujuan
utama dari data mining. Tabel 1 memperlihatkan contoh implementasi data mining dalam bidang Ekologi. Tabel 1. Contoh implementasi data mining dalam bidang Ekologi No Aplikasi 1. Pemodelan Pertumbuhan Alga di Laguna Venice, Italia ( Jorgensen et al. 2008 ) 2. Pemodelan Pertumbuhan cyanobacteria di waduk Grahamstown, Newcastle, Australia ( Williams et al. 2013)
Metode Regression Tree
3.
Regression Tree
4.
5
Pemodelan pertumbuhan phytoplanktondi Danau Glumsoe, Denmark ( Jorgensen et al. 2008 ) Pemodelan dalam menentukan habitat sungai di Inggris ( Jorgensen et al. 2008 ) Menentukan keberadaan atau kepunahan Austropotamobius pallipes di Piedmont, Italia (Tirelli et al. 2011)
Bayesian Network
Data Mining
Algoritma Artificial Neural Network (ANN), Logistic regression, Decision tree
Penjelasan Keberadaan kegiatan pertanian menyebabkan pencemaran sehingga penyebaran alga semakin meningkat. Data mining digunakan untuk melakukan pemodelan jenis alga dominan di wilayah tersebut. Waduk Grahamstown merupakan waduk terbesar di Newcastle, Australia yang dibangun dari 1955-1956. Dam ini mengalami pertumbungan cyanobacteria yang signifikan sehingga dilakukan penelitian untuk menganalisa data pada kualitas air. Dilakukan dengan cara monitoring data untuk melihat hubungan antara kualitas air, konsentrasi cyanobacteria dan parameter lainnya dengan teknik data miningBayesian Network. Penelitian ini menggunakan metode data mining untuk menemukan hubungan antara pertumbuhan phytoplankton dengan suhu air, konsentasi nutrien, dan konsentasi zooplankton.
Penelitian ini melakukan pengumpulan data. Mencari hubungan antara faktorfaktor lingkungan dan distribusi ikan, karena data yang digunakan merupakan time series maka digunakan teknik data mining. Penelitian ini membandingkan tiga teknik data mining untuk menentukan data kepunahan atau keberadaan dari Austropotamobius pallipes. Disimpulkan bahwa teknik ANN merupakan teknik yang memiliki performa yang baik daripada metode Logistic regression dan Decision tree
6
7
Memprediksi makro invertebrata taxa di Sungai Axios, Yunani Utara ( Dakou et al. 2007 ) Model prediksi di The Great Lake – Sungai Saint. Lawrence (Marshall et al. 2014)
Decision Tree
Model Decision Tree digunakan untuk memprediksi habitat dari enam makro invertebrata taxa. Model data mining ini dioptimasi dengan menggunakan treeprunning, bagging dan boosting.
Data Mining
The great lake - Sungai Saint Lawrence merupakan sebuah sungai utama di Amerika Utara. Letaknya di Amerika Serikat dan Kanada. Panjang sungai ini kira-kira mencapai 1.200 km dan memiliki kedalaman 250 m. Danau ini menyediakan hampir 20% persediaan air tawar dunia dan 12 juta orang tinggal disekitar danau ini. Penelitian ini menggunakan data mining untuk memprediksi Escherichia Coli dan mengurangi outliers dari sekumpulan data
Tantangan data mining untuk masa yang akan datang adalah sebagai berikut: 1. Meningkatkan teknik automatisasi data yang terkait data-data penelitian yang tidak lengkap seperti data time series. 2. Meningkatkan teknik dalam proses penggunaan data kembali (reuse) sehingga data dapat digunakan kembali secara otomatis contohnya untuk analisa tren. 3. Mengembangkan standar prosedur untuk pengujian percobaan dan validasi dari teknik data mining 4. Melibatkan end user dalam melakukan desain algoritma dan menterjemahkan hasil percobaan yang lebih baik 5. Mengembangkan dan mengimplementasi metode data mining dengan mengkombinasikan teknik yang telah ada untuk hasil yang lebih baik 6. Meningkatkan teknik data mining secara online dan dapat melibatkan database penelitian yang lebih beragam. 7. Mengembangkan alat yang dapat menjelaskan secara eksplisit dalam memberikan penjelasan secara detail terhadap penemuan hasil data agar dapat lebih mudah dimengerti. 8. Mendesain dan menggunakan teknik spasial data mining. Proses data mining akan mengurangi waktu dalam proses analisa data, mengurangi kesalahan akibat human error akibat data penelitian yang besar, dan mendapatkan hasil akhir bervariasi yang lebih dari hipotesis-hipotesis yang telah dibuat. Analisa data yang banyak sulit dilakukan secara manual. Untuk itulah data mining digunakan, sehingga menghasilkan informasi yang ingin diketahui dan informasi yang belum diketahui ketika proses akhir dilakukan terutama penelitian dengan menggunakan data ekologi.
Daftar Pustaka A. Florence., F. Serge., P. Adriano. 2010. Mining co-variation patterns from ecological data: a process to aid the construction and validation of computer models. universite de lyon.France Dakou, E., D'heygere, Tom., Dedecker, Andy P., Goethals, Peter L.M., Dimitriadou L.M., dan Pauw, N.D. 2007. Decision tree models for prediction of macroinvertebrate taxa in the River Axios (Northern Greece). Aquatic Ecology. 41:399-411 E.J. Sven,, Fath, Brian., 2008. Encyclopedia of ecology. Hal: 827-828. Ecological Informatics: Data Mining. Buku Bunga Rampai E.H. Stephanie., A.S. Carly., J.T. Joshua., K.G. Wendy., E.B. Amber., L.B. Archer., S.D. Clifford., H.P. John., 2013. Big data and the future of ecology. Journal of Ecology Environment.11(3): 156–162. doi:10.1890/120103 F.M. Nicholas., M.H. Anthony., Kinlock, Nicole., Loftus,Sarah., D.S.Joseph., R.TMichael., 2014. Data Mining Applications in St. Lawrence River Ecology.A&S Science: Applied Math and Statistic Fayyad, Usama., P.S. Gregory., S. Padhraic., 1996, From data mining to knowledge discovery in databases.Al Magazine, Volume 17 Number 3 Gibert, K., Spate, J., Marre, M.S., Athanasiadis, Loannis.N., Comas, J., 2008. Data Mining for Enviromental Systems.Environmental Modelling, Software and Decision Support M.H, Wesley., Caruana, Rich., Fink, Daniel., Munson, Art., Riedewald, mirek., Sorokina, Daria., Kelling, Steve., 2007. Data-Mining Discovery of Pattern and Process in Ecological Systems. Journal of Wildlife Management,71(7)000-000 DOI: 10.2193/2006-503 Paulheim, H., Mitichkin, E., Ristoski, P., Bizer, C., 2013. RapidMiner Linked Open Data Extension. Manual Version 1.2,11/29/13. University of Mannheim, Data and Web Science Group, http://dws.informatik.unimannheim.de/fileadmin/lehrstuehle/ki/research/RapidMinerLODExtension/Ra pidMinerLODExtensionMa-nual.pdf (Date: 15.12.2013). Tirelli, Tina., Favaro, Livio., Gamba, Marco., Pessani, Daniel., 2011. Performance comparison among multivariate and data mining approaches to model presence/absence of Austropotamobius pallipes complex in Piedmont (North Western Italy). Biology Modelling. 334: 695-704 Williams, B.J., Cole, B., 2013. Mining monitored data for decision-making with a Bayesian network model. Ecological Modelling. 249: 26-36