Ilmu Data: Konjektur Matematika di Jalan Era Informasi*) Hokky Situngkir**)
Teknologi informasi belakangan telah menyebabkan keseharian manusia modern menyatu dengan proses menggenerasi data. Jam-jam makan dipenuhi dengan twit dan instagram makanan, gosip menyebar makin cepat dan makin luas lingkup geografinya, tiap warga adalah kontributor data. Matematika merupakan bahasa sains, yang membahasakan pola di dalam berbagai fenomena yang ditemui dalam kajian ilmiah. Matematika terapan modern, sebagai bahasa sains bertugas untuk menjadikan data menjadi makna dan informasi. Begitu banyak informasi, juga mengakibatkan begitu banyak ketakpastian. Hingga kemudian, matematika di era komputasi mendapat tuntutan, tak lagi menjadi “ilmu pasti”, tapi justru berfokus pada ketakpastian. Perkawinan Matematika Terapan dengan Teknologi Informasi telah melahirkan “Ilmu Data”. Dalam sebuah orasi ilmiah di University of Michigan [26], Jeff Wu mengungkapkan untuk pertama kalinya istilah "ilmuwan data" (data scientist). Inilah klaim pertama terkait matematika terapan di bidang data dalam menghadapi tantangan teknologi informasi. Lebih jauh bahkan, disebutkan bahwa “ilmu data” (data science) adalah ilmu yang seyogianya dapat berdiri sendiri sebagai anak kandung dari perkawinan kajian matematika (termasuk statistika), komputasi, dengan keahlian substantif tertentu [1]. Secara konvensional, matematika merupakan bahasa yang digunakan dalam berbagai kajian dalam berbagai domain ilmu substantif, mulai dari ilmu sosial hingga ilmu-ilmu alam. Ketika pertumbuhan kecepatan komputasi meninggi, berbagai proses dalam keahlian substantif pun mulai menuntut kapasitas komputasi dalam proses penelitiannya. Ilmu data pun lahir, ketika data telah sedemikian membludak dan menuntut bentuk dan cara pengelolaan yang lebih mutakhir. Ini merupakan suatu masa yang disebut sebagai era “big data”! Khazanah pemrosesan data sebagai kajian metodologis yang memberi makna informasi pada data telah berubah menjadi kajian ilmiah tentang proses menghasilkan, validasi, dan transformasi data untuk mendapatkan pemahaman dan informasi baru, dalam bentuk Ilmu Data. Dan ini memberikan keunikan tersendiri di era big data, karena big data berkaitan dengan data-data dengan karakteristik: Volume (jumlah) data yang luar biasa besar. Variety atau jenis data yang luar biasa beragam (terstruktur atau tidak), teks, video, gambar, suara, sumber data, termasuk resolusi dari data. Velocity atau kecepatan pertambahan data baru yang selalu muncul dan mesti segera ditangani, dan Veracity atau kerancuan yang inheren dalam data, sebagai bentuk kesalahan, sampah, atau derau. [8] *)
Disampaikan pada Seminar Nasional Matematika ke-7 "Life Essence Bring It Up by Mathematics Language", Sabtu, 22 November 2014, Auditorium Biologi Universitas Gadjah Mada. **)
Peneliti di Bandung Fe Institute, Research Center for Complexity in Surya University. Web personal: http://www.bandungfe.net/hs halaman 1 dari 9 halaman
Diagram Venn “Ilmu Data” [cf. 2]
Sebuah pertanyaan menarik adalah bagaimana sebenarnya jalan kesejarahan yang melahirkan Ilmu Data itu? Hal ini dapat dipahami sebagai tren sains di awal abad ke-21 dimana ilmu-ilmu warisan abad pencerahan mulai menyadari kompleksitas yang ditemuinya [9, 12], bahwa pendekatan reduksionis ilmu-ilmu yang terkotak-kotak dalam sekat-sekat akademia konvensional tak lagi dianggap cukup. Tren sains interdisiplin adalah jawabannya. Inilah “ledakan data pertama”. Data pasar modal mulai dilihat sebagai data yang keluar dari sistem kompleks dan menjadi wilayah kajian yang sangat seksi Ekonofisika (Mekanika Statistika) [6, 7]. Berbagai pendekatan, abstraksi, dan model-model matematika yang tadinya digunakan sebagai abstraksi fenomena fisis, mulai mendapat tempatnya dalam menganalisis data-data yang bertambah tiap detik dalam volume yang tinggi. Pendekatan high frequency untuk melihat data menjadi sangat penting [21].
Matematika dalam Ilmu Data, terkait cara merepresentasika dan cara meng-analisis (memodelkan) data.
Data deret waktu yang satu dengan yang lain dipandang saling berkelindan bersebab-akibat sedemikian sehingga analisis korelatif menjadi sangat penting. Bahwa dinamika naik-turunnya harga bahan bakar minyak terhadap harga mie instan, misalnya, tak sesederhana proporsi linier seberapa besar bahan bakar minyak digunakan untuk memproduksi mie instan. Naik turunnya nilai tukar mata uang Inggris tak sepenuhnya independen dengan naik turunnya nilai tukar rupiah. Analisis atas sebaran data menjadi menarik dan kajian akan kenormalan data menjadi hit penelitian atas berbagai eksistensi data yang muncul tak normal dalam persistensi yang lintas disiplin ilmu-ilmu substantif, obyek, dan kajian [11]. Matematika menjadi bahasa lintas disiplin yang menjadi ujung tombak banyak kritik terhadap bagaimana ilmu-ilmu substantif warisan abad pencerahan semestinya harus berjalan, mulai dari ekonomi [4, 23], kajian sosial [3], bahkan aspek-aspek budaya [16]. Mungkin saat-saat sekarang inilah matematika benar-benar sangat terasa menjadi bahasa yang mempersatukan berbagai
halaman 2 dari 9 halaman
kajian monodisipliner, ketika data dari berbagai bidang saling bersentuhan dan abstraksi model saling overlap.
Representasi korelatif data-data bahan rumah tangga atas dinamika harga di beberapa pasar tradisional Indonesia pada kurun waktu 2000-2012 [24].
Gambaran Implementatif Perkembangan dunia informasi memanggil tren pemrosesan data tak hanya untuk data yang berupa angka-angka. Jika ingin benar-benar update terhadap kekinian di panggung politik, misalnya, ratusan surat kabar yang memuat ratusan ribu teks mesti dibaca satu per satu. Hampir musykil mendapatkan pengetahuan yang komprehensif semata-mata dengan mengandalkan kemampuan kognitif kita yang secara evolusioner belum banyak berubah sejak beberapa ribu tahun belakangan ini. Media massa semakin hari semakin menjamur, demikian pula berbagai tokoh-tokoh selebritas yang bermunculan dengan berbagai keunikan perilaku dan opininya masing-masing. Media massa ini menghadirkan data yang berubah menurut waktu sebagai bentuk kumpulan teks-teks (korpus) yang menantang Ilmu Data untuk mengelolanya. Dalam relasinya dengan kajian machine learning dan pemrosesan bahasa natural (linguistik), berbagai terobosan penyajian data pun dapat diketengahkan. Salah satunya yang ditunjukkan dalam pekerjaan Newsmedia Processing Suite, di mana berita-berita hasil olahan redaksi dunia jurnalistik online yang berbahasa Indonesia, digunakan untuk menunjukkan relasi sentimen antar tokoh-tokoh politik dan selebritas nasional [19].
halaman 3 dari 9 halaman
Peta sentimen antar tokoh politik Indonesia yang membelah antara kubu dua calon presiden berdasarkan pemberitaan media massa 3 Juni 2014 menjelang Pemilihan Presiden 2014. Garis merah menunjukkan sentimen negatif, garis biru sentimen positif, dan garis hitam menunjukkan sikap netral.
Jejaring percakapan media sosial Indonesia seolah terbelah oleh akun-akun Twitter dengan masing-masing tokoh politik yang didukungnya (biru: PrabowoHatta dan merah: Jokowi-JK). Tiap simpul merepresentasikan komunitas percakapan dan besarnya lingkaran menunjukkan besarnya banyaknya akun yang terlibat dalam percakapan pada komunitas tersebut [9].
halaman 4 dari 9 halaman
Tren digital online merupakan “ledakan data kedua”. Media sosial menjadi bagian keseharian manusia modern yang tak bisa lepas dari gadget digitalnya. Jutaan data tergenerasi secara kolektif melalui berbagai perangkat, dalam bentuk teks, gambar, hingga video. Data yang dihasilkan oleh umat manusia selama dua tahun ini adalah sembilan puluh persen dari total data yang pernah dihasilkan oleh umat manusia sejak pertama kali tinggal di planet ini***). Gosip menyebar dengan cakupan geografis jauh lebih luas dalam jangka waktu yang jauh lebih cepat, melalui media sosial [20]. Bahkan komunitas-komunitas digital pun mulai terbentuk. Ketika elit politik seolah “terbelah” peta sentimennya dalam wacana dukung-mendukung calon presiden pada Pemilihan Umum yang lalu, massa dunia maya Indonesia pun rupanya juga terbelah mengelompok dalam komunitas-komunitas yang saling berdialog di antara dua kubu politik tersebut. Ini merupakan sebuah fenomena yang sangat menarik, ketika dikontraskan dengan hasil pemilihan yang juga seolah “membelah” Indonesia.
Skematika SmartEnvironment yang menjadi bagian proposal untuk pembangunan Bandung Smart City untuk pengelolaan terpadu sistem informasi terkait Tempat Penampungan Sampah (TPS) dan partisipasi publik untuk taman-taman kota.
Apalagi dalam dunia perekonomian, ikhwal pendekatan matematis sangat sering dikaitkan dengan prediksi, kemampuan meramalkan sesuatu di masa yang akan datang. Namun Ilmu Data, dengan keinsyafan akan kompleksitas dari obyek yang didekati, menyadari bahwa tujuan utama dari prediksi adalah upaya untuk “antisipasi’ risiko. Yang terutama dari semua pengelolaan data pada dasarnya bukanlah akurasi prediksi, tapi tepat tidaknya langkah-langkah persiapan untuk mengantisipasi berbagai risiko yang mungkin muncul [22]. Inilah yang makin memperkukuh pentingnya apresiasi tinggi Ilmu Data di era digital dan komputasi ini. Bentuk yang paling menarik belakangan ini adalah tren konsepsi Smart City, yaitu konsep kota cerdas di mana berbagai sensor dan aktuator dipasang di ***)
Science Daily 22 Maret 2013. halaman 5 dari 9 halaman
berbagai sarana dan prasarana kota sedemikian sehingga pengendalian dan manajemen kota terintegrasi ke dalam sistem komputasi terpadu [13]. Data yang masuk melalui sensor digital setiap waktu merupakan bentuk data berfrekuensi tinggi yang menuntut pemrosesan yang tentu tak bisa konvensional, melainkan harus real time dengan optimisasi algoritma yang mendukung untuk itu. Hal ini telah menjadi sebuah proposal dalam konsep Bandung SmartCity yang berupaya memberikan dashboard cerdas berbasis geo-spasial kota untuk penanganan permasalahan perkotaan di kota Bandung, Jawa Barat. Data-data yang masuk langsung diproses sedemikian dengan integrasi pada jejaring sistem informasi yang terhubung kepada pengambilan keputusan yang cerdas. Abstraksi matematis dalam padu padan dengan Ilmu-ilmu komputasi telah memberikan wajah baru pengambilan keputusan yang cepat namun tetap tajam.
Skematika sistem informasi Pendataan Terpadu Perpustakaan Digital Budaya Indonesia www.budayaindonesia.org yang mengajak partisipasi aktif masyarakat untuk pembangunan Perpustakaan Digital Budaya Indonesia (PDBI) dengan meng-aktifkan komunitas-komunitas lokal.
halaman 6 dari 9 halaman
Pemetaan spasial (bawah) dan geometri desain (atas) data-data batik se-Indonesia yang terkumpul melalui sistem informasi Perpustakaan Digital Budaya Indonesia (PDBI) www.budaya-indonesia.org halaman 7 dari 9 halaman
Namun rupanya, Ilmu Data tak juga hanya bicara bagaimana mempersiapkan masa kini untuk menghadapi masa depan. Inisiatif pendataan berbagai aspek warisan budaya yang dimulai lebih dari lima tahun lalu hari ini telah mulai juga menunjukkan tuntutan pengelolaan data yang dapat digunakan untuk menginspirasi masa depan. Pendataan yang dilakukan melalui jejaring mobile internet ini seperti sistem media sosial yang diperuntukkan untuk mendata kembali pencatatan berbagai warisan budaya bangsa Indonesia yang memang sangat beragam ini melalui situs www.budaya-indonesia.org [17]. Rupanya, keberagaman budaya Indonesia secara lahiriah sudah menuntut pentingnya Ilmu Data mutakhir. Begitu banyak hasil inovasi dan kegunaan pengelolaan dan pemrosesan data melalui pendataan berbasis teknologi informasi ini. Sebuah contoh yang menarik misalnya adalah pemetaan Pohon Kekerabatan Batik se-Indonesia [18], yang secara visual menunjukkan relasi dan kait-mengkait antara satu desain batik dengan batik lainnya. Pemrosesan digital sekuen-sekuen homologi dan dimensionalitas geometri fraktal [16] yang dikalkulasi secara otomatis melalui algoritma (yang banyak berkembang dalam kajian ilmu-ilmu hayati) ini menunjukkan keberagaman identitas kita, sebagaimana kita mengenakan batik sebagai salah satu dari sekian banyak obyek yang menjadi bagian dari identitas bangsa.
Catatan Penutup Era Informasi telah menuntut makin tingginya apresiasi masyarakat luas (elemen masyarakat, sektor swasta, maupun pemerintah) terhadap data dan bagaimana data memberikan makna. Bersamaan dengan itu, tren kajian sains modern mulai meng-insyafi kompleksitas berbagai fenomena yang dihadapinya. Interdisiplinaritas merupakan kunci penting dalm keinsyafan sains modern terhadap sistem kompleks. Sudah sejah lama sekali, matematika merupakan “bahasa pengantar” dalam sains, bahkan secara kualitatif, matematika memiliki peran dalam pembentukan proposisi logis dalam menerangkan berbagai fenomena. Matematika terapan merupakan bahasa dalam mengaji sains secara mendalam. Sebuah “bahasa” yang lalu digunakan oleh berbagai domain sains untuk mengkomunikasikan pemaknaan masing-masing atas data yang diperoleh melalui observasi dan eksperimen. Dampak serius dari konjektur ini adalah lahirnya “Ilmu Data”. Sebuah tatanan mandiri ilmu pengetahuan yang memungkinkan peradaban modern melihat data secara komprehensif sebagai data, tanpa sekat-sekat domain sains substantif yang membatasi.
Matematika Terapan Modern lebih sering digunakan untuk menganalisis data primer (misalnya hasil eksperimen) yang dihasilkan memang untuk pemrosesan yang dimaksud Kajian statistiknya menguji hipotesis
relatif monodisipliner, terkait dengan bidang kajian ilmu substantif tertentu berfokus pada aspek analitik dalam ekstraksi informasi atas data
Ilmu Data menganalisis data sekunder (misalnya hasil pengamatan) yang tadinya di-generasi justru untuk keperluan lain selain pemrosesan statistika yang dilakukan Kajian statistiknya justru memunculkan hipotesis, upaya “penemuan” pengetahuan atas makna yang di-ekstrak dari data sangat interdisipliner, lintas bidang kajian ilmu konvensional fokusnya berimbang, antara representasi visualisasi data dan analitik yang mendukung dan didukung visualisasi tersebut (misalnya pemrosesan geo-visual)
Tabel perkembangan dari Matematika Terapan ke Ilmu Data mutakhir di era informasi dan komputasi
halaman 8 dari 9 halaman
Ilmu Data barangkali adalah wujud matematika terapan di masa depan, ketika data terus-menerus digenerasi, baik oleh warga, maupun oleh berbagai sensor dan aktuator digital yang terintegrasi dengan pemrosesan dan perangkat komputasi. Ilmu Data barangkali telah menjadi bentuk transformasi dari matematika sebagai bahasa, menjadi sebuah “sains” tersendiri?
Kajian Yang Disebutkan [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] [23] [24] [25] [26]
Cleveland, W. S. (2001). “Data science: an action plan for expanding the technical areas of the field of statistics”. International Statistical Review / Revue Internationale de Statistique, 21-26 Conway, D. (2013). The Data Science Venn Diagram. URL: http://drewconway.com/zia/2013/3/27/the-ds-vd-as-d3js Johnson, S. (2001). Emergence: The connected lives of ants, brains, cities, and software. Scribner. Keen, S. (2007). Debunking Economics: The Naked Emperor of the Social Sciences. Pluto Press. Khanafiah, D., & Situngkir, H. (2009). “Memetics of Ethno-Clustering Analysis”. Journal of Social Complexity 4(1): 18-25. Mantegna, R. M. & Stanley, H. E. (2000). An Introduction to Econophysics. Cambridge UP. McCauley, J. L. (2004). Dynamics of Markets: Econophysics and Finance. Cambridge UP. Mayer-Schönberger, V. (2014). Big Data: A Revolution That Will Transform How We Live, Work, and Think. Eamon Dolan/Mariner Books. Maulana, A. & Situngkir, H. (2014). "Observasi Kompleksitas Pemilu: Studi Kasus Pemilihan Umum Indonesia 2014". BFI Working Paper Series WP-2-2014. Miller, J. H. & Page, S. (2007). Complex Adaptive System: An Introduction to Computational of Social Life. Princeton UP. Newman, M. E. J. (2005). "Power laws, Pareto distributions and Zipf's law". Contemporary Physics 46, 323-351 Page, S. E. (2007). The Difference: How the Power of Diversity Creates Better Groups, Firms, Schools, and Societies. Princeton UP. Rutkin, A. (2014). "How Data Can Save a City". New Scientist 224: 24-25. Situngkir, H. (2005). "On Stock Market Dynamics through Ultrametricity of Minimum Spanning Tree". BFI Working Paper Series WPH2005. Situngkir, H. & Surya, Y. (2007). Solusi untuk Indonesia: Prediksi Kompleksitas/Ekonofisik. Kandel. Situngkir, H., Dahlan, R. M. (2008). Fisika Batik: Jejak Sains Modern dalam Seni Tradisi Indonesia. Gramedia Pustaka Utama. Situngkir, H. (2008). “Platform Komputasi untuk Preservasi Budaya Tradisional Secara Partisipatif”. BFI Working Paper Series WP-XII-2008. Situngkir, H. (2009). The Phylomemetics of Batik. BFI Working Pape Series WP-8-2009. Situngkir, H. (2011). "Spread of hoax in Social Media". BFI Working Paper Series WP-5-2011. Suroso, R., Maulana, A. (2014). "Newsmedia Processing Suite". BFI Working Paper Series 2014. Surya, Y., Situngkir, H, dkk. (2004). Aplikasi Fisika dalam Analisis Keuangan: Mekanika Statistik Interaksi Agen. SD MIPA. Taleb, N. N. (2012). Antifragile: Things that Gain from Disorder. Random House. Triana, P. (2011). Lecturing Birds on Flying: Can Mathematical Theories Destroy the Financial Markets?. John Wiley & Sons. Tim Bandung Fe Institute. Indonesian Outlook 2013. Bandung Fe Institute & Inovasi Anak Bangsa. Wheeler, M. (1976). Lies, Damned Lies, and Statistics: The Manipulation of Public Opinion in America. W.W. Norton & Co. Wu, J. (1997). "Identity of statistics in science examined". The University Records, 9 November 1997, The University of Michigan.
halaman 9 dari 9 halaman