Big Data dan Sains Data (Data Science) Achmad Benny Mutiara
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Gunadarma
[email protected]
Outline 1. Latar Belakang 2. Review Sains Data Intensive (SDI)/Data Science 3. Tantangan Teknologi pada Sains DataIntensive (SDI) 4. Big Data as Services 5. From Big Data To Big Services
2
1. Latar Belakang
Hidup di dunia yang eksponesial • Data saintifik berlipat-lipat setiap tahun (data deluge/big data) – Dikarenakan generasi suksesif dari sensor murah + komputasi yang secara eksponensial lebih cepat • Adanya perubahan paradigma komputasi saintifik • Lintas displin/interdisplin (e-Science) • Semakin sulit utk mengekstraksi pengetahuan • 20 % server di dunia terletak pada data center “the big-five”: Google, Microsoft, Yahoo, e-Bay, Amazon ABM 13-03-13
4
Pengumpulan Data • Distribusi set data yang sangat luas (data pada seluruh skala !! ) • Kebanyakan set data kecil, di maintain secara manual (excel spreadsheet) • Total jumlah data didominasi oleh yang lain di luar “the big-five” (fasilitas arsip besar mutli-TB/PB) • Kebanyakan byte-byte dikumpulkan melalui sensorsensor elektronik ABM 13-03-13
5
Analisis Data Saintifik • Data ada dimana saja, tidak pernah berada pada satu lokasi • Arsitektur ditekankan pada peningkatan kekuatan CPU, sementara I/O -nya tidak ditekankan • Diperlukan arsistektur “data-intensive scalable” • Diperlukan algoritma2 “incremental” acak (randomized) • Kebanyakan analisis data saintifik dikerjakan pada cluster2 kecil sampai ukuran menengah dari suatu institusi riset/fakultas – Jelas pemborosan listrik – Tidak scalable, dan tidak di maintain
ABM 13-03-13
6
2. Review Sains Data Intensive (SDI)/ Data Science
Hukum Rekayasa Data Gray •
Jim Gray: – Scientific computing is becoming increasingly data intensive. – Need “scale-out” solution for analysis. – Bring computations to the data, rather than data to the computations. – Start the design with the “20 queries.” – Go from “working to working.” • DISC: Data Intensive Scientific Computing – The Fourth Paradigm of Science ABM 13-03-13
8
Evolusi Penemuan Saintifik • Ribuan Tahun yang lalu:
– Sains Empiris (eksperimen/observasi) • u/ mendeskripsikan fenoma alam
• Ratusan Tahun yang lalu: – Sains Teoritis
• Mengembangkan model dan generalisasi
• Puluhan tahun yang lalu: – Sains Komputasi
• Simulasi fenomena kompleks
• Saat ini:
– Sains Data-intensive
• Sintesis teori, eksperimen dan komputasi dengan manajemen dan statistik data “advanced” new algorithms ABM 13-03-13
9
Metode Saintifik Abad 21 TEORI
Teori dikembangkan dan dieksplore melalui komputasi
Teori memunculkan hipotesis yang diverifikasi melalui ekeperimen
Hipotesis2 ditemukan dari Data dan mendorong Teori
Data dihasilkan komputasi
Data
Data dihasilkan eksperimen
Komputasi Komputasi menginform menginformasikan asikan des desai ain n Eks Eksperimen perimen ABM 13-03-13
Eksperimen 10
Sains Data Intensive (SDI) Masalah-masalah dimana data menjadi faktor yang dominan Laju Akuisisi Volume Kompleksitas Ketidakpastian
Sains Komputasi Tradisional
• Komputasi memiliki lokalitas spasial dan temporal • Masalah dimuat ke memori • Metode memerlukan aritmatika presisi tinggi • Datanya statis
Pemodelan dan Simulasi
Sains Data Intensive
• Komputasi tidak atau sedikit memiliki lokalitas • Masalah tidak dimuat ke memori • Presisi atau pembulatan variabel berbasis aritmatika • Datanya dinamis
Analisis
ABM 13-03-13
11
Pemodelan & Simulasi Data Intensive Hasil2 digali utk menemukan parameter parameter2 2 bagi simlasi skala yg lebih tinggi
Kuantum
Molekular
Kontinum
Data Instrument menggerakan/mendorong simulasi
Sensor2 Ruang Angkasa
Simulasi Iklim ABM 13-03-13
Sensor2 Bumi 12
Teknik dan Teknologi Pada SDI • SDI memanfaatkan teknik ilmu komputer dan teknologi IK – – – – – – –
Sensor2 dan jaringan sensor Jaringan Backbone Databases Data mining Machine learning Data visualization Cluster/grid computing pada skala besar ABM 13-03-13
13
Tantangan Kunci Sains Data Intensive Volume Besar dan Througput Tinggi
Keterhubungan dan link
Heterogenitas Tinggi
Kompleksitas Tinggi ABM 13-03-13
14
Issue Riset Sains Data Intensive • Penemuan, Pengumpulan dan Pengelolaan Data dengan Kualitas yg sudah diketahui – Penemuan dan analisis
• Mis. Teknik ‘tagging’ “Smart Data” utk data ‘self-describing’ dan metode analitik
– Distribusi beban kerja dan data reduksi
• Mis. Pemindahan pemrosesan dan pemfilteran data menjadi dekat ke instrumen2 dan data
– Abstraksi data tingkat lebih tinggi
• Mis. Teknologi Semantik utk menghubungan obyek data berdasarkan koleksi lintas kontennya utk membentuk obyek data tingkat yang lebih tinggi ABM 13-03-13
15
Issue Riset Sains Data Intensive – Data korelasi-silang (Cross-correlation)
• Mis. Ontologi2 utk me-link data, domain knowledge, algoritma2, dan hasil2 eksperimen
– Koleksi Asal-usul (Provenance)
• Mis. Tools utk mengotomatisasi koleksi asal-usul dari data mentah dan olahan, mendukung dokumentasi bidang yg diandalkan, kuantifikasi kualitas
• Analisis Informasi untuk penemuan dan kepastian saintifik – Teknik-teknik Aggregasi
• Mis. Representasi tingkat lebih tinggi (domain-driven) yang memungkinkan menelusuri ke data mentah ABM 13-03-13
16
Issue Riset Sains Data Intensive – Propagasi dan kuantifikasi ketidakpastian
• Mis. Metode untuk mendukung penangkapan (capture) pengetahuan, kolaborasi jarak jauh, berbagi dan penggunaan kembali
– Teknik Pendekatan (Approximation techniques)
• Mis. Algoritna progressif untuk menghasilkan hasil kasar dengan cepat dan memperbaiki dari waktu ke waktu.
– Metafora dan interaksi visual
• Mis. Metafora Visual temporal-invariant dan skala-toleran baru. Representasi visual dari ketidakpastian
– Keterlibatan interaktif (HCI)
• Mis. Interaktif antarmuka dan perangkat interaktif yang mengurangi kesenjangan antara tampilan visual dari informasi dan kognisi manusia ABM 13-03-13
17
Tantangan metode, model, arsitektur dataintensive Akses Terdistribusi/sistem heterogen
Akses tidak teratur (irregular)
Map Jalan Tol Seamless scalability
ABM 13-03-13
18
3. Tantangan Teknologi pada Sains Data-Intensive (SDI)
• Interaksi diantara empat tantangan teknis : Data Deluge, Cloud Technology, eScience, and Multicore/Parallel Computing
ABM 13-03-13
20
Kebutuhan Utama • Kebutuhan utama utk memanfaatkan komputasi awan pada SDI – Lingkungan Pemrograman dan Komputasi Parallel, antara lain • Map Reduce • Hadoop • Amazon Web Services
– Arsitektur Intercloud/Multicloud Koneksi antar data center lembaga riset • Issue utama : Standar baku belum ada, Security ABM 13-03-13
21
MapReduce • Model pemrogaman data-paralel sederhana • U/ pemrosesan data skala-besar
– Mengekspoiltasi sekumpulan komputer komoditas yang besar – Mengeksekusi proses secara terdistribusi – Menyediakan ketersediaan yang tinggi
• Dipelopori oleh Google
– Memproses 20 petabytes data per hari
• Dipopulerkan melalui proyek open-source Hadoop – digunakan oleh Yahoo!, Facebook, Amazon, … ABM 13-03-13
22
Motivation: Large Scale Data Processing • Tugas-tugas (tasks) terdiri dari banyak pengolahan data untuk menghasilkan banyak data lainnya • Ingin memanfaat ratusan atau ribuan CPU ... Namun kebutuhan ini harus mudah! • MapReduce menyediakan – – – – –
Fungsi-fungsi “user-defined” Paralelisasi dan distribusi otomatis Fault-tolerance Penjadualan I/O Status dan monitoring ABM 13-03-13
23
What is MapReduce used for? • At Google:
– Konstruksi Index u/ Google Search – Clustering artikel u/ Google News – Translasi mesin secara statistik
• At Yahoo!:
– “Web map” u/ memperkuat dan mendukung Yahoo! Search – Deteksi Spam u/ Yahoo! Mail
• At Facebook:
– Data mining – Optimisasi Ad – Deteksi Spam
ABM 13-03-13
24
What is MapReduce used for? • Pada penelitian: – – – – – – –
Analisi citra astronomi Bioinformatika Analisis konflik pada Wikipedia Natural language processing Fisika partikel Simulasi Iklim Lautan (Ocean climate simulation) dll ABM 13-03-13
25
Map+Reduce
Very big data
•
Map:
M A P
– Accepts input key/value pair – Emits intermediate key/value pair
Partitioning Function
•
ABM 13-03-13
R E D U C E
Result
Reduce :
– Accepts intermediate key/value* pair – Emits output key/value pair
26
Implementasi MapReduce MapReduce
Cluster, 1, Google 2, Apache Hadoop
Multicore CPU, Phoenix @ stanford
ABM 13-03-13
GPU, Mars@HKUST
27
Hadoop • Software platform originally developed by Yahoo enabling users to write and run applications over vast distributed data. • Attractive Features in Hadoop :
– Scalable : can easily scale to store and process petabytes of data in the Web space – Economical : An open-source MapReduce minimizes the overheads in task spawning and massive data communication – Efficient: Processing data with high-degree of parallelism across a large number of commodity nodes – Reliable : Automatically maintains multiple copies of data to facilitate redeployment of computing tasks on failures ABM 13-03-13
28
Typical Hadoop Cluster Aggregation switch Rack switch
• 40 nodes/rack, 1000-4000 nodes in cluster • 1 Gbps bandwidth within rack, 8 Gbps out of rack • Node specs (Yahoo terasort): 8 x 2GHz cores, 8 GB RAM, 4 disks (= 4 TB?) ABM 13-03-13
29
Amazon Web Services • Provides a web-based interface and command-line tools for running Hadoop jobs on Amazon EC2 • Data stored in Amazon S3 • Monitors job and shuts down machines after use • Small extra charge on top of EC2 pricing • If you want more control over how you Hadoop runs, you can launch a Hadoop cluster on EC2 manually using the scripts in src/contrib/ec2 ABM 13-03-13
30
Model Kolaborasi pada Sistem Multicloud • Cloud-hosted Proxy
ABM 13-03-13
31
Model Kolaborasi pada Sistem Multicloud • Proxy as a service
ABM 13-03-13
32
Model Kolaborasi pada Sistem Multicloud
• Onpremises Proxy
ABM 13-03-13
33