Big Data dan Sains Data (Data Science)

Big Data dan Sains Data (Data Science) Achmad Benny Mutiara

Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Gunadarma

[email protected]

Outline 1. Latar Belakang 2. Review Sains Data Intensive (SDI)/Data Science 3. Tantangan Teknologi pada Sains DataIntensive (SDI) 4. Big Data as Services 5. From Big Data To Big Services

2

1. Latar Belakang

Hidup di dunia yang eksponesial • Data saintifik berlipat-lipat setiap tahun (data deluge/big data) – Dikarenakan generasi suksesif dari sensor murah + komputasi yang secara eksponensial lebih cepat • Adanya perubahan paradigma komputasi saintifik • Lintas displin/interdisplin (e-Science) • Semakin sulit utk mengekstraksi pengetahuan • 20 % server di dunia terletak pada data center “the big-five”: Google, Microsoft, Yahoo, e-Bay, Amazon ABM 13-03-13

4

Pengumpulan Data • Distribusi set data yang sangat luas (data pada seluruh skala !! ) • Kebanyakan set data kecil, di maintain secara manual (excel spreadsheet) • Total jumlah data didominasi oleh yang lain di luar “the big-five” (fasilitas arsip besar mutli-TB/PB) • Kebanyakan byte-byte dikumpulkan melalui sensorsensor elektronik ABM 13-03-13

5

Analisis Data Saintifik • Data ada dimana saja, tidak pernah berada pada satu lokasi • Arsitektur ditekankan pada peningkatan kekuatan CPU, sementara I/O -nya tidak ditekankan • Diperlukan arsistektur “data-intensive scalable” • Diperlukan algoritma2 “incremental” acak (randomized) • Kebanyakan analisis data saintifik dikerjakan pada cluster2 kecil sampai ukuran menengah dari suatu institusi riset/fakultas – Jelas pemborosan listrik – Tidak scalable, dan tidak di maintain

ABM 13-03-13

6

2. Review Sains Data Intensive (SDI)/ Data Science

Hukum Rekayasa Data Gray •

Jim Gray: – Scientific computing is becoming increasingly data intensive. – Need “scale-out” solution for analysis. – Bring computations to the data, rather than data to the computations. – Start the design with the “20 queries.” – Go from “working to working.” • DISC: Data Intensive Scientific Computing – The Fourth Paradigm of Science ABM 13-03-13

8

Evolusi Penemuan Saintifik • Ribuan Tahun yang lalu:

– Sains Empiris (eksperimen/observasi) • u/ mendeskripsikan fenoma alam

• Ratusan Tahun yang lalu: – Sains Teoritis

• Mengembangkan model dan generalisasi

• Puluhan tahun yang lalu: – Sains Komputasi

• Simulasi fenomena kompleks

• Saat ini:

– Sains Data-intensive

• Sintesis teori, eksperimen dan komputasi dengan manajemen dan statistik data “advanced”  new algorithms ABM 13-03-13

9

Metode Saintifik Abad 21 TEORI

Teori dikembangkan dan dieksplore melalui komputasi

Teori memunculkan hipotesis yang diverifikasi melalui ekeperimen

Hipotesis2 ditemukan dari Data dan mendorong Teori

Data dihasilkan komputasi

Data

Data dihasilkan eksperimen

Komputasi Komputasi menginform menginformasikan asikan des desai ain n Eks Eksperimen perimen ABM 13-03-13

Eksperimen 10

Sains Data Intensive (SDI) Masalah-masalah dimana data menjadi faktor yang dominan Laju Akuisisi Volume Kompleksitas Ketidakpastian

Sains Komputasi Tradisional

• Komputasi memiliki lokalitas spasial dan temporal • Masalah dimuat ke memori • Metode memerlukan aritmatika presisi tinggi • Datanya statis

Pemodelan dan Simulasi

Sains Data Intensive

• Komputasi tidak atau sedikit memiliki lokalitas • Masalah tidak dimuat ke memori • Presisi atau pembulatan variabel berbasis aritmatika • Datanya dinamis

Analisis

ABM 13-03-13

11

Pemodelan & Simulasi Data Intensive Hasil2 digali utk menemukan parameter parameter2 2 bagi simlasi skala yg lebih tinggi

Kuantum

Molekular

Kontinum

Data Instrument menggerakan/mendorong simulasi

Sensor2 Ruang Angkasa

Simulasi Iklim ABM 13-03-13

Sensor2 Bumi 12

Teknik dan Teknologi Pada SDI • SDI memanfaatkan teknik ilmu komputer dan teknologi IK – – – – – – –

Sensor2 dan jaringan sensor Jaringan Backbone Databases Data mining Machine learning Data visualization Cluster/grid computing pada skala besar ABM 13-03-13

13

Tantangan Kunci Sains Data Intensive Volume Besar dan Througput Tinggi

Keterhubungan dan link

Heterogenitas Tinggi

Kompleksitas Tinggi ABM 13-03-13

14

Issue Riset Sains Data Intensive • Penemuan, Pengumpulan dan Pengelolaan Data dengan Kualitas yg sudah diketahui – Penemuan dan analisis

• Mis. Teknik ‘tagging’ “Smart Data” utk data ‘self-describing’ dan metode analitik

– Distribusi beban kerja dan data reduksi

• Mis. Pemindahan pemrosesan dan pemfilteran data menjadi dekat ke instrumen2 dan data

– Abstraksi data tingkat lebih tinggi

• Mis. Teknologi Semantik utk menghubungan obyek data berdasarkan koleksi lintas kontennya utk membentuk obyek data tingkat yang lebih tinggi ABM 13-03-13

15

Issue Riset Sains Data Intensive – Data korelasi-silang (Cross-correlation)

• Mis. Ontologi2 utk me-link data, domain knowledge, algoritma2, dan hasil2 eksperimen

– Koleksi Asal-usul (Provenance)

• Mis. Tools utk mengotomatisasi koleksi asal-usul dari data mentah dan olahan, mendukung dokumentasi bidang yg diandalkan, kuantifikasi kualitas

• Analisis Informasi untuk penemuan dan kepastian saintifik – Teknik-teknik Aggregasi

• Mis. Representasi tingkat lebih tinggi (domain-driven) yang memungkinkan menelusuri ke data mentah ABM 13-03-13

16

Issue Riset Sains Data Intensive – Propagasi dan kuantifikasi ketidakpastian

• Mis. Metode untuk mendukung penangkapan (capture) pengetahuan, kolaborasi jarak jauh, berbagi dan penggunaan kembali

– Teknik Pendekatan (Approximation techniques)

• Mis. Algoritna progressif untuk menghasilkan hasil kasar dengan cepat dan memperbaiki dari waktu ke waktu.

– Metafora dan interaksi visual

• Mis. Metafora Visual temporal-invariant dan skala-toleran baru. Representasi visual dari ketidakpastian

– Keterlibatan interaktif (HCI)

• Mis. Interaktif antarmuka dan perangkat interaktif yang mengurangi kesenjangan antara tampilan visual dari informasi dan kognisi manusia ABM 13-03-13

17

Tantangan metode, model, arsitektur dataintensive Akses Terdistribusi/sistem heterogen

Akses tidak teratur (irregular)

Map Jalan Tol Seamless scalability

ABM 13-03-13

18

3. Tantangan Teknologi pada Sains Data-Intensive (SDI)

• Interaksi diantara empat tantangan teknis : Data Deluge, Cloud Technology, eScience, and Multicore/Parallel Computing

ABM 13-03-13

20

Kebutuhan Utama • Kebutuhan utama utk memanfaatkan komputasi awan pada SDI – Lingkungan Pemrograman dan Komputasi Parallel, antara lain • Map Reduce • Hadoop • Amazon Web Services

– Arsitektur Intercloud/Multicloud  Koneksi antar data center lembaga riset • Issue utama : Standar baku belum ada, Security ABM 13-03-13

21

MapReduce • Model pemrogaman data-paralel sederhana • U/ pemrosesan data skala-besar

– Mengekspoiltasi sekumpulan komputer komoditas yang besar – Mengeksekusi proses secara terdistribusi – Menyediakan ketersediaan yang tinggi

• Dipelopori oleh Google

– Memproses 20 petabytes data per hari

• Dipopulerkan melalui proyek open-source Hadoop – digunakan oleh Yahoo!, Facebook, Amazon, … ABM 13-03-13

22

Motivation: Large Scale Data Processing • Tugas-tugas (tasks) terdiri dari banyak pengolahan data untuk menghasilkan banyak data lainnya • Ingin memanfaat ratusan atau ribuan CPU ... Namun kebutuhan ini harus mudah! • MapReduce menyediakan – – – – –

Fungsi-fungsi “user-defined” Paralelisasi dan distribusi otomatis Fault-tolerance Penjadualan I/O Status dan monitoring ABM 13-03-13

23

What is MapReduce used for? • At Google:

– Konstruksi Index u/ Google Search – Clustering artikel u/ Google News – Translasi mesin secara statistik

• At Yahoo!:

– “Web map” u/ memperkuat dan mendukung Yahoo! Search – Deteksi Spam u/ Yahoo! Mail

• At Facebook:

– Data mining – Optimisasi Ad – Deteksi Spam

ABM 13-03-13

24

What is MapReduce used for? • Pada penelitian: – – – – – – –

Analisi citra astronomi Bioinformatika Analisis konflik pada Wikipedia Natural language processing Fisika partikel Simulasi Iklim Lautan (Ocean climate simulation) dll ABM 13-03-13

25

Map+Reduce

Very big data

•

Map:

M A P

– Accepts input key/value pair – Emits intermediate key/value pair

Partitioning Function

•

ABM 13-03-13

R E D U C E

Result

Reduce :

– Accepts intermediate key/value* pair – Emits output key/value pair

26

Implementasi MapReduce MapReduce

Cluster, 1, Google 2, Apache Hadoop

Multicore CPU, Phoenix @ stanford

ABM 13-03-13

GPU, Mars@HKUST

27

Hadoop • Software platform originally developed by Yahoo enabling users to write and run applications over vast distributed data. • Attractive Features in Hadoop :

– Scalable : can easily scale to store and process petabytes of data in the Web space – Economical : An open-source MapReduce minimizes the overheads in task spawning and massive data communication – Efficient: Processing data with high-degree of parallelism across a large number of commodity nodes – Reliable : Automatically maintains multiple copies of data to facilitate redeployment of computing tasks on failures ABM 13-03-13

28

Typical Hadoop Cluster Aggregation switch Rack switch

• 40 nodes/rack, 1000-4000 nodes in cluster • 1 Gbps bandwidth within rack, 8 Gbps out of rack • Node specs (Yahoo terasort): 8 x 2GHz cores, 8 GB RAM, 4 disks (= 4 TB?) ABM 13-03-13

29

Amazon Web Services • Provides a web-based interface and command-line tools for running Hadoop jobs on Amazon EC2 • Data stored in Amazon S3 • Monitors job and shuts down machines after use • Small extra charge on top of EC2 pricing • If you want more control over how you Hadoop runs, you can launch a Hadoop cluster on EC2 manually using the scripts in src/contrib/ec2 ABM 13-03-13

30

Model Kolaborasi pada Sistem Multicloud • Cloud-hosted Proxy

ABM 13-03-13

31

Model Kolaborasi pada Sistem Multicloud • Proxy as a service

ABM 13-03-13

32

Model Kolaborasi pada Sistem Multicloud

• Onpremises Proxy

ABM 13-03-13

33

Big Data dan Sains Data (Data Science)

Recommend Documents