Peran Komputasi Awan Pada Sains Data-Intensive (SDI) Achmad Benny Mutiara
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Gunadarma
[email protected]
Outline 1. 2. 3. 4.
Latar Belakang Review Sains Data Intensive (SDI) Review Komputasi Awan Komputasi Awan pada Sains DataIntensive (SDI) 5. Masa Depan Komputasi Awan ABM 13-03-13
2
1. Latar Belakang
Hidup di dunia yang eksponesial • Data saintifik berlipat-lipat setiap tahun (data deluge/big data) – Dikarenakan generasi suksesif dari sensor murah + komputasi yang secara eksponensial lebih cepat • Adanya perubahan paradigma komputasi saintifik • Lintas displin/interdisplin (e-Science) • Semakin sulit utk mengekstraksi pengetahuan • 20 % server di dunia terletak pada data center “the big-five”: Google, Microsoft, Yahoo, e-Bay, Amazon ABM 13-03-13
4
Pengumpulan Data • Distribusi set data yang sangat luas (data pada seluruh skala !! ) • Kebanyakan set data kecil, di maintain secara manual (excel spreadsheet) • Total jumlah data didominasi oleh yang lain di luar “the big-five” (fasilitas arsip besar mutli-TB/PB) • Kebanyakan byte-byte dikumpulkan melalui sensorsensor elektronik ABM 13-03-13
5
Analisis Data Saintifik • Data ada dimana saja, tidak pernah berada pada satu lokasi • Arsitektur ditekankan pada peningkatan kekuatan CPU, sementara I/O -nya tidak ditekankan • Diperlukan arsistektur “data-intensive scalable” • Diperlukan algoritma2 “incremental” acak (randomized) • Kebanyakan analisis data saintifik dikerjakan pada cluster2 kecil sampai ukuran menengah dari suatu institusi riset/fakultas – Jelas pemborosan listrik – Tidak scalable, dan tidak di maintain
ABM 13-03-13
6
2. Review Sains Data Intensive (SDI)
Hukum Rekayasa Data Gray •
Jim Gray: – Scientific computing is becoming increasingly data intensive. – Need “scale-out” solution for analysis. – Bring computations to the data, rather than data to the computations. – Start the design with the “20 queries.” – Go from “working to working.” • DISC: Data Intensive Scientific Computing –
The Fourth Paradigm of Science ABM 13-03-13
8
Evolusi Penemuan Saintifik • Ribuan Tahun yang lalu:
– Sains Empiris (eksperimen/observasi) • u/ mendeskripsikan fenoma alam
• Ratusan Tahun yang lalu: – Sains Teoritis
• Mengembangkan model dan generalisasi
• Puluhan tahun yang lalu: – Sains Komputasi
• Simulasi fenomena kompleks
• Saat ini:
– Sains Data-intensive
• Sintesis teori, eksperimen dan komputasi dengan manajemen dan statistik data “advanced” new algorithms ABM 13-03-13
9
Metode Saintifik Abad 21 TEORI
Teori dikembangkan dan dieksplore melalui komputasi
Teori memunculkan hipotesis yang diverifikasi melalui ekeperimen
Hipotesis2 ditemukan dari Data dan mendorong Teori
Data dihasilkan komputasi
Data
Data dihasilkan eksperimen
Komputasi Komputasi menginformasikan desain Eksperimen ABM 13-03-13
Eksperimen 10
Sains Data Intensive (SDI) Masalah-masalah dimana data menjadi faktor yang dominan Laju Akuisisi Volume Kompleksitas Ketidakpastian
Sains Komputasi Tradisional
• Komputasi memiliki lokalitas spasial dan temporal • Masalah dimuat ke memori • Metode memerlukan aritmatika presisi tinggi • Datanya statis
Pemodelan dan Simulasi
Sains Data Intensive
• Komputasi tidak atau sedikit memiliki lokalitas • Masalah tidak dimuat ke memori • Presisi atau pembulatan variabel berbasis aritmatika • Datanya dinamis
Analisis
ABM 13-03-13
11
Pemodelan & Simulasi Data Intensive Hasil2 digali utk menemukan parameter2 bagi simlasi skala yg lebih tinggi
Kuantum
Molekular
Kontinum
Data Instrument menggerakan/mendorong simulasi
Sensor2 Ruang Angkasa
Simulasi Iklim ABM 13-03-13
Sensor2 Bumi 12
Teknik dan Teknologi Pada SDI • SDI memanfaatkan teknik ilmu komputer dan teknologi IK – – – – – – –
Sensor2 dan jaringan sensor Jaringan Backbone Databases Data mining Machine learning Data visualization Cluster/grid computing pada skala besar ABM 13-03-13
13
Tantangan Kunci Sains Data Intensive Volume Besar dan Througput Tinggi
Keterhubungan dan link
Heterogenitas Tinggi
Kompleksitas Tinggi ABM 13-03-13
14
Issue Riset Sains Data Intensive • Penemuan, Pengumpulan dan Pengelolaan Data dengan Kualitas yg sudah diketahui – Penemuan dan analisis
• Mis. Teknik ‘tagging’ “Smart Data” utk data ‘self-describing’ dan metode analitik
– Distribusi beban kerja dan data reduksi
• Mis. Pemindahan pemrosesan dan pemfilteran data menjadi dekat ke instrumen2 dan data
– Abstraksi data tingkat lebih tinggi
• Mis. Teknologi Semantik utk menghubungan obyek data berdasarkan koleksi lintas kontennya utk membentuk obyek data tingkat yang lebih tinggi ABM 13-03-13
15
Issue Riset Sains Data Intensive – Data korelasi-silang (Cross-correlation)
• Mis. Ontologi2 utk me-link data, domain knowledge, algoritma2, dan hasil2 eksperimen
– Koleksi Asal-usul (Provenance)
• Mis. Tools utk mengotomatisasi koleksi asal-usul dari data mentah dan olahan, mendukung dokumentasi bidang yg diandalkan, kuantifikasi kualitas
• Analisis Informasi untuk penemuan dan kepastian saintifik – Teknik-teknik Aggregasi
• Mis. Representasi tingkat lebih tinggi (domain-driven) yang memungkinkan menelusuri ke data mentah ABM 13-03-13
16
Issue Riset Sains Data Intensive – Propagasi dan kuantifikasi ketidakpastian
• Mis. Metode untuk mendukung penangkapan (capture) pengetahuan, kolaborasi jarak jauh, berbagi dan penggunaan kembali
– Teknik Pendekatan (Approximation techniques)
• Mis. Algoritna progressif untuk menghasilkan hasil kasar dengan cepat dan memperbaiki dari waktu ke waktu.
– Metafora dan interaksi visual
• Mis. Metafora Visual temporal-invariant dan skala-toleran baru. Representasi visual dari ketidakpastian
– Keterlibatan interaktif (HCI)
• Mis. Interaktif antarmuka dan perangkat interaktif yang mengurangi kesenjangan antara tampilan visual dari informasi dan kognisi manusia ABM 13-03-13
17
Tantangan metode, model, arsitektur dataintensive Akses Terdistribusi/sistem heterogen
Akses tidak teratur (irregular)
Map Jalan Tol Seamless scalability
ABM 13-03-13
18
3. Review Komputasi Awan
Definisi • NIST
– A model for enabling convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction.
– In short, “computation as a…utility” – Popularized by Eric Schmidt in 2006
ABM 13-03-13
20
Enam Paradigma Komputasi
Six Computing Paradigms – from Mainframe Computing to Internet Computing, to Grid Computing and Cloud Computing (Adapted from Voas.J, & Zhang, J.(March/April 2009) Cloud Computing: New Wine or Just a New Bottle? 21 ABM 13-03-13 IEEE ITPro, pp.15–17.)
Evolusi Komputasi Awan pada IT
ABM 13-03-13
22
Teknologi Enabler-nya • Data Deluge Enabling New Challenges Cloud Enabling Technology
ABM 13-03-13
23
Virtualisasi • Inti dari teknologi komputasi Awan : Virtualisasi • Pada komputasi Awan: Mesin fisik mesin virtual; jaringan fisik jaringan virtual; penyimpan fisik penyimpan virtual • Virtual Mesin: representasi mesin real menggunakan SW yang menyediakan suatu lingkungan operasi yang dapat berjalan atau meng-host sistem operasi lain (guest operating system) • Guest operating system: sistem operasi yang berjalan pada lingkungan virtual yang berjalan langsung pada suatu sistem fisik yang terpisah ABM 13-03-13
24
Virtualisasi Lapisan Virtualisasi merupakan “middleware” antara HW dan virtual machines yang direpresentasikan pada sistem , dikenal sebagai virtual machine monitor (VMM) atau hypervisor. Perbedaan antara Komputer Tradisional dan Virtual Machines
ABM 13-03-13
25
Jenis Hypervisor • Hypervisor atau VMM: landasan bagi virtualisasi atau SW khusus yang menyebabkan berbagai SO dapat berjalan secara simultan pada sebuah komputer • Secara umum ada dua jenis Hypervisor: – Hypervisor tipe-1 (bare-metal architecture)
• Berjalan secara langsung pd HW, artinya tidak memerlukan SO utk menjalankan hypervisor • Dpt diintall langsung pada disk • Bekerja lebih baik dibanding tipe-2 • Contoh: CP/CMS (IBM 1960), XenServer, Xen Cloud Platform, VMware ESX/ESXi, Microsoft Hyper-V
– Hypervisor tipe-2 (Hosted Architecture)
• Aplikasi yg diinstall di atas SO yg umum • Fleksibilitas lebih baik dibanding tipe-1 • Contoh: VMware GSX server/workstation, VirtualBox, VirtualPC ABM 13-03-13
26
Virtualisasi
ABM 13-03-13
27
Web service dan SOA, Web 2.0 dan Mash-up • Web Service and Service Oriented Architecture:
– Web services (WS) open standards telah memberikan kontribusi besar untuk kemajuan dalam domain integrasi perangkat lunak. – Web services dapat • Mengikat menjadi satu aplikasi yang berjalan pada platform produk messaging yang berbeda , • Mengaktifkan informasi dari satu aplikasi yang dibuat tersedia untuk aplikasi lain, dan • Mengaktifkan aplikasi internal yang dibuat tersedia melalui Internet.
– Dalam SOA, sumber daya perangkat lunak dikemas sebagai “services“, yang menyediakan fungsionalitas bisnis standar dan independen dari keadaan atau konteks dari layanan lainnya. Layanan dideskripsikan dalam bahasa definisi standar (WSDL) dan memiliki antarmuka yang dipublish (UDDI). ABM 13-03-13
28
Web service and SOA, Web 2.0 and Mash-up • Munculnya Web 2.0, informasi dan layanan dapat diagregasi secara pemrograman, bertindak sebagai blok bangunan komposisi yang kompleks, yang disebut layanan mashup (Web Service Composition). – yaitu suatu aplikasi enterprise yang mengikuti paradigma SOA adalah kumpulan layanan yang secara bersama-sama melakukan logika bisnis yang kompleks
ABM 13-03-13
29
Komputasi Otonom • Otonom, atau swa-kelola, sistem bergantung pada pemantauan probe dan pengukur (sensor), pada mesin adaptasi (manajer otonom) untuk optimasi komputasi berdasarkan data pemantauan, dan efektor untuk melaksanakan perubahan pada sistem. – Inisiatif komputasi otonom IBM telah memberikan kontribusi untuk mendefinisikan empat sifat sistem otonom: self-configuration, selfoptimization, self-healing, dan self-protection. IBM juga telah mengusulkan model referensi untuk loop kontrol otonom manajer otonom, disebut MAPE-K (Monitor Analyze Plan Execute-Knowledge ).
• Data Center yang besar penyedia komputasi awan harus dikelola dengan cara yang efisien.
– Dalam pengertian ini, konsep komputasi otonom menginspirasi teknologi perangkat lunak untuk otomatisasi data center, yang dapat melakukan tugas-tugas seperti: • management of service levels of running applications; management of data center capacity; proactive disaster recovery; and automation of VM provisioning. ABM 13-03-13
30
Framework Definisi NIST
ABM 13-03-13
31
Arsitektur Referensi NIST
ABM 13-03-13
32
Karakteristik Awan • On demand self-service
– Pengguna dapat menggunakan layanan awan sesuai kebutuhan, tanpa perlu dilayani oleh pihak lain (Users do not need to understand the underlying technology infrastructure)
• Measured service
– Service yang disediakan dapat diukur. Provider dapat mengendalikan dan memonitor layanan awan.
• Rapid Elasticity
– Sumber daya yg disediakan dapat bertambah atau berkurang dgn cepat – Pengguna dapat menyewa computing power sesuai kebutuhan
• Ubiquitous/Broad Network Access
– Semua kapabilitas tersedia melalui jaringan dan dapat diakses dengan metode yang berlaku secara umum
• Resource Pooling
– Provider dapat melayani pengguna via multi-tenant model. Berbagai sumber daya yang terdapat diberbagai lokasi dapat digunakan oleh banyak client secara bersamaan. ABM 13-03-13
33
Tiga Model Layanan Utama Awan • Software as a Service (SaaS)
– Pengguna dapat menggunakan aplikasi namun tdk dpt membuat aplikasi, tdk dpt mengontrol SO, HW, Net. – Contoh: GoogleDoc, SalesForce
• Platform as a Service (PaaS)
– Dapat mengembangkan aplikasi dgn menggunakan application framework – Dapat mengontrol aplikasi, tetapi tidak SO, HW, NET – Contoh: Force.Com, MS Azure
• Infrastructure as a Service (IaaS)
– Dapat menggunakan sumber komputasi dasar. – Contoh: Amazon EC Cloud
ABM 13-03-13
34
Empat Model Deployment Utama • Private Cloud
– Dimiliki atau disewa sebuah organisasi
• Community Cloud
– Infrastruktur di-share u/ komuntas tertentu
• Public Cloud
– Dijual ke publik – Infrastruktur Skala Besar
• Hybrid Cloud
– Komposisi dari dua atau lebih dari model di atas ABM 13-03-13
35
Empat Model Deployment Utama
ABM 13-03-13
36
Public Clouds vs. Private Clouds Characteristics
Public clouds
Private clouds
Technology leverage and ownership
Owned by service providers
Leverage existing IT infrastructure and personnel; owned by individual organization
Management of provisioned resources
Creating and managing VM instances within proprietary infrastructure; promote standardization, preserves capital investment, application flexibility
Client managed; achieve customization and offer higher efficiency
Workload distribution methods and loading policies
Handle workload without communication dependency; distribute data and VM resources; surge workload is off-loaded
Handle workload dynamically, but can better balance workloads; distribute data and VM resources
Security and data privacy enforcement
Publicly accessible through remote interface
Access is limited; provide pre-production testing and enforce data privacy and security policies
Example platforms
Google App Engine, Amazon AWS, Microsoft Azure
IBM RC2
ABM 13-03-13
37
4. Komputasi Awan pada Sains DataIntensive (SDI)
• Interaksi diantara empat tantangan teknis : Data Deluge, Cloud Technology, eScience, and Multicore/Parallel Computing
ABM 13-03-13
39
Kebutuhan Utama • Kebutuhan utama utk memanfaatkan komputasi awan pada SDI – Lingkungan Pemrograman dan Komputasi Parallel, antara lain • Map Reduce • Hadoop • Amazon Web Services
– Arsitektur Intercloud/Multicloud Koneksi antar data center lembaga riset • Issue utama : Standar baku belum ada, Security ABM 13-03-13
40
MapReduce • Model pemrogaman data-paralel sederhana • U/ pemrosesan data skala-besar
– Mengekspoiltasi sekumpulan komputer komoditas yang besar – Mengeksekusi proses secara terdistribusi – Menyediakan ketersediaan yang tinggi
• Dipelopori oleh Google
– Memproses 20 petabytes data per hari
• Dipopulerkan melalui proyek open-source Hadoop – digunakan oleh Yahoo!, Facebook, Amazon, … ABM 13-03-13
41
Motivation: Large Scale Data Processing • Tugas-tugas (tasks) terdiri dari banyak pengolahan data untuk menghasilkan banyak data lainnya • Ingin memanfaat ratusan atau ribuan CPU ... Namun kebutuhan ini harus mudah! • MapReduce menyediakan – – – – –
Fungsi-fungsi “user-defined” Paralelisasi dan distribusi otomatis Fault-tolerance Penjadualan I/O Status dan monitoring ABM 13-03-13
42
What is MapReduce used for? • At Google:
– Konstruksi Index u/ Google Search – Clustering artikel u/ Google News – Translasi mesin secara statistik
• At Yahoo!:
– “Web map” u/ memperkuat dan mendukung Yahoo! Search – Deteksi Spam u/ Yahoo! Mail
• At Facebook:
– Data mining – Optimisasi Ad – Deteksi Spam
ABM 13-03-13
43
What is MapReduce used for? • Pada penelitian:
– Analisi citra astronomi – Bioinformatika – Analisis konflik pada Wikipedia – Natural language processing – Fisika partikel – Simulasi Iklim Lautan (Ocean climate simulation) – dll ABM 13-03-13
44
Map+Reduce
M A P
Very big data
•
Map:
– –
Accepts input key/value pair Emits intermediate key/value pair
Partitioning Function
•
ABM 13-03-13
R E D U C E
Result
Reduce :
– –
Accepts intermediate key/value* pair Emits output key/value pair
45
Implementasi MapReduce MapReduce
Cluster, 1, Google 2, Apache Hadoop
Multicore CPU, Phoenix @ stanford
ABM 13-03-13
GPU, Mars@HKUST
46
Hadoop • Software platform originally developed by Yahoo enabling users to write and run applications over vast distributed data. • Attractive Features in Hadoop :
– Scalable : can easily scale to store and process petabytes of data in the Web space – Economical : An open-source MapReduce minimizes the overheads in task spawning and massive data communication – Efficient: Processing data with high-degree of parallelism across a large number of commodity nodes – Reliable : Automatically maintains multiple copies of data to facilitate redeployment of computing tasks on failures ABM 13-03-13
47
Typical Hadoop Cluster Aggregation switch Rack switch
• 40 nodes/rack, 1000-4000 nodes in cluster • 1 Gbps bandwidth within rack, 8 Gbps out of rack • Node specs (Yahoo terasort): 8 x 2GHz cores, 8 GB RAM, 4 disks (= 4 TB?) ABM 13-03-13
48
Amazon Web Services • Provides a web-based interface and command-line tools for running Hadoop jobs on Amazon EC2 • Data stored in Amazon S3 • Monitors job and shuts down machines after use • Small extra charge on top of EC2 pricing • If you want more control over how you Hadoop runs, you can launch a Hadoop cluster on EC2 manually using the scripts in src/contrib/ec2 ABM 13-03-13
49
Model Kolaborasi pada Sistem Multicloud • Cloud-hosted Proxy
ABM 13-03-13
50
Model Kolaborasi pada Sistem Multicloud • Proxy as a service
ABM 13-03-13
51
Model Kolaborasi pada Sistem Multicloud
• Onpremises Proxy
ABM 13-03-13
52
5. Masa Depan Komputasi Awan
Major Computing Technology Trends
ABM 13-03-13
54
Opportunities of IoT in 3 Dimensions
ABM 13-03-13
55
Architecture of The Internet of Things Application Layer
Merchandise Tracking
Environment Protection
Intelligent Search
Telemedicine
Intelligent Traffic
Smart Home
Cloud Computing Platform Network Layer
Sensing Layer
Mobile Telecom Network
The Internet
Information Network
RFID
Sensor Network
GPS
RFID Label
Sensor Nodes
Road Mapper
ABM 13-03-13
56
Clouds and Internet of Things HPC: HighPerformance Computing
HTC: HighThroughput Computing
P2P: Peer to Peer
MPP: Massively Parallel Source: K. Hwang, G. Fox, and J. Dongarra, Distributed and Cloud Computing, Morgan Kaufmann, 2012. ABM 13-03-13
Processors 57
Computing Level Trend Macro Level 1970 -80 Parallel and Distributed Computing (cluster and Grid Computing)
In 20 -30 years Transform
Micro Level
Quantum Computing
2006-2009 Cloud Computing
•Atomic Level Computing •Use nature Phenomena: Quantum mechanics
Scientific Discovery: 1980 - 90 Network and Internet Computing
1998 Data-Intensive Computing
•
• • • ABM 13-03-13
Experiments/Observation (2000 year ago) Theory (15th -16th Century) Computational Science (1930) Data-Intensive Science/e-Science (1998) 58
ABM 13-03-13
59