Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM) Analysis of text file processing on Hadoop Cluster regard to Random Access Memory (RAM) Capacity Tugas Akhir Diajukan untuk memenuhi sebagian dari syarat untuk memperoleh gelar Sarjana Ilmu Komputasi Fakultas Informatika Universitas Telkom
Irvan Nur Aziz 1107110001
Fakultas Informatika Universitas Telkom Bandung 2015
Lembar Pernyataan
Dengan ini saya menyatakan bahwa Tugas Akhir dengan judul “Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM)” beserta seluruh isinya adalah benarbenar karya saya sendiri dan saya tidak melakukan penjiplakan atau pengutipan dengan cara-cara yang tidak sesuai dengan etika keilmuan yang berlaku dalam masyarakat keilmuan. Atas pernyataan ini, saya siap menanggung resiko/sanksi yang dijatuhkan kepada saya apabila kemudian ditemukan adanya pelanggaran terhadap etika keilmuan dalam karya saya ini, atau ada klaim dari pihak lain terhadap keaslian karya saya ini.
Bandung, 5 Agustus 2015 Yang membuat pernyataan,
Irvan Nur Aziz
ii
Lembar Pengesahan Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM) Analysis of text file processing on Hadoop Cluster regard to Random Access Memory (RAM) Capacity Irvan Nur Aziz NIM :1107110001
Telah disetujui dan disahkan sebagai Tugas Akhir Program Studi Sarjana Ilmu Komputasi Fakultas Informatika Universitas Telkom
Bandung, 5 Agustus 2015 Menyetujui
Pembimbing I
Pembimbing II
Fitriyani, S.Si, MT. NIP. 10830595-1
Kemas Rahmat Saleh W, St., M.Eng NIP.06830335-1
iii
Abstrak Implementasi Hadoop cluster untuk pengolahan data secara terdistribusi dalam skala besar sudah menjadi tren saat ini. Hadirnya hadoop cluster sangat membantu dalam bidang pengolahan data, banyak perusahaan yang mengimplementasikan hadoop cluster seperti facebook, yahoo, dan amazon. Hal ini didasari oleh kelebihan hadoop yang dapat memiliki performansi tinggi dengan menggunakan hardware sederhana. Pada dasarnya pengimplementasian Hadoop cluster didasari pada kecepatan pengolahan data skala besar dengan menggunakan hardware yang standar namun dapat memiliki performansi yang baik. Tujuan dari penelitian ini adalah mengimplementasikan hadoop cluster dengan menggunakan benchmark wordcount sebagai tools untuk mengetahui tingkat performansi dari jenis text file dengan memperhatikan kapasitas Random Access Memory (RAM) . Jenis-jenis file text yang ajan diujicoba adalah doc, pdf, csv, xlsx dan txt. Waktu ujicoba yang dihasilkan dari jenis-jenis text file tersebut menunjukan urutan tingkat performansi terbaik dimulai dari jenis text file csv, txt, xlsx, pdf dan yang terakhir adalah jenis file doc. Waktu peningkatan performansi dari semua jenis file tidak mengalami peningkatan yang sama dengan peningkatan kapasitas RAM, pada saat kapasitas RAM ditingkatkan menjadi 100% hasil percobaan menunjukan performansi dari jenis file doc mengalami peningkatan sebesar 4,58%, file pdf sebesar 7,57%, file csv sebesar 8,87%, file xlsx sebesar 8,35% dan file txt sebesar 12,82%. Kata Kunci : Cluster, Hadoop, MapReduce, HDFS, RAM, Bandwidth
iv
Abstract Nowadays, Implementation of Hadoop clusters for distributed processing of data on a large scale has become a trend. The presence of cluster hadoop very helpful in the field of data processing, some companies are implementing hadoop cluster such as facebook, yahoo and amazon. It is based on the hadoop excess which can have high performance by using simple hardware. The aim of this research is to implement hadoop cluster by using Wordcount benchmarks as tools to determine the level of performance of this text file type regard to Random Access Memory (RAM) capacity. The types of text files that will be tested is the doc, pdf, csv, xlsx and .txt. Time trials resulting from the types of the text file showing the best performance level sequence starting from the csv, txt, xlsx, pdf, and doc. The performance enhancement time of all kinds of text files are not proportional with the capacity of RAM, when the RAM capacity increased to 100% of the performance results of the experiment showed doc file increased by 4.58%, pdf file increased by 7.57%, csv file increased by 8.87%, xlsx file increased by 8,35% and txt file increased by 12.82%. Keywords : Cluster, Hadoop, MapReduce, HDFS, RAM, Bandwidth
v
Kata Pengantar
Puji syukur kehadirat Allah SWT yang senantiasa memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan Tugas Akhir dengan judul “Analisis Pengolahan Text File pada Hadoop Cluster dengan Memperhatikan Kapasitas Random Access Memory (RAM)”. Tugas Akhir ini disusun sebagai salah satu syarat yang harus dipenuhi untuk menyelesaikan pendidikan tahap sarjana di Program Studi Sarjana Ilmu Komputasi, Fakultas Informatika Universitas Telkom. Penulis menyadari bahwa Tugas Akhir ini masih jauh dari kesempurnaan yang disebabkan oleh keterbatasan pengetahuan yang dimiliki oleh penulis. Untuk itu saran dan kritik yang bersifat membangun dari pembaca sangat penulis harapkan demi perbaikan di masa yang akan datang. Dengan segala kerendahan hati, penulis berharap Tugas Akhir ini dapat dikembangkan ke arah yang lebih baik dan bermanfaat bagi pembaca dan penulis khususnya, serta bagi dunia pendidikan pada umumnya.
Bandung, 5 Agustus 2015
Penulis
vi
Lembar Persembahan Alhamdulillaahirabbil ‘alamin penulis panjatkan kehadirat Allah SWT karena telah melimpahkan ilmu yang bermanfaat sehingga saya dapat menyelesaikan Tugas Akhir ini dengan sebaik-baiknya. Tidak lupa juga sholawat serta salam kepada Nabi Muhammad SAW. Saya mengucapkan banyak terimakasih kepada orang-orang yang telah membantu dan memberikan kelancaran pada saya untuk menyelesaikan Tugas Akhir ini, baik yang terlibat secara langsung maupun yang tidak. Ucapan terimakasih tesebut saya ucapkan kepada : 1
Kedua orang tua saya, Ayah Ir.Darmono dan Ibu Euis Susilawati yang senantiasa dan selalu mendoakan saya, memberi semangat dihari-hari kuliah sampai dengan pengerjaan tugas akhir ini. Adik-adik saya Ikhsan Muhamad Arif dan Amanda Amalia yang senantiasa menjadi pemicu semangat saya untuk segera menyelesaikan tugas akhir ini agar saya dapat menjadi panutan yang baik. Keluarga besar saya yang selalu memberikan dukungan untuk dapat segera menyelesaikan tugas akhir ini. Semoga kesehatan dan keberkahan selalu menyertai ayah, ibu, adik-adik dan keluarga besar saya. 2 Ibu Fitriyani, S.Si, MT. selaku pembimbing I yang selalu membantu saya dalam setiap kesulitan pada tahapan-tahapan pengerjaan tugas akhir, dan memberikan solusi atas permasalahan pada tugas akhir ini serta Bapak Kemas Rahmat Saleh W, St., M.Eng selaku dosen pembimbing II yang juga selalu membantu saya dalam pengerjaan tugas akhir ini. Semoga kebahagiaan, kesehatan dan kesuksesan selalu menyertai ibu dan bapak. 3 Ibu Sri Suryani P.,S.Si.,M.Si selaku dosen wali yang membimbing saya sejak saya memulai perkulihan dikampus ini, selalu memberi solusi saat saya mengalami kesulitan selama perkuliahan dan memberi saya nasihat agar dapat menjadi lebih baik dalam menjalani perkuliahan. Semoga kebahagiaan, kesehatan dan kesuksesan selalu menyertai ibu. 4 Seluruh dosen Ilmu Komputasi Fakultas Informatika Telkom University yang dengan ikhlas telah memberikan ilmunya. Semoga ilmu ini bisa bermanfaat dan menjadi amal jariah untuk bapak ibu semua. 5 Teman-teman IK-35-01, teman sekelas, teman seperjuangan dari semester pertama sampai sekarang. Terimakasih telah menjadi teman yang senantiasa selalu membantu selama ini, semoga tali silaturahmi kita akan tetap dapat terjaga dengan baik. 6 Pihak yang belum disebutkan diatas, saya sadar manusia merupakan mahluk sosial yang tidak bisa hidup sendiri, namun saling tergantung satu sama lain.
vii
Daftar Isi
LEMBAR PERNYATAAN .......................................................................................II LEMBAR PENGESAHAN ..................................................................................... III ABSTRAKSI ............................................................................................................ IV ABSTRACT................................................................................................................ V KATA PENGANTAR.............................................................................................. VI LEMBAR PERSEMBAHAN .................................................................................VII DAFTAR ISI.......................................................................................................... VIII DAFTAR GAMBAR.................................................................................................. X DAFTAR TABEL .................................................................................................... XI 1. PENDAHULUAN ...................................................................................................1 1.1 LATAR BELAKANG ..............................................................................................1 1.2 PERUMUSAN MASALAH.......................................................................................2 1.3 BATASAN MASALAH ...........................................................................................2 1.4 TUJUAN ..............................................................................................................2 1.5 METODOLOGI PENELITIAN ..................................................................................3 1.6 SISTEMATIKA PENULISAN ...................................................................................3 2. DASAR TEORI ......................................................................................................4 2.1 CLUSTER COMPUTER............................................................................................4 2.2 HADOOP CLUSTER...............................................................................................4 2.3 MAPREDUCE........................................................................................................6 2.3.1 Map Procedure......................................................................................6 2.3.2 Reduce Procedure .................................................................................7 2.3.3 Contoh Proses Hadoop Cluster..............................................................8 2.4 HADOOP DISTRIBUTE FILE SYSYTEM (HDFS) ..........................................................9 2.5 CLOUDERA .......................................................................................................11 2.6 WORDCOUNT .....................................................................................................11 2.7 RANDOM ACCESS MEMORY (RAM) .......................................................................11 2.8 JENIS-JENIS TEXT FILE .......................................................................................11 2.9 CENTOS ............................................................................................................12 3. PERANCANGAN SISTEM.................................................................................13 3.1 GAMBARAN UMUM SISTEM ...............................................................................13 3.2 PREPARATION ....................................................................................................14 3.3 NETWORKING ....................................................................................................14 3.4 INSTALASI HADOOP ..........................................................................................15 3.4.1 Persyaratan ..........................................................................................15 3.4.2 Jaringan ...............................................................................................15 3.4.3 Konfigurasi Secure Shell (SSH) ..........................................................16 3.4.4 Instalasi Hadoop ..................................................................................16 3.4.5 Konfigurasi Instalasi............................................................................17 3.4.6 Cek Instalasi Hadoop...........................................................................18 3.4.7 Cloudera Manager ...............................................................................18 viii
4. PERCOBAAN SISTEM DAN ANALISIS .........................................................19 4.1 GAMBARAN UMUM SISTEM ...............................................................................19 4.1.1 Tujuan Percobaan ................................................................................19 4.2 PERSIAPAN DATA ..............................................................................................19 4.2.1 Pemilihan Data ....................................................................................19 4.2.2 Pembagian Data...................................................................................20 4.3 SKENARIO PERCOBAAN.....................................................................................20 4.4 PROSES PERCOBAAN .........................................................................................20 4.4.1 Transfer File........................................................................................21 4.4.2 Eksekusi File .......................................................................................23 4.5 HASIL PERCOBAAN ...........................................................................................25 4.5.1 Hasil Percobaan Tahap Pertama..........................................................25 4.5.2 Hasil Percobaan Tahap Kedua ............................................................26 4.5.3 Hasil Percobaan Tahap Ketiga ............................................................28 4.5.4 Hasil Percobaan Tahap Keempat ........................................................30 4.5.5 Konfigurasi Instalasi............................................................................32 4.5.6 Cek Instalasi Hadoop...........................................................................35 4.5.7 Cloudera Manager ...............................................................................40 5. PENUTUP .............................................................................................................41 5.1 KESIMPULAN ....................................................................................................41 5.2 SARAN ..............................................................................................................41 DAFTAR PUSTAKA................................................................................................42 LAMPIRAN...............................................................................................................43
ix
Daftar Gambar Gambar 2.1 Map Architecture .................................................................................6 Gambar 2.2 Pseudo-code of Map Procedure...........................................................6 Gambar 2.3 Reduce Architecture.............................................................................7 Gambar 2.4 Pseudo-code of Reduce Procedure ......................................................7 Gambar 2.5 Wordcount ............................................................................................8 Gambar 2.6 Arsitektur Menyimpan Data.................................................................9 Gambar 2.7 Arsitektur Membaca Data ..................................................................10 Gambar 3.1 Gambaran Umum Sistem ...................................................................13 Gambar 3.2 Arsitektur Cluster...............................................................................14 Gambar 3.3 Cloudera Manager Login....................................................................18 Gambar 4.1 Transfer File Via FileZila Site Manager ...........................................21 Gambar 4.2 Transfer File To Master Node ...........................................................21 Gambar 4.3 Transfer File Master Node To HDFS ................................................22 Gambar 4.4 Jar File Directory ...............................................................................23 Gambar 4.5 Jar File Execution...............................................................................23 Gambar 4.6 Jar File Output....................................................................................23 Gambar 4.7 Kondisi Cluster (RAM 2GB) .............................................................24 Gambar 4.8 Kondisi Cluster (RAM 4GB) .............................................................26 Gambar 4.9 Kondisi Cluster (RAM 8GB) .............................................................28 Gambar 4.10 Kondisi Cluster (RAM 16GB) .........................................................30 Gambar 4.11 Grafik Pembanding dengan Kapasitas RAM 2GB...........................32 Gambar 4.12 Grafik Pembanding dengan Kapasitas RAM 4GB...........................33 Gambar 4.13 Grafik Pembanding dengan Kapasitas RAM 8GB...........................34 Gambar 4.14 Grafik Pembanding dengan Kapasitas RAM 16GB.........................34 Gambar 4.15 Grafik Pembanding File Doc ...........................................................35 Gambar 4.16 Grafik Pembanding File Pdf ............................................................36 Gambar 4.17 Grafik Pembanding File Csv............................................................37 Gambar 4.18 Grafik Pembanding File Xlsx ..........................................................38 Gambar 4.19 Grafik Pembanding File Txt ............................................................39 Gambar 4.20 Grafik Pembanding Csv dan Xlsx....................................................40
x
Daftar Tabel Tabel 4.1 Pembagian Data .....................................................................................20 Tabel 4.2 Hasil Percobaan File Doc (RAM 2GB) .................................................24 Tabel 4.3 Hasil Percobaan File Pdf (RAM 2GB) ..................................................25 Tabel 4.4 Hasil Percobaan File Csv (RAM 2GB) .................................................25 Tabel 4.5 Hasil Percobaan File Xlsx (RAM 2GB) ................................................25 Tabel 4.6 Hasil Percobaan File Txt (RAM 2GB) ..................................................25 Tabel 4.7 Hasil Percobaan File Doc (RAM 4GB) .................................................26 Tabel 4.8 Hasil Percobaan File Pdf (RAM 4GB) ..................................................27 Tabel 4.9 Hasil Percobaan File Csv (RAM 4GB) .................................................27 Tabel 4.10 Hasil Percobaan File Xlsx (RAM 4GB) ..............................................27 Tabel 4.11 Hasil Percobaan File Txt (RAM 4GB) ................................................27 Tabel 4.12 Hasil Percobaan File Doc (RAM 8GB) ...............................................28 Tabel 4.13 Hasil Percobaan File Pdf (RAM 8GB) ................................................29 Tabel 4.14 Hasil Percobaan File Csv (RAM 8GB) ...............................................29 Tabel 4.15 Hasil Percobaan File Xlsx (RAM 8GB) ..............................................29 Tabel 4.16 Hasil Percobaan File Txt (RAM 8GB) ................................................29 Tabel 4.17 Hasil Percobaan File Doc (RAM 16GB) .............................................30 Tabel 4.18 Hasil Percobaan File Pdf (RAM 16GB) ..............................................31 Tabel 4.19 Hasil Percobaan File Csv (RAM 16GB) .............................................31 Tabel 4.20 Hasil Percobaan File Xlsx (RAM 16GB) ............................................31 Tabel 4.21 Hasil Percobaan File Txt (RAM 16GB) ..............................................31
xi
1. PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi terus berkembang pesat dari tahun ke tahun hal ini karena permintaan dan kebutuhan masyarakat yang semakin banyak, mulai dari penelitian, pekerjaan, hingga hiburan. Salah satu sektor teknologi yang terkena dampak dari perkembangan yang sangat pesat ini adalah sektor data elektronik, ukuran data-data elektronik yang dimiliki oleh perusahaan sebelumnya hanya gigabyte hingga terabyte namun saat ini sudah mengalami peningkatan yang sangat signifikan, data yang dimiliki perusahaan sudah mencapai ukuran petabyte. Dengan data sebesar itu maka diperlukan metode pengolahan data yang optimal dan tempat penyimpanan yang juga sangat besar. Adakalanya aplikasi yang dibuat membutuhkan komputer dengan sumber daya yang tinggi sebagai lingkungan implementasi dan biasanya harga untuk komputer dengan sumber daya yang tinggi tidaklah murah sedangkan untuk komputer dengan spesifikasi yang tidak terlalu tinggi akan kurang reliable dalam menangani data yang begitu besar (Venner, 2009) [4]. Untuk melakukan komputasi dengan data yang sangat besar, Google memberikan suatu metode yang dinamakan MapReduce. MapReduce melakukan komputasi dengan membagi beban komputasi dan diproses secara paralel atau bersama-sama (Dean, 2004) [4]. Terinspirasi oleh adanya Google File System (GFS) yang dikembangkan oleh Google yang digunakan untuk mengolah data mentah dengan jumlah yang sangat besar maka apache membuat framework berbasis java yang diberi nama Hadoop. Hadoop diciptakan oleh Doug Cutting dan Mike Cafarella pada tahun 2005. Hadoop adalah sebuah framework berbasis java. Hadoop bekerja secara terdistribusi dengan 2 buah proses utama yaitu MapReduce dan Hadoop Distributed File System (HDFS). Hadoop memiliki kelebihan dapat secara cepat dan optimal didalam mengolah data yang sangat besar dengan kualitas hardware yang standar. Random access memory (RAM) adalah memori tempat penyimpanan sementara pada komputer saat komputer dijalankan. RAM berfungsi untuk mempercepat pemprosesan data pada komputer, semakin besar ukuran RAM pada komputer maka pemprosesan data akan semakin cepat. Text file merupakan dokumen yang biasanya digunakan untuk media pengolahan kata pada perangkat komputer. Terdapat berbagai macam jenis file yang dapat dibedakan berdasarkan formatnya. Maka pada tugas akhir ini akan dilakukan analisis pengolahan text file pada hadoop cluster dengan memperhatikan kapasitas (RAM).
1
1.2 Perumusan Masalah Berdasarkan latar belakang yang diuraikan diatas, maka rumusan masalah tugas akhir ini adalah 1. Bagaimana implementasi hadoop cluster berbasis personal computer (pc)? 2. Berapa besar peningkatan performansi hadoop cluster jika spesifikasi RAM ditingkatkan? 3. Bagaimana perbandingan performansi pengolahan text file untuk setiap jenis file pada hadoop cluster?
1.3 Batasan Masalah Untuk mendapatkan hasil yang spesifik sesuai dengan yang diinginkan, dalam penelitian ini ditentukan batasan masalah sebagai berikut: 1. Hardware yang dianalisis adalah RAM. 2. Kapasitas RAM yang digunakan 2 Gigabyte, 4 Gigabyte, 8 Gigabyte dan 16 Gigabyte. 3. Jumlah Komputer yang digunakan sebanyak 3 buah. 4. Menggunakan operating system Centos. 5. Menggunakan Wordcount sebagai aplikasi benchmark. 6. Jenis file yang digunakan untuk proses uji coba adalah jenis file doc, pdf, csv, xlsx dan txt
1.4 Tujuan Adapun tujuan dari penelitian tugas akhir ini adalah: 1. Mengimplementasikan hadoop cluster. 2. Mengetahui berapa kali lipat peningkatan performansi hadoop cluster jika spesifikasi RAM ditingkatkan. 3. Mengetahui perbandingan performansi pengolahan text file untuk setiap jenis file pada hadoop cluster.
2
1.5 Metodologi Penelitian 1.
2.
3. 4.
5.
Studi Literatur Merupakan tahap pencarian referensi dan literatur yang berhubungan tahap, yang berhubungan dengan tujuan penelitian Tugas Akhir Hipotesis Awal Merupakah tahap pengambilan intisari dan studi literatur untuk siap diimplementasikan, termasuk penentuan metode yang digunakan untuk menyelesaikan percobaan. Implementasi Merupakan tahap pembangunan Hadoop cluster. Analisis dan Percobaan Merupakan tahap analisis kinerja dari sistem yang dibangun, yang akan diukur dari hasil pemprosesan data. Kesimpulan Merupakan pengambilan kesimpulan dari penelitian tugas akhir yang mengacu dari analisa pada tahap sebelumnya.
1.6 Sistematika Penulisan Sistematika penulisan laporan Tugas Akhir ini terdiri atas lima bab yang disusun sebagai berikut: BAB I
Pendahuluan Berisi latar belakang, tujuan penelitian, rumusan masalah, batasan masalah, metodologi penelitian dan sistematika penulisan.
BAB II
Dasar Teori Berisi teori-teori yang mendukung dan mendasari penulisan laporan Tugas Akhir.
BAB III
Perancangan dan Implementasi Sistem Berisi urutan proses perancangan dan implementasi sistem Hadoop Cluster dengan menggunakan Cloudera Manager.
BAB IV
Percobaan Sistem dan Analisis Berisi penjelasan tentang skenario percobaan sistem dan analisis terhadap hasil penelitian yang telah dilakukan.
BAB V
Kesimpulan dan Saran Berisi kesimpulan dari analisa yang telah dilakukan dan saran untuk penelitian selanjutnya.
3
2. DASAR TEORI 2.1 Cluster Computer Cluster Computer merupakan kumpulan atau gabungan dari dua buah komputer atau lebih yang digabungkan menjadi satu bagian melalui sebuah jaringan berupa interkoneksi atau Local Area Network (LAN). Secara fungsional gabungan dari komputer menjadi satu bagian namun secara fisik komputerkomputer terpisah satu dengan lainya. Pemanfaatan cluster biasanya untuk mendukung sebuah pekerjaan yang membutuhkan sumberdaya komputer dengan spesifikasi tinggi. Cara kerja dari sebuah cluster computer adalah dengan menggabungkan sumberdaya yang dimiliki masing-masing komputer, jika pada cluster terdapat 5 buah komputer dengan spesifikasi masing-masing processor pada komputer adalah 7 core maka cluster tersebut memiliki sumberdaya sebesar 35 core.
2.2 Hadoop cluster Hadoop merupakan salah satu framework berbasis java milik apache yang diciptakan oleh Doug Cutting dan Mike Cafarella pada tahun 2005. Hadoop berfungsi untuk mengolah data skala besar (Big Data) dengan kecepatan berkalikali lipat dibandingkan dengan metode konvensional, tidak hanya data dengan ukuran Gigabyte dan Terabyte yang dapat diolah, namun data dengan ukuran Petabyte dapat diolah oleh Hadoop. Framework Apache Hadoop tersusun dari 4 modul berikut: 1 Hadoop Common – berisi libraries dan utilities yang dibutuhkan oleh modul Hadoop lainnya. 2 Hadoop Distributed File System (HDFS) – sebuah distributed file-system. 3 Hadoop YARN – sebuah platform resource-management yang bertanggung jawab untuk mengelola resources dalam clusters dan scheduling. 4 Hadoop MapReduce – sebuah model programming untuk pengelolaan data skala besar. Seiring dengan perkembangan dunia teknologi dan informasi kini hadoop memiliki pengembangan dibidang perangkat lunak yang dikenal sebagai hadoop ecosystem, berikut ini merupakan beberapa produk dari hadoop ecosystem dan kegunaanya: 1. Pig, adalah scripting platform untuk pengembangan dan eksekusi job Hadoop. Pig memberikan pengalaman development yang lebih mudah dibandingkan pemrograman MapReduce berbasis pemrograman Java. Pig umumnya digunakan dalam kebutuhan pengolahan data mentah untuk menjadi data matang kebutuhan analitik selanjutnya baik menggunakan Hive maupun Mahout. 4
2. Hive, service Data Warehouse yang mengakses langsung file-file yang tersimpan dalam HDFS, dan juga diset untuk mengakses langsung berbagai table HBase. Hive memberikan pengalaman development yang lebih familiar karena menggunakan sintaks SQL yang sudah dikenal umum. Umumnya Hive digunakan untuk kebutuhan analisis data lebih lanjut yang sebelumnya yang sudah matang diproses oleh Pig atupun Mahout. 3. Mahout adalah library Machine Learning (ML) –berbasis pemrograman Java– yang teruji kompatibel dengan platform komputasi MapReduce Hadoop untuk pemrosesan analitik prediktif (predictive analytic) 4. Hue adalah server web portal yang dapat mengakses langsung Hadoop. Hue dapat digunakan untuk meregistrasi job Hadoop, monitor proses eksekusinya dan me-review hasilnya. 5. HBase, database terdistribusi untuk menampung Big data secara terstruktur dalam suatu table sangat besar. HBase juga terinspirasi oleh pengembangan Google BigTable. 6. Sqoop memungkinkan integrasi data antara RDBMS ataupun database NoSQL lainnya dengan Hadoop. 7. Flume, untuk mengakuisisi sumber data berbasis logfiles secara real-time. 8. Avro, suatu kontainer untuk menampung kumpulan data berukuran kecil dalam satu file binary besar yang kompak, terstruktur skema-datanya & ringan untuk diproses lebih lanjut oleh MapReduce. 9. Oozie, untuk kebutuhan pengelolaan job scheduling & kontrol proses workflow dari serangkaian MapReduce Job yang saling terkait. 10. Zookeeper, high-performance service untuk koordinasi pelbagai aplikasi terdistribusi yang berjalan di atas Hadoop [10]. Hadoop bekerja dengan prinsip membagi-bagi skala data berukuran besar menjadi beberapa bagian kecil dan kemudian memproses data-data potongan kecil tersebut secara paralel. Hadoop dapat bekerja pada sebuah komputer atau lebih (cluster). cluster adalah 2 buah komputer atau lebih yang saling terhubung melalui sebuah jaringan. Maka Hadoop sering dikenal dengan istilah Hadoop cluster karena proses kerjanya pada sebuah cluster. Hadoop memiliki 2 proses utama: 1. MapReduce 2. Hadoop Distributed File System (HDFS)
5
2.3 MapReduce MapReduce pertama kali dikenalkan oleh Jeffrey Dean dan Sanjay Ghemawat dari Google,Inc. MapReduce adalah model pemograman terdistribusi yang digunakan untuk melakukan pengolaha data digunakan pengolahan data besar (Ghemawat, 2004). Mapreduce membagi input data menjadi beberapa potongan data, masing-masing ditugaskan sebagai map task yang dapat memproses data secara pararel.MapReduce didalam prosesnya dibantu oleh Jobtracker dan Tasktracker sehingga proses dapat berjalan dengan baik. MapReduce memiliki 2 tahapan utama, yaitu Map dan Reduce. 2.3.1
Map Procedure Berikut ini merupakan gambaran arsitektur dari prosedur Map pada proses MapReduce.
Map
Input
Data
Reduce
Map
Map
Gambar 2.1 Map Architecture
Pada proses ini jobtracker menerima atau membaca data masukan dalam bentuk pasangan key/value yang kemudian dipecah-pecah dengan ukuran tertentu, setelah dipecah-pecah data dibagikan kepada tasktracker untuk di proses dan disimpan didalam tempat-tempat penyimpanan yang tersedia secara terdistribusi. Output dari proses map ini adalah pasangan key/value. Map memiliki identitas value dan key yang disebut dengan pasangan intermediate, yang berguna sebagai alamat ketika dalam proses reduce. Secara singkat prosedur map dapat dituliskan dengan pseudo-code sebagai berikut: MapProcess(FileName, file- contents); For each word in file – contents; Output (word.1); Gambar 2.2 Pseudo-code of Map Procedure
6
2.3.2
Reduce Procedure Berikut ini merupakan gambaran arsitektur dari prosedur Map pada proses MapReduce.
Map
Output
Data
Reduce
Map
Map
Gambar 2.3 Reduce Architecture
Pada proses ini jobtracker menerima permintaan data kemudian memanggil para tasktracker (penyimpan data yang diminta) sesuai dengan pasangan intermediate
. setelah itu data-data dari tasktracker dikumpulkan menjadi satu secara terdistribusi untuk memberi jawaban dari data yang diminta. Secara singkat prosedur Reduce dapat dituliskan dengan pseudocode sebagai berikut:
ReduceProcess(word, values);sum = 0 For each value in values; sum = sum + value Output (word.sum); Gambar 2.4 Pseudo-code of Reduce Procedure
7
2.3.3
Contoh Proses Hadoop Cluster Berikut ini merupakan gambaran dari proses hadoop cluster pada aplikasi benchmark wordcount.
Gambar 2.5 Wordcount [12]
Aplikasi benchmark wordcount pada hadoop merepresentasikan prinsip kerja hadoop secara terdistribusi yaitu dengan memecah data menjadi beberapa bagian kecil kemudian memprosesnya. Pada gambar diatas terdapat beberapa paraggraf yang mengandung kata-kata sebagai masukan, kemudian proses map pada hadoop cluster memecah paragraph berdasarkan kata-kata dan memberi nilai 1 untuk masing-masing kata. Setelah paragraph terpecah menjadi kata-kata maka selanjutnya dilakukan proses reduce untuk mengelompokan kata-kata yang sama menjadi satu dan menjumlahkan setiap nilai kata dalam satu kelompok. Sehingga jika sebuah data dimasukan pada aplikasi benchmark wordcount maka aplikasi ini dapat menghitung berapa banyak jumlah kata pada data tersebut berdasarkan kata-kata yang sama.
8
2.4 Hadoop Distributed File System (HDFS) Hadoop Distributed File System (HDFS) adalah file sistem terdistribusi yang berasal dari Hadoop. File sistem terdistribusi adalah file sistem yang bekerja dengan cara menyimpan data dengan membagi-bagi data kedalam ukuran tertentu dan menempatkan pada tempat penyimpanan yang berbeda di dalam sebuah cluster. Potongan-potongan data yang dibagi menjadi beberapa bagian disebut dengan HDFS blok. HDFS memiliki 2 buah komponen utama, yaitu NameNode dan DataNode. NameNode adalah sebuah komputer yang berperan sebagai kepala pada cluster, sedangkan DataNode merupakan komputer-komputer yang berperan sebagai anak buah pada cluster. Keberhasilan proses distribusi file sistem pada HDFS ini ditentukan oleh kinerja dari 2 buah komponen utama diatas. Sebagai kepala, NameNode bertugas untuk mengatur penempatan data-data yang masuk untuk ditempatkan pada blok-blok yang tersedia pada cluster dan bertanggung jawab atas data-data tersebut. Sedangkan DataNode bertugas untuk menjaga blok-blok data yang sudah terisi data dan melaporkan kondisinya secara berkala kepada NameNode, kondisi ini disebut dengan Heartbeat. HDFS memiliki 2 buah prosedur, yaitu menyimpan data dan membaca data. 1. Prosedur menyimpan data Untuk prosedur menyimpan data harus ada sebuah komputer client yang terhubung dengan sebuah Hadoop cluster.
E NameNode
C B
A D
HDFS Client DataNode
Gambar 2.6 Arsitektur Menyimpan Data
Langkah-Langkah prosedur menyimpan data sebagai berikut: A. User memasukan perintah masukan pada komputer client B. Komputer client berkomunikasi dengan NameNode memberitahu bahwa ada data yang akan disimpan dan menanyakan lokasi blok-blok tempat menyimpan data. C. Komputer client mendapat jawaban dari NameNode berupa lokasi blok-blok untuk penyimpanan data. 9
D. Komputer client langsung berkomunikasi dengan DataNode untuk memasukan data-data pada lokasi blok-blok yang sudah diatur NameNode. Data sudah otomatis terbelah-belah sesuai dengan ukuran yang di setting sehingga dapat langsung menempati blok-blok yang sudah ditentukan. E. DataNode memberikan laporan kepada NameNode bahwa datadata telah masuk dan menempati blok-blok yang sudah ditentukan oleh NameNode. 2. Prosedur Membaca data Untuk prosedur membaca data harus ada sebuah komputer client yang terhubung dengan sebuah Hadoop cluster.
NameNode
B C
A
D E
HDFS Client DataNode
Gambar 2.7 Arsitektur Membaca Data
Langkah-Langkah prosedur membaca data sebagai berikut: A. User memasukan perintah untuk mengambil data pada komputer client. B. Komputer client berkomunikasi dengan NameNode untuk menanyakan alamat DataNode penyimpan data yang diinginkan. C. Komputer client mendapat jawaban dari NameNode berupa lokasi blok-blok tempat penyimpanan data yang inginkan. D. Komputer client secara langsung berhubungan dengan DataNode untuk mengakses lokasi blok-blok tempat penyimpanan data yang diinginkan. E. DataNode akan memberikan data yang diinginkan dan data secara otomatis akan ditampilkan pada layar komputer client.
10
2.5 Cloudera Cloudera merupakan pelopor dari berdirinya sebuah hadoop distribusi didalam dunia teknologi, hadoop distribusi itu sendiri merupakan sebuah software yang menambahkan tools-tools serta konfigurasi khusus pada hadoop. Cloudera didirikan oleh orang-orang yang memiliki kontribusi didalam terciptanya hadoop apache, saat ini cloudera memiliki beberapa versi dari mulai versi gratis sampai versi berbayar.
2.6 Wordcount Wordcount merupakan salah satu benchmark tools yang dimiliki oleh hadoop yang berfungsi untuk melakukan perhitungan jumlah kata-kata yang sama dalam sebuah dokumen dengan skala besar.
2.7 Random Access Memory (RAM) RAM adalah memori tempat penyimpanan sementara pada komputer pada saat dijalankan. RAM bekerja dengan menyimpan dan menyuplai data-data yang dibutuhkan processor secara cepat untuk nantinya akan diolah oleh processor dan menjadi sebuah informasi. RAM berfungsi untuk mempercepat pemrosesan data pada komputer. RAM memiliki ukuran yang disebut dengan kapasitas RAM, mulai dari 512 Megabyte, 1 Gigabyte hingga 8 Gigabyte, dan tidak menutup kemungkinan kapasitas RAM akan terus bertambah besar seiring dengan kebutuhan. Semakin besar kapasitas pada RAM makan Pemprosesan pada komputer akan semakin cepat
2.8 Jenis-Jenis Text File Text file merupakan dokumen yang biasanya digunakan untuk media pengolahan kata pada perangkat komputer. Terdapat berbagai macam jenis file yang dapat dibedakan berdasarkan formatnya. Berikut ini merupakan beberapa jenis text file: 1. Doc Doc adalah sebuah ekstensi file yang digunakan pada dokumen pengolah kata biasanya digunakan pada Microsoft Word. Pada tahun 1990-an Microsoft memilih menggunakan ekstensi *.doc pada pengolah kata Microsoft Word.
11
2. Portable Document Format (pdf) PDF (Portable Document Format) adalah sebuah format berkas yang dibuat oleh Adobe System pada tahun 1993 untuk keperluan pertukaran dokumen digital. Format PDF digunakan untuk merepresentasikan dokumen dua dimensi yang meliputi teks, huruf, citra dan grafik vektor dua dimensi. 3. Csv Comma Separated Values (CSV) adalah suatu format data dalam basis data di mana setiap record dipisahkan dengan tanda koma (,) atau titik koma (;). Selain sederhana, format ini dapat dibuka dengan berbagai text-editor seperti Notepad, Wordpad, bahkan MS Excel. 4. Xlsx Xlsx adalah jenis ekstensi file yang berasal dari software Microsoft Excel, dibuat oleh Microsoft Corporation. Biasa digunakan untuk memperhitungkan, mempresentasi data, menganalisa dll. 5. Txt Txt adalah jenis ekstensi yang merupakan format mendasar dari teks file. Untuk membuat dan membuka file ini dapat digunakan notepad, wordpad , ataupun text editor lainnya [9].
2.9 Centos CentOS Linux adalah platform yang stabil, dapat diprediksi, dikelola dan reproduceable berasal dari sumber Red Hat Enterprise Linux (RHEL). CentOS Linux telah menjadi sumber distribusi komunitas karena bersifat opensource Hat. Dengan demikian, CentOS Linux bertujuan untuk menjadi fungsional kompatibel dengan RHEL.
12
3. PERANCANGAN SISTEM 3.1 Gambaran Umum Sistem Perancang memberikan gambaran bagaimana merancang sebuah sistem sampai dengan proses kerja pada sistem. Perancangan sistem dibagi menjadi 3 buah tahap utama. Tahap pertama adalah menyiapkan komponen-komponen hardware pendukung, kedua adalah instalasi hadoop cluster (Cloudera Manager), ketiga adalah pengolahan data pada hadoop cluster. Perancangan sistem dimulai dengan pemilihan hardware dengan spesifikasi tertentu sesuai dengan kebutuhan cluster, spesifikasi pada setiap komputer didalam cluster harus memiliki spesifikasi yang sama agar cluster dapat berjalan dengan baik. Tahap selanjutnya adalah proses networking, networking dilakukan pada komputer-komputer yang akan digabungkan menjadi sebuah cluster agar setiap komputer dapat terhubung kedalam sebuah jaringan dan dapat saling berkomunikasi satu dengan lainnya. Tahap selanjutnya adalah instalasi hadoop dengan menggunakan Cloudera Manager, jika tahap instalasi hadoop sudah selesai maka proses selanjutnya adalah pengolahan data menggunakan fitur dari hadoop yaitu wordcount dengan menggunakan sebuah dokumen sebagai masukan. Setelah wordcount dilakukan didapatkan hasil berupa sebuah data yang selanjutnya akan dianalisis. Ilustrasi dapat dilihat pada gambar dibawah ini Mulai
Input Data RAM 4GB
RAM 8GB
WordCount
WordCount
Output
Output Analisis
Kesimpulan
Selesai
Gambar 3.1 Gambaran Umum Sistem
13
3.2 Preparations Pada tahap preparations dilakukan pengumpulan komponen-komponen hardware yang akan dibentuk menjadi sebuah cluster, komponen-komponen tersebut diantaranya : 1. 3 buah komputer dengan spesifikasi yang sama, pada perancangan sistem ini perancang menggunakan spesifikasi komputer sebagai berikut: a. Processor Core i3 b. RAM 2GB, RAM 4GB, RAM 8GB dan RAM 16GB c. Operating System: Centos 2. Switch 3. Kabel LAN
3.3 Networking Pada tahap networking dilakukan proses penggabungan komponenkomponen yang sudah disiapkan pada tahap sebelumnya kedalam sebuah jaringan, sehingga setiap komputer terhubung satu dengan lainnya. Berikut ini merupakan gambaran dari networking pada cluster yang akan dibangun.
Master Node Nodee 10.5.1.194
Sl Slave N Node d 10.5.1.195
Slave Node 10.5.1.196
Gambar 3.2 Arsitektur Cluster
14
3.4 Instalasi Hadoop Pada tahap instalasi hadoop perancang menggunakan Cloudera Manager sebagai hadoop distribusi, pemilihan ini atas pertimbangan banyaknya pengguna Cloudera Manager pada saat ini serta sumber referensi yang lebih banyak dibandingkan dengan hadoop distribusi lainya seperti HortonWorks, MapR dll. Versi Cloudera yang digunakan dalam perancangan sistem ini adalah versi 5.2.0. Berikut ini adalah tahapan-tahapan utama untuk membangun Hadoop Cluster: 3.4.1
Persyaratan Berikut ini merupakan beberapa persyaratan sebelum melakukan instalasi hadoop cluster: 1. Install java pada Master Node dan Slave Node. Untuk mengistal java pada komputer Ketikan perintah java-version pada terminal untuk mengetahui apakah java sudah terinstall dengan baik pada komputer. 2. Pastikan Sel Linux dalam keadaan disable. Ketikan perintah more /etc/selinux/config untuk memastikan Sel linux sudah dalam keadaan disable. 3. Pastikan IPTABLES dalam keadaan disable melalui chkconfig ketikan perintah iptables –L –v –n untuk memastikan IPTABLES sudah dalam keadaan disable.
3.4.2
Jaringan Untuk memudahkan proses instalasi sampai dengan proses penggunaan hadoop cluster maka IP (Internet Protocol) pada Master Node dan seluruh Slave Node dibuat menjadi IP Static, ini berfungsi agar kita tidak perlu lagi melakukan setting IP jika Master Node atau Slave Node mati atau direstart. Setelah memastikan seluruh IP pada Master Node dan Slave Node adalah IP Static kemudian edit file /etc/hosts pada Master Node dan Slave Node dengan mengetikan perintah cat /etc/hosts. Tambahkan IP dan hostname komputer-komputer lain pada masing-masing komputer agar setiap komputer dapat melakukan komunikasi.
15
3.4.3
Konfigurasi Secure Shell (SSH) Lakukan konfigurasi SSH pada Master Node dan Slave Node agar dapat mengendalikan node-node atau mentransfer file antara node. Berikut ini adalah langkah-langkah untuk melakukan konfigurasi SSH: 1. Masuk sebagai root pada Centos dengan mengetikan perintah su pada terminal. 2. Install open ssh server dan client dengan mengetikan perintah yum –y install openssh-server openssh-clients. 3. Setelah proses instalasi selesai lakukan konfigurasi pada sshd_config dengan mengetik perintah cat /etc/ssh/sshd_config. 4. Ganti PermitRootLogin yang semula “YES” ubah menjadi “NO” 5. Ganti PermitEmptyPassword yang semula “YES” ubah menjadi “NO” 6. Buat user authentication untuk komputer-komputer agar dapat mengakses ssh server. Contoh: AllowUser Master Node. 7. Save ssh_config. 8. Restart sshd dengan mengetikan perintah /etc/ini.d/sshd restart.
3.4.4
Instalasi Hadoop Pada tahap instalasi hadoop dibagi menjadi 2 bagian : 1. Instalasi Master Node Instalasi Master Node ini adalah proses instalasi Cloudera Hadoop Package Server. Komponen-komponen yang harus diinstal pada Master Node sebagai berikut: a. jdk-6u31-linux-amd64.rpm (jika java belum terinstal pada komputer) b. oracle-j2sdk1.7-1.7.0+update67-1.x86_64.rpm c. cloudera-manager-daemons-5.2.0 1.cm520.p0.60.el6.x86_64.rpm d. cloudera-manager-agent-5.2.01.cm520.p0.60.el6.x86_64.rpm e. cloudera-manager-server-5.2.01.cm520.p0.60.el6.x86_64.rpm f. cloudera-manager-server-db-2-5.2.0 1.cm520.p0.60.el6.x86_64.rpm
16
Ketik perintah yum –nogpgcheck localinstall untuk menginstal package diatas 2. Instalasi Slave Node Instalasi Slave Node ini adalah proses instalasi Cloudera Hadoop Package Agent. Komponen-komponen yang harus diinstal pada Slave Node sebagai berikut: a. jdk-6u31-linux-amd64.rpm (jika Java belum terinstal pada komputer) b. oracle-j2sdk1.7-1.7.0+update67-1.x86_64.rpm c. cloudera-manager-daemons-5.2.01.cm520.p0.60.el6.x86_64 .rpm d. cloudera-manager-agent-5.2.01.cm520.p0.60.el6.x86_64.rpm Ketik perintah yum –nogpgcheck localinstall untuk menginstal package diatas Langkah selanjutnya setelah kedua tahapan diatas telah dilakukan adalah menyalin cloudera manager pada directory master dengan mengetikan perintah cp /opt/cloudera/parcels-repo. Kemudian ketikan perintah chmod 640 dan chown sebagai permission untuk instalasi cloudera manager. 3.4.5
Konfigurasi Instalasi Pada tahapan ini dilakukan konfigurasi-konfigurasi pada komponen yang sudah diinstal pada Master Node dan Slave Node. Untuk memulai proses konfigurasi kita dapat mengubah file config cloudera agent dengan mengetikan perintah cat /etc/cloudera-scmagent/config.ini. Setelah terbuka halaman config.ini ganti server_host dengan hostname atau IP dari komputer yang akan dijadikan sebagai Master Node pada cluster, contoh didalam perancangan sistem menggunakan hostname Master maka sever_host diisi dengan server_host=Master. Lakukan langkah pergantian host_server disemua komputer yang akan digunakan sebagai Slave Node pada cluster. Setelah pergantian selesai maka langkah selanjutnya adalah restart cloudera-scm agent dengan mengetikan perintah service cloudera-scm-agent start, lakukan ini pada seluruh komputer yang telah dilakukan pergantian pada server_host.
17
3.4.6
Cek Instalasi Hadoop Pada tahapan ini dilakukan pengecekan pada seluruh serviceservice package yang telah diinstal sebelumnya pada Master Node dan Slave Node, hal ini perlu dilakukan untuk memastikan seluruh package sudah benar-benar terinstal dengan baik agar proses selanjutnya berjalan dengan lancar. Berikut ini merupakan proses pengecekan pada instalasi hadoop: 1. Proses pengecekan service package yang dilakukan pada Master Node diantaranya sebagai berikut: a. Cloudera-scm-server b. Cloudera-scm-server-db c. Cloudera-scm-agent 2. Sedangkan proses pengecekan service package yang dilakukan pada Slave Node adalah cloudera-scm-agent. Untuk proses pengecekan status dapat dilakukan mengetikan perintah service status.
3.4.7
dengan
Cloudera Manager Pada tahapan ini merupakan tahap untuk membuka halaman login dari cloudera manager, jika seluruh pengecekan service sudah selesai dan tidak ada masalah maka proses untuk membuka halaman login cloudera manager dapat langsung dilakukan dengan mengetikan :7180 pada browser. Untuk username dan password default adalah admin
Gambar G b 3.3 3 3 Cloudera Cl d M Manager L Login i
18
4. PERCOBAAN SISTEM DAN ANALISIS 4.1 Percobaan Sistem Percobaan merupakan tahap uji coba terhadap sistem yang sudah dibangun, percobaan dibutuhkan untuk mengetahui apakah sistem telah berjalan dengan lancar dan siap untuk digunakan. Dan analisis diperlukan untuk mendapatkan kesimpulan dari hasil ujicoba yang dilakukan pada sistem yang sudah melewati tahapan percobaan, didalam tugas akhir ini analisis difokuskan pada pengaruh RAM, sehingga yang menjadi parameter utama yang diperhatikan didalam analisis adalah RAM. Pada tahapan percobaan sistem dan analisis ini akan menjelaskan bagaimana skenario percobaan dilakukan sampai dengan pengambilan hasil percobaan. 4.1.1
4.2
Tujuan Percobaan Berikut ini merupakan tujuan dari tahapan percobaan sistem dan analisis: 1. Mengetahui kondisi sistem setelah selesai proses pembangunan. 2. Mengetahui pengaruh perubahan kapasitas RAM terhadap kinerja sistem. 3. Mengetahui perbandingan performansi pengolahan text file untuk setiap jenis file terhadap kinerja sistem.
Persiapan Data
Persiapan data merupakan tahapan pengumpulan data-data yang akan digunakan pada proses percobaan sistem, tahapan ini sangat penting untuk mempercepat proses pengolahan data nantinya setelah pembangunan sistem selesai. 4.2.1 Pemilihan Data Data-data yang dipilih untuk proses percobaan ini berupa beberapa jenis file yang berbasis text, jenis-jenis file yang akan diproses pada percobaan sistem adalah sebagai berikut: A. B. C. D. E.
Doc Pdf Csv Xlsx Txt
19
4.2.2 Pembagian Data Pada proses pembagian data, data pada setiap file dibagi menjadi 5 bagian yang berbeda-beda ukuran (100MB, 200MB, 300MB, 400MB, 500MB) dan disesuaikan untuk kepentingan selanjutnya yaitu skenario percobaan sistem. Berikut ini merupakan tabel pembagian data. No 1 2 3 4 5
Doc 100 MB 200 MB 300 MB 400 MB 500 MB
Pembagian Data Pdf Csv 100 MB 100 MB 200 MB 200 MB 300 MB 300 MB 400 MB 400 MB 500 MB 500 MB
Xlsx 100 MB 200 MB 300 MB 400 MB 500 MB
Txt 100 MB 200 MB 300 MB 400 MB 500 MB
Tabel 4.1 Pembagian Data
Pembagian data diatas didapatkan dengan cara menggabungkan beberapa file kedalam sebuah folder sehingga pada folder tersebut berisikan beberapa file dengan ukuran yang diinginkan.
4.3
Skenario Percobaan
Skenario percobaan merupakan gambaran bagaimana cara percobaan sistem akan dilakukan. Dalam tugas akhir ini percobaan dilakukan berdasarkan parameter utama yaitu kapasitas RAM, skenario percobaan pada sistem dibagi menjadi 4 buah tahapan utama, berikut ini merupakan tahapan utama dari skenario percobaan: 1. 2. 3. 4.
Proses percobaan sistem dengan menggunakan kapasitas RAM 2GB. Proses percobaan sistem dengan menggunakan kapasitas RAM 4GB. Proses percobaan sistem dengan menggunakan kapasitas RAM 8GB. Proses percobaan sistem dengan menggunakan kapasitas RAM 16GB.
Pada setiap tahapan dilakukan proses percobaan menggunakan skenario tabel pembagian data, setiap ukuran data pada file dilakukan proses percobaan sebanyak 3 kali dan akan diambil nilai rata-rata dari ke-3 proses percobaan tersebut, hal ini dilakukan agar dapat menghasilkan hasil yang optimal.
4.4
Proses Percobaan
Proses percobaan dilakukan dengan melakukan percobaan data-data dengan skenario percobaan yang telah dibuat sebelumnya.
20
4.4.1 Transfer File (data-data) Langkah pertama pada proses percobaan adalah transfer file, transfer file dilakukan untuk menempatkan data-data yang berada pada local disk kedalam directory sistem (hadoop cluster). Gambar 4.2 dan 4.3 menunjukan proses transfer file dengan menggunakan software FileZila.
Gambar 4.1 Transfer File Via FileZila Site Manager
Gambar 4.2 Transfer File To Master Node
21
Setelah file berada pada Master Node maka tahap selanjutnya adalah copy file kedalam HDFS directory dengan mengetikan perintah hadoop fs –put <Master Node_Directory> . Berikut ini merupakan copy file kedalam HDFS yang perancang lakukan pada tahap percobaan sistem.
Gambar 4.3 Transfer File Master Node To HDFS
Sebelum melakukan transfer file perancang terlebih dahulu membuat folder khusus pada directory HDFS sebagai tempat untuk file yang akan ditransfer, folder-folder yang dibuat oleh perancang diantaranya sebagai berikut: 1. 2. 3. 4. 5.
Admin/File-csv Admin/File-docx Admin/File-pdf Admin/File-txt Admin/File-xlsx
22
4.4.2 Eksekusi File (data-data) Proses eksekusi file dilakukan dimulai dengan tahapan mengakses file jar yang terletak pada directory /opt/cloudera/parcels/CDH/lib/hadoop0.20-mapreduce. Berikut ini merupakan gambaran akses file jar.
Gambar 4.4 Jar File Directory
Setelah berada pada jar file directory proses selanjutnya adalah eksekusi file jar dengan data-data yang telah dicopy pada directory HDFS dengan mengetikan perintah hadoop jar <jarfile> . Berikut ini merupakan gambaran eksekusi file jar.
Gambar 4.5 Jar File Execution
Pada tahapan eksekusi jar perancang menambahkan perintah >& 1.word-100-f.txt pada baris akhir yang berguna agar output dari hasil eksekusi disimpan didalam file .txt. berikut ini merupakan contoh hasil output dari eksekusi data menggunakan file jar.
Gambar 4.6 Jar File Output
23
4.5
Hasil Percobaan
Hasil percobaan merupakan kumpulan CPU time spent dari setiap outputoutput file yang dihasilkan dari proses eksekusi data menggunakan file jar dengan skenario percobaan. 4.5.1 Hasil Percobaan Tahap Pertama Pada tahap pertama dilakukan proses percobaan pada sistem dengan menggunakan kapasitas RAM pada setiap komputer sebesar 2GB. Gambar 4.7 menunjukan bahwa kapasitas RAM pada cluster sebesar 2GB
Gambar 4.7 Kondisi Cluster (RAM 2GB)
Berikut ini merupakan hasil percobaan pada tahap pertama: A. File Doc No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Doc 100MB 200MB 38.86 59.14 39.21 59.15 39.69 60.17 39.25 59.49
300MB 100.47 101.53 100.06 100.69
400MB 116.77 117.65 116.53 116.98
500MB 134.44 135.07 136.1 135.20
Tabel 4.2 Hasil Percobaan File Doc (RAM 2GB)
24
B. File Pdf No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Pdf 100MB 200MB 29.56 58.22 30.05 58.29 29.53 60.99 29.71 59.17
300MB 85.97 84.79 85.13 85.30
400MB 113.42 112.8 112.54 112.92
500MB 130.38 129.27 131.5 130.38
400MB 47.09 48.25 47.28 47.54
500MB 56.62 55.47 57.49 56.53
400MB 100.77 102.92 101.78 101.82
500MB 122.32 123.14 122.96 122.81
400MB 96.19 96.11 96.7 96.33
500MB 118.38 119.84 116.99 118.40
Tabel 4.3 Hasil Percobaan File Pdf (RAM 2GB)
C. File Csv No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Csv 100MB 200MB 20.15 26.4 19.61 26.64 20.55 26.34 20.10 26.46
300MB 38.09 37.47 38.12 37.89
Tabel 4.4 Hasil Percobaan File Csv (RAM 2GB)
D. File Xlsx No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Xlsx 100MB 200MB 28.39 56.56 28.14 59.2 29.25 58.04 28.59 57.93
300MB 77.9 78.32 78.42 78.21
Tabel 4.5 Hasil Percobaan File Xlsx (RAM 2GB)
E. File Txt No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Txt 100MB 200MB 23.18 43.82 23.14 49.14 22.52 48.08 22.95 47.01
300MB 68.47 67.43 69.63 68.51
Tabel 4.6 Hasil Percobaan File Txt (RAM 2GB)
25
4.5.2 Hasil Percobaan Tahap Kedua Pada tahap kedua dilakukan proses percobaan pada sistem dengan menggunakan kapasitas RAM 4GB, Berikut ini merupakan hasil percobaan pada tahap kedua. Gambar 4.8 menunjukan bahwa kapasitas RAM pada cluster sebesar 4GB
Gambar 4.8 Kondisi Cluster (RAM 4GB)
Berikut ini merupakan hasil percobaan pada tahap pertama: A. File Doc No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Doc 100MB 200MB 37.98 57.81 38.43 58.59 38.59 57.99 38.33 58.13
300MB 99.23 101.01 99.93 100.0567
400MB 114.6 114.67 115.26 114.84
500MB 133.43 134.46 135.18 134.36
Tabel 4.7 Hasil Percobaan File Doc (RAM 4GB)
26
B. File Pdf No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Pdf 100MB 200MB 27.21 57.62 26.68 57.55 26.4 57.22 26.76 57.46
300MB 82.81 84.39 84.42 83.87
400MB 109.95 109.73 109.98 109.89
500MB 128.92 127.73 128.07 128.24
400MB 45.52 43.25 43.95 44.24
500MB 51.68 54.37 53.11 53.05
400MB 98 99.13 99.82 98.98
500MB 122.25 119.42 119.67 120.45
400MB 83.79 81.64 81.12 82.18
500MB 117.2 115.86 115.72 116.26
Tabel 4.8 Hasil Percobaan File Pdf (RAM 4GB)
C. File Csv No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Csv 100MB 200MB 18.2 25.04 18.18 26.62 18.27 25.81 18.22 25.82
300MB 37.53 37.21 35.1 36.61
Tabel 4.9 Hasil Percobaan File Csv (RAM 4GB)
D. File Xlsx No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Xlsx 100MB 200MB 25.61 56.28 25.14 55.97 25.87 57.64 25.54 56.63
300MB 76.16 79.87 76.07 77.37
Tabel 4.10 Hasil Percobaan File Xlsx (RAM 4GB)
E. File Txt No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Txt 100MB 200MB 21.52 40.08 20.63 41.94 21.15 41.13 21.10 41.05
300MB 59.24 62.62 61.23 61.03
Tabel 4.11 Hasil Percobaan File Txt (RAM 4GB)
27
4.5.3 Hasil Percobaan Tahap Ketiga Pada tahap ketiga dilakukan proses percobaan pada sistem dengan menggunakan kapasitas RAM pada setiap komputer sebesar 8GB. Gambar 4.9 menunjukan bahwa kapasitas RAM pada cluster sebesar 8GB
Gambar 4.9 Kondisi Cluster (RAM 8GB)
Berikut ini merupakan hasil percobaan pada tahap pertama: A. File Doc No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Doc 100MB 200MB 36.18 57.12 37.14 57.1 37.28 55.49 36.87 56.57
300MB 94.99 97.53 95.91 96.14
400MB 110.28 110.12 109.85 110.08
500MB 131.71 130.47 131.1 131.09
Tabel 4.12 Hasil Percobaan File Doc (RAM 8GB)
28
B. File Pdf No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Pdf 100MB 200MB 26.82 50.59 26.88 50.03 26.53 50.52 26.74 50.38
300MB 81.4 82.13 81.17 81.57
400MB 98.11 98.09 98.51 98.24
500MB 122.67 123.9 122.34 122.97
400MB 42.16 41.89 41.91 41.99
500MB 52.31 50.12 51.82 51.42
400MB 91.18 91.46 91.61 91.42
500MB 116.99 117.38 117.29 117.22
400MB 66.4 66.78 64.21 65.80
500MB 104.84 107.49 109.44 107.26
Tabel 4.13 Hasil Percobaan File Pdf (RAM 8GB)
C. File Csv No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Csv 100MB 200MB 16.71 24.36 17 25.06 16.88 25.77 16.86 25.06
300MB 36.29 36.24 35 35.84
Tabel 4.14 Hasil Percobaan File Csv (RAM 8GB)
D. File Xlsx No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Xlsx 100MB 200MB 25.08 48.55 25.22 48.41 24.43 48.02 24.91 48.33
300MB 73.65 73.57 73.02 73.41
Tabel 4.15 Hasil Percobaan File Xlsx (RAM 8GB)
E. File Txt No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Txt 100MB 200MB 18.11 32.07 19.61 32.66 18.54 33.29 18.75 32.67
300MB 47.63 47.7 47.04 47.46
Tabel 4.16 Hasil Percobaan File Txt (RAM 8GB)
29
4.5.4 Hasil Percobaan Tahap Keempat Pada tahap keempat dilakukan proses percobaan pada sistem dengan menggunakan kapasitas RAM 16GB, Berikut ini merupakan hasil percobaan pada tahap kedua. Gambar 4.10 menunjukan bahwa kapasitas RAM pada cluster sebesar 16GB
Gambar 4.10 Kondisi Cluster (RAM 16GB)
Berikut ini merupakan hasil percobaan pada tahap pertama: A. File Doc No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Doc 100MB 200MB 36.48 56.92 36.84 55.87 36.14 56.12 36.49 56.30
300MB 85.54 85.15 85.2 85.30
400MB 96.67 96.21 96.98 96.62
500MB 116.68 116.57 116.24 116.50
Tabel 4.17 Hasil Percobaan File Doc (RAM 16GB)
30
B. File Pdf No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Pdf 100MB 200MB 25.52 48.61 25.25 48.86 25.72 48.17 25.50 48.55
300MB 75.61 75.53 75.99 75.71
400MB 89.51 88.66 89.11 89.09
500MB 101.79 101.2 103.33 102.11
400MB 37.36 37.21 37.66 37.41
500MB 48.91 48.04 48.18 48.38
400MB 85.37 85.55 85.65 85.52
500MB 98.85 98.17 99.86 98.96
Tabel 4.18 Hasil Percobaan File Pdf (RAM 16GB)
C. File Csv No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Csv 100MB 200MB 12.62 20.93 13.1 20.64 12.76 21.46 12.83 21.01
300MB 31.62 31.37 31.87 31.62
Tabel 4.19 Hasil Percobaan File Csv (RAM 16GB)
D. File Xlsx No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Xlsx 100MB 200MB 20.11 45.35 20.27 45.03 20.42 45.24 20.27 45.21
300MB 64.64 64.45 64.74 64.61
Tabel 4.20 Hasil Percobaan File Xlsx (RAM 16GB)
E. File Txt No 1 2 3
Scenario Percobaan 1 (Second) Percobaan 2 (Second) Percobaan 3 (Second) Rata-Rata (Second)
File Txt 100MB 200MB 13.51 26.5 13.05 26.68 13.18 27.82 13.25 27
300MB 34.18 34.33 34.82 34.44
400MB 51.37 51.49 51.94 51.60
500MB 80.89 82.86 82.81 82.19
Tabel 4.21 Hasil Percobaan File Txt (RAM 16GB)
31
4.5.5 Hasil Percobaan Berdasarkan Kapasitas RAM Hasil percobaan ini memuat 5 buah grafik dari 5 buah jenis file yang berbeda, hasil percobaan ini berfungsi untuk mengetahui bagaimana pengaruh jenis file terhadap performansi sistem. A. Hasil Percobaan dengan Kapasitas RAM 2GB Hasil percobaan dengan kapasitas RAM 2GB file doc menjadi file dengan waktu eksekusi paling lambat, hal ini dikarenakan karakteristik file doc yang dapat mengandung semua tipe data sedangkan jenis file pdf yang memiliki karakteristik dengan doc (dapat mengandung semua jenis tipe data) memiliki waktu eksekusi lebih rendah dari doc karena file pdf merupakan file yang memiliki kompresi khusus sehingga jenis file ini tidak bisa di ubah-ubah seperti jenis file doc. Selanjutnya jenis file xlsx memiliki waktu eksekusi lebih cepat dari pdf dikarenakan file xlsx hanya mengandung matriks tidak seperti pdf yang dapat mengandung teks, huruf, citra dan grafik vektor dua dimensi. Selanjutnya jenis file txt memiliki waktu eksekusi lebih cepat dari xlsx karena karakteristik file txt yang hanya dapat mengandung tipe data string/ karakter ASCII (array 1 dimensi), sedangkan file xlsx mengandung matrix (array multidimensi). Jenis file yang memiliki waktu eksekusi tercepat adalah file csv, hal ini dikarenakan karakteristik dari file csv yang sederhana tidak memiliki kompresi khusus dan setiap karakter didalamnya hanya dipisahkan oleh koma (,) dan titik koma (;).
Gambar 4.11 Grafik Pembanding Dengan Kapasitas RAM 2GB
32
B. Hasil percobaan dengan Kapasitas RAM 4GB Hasil percobaan dengan kapasitas RAM 4GB memiliki grafik yang tidak jauh berbeda dengan grafik sebelumnya, jenis file Csv masih menjadi jenis file yang waktu eksekusinya paling cepat sedangkan jenis file doc menjadi jenis file yang waktu eksekusinya paling lama, hanya saja pada seluruh jenis file mengalami sedikit peningkatan performansi jika dibandingkan saat melakukan proses percobaan dengan menggunakan kapasitas RAM 2GB, rata-rata peningkatan performansi pada jenis file adalah 2,79 second.
Gambar 4.12 Grafik Pembanding Dengan Kapasitas RAM 4GB
C. Hasil Percobaan dengan Kapasitas RAM 8GB Hasil percobaan dengan kapasitas RAM 8GB memiliki grafik yang tidak jauh berbeda dengan grafik pada percobaan sebelumnya, urutan jenis data berdasarkan kecepatan waktu eksekusi jenis file Csv menjadi jenis file yang waktu eksekusinya paling cepat sedangkan jenis file doc menjadi jenis file yang waktu eksekusinya paling lama, hanya saja pada seluruh jenis file mengalami sedikit peningkatan performansi, rata-rata peningkatan performansi pada jenis file adalah 4,86 second.
33
Gambar 44.13 13 Grafik Pembanding Dengan Kapasitas RAM 8GB
D. Hasil Percobaan dengan Kapasitas RAM 16GB Hasil percobaan dengan kapasitas RAM 16GB memiliki grafik yang tidak jauh berbeda dengan grafik pada percobaan sebelumnya, urutan jenis data berdasarkan kecepatan waktu eksekusi jenis file Csv menjadi jenis file yang waktu eksekusinya paling cepat sedangkan jenis file doc menjadi jenis file yang waktu eksekusinya paling lama, hanya saja pada seluruh jenis file mengalami sedikit peningkatan performansi, rata-rata peningkatan performansi pada jenis file adalah 8,10 second.
Gambar 4.14 Grafik Pembanding Dengan Kapasitas RAM 16GB
34
4.5.6 Hasil Percobaan Berdasarkan Jenis File Hasil percobaan ini didapat dari proses percobaan tahap pertama sampai tahap keempat yang disajikan secara bersama agar dapat dilihat perbedaan dari setiap file terhadap kapasitas RAM. A. Hasil Percobaan File Doc Berdasarkan proses percobaan yang dilakukan didapatkan selisih waktu eksekusi antara kapasitas RAM 2GB, 4GB, 8GB dan 16GB, dari setiap peningkatan kapasitas RAM terjadi peningkatan waktu eksekusi, namun peningkatan yang terjadi berbeda-beda. Ketika dilakukan proses peningkatan kapasitas RAM dari 2 GB menjadi 4GB diperoleh rata-rata waktu peningkatan sebesar 1,18 second. Sedangkan dari 4GB menjadi 8GB rata-rata peningkatan sebesar 2,99 second dan dari 8GB menjadi 16GB didapatkan rata-rata peningkatan sebesar 7,91 second. Proses percobaan pada file doc menggambarkan terjadinya kenaikan performansi pada proses ujicoba yang dilakukan ketika kapasitas RAM ditingkatkan, namun peningkatan yang terjadi tidak signifikan. Ketika kapasitas RAM ditingkatkan 100% namun performansi tidak meningkat sebesar 100%. Rata-rata peningkatan performansi ketika kapasitas RAM ditingkatkan 100% pada jenis file doc adalah sebesar 4,58%.
Gambar 4.15 Grafik Pembanding File Doc
35
B. Hasil Percobaan File Pdf Berdasarkan proses percobaan yang dilakukan didapatkan selisih waktu eksekusi antara kapasitas RAM 2GB, 4GB, 8GB dan 16GB, dari setiap peningkatan kapasitas RAM terjadi peningkatan waktu eksekusi, namun peningkatan yang terjadi berbeda-beda. Ketika dilakukan proses peningkatan kapasitas RAM dari 2 GB menjadi 4GB diperoleh rata-rata waktu peningkatan sebesar 2,25 second. Sedangkan dari 4GB menjadi 8GB rata-rata peningkatan sebesar 5,27 second dan dari 8GB menjadi 16GB didapatkan rata-rata peningkatan sebesar 7,79 second. Proses percobaan pada file pdf menggambarkan terjadinya kenaikan performansi pada proses ujicoba yang dilakukan ketika kapasitas RAM ditingkatkan, namun peningkatan yang terjadi tidak signifikan. Ketika kapasitas RAM ditingkatkan 100% namun performansi tidak meningkat sebesar 100%. Berbeda dengan file doc, pada file pdf Rata-rata peningkatan performansi lebih besar yaitu sebesar 7,57%, namun peningkatan ini masih relatif kecil jika melihat peningkatan RAM sebesar 100% .
Gambar 44.16 16 Grafik Pembanding Fil File Pdf
36
C. Hasil Percobaan File Csv Berdasarkan proses percobaan yang dilakukan didapatkan selisih waktu eksekusi antara kapasitas RAM 2GB, 4GB, 8GB dan 16GB, dari setiap peningkatan kapasitas RAM terjadi peningkatan waktu eksekusi, namun peningkatan yang terjadi berbeda-beda. Ketika dilakukan proses peningkatan kapasitas RAM dari 2 GB menjadi 4GB diperoleh rata-rata waktu peningkatan sebesar 2,12 second. Sedangkan dari 4GB menjadi 8GB rata-rata peningkatan sebesar 1,35 second dan dari 8GB menjadi 16GB didapatkan rata-rata peningkatan sebesar 3,99 second. Proses percobaan pada file csv menggambarkan terjadinya kenaikan performansi pada proses ujicoba yang dilakukan ketika kapasitas RAM ditingkatkan. Walaupun terjadi peningkatan namun tetap peningkatan performansi belum sebanding dengan peningkatan kapasitas RAM. Ratarata peningkatan yang terjadi pada proses ujicoba adalah sebesar 8,87%. Kenaikan persentase ini lebih besar jika dibandingkan dengan persentase pada file doc dan file pdf.
Gambar 4.17 Grafik Pembanding File Csv
37
D. Hasil Percobaan File Xlsx Berdasarkan proses percobaan yang dilakukan didapatkan selisih waktu eksekusi antara kapasitas RAM 2GB, 4GB, 8GB dan 16GB, dari setiap peningkatan kapasitas RAM terjadi peningkatan waktu eksekusi, namun peningkatan yang terjadi berbeda-beda. Ketika dilakukan proses peningkatan kapasitas RAM dari 2 GB menjadi 4GB diperoleh rata-rata waktu peningkatan sebesar 2,08 second. Sedangkan dari 4GB menjadi 8GB rata-rata peningkatan sebesar 4,74 second dan dari 8GB menjadi 16GB didapatkan rata-rata peningkatan sebesar 8,14 second. Proses percobaan pada file Xlsx menggambarkan terjadinya kenaikan performansi pada proses ujicoba yang dilakukan ketika kapasitas RAM ditingkatkan. Dari seluruh proses ujicoba yang dilakukan didapatkan ratarata persentase kenaikan sebesar 8,35%.
Gambar G b 44.18 18 Grafik G fik Pembanding P b di Fil File Xl Xlsx
38
E. Hasil percobaan File Txt Berdasarkan proses percobaan yang dilakukan didapatkan selisih waktu eksekusi antara kapasitas RAM 2GB, 4GB, 8GB dan 16GB, dari setiap peningkatan kapasitas RAM terjadi peningkatan waktu eksekusi, namun peningkatan yang terjadi berbeda-beda. Ketika dilakukan proses peningkatan kapasitas RAM dari 2 GB menjadi 4GB diperoleh rata-rata waktu peningkatan sebesar 6.32 second. Sedangkan dari 4GB menjadi 8GB rata-rata peningkatan sebesar 9,94 second dan dari 8GB menjadi 16GB didapatkan rata-rata peningkatan sebesar 12,69 second. Proses percobaan pada file Xlsx menggambarkan terjadinya kenaikan performansi pada proses ujicoba yang dilakukan ketika kapasitas RAM ditingkatkan. Jika dibandingkan dengan 4 buah jenis file lainya maka jenis file txt memiliki persentase peningkatan performansi tertinggi, rata-rata peningkatanya adalah sebesar 12,82%. Namun besaran peningkatan performansi yang terjadi masih jauh dari besaran kapasitas RAM yang ditingkatkan 100%.
Gambar 4.19 Grafik Pembanding File Txt
39
4.5.7 File Csv Vs File Xlsx Diantara 5 buah jenis file yang dilakukan percobaan terdapat 2 buah file yang berasal dari software yang sama namun berbeda jenis ekstensi yaitu, file Csv dan file Xlsx. Meskipun kedua jenis file ini memiliki isi dan ukuran data yang sama namun memiliki perbedaan waktu yang sangat signifikan pada saat proses percobaan, file csv memiliki waktu eksekusi yang lebih cepat dibandingkan file xlsx, hal ini dikarenakan oleh karakter file csv yang menggunakan koma (,) dan titik koma (;) sebagai pemisah antar elemen sehingga mempermudah saat dilakukan pemrosesan pada data. Tidak seperti jenis yang terdiri dari berbagai macam kompleksitas fungsi. Karena kesederhanaan karakter ini maka jenis file csv memiliki tingkat kompabilitas yang tinggi, hal ini telah dibuktikan dengan file csv memiliki waktu eksekusi yang lebih cepat dari file xlsx dan menjadikan file csv sebagai format standar dalam pengolahan data.
Gambar 4.20 Grafik Pembanding Csv dan Xlsx
40
5. PENUTUP 5.1
Kesimpulan
Berdasarkan hasil analisis terhadap percobaan yang dilakukan pada sistem, maka dapat diambil beberapa kesimpulan sebagai berikut: 1. Hadoop Cluster telah berhasil diimplementasikan dengan menggunakan cloudera manager sebagai hadoop distribusinya. 2. Peningkatan 2 kalilipat kapasitas RAM pada hadoop cluster tidak membuat performansi meningkat menjadi 2 kalilipat, ketika kapasitas RAM ditingkatkan 100 % hasil percobaan menunjukan performansi dari jenis file doc mengalami peningkatan sebesar 4,58%, file pdf sebesar 7,57%, file csv sebesar 8,87%, file xlsx sebesar 8,35% dan file txt sebesar 12,82% hal ini dapat disebabkan oleh kompleksitas content yang berbedabeda disetiap file. 3. Jenis file csv merupakan jenis file terbaik dari segi waktu eksekusi yang dapat diolah oleh hadoop cluster karena memiliki waktu eksekusi paling rendah diantara jenis file lainya. 4. Meskipun berasal dari software yang sama namun jenis file csv memiliki kualitas yang lebih baik dibandingkan dengan jenis file xlsx jika dilihat dari waktu eksekusi pada proses pengolahan data menggunakan hadoop cluster.
5.2 Saran Pengembangan lebih lanjut yang dapat dilakukan terhadap tugas akhir ini adalah sebagai berikut : 1. Kapasitas RAM dan jumlah slave node dapat ditingkatkan pada pembangunan sistem selanjutnya agar mendapatkan hasil penelitian yang lebih optimal. 2. Pengembangan terkait pengaruh RAM dapat lebih dikembangkan dengan menggunakan tools benchmark yang lainya, seperti TeraSort, TestDFSIO dll. Proses uji coba pada sistem dapat dikembangkan dengan menggunakan jenis file lainya, seperti gambar, video dan suara.
41
Daftar Pustaka [1] Apache Hadoop. (2011). Retrieved October 30,2014, from Apache Software Foundation.: http://Hadoop.apache.org/ [2] B.He.W.Fang, Q.Luo, N.Govindaraju, and T.Wang. Mars: a MapReduce framework on graphic processors. ACM 2008. [3] D.Borthakur. The Hadoop Distributed File System: Architecture and Design. The Apache Software Foundation, 2007. [4] Gusti Dading Zainul: Mapreduce Distributed Programming Using Hadoop Framework, 2012. Informatics Engineering of Institut Teknologi Surabaya of Indonesia. [5] Huang, S., & Huang, J. 2009. The HiBench Benchmark Suite: Characterization of the Mapreduce -Based Data Analysis. Intel China Software Center, Shanghai,P.R. China [6] jiang,Dawei, Chin Ooi, Beng, dkk. 2009. The Performance of Mapreduce : An In-Depth Study. School of Computing National University of Singapore [7] M.Rafique, B.Rose, A.Butt, and D.Nikolopoulos. Supporting mapreduce on large-scale asymmetric multi-core clusters. SIGOPS Oper. Syst. Rev., 43(2):25–34, 2009. [8] http://data.gov.uk/dataset/road-accidents-safety-data. Tanggal Akses 5 Juni 2015 [9] https://ianspace.wordpress.com/2011/02/22/jenis-%E2%80%93-jenis-filedokumen/ Tanggal Akses 1 juli 2015 [10] http://pandusolusi.com/hadoop-adalah.htm Tanggal Akses 21 Juni 2015 [11] https://azerdark.wordpress.com/2009/03/23/csv-comma-separated-value/ Tanggal akses 3 Agustus 2015 [12] http://dokterpc14.wordpress.com Tanggal akses 3 Agustus 2015
42
Lampiran Hasil Pengolahan Data (Output) pada 5 buah jenis file dengan menggunakan kapasitas RAM 2GB dan ukuran 100 MB untuk setiap jenis file.
1. File Doc 15/07/31 13:49:04 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 15/07/31 13:49:04 INFO input.FileInputFormat: Total input paths to process : 5 15/07/31 13:49:05 INFO mapred.JobClient: Running job: job_201507311115_0021 15/07/31 13:49:06 INFO mapred.JobClient: map 0% reduce 0% 15/07/31 13:49:18 INFO mapred.JobClient: map 20% reduce 0% 15/07/31 13:49:20 INFO mapred.JobClient: map 37% reduce 0% 15/07/31 13:49:22 INFO mapred.JobClient: map 40% reduce 0% 15/07/31 13:49:26 INFO mapred.JobClient: map 55% reduce 0% 15/07/31 13:49:28 INFO mapred.JobClient: map 60% reduce 0% 15/07/31 13:49:34 INFO mapred.JobClient: map 80% reduce 0% 15/07/31 13:49:38 INFO mapred.JobClient: map 100% reduce 0% 15/07/31 13:49:46 INFO mapred.JobClient: map 100% reduce 100% 15/07/31 13:49:47 INFO mapred.JobClient: Job complete: job_201507311115_0021 15/07/31 13:49:47 INFO mapred.JobClient: Counters: 32 15/07/31 13:49:47 INFO mapred.JobClient: File System Counters 15/07/31 13:49:47 INFO mapred.JobClient: FILE: Number of bytes read=19463620 15/07/31 13:49:47 INFO mapred.JobClient: FILE: Number of bytes written=30892108 15/07/31 13:49:47 INFO mapred.JobClient: FILE: Number of read operations=0 15/07/31 13:49:47 INFO mapred.JobClient: FILE: Number of large read operations=0 15/07/31 13:49:47 INFO mapred.JobClient: FILE: Number of write operations=0 15/07/31 13:49:47 INFO mapred.JobClient: HDFS: Number of bytes read=105419805 15/07/31 13:49:47 INFO mapred.JobClient: HDFS: Number of bytes written=12075097 15/07/31 13:49:47 INFO mapred.JobClient: HDFS: Number of read operations=10 15/07/31 13:49:47 INFO mapred.JobClient: HDFS: Number of large read operations=0 15/07/31 13:49:47 INFO mapred.JobClient: HDFS: Number of write operations=1 15/07/31 13:49:47 INFO mapred.JobClient: Job Counters 15/07/31 13:49:47 INFO mapred.JobClient: Launched map tasks=8 15/07/31 13:49:47 INFO mapred.JobClient: Launched reduce tasks=1 15/07/31 13:49:47 INFO mapred.JobClient: Data-local map tasks=8 15/07/31 13:49:47 INFO mapred.JobClient: Total time spent by all maps in occupied slots (ms)=53449 15/07/31 13:49:47 INFO mapred.JobClient: Total time spent by all reduces in occupied slots (ms)=9513 15/07/31 13:49:47 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 15/07/31 13:49:47 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/07/31 13:49:47 INFO mapred.JobClient: Map-Reduce Framework 15/07/31 13:49:47 INFO mapred.JobClient: Map input records=1170332 15/07/31 13:49:47 INFO mapred.JobClient: Map output records=19421148 15/07/31 13:49:47 INFO mapred.JobClient: Map output bytes=176933151 15/07/31 13:49:47 INFO mapred.JobClient: Input split bytes=805 15/07/31 13:49:47 INFO mapred.JobClient: Combine input records=20874042
43
15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: 15/07/31 13:49:47 INFO mapred.JobClient: snapshot=2594988032 15/07/31 13:49:47 INFO mapred.JobClient: snapshot=10074193920 15/07/31 13:49:47 INFO mapred.JobClient: (bytes)=2315255808
Combine output records=2694308 Reduce input groups=720008 Reduce shuffle bytes=10219128 Reduce input records=1241414 Reduce output records=720008 Spilled Records=3935722 CPU time spent (ms)=38860 Physical memory (bytes) Virtual memory (bytes) Total committed heap usage
2. File Pdf 15/07/31 14:40:17 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 15/07/31 14:40:17 INFO input.FileInputFormat: Total input paths to process : 5 15/07/31 14:40:18 INFO mapred.JobClient: Running job: job_201507311115_0033 15/07/31 14:40:19 INFO mapred.JobClient: map 0% reduce 0% 15/07/31 14:40:28 INFO mapred.JobClient: map 33% reduce 0% 15/07/31 14:40:32 INFO mapred.JobClient: map 52% reduce 0% 15/07/31 14:40:35 INFO mapred.JobClient: map 95% reduce 0% 15/07/31 14:40:38 INFO mapred.JobClient: map 100% reduce 0% 15/07/31 14:40:57 INFO mapred.JobClient: map 100% reduce 100% 15/07/31 14:40:59 INFO mapred.JobClient: Job complete: job_201507311115_0033 15/07/31 14:40:59 INFO mapred.JobClient: Counters: 32 15/07/31 14:40:59 INFO mapred.JobClient: File System Counters 15/07/31 14:40:59 INFO mapred.JobClient: FILE: Number of bytes read=206590694 15/07/31 14:40:59 INFO mapred.JobClient: FILE: Number of bytes written=311002355 15/07/31 14:40:59 INFO mapred.JobClient: FILE: Number of read operations=0 15/07/31 14:40:59 INFO mapred.JobClient: FILE: Number of large read operations=0 15/07/31 14:40:59 INFO mapred.JobClient: FILE: Number of write operations=0 15/07/31 14:40:59 INFO mapred.JobClient: HDFS: Number of bytes read=105107546 15/07/31 14:40:59 INFO mapred.JobClient: HDFS: Number of bytes written=161060316 15/07/31 14:40:59 INFO mapred.JobClient: HDFS: Number of read operations=7 15/07/31 14:40:59 INFO mapred.JobClient: HDFS: Number of large read operations=0 15/07/31 14:40:59 INFO mapred.JobClient: HDFS: Number of write operations=1 15/07/31 14:40:59 INFO mapred.JobClient: Job Counters 15/07/31 14:40:59 INFO mapred.JobClient: Launched map tasks=3 15/07/31 14:40:59 INFO mapred.JobClient: Launched reduce tasks=1 15/07/31 14:40:59 INFO mapred.JobClient: Data-local map tasks=3 15/07/31 14:40:59 INFO mapred.JobClient: Total time spent by all maps in occupied slots (ms)=33762 15/07/31 14:40:59 INFO mapred.JobClient: Total time spent by all reduces in occupied slots (ms)=12783 15/07/31 14:40:59 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 15/07/31 14:40:59 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/07/31 14:40:59 INFO mapred.JobClient: Map-Reduce Framework 15/07/31 14:40:59 INFO mapred.JobClient: Map input records=875985 15/07/31 14:40:59 INFO mapred.JobClient: Map output records=2217772
44
15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: snapshot=1611472896 15/07/31 14:40:59 INFO mapred.JobClient: 15/07/31 14:40:59 INFO mapred.JobClient: (bytes)=1373110272
Map output bytes=194798037 Input split bytes=471 Combine input records=3737211 Combine output records=3048596 Reduce input groups=1527639 Reduce shuffle bytes=103605541 Reduce input records=1529157 Reduce output records=1527639 Spilled Records=4577753 CPU time spent (ms)=29560 Physical memory (bytes) Virtual memory (bytes) snapshot=6724562944 Total committed heap usage
3. File Csv 15/07/31 11:29:33 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 15/07/31 11:29:34 INFO input.FileInputFormat: Total input paths to process : 5 15/07/31 11:29:35 INFO mapred.JobClient: Running job: job_201507311115_0011 15/07/31 11:29:36 INFO mapred.JobClient: map 0% reduce 0% 15/07/31 11:29:47 INFO mapred.JobClient: map 20% reduce 0% 15/07/31 11:29:52 INFO mapred.JobClient: map 60% reduce 0% 15/07/31 11:29:56 INFO mapred.JobClient: map 80% reduce 0% 15/07/31 11:29:58 INFO mapred.JobClient: map 100% reduce 0% 15/07/31 11:30:04 INFO mapred.JobClient: map 100% reduce 100% 15/07/31 11:30:06 INFO mapred.JobClient: Job complete: job_201507311115_0011 15/07/31 11:30:06 INFO mapred.JobClient: Counters: 32 15/07/31 11:30:06 INFO mapred.JobClient: File System Counters 15/07/31 11:30:06 INFO mapred.JobClient: FILE: Number of bytes read=26514915 15/07/31 11:30:06 INFO mapred.JobClient: FILE: Number of bytes written=56942461 15/07/31 11:30:06 INFO mapred.JobClient: FILE: Number of read operations=0 15/07/31 11:30:06 INFO mapred.JobClient: FILE: Number of large read operations=0 15/07/31 11:30:06 INFO mapred.JobClient: FILE: Number of write operations=0 15/07/31 11:30:06 INFO mapred.JobClient: HDFS: Number of bytes read=105294220 15/07/31 11:30:06 INFO mapred.JobClient: HDFS: Number of bytes written=43626058 15/07/31 11:30:06 INFO mapred.JobClient: HDFS: Number of read operations=10 15/07/31 11:30:06 INFO mapred.JobClient: HDFS: Number of large read operations=0 15/07/31 11:30:06 INFO mapred.JobClient: HDFS: Number of write operations=1 15/07/31 11:30:06 INFO mapred.JobClient: Job Counters 15/07/31 11:30:06 INFO mapred.JobClient: Launched map tasks=8 15/07/31 11:30:06 INFO mapred.JobClient: Launched reduce tasks=1 15/07/31 11:30:06 INFO mapred.JobClient: Data-local map tasks=8 15/07/31 11:30:06 INFO mapred.JobClient: Total time spent by all maps in occupied slots (ms)=29995 15/07/31 11:30:06 INFO mapred.JobClient: Total time spent by all reduces in occupied slots (ms)=8089 15/07/31 11:30:06 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 15/07/31 11:30:06 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/07/31 11:30:06 INFO mapred.JobClient: Map-Reduce Framework
45
15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: 15/07/31 11:30:06 INFO mapred.JobClient: snapshot=2455863296 15/07/31 11:30:06 INFO mapred.JobClient: snapshot=10075844608 15/07/31 11:30:06 INFO mapred.JobClient: (bytes)=2178940928
Map input records=1170332 Map output records=2881010 Map output bytes=110997961 Input split bytes=798 Combine input records=3040346 Combine output records=717815 Reduce input groups=517053 Reduce shuffle bytes=29218204 Reduce input records=558479 Reduce output records=517053 Spilled Records=1463811 CPU time spent (ms)=20150 Physical memory (bytes) Virtual memory (bytes) Total committed heap usage
4. File Xlsx 15/07/31 15:08:31 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 15/07/31 15:08:32 INFO input.FileInputFormat: Total input paths to process : 5 15/07/31 15:08:32 INFO mapred.JobClient: Running job: job_201507311115_0039 15/07/31 15:08:33 INFO mapred.JobClient: map 0% reduce 0% 15/07/31 15:08:42 INFO mapred.JobClient: map 50% reduce 0% 15/07/31 15:08:45 INFO mapred.JobClient: map 78% reduce 0% 15/07/31 15:08:48 INFO mapred.JobClient: map 88% reduce 0% 15/07/31 15:08:51 INFO mapred.JobClient: map 100% reduce 0% 15/07/31 15:09:05 INFO mapred.JobClient: map 100% reduce 84% 15/07/31 15:09:07 INFO mapred.JobClient: map 100% reduce 100% 15/07/31 15:09:10 INFO mapred.JobClient: Job complete: job_201507311115_0039 15/07/31 15:09:10 INFO mapred.JobClient: Counters: 32 15/07/31 15:09:10 INFO mapred.JobClient: File System Counters 15/07/31 15:09:10 INFO mapred.JobClient: FILE: Number of bytes read=207641086 15/07/31 15:09:10 INFO mapred.JobClient: FILE: Number of bytes written=318439573 15/07/31 15:09:10 INFO mapred.JobClient: FILE: Number of read operations=0 15/07/31 15:09:10 INFO mapred.JobClient: FILE: Number of large read operations=0 15/07/31 15:09:10 INFO mapred.JobClient: FILE: Number of write operations=0 15/07/31 15:09:10 INFO mapred.JobClient: HDFS: Number of bytes read=105798366 15/07/31 15:09:10 INFO mapred.JobClient: HDFS: Number of bytes written=187142319 15/07/31 15:09:10 INFO mapred.JobClient: HDFS: Number of read operations=4 15/07/31 15:09:10 INFO mapred.JobClient: HDFS: Number of large read operations=0 15/07/31 15:09:10 INFO mapred.JobClient: HDFS: Number of write operations=1 15/07/31 15:09:10 INFO mapred.JobClient: Job Counters 15/07/31 15:09:10 INFO mapred.JobClient: Launched map tasks=2 15/07/31 15:09:10 INFO mapred.JobClient: Launched reduce tasks=1 15/07/31 15:09:10 INFO mapred.JobClient: Data-local map tasks=2 15/07/31 15:09:10 INFO mapred.JobClient: Total time spent by all maps in occupied slots (ms)=28799 15/07/31 15:09:10 INFO mapred.JobClient: Total time spent by all reduces in occupied slots (ms)=10079
46
15/07/31 15:09:10 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 15/07/31 15:09:10 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/07/31 15:09:10 INFO mapred.JobClient: Map-Reduce Framework 15/07/31 15:09:10 INFO mapred.JobClient: Map input records=976953 15/07/31 15:09:10 INFO mapred.JobClient: Map output records=2533130 15/07/31 15:09:10 INFO mapred.JobClient: Map output bytes=197934848 15/07/31 15:09:10 INFO mapred.JobClient: Input split bytes=296 15/07/31 15:09:10 INFO mapred.JobClient: Combine input records=4430251 15/07/31 15:09:10 INFO mapred.JobClient: Combine output records=3991274 15/07/31 15:09:10 INFO mapred.JobClient: Reduce input groups=2091735 15/07/31 15:09:10 INFO mapred.JobClient: Reduce shuffle bytes=110193969 15/07/31 15:09:10 INFO mapred.JobClient: Reduce input records=2094153 15/07/31 15:09:10 INFO mapred.JobClient: Reduce output records=2091735 15/07/31 15:09:10 INFO mapred.JobClient: Spilled Records=6085427 15/07/31 15:09:10 INFO mapred.JobClient: CPU time spent (ms)=28390 15/07/31 15:09:10 INFO mapred.JobClient: Physical memory (bytes) snapshot=1273094144 15/07/31 15:09:10 INFO mapred.JobClient: Virtual memory (bytes) snapshot=5044334592 15/07/31 15:09:10 INFO mapred.JobClient: Total committed heap usage (bytes)=1145044992
5. File Txt 15/07/31 15:20:22 WARN mapred.JobClient: Use GenericOptionsParser for parsing the arguments. Applications should implement Tool for the same. 15/07/31 15:20:22 INFO input.FileInputFormat: Total input paths to process : 5 15/07/31 15:20:24 INFO mapred.JobClient: Running job: job_201507311115_0045 15/07/31 15:20:25 INFO mapred.JobClient: map 0% reduce 0% 15/07/31 15:20:38 INFO mapred.JobClient: map 36% reduce 0% 15/07/31 15:20:39 INFO mapred.JobClient: map 40% reduce 0% 15/07/31 15:20:44 INFO mapred.JobClient: map 60% reduce 0% 15/07/31 15:20:46 INFO mapred.JobClient: map 80% reduce 0% 15/07/31 15:20:50 INFO mapred.JobClient: map 100% reduce 0% 15/07/31 15:20:54 INFO mapred.JobClient: map 100% reduce 100% 15/07/31 15:20:56 INFO mapred.JobClient: Job complete: job_201507311115_0045 15/07/31 15:20:56 INFO mapred.JobClient: Counters: 32 15/07/31 15:20:56 INFO mapred.JobClient: File System Counters 15/07/31 15:20:56 INFO mapred.JobClient: FILE: Number of bytes read=19463631 15/07/31 15:20:56 INFO mapred.JobClient: FILE: Number of bytes written=30892101 15/07/31 15:20:56 INFO mapred.JobClient: FILE: Number of read operations=0 15/07/31 15:20:56 INFO mapred.JobClient: FILE: Number of large read operations=0 15/07/31 15:20:56 INFO mapred.JobClient: FILE: Number of write operations=0 15/07/31 15:20:56 INFO mapred.JobClient: HDFS: Number of bytes read=105419795 15/07/31 15:20:56 INFO mapred.JobClient: HDFS: Number of bytes written=12075097 15/07/31 15:20:56 INFO mapred.JobClient: HDFS: Number of read operations=10 15/07/31 15:20:56 INFO mapred.JobClient: HDFS: Number of large read operations=0 15/07/31 15:20:56 INFO mapred.JobClient: HDFS: Number of write operations=1 15/07/31 15:20:56 INFO mapred.JobClient: Job Counters 15/07/31 15:20:56 INFO mapred.JobClient: Launched map tasks=5 15/07/31 15:20:56 INFO mapred.JobClient: Launched reduce tasks=1 15/07/31 15:20:56 INFO mapred.JobClient: Data-local map tasks=5
47
15/07/31 15:20:56 INFO mapred.JobClient: Total time spent by all maps in occupied slots (ms)=40075 15/07/31 15:20:56 INFO mapred.JobClient: Total time spent by all reduces in occupied slots (ms)=6966 15/07/31 15:20:56 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0 15/07/31 15:20:56 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0 15/07/31 15:20:56 INFO mapred.JobClient: Map-Reduce Framework 15/07/31 15:20:56 INFO mapred.JobClient: Map input records=1170332 15/07/31 15:20:56 INFO mapred.JobClient: Map output records=19421148 15/07/31 15:20:56 INFO mapred.JobClient: Map output bytes=176933151 15/07/31 15:20:56 INFO mapred.JobClient: Input split bytes=795 15/07/31 15:20:56 INFO mapred.JobClient: Combine input records=20874042 15/07/31 15:20:56 INFO mapred.JobClient: Combine output records=2694308 15/07/31 15:20:56 INFO mapred.JobClient: Reduce input groups=720008 15/07/31 15:20:56 INFO mapred.JobClient: Reduce shuffle bytes=10219128 15/07/31 15:20:56 INFO mapred.JobClient: Reduce input records=1241414 15/07/31 15:20:56 INFO mapred.JobClient: Reduce output records=720008 15/07/31 15:20:56 INFO mapred.JobClient: Spilled Records=3935722 15/07/31 15:20:56 INFO mapred.JobClient: CPU time spent (ms)=23180 15/07/31 15:20:56 INFO mapred.JobClient: Physical memory (bytes) snapshot=2750377984 15/07/31 15:20:56 INFO mapred.JobClient: Virtual memory (bytes) snapshot=10085515264 15/07/31 15:20:56 INFO mapred.JobClient: Total committed heap usage (bytes)=2449473536
48