Modul 1 Instalasi Hadoop
H
adoop dapat dijalankan pada mode single node maupun multinode. Untuk dapat menjalankan Hadoop, terlebih dahulu dilakukan instalasi Hadoop pada mesin yang akan digunakan. Pada mode single node, Hadoop dijalankan pada satu mesin secara standalone maupun pseudo-distributed.
Pada pertemuan ini akan dijelaskan mengenai langkah-langkah instalasi Hadoop pada Sistem Operasi CentOS 6.7 64 bit.
3.1 Prasyarat Sebelum melakukan instalasi Hadoop, terlebih dahulu harus dilakukan instalasi maupun konfigurasi beberapa prasyarat agar Hadoop dapat dijalankan. 3.1.1 Instalasi Java Hadoop membutuhkan Java versi 1.6 (Java 6) atau lebih baru agar bisa dijalankan. Untuk mengecek apakah Java telah dipasang atau belum, atau mengecek versi Java yang telah dipasang, pada terminal masukkan perintah berikut.
Jika pemberitahuan seperti pada Gambar 3.1 muncul, berarti Java belum terpasang pada komputer. Java yang yang dipasang adalah OpenJDK 1.7.0 (Java 7). Untuk melakukan instalasi Java, pada terminal, dimasukkan perintah berikut.
Jika ada pertanyaan, tekan tombol “y” untuk melanjutkan pemasangan. Apabila pemasangan selesai, maka pada terminal akan muncul pesan bahwa pemasangan telah selesai seperti diperlihatkan pada Gambar 3.2. Jika instalasi telah berhasil, maka akan muncul penjelasan seperti diperlihatkan pada Gambar 3.3
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-1
Gambar 3.1 Pemberitahuan bahwa Java belum terinstall
Gambar 3.2 Instalasi Java telah selesai
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-2
Gambar 3.3 Pengecekan versi Java yang sudah terinstall
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-3
3.1.2 Menambahkan Akun Pengguna Khusus Hadoop Dalam menjalankan Hadoop, perlu digunakan akun pengguna khusus Hadoop. Sebagai contoh, dibuatkan nama pengguna khusus Hadoop tersebut adalah hduser.
Perintah passwd adalah perintah untuk mengatur password dari akun pengguna. Untuk akun hduser diberikan password yang sama dengan nama akun, yaitu hduser. Gambar dibawah ini menunjukkan penambahan akun pengguna khusus Hadoop.
Gambar 3.4 Menambahkan akun pengguna khusus Hadoop Kemudian, akun pengguna hduser tersebut dimasukkan ke dalam grup sudoers. Caranya adalah dengan mengedit file sudoers dengan menggunakan text editor vi. Pada terminal, dimasukkan perintah visudo
Kemudian akan muncul text editor vi yang membuka file sudoers. Tambahkan sebaris konfigurasi berikut
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-4
3.1.3 Instalasi dan Konfigurasi SSH SSH digunakan untuk mengakses node-node Hadoop pada mode multinode maupun single node pseudodistributed, atau sebagai remote access terhadap Hadoop. Apabila SSH belum terpasang, pada terminal dimasukkan perintah berikut untuk memasang SSH.
Setelah SSH dipasang, kemudian perlu dilakukan generate sebuah kunci rsa khusus untuk pengguna hduser. Tujuannya adalah agar akun hduser mempunyai otoritas untuk melakukan remote access terhadap localhost (mode single node pseudo-distributed) maupun pada node-node Hadoop (mode multinode). Masukkan terlebih dahulu masuk ke akun hduser dan buat kunci ssh dengan menggunakan perintah berikut.
Pada prompt yang muncul, tekan enter agar nama file kunci tetap id_rsa. Kemudian, atur passphrase kosong, agar tidak perlu memasukkan password setiap melakukan SSH. Tekan enter untuk membiarkan passphrase tetap kosong. Kemudian masukkan kunci publik untuk SSH ke daftar kunci yang terautorisasi menggunakan perintah berikut.
Perintah berikut digunakan untuk memberikan hak akses ke direktori .ssh dan file kunci yang terautorisasi.
Detil lengkap proses pembuatan kunci diperlihatkan pada Gambar 3.6
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-5
Gambar 3.6 Membuat kunci publik RSA untuk hduser Setelah kunci berhasil dibuat, kita bisa mencoba SSH dengan menggunakan perintah berikut.
Gambar 3.7 menunjukkan proses pengujian yang berhasil. Pengampu : Agus Priyanto, S.Kom., M.Kom
I-6
3.1.4 Mematikan IPv6 Konfigurasi Hadoop yang berhubungan dengan jaringan akan mengikat ke alamat IPv6 pada 0.0.0.0. Hal tersebut akan menimbulkan permasalahan tersendiri. Oleh karena itu, IPv6 sebaiknya dinonaktifkan. Buka dan edit file sysctl.conf yang ada di direktori /etc dengan menggunakan text editor.
Setelah file sysctl.conf dibuka menggunakan text editor, tambahkan beberapa baris konfigurasi berikut. Kemudian simpan dan tutup text editor.
Gambar 3.8 dibawah ini menunjukkan tambahan baris konfigurasi di /etc/sysctl.conf.
Gambar 3.8 Menambahkan konfigurasi untuk mematikan IPv6
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-7
Kemudian, perbarui pengaturan dengan perintah berikut. Gambar 3.9 memperlihatkan hasil proses perbaruan pengaturan IPv6
Gambar 3.9 Hasil perintah perbarui pengaturan IPv6
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-8
3.2 Instalasi Hadoop 3.2.1 Mengunduh dan Membuat Direktori Hadoop Hadoop didistribusikan dalam dalam dua bentuk, yaitu dalam bentuk source dan dalam bentuk binary. Distribusi yang berupa source setelah diunduh harus dikompilasi terlebih dahulu. Distribusi binary setelah diunduh dapat langsung digunakan, dengan beberapa tambahan konfigurasi Untuk mengunduh Hadoop binary distribution, sebagai hduser, pada terminal masukkan perintah berikut.
Terminal akan mengunduh Hadoop binary distribution seperti diperlihatkan pada Gambar 3.10.
Gambar 3.10 Mengunduh Hadoop binary distribution Hadoop yang telah diunduh dalam bentuk tarball diekstrak ke direktori /home/hduser/hadoop. Berikut adalah perintahnya.
Gambar 3.11 ini menunjukkan hasil ekstraksi ke direktori /home/hduser/hadoop.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-9
Gambar 3.11 Hasil ekstraksi Hadoop ke direktori /home/hduser/hadoop
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 10
3.2.2 Memperbarui Environment Variable (.bashrc) Pada file .bashrc, ditambahkan beberapa baris untuk menambahkan path ke direktori Hadoop dan Java. Penambahan path ini digunakan untuk memudahkan ketika kita melakukan perintah terkait Hadoop dan Java di terminal. Buka file .bashrc menggunakan perintah berikut.
Pada file .bashrc yang dibuka dengan, tambahkan di environment variable untuk path ke direktori hadoop dan direktori Java. Berikut adalah baris yang ditambahkan dalam .bashrc.
Hasil penambahan baris di .bashrc diperlihatkan pada Gambar 3.12.
Gambar 3.12 Menambahkan baris path environment variable
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 11
3.2.3 Konfigurasi Hadoop Sebelum Hadoop dapat dijalankan, terlebih dahulu harus dilakukan beberapa konfigurasi untuk menyesuaikan HDFS dan MapReduce framework yang digunakan. Semua konfigurasi Hadoop terletak di direktori /home/hduser/hadoop/etc/hadoop. Buka file hadoop-env.sh dengan text editor.
Pada file hadoop-env tersebut, set variabel JAVA_HOME menjadi lokasi instalasi Java sebagai berikut.
Hasil penambahan variabel JAVA_HOME diperlihatkan pada Gambar 3.13.
Gambar 3.13 Konfigurasi pada file hadoop-env.sh Buka core-site.xml dengan text editor dan isikan pada tag
... dengan konfigurasi berikut. Hasil penambahan konfigurasi diperlihatkan pada Gambar 3.14.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 12
Gambar 3.14 Konfigurasi file system default pada Hadoop Selanjutnya, buka hdfs-site.xml dengan text editor dan isikan tag
dengan konfigurasi berikut. Konfigurasi ini digunakan untuk mendefinisikan banyaknya replikasi data pada HDFS. Hasil penambahan konfigurasi diperlihatkan pada Gambar 3.15.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 13
Gambar 3.15 Konfigurasi banyaknya replikasi pada HDFS Selanjutnya adalah konfigurasi MapReduce framework yang digunakan pada file mapred-site.xml. File tersebut belum ada, sehingga harus mengganti nama file mapred-site.xml.template menjadi mapredsite.xml dengan perintah sebagai berikut.
Kemudian buka file mapred-site.xml tersebut dan dan tambahkan konfigurasi MapReduce framework yang digunakan menggunakan perintah berikut. MapReduce framework yang digunakan adalah YARN.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 14
Gambar 3.16 Konfigurasi pada MapReduce framework, yaitu YARN Gambar 3.16 menunjukkan hasil konfigurasi mapred-site.xml. Konfigurasi selanjutnya adalah konfigurasi YARN. Langkahnya adalah dengan membuka yarn-site.xml dan isikan konfigurasi dalam tag
... seperti berikut. Hasil konfigurasi ini diperlihatkan pada gambar dibawah ini.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 15
Gambar 3.17 Hasil konfigurasi pada yarn-site.xml
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 16
3.2.4 Format Hadoop Distributed File System via NameNode Setelah Hadoop selesai dikonfigurasi, kemudian dilakukan format pada Hadoop Distributed File System (HDFS). Hadoop Distributed File System (HDFS) tersebut perlu di-format sebelum Hadoop dijalankan untuk pertama kalinya. Format dilakukan melalui NameNode. Untuk mengakses NameNode, harus dilakukan remote access ke localhost dengan SSH menggunakan perintah berikut ini. Perintah pada baris ketiga merupakan perintah untuk format NameNode yang dilakukan dengan mengeksekusi file hdfs pada direktori bin.
3.2.5 Menjalankan dan Menghentikan Hadoop Mode menjalankan Hadoop dengan menggunakan HDFS dan faktor replikasi satu biasa disebut sebagai mode pseudo-distributed. Perintah yang digunakan untuk menjalankan Hadoop adalah startdfs.sh dan start-yarn.sh. Perintah start-dfs.sh akan mengaktifkan NameNode, DataNode, dan Secondary NameNode, sedangkan start-yarn.sh akan mengaktifkan ResourceManager dan NodeManager. Kita bisa menggunakan perintah jps untuk mendapatkan informasi mengenai prosesproses Hadoop yang berjalan. Hasil menjalankan perintah start-dfs.sh dan start-yarn.sh diperlihatkan pada Gambar 3.18 dan 3.19 :
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 17
Gambar 3.18 Menjalankan start-dfs.sh
Gambar 3.19 Menjalankan start-yarn.sh Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 18
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 19
Antarmuka web Hadoop dapat digunakan untuk memonitor jalannya node-node dan job-job Hadoop yang sedang berjalan. Web Hadoop dapat diakses di alamat http://localhost:50070 untuk NameNode dan http://localhost:8088 untuk Resource Manager. Antarmuka web untuk keduanya diperlihatkan pada gambar dibawah ini.
Gambar 3.20 Antarmuka web Hadoop untuk NameNode Manager
Gambar 3.21 Antarmuka web Hadoop untuk Resource Manager
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 20
Setelah kita menjalankan service HDFS, kita bisa membuat direktori pada HDFS. Direktori pada HDFS ini digunakan untuk menyimpan data yang akan diolah menggunakan Hadoop. Pembuatan direktori pada HDFS menggunakan perintah sebagai berikut
Direktori-direktori pada HDFS dapat dicek melalui antarmuka web Hadoop untuk NameNode Manager, yaitu pada tab Utilities, lalu pilih Browse File System, seperti diperlihatkan pada gambar dibawah ini.
Gambar 3.22 Antarmuka web untuk melihat direktori HDFS
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 21
Untuk menghentikan Hadoop, dapat menjalankan stop-yarn.sh dan stop-dfs.sh sebagai berikut. Hasil menghentikan HDFS dan YARN diperlihatkan pada gambar dibawah ini.
Gambar 3.23 Hasil penghentian HDFS dan YARN
~ Selamat Berlatih ~
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 22