KATALOG BPS: 1202031 ISSN: 2086–4132
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK TAHUN 6, VOLUME 1, JUNI 2014
Perbandingan Kinerja Ekspor Teh Hijau dan Teh Hitam antara Indonesia dan Vietnam Periode 2002-2009 (Pendekatan Model Gravitasi Data Panel) RINDY PRIMADINI dan AGUNG PRIYO UTOMO Analisis Perubahan Struktur Ekonomi Jawa Barat dengan Metode Biproporsional pada Tabel Input Output ANUGERAH KARTA MONIKA Perbandingan Peramalan Wisatawan di Bali dengan Menggunakan Metode ARIMA dan Automatic Clustering - Fuzzy Logical Relationships ROBERT KURNIAWAN Mixture Count Regression dengan Pendekatan Bayesian (Studi Jumlah Batang Rokok yang Dihisap Setiap Hari di Provinsi Sumatera Selatan Tahun 2010) FIDA HESTIANA Pemanfaatan Teknologi Big Data untuk Pengolahan Data BPS (Studi Data Sensus Penduduk 2010) FLORENCIA SATWIKA GENAH Komputasi Paralel untuk Proses Tabulasi Data Berbasis Arsitektur Shared Memory (Studi Data Sensus Penduduk 2010) THIO LUTFI HABIBI dan IMAM MACHDI
UNIT PENELITIAN DAN PENGABDIAN KEPADA MASYARAKAT SEKOLAH TINGGI ILMU STATISTIK (UPPM-STIS)
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK Journal of Statistical Application & Statistical Computing No Publikasi / Publication Number: 02700.1004 Katalog BPS / BPS Catalogue: 1202031 No ISSN / ISSN Number: 2086-4132 Ukuran Buku / Book Size: 14,8 cm x 21,5 cm Jumlah Halaman / Number of Pages: 113 + v Diterbitkan oleh / Published by: Sekolah Tinggi Ilmu Statistik STIS-Statistics Institute Boleh dikutip dengan menyebut sumbernya May be cited with reference to the source
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK Pelindung
: Dr. Hamonangan Ritonga, M.Sc.
Pemimpin Umum Redaksi
: Ir. Ekaria, M.Si.
Dewan Editor
: Prof. Dr. Abuzar Asra Dr. Budiasih Dr. Said Mirza Pahlevi Dr. Muchammad Romzi Dr. Erni Tri Astuti Dr. Setia Pramana
Sekretaris Redaksi
: Retnaningsih, M.E.
Disain Grafis
: Ribut Nurul Tri W., S.S.T., M.S.E.
Alamat Redaksi
: Sekolah Tinggi Ilmu Statistik Jl. Otto Iskandardinata 64C Jakarta Timur 13330 Telp. 021-8191437
TAHUN 6, VOLUME 1, JUNI 2014
KATALOG BPS: 1202031 ISSN: 2086-4132
JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK
Perbandingan Kinerja Ekspor Teh Hijau dan Teh Hitam Antara Indonesia dan Vietnam Periode 2002-2009 (Pendekatan Model Gravitasi Data Panel) RINDY PRIMADINI dan AGUNG PRIYO UTOMO
1-14
Analisis Perubahan Struktur Ekonomi Jawa Barat dengan Metode Biproporsional pada Tabel Input Output ANUGERAH KARTA MONIKA
15-38
Perbandingan Peramalan Wisatawan di Bali dengan Metode ARIMA dan Automatic Clustering - Fuzzy Logical Relationships ROBERT KURNIAWAN
39-55
Mixture Count Regression Dengan Pendekatan Bayesian (Studi Jumlah Batang Rokok yang Dihisap Per Hari di Sumatera Selatan, 2010) FIDA HESTIANA Pemanfaatan Teknologi Big Data Untuk Pengolahan Data BPS (Studi Data Sensus Penduduk 2010) FLORENCIA SATWIKA GENAH Komputasi Paralel Untuk Proses Tabulasi Data Berbasis Arsitektur Shared Memory (Studi Data Sensus Penduduk 2010) THIO LUTFI HABIBI dan IMAM MACHDI
56-73
74-99
100-113
PENGANTAR REDAKSI Syukur Alhamdulillah, di pertengahan tahun 2014 “Jurnal Aplikasi Statistika dan Komputasi Statistik” tahun 6, volume 1, Juni 2014 dapat diterbitkan. Jurnal kampus STIS ini dapat terwujud atas partisipasi Bapak/Ibu dosen di STIS beserta mahasiswa bimbingan skripsinya yang telah mengirimkan artikel kepada redaksi, serta peran dari para editor jurnal. Untuk atensi dan kerjasama yang baik guna keberlangsungan terbitnya jurnal ini redaksi mengucapkan terimakasih. Artikel yang dimuat dalam edisi jurnal kali ini menyajikan berbagai variasi penggunaan metode statistika yang diterapkan di bidang ekonomi dan sosial, seperti metode analisis untuk pemodelan pada data panel, data time-series, regresi dengan respon diskrit, serta penggunaan Tabel Input-Output. Adapun untuk bidang komputasi statistik memberikan pembahasan tentang teknologi dan tabulasi untuk big data pada data hasil Sensus Penduduk 2010. Semoga artikel dalam jurnal ini dapat menambah pengetahuan para pembaca tentang penggunaan metode statistika serta komputasi statistik pada berbagai jenis data. Redaksi terus menunggu artikel-artikel ilmiah selanjutnya dari Bapak/Ibu guna dapat menghasilkan publikasi yang menjadi salah satu sarana untuk memberikan sosialisasi statistika bagi masyarakat.
Jakarta, Juni 2014 Salam,
Ekaria
JURNAL STATISTIKA & KOMPUTASI STATISTIK
PERBANDINGAN KINERJA EKSPOR TEH HIJAU DAN TEH HITAM ANTARA INDONESIA DAN VIETNAM PERIODE 2002-2009 (PENDEKATAN MODEL GRAVITASI DATA PANEL)
Rindy Primadini Agung Priyo Utomo
Abstract
The tea commodity has an important role in economic activities in Indonesia. However, based on UNCOMTRADE’s data, Indonesia’s tea export volume has been decreased from 2002 to 2010, one of which was caused by the export competitiveness in the world, such as Vietnam. This study aimed to analyze the comparative advantage of Indonesia’s tea export against Vietnam’s tea export in the international trading period 2002 - 2009 (RCA method) and to analyze the effect of changes in real Gross Domestic Product (Real GDP) interaction, population interaction, exchange rate, and economic distance towards export of green tea and black tea between Indonesia and Vietnam with gravity models. The result showes that during the period 2002-2009, Vietnam’s tea export, especially green tea, was superior to Indonesia’s tea export. Meanwhile, Indonesia’s black tea export was superior to Vietnam. And then, based on the results of the test, with a significance level of 10 percent, population interaction and economic distance variables are significantly influencing the green tea export volume of Indonesia, real GDP interaction and economic distance variables are significantly have effect on the green tea export volume of Vietnam, population interaction variable is significantly influencing the black tea exports volume of Indonesia, and population interaction and real GDP interaction variables are significantly influencing the black tea export volume of Vietnam. Therefore, Indonesia's agriculture ministry is expected to more focused on the development of black tea in Indonesia, such as improving the quality of Indonesian black tea and increasing market distributions by selecting the export destination countries with a high consumption of tea. Keywords: green tea, black tea, comparative advantage, RCA, gravity model
I.
PENDAHULUAN
Indonesia mempunyai keunggulan komparatif (comparative advantage) sebagai negara agraris. Hal ini terlihat dari struktur lapangan pekerjaan Indonesia yang masih di didominasi oleh sektor pertanian yakni sebesar 36,52 persen penduduk Indonesia (BPS, 2012). Keunggulan komparatif tersebut dapat TAHUN 6, VOLUME 1, JUNI 2014
1
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
didayagunakan melalui pembangunan ekonomi sehingga menjadi keunggulan bersaing (competitive advantage). Feridanusetyawan dalam Setiarso (2003) mengemukakan alasan pentingnya sektor pertanian, yaitu pertama, sektor pertanian diharapkan dapat menyediakan pangan yang cukup untuk seluruh populasi; kedua, sektor pertanian dipandang sebagai wadah penampungan tenaga kerja; ketiga, sektor pertanian diharapkan memberikan sumbangan yang cukup besar dalam usaha perolehan devisa melalui ekspor. Komoditas teh merupakan salah satu komoditi hasil pertanian yang mempunyai peran cukup penting dalam kegiatan perekonomian di Indonesia dan merupakan produk agribisnis Indonesia yang telah lama diusahakan secara komersial di Indonesia yakni sejak tahun 1800-an dan mempunyai prospek yang cukup baik untuk terus dikembangkan sebagai sumber devisa. Sebagai komoditas perdagangan, pencapaian ekspor komoditas teh tergantung dari harga di pasar internasional yang pada umumnya berfluktuasi sesuai dengan perkembangan permintaan dan penyediaan/produksi dunia. Pelaksanaan perjanjian perdagangan internasional berakibat perdagangan dunia menjadi lebih transparan, dan persaingan menjadi lebih ketat. Oleh karena itu, masyarakat perkebunan Indonesia dituntut untuk dapat meningkatkan daya saing produk-produk perkebunannya untuk dapat tetap survive dan berhasil menghadapi persaingan yang semakin ketat ini. Pasar bebas yang diciptakan oleh perjanjian perdagangan pertanian hanya dapat dimanfaatkan secara maksimal oleh negaranegara yang dalam proses produksinya efisien dan dapat memanfaatkan keunggulan komparatif yang dimiliki menjadi keunggulan kompetitif. Bagi negara yang mampu meningkatkan daya saingnya, mempunyai kesempatan untuk memperbesar pangsa pasarnya, baik di pasar internasional maupun di pasar domestik. Sedangkan bagi negara-negara yang tidak mampu meningkatkan daya saingnya akan terdesak oleh para pesaingnya. Indonesia merupakan salah satu produsen dan eksportir teh terbesar di dunia, oleh karena itu liberalisasi perdagangan dunia merupakan peluang yang cukup besar bagi industri teh Indonesia. Di sisi lain, hal ini dapat juga dipandang sebagai tantangan untuk meningkatkan daya saing agar dapat menghasilkan produk teh yang semakin kompetitif di pasar internasional. Peningkatan daya
2
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
saing komoditi merupakan tantang terbesar bagi komoditi teh Indonesia, ditambah pula dengan telah tidak diberlakukannya kuota menyebabkan komoditi teh nasional mendapat ancaman serius dari negara-negara yang merupakan produsen teh seperti Vietnam. Selain itu, negara-negara produsen teh lain menggunakan teknologi baru yang dapat menghasilkan teh dengan biaya per unit yang lebih rendah dan kualitas yang lebih baik. Akibatnya, terjadi pergeseran kedudukan teh curah Indonesia yang didesak oleh Vietnam dari kedudukan ke lima menjadi ke enam. 0.3 0.25 0.2 0.15 0.1 0.05 0 -0.05
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
-0.1 -0.15 -0.2
Indonesia
Viet Nam
World + (Total)
Sumber: FAOSTAT Gambar 1.1. Perbandingan Laju Pertumbuhan Produksi Teh Indonesia, Vietnam, dan Dunia Tahun 2000 - 2010 Berdasarkan data United Nations Commodity Trade Statistics Database (UNCOMTRADE), nilai ekspor teh Indonesia cenderung meningkat yakni dari US$ 112.105.575 pada tahun 2000 menjadi US$ 171.628.219 pada tahun 2009. Namun volumenya cenderung menurun yakni 105.581.462 kg pada tahun 2000 menjadi 92.304.141 kg pada tahun 2009. Sedangkan Vietnam memiliki nilai ekspor dan volume ekspor yang terus meningkat dan Vietnam berhasil mendahului Indonesia baik dari segi nilai maupun volume ekspor teh ke dunia dengan nilai ekspor teh sebesar US$ 180.219.082 dan volume ekspor teh sebesar 134.532.234 kg pada tahun 2009. Selain itu, pangsa nilai ekspor teh Indonesia dari seluruh jenis teh selama tahun 2008 sampai dengan 2011 hanya mencapai 0,96
TAHUN 6, VOLUME 1, JUNI 2014
3
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
persen dan menduduki urutan ke 19. Sedangkan Vietnam menduduki posisi ke sembilan dengan pangsa ekspor 1,8 persen. Selain permasalahan persaingan ekspor teh di pasar dunia, besarnya ekspor suatu negara juga dipengaruhi oleh keadaan perekonomian negara bersangkutan yang meliputi Produk Domestik Bruto (PDB), populasi penduduk, kurs (nilai tukar mata uang) suatu negara, maupun jarak negara tersebut dengan mitra dagangnya. Pada dasarnya teh dapat dibedakan menjadi 3 kelompok utama, yaitu teh hitam, teh oolong, dan teh hijau. Pada pelaporannya, baik Indonesia dan Vietnam hanya mengekspor teh dalam bentuk teh hitam dan teh hijau. Oleh karena itu penelitian ini hanya di batasi pada teh hitam (kode HS 090230 dan HS 090240) dan teh hijau (kode HS 090210 dan HS 090220). Berdasarkan uraian di atas penelitian ini dilakukan untuk: 1. Mengetahui keunggulan komparatif ekspor teh Indonesia terhadap ekspor teh Vietnam dalam perdagangan internasional periode 2002 – 2009. 2. Mengetahui pengaruh perubahan interaksi Produk Domestik Bruto (PDB) riil, interaksi populasi, kurs negara pengekspor terhadap negara mitra dagang, dan jarak ekonomi antara negara pengekspor dengan negara mitra dagang, terhadap ekspor teh hijau dan teh hitam antara Indonesia dan Vietnam.
II. METODOLOGI Data yang digunakan pada penelitian ini merupakan data sekunder berupa data panel yaitu data Indonesia dan Vietnam dengan masing-masing mitra dagang untuk komoditi teh, baik teh hitam maupun teh hijau, selama periode 2002-2009. Data ini diperoleh dari berbagai sumber, dengan rincian sebagai berikut: 1. Data volume (dalam ton) ekspor teh Indonesia dan Vietnam dengan masingmasing negara mitra dagangnya untuk komoditi teh, baik teh hitam maupun teh hijau, diperoleh dari United Nations Commodity Trade Statistics Database pada http://comtrade.un.org/db/. 2. Data PDB riil Indonesia dan PDB riil negara Vietnam dengan PDB riil masingmasing negara mitra dagangnya (GDP, at market prices, at 2005 prices) dari publikasi UN pada http://unstats.un.org.
4
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
3. Data populasi penduduk Indonesia, Vietnam dan masing-masing negara mitra dagangnya dari publikasi IFS CD-ROM yang dikeluarkan oleh International Monetary Fund (IMF). 4. Data nilai tukar mata uang (end of period), bersumber dari IFS CD-ROM yang dikeluarkan oleh International Monetary Fund (IMF). 5. Data jarak nautical antara Indonesia dan Vietnam dengan masing-masing negara mitra dagangnya merupakan pendekatan jarak antara dua ibukota negara yang dinyatakan dalam mile dari www.indo.com/distance. Penelitian ini menggunakan dua metode analisis yaitu analisis deskriptif dan analisis inferensia. Analisis deskriptif dilakukan untuk menunjukkan perubahan keunggulan komparatif ekspor komoditas teh, baik teh hijau maupun teh hitam, antara Indonesia dan Vietnam dengan menggunakan analisis Revealed Comparative
Advantage
(RCA).
Analisis
inferensia
digunakan
untuk
menganalisis pengaruh setiap variabel bebas, yaitu interaksi PDB riil, interaksi populasi, kurs riil mata uang negara pengekspor terhadap negara mitra dagang, dan jarak ekonomi antara negara pengekspor dan negara mitra dagang terhadap kinerja volume ekspor teh hijau dan teh hitam Indonesia maupun Vietnam dengan mitra dagangnya selama periode 2002-2009 menggunakan model gravity dengan data panel. III. HASIL DAN PEMBAHASAN Daya saing suatu negara pada suatu produk suatu komoditi dapat diestimasi melalui keunggulan komparatif. Analisis keunggulan komparatif pada penelitian ini menggunakan analisis RCA (Revealed Comparative Advantage). Nilai RCA merupakan gambaran dari kinerja ekspor suatu komoditi. Nilai RCA yang lebih besar dari satu dianggap memiliki kinerja ekspor yang baik. Berdasarkan Gambar 1.2, dapat terlihat bahwa baik Indonesia maupun Vietnam memiliki kinerja ekspor teh yang baik. Hal ini ditunjukkan dari indeks RCA ke dua negara yang bernilai lebih dari satu, meskipun setiap tahunnya nilai RCA produk teh tersebut menunjukkan trend yang menurun. Penurunan tersebut dikarenakan kontribusi ekspor teh terhadap ekspor total Indonesia maupun Vietnam adalah menurun, meskipun nilai ekspor teh tersebut meningkat di kedua negara. Berdasarkan gambar tersebut juga dapat terlihat bahwa ekspor komoditi TAHUN 6, VOLUME 1, JUNI 2014
5
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
teh Vietnam memiliki keunggulan komparatif yang lebih baik dibandingkan Indonesia. 20 15 Indonesia
10
Vietnam 5 0 2002
2003
2004
2005
2006
2007
2008
2009
Gambar 1.2. Perkembangan Indeks RCA Komoditi Teh Indonesia dan Vietnam Tahun 2002 – 2009 Berdasarkan hasil pemilihan model terbaik yang digunakan untuk mengestimasi parameter untuk volume ekspor teh hijau Indonesia, teh hijau Vietnam, teh hitam Indonesia, dan teh hitam Vietnam adalah model Fixed Effects Cross Section Weight dengan Metode Cross Section SUR Panel Corrected Error (PCSE) Robust Covariance. Adapun model gravity yang diperoleh adalah sebagai berikut: Persamaan teh hijau Indonesia: ( ̂ ) ( (0,6838) ( (0,0005*) F-stat = 18,8685 Prob(F-stat) = 0,0000 R2 = 0,7555 R2adj = 0,7154 Persamaan teh hijau Vietnam: ( ̂ ) ( (0,0000*) ( (0,9759) F-stat = 28,8067 Prob(F-stat) = 0,0000 R2 = 0,8237 R2adj = 0,7951
6
)
( (0,0004*)
)
) (0,1453)
)
( (0,0198*)
)
) (0,1441)
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Persamaan teh hitam Indonesia: ( ̂ ) ( ) ( ) (0,5541) (0,9075) ( ) ( ) (0,0514*) (0,9927) F-stat = 58,8692 Prob(F-stat) = 0,0000 R2 = 0,9025 R2adj = 0,8872 Persamaan teh hitam Vietnam: ( ̂ ) ( ) ( ) (0,0000*) (0,9634) ( ) (0,0910*) (0,1133) F-stat = 47,0993 Prob(F-stat) = 0,0000 R2 = 0,8791 R2adj = 0,8604 Catatan: * signifikan pada α = 10% Nilai dalam kurung merupakan nilai prob (t-statistik) Keterangan: Eksporindoj : volume ekspor teh Indonesia (teh hijau untuk model teh hijau Indonesia, teh hitam untuk model teh hitam Indonesia) ke negara mitra dagang (j) Eksporvietj
: volume ekspor teh Vietnam (teh hijau untuk model teh hijau Vietnam, teh hitam untuk model teh hitam Vietnam) ke negara mitra dagang (j)
PDBindo.PDBj
: Interaksi PDB riil Indonesia terhadap PDB riil negara mitra (j)
PDBviet.PDBj
: Interaksi PDB riil Vietnam terhadap PDB riil negara mitra (j)
POPindo.POPj
: Interaksi populasi penduduk Indonesia terhadap penduduk negara mitra (j)
POPviet.POPj
: Interaksi populasi penduduk Vietnam terhadap penduduk negara mitra (j)
DEcoij
: Jarak ekonomi antara negara pengekspor teh (Indonesia pada model Indonesia dan Vietnam pada model Vietnam) dengan negara mitra (j)
TAHUN 6, VOLUME 1, JUNI 2014
7
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Kursij
: Nilai tukar riil mata uang negara pengekspor teh (Indonesia pada model Indonesia dan Vietnam pada model Vietnam) terhadap negara mitra (j)
t
: waktu
cj
: intersep untuk setiap individu (negara mitra)
Teh Hijau Dari model gravity di atas, nilai prob (F-statistic) untuk persamaan teh hijau baik Indonesia maupun Vietnam adalah 0,0000 artinya dengan tingkat signifikansi 10 persen minimal ada satu variabel bebas dalam model gravity yang signifikan mempengaruhi volume ekspor teh hijau Indonesia dan Vietnam dengan nilai R2adj sebesar 0,7154 untuk model teh hijau Indonesia dan 0,7951 untuk model teh hijau Vietnam. Nilai R2adj tersebut mengindikasikan bahwa variasi nilai volume ekspor teh hijau Indonesia dan Vietnam dapat dijelaskan oleh variabel variabel bebas dalam gravity model masing-masing sebesar sebesar 71,54 persen dan 79,51 persen. Pada negara Indonesia secara parsial dilihat dari nilai prob t-statistic, variabel penjelas yang signifikan mempengaruhi volume ekspor teh hijau Indonesia di pasar internasional pada tingkat signifikansi 10 persen adalah variabel interaksi populasi, dan jarak ekonomi antara negara pengekspor dan negara mitra dagangnya sementara variabel interaksi PDB riil dan kurs riil mata uang negara pengekspor terhadap mata uang negara mitra dagangnya tidak signifikan berpengaruh secara statistik. Sedangkan pada Vietnam, dengan tingkat signifikansi 10 persen variabel yang signifikan mempengaruhi ekspor teh hijaunya di pasar internasional adalah variabel interaksi PDB riil dan jarak ekonomi antara Vietnam dengan mitra dagangnya sementara variabel interaksi populasi dan kurs riil mata uang Vietnam terhadap mata uang negara mitra dagangnya tidak signifikan berpengaruh secara statistik. Pada model teh hijau Indonesia, variabel jarak ekonomi berpengaruh negatif dan signifikan terhadap volume ekspor teh Indonesia dengan koefisien regresi sebesar -5,41 yang menunjukkan bahwa semakin bertambahnya (berkurangnya) jarak ekonomi antara negara Indonesia dengan mitra dagang sebesar 1 persen akan menurunkan (meningkatkan) volume ekspor teh hijau 8
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Indonesia sebesar 5,41 persen dengan asumsi variabel lainnya tetap (ceteris paribus). Hal tersebut sesuai dengan teori bahwa semakin jauh jarak antar negara yang melakukan perdagangan maka biaya transportasi akan semakin besar. Sehingga harga barang yang diperdagangkan akan semakin mahal pada saat sampai di negara tujuan ekspor dan pada akhirnya permintaan atas barang tersebut akan berkurang. Namun pada model teh hijau Vietnam, variabel jarak ekonomi malah berpengaruh positif dan signifikan terhadap volume ekspor teh hijau Vietnam dengan koefisien regresi sebesar 2,19 yang menunjukkan bahwa semakin bertambahnya (berkurangnya) jarak ekonomi antara negara Vietnam dengan mitra dagang sebesar 1 persen akan meningkatkan (menurunkan) volume ekspor teh hijau Vietnam sebesar 2,19 persen dengan asumsi variabel lainnya tetap (ceteris paribus). Hal ini dikarenakan pada 10 tahun terakhir Vietnam membentuk suatu peraturan baru untuk investasi bisnis yang memudahkan pengembangan bisnis, sehingga mengindikasikan adanya perkembangan teknologi di Negara Vietnam, dan atau harga tenaga kerja yang murah di mana akan meminimalkan biaya dan waktu tempuh akibat peningkatan jarak, yang ditunjukkan dengan nilai koefisien dari variabel jarak positif. Sehingga menyebabkan jarak bukan lagi suatu masalah dalam ekspor teh hijau Vietnam. Variabel interaksi populasi berpengaruh positif dan signifikan terhadap volume ekspor teh hijau Indonesia. Nilai koefisien regresi untuk variabel interaksi populasi pada model teh hijau Indonesia adalah sebesar 17,27. Hal ini berarti setiap peningkatan populasi Indonesia dan mitra dagangnya sebesar 1 persen akan menaikkan volume ekspor teh hijau dari Indonesia sebesar 17,27 persen dengan asumsi variabel lainnya tetap (ceteris paribus). Hal ini berarti pengaruh pertambahan populasi penduduk Indonesia di sini dilihat dari sisi penawaran di mana mengindikasikan peningkatan populasi penduduk Indonesia berdampak pada pertambahan tenaga kerja yang akhirnya meningkatkan produksi domestik negara Indonesia sehingga penawaran ekspor teh hijau Indonesia meningkat. Apalagi jumlah penduduk Indonesia tergolong besar dan harga tenaga kerja di Indonesia masih tergolong murah sehingga meningkatkan volume ekspor teh hijau Indonesia ke dunia.
TAHUN 6, VOLUME 1, JUNI 2014
9
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Pada model teh hijau Vietnam, sesuai dengan teori model gravity, variabel interaksi PDB riil berpengaruh positif dan signifikan terhadap volume ekspor teh hijau Vietnam dengan koefisien regresi sebesar 3,48. Hal ini berarti setiap kenaikan (penurunan) pertumbuhan ekonomi Vietnam dan mitra dagangnya sebesar 1 persen akan menyebabkan kenaikan (penurunan) volume ekspor teh hijau Vietnam sebesar 3,48 persen dengan asumsi variabel lainnya tetap (ceteris paribus). Interaksi PDB riil antara negara pengekspor dengan mitra dagang menunjukkan kemampuan pasar dalam menyerap komoditas yang diperdagangkan. Bagi negara eksportir, PDB menggambarkan kemampuan produksi untuk menghasilkan komoditas ekspor. Semakin besar PDB negara eksportir menunjukkan peningkatan output yang dihasilkan sehingga terjadi kenaikan kemampuan ekspor. Peningkatan PDB negara importir akan menambah impor karena PDB yang semakin besar menunjukkan daya beli terhadap barang impor meningkat. Teh Hitam Dari model gravity di atas, nilai prob (F-statistic) untuk persamaan teh hitam baik Indonesia maupun Vietnam adalah 0,0000 artinya dengan tingkat signifikansi 10 persen minimal ada satu variabel bebas dalam model gravity yang signifikan mempengaruhi volume ekspor teh hitam Indonesia dan Vietnam dengan nilai R2adj 0,8872 untuk model teh hitam Indonesia dan 0,8604 untuk model teh hitam Vietnam. Nilai R2adj tersebut mengindikasikan bahwa variasi nilai volume ekspor teh hitam Indonesia dan Vietnam dapat dijelaskan oleh variabel - variabel bebas dalam gravity model masing-masing sebesar sebesar 88,72 persen dan 86,04 persen. Pada model ekspor teh hitam Indonesia, dengan tingkat signifikansi 10 persen, variabel penjelas yang signifikan mempengaruhi volume ekspor teh hitam Indonesia di pasar internasional adalah variabel interaksi populasi saja. Sementara untuk model ekspor teh hitam Vietnam, variabel penjelas yang signifikan mempengaruhi volume ekspor teh hitam Vietnam di pasar internasional pada tingkat signifikansi 10 persen adalah variabel interaksi populasi, dan interaksi PDB riil antara negara Vietnam dan negara mitra dagangnya.
10
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Variabel interaksi populasi berpengaruh positif dan signifikan terhadap volume ekspor teh hitam Vietnam namun berpengaruh negatif terhadap volume ekspor teh hitam Indonesia, di mana nilai koefisien regresi untuk variabel interaksi populasi pada model teh hitam Vietnam adalah sebesar 3,42 dan sebesar -3,33 pada model teh hitam Indonesia. Hal ini berarti setiap peningkatan populasi Vietnam dan mitra dagangnya sebesar 1 persen akan menaikkan volume ekspor teh hitam Vietnam sebesar 3,42 persen, namun pada kondisi yang sama akan menurunkan volume ekspor teh hitam Indonesia sebesar 3,33 persen dengan asumsi variabel lainnya tetap (ceteris paribus). Dilihat dari sisi penawaran, pengaruh populasi di Indonesia menunjukkan dampak jumlah penduduk Indonesia terhadap jumlah tenaga kerja yang akhirnya menunjukkan produksi domestik negara Indonesia sehingga mempengaruhi ekspor teh hitam Indonesia. Namun, dilihat dari sisi permintaan, pengaruh populasi di negara mitra dagang menunjukkan tingkat konsumsi teh hitam oleh negara tujuan ekspor Indonesia. Menurut Ketua Umum Dewan Teh Indonesia Rachmat Badruddin, dalam 20 tahun terakhir terjadi kelebihan penawaran (oversupply), yakni peningkatan produksi teh dunia yang tidak diimbangi dengan peningkatan konsumsinya. Hal ini juga sesuai dengan penelitian yang dilakukan Febriyanthi (2008) yang menunjukkan bahwa terjadinya oversupply selama tahun 2001 hingga 2005 yang ditunjukkan dengan besarnya produksi teh tidak sebanding dengan konsumsinya sehingga menurunkan total volume ekspornya. Lebih dari 70 persen ekspor teh Indonesia adalah teh hitam. Sehingga diindiksikan bahwa teh hitam lah yang paling terpengaruh oleh terjadinya oversupply tersebut. Oleh karena itu, setiap terjadi peningkatan jumlah populasi Indonesia dan mitra dagangnya justru mengakibatkan terjadinya penurunan jumlah ekspor teh hitam Indonesia. Pada model teh hitam Vietnam, sesuai dengan teori model gravity, variabel interaksi PDB riil berpengaruh positif dan signifikan terhadap volume ekspor teh hitam Vietnam dengan koefisien regresi sebesar 2,23. Hal ini berarti setiap kenaikan (penurunan) pertumbuhan ekonomi Vietnam dan mitra dagangnya sebesar 1 persen akan menyebabkan kenaikan (penurunan) volume ekspor teh
TAHUN 6, VOLUME 1, JUNI 2014
11
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
hitam Vietnam mengalami kenaikan (penurunan) sebesar 2,23 persen dengan asumsi variabel lainnya tetap (ceteris paribus). Interaksi PDB riil antara negara pengekspor dengan mitra dagang menunjukkan kemampuan pasar dalam menyerap komoditas yang diperdagangkan. Bagi negara eksportir, PDB menggambarkan kemampuan produksi untuk menghasilkan komoditas ekspor. Semakin besar PDB negara eksportir menunjukkan peningkatan output yang dihasilkan sehingga terjadi kenaikan kemampuan ekspor. Peningkatan PDB negara importir akan menambah impor karena PDB yang semakin besar menunjukkan daya beli terhadap barang impor meningkat. IV. KESIMPULAN DAN SARAN Beberapa kesimpulan yang dapat dikemukakan berdasarkan hasil analisis dan pembahasan yaitu 1. Secara umum, selama periode 2002-2009 ekspor teh Vietnam lebih unggul dibandingkan ekspor teh Indonesia dan ekspor teh hijau Vietnam juga memiliki keunggulan komparatif yang lebih baik dibandingkan ekspor teh hijau Indonesia. Akan tetapi dilihat dari sisi ekspor teh hitam, Indonesia memiliki keunggulan komparatif yang lebih baik dibandingkan Vietnam. 2. Pada tingkat signifikansi 10 persen, volume ekspor teh hijau Indonesia di pasar internasional dipengaruhi oleh variabel interaksi populasi, dan jarak ekonomi antara negara pengekspor dan negara mitra dagangnya sementara variabel interaksi PDB riil dan kurs riil mata uang negara pengekspor terhadap mata uang negara mitra dagangnya tidak signifikan berpengaruh secara statistik. Kemudian dengan tingkat signifikansi 10 persen, variabel yang signifikan mempengaruhi ekspor teh hijau Vietnam di pasar internasional adalah variabel interaksi PDB riil dan jarak ekonomi antara Vietnam dengan mitra dagangnya sementara variabel interaksi populasi dan kurs riil mata uang Vietnam terhadap mata uang negara mitra dagangnya tidak signifikan berpengaruh secara statistik. 3. Pada model ekspor teh hitam Indonesia, dengan tingkat signifikansi 10 persen, variabel penjelas yang signifikan mempengaruhi volume ekspor teh hitam Indonesia di pasar internasional adalah variabel interaksi populasi saja, sementara variabel Interaksi PDB riil, kurs riil rupiah terhadap mata uang mitra 12
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
dagang, dan jarak ekonomi Indonesia dengan mitra dagang tidak signifikan berpengaruh secara statistik. Sedangkan untuk model ekspor teh hitam Vietnam, variabel penjelas yang signifikan mempengaruhi volume ekspor teh hitam Vietnam di pasar internasional pada tingkat signifikansi 10 persen adalah variabel interaksi populasi, dan interaksi PDB riil antara negara Vietnam dan negara mitra dagangnya, sementara variabel kurs riil mata uang Vietnam terhadap mata uang mitra dagang dan jarak ekonomi antara Vietnam dan mitra dagang tidak signifikan berpengaruh secara statistik. Berdasarkan kesimpulan yang diperoleh, maka dapat diajukan saran: 1. Pemerintah Indonesia, terutama Kementrian Pertanian dan Kementerian/ Lembaga terkait lainnya, diharapkan dapat lebih fokus dalam pengembangan teh hitam, karena komoditi tersebut memiliki keunggulan komparatif yang lebih baik dengan memperbaiki kualitas teh hitam Indonesia dan meningkatkan distribusi pasar dengan memilih negara-negara tujuan ekspor dengan konsumsi teh yang tinggi. 2. Untuk penelitian selanjutnya dapat dilanjutkan dengan menambah tahun penelitian dan mencari negara-negara mana saja yang merupakan potensi pasar teh hijau dan teh hitam Indonesia.
DAFTAR PUSTAKA Badan Pusat Statistik [BPS]. (7 Mei 2012). Berita Resmi Statistik No.33/05/Th.XV. Jakarta: BPS Badan Pusat Statistik [BPS]. (2009). Statistik Teh Indonesia. Jakarta: BPS Febriyanthi, Sri Anna. (2008). Analisis Daya Saing Ekspor Komoditi Teh Indonesia di Pasar Internasional [Skripsi]. Bogor: Institut Pertanian Bogor. Ghemawat, Pankaj. (2001). Distance Still Matters: The Hard Reality of Global Expansion. Harvard Business Review Article. Harvard University. Gujarati, D. N. (2012). Dasar-dasar Ekonometrika Ed.5-Buku 2, diterjemahkan oleh Raden Carlos Mangunsong. Jakarta: Penerbit Salemba Empat. Head, Keith. (2003). Gravity for Beginners. 20 Mei 2012. http://home. fhtwberlin.de/~betzk/International_Economics-Dateien/gravity_head.pdf. Helmers, Christian and Jean-Michel Pasteels. (2005). TradeSim (third version), a Gravity Model for the Calculation of Trade Potentials for Developing Countries and Economies in Transition. International Trade Center Working Paper. TAHUN 6, VOLUME 1, JUNI 2014
13
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
International Monetary Fund (IMF). (2012). International Financial Statistics CDROM. New York: IMF. Leitão, Nuno Carlos. (2010). The Gravity Model and United States’s Trade. European Journal of Economics, Finance and Administrative Sciences. Mankiw, N. Gregory. (2003). Teori Makroekonomi alih bahasa oleh Imam Nurmawan. Jakarta: Erlangga. Muchdie, dkk. (2001). Tiga Pilar Pengembangan Wilayah: Sumberdaya Alam, Sumberdaya Manusia, dan Teknologi. Jakarta: Pusat Pengkajian Kebijakan Teknologi Pengembangan Wilayah BPPT. Setiarso, Ichwan, Agus Suman, Kusnadi. (Agustus 2003). Strategi Pengembangan Usaha Kecil di Pedesaan: Studi Kasus pada Usaha Kecil Kerupuk di Desa Pohjajar Kecamatan Papar Kabupaten Kediri. Jurnal Aplikasi Manajemen, Volume 1, Nomor 2. Spillane, James J. (1992). Komoditi Teh Peranannya dalam Perekonomian Indonesia. Yogyakarta: Kanisius. Tambunan, Tulus. (2000). Perdagangan Internasional dan Neraca Pembayaran: Teori dan Temuan Empiris. Jakarta: Pustaka LP3ES. United Nations Statistics Division. (2011). UN Data. 2 April 2012. http://unstats.un.org.
14
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
ANALISIS PERUBAHAN STRUKTUR EKONOMI JAWA BARAT DENGAN METODE BIPROPORSIONAL PADA TABEL INPUT OUTPUT
Anugerah Karta Monika
Abstract
The aims of this research is to analyze economic structural change in West Java Province and to indicate economic sectors which take part of it. Biproportional Projection method is used in input output model to prove and analyze economic structural change. Biproportional Projection Method is applied on Input Output Table 1988 and 2003. It means the first and last table built in West Java Province. The result showed that sector basic metal and metal product is responsible for the change of economic structure in West Java.
Keywords : structural change, input-output analysis, biproportional
I.nPENDAHULUAN Sektor-sektor perekonomian yang membentuk struktur perekonomian dari suatu daerah dapat diketahui dari nilai Produk Domestik Regional Bruto (PDRB) menurut lapangan usaha. Sedangkan struktur perekonomian suatu daerah dapat dilihat dari kontribusi sektor-sektor terhadap pembentukan produk domestik regional brutonya. Dengan melihat struktur perekonomian suatu daerah, dapat diketahui
sektor
mana
yang
memberikan
kontribusi
terbesar
terhadap
pertumbuhan ekonomi daerah tersebut. Jawa Barat merupakan salah satu propinsi yang mempunyai PDRB perkapita tertinggi diantara propinsi lainnya di Indonesia selain provinsi Kalimantan Timur dan Riau. Dilihat dari laju pertumbuhan ekonomi, Jawa Barat mempunyai laju pertumbuhan yang relatif lebih tinggi dibanding laju pertumbuhan
ekonomi
Indonesia.
Sementara
itu,
dilihat
dari
struktur
Perkonomiannya, awalnya perekonomian Jawa Barat ditopang dari sektor
TAHUN 6, VOLUME 1, JUNI 2014
15
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
pertanian yang memberikan kontribusi terhadap PDRB lebih dari dua puluh persen pada dekade 70-an dan 80-an. Sejalan dengan adanya arus investasi yang masuk ke Jawa Barat, terjadi beberapa perubahan dalam struktur perekonomian Jawa Barat. Perubahan yang terjadi dalam perekonomian Jawa Barat ini dapat terlihat dengan meningkatnya kontribusi sektor industri terhadap nilai PDRB Propinsi Jawa Barat yang kini berada pada kisaran tiga puluh persen dari total PDRB-nya seperti yang diperlihatkan pada Gambar 2.1 dan Tabel 2.1. Sektor-sektor yang dimaksud dalam grafik dan tabel tersebut adalah sektor pertanian, sektor industri dan sektor lainnya. Sektor lainnya terdiri dari tujuh sektor, yaitu sektor pertambangan, sektor listrik, gas dan air minum, sektor bangunan/konstruksi, sektor perdagangan, hotel dan restoran, sektor angkutan dan komunikasi, sektor keuangan, sewa bangunan dan jasa perusahaan, dan sektor jasa. Tabel 2.1.
Kontribusi Sektoral dan Pertumbuhan PDRB di Jawa Barat Tahun 1973-2005 Pertanian Industri Lainnya Total Laju pertumbuhan 1973-1980 4.38 10.46 11.26 8.76 1980-1990 5.37 11.87 8.06 8.29 1990-2000 0.51 7.63 1.64 3.39 2000-2005 0.67 5.60 5.12 4.58 Kontribusi sektoral 1973-1980 27.19 17.83 54.98 100.00 1980-1990 22.54 23.59 53.87 100.00 1990-2000 17.23 35.43 47.34 100.00 2000-2005 14.91 42.32 42.78 100.00
Sumber: BPS Prop Jawa Barat, Diolah Sektor lainnya terdiri dari sektor pertambangan, listrik gas dan air, konstruksi, perdagangan hotel restoran, angkutan dan komunikasi, keuangan dan persewaan, jasa-jasa. Tabel 2.1 memperlihatkan kontribusi dan pertumbuhan sektoral PDRB Jawa Barat yang terbagi menjadi empat periode. Pada periode 1990-2000 terlihat bahwa kontribusi sektor industri terhadap perekonomian Jawa Barat memberikan sumbangan yang besar, walaupun laju pertumbuhannya cenderung mengalami 16
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
penurunan yang disebabkan pengaruh krisis ekonomi di tahun 1998 yang terus berdampak hingga saat ini. Kondisi ini menunjukkan proses recovery yang sangat lambat. 100 90 80
Kontribusi (%)
70 Lainnya
60 50 40
Industri
30 20 10
Pertanian
1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
0 Tahun
Sumber: BPS Propinsi Jawa Barat, diolah Gambar 2.1. Kontribusi Sektoral terhadap Pembentukan PDRB Propinsi Jawa Barat (Persen) Dengan mencermati grafik pertumbuhan sektoral, terlihat bahwa trend sektor industri berfluktuasi namun pertumbuhannya sejak tahun 1993 berada di atas sektor lainnya kecuali setelah krisis tahun 1998 seperti yang tercermin dalam Gambar 2.1. Kondisi ini menunjukkan bahwa sektor industri memegang peranan yang penting dalam pertumbuhan ekonomi Propinsi Jawa Barat. Dengan adanya perubahan dalam komposisi sektor perekonomian terhadap pembentukan PDRB terbuka kemungkinan bahwa perubahan-perubahan ini merupakan indikasi adanya perubahan stuktur perekonomian, namun diperlukan analisis yang lebih dalam untuk mengetahui apakah keadaan ini hanya merupakan sympton (gejala sementara) atau bukan. Perubahan struktur ekonomi di Jawa Barat ini dapat dianalisis dengan menggunakan Tabel Input Output (Tabel I-O). Melalui metode biproporsional, dapat diketahui pada sektor apa yang terjadi efisiensi besar-besaran terhadap penciptaan output sehingga sector tersebut berperan besar dalam perubahan sturuktural ekonomi.
TAHUN 6, VOLUME 1, JUNI 2014
17
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
II. METODOLOGI Dalam analisis input-ouput, ketika seseorang ingin menentukan perubahan struktur produksi selama kurun waktu tertentu, maka perubahan ini harus dapat diukur. Ada beberapa metode untuk mengevaluasi bagaimana perubahan struktur terjadi selama kurun waktu tertentu atau apa perbedaan antara dua struktur pada tempat yang sama. Kedua struktur ini akan direpresentasikan dalam bentuk matriks yang dinotasikan Z dan Z*. Secara umum ada dua metode utama, yaitu directed methods dan nondirected methods (Mesnard,1998). Directed methods adalah metode yang memiliki orientasi dengan mengasumsikan apakah perekonomian dipicu oleh permintaan atau penawaran (demand driven atau supply driven). Pada dasarnya metode ini membandingkan dua buah matriks koefisien, baik koefisien teknis maupun koefisien alokasi. Directed Methods yang juga disebut oriented method terbagi dua yaitu naive method yang merupakan perbandingan sederhana antara dua matrik koefisien teknis atau matiks koefisien alokasi dan causative matrix method. Sedangkan Non Directed methods atau non-oriented methods adalah metode yang tidak berorientasi atas asumsi apakah ekonomi dipicu oleh permintaan atau penawaran. Metode ini terbagi dua yaitu biproportional dan bicausative. Lebih jelasnya, metode-metode yang dapat digunakan untuk memperlihatkan perubahan struktur perekonomian dapat digambarkan pada Gambar 2.2. Kelemahan directed method adalah hasil yang diperoleh dari koefisien teknis tidak dapat dibandingkan dengan hasil yang diperoleh untuk koefisien alokasi. Jika koefisien teknis diasumsikan stabil, koefisien alokasi bisa tidak stabil. Secara umum, dengan metode yang mengasumsikan apakah perekonomian didasarkan pada demand driven atau supply driven, maka pada beberapa literatur model demand driven lebih rasional. Sementara itu, dengan non-directed method, asumsi apakah perekonomian didasarkan oleh demand driven atau supply driven tidak digunakan karena hasil dengan mengasumsikan salah satunya, demand driven atau supply driven mungkin bisa tidak sama.
18
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
oriented
technical or allocation
technical or allocation, normalized
non-oriented
causative
technical or allocation, ordinary
biproportional
additive
projection on flow matrix
ordinary biproportional filter
mean biproprortional filter
bicausative
multiplicative
binormalized
bimarkovian
Sumber : De Mesnard, Louis (1998) Gambar 2.2. Tipologi Metode Analisis I-O untuk Melihat Perubahan Struktural Model input output digunakan untuk menunjukkan adanya perubahan struktur perekonomian. Metode yang digunakan adalah metode proyeksi biproporsional yang diadopsi dari penelitian Andréosso-O’Callaghan dan Yue (2000). Ide dasar dari metode proyeksi biproporsional adalah melakukan generalisasi perbandingan koefisien teknis dan koefisien alokasi namun terbebas dari arah perekonomian (dalam hal ini demand atau supply driven). Dengan metode ini dapat dijelaskan perubahan struktur transaksi antar sektor. Metode ini juga dapat mengukur sebesar apa perubahan faktor input dan distribusi tiap sektor dan menentukan sektor mana yang bertanggung jawab atas terjadinya perubahan struktur secara keseluruhan. Mekanisme metode proyeksi biproporsional dalam melihat perubahan struktur adalah dengan membandingkan matrik aliran (flow matrix) dari dua tabel input output. Matrik aliran adalah matriks yang dibentuk dari kuadran I Tabel Input-Output dan dinotasikan dengan Z, dengan elemen-elemennya xij (dalam beberapa literatur elemen Z dinotasikan zij). TAHUN 6, VOLUME 1, JUNI 2014
19
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Langkah-langkahnya adalah sebagai berikut: 1. Memproyeksikan matrik Z sehingga memiliki margin yang sama dengan matrik Z*. Matrik Z adalah matrik aliran dari tabel input output awal dan Z* adalah matrik aliran dari tabel input output akhir. Proyeksi ini dilambangkan dengan Zˆ K (Z , Z *) . Proyeksi dari Z (dalam tabel input output awal) ke Z* (dalam tabel input output akhir) disebut prospective projection, sedang arah sebaliknya disebut retrospective projection. 2. Cara memproyeksikan matrik Z adalah dengan menggunakan metode RAS (biproportional). Proses iterasi harus dilakukan untuk mendapatkan matrik sesuai dengan langkah-langkah (algoritma) yang Matrik
Zˆ
Zˆ
,
ada dalam proses RAS.
dari biproporsi adalah yang memberikan Z margin yang sama dengan
Z*, Matrik
Zˆ
sama dengan P Z Q dimana P dan Q adalah matrik diagonal
yang memenuhi kondisi : a. Matrik Zˆ harus mempunyai baris dan kolom yang sama dengan Z* b. Matrik Zˆ adalah matrik yang terdekat dengan Z P dan Q dapat berbentuk *
pi
zi m qjzij
, untuk setiap i
(2.1)
j 1
*
qj
z j m pizij
, untuk setiap j
(2.2)
j 1
Proses iterasi berhenti ketika margin matrik
Zˆ
mendekati margin Z*.
Karena kedua matrik memiliki margin yang sama, perbedaan antara dua matrik transaksi akan mencerminkan perubahan struktural. Jarak antara dua matrik (D) digunakan untuk mengukur perubahan tersebut.
Dj
Zˆ n
i 1
ij
Z ij*
2
(2.3)
Dj merupakan jarak antara kolom matrik proyeksi dengan kolom matrik Z*. Z*ij adalah elemen matrik Z* dan Zˆ ij adalah elemen matriks Zˆ .
20
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Zˆ
3. Jika matrik proyeksi
telah didapatkan, maka analisis perubahan struktur
dilakukan dengan cara menghitung variasi relatif (untuk kolom ataupun untuk baris) antara matriks Zˆ dengan matrik Z*. Semakin besar nilai variasi tersebut maka semakin besar pula perubahan struktur yang terjadi dalam perekonomian. Besarnya variasi relatif dapat dihitung sebagai berikut :
z
2
n
Variasi kolom,
C j
i 1
* ij
K ( Z , Z ) ij *
z i 1
z j 1
* ij
2
n
Variasi baris, iR
(2.4)
n
* ij
K ( Z , Z * ) ij
(2.5)
n
z j 1
* ij
Dengan diperolehnya nilai variasi kolom dan variasi baris, dapat dibuktikan bahwa suatu sektor mengalami perubahan yang berarti atau tidak. Variasi kolom mencerminkan perubahan struktur sektor antara dua periode dari sisi demand, sedangkan variasi kolom mencerminkan perubahan struktur sektor dari sisi supply. Selanjutnya, dari nilai-nilai yang diperoleh dibuat peringkat untuk menentukan sektor mana yang bertanggungjawab atas terjadinya perubahan struktur perekonomian. Perubahan output bisa terjadi sebagai akibat dari efek harga (price effect) dan efek jumlah produksi (size effect). Sehingga, agar dua buah tabel input-ouput dapat dikomparasi maka kedua efek ini harus dikeluarkan. Untuk mengeluarkan efek harga, dilakukan beberapa penyesuaian terhadap semua tabel input output yang digunakan. Penyesuaian yang perlu dilakukan adalah: 1. Konversi klasifikasi sektor, karena tidak semua tabel input output memiliki jumlah sektor yang sama, maka perlu dilakukan penyesuaian klasifikasi sektor dengan cara mengagregasi ke dalam sektor yang sesuai. 2. Tiap tabel input output masih berdasarkan atas dasar harga produsen berlaku, untuk mengeluarkan dampak dari faktor harga dan agar tabel-tabel tersebut dapat dibandingkan maka semua tabel input output harus dideflate ke dalam
TAHUN 6, VOLUME 1, JUNI 2014
21
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
harga yang sama dengan menggunakan Indeks Harga Pedagang Besar (IHPB), caranya adalah sebagai berikut
X X P ij
ij
i
atau
X X P
(2.6)
P adalah matrik diagonal IHPB dan X’ adalah tabel I-O atas dasar harga konstan tahun bersangkutan. Dalam penggunaan IHPB perlu diperhatikan tahun dasar yang digunakan. Mengingat data IHPB terdiri dari banyak tahun dasar, maka IHPB yang diaplikasikan menggunakan tahun dasar yang sama baik untuk tabel input output awal maupun akhir (dalam penelitian ini digunakan tahun dasar 2000). Oleh karena itu perlu dilakukan penyesuaian tahun dasar terhadap data IHPB-nya. Selanjutnya, untuk mengeluarkan size effect, digunakan indikator variasi relatif untuk baris dan kolom seperti dengan formula pada persamaan 2.4 dan 2.5. Untuk menampilkan struktur perekonomian yang tercermin pada tabel input output, sektor industri dan pertanian dibagi menjadi tiga kelompok, yaitu: 1. Kelompok yang tumbuh lambat (slow growing – growing slower than the average). 2. Kelompok yang tumbuh rata-rata (average growing). 3. Kelompok yang tumbuh cepat (fast growing than the average).
III. HASIL DAN PEMBAHASAN Perubahan struktur perekonomian dapat dilakukan dengan membandingkan dua buah tabel input output. Dua buah tabel input output dapat dibandingkan bila sudah mengalami proses penghilangan efek yang disebabkan oleh harga (price effect) dan ukuran produksinya (size effect). Tabel input output yang digunakan adalah tabel input output tahun 1988 dan 2003 yang telah diagregasi menjadi 24 sektor seperti yang tertera pada Tabel 2.2. Semua tabel input output masih berdasarkan harga berlaku produsen. Untuk menghilangkan dampak harga (price effect), tabel input-ouput yang ada harus dideflasi dengan indeks harga pedagang besar. Karena IHPB yang digunakan atas dasar tahun 2000, maka tabel input output yang dideflasi menjadi tabel input output tahun 1988 dan 2003 atas dasar harga tahun 2000. Dengan demikian efek harga sudah dihilangkan.
22
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Tabel 2.2. Klasifikasi Sektor Tabel Input Output Agregasi 24 Sektor 1. Tanaman bahan makanan 2. Perkebunan 3. Peternakan 4. Kehutanan 5. Perikanan 6. Pertambangan dan penggalian
1988 26 Sektor 1. Tanaman bahan makanan 2. Perkebunan 3. Peternakan 4. Kehutanan 5. Perikanan 6. Pertambangan dan penggalian
7. Industri makanan dan minuman 8. Industri tekstil dan barang dari .tekstil 9. Industri kayu, bambu, dan rotan
7. Industri makanan dan minuman 8. Industri tekstil dan barang dari tekstil 9. Industri kayu, bambu, dan rotan
10. Industri kertas dan barang dari kertas
10. Industri kertas dan barang dari kertas
11. Industri kimia, barang kimia, karet, dan plastik 12. Industri barang mineral bukan logam 13. Industri logam dasar dan barang dari logam 14. Industri barang lainnya
15. Listrik, gas, dan air minum
11. Industri kimia, barang kimia, karet dan plastik 13. Industri barang mineral bukan logam 14. Industri logam dasar dan barang dari logam 12. Industri pengilangan minyak dan gas bumi 15. Industri barang lainnya 16 Listrik, gas, dan air minum
16. Bangunan 17. Perdagangan 18. Hotel dan restoran 19. Angkutan 20. Komunikasi 21. Bank dan lembaga keuangan lainnya 22. Sewa bangunan
17. Bangunan 18. Perdagangan 19. Hotel dan restoran 20. Angkutan 21. Komunikasi 22. Bank dan lembaga keuangan lainnya 23. Sewa bangunan
23. Jasa sosial dan kemasyarakatan
25. Jasa sosial dan kemasyarakatan
24. Jasa lainnya
24. Pemerintahan
2003 29 Sektor 1. Tanaman bahan makanan 2. Perkebunan 3. Peternakan 4. Kehutanan 5. Perikanan 6. Pertambangan minyak dan gas bumi 7. Pertambangan tanpa migas dan penggalian 8. Industri makanan dan minuman 9. Industri tekstil, pakaian jadi, kulit, dan alas kaki 10. Industri kayu, bambu, rotan, dan furniture 11. Industri kertas dan barangbarang dari kertas, percetakan, dan penerbitan 12. Indutri kimia, barang-barang dari bahan kimia, karet, dan plastik 14. Industri barang mineral bukan logam 15. Industri logam dasar 16. Industri barang jadi dari logam 13. Pengilangan minyak bumi 17. Industri pengolahan lainnya 18. Listrik 19. Gas kota 20. Air bersih 21. Bangunan 22. Perdagangan Besar dan Eceran 23. Hotel dan Restoran 24. Pengangkutan 25. Komunikasi 26. Bank dan lembaga keuangan lainnya 27. Usaha sewa bangunan dan jasa perusahaan 29. Jasa sosial dan kemasyarakatan serta jasa lainnya 28. Pemerintahan umum dan pertahanan
26. Jasa lainnya
Sumber: Tabel I- O Jawa Barat Tahun 1988 dan 2003
TAHUN 6, VOLUME 1, JUNI 2014
23
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Tabel 2.3. Hirarki Kelompok Sektor Pertanian dan Industri Rata-rata Pertumbuhan Tahunan
Output Sektor
Pertanian 1 Tanaman bahan makanan 2 Perkebunan 3 Peternakan 4 Kehutanan 5 Perikanan Rata-rata pertanian Industri 7 Industri makanan dan minuman 8 Industri tekstil dan barang dari tekstil 9 Industri kayu, bambu dan rotan 10 Industri kertas dan barang dari kertas 11 Industri kimia, barang kimia, karet dan plastik 12 Industri barang mineral bukan logam 13 Industri logam dasar dan barang dari logam 14 Industri barang lainnya Rata-rata industri
Kelompok
1988
2003
1,165,836.88 124,474.76 161,694.30 18,234.48 49,934.39
38,795,395.36 3,706,103.04 11,338,745.44 442,624.00 4,754,058.70
2.15 1.92 4.61 1.55 6.28 3.30
1 1 3 1 3
975,442.29
47,255,201.28
3.16
1
1,149,820.94 136,148.14
77,685,926.90 4,652,712.09
4.44 2.21
1 1
181,819.59
13,975,665.21
5.06
1
476,222.96
42,704,277.10
5.91
1
234,205.32
8,204,279.16
2.27
1
1,018,778.53 61,869.34
203,042,313.18 32,800,022.95
13.22 35.28 8.94
3 3
Sumber: Tabel I-O Jawa Barat 1988 dan 2003, Diolah Untuk memahami perekonomian Jawa Barat secara detail, dilakukan pengelompokan dari sektor-sektor yang tergolong dalam sektor industri dan sektor pertanian.
Proses
pengelompokannya
adalah
dengan
membuat
rata-rata
pertumbuhan tahunan dari setiap sektor, kemudian pertumbuhan tahunan tersebut dirata-ratakan dan dijadikan sebagai patokan untuk menentukan suatu sektor masuk ke dalam kelompok tertentu dan diperoleh hasil sebagai berikut: 1. Kelompok yang tumbuh lambat (slow growing – growing slower than the average) Untuk sektor pertanian terdiri dari sektor tanaman bahan makanan, perkebunan, dan kehutanan. Sedangkan untuk sektor industri terdiri dari sektor industri makanan dan minuman, industri tekstil dan barang dari tekstil, industri kayu, bambu dan rotan, industri kertas dan barang dari kertas, industri kimia, barang kimia, karet dan plastik. Industri barang mineral bukan logam.
24
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
2. Kelompok yang tumbuh rata-rata (average growing) Baik untuk sektor pertanian maupun industri tidak ada yang masuk ke dalam kelompok ini. 3. Kelompok yang tumbuh cepat (fast growing than the average) Untuk sektor pertanian yang termasuk kelompok ini adalah sektor peternakan dan sektor perikanan. Untuk sektor industri terdiri dari sektor industri logam dasar dan barang dari logam, dan sektor industri barang lainnya. Dari hasil ini diketahui bahwa kelompok yang tumbuh cepat dari pertumbuhan sektor industri berasal dari industri logam dasar dan barang dari logam serta industri barang lainnya. Sedangkan kelompok yang tumbuh cepat dari pertumbuhan sektor pertanian adalah peternakan dan perikanan. Perubahan struktur perekonomian dapat diketahui dari perubahan struktur sektor-sektornya dengan metode proyeksi biproporsional. Sesuai dengan langkahlangkah biproporsional dihasilkan matrik K(1988,2003) yang disebut prospective projection dan matrik K(2003,1988) yang disebut retrospective projection. Matrik prospective projection adalah matrik hasil proyeksi dari matrik aliran (flow matrix) pada saat awal (1988) terhadap matrik targetnya, yaitu matrik aliran pada saat akhir (2003). Matrik ini berguna untuk melihat perubahan struktural dengan cara membandingkannya dengan matrik target. Karena matrik hasil proyeksi (matrik prospective projection) dan matrik target mempunyai jarak yang sama, perbedaan antara dua matrik transaksi akan mencerminkan perubahan struktural atau perubahan dalam struktur sektor-sektornya antara dua periode. Perubahan dalam struktur sektor-sektornya ditunjukkan dari variasi kolom dan baris yang diturunkan dari matrik proyeksinya. Sedangkan matrik retrospective projection adalah matrik hasil proyeksi kebalikannya, yaitu proyeksi dari matrik aliran akhir (2003) terhadap matrik aliran awalnya (2003). Perbedaan kedua matrik proyeksi ini hanya terletak pada sudut pandangnya. Prospective projection membandingkan dua buah matrik dari sudut pandang perekonomian pada awal periode (1988) sedangkan retrospective projection membandingkannya dari sudut pandang perekonomian pada akhir periode (2003).
TAHUN 6, VOLUME 1, JUNI 2014
25
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Dari hasil proyeksi dan dengan menggunakan persamaan 2.1 diperoleh perbedaan antara dua matrik transaksi yang mencerminkan perubahan output dalam masing-masing sektor. Dalam analisis tabel input output, persentase dari perubahan output sektoral itulah yang dimaksud dengan perubahan struktural. Persentase perbedaan yang terjadi merupakan kontribusi sektoral terhadap perubahan keseluruhan. Tabel 2.4.
Ranking Kontribusi Sektoral terhadap Perubahan Keseluruhan (Persen)
Prospective Path
Perubahan (%)
13 Industri logam dasar dan barang dari logam
29.18
14 Industri barang lainnya
14.89
6 Pertambangan dan penggalian
12.11
Retrospective Path 14 Industri barang lainnya 11 Industri kimia, barang kimia, karet dan plastik 8 Industri tekstil dan barang dari tekstil
Perubahan (%) 19.42 13.45 12.22
18 Hotel dan restoran
8.10
1 Tanaman bahan makanan
7.48
17 Perdagangan 12 Industri barang mineral bukan logam 11 Industri kimia, barang kimia, karet dan plastik
5.98
18 Hotel dan restoran
6.93
3.62
6 Pertambangan dan penggalian 12 Industri barang mineral bukan logam
6.29
16 Bangunan
2.24
3.17
20 Komunikasi
2.24
7 Industri makanan dan minuman 13 Industri logam dasar dan barang dari logam
7 Industri makanan dan minuman
1.96
20 Komunikasi
2.95
15 Listrik, gas, dan air minum
1.94
16 Bangunan
2.75
23 Jasa sosial dan kemasyarakatan
1.72
2.69
3 Peternakan
1.69
22 Sewa bangunan 10 Industri kertas dan barang dari kertas
22 Sewa bangunan
1.56
2 Perkebunan
2.27
24 Jasa lainnya
1.53
23 Jasa sosial dan kemasyarakatan
1.77
2 Perkebunan 21 Bank dan lembaga keuangan lainnya
1.44
3 Peternakan
1.43
1.39
19 Angkutan
1.16
19 Angkutan
1.34
0.89
1 Tanaman bahan makanan 8 Industri tekstil dan barang dari tekstil 10 Industri kertas dan barang dari kertas
1.21
9 Industri kayu, bambu dan rotan 21 Bank dan lembaga keuangan lainnya
1.00
15 Listrik, gas, dan air minum
0.79
0.83
5 Perikanan
0.76
9 Industri kayu, bambu dan rotan
0.55
4 Kehutanan
0.54
5 Perikanan
0.27
17 Perdagangan
0.38
0.25
24 Jasa lainnya
4 Kehutanan Total
2.97
100.00
Total
6.06
3.02
2.67
0.82
0.08 100.00
Sumber: Tabel I-O Jawa Barat 1998 dan 2003, Diolah
26
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Setelah dilakukan dilakukan pemeringkatan, maka diperoleh sepuluh sektor yang terbesar perubahannya seperti yang terdapat pada Tabel 2.4. Berdasarkan tabel tersebut terlihat bahwa sektor yang paling besar perubahannya adalah sektor industri logam dasar dan barang dari logam dan sektor industri barang lainnya dengan kontribusi terhadap perubahan struktur perekonomian sebesar 29,18 persen dan 14,89 persen dari (untuk Prospective Path). Kedua sektor inilah yang merupakan pemicu dari perubahan di sektor-sektor lainnya. Sedangkan untuk pola retrospective, kontribusi terbesar terhadap perubahan struktur perekonomian disumbang oleh sektor industri barang lainnya sebesar 19,42 persen dan sektor industri kimia, barang kimia, karet dan plastik sebesar 13,45 persen. Dalam kerangka kerja model input-output, ketika sektor i meningkatkan permintaan input dari sektor lain, maka keterkaitan ini disebut backward linkage. Sektor dengan backward linkage yang lebih tinggi dibanding sektor lainnya berarti ekspansi produksinya lebih bermanfaat bagi perekenomian dalam hal memberikan pengaruh aktivitas produksi. Di sisi lain, kenaikan produksi pada sektor lain menyebabkan kenaikan output pada sektor i sehingga dapat mensuplai dan memenuhi kenaikan permintaan. Fungsi supply ini disebut forward linkage. Sektor dengan forward linkage yang lebih tinggi berarti produksiya relatif lebih sensitif terhadap perubahan output sektor lainnya. Tabel 2.5 memberikan informasi bahwa sektor industri logam dasar dan barang dari logam memiliki forwad linkage dan backward linkage di atas satu baik pada tahun 1988 maupun pada tahun 2003. Sektor dengan forwad linkage dan backward linkage di atas satu menunjukkan bahwa sektor ini memiliki keterkaitan ke depan dan ke belakang yang tinggi, yang berarti ekspansi produk sektor ini sangat mempengaruhi aktivitas produksi sektor lain yang menjadi pemasok bahan baku dan sektor lain yang menjadi distribusi outputnya..
TAHUN 6, VOLUME 1, JUNI 2014
27
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Tabel 2.5. Forward Linkage dan Backward Linkage 1988 dan 2003 Sektor 1 Tanaman bahan makanan 2 Perkebunan 3 Peternakan 4 Kehutanan 5 Perikanan 6 Pertambangan dan penggalian 7 Industri makanan dan minuman 8 Industri tekstil dan barang dari tekstil 9 Industri kayu, bambu dan rotan 10 Industri kertas dan barang dari kertas 11 Industri kimia, barang kimia, karet dan plastik 12 Industri barang mineral bukan logam 13 Industri logam dasar dan barang dari logam 14 Industri barang lainnya 15 Listrik, gas, dan air minum 16 Bangunan 17 Perdagangan 18 Hotel dan restoran 19 Angkutan 20 Komunikasi 21 Bank dan lembaga keuangan lainnya 22 Sewa bangunan 23 Jasa sosial dan kemasyarakatan 24 Jasa lainnya
1988 Forward Backward Linkage Linkage 1.0545 0.6424 0.8480 0.7767 0.8354 0.9942 0.7820 0.6878 0.5817 0.8161 0.7415 0.6155 0.8359 1.1787 1.0866 1.3735 0.7336 1.1239 1.1247 1.3951
2003 Forward Backward Linkage Linkage 1.0741 0.6385 0.8061 0.7802 0.6851 1.0276 0.7897 0.6894 0.6363 0.7961 2.4070 0.7392 1.1926 1.0867 0.9083 1.3257 0.8269 1.2453 1.1798 1.3199
2.7448 0.7059
1.4139 1.1851
1.5096 0.7224
1.1347 1.0967
1.6644 1.5863 0.8177 0.9226 1.8218 0.6484 1.0446 0.6226 0.7273 0.5919 0.5855 0.8922
1.1992 1.2771 1.1387 1.2010 0.6646 1.0145 1.0494 1.0895 0.8191 0.7037 0.9514 0.6887
1.3586 1.2348 0.9664 0.6962 1.2175 0.7004 0.9172 0.6895 1.0740 0.8998 0.6224 0.8851
1.2550 1.0507 1.1706 1.3172 0.8438 0.8048 1.1440 0.8132 0.9124 0.8137 1.0001 0.9944
Sumber: Tabel I-O Jawa Barat 1988 dan 2003, Diolah Sebaran forward linkage dan backward linkage tahun 1988 dan 2003 dapat dilihat dari grafik sebaran kuadran pada Gambar 2.3 dan Gambar 2.4 yang menunjukkan sektor mana saja yang memiliki forward dan backward lingkage yang tinggi. Kuadran I adalah sektor-sektor dengan backward linkage (BL) kurang dari satu dan forward linkage (FL) lebih dari satu. Kuadran II ditempati sektorsektor yang memiliki BL dan FL lebih dari satu. Kuadran III adalah untuk sektorsektor dengan BL>1 dan FL<1. Kuadaran IV berisi sektor-sektor yang nilai BL dan FL kurang dari 1. Sektor dengan BL>1 dianggap lebih baik karena BL merupakan output multiplier.
28
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Gambar 2.3. Scatter Plot Forward Linkage dan Backward Linkage Jawa Barat Tahun 1988 3.0000 11
Forward Linkage Forward Linkage
2.5000
2.0000 17
13 14
1.5000
10 1
19
1.0000
24
2
4
6
8
3
16
15
7
21 9 22
5
18 23
0.5000
0.0000 0.0000
0.2000
0.4000
0.6000
0.8000
12
20
1.0000
1.2000
1.4000
1.6000
Backward Linkage
Sumber: Tabel I-O Jawa Barat 1988, Diolah Gambar 2.4. Scatter Plot Forward Linkage dan Backward Linkage Jawa Barat Tahun 2003 3.0000
2.5000
6
Forward Linkage
2.0000
11 1.5000
13 14
17
7
10
21
1
19
1.0000
4
22
2 18
20
5
15
24 3 23
9
1 2
8 16
0.5000
0.0000 0.0000
0.2000
0.4000
0.6000
0.8000
1.0000
1.2000
1.4000
Backward Linkage
Sumber: Tabel I-O Jawa Barat 2003, Diolah
TAHUN 6, VOLUME 1, JUNI 2014
29
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Sementara itu. sektor industri barang lainnya juga memberikan kontribusi yang besar terhadap perubahan struktural baik untuk pola prospective maupun retrospective. Hal ini disebabkan pada sektor
ini terdapat sektor industri
pengolahan minyak dan gas bumi yang diagregasi ke dalam sektor industri barang lainnya. Sektor ini juga memiliki nilai FL dan BL di atas satu baik untuk perekonomian 1988 yaitu 1,5863 dan 1,2771, demikian juga pada tahun 2003 dengan nilai FL dan BL sebesar 1,2348 dan 1,0507.
Oleh sebab itu dapat
disimpulkan bahwa ketersediaan bahan bakar mendorong proses perubahan output perekonomian Jawa Barat. Hal ini didukung dengan adanya subsidi BBM dari pemerintah, sehingga perusahaan-perusahaan yang beroperasi dapat memperkecil biaya operasinya. Porsi subsidi ini masih sekitar 0,3 persen terhadap Produk Domestik Bruto (PDB) di tahun 1996, kemudian meningkat gradual menjadi 1,6 persen (1997), 2,9 persen (1998), 3,2 persen (1999) dan naik tajam menjadi 5,4 persen di tahun 2000. Di tahun 2001, setelah pemerintah menaikkan harga BBM, menyesuaikan dengan tingkat harga internasional, anggaran subsidi berkurang menjadi 4,6 persen terhadap PDB dan selanjutnya menjadi 1,9 persen terhadap PDB di tahun 2002. Pada tahun 2003, pemerintah menghapus subsidi BBM, terkecuali untuk minyak tanah bagi rumah tangga, sekaligus meluncurkan kebijakan jaring pengaman sosial bagi masyarakat miskin. Yang perlu ditekankan dalam analisis ini adalah bahwa sumber perubahan struktur perekonomian ternyata berasal dari sektor yang memanfaatkan sumber daya alam yang berupa kebutuhan energi. Dengan prospective projection, 56,18 persen sumber perubahan berasal dari sektor industri logam dasar dan barang dari logam, sektor industri barang lainnya dan sektor pertambangan dan penggalian. Hal ini disebabkan ketiga sektor tersebut memiliki nilai FL dan BL yang tinggi. Dua sektor pertama memiliki FL dan BL di atas satu pada perekonomian 1988 dan 2003, sedangkan sektor pertambangan dan penggalian memiliki nilai FL di atas satu hanya pada tahun 2003. Namun, bagaimanapun juga ada sektor-sektor lain yang memang mengalami perubahan besar karena kemajuan teknologi informasi seperti sektor hotel dan restoran, sektor perdagangan dan sektor komunikasi.
30
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Bila dicermati, hasil dari pola prospective dan pola retrospective tidak jauh berbeda. Sektor-sektor yang tergolong dalam sektor industri memberikan kontribusi yang besar terhadap perubahan struktur perekonomian, yaitu sektor industri logam dasar dan barang dari logam, industri barang mineral bukan logam, industri kimia, barang kimia, karet dan plastik, industri makanan dan minuman. Hal ini sejalan dengan fakta bahwa sektor industri merupakan sektor yang memberikan output terbesar pada perekonomian Jawa Barat. Tabel 2.6.
Variasi Kolom dan Variasi Baris dengan Prospective Projection (Persen) Sektor
13 Industri logam dasar dan barang dari logam 7 Industri makanan dan minuman
Variasi Kolom (%) 69.74 8.01
14 Industri barang lainnya
4.38
16 Bangunan 15 Listrik, gas, dan air minum 11 Industri kimia, barang kimia, karet dan plastik 19 Angkutan
3.12 3.11 3.10
17 Perdagangan 24 Jasa lainnya
2.25 1.41
10 Industri kertas dan barang dari kertas 6 Pertambangan dan Penggalian 3 Peternakan 18 Hotel dan restoran
0.82
1 Tanaman bahan makanan 22 Sewa bangunan 12 Industri barang mineral bukan logam 8 Industri tekstil dan barang dari tekstil 9 Industri kayu, bambu dan rotan 21 Bank dan lembaga keuangan lainnya 20 Komunikasi 23 Jasa sosial dan kemasyarakatan 5 Perikanan 2 Perkebunan 4 Kehutanan
0.11 0.10 0.09
2.33
0.54 0.50 0.20
0.07 0.07 0.03 0.01 0.01 0.01 0.00 0.00
Sektor 14 Industri barang lainnya 11 Industri kimia, barang kimia, karet dan plastik 8 Industri tekstil dan barang dari tekstil 1 Tanaman bahan makanan 18 Hotel dan restoran 6 Pertambangan dan penggalian
Variasi Baris (%) 39.60 18.99 15.69 5.88 5.04 4.16
12 Industri barang mineral bukan logam 7 Industri makanan dan minuman 13 Industri logam dasar dan barang dari logam 20 Komunikasi
3.85
16 Bangunan 22 Sewa bangunan 10 Industri kertas dan barang dari kertas 2 Perkebunan 23 Jasa sosial dan kemasyarakatan 3 Peternakan
0.80 0.76 0.75
19 Angkutan 9 Industri kayu, bambu dan rotan 21 Bank dan lembaga keuangan lainnya 15 Listrik, gas, dan air minum 5 Perikanan 4 Kehutanan 17 Perdagangan 24 Jasa lainnya
0.14 0.08 0.07
100.00
1.06 0.96 0.91
0.54 0.33 0.21
0.07 0.06 0.03 0.02 0.00 100.00
Sumber: Tabel I-O Jawa Barat1988 dan 2003, diolah
TAHUN 6, VOLUME 1, JUNI 2014
31
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Sedangkan sektor yang berbasis sumber daya alam (resource base) yaitu sektor pertanian kecuali pertambangan dan penggalian tidak banyak mengalami perubahan dan berada pada papan bawah dari hasil pemeringkatan kontribusi sektor terhadap perubahan struktur perekonomian. Namun perlu dicermati bahwa perbedaan antara dua matrik transaksi di atas hanya memperlihatkan kontribusi sektor terhadap perubahan struktur perekonomian dan masih mengandung efek ukuran produksi (size effect). Oleh karena itu perlu dibuat variasi relatif terhadap baris (input) maupun kolom (output) dengan menggunakan persamaan 2.4 dan 2.5. Tabel 2.6 menyajikan variasi kolom dan variasi baris dari pola prospective yang sudah diperingkat. Variasi kolom menunjukkan perubahan dalam struktur produksi suatu sektor. Artinya sektor tersebut mengalami perubahan berapa persen dalam hal apa yang dibeli sektor ini sebagai inputnya. Dengan kata lain, ada perubahan mendasar pada struktur input industri tersebut. Sedangkan variasi baris merefleksikan perubahan dalam fungsi distribusi output. Artinya sektor tersebut mengalami perubahan sebesar
berapa persen dalam hal apa yang dijualnya
sebagai input bagi sektor lain. Tabel 2.6 memperlihatkan bahwa sektor industri logam dasar dan barang dari logam mengalami perubahan struktur input dan output yang paling besar. Sektor ini mengalami perubahan 87,25 persen dalam hal apa yang dibeli sektor ini sebagai inputnya dan perubahan sebesar 61,67 persen dalam hal apa yang dijualnya sebagai input bagi sektor lain. Dengan kata lain, sektor industri logam dasar dan barang dari logam telah mengalami perubahan mendasar pada struktur inputnya dan pada pola distribusi outputnya yang digunakan sebagai input bagi sektor lain. Hal ini ditunjukkan pada Tabel 2.7 yang menunjukkan struktur input dan output sektor industri logam dasar dan barang dari logam dengan prospective projection. Sektor industri logam dasar dan barang dari logam menggunakan input paling banyak dari sektor barang lainnya yaitu sebesar 28,03 persen. Seperti telah disebutkan sebelumnya bahwa di dalam sektor barang lainnya terdapat sektor industri pengolahan minyak dan gas bumi, artinya dalam proses produksinya sektor industri logam dasar dan barang dari logam banyak menggunakan minyak
32
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
dan gas bumi. Untuk pola distribusi outputnya, output dari sektor industri logam dasar dan barang dari logam banyak digunakan oleh sektor ini sendiri, yaitu sebesar 92,64 persen. Sementara itu, dilihat dari forward linkage dan backward linkage, baik untuk perekonomian 1988 dan 2003, sektor ini memiliki nilai forward linkage dan backward linkage di atas satu yang menunjukkan sektor ini memainkan peranan penting dalam perekonomian Jawa Barat. Tabel 2.7.
Struktur Input Dan Output Sektor Industri Logam Dasar dan Barang dari Logam Dengan Prospective Projection Sektor
1 Tanaman bahan makanan 2 Perkebunan 3 Peternakan 4 Kehutanan 5 Perikanan 6 Pertambangan dan penggalian 7 Industri makanan dan minuman 8 Industri tekstil dan barang dari 9 Industri kayu, bambu dan rotan tekstil 10 Industri kertas dan barang dari 11 Industri kimia, barang kimia, kertas 12 Industri barang mineral bukan karet dan plastik 13 Industri logam dasar dan barang logam 14 dariIndustri logam barang lainnya 15 Listrik, gas dan air minum 16 Bangunan 17 Perdagangan 18 Hotel dan restoran 19 Angkutan 20 Komunikasi 21 Bank dan lembaga keuangan 22 Sewa bangunan lainnya 23 Jasa sosial dan kemasyarakatan 24 Jasa lainnya Total
Struktur Input Juta Rp % 0 0 0 0 0 0 59,317.34 0.05 0 0 18,863,054.01 15.56 55,996.08 0.05 488,948.58 0.40 1,106,393.25 0.91 1,327,295.82 1.09 13,925,359.62 11.48 5,145,366.09 4.24 6,838,322.37 5.64 33,986,648.16 28.03 2,420,348.34 2.00 3,899,510.80 3.22 1,055,227.87 0.87 17,106,196.58 14.11 2,965,845.08 2.45 5,019,234.19 4.14 1,826,803.93 1.51 1,830,114.27 1.51 3,059,083.80 2.52 286,642.06 0.24 121,265,708.25 100.00
Struktur Output Juta Rp % 2,626.78 0.04 1,405.18 0.02 757.56 0.01 450.59 0.01 2,279.27 0.03 8,163.07 0.11 8,833.58 0.12 35,567.10 0.48 2,950.74 0.04 1,811.97 0.02 14,649.53 0.20 1,037.02 0.01 6,838,322.37 92.64 130,870.37 1.77 26,930.89 0.36 163,956.59 2.22 1,797.58 0.02 1,114.52 0.02 21,208.97 0.29 645.20 0.01 934.57 0.01 142.10 0.0019 331.34 0.0045 114,677.58 1.55 7,381,464.46 100.00
Sumber : Tabel I-O Jawa Barat 1988 dan 2003, Diolah Dua sektor yang mengalami perubahan besar baik pada struktur produksi dan distribusinya adalah sektor industri logam dan barang dari logam dan sektor industri barang lainnya. Kedua sektor ini merupakan sektor yang mengeksploitasi sumber daya alam (seperti yang telah disebutkan di atas, pada sektor industri barang lainnya terkandung sektor industri pengolahan minyak dan gas bumi) Selain itu, sektor listrik gas dan air minum menduduki peringkat ketiga pada variasi kolom sebesar 1,7 persen. Artinya sektor ini mangalami perubahan
TAHUN 6, VOLUME 1, JUNI 2014
33
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
sebesar 1,7 persen dalam struktur produksinya (input yang digunakan). Sektor listrik, gas dan air bersih menggunakan input dari sektor industri barang lainnya sebesar 79,27 persen, sedangkan output yang dihasilkan dari sektor ini paling banyak digunakan sebagai input oleh sektor industri logam dasar dan barang dari logam sebesar 65,79 persen. Sektor ini tidak memiliki forward linkage yang besar, namun memiliki backward linkage yang besar (di atas satu) baik pada perekonomian 1988 maupun 2003. Dalam mekanisme perubahan struktur perekonomian, peralihan dominasi output dari sektor pertanian ke sektor industri memang akan mengakibatkan sektor utilitas (sektor listrik, gas dan air minum) juga mengalami peningkatan output. Ketika sektor ini mengalami peningkatan outputnya maka hal itu bersumber dari input yang digunakannya. Tabel 2.8. Variasi Kolom dan Variasi Baris Retrospective Projection (Persen) Sektor 13 Industri logam dasar dan barang dari logam 7 Industri makanan dan minuman 14 Industri barang lainnya 16 Bangunan 15 Listrik, gas dan air minum 11 Industri kimia, barang kimia, karet dan plastik 19 Angkutan 17 Perdagangan 24 Jasa lainnya 10 Industri kertas dan barang dari kertas 6 Pertambangan dan penggalian 3 Peternakan 18 Hotel dan restoran 1 Tanaman bahan makanan 22 Sewa bangunan 12 Industri barang mineral bukan logam 8 Industri tekstil dan barang dari tekstil 9 Industri kayu, bambu dan rotan 21 Bank dan lembaga keuangan lainnya 20 Komunikasi 23 Jasa sosial dan kemasyarakatan 5 Perikanan 2 Perkebunan 4 Kehutanan Total
Variasi Kolom (%) 69.74 8.01 4.38 3.12 3.11 3.10 2.33 2.25 1.41 0.82 0.54 0.50 0.20 0.11 0.10 0.09 0.07 0.07 0.03 0.01 0.01 0.01 0.00 0.00 100.00
Sektor 14 Industri barang lainnya 11 Industri kimia, barang kimia, karet dan plastik 8 Industri tekstil dan barang dari tekstil 1 Tanaman bahan makanan 18 Hotel dan restoran 6 Pertambangan dan penggalian 12 Industri barang mineral bukan logam 7 Industri makanan dan minuman 13 Industri logam dasar dan barang dari logam 20 Komunikasi 16 Bangunan 22 Sewa bangunan 10 Industri kertas dan barang dari kertas 2 Perkebunan 23 Jasa sosial dan kemasyarakatan 3 Peternakan 19 Angkutan 9 Industri kayu, bambu dan rotan 21 Bank dan lembaga keuangan lainnya 15 Listrik, gas dan air minum 5 Perikanan 4 Kehutanan 17 Perdagangan 24 Jasa lainnya
Sumber : Tabel I-O Jawa Barat 1988 dan 2003, Diolah 34
TAHUN 6, VOLUME 1, JUNI 2014
Variasi Baris (%) 39.60 18.99 15.69 5.88 5.04 4.16 3.85 1.06 0.96 0.91 0.80 0.76 0.75 0.54 0.33 0.21 0.14 0.08 0.07 0.07 0.06 0.03 0.02 0.00 100.00
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Berbeda dengan prospective projection, hasil yang diperoleh dengan retrospective projection pada Tabel 2.8 menunjukkan bahwa untuk variasi kolom, perubahan terbesar terjadi pada sektor industri logam dasar dan barang dari logam dan sektor industri makanan dan minuman. Perubahan yang terjadi dalam struktur produksi pada kedua sektor ini adalah sebesar 69,74 persen dan 8,01 persen. Sedangkan dari variasi baris, sektor industri barang lainnya dan sektor industri kimia, barang kimia, karet dan plastik mengalami perubahan dalam pola distribusi outputnya sebesar 39,60 persen dan 18,99 persen. Artinya penjualan output kedua sektor ini mengalami perubahan yang besar. Walaupun dengan retrospective projection sektor industri logam dasar dan barang dari logam tidak stabil dibandingkan dengan prospective projection, sektor ini tetap menjadi sumber dari perubahan struktur perekonomian.
IV. KESIMPULAN DAN SARAN Sebelum penelitian ini dilakukan memang terlihat adanya gejala perubahan ekonomi yang ditandai dengan bergesernya kontribusi sektor pertanian dan sektor ekonomi dalam pembentukan PDRB Jawa Barat. Setelah dilakukan analisis dengan model input output dengan menggunakan metode biproporsional diperoleh hasil bahwa sektor yang paling besar mengalami perubahan dalam struktur produksi dan distribusi outputnya adalah sektor industri logam dasar dan barang dari logam dan sektor industri barang lainnya dengan kontribusi terhadap perubahan struktur perekonomian secara keseluruhan sebesar 29,18 persen dan 14,89 persen (pola prospective). Sedangkan untuk pola retrospective, kontribusi terbesar terhadap perubahan struktur perekonomian disumbang oleh sektor industri barang lainnya sebesar 19,42 persen dan sektor industri kimia, barang kimia, karet dan plastik sebesar 13,45 persen. Analisis kemudian dikembangkan lagi dengan melihat variasi kolom dan baris yang menunjukkan perubahan sektor-sektor dalam struktur produksi dan distribusi outputnya (Andreosso-O’Callaghan dan Yue, 2000). Hasilnya sektor industri logam dasar dan barang dari logam mengalami perubahan sebesar 87,25 persen pada struktur inputnya yaitu dalam hal apa yang dibeli sektor ini sebagai
TAHUN 6, VOLUME 1, JUNI 2014
35
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
inputnya (variasi kolom) dan perubahan sebesar
61,67 persen pada distribusi
outputnya yaitu dalam hal apa yang dijualnya sebagai input bagi sektor lain. Dua sektor yang mengalami perubahan paling besar yaitu sektor industri logam dasar dan barang dari logam dan sektor industri barang lainnya. Kedua sektor ini memiliki karakteristik sebagai sektor yang banyak menggunakan sumber daya alam berupa kebutuhan energi sebagai inputnya, mengingat sektor industri barang lainnya juga mencakup industri pengolahan minyak dan gas bumi. Sehingga bisa disimpulkan bahwa perubahan struktur yang terjadi dengan membesarnya kontribusi sektor industri atas sektor pertanian disebabkan oleh berkembangnya industri yang mengeksploitasi sumber daya alam. Karakteristik lainnya adalah industri ini merupakan industri yang padat modal dan bila sumber daya alam sudah habis maka akan kekurangan bahan baku, sehingga keberadaannya tidak berkesinambungan. Berdasarkan analisis keterkaitan (linkage) disimpulkan ada 4 sektor yang memiliki backward linkage dan forward linkage lebih besar dari satu baik pada tahun 1988 maupun 2003 yaitu sektor industri kertas dan barang dari kertas, sektor industri kimia, barang kimia, karet dan plastik, sektor industri logam dasar dan barang dari logam, serta sektor industri barang lainnya. Sehingga
bisa
dikatakan bahwa keempat sektor tersebut merupakan pemicu dari perekonomian Jawa Barat. Adapun saran terkait dengan hasil penelitian ini adalah: Pertama, mengingat perubahan struktur perekonomian berasal dari sektor industri yang mengeksploitasi sumber daya alam, hendaknya pemerintah daerah dapat melakukan antisipasi berkurangnya sumber daya alam yang terjadi dengan membuat kebijakan perpajakan yang tepat untuk mengatasi rusaknya ekosistem akibat eksploitasi sumber daya alam. Kedua, Pemerintah Daerah perlu mengembangkan sektor industri yang tidak berbahan baku dari sumber daya alam yang sulit diperbarui karena sebenarnya Jawa Barat memiliki potensi mengembangkan industri yang berbahan baku dari sumber daya alam yang dapat diperbarui seperti industri makanan dan minuman yang bahan bakunya banyak berasal dari sektor pertanian. Dengan demikian sektor industri makanan dan minuman dapat menarik sektor pertanian. Ketiga adalah pemerintah daerah perlu
36
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
meningkatkan produktivitas sektor pertanian mengingat sektor ini menyerap tenaga kerja lebih banyak dibandingkan sektor industri namun output yang tercipta masih sedikit. Penggunaan teknologi yang tepat guna diharapkan mampu meningkatkan produktivitas pertanian. Selain itu, perubahan struktur perekonomian mengharuskan pemerintah daerah untuk tanggap terhadap perubahan mengenai sektor-sektor mana yang dapat meningkatkan pertumbuhan perekonomian. Oleh karena itu perlu dibuat database yang lebih baik, cepat dan akurat untuk menganalisis perubahan struktur perekonomian. Dengan demikian pemerintah daerah dapat lebih cepat dan tepat dalam mengambil keputusan mengenai apa yang harus dilakukan terhadap perubahan-perubahan yang terjadi.
DAFTAR PUSTAKA Akita, Takahiro and Agus Hermawan, 2000. “The sources of industrial growth in Indonesia,1985-1995: An Input-Output Analysis”, IMF Working Paper no 4 th 2000, International Univesity of Japan, Niigata. Japan. Andréosso-O’Callaghan, B & Guoqiang Yue, 2000, An Analysis of Structural Change in China using Biproportional Methods, Economic Systems Research, 12, pp. 99–111. Bêrni, Duilio de Avila, Structural Change In The Brazilian Economy Between 1959 And 2000. Badan Pusat Statistik,1988. Tabel Input-Output Jawa Barat, Badan Pusat Statistik Jawa Barat. ________________, 2003. Tabel Input-Output Jawa Barat, Badan Pusat Statistik Jawa Barat. ________________, 1999. Kerangka Teori dan Analisis Tabel Input-Output, Badan Pusat Statistik, Jakarta. ________________, Berbagai Tahun. Produk Domestik Regional Bruto Propinsi Jawa Barat, Badan Pusat Statistik Jawa Barat. ________________, Berbagai Tahun. Statistik Harga Perdagangan Besar Beberapa Propinsi Di Indonesia, Badan Pusat Statistik, Jakarta. ________________, Berbagai Tahun. Indikator Ekonomi, Badan Pusat Statistik, Jakarta. Carunia Mulya Firdausy, Haryo Aswicahyono dan Lepi Tarmidi, 2000. “Sources of Indonesian Economic Growth”, paper CSIS, Jakarta Chenery, Hollis dan T.N. Srinivasan (ed), 1988. Handbook of Development Economics, Vol.1,Amsterdam:Elsevier Science Publishers B.V. TAHUN 6, VOLUME 1, JUNI 2014
37
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
De Mesnard, Louis , 1998. Methods to analyze structural change over time and space: a typological survey, France. Departemen Pertanian, Direktorat Jenderal Bina Pengolahan Dan Pemasaran Hasil Pertanian, 2005, Revitalisasi Pertanian Melalui Agroindustri Perdesaan, Jakarta Hayashi, Mitsuhiro, 2004. Structural Changes In Indonesian Industry And Trade: An Input-Output Analysis, The Developing Economies, XLIII-1 (March 2005): 39–71. Guo, Jiemin and Mark A. Planting, 2000. Using Input-Output Analysis to Measure U.S. Economic Structural Change Over a 24 Year Period, Paper presented at: The 13th International Conference on Input-Output Techniques, Macerata, Italy August 21-28, 2000. Jacob, Jojo, 2004. “Late Industrialisation and Structural Changes: The Indonesian Experience”, Working Paper 04.18 Eindhoven Centre for Innovation Studies, The Netherlands. _______________, 2003. Structural Change, Liberalisation and Growth: The Indonesian Experience in an Input-Output, ECIS, Eindhoven University of Technology, The Netherlands. Lahr, Michael L. & Louis De Mesnard, 2004. Biproportional Techniques In Input–Output Analysis: Table Updating And Structural Analysis, Economic Systems Research, Vol. 16, No. 2, June 2004. Liu, Aying and David S. Saal, 1999.An Input Output Analysis of Structural Change in Apartheid Era South Africa: 1975-93, Journal Middlesex University Bussiness School, London. Martin Raiser, Mark Schaffer and Johannes Schuchhardt, 2003. Benchmarking structural change in transition, European Bank for Reconstruction and Development Working Paper, 23 February 2003, London. Milana, Carlo, The Input-Output Structural Decomposition Analysis of “Flexible” Production System, Instituto di Studi e Analisi Economica, Piazza dell‘Indipendenza, 4,00185, Rome, Italy. Miller, Ronald E. And Peter D. Blair, 1985, Input-Output Analysis: Foundations And Extensions, Prentice Hall, New Jersey. Sahara dan Budi P. Resosudarmo, Peran Sektor Industri Pengolahan Terhadap Perekonomian DKI Jakarta: Analisis Input-Output, Jakarta. Suahasil Nazara, Dong Guo, Geoffrey J.D. Hewings, Chokri Dridi, Pyio : Input Output Analysis With Python, Regional Economics Applications Laboratory, University of Illinois at Urbana-Champaign.
38
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
PERBANDINGAN PERAMALAN WISATAWAN DI BALI DENGAN METODE ARIMA DAN AUTOMATIC CLUSTERING - FUZZY LOGICAL RELATIONSHIPS
Robert Kurniawan
Abstract
So many forecasting methods are used to predict a group of time series data. One of them was a data from BPS, namely data Tourists Coming Through the Door at Ngurah Rai Airport, January 1989 - February 2009. This study wanted to compare travelers in Bali forecasting using ARIMA method as a method that has been commonly used by the method "Automatic Clustering Technique and Fuzzy logical Relationships ", which combines Automatic Clustering Algorithm with Fuzzy logical Relationships. From the results of the study found that the greater the value of p or the iteration is done, then it has a tendency to value the Mean Square Error (MSE) is getting smaller. The results of this study found that the method "Automatic Clustering - Fuzzy Logic Relationships" (ACFLR) results are better than ARIMA. It is seen from the MSE method ACFLR (0.57) is smaller than the MSE of ARIMA (301.5).
Keywords: forecasting, automatic clustering technique, fuzzy logical relationships, MSE, AFER, ARIMA
I. PENDAHULUAN Bali merupakan salah satu provinsi di Indonesia yang mengandalkan sector pariwisata. Dimana, setiap tahun selalu dibanjiri oleh wisatawan domestik maupun wisatawan mancanegara. Walaupun dengan adanya Insiden Bom Bali I pada 12 Oktober 2002 dan Bom Bali II pada 1 Oktober 2005, sempat membuat kondisi pariwisata di Bali lesu dan terguncang. Dengan kejadian tersebut muncul pertanyaan seberapa besar penyebab dari efek peristiwa tersebut.
TAHUN 6, VOLUME 1, JUNI 2014
39
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Dengan merunut data wisatawan di pintu kedatangan Bandara Ngurah Rai Denpasar dari tahun 1989 sampai dengan Februari 2009 bisa dilihat bagaimana perubahan-perubahan yang di sebabkan oleh peristiwa tersebut. Dengan data tersebut biasanya digunakan teknik peramalan untuk mengetahui pergerakan wisatawan yang masuk ke suatu negara. Karena ramalan tentang jumlah wisatawan yang akan berkunjung ke suatu negara meruapakan informasi yang sangat di butuhkan oleh pelaku bisnis di bidang pariwisata, antara lain hotel, restoran, tempat wisata, travel dan lain-lain. Banyak metode peramalan yang digunakan untuk mengetahui bagaimana pergerakan data. Salah satunya dengan fuzzy time series. Menurut Robandi (2006), sistem peramalan dengan fuzzy time series dapat menangkap pola dari data yang telah lalu untuk memproyeksikan data yang akan datang. Prosesnya juga tidak membutuhkan suatu sistem pembelajaran dari sistem yang rumit. Fuzzy time series pada awalnya diperkenalkan oleh Song dkk (1993), kemudian berkembang sampai sekarang. Chen (1996) juga memaparkan metode fuzzy
menggunakan
operasi
aritmatika
sederhana.
Tahun
2000,
Chen
menggunakan model time series fuzzy ordo tinggi untuk meramalkan data pendaftaran. Tahun 2006, Chen dan Chung melakukan peramalan dengan menggunakan fuzzy time series dan Genetic Algorithm. Singh (2009) menggunakan fuzzy ordo tinggi untuk meramalkan produksi hasil panen. Lee, dkk ( 2007) menggunakan fuzzy logical relationship dan genetic algorithm untuk meramalkan data iklim. Chen, dkk (2009) telah mengembangkan metode baru untuk meramalkan data penerimaan mahasiswa Universitas Alabama yaitu
metode
“Automatic
Clustering
Technique
and
Fuzzy
Logical
Relationships”. Dalam penelitiannya disebutkan bahwa metode tersebut apabila dibandingkan dengan beberapa metode sebelumnya yang telah diperkenalkan oleh peneliti sebelumnya mempunyai nilai Mean Square Error (MSE) yang paling minimum. Diantara beberapa metode tersebut adalah Song and Chissom’s method, Sullivan and Woodall’s method, Chen’s method, dan Huang’s method.
40
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
II. METODOLOGI Autoregresive Integrated Moving Average (ARIMA) Model peramalan atau forecasting yang paling populer dan sering digunakan untuk peramalan adalah dengan metode Autoregresive Integrated Moving Average (ARIMA). Dalam penelitian ini akan dihitung bagaimana peramalan menggunakan ARIMA dengan mengabaikan adanya faktor yang berpengaruh seperti contoh factor intervensi dalam data produktivitas padi nasional dan data simulasi. Asumsi-asumsi dasar yang harus di penuhi dalam penghitungan time series adalah kestasioneran dari data. Beberapa syarat yang harus di penuhi antara lain: a. Stasioner dalam varian ( varian konstan) Var (Yt ) Var (Yt k ), Yt adalah variable dependen pada waktu t.
b. Stasioner dalam mean (rata-rata konstan) E (Yt ) E Yt k
Jika didapati data dengan varian yang tidak homogen, maka perlu juga dilakukan transformasi. Dimana model transformasi yang sering digunakan adalah model transformasi yang dipopulerkan oleh Box dan Cox pada tahun 1964, T Yt Yt
Yt 1
,
(3.1)
λ adalah parameter transformasi (Wei, 1994). Jika terjadi pada data yang tidak stasioner dalam mean atau rata-rata perlu dilakukan proses pembedaan (differencing). Dan apabila dalam proses differencing pertama belum tercapai kestasioneran data, maka perlu dilakukan kembali differencing orde ke dua. Autocovariance dan Autocorrelation Function (ACF) stasioner
{ }
mempunyai
Var Yt E Yt t 2
yang
konstan
Proses
2
fungsinya hanya berbeda dalam waktu |
nilai
serta
mean
t E Yt dan
kovarian
| . Kovarian diatara
yang dan
adalah (Wei, 1994): k CovYt , Yt k EYt Yt k dan korelasi antara dan
adalah (Wei, 1994):
TAHUN 6, VOLUME 1, JUNI 2014
41
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
k
CovYt , Yt k k Var Yt Var Yt , Yt k 0
(3.2)
Var Yt Var Yt , Yt k 0
Partial Autocorrelation Function (PACF) ^
^
^
PACF dalam time series kk dimulai dengan menghitung 11 1 , ^
sedangkan untuk menghitung kk sendiri digunakan rumusan sebagai berikut (Wei, 1994): ^
^
^
k 1,k 1
^
^
^
^
k 1 j 11 kj k 1 j k
(3.3)
1 j 11 kj j k
^
^
^
k 1, j kj k 1,k 1 k ,k 1 j , j 1,..., k Model ARIMA merupakan gabungan dari model Autoregressive (AR) dan model Moving Average (MA). Model AR menunjukkan nilai data ramalan merupakan fungsi linier dari nilai data sebelumnya, sedangkan model MA menunjukkan nilai dta ramalan tergantung pada nilai error pada data sebelumnya. Model ARIMA dapat dianalisis berdasarkan waktu musiman (seasonal) dan bukan musiman (non seasonal).
Model ARIMA musiman dapat dinyatakan
sebagai berikut: (3.4) S = panjang musiman, B = Operator Back shift, 0 dan varian konstan,
= White Noise dengan rata-rata
= Koefisien komponen AR dengan derajat p, θq =
Koefisien komponen MA dengan derajat q, musiman dengan derajat P,
= Koefisien komponen AR
= Koefisien komponen MA musiman dengan
derajat Q. Algoritma Automatic Clustering Technique Sebelum dilakukan peramalan, langkah pertama adalah menentukan interval dengan menggunakan algoritma clustering. Interval yang dimaksud adalah jarak untuk masing-masing cluster. Untuk menghitungnya digunakan hasil modifikasi algoritma clustering yang dilakukan oleh Wang, Chen, dan Pan (2007) dapat diuraikan sebagai berikut:
42
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Langkah 1a: Urutkan data dari yang terkecil sampai terbesar. Asumsikan bahwa dalam data tersebut tidak ada nilai yang sama,
Kemudian dari urutan data
tersebut dihitung beda rata-ratanya (average_dif), dengan rumus: ∑
(3.5)
Beda rata-rata (
) dihitung dari beda rata-rata antara sepasang data
yang bersebelahan. Jika terdapat data yang nilainya sama, maka data diambil salah satu, sehingga jumlah data (n) mengikuti jumlah data yang telah di urutkan, tidak dari jumlah data aktual. Langkah 2a: Letakkan datum numeris pertama (datum terkecil dalam urutan kecil besar) pada kluster yang sudah ada. Berdasarkan nilai average_dif, tentukan apakah datum numerik pada kluster yang urutan datanya naik bisa diletakkan pada kluster yang ada atau diletakkan dalam kluster baru berdasarkan prinsip berikut: 1. Asumsikan bahwa kluster yang ada adalah kluster pertama dan hanya terdapat 1 datum d1 didalamnya dan d2 adalah datum terdekat yang mengikuti datum pertama, {
}
Jika d2-d1
average_dif, maka letakkan d2 pada kluster yang ada, di mana
terdapat d1. selain itu, buat kluster baru untuk d2 dan biarkan kluster yang memuat d2 menjadi kluster yang ada. 2. Asumsikan kluster yang ada bukan kluster pertama dan hanya terdapat satu datum dj di kluster tersebut dan asumsikan dk adalah datum terdekat ke dj dan asumsikan bahwa dj adalah datum terbesar di kluster yang merupakan kluster yang {
diatasnya }
Jika dk-dj
{
dari
kluster
yang
ada,
ditunjukkan
oleh
}{ }
average_dif dan dk-dj < dj-d1, letakkan dk pada kluster di mana
terdapat dj. selain itu, buat satu kluster baru untuk dk dan biarkan kluster tersebut terdapat pada kluster yang ada 3. Asumsikan kluster yang ada bukan kluster pertama dan tidak ada lebih dari 1 datum pada kluster yang ada. Asumsikan di adalah datum terbesar pada kluster yang ada dan dj adalah kluster terdekat ke di. TAHUN 6, VOLUME 1, JUNI 2014
43
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
{ Jika dj-di
}
average_dif dan dj-di
{ }{
}
cluster_dif, maka dj termasuk dalam kluster
yang memuat di. Selain itu buat kluster baru dimana dj termasuk dalam kluster yang ada, di mana cluster_dif menyatakan perbedaan rata-rata antara setiap pasangan data yang berdekatan dalam kluster ∑
(3.6)
Langkah 3a: Berdasarkan klustering pada langkah 2a, sesuaikan isi dari kluster tersebut berdasarkan prinsip berikut: 1. Jika kluster memiliki lebih dari dua data, amankan datum terkecil dan terbesar dan hilangkan yang lainnya 2. Jika kluster mempunyai 2 data, maka biarkan saja 3. Jika kluster hanya memiliki satu datum dq, maka masukkan nilai dq average_dif dan dq + average_dif dalam kluster dan hilangkan nilai dq. Jika situasi berikut terjadi, maka: 3.1 Jika situasi terjadi pada kluster pertama selanjutnya hilangkan nilai dq average_dif 3.2 Jika situasi terjadi pada kluster terakhir, hilangkan nilai dq + average_dif 3.3 Jika nilai dq - average_dif lebih kecil dari nilai terkecil dalam kluster antasenden, maka batalkan semua tindakan berdasarkan prinsip 3 Langkah 4a: Diasumsikan bahwa hasil klustering pada langkah 3 adalah berikut: {
}{
}{
}
{
}{
}
{
}
Transformasi kluster-kluster tersebut dalam interval yang berdekatan dengan sub langkah berikut: 4.1.Transformasi kluster pertama { 4.2.Jika interval yang ada adalah [
} dalam interval dan kluster yang ada adalah {
},
maka: 1. Jika dj
dk, maka transformasi kluster {
[ berikutnya {
44
Lalu [
} yang ada dalam interval
menjadi interval yang ada dan kluster
} menjadi kluster yang ada.
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
2. Jika dj < dk, maka transformasikan { buat interval baru [
} dalam interval [
antara [
dan
dan [
Lalu
menjadi interval dan kluster berikutnya {
} menjadi
klusternya, Jika nilai dalam interval adalah [
dan nilai klusternya
adalah {
}, dan kemudian transformasikan interval [
[
. Kemudian [
kedalam
menjadi interval dan kluster berikutnya
menjadi kluster yang ada. 4.3.Cek kluster yang ada dan intervalnya secara berulang hingga semua kluster ditransformasikan menjadi interval. Langkah 5a: Untuk setiap interval yang didapatkan pada langkah 4, bagi setiap interval tersebut dalam p sub interval di mana p
1
Peramalan dengan Automatic Clustering Technique dan Fuzzy Logic Relationships Setelah didapatkan interval dengan menggunakan automatic clustering technique, selanjutnya dapat dihitung nilai ramalannya dengan algoritma sebagai berikut: Langkah 1b: Gunakan algoritma clustering diatas kedalam interval-interval untuk menghitung titik tengah setiap interval. Langkah 2b: Asumsikan terdapat interval u1, u2, hingga un dan definisikan setiap fuzzy set Ai, di mana 1 i
n
. . .
TAHUN 6, VOLUME 1, JUNI 2014
45
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Langkah 3b: Fuzzify setiap datum pada data dalam fuzzy set. Jika datum termasuk dalam u1 di mana 1 i
n, maka datum tersebut di-fuzzify dalam Ai
Langkah 4b: Buat hubungan logika fuzzy berdasarkan data yang didapatkan pada langkah 3. Jika data ter-fuzzify dari tahun t dan t+1 adalah Aj dan Ak, maka selanjutnya buat hubungan logika fuzzy "Aj - Ak", di mana Aj dan Ak disebut keadaan sekarang dan keadaan selanjutnya dari hubungan logika fuzzy. Berdasarkan keadaan sekarang dari hubungan logika fuzzy, bagi hubungan logika fuzzy dalam kelompok hubungan logika fuzzy, di mana ia mempunyai keadaan sekarang yang sama diletakkan dalam grup yang sama Langkah 5b: Menghitung angka ramalan dari data dengan prinsip berikut: 1. Jika pendaftaran ter-fuzzify dari tahun t adalah Aj dan hanya terdapat satu hubungan logika fuzzy dalam grupnya di mana keadaan sekarang adalah Aj Ak, maka data yang diramalkan dari tahun t+1 adalah mk, di mana mk adalah titik tengah dari interval uk, dan nilai keanggotaaan maksimum dari fuzzy set Ak terjadi pada interval uk 2. Jika data ter-fuzzify dari tahun t adalah Aj dan terdapat hubungan logika fuzzy pada grup relasi logika fungsi di mana keadaan sekarangnya adalah Aj, maka data aktual dari tahun t+1 dihitung dengan rumus berikut: (3.7) x1 menyatakan jumlah hubungan logika fuzzy dalam grup hubungan logika fuzzy. mk1, mk2...dan mkp adalah titik tengah dari interval uk1, uk2 ...dan ukp, dan nilai keanggotaan maksimum dari fuzzy set Ak1, Ak2, ...., Akp terjadi pada interval uk1, uk2, ... dan ukp
46
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
3. Jika data aktual ter-fuzzify dari tahun adalah Aj dan terdapat sebuah hubungan logika fuzzy dalam grup hubungan logika fuzzy di mana keadaan sekarangnya adalah Aj Aj
#
Simbol # menyatakan nilai yang tidak diketahui, maka data teramalkan dari tahun t+1 adalah mj, di mana mj adalah titik tengah dari interval uj dan nilai keanggotaan maksimum dari fuzzy set Aj terjadi pada uj. Berdasarkan Chen, dkk (2009), setelah mendapatkan nilai peramalan maka dihitung nilai Mean Square Error dari masing-masing interval, dimana dengan rumusan sebagai berikut: ∑
(3..8)
adalah peramalan pada periode ke i,
adalah data aktual pada periode ke i, dan
n adalah jumlah periode yang dibutuhkan untuk peramalan. Dalam penelitian ini juga akan dilihat rata-rata error yang terbentuk dari nilai peramalannya untuk masing-masing interval. Wang dan Chen (2009), merumuskan Average Forecasting Error Rate (AFER) sebagai berikut: ∑
|
(
)
|
(3.9)
III. HASIL DAN PEMBAHASAN Penerapan Pada Data Simulasi dan Data Kunjungan Wisman di Bandara Ngurah Rai Data Simulasi Data simulasi yang digunakan dalam penelitian ini adalah data simulasi yang dibangkitkan dari makro minitab dengan model AR(1), dengan phi = 0,7 dan phi = -0,7. Data yang dibangkitkan sejumlah n = 100, 150, 200, 500 dan 1000 untuk masing-masing phi, dimana phi adalah koefisien komponen dari AR, dan nilai dari phi antara 1 s.d -1. Plot data hasil bangkitan dari script macro program minitab tersebut disimpan ke file excel kemudian dilakukan pengolahan data dengan menggunakan
TAHUN 6, VOLUME 1, JUNI 2014
47
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
program Automatic Clustering – Fuzzy Logic Relationships dengan nilai phi = 0,7 seperti pada Tabel 3.1 dan Tabel 3.2. Dari tabel tersebut terlihat bahwa untuk data simulasi dengan jumlah data 100, MSE yang paling kecil yaitu ada di sub interval p=10 yaitu sebesar 7,998x10-9, dimana p adalah banyaknya iterasi atau pengulangan dalam sub interval. Hal ini bisa dilihat pula dengan AFER untuk p=10, nilainya dibawah 1 persen atau sebesar 0,006 persen. Sehingga nilai peramalan yang terbaik untuk data simulasi yang telah dibangkitkan sebanyak 100 data ada pada sub interval p=10. Berbeda dengan data simulasi dengan jumlah data 150, pada data tersebut jika di lihat dari MSE maka sub interval yang sudah menunjukkan pola yang baik adalah di p=7, yaitu 2,702 x 10-8 dan nilai AFER-nya 0,024 persen atau kurang dari 1 persen.
p=1 p=2
Tabel 3.1. MSE per Sub Interval per Data Simulasi Data Simulasi 100 150 200 500 0,11358 0,40792 0,27627 0,02419 0,06753 0,3485 0,20679 0,1772
1000 0,21519 0,18552
p=3
0,032754
0,29028
0,054862
0,080998
0,10711
p=4
0,028503
0,11051
0,031576
0,062759
0,034295
p=5
0,028409
0,045971
0,002033
0,032429
0,020138
p=6
0,013627
1,3041 x 10-7
0,030438
0,0059858
p=7
0,0046903
2,702 x 10-8
0,0010977 3,6259 x 10-
0,014427
0,0032577
p=8
0,0027903
1,9028 x 10-9
0,0027752
p=9 p=10
0,0027839 7,998 x 10-9
MSE
8
9,4257 x 109
0,0027752
Data simulasi dengan dibangkitkan jumlah data 200 dan 500 menunjukkan hasil yang sama, yaitu berhenti pada sub interval p=8. Hal ini dikarenakan selisih dari MSE dan AFER-nya memenuhi kriteria untuk berhenti melakukan iterasi. Pada data 200 nilai MSE sebesar 9,4257 x 10-9 dan AFER nya dengan nilai 0,0104 persen. Sedangkan untuk data 500 nilai MSE sebesar 1,9028 x 10-9 dan nilai AFER-nya sebesar 0,003 persen. Pada data 1000, terlihat dari tabel diatas menunjukkan hasil peramalan yang baik pada sub interval p=9. Hal ini dapat 48
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
dilihat dari iterasi MSE dan AFER pada p=9, dengan nilai MSE sebesar 0,0027752 dan nilai AFER-nya sebesar 1,3233 persen. Tabel 3.2. AFER per Sub Interval per Data Simulasi Data Simulasi AFER 100 150 200 500 1000 p=1 27,9752 123,989 67,0757 62,1002 176,8342 p=2 16,0108 79,3393 50,5903 51,857 111,0533 p=3 6,0508 69,1128 38,0867 25,3468 98,0271 p=4 5,6843 35,6526 2,1429 12,4287 86,0088 p=5 5,5052 20,8035 0,30044 4,7571 83,9212 p=6 4,3236 0,04192 0,16194 4,3565 3,2819 p=7 1,8737 0,024257 0,024449 2,8072 1,5805 p=8 1,5254 0,010414 0,0031449 1,3255 p=9 1,5101 1,3233 p=10 0,005797 Sedangkan hasil pengolahan jika phi=-0,7dengan jumlah data bangkitan N=100, 150, 200, 500, dan 1000 seperti pada Tabel 3.3 dan Tabel 3.4. Tabel 3.3. MSE dan AFER untuk phi=-0,7 dan N= 100, 150 N = 100 N = 150 p MSE AFER p MSE AFER 1 3,0365 103,6745 1 1,9458 116,787 2 2,6932 69,7547 2 1,3627 86,2311 3 1,0717 34,2715 3 0,41224 30,0696 4 0,17373 7,2656 4 0,25168 10,2518 -6 5 2,5798 . 10 0,1078 5 0,10822 3,3391 -7 -7 6 7,4484 . 10 0,061198 6 5,8372 . 10 0,11336 -7 -7 7 1,6803 . 10 0,024978 7 1,2985 . 10 0,039025 Berdasarkan Tabel 3.3 terlihat bahwa antara N=100 dan N=150 terdapat kesamaan hasil, yaitu konvergen di subinterval p=7 dengan nilai MSE untuk 100 data yaitu 1,6803 x 10-7 dan untuk 150 data nilainya 1,2985 x 10-7. Sedangkan nilai AFER-nya masing-masing 0,0249 persen dan 0,039 persen.
TAHUN 6, VOLUME 1, JUNI 2014
49
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Berbeda dengan Tabel 3.4, dimana jumlah data bangkitan 200 dan 500, yang mengalami konvergen di sub interval p=8. Dan untuk data bangkitan 1000 mengalami konvergen di p=9. Data Real Kunjungan Wisman di Bandara Ngurah Rai Data real yang digunakan dalam penelitian ini adalah Data Bulanan Kunjungan Wisman di Bandara Ngurah Rai Bali Tahun 1989 – Februari 2009. Berdasarkan Gambar 3.1. terlihat bahwa jika ditarik garis lurus, maka cenderung dari tahun 1989 sampai tahun 2008 mengalami kenaikan. Walau di beberapa tahun mengalami penurunan jumlah kunjungan wisatawan mancanegara melalui Bandara Ngurah Rai Bali. Time Series Plot of Data Wisman 200000
150000
Data Wisman
p 1 2 3 4 5 6 7 8
Tabel 3.4. MSE dan AFER untuk phi=-0,7 dan N= 200, 500, 1000 N = 200 N = 500 N = 1000 MSE AFER p MSE AFER p MSE AFER 1,9242 377,4569 1 2,6199 172,5151 1 1,9701 165,9836 1,643 82,0978 2 1,8908 155,0895 2 1,4844 133,262 0,89659 42,61 3 1,2382 122,1539 3 0,776 48,8605 0,58177 30,7124 4 0,70701 83,2354 4 0,2974 19,7474 0,14243 15,4422 5 0,29167 77,0767 5 0,12752 11,8416 0,12658 4,4246 6 0,051965 2,4933 6 0,087911 8,3695 0,11824 2,2559 7 0,010885 0,7269 7 0,039021 2,1957 -8 1,1361 . 10 0,0097265 8 0,010885 0,71724 8 0,0053968 0,72644 9 0,0053968 0,72459
100000
50000
Month Year
Gambar 1.
50
Jan 1989
Jan 1992
Jan 1995
Jan 1998
Jan 2001
Jan 2004
Jan 2007
Plot Data Data Bulanan Kunjungan Wisman di Bandara Ngurah Rai Bali Tahun 1989 – Februari 2009
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Hasil pengolahan data dengan menggunakan metode Automatic Clustering – Fuzzy Logic Relationships (ACFLR) diperoleh hasil seperti pada Tabel 3.5. MSE dan AFER terkecil terdapat pada sub-interval p=10, yaitu 0,5997 dan 0,00064666. Tabel 3.5.
MSE dan AFER untuk Data Wisman Bandara Ngurah Rai Bali Januari 1989 – Februari 2009 P MSE AFER 1 30088717,11 2,8813 2 25305309,58 1,8274 3 5772059,667 0,69632 4 2641660,594 0,34388 5 1961731,36 0,22721 6 975160,361 0,14125 7 22461,5912 0,017806 8 22440,4184 0,014866 9 22407,0043 0,013572 10 0,57997 0,00064666
Hasil MSE dan AFER dapat pula dilihat dari grafik plot data antara data asli dengan data ramalan. Gambar 3.2 dan Gambar 3.3. menunjukkan perbedaan plot data untuk p=1 dan p=10.
Gambar 3.2. Plot Time Series Data Kunjungan Wisman di Bandara Ngurah Rai pada Sub-Interval p=1 Pada Gambar 3.2 terlihat masih banyak sekali angka ramalan yang kurang tepat dengan data aslinya. Terlihat kurang tepat tersebut ada di beberapa titik. Sedangkan pada Gambar 3.3 terlihat antara data asli dengan data ramalan
TAHUN 6, VOLUME 1, JUNI 2014
51
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
memiliki error yang kecil. Hal ini terbukti dari grafik dimana data asli dengan data ramalan cenderung memiliki nilai yang sama.
Gambar 3.3. Plot Time Series Data Kunjungan Wisman di Bandara Ngurah Rai pada Sub-Interval p=10 Perbandingan dengan ARIMA Data simulasi dengan perhitungan menggunakan ACFLR dibandingkan dengan ARIMA, didapatkan hasil sebagai berikut:
N 100 150 200 500 1000
Tabel 3.6. MSE ACFLR dan MSE ARIMA phi = - 0,7 phi = 0,7 MSE MSE MSE MSE ACFLR N ARIMA ARIMA ACFLR -7 1,24 1,6803 x 10-7 1,078 7,998 x 10 100 0,957 1,2985 x 10-7 0,919 2,702 x 10-8 150 0,861 1,1361 x 10-8 1,038 9,4257 x 10-9 200 1,015 0,010885 1,022 1,9028 x 10-9 500 0,981 0,0053968 0,97 0,0027752 1000
Jika MSE dari metode Automatic Clustering – Fuzzy Logic Relationships (ACFLR) dibandingkan dengan MSE
dari ARIMA (1,0,0) ternyata hasilnya
berbeda sangat signifikan. Hal ini bisa dilihat dari Tabel 8 yang menjelaskan perbedaan tersebut. Seperti pada data bangkitan 1000 dengan phi=0,7 terlihat bahwa untuk MSE ARIMA nilainya sebesar 0,97 sedangkan MSE ACFLR sebesar 0,0028. Ini berarti nilai keakuratan dari nilai ramalan yang dihasilkan dari metode ACFLR jauh lebih baik bila dibandingkan dengan ARIMA. 52
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Sedangkan untuk data real kunjungan wisatawan Bali, setelah dilakukan pengolahan model ARIMA (1,1,1)(0,1,1)12 diperoleh nilai MSE sebesar 301,5. Hasil MSE yang diperoleh ARIMA jika dibandingkan dengan ACFLR ternyata berbeda sangat signifikan. MSE ACFLR nilainya sebesar 0,5997 lebih rendah dibandingkan dengan model ARIMA (1,1,1)(0,1,1)12 sebesar 301,5. Hal ini berarti metode ACFLR bisa dikatakan lebih baik dibandingkan dengan metode ARIMA.
IV. KESIMPULAN DAN SARAN Dari penelitian ini dapat disimpulkan bahwa nilai ramalan pada data kunjungan wisman melalui pintu kedatangan bandara Ngurah Rai Bali dan data simulasi dengan menggunakan metode automatic clustering technique-fuzzy relationships hasilnya lebih baik bila dibandingkan dengan ARIMA. Karena bisa mendeteksi nilai ramalan yang tepat dengan mencari subinterval yang optimum dari nilai MSE dan AFER minimum. Saran untuk penelitian lanjutan adalah menaksir nilai peramalan untuk out of sample data, sehingga dapat mengetahui nilai ramalan untuk tahun yang akan datang. Selain itu, disarankan untuk mencoba dengan bahasa pemrograman komputasional lainnya yang lebih sederhana dan user friendly, seperti R, S+ atau Delphi.
DAFTAR PUSTAKA Badan Pusat Statistik. (1999). Survei Sosial Ekonomi Nasional, BPS. Jakarta http://www.bps.go.id/tab_sub/view.php?kat=2&tabel=1&daftar=1&id_sub yek=16¬ab=14, tanggal akses 28 Oktober 2010. Chang, S.T, dan Chen.S.M. (2009). Automatic Clustering and Multiple Regression Techniques. Expert System with Applications. 36. Pp. 729 – 803. Chen, S. M. (1996). Forecasting enrollments based on fuzzy time series. Fuzzy Sets and Systems, 81(3), 311–319. Chen, S. M., dan Hwang, J. R. (2000). Temperature prediction using fuzzy time series. IEEE Transactions on Systems, Man, and Cybernetics–Part B: Cybernetics, 30(2), 263–275. Chen, S. M. (2002), Forecasting enrollment based on high-order fuzzy time series, Cybernetics and System: An International Journal, Vol.33, No.1, pp.1-16.
TAHUN 6, VOLUME 1, JUNI 2014
53
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Chen, S.M. dan Hasio, H.R. (2005). A new method to estimate null values in relational database systems based on automatic clustering techniques. Information Sciences. 169. pp. 47 – 69. Chen, S. M., dan Chung, N.I. (2006), Forecasting Enrollment of Students by Uzing Fuzzy Time Series and Genetic Algorithms, Information and Management Sciences. Vol. 17, No. 3, pp. 1-17. Chen, S. M., Wang, N.Y. dan Pan. J.S. (2009), Forecasting enrollment automatic clustering techniques and fuzzy logical relationships, Cybernetics and System: An International Journal, Vol.33, No.1, pp.1-16. Cheng, C. H., Cheng, G. W., dan Wang, J. W. (2008). Multi-attribute fuzzy time series method based on fuzzy clustering. Expert Systems with Application, 34(2), 1235–1242. Damousis, I.G. dan DokoPoulos, P. (2001), A fuzzy expert system for the forecasting of wind speed and power generation in wind farm, Proceeding of the 22nd IEEE International Conference on Power Industry Computer Aplications, Sydney, Australia, pp.63-69. Frühwirth, S. dan Schnatter. (2006), Finite Mixture and Marcov Switching Models, Springer: New York, USA. George, J. K. dan Yuan, B. (1995), Fuzzy Set and Fuzzy Logic, Theory and Applications. Prentice Hall PTR: Upper Saddle River, New Jersey. Holland, J. H. (1975), Adaption in natural and artificial system. MA: MIT Press. Huang, K. (2001). Heuristic models of fuzzy time series for forecasting. Fuzzy Sets and Systems, 123(3), 369–386. Ju, Y. J., Kim, C. E., dan Shim, J. C. (1997), Genetic-based fuzzy models: Interest rate forecasting problem, Computers and Industrial Engineering, Vol.33, pp.561-564. Kamel, M., Hadfield, B., dan Ismail, M. (1990). Fuzzy Query Processing Using Clustering Technique. Information Processing dan Management. Vol. 26, No. 2, pp. 279 – 293. Kusrini., dan Luthfi. E.T., (2009). Algoritma Data Mining. Andi. Yogyakarta. Kusumadewi, S., dan Purnomo, H. (2004). Aplikasi Logika Fuzzy untuk Pendukung Keputusan. Graha Ilmu. Yogyakarta. Lee. W.L., Wang. L.H., dan Chen. S.M., (2007), Temperature Prediction and TAIFEX Forecasting Based on Fuzzy Logical Relationships and Genetic Algorithm, Expert Systems with Applications.,33. pp. 539 – 550. Makridakis, S., Wheelwright, S.C., dan McGee, V.E. (1999), Jilid 1 edisi kedua, Terjemahan Ir. Untung S. Andriyanto dan Ir. Abdul Basith, Metode dan Aplikasi Peramalan, Penerbit Erlangga, Jakarta. Muhammad, A. dan King, G. A. (1997), Foreign exchange market forecasting using evolutionary fuzzy networks, Proceedings of the IEEE/IAFE 1997 Computational Intelligence for financial Engineering, New York, pp.213219. 54
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Nguyen, H.T. dan Wu, B. (2006). Fundamentals of Statistics with Fuzzy Data, StudFuzz, 198. pp. 145-182. Springer – Verlag Berlin Heidelberg. Robandi, I. (2006). Design Sistem Tenaga Modern – Optimasi – Logika Fuzzy – Algoritma Genetika. Andi. Yogyakarta. Singh. S.R. (2009), A Computational Method of Forecasting Based on HighOrder Fuzzy Time Series, Expert System with Applications, 36. 1055110559. Song, Q. dan Chissom, B.S. (1993), Fuzzy time series and its models, Fuzzy Sets and System, Vol.54, No.3, pp.269-277. Susianto, Y. (2008). Model Regresi Semiparametrik Kernel Untuk Menduga Produksi Padi Sawah Di Jawa Tengah, Tesis M.Si., Institut Teknologi Sepuluh Nopember, Surabaya. Wang, N.Y, dan Chen, S.M., (2009). Temperature prediction and TAIFEX forecasting based on automatic clustering technique and two-factors highorder fuzzy time series. Expert System with Applications. 36. pp. 2143 – 2154.
TAHUN 6, VOLUME 1, JUNI 2014
55
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
MIXTURE COUNT REGRESSION DENGAN PENDEKATAN BAYESIAN (STUDI JUMLAH BATANG ROKOK YANG DIHISAP PER HARI DI SUMATERA SELATAN TAHUN 2010)
Fida Hestiana
Abstract
The number of cigarettes smoked per day is one of risk factors associated with the onset of various diseases. Modelling the number of cigarettes smoked per day by the count regression models is not appropriate if there is too many zero in the data. This study aimed to get a model in case the number of cigarettes smoked per day by the inhabitants in the province of South Sumatra in 2010, and to know the variables that significantly affect the number of smoked cigarettes. The analytical method used is descriptive analysis and inferential analysis that is a mixture count regression models with a Bayesian approach. The results showed that the model Zero Inflated Generalized Poisson (ZIGP) appropriate to predict the number of cigarettes smoked per day. The model shows that the number of cigarettes smoked per day was significantly influenced by gender, age, education level, and the main activity.
Keywords: the
number
of
cigarettes
smoked,
Bayesian
Zero-Inflated
Generalized Poisson, Markov Chain Monte Carlo, Deviance Information Criterion
I. PENDAHULUAN Kesehatan merupakan aspek yang sangat penting bagi kehidupan manusia dan kesehatan berkaitan dengan pola hidup. Salah satu pola hidup yang berisiko tinggi terhadap kesehatan adalah perilaku merokok. Perilaku merokok itu sendiri dapat diukur, salah satunya, dengan banyaknya jumlah rokok yang dihisap (Fitriani, 2012).
56
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Kenyataannya, banyak penelitian kesehatan yang menyatakan bahwa jumlah batang rokok yang dihisap setiap hari berpengaruh terhadap timbulnya berbagai macam penyakit, seperti kanker, jantung, hipertensi, dan penyakit pernafasan. Merokok dua puluh batang sehari sama dengan mengurangi umur sebanyak lima tahun. Dengan kata lain, merokok lima menit dapat menghabiskan lima menit dari hidup, sehingga sepuluh batang rokok menghabiskan hampir satu jam waktu hidup yang sangat berharga (George, 1995). Beranjak dari faktor resiko tersebut di atas, maka perlu diketahui faktorfaktor yang mempengaruhi jumlah batang rokok yang dihisap per hari. Smet (1994), misalnya, menyatakan bahwa perilaku merokok, dalam hal ini yaitu jumlah batang rokok yang dihisap setiap hari, dipengaruhi oleh variabel demografi seperti umur dan jenis kelamin, variabel lingkungan sosial, variabel politik seperti promosi kesehatan, kampanye-kampanye, serta variabel budaya seperti tingkat pendidikan, penghasilan, dan kelas sosial. Dalam menganalisis jumlah rokok yang dihisap setiap hari, variabel respon adalah berupa data cacah nonnegatif, yaitu yang berbentuk frekuensi pada suatu interval waktu tertentu. Untuk pemodelan pengaruh variabel prediktor terhadap variabel respon, count regression model yang biasa digunakan adalah regresi Poisson, regresi Binomial, dan regresi Negative Binomial. Namun, jika pada data yang dipunyai terdapat angka nol yang begitu banyak, maka data menjadi tidak sesuai dengan distribusi yang standar, misalnya distribusi Normal, Poisson, Gamma, Binomial, Negative Binomial, dan Beta. Kumpulan data nol seperti itu sering disebut sebagai data zero-inflated (Heilbron, 1994 dalam Martin et al, 2005). Kehadiran data zero- inflated dapat menyebabkan overdispersion yaitu nilai varians sampel lebih besar dari nilai rata-rata sampel (McCullagh dan Nelder, 1989; Ridout, Demetrio, dan Hinde, 1998). Overdispersion maupun underdispersion dapat menciptakan masalah karena membuat pelanggaran asumsi dalam inferensi statistik dengan penggunaan distribusi yang standar. Hasil penelitian survei Praktek Kerja Lapangan Sekolah Tinggi Ilmu Statistik (PKL STIS) Angkatan 49 menunjukkan bahwa persentase perokok di Provinsi Sumatera Selatan tahun 2010 adalah sebesar 39,40 persen, yang lebih
TAHUN 6, VOLUME 1, JUNI 2014
57
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
tinggi dari prevalensi nasional sebesar 29,9 persen pada tahun yang sama (Kementerian Kesehatan, 2010). Penelitian tersebut memberikan indikasi adanya data respon yang banyak benilai nol (zero-inflated). Hal ini terjadi karena perilaku menghisap rokok setiap hari oleh penduduk di Provinsi Sumatera Selatan masih cenderung tergolong rendah. Berdasarkan uraian di atas, maka pemodelan jumlah batang rokok yang dihisap setiap hari di Provinsi Sumatera Selatan dengan menggunakan count regression- model adalah tidak sesuai jika terdapat data yang terlalu banyak nilai nol (zero-inflated). Dengan demikian, untuk dapat mengetahui pengaruh variabel prediktor terhadap jumlah batang rokok yang dihisap setiap hari di Sumatera Selatan tahun 2010, maka diperlukan model lain yang dapat menangani kondisi zero inflated. Berbagai model untuk mengatasi masalah zero-inflated telah ditemukan danmetode statistik untuk menangani data zero-inflated seperti itu biasanya berupa two-component mixture model, dimana komponen yang pertama adalah sebuah distribusi hanya berupa nol (a degenerate distribution at zero) dan komponen yang lain berupa sebuah distribusi diskrit (count model). Metode tersebut antara lain model regresi Zero Inflated Poisson (ZIP) (oleh Lambert, 1992), Zero Inflated Negative Binomial (ZINB) (Cameron dan Trivedi, 1998), dan Zero Inflated Generalized Poisson (ZIGP) (Famoye dan Sigh, 2006). Metode penanganan data zero-inflated begitu beragam dengan masingmasing kelebihan dan kelemahannya sehingga seseorang perlu memilih model yang tepat dan terbaik berdasarkan kondisi data yang ada. Sementara itu, metode yang sering digunakan untuk mengestimasi parameter regresi pada kasus zeroinflated adalah pendekatan klasik, seperti Maximum Likelihood Estimation (MLE) dengan menggunakan berbagai pendekatan seperti Iteratively Reweighted Least Squares (IRWLS), algoritma Expectation Maximation (EM) (oleh Lambert, 1992), dan iterasi Newton–Raphson (Cameron dan Trivedi, 1998). Namun, metode pendekatan klasik tersebut sering kali gagal untuk konvergen. Oleh karena itu, pendekatan Bayesian Markov Chain Monte Carlo (MCMC) sering direkomendasikan karena dapat memudahkan pemodelan yang sangat kompleks, dapat konvergen, dan dapat menghasilkan estimator yang memiliki ketepatan (presisi) lebih tinggi.
58
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Berdasarkan uraian di atas, maka permasalahan yang ingin dibahas dalam penelitian ini adalah sebagai berikut: 1. Bagaimana memodelkan jumlah batang rokok yang dihisap setiap hari oleh penduduk di Sumatera Selatan tahun 2010 dengan menggunakan mixture count regression pendekatan Bayesian? 2. Variabel-variabel apa sajakah yang berpengaruh secara signifikan terhadap jumlah batang rokok yang dihisap setiap hari di Sumatera Selatan tahun 2010?
II. METODOLOGI Penelitian ini menggunakan data sekunder dari hasil survei Praktek Kerja Lapangan (PKL) dengan topik “Kajian Strategis Kesehatan dan Pendidikan di Sumatera Selatan” yang dilakukan oleh mahasiswa Sekolah Tinggi Ilmu Statistik (STIS) Angkatan 49, Jakarta pada tahun 2010. Data dikumpulkan melalui pendekatan rumah tangga sampel yang tersebar di enam kabupaten/kota di Provinsi Sumatera Selatan.
Dalam penelitian ini, sampel terpilih yang akan
dianalisis adalah sebanyak 11.386 anggota rumah tangga berumur 15 tahun ke atas. Pada penelitian ini, analisis deskriptif, dengan tabulasi silang (cross tabulation), grafik, dan histogram, digunakan untuk mengetahui karakteristik individu yang merokok di Provinsi Sumatera Selatan, serta untuk mendeteksi adanya zero-inflated. Analisis inferensia dalam penelitian ini digunakan untuk mengetahui pengaruh variabel prediktor yaitu jenis kelamin, umur, tingkat pendidikan, dan kegiatan utama terhadap jumlah batang rokok yang dihisap per hari di Sumatera Selatan pada tahun 2010. Pada analisis ini digunakan Zero Inflated Generalized Poisson (ZIGP). Regresi Zero Inflated Generalized Poisson (ZIGP) Regresi Zero Inflated Generalized Poisson (ZIGP) berguna untuk analisis data cacah dengan jumlah nol yang besar (Famoye dan Singh, 2006). Selain itu, ZIGP juga dapat menangani overdispersion dan/atau zero inflation. Sebuah distribusi ZIGP didefinisikan sebagai analog dengan Zero Inflated Poisson (ZIP) dengan tambahan parameter dispersi ω yang berasal dari distribusi Generalized Poisson (GP) (Mullahy, 1986 dalam Czado dan Min, 2006).
TAHUN 6, VOLUME 1, JUNI 2014
59
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Seperti diketahui regresi ZIP hanya mampu mengatasi zero inflation yang tidak overdispersion, sedangkan regresi Generalized Poisson (GP) hanya mampu mengatasi overdispersion yang bukan berupa zero inflation. Namun, ZIGP dapat mengatasi masalah overdispersion dan zero inflation sekaligus (Czado dan Min, 2006). Dalam penerapannya, ZIGP perlu memperhatikan proporsi data bernilai nol. Model ZIGP akan lebih baik dibanding model ZIP jika banyaknya data bernilai nol minimal 65,7 persen (Famoye dan Singh, 2006), 56,9 persen (Ozmen dan Famoye, 2007), atau lebih dari 61 persen (Sumarni, 2012) (dalam Istiana, 2011). Famoye dan Singh (2006) mendefinisikan model regresi ZIGP sebagai gabungan dari distribusi zero inflated dan distribusi GP sehingga fungsi kepadatan peluang ZIGP dapat dituliskan sebagai seperti berikut: {
(4.1)
dimana
adalah fungsi kepadatan peluang regresi GP
dan 0 <
< 1.
Sehingga fungsi kepadatan peluang model regresi ZIGP dapat dituliskan sebagai berikut: (
{
(
Variabel acak
)
)
(
diasumsikan berdistribusi
ZIGP akan menjadi model regresi GP ketika
(4.2)
) ,
). Model regresi
= 0 dan akan menjadi model
regresi ZIP yang didefinisikan Lambert (1992) ketika Nilai rata-rata variabel respon dengan variabel prediktor adalah sebagai berikut: (∑
)
(4.3)
dengan
adalah baris ke–i adalah
vektor
kolom
dari matriks kovariat X dan parameter
ke–k.
Sehingga
memenuhi : ∑
60
dan logit ( ) = log(
∑
(4.4)
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Fungsi
logaritma
merupakan adalah
fungsi
baris
ke–i
logaritma dari
matriks
natural
(ln)
kovariat
serta
Z,
dan
adalah vektor kolom parameter ke–m. Jika matriks kovariat yang sama mempengaruhi maka dapat ditulis untuk
sebagai fungsi dari
dan log link untuk
maupun
. Model regresi ZIGP dengan logit link
sebagaimana didefinisikan dalam persamaan fungsi
kepadatan peluang akan diperoleh: ∑
dan logit( )=log(
)
∑
(4.5)
sehingga didapat: ∑
( dengan
)
(4.6)
dan
(4.7)
dilambangkan dengan ZIGP (
. Ketika
kemungkinan kecil terjadi dan ketika
zero state/perfect state
data bernilai banyak nol kemungkinan
terjadinya lebih besar. Model ZIGP akan menjadi GP jika maka ZIGP (
Ketika
,
akan menjadi ZIP ( .
Estimasi Estimasi (penaksiran) parameter dalam penelitian ini menggunakan pendekatan Bayesian. Pendekatan Bayesian merupakan metode estimasi parameter
yang menggabungkan pengetahuan subjektif/terdahulu
tentang
parameter yang akan diestimasi [disebut juga dengan informasi terdahulu (prior information)] dengan informasi yang diperoleh dari data sampel (likelihood). Informasi terdahulu diperoleh dari distribusi tentang parameter tersebut. Penggabungan dari informasi prior dan informasi dari data akan menghasilkan informasi posterior. Informasi posterior ini akan digunakan untuk menentukan inferensi tentang suatu parameter yang masih dipandang sebagai variabel acak (Walpole dan Myers, 1995). Pendekatan Bayesian memandang parameter
sebagai variabel acak. Hal tersebutlah yang membedakan pendekatan
Bayesian dengan pendekatan klasik yang memandang parameter
sebagai
besaran yang bernilai tetap/konstan dan inferensia berdasarkan hanya pada informasi dalam sampel.
TAHUN 6, VOLUME 1, JUNI 2014
61
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Inferensia dengan pendekatan Bayesian terutama didasarkan pada teknik simulasi Markov Chain Monte Carlo (MCMC). Dua algoritma MCMC paling populer antara lain: algoritma Metropolis-Hastings (MH) (oleh Metropolis et al, 1953; Hastings, 1970) dan Gibbs sampling (oleh Geman dan Geman, 1984). Penelitian ini menggunakan algoritma Gibbs-sampling karena pada model mixture count regression pada data zero-inflated terdapat lebih dari satu parameter yang tidak diketahui yaitu
.
a. Penentuan Distribusi Prior Jika
diasumsikan
tidak
ada
informasi
yang
tersedia
mengenai
ketergantungan antarparameter, akan lebih mudah untuk memilih suatu himpunan dari prior Normal univariat untuk setiap parameter
(
) Distribusi prior
yang dipakai dalam regresi Poisson adalah distribusi prior Normal (0; 0,001) yaitu dengan rata-rata nol (0) dan tingkat presisi (
sebesar 0,001 atau
⁄
.
Dengan kata lain, nilai varians yang digunakan adalah 1000. Semakin besar nilai varians maka semakin tinggi tingkat presisi. Untuk model zero-inflated, distribusi prior Normal dapat digunakan untuk parameter prior Beta dapat digunakan untuk
, sementara distribusi
. Bila tidak ada informasi yang tersedia, maka
distribusi prior Uniform yang didefinisikan pada interval (0, l) dapat digunakan (Ntzoufras, 1973) Penelitian ini menggunakan distribusi prior Normal dengan rata-rata nol dan varians 1000 untuk parameter (1,1) untuk parameter
serta menggunakan distribusi prior Beta
dan . Berikut ini adalah distribusi prior Normal dan
distribusi prior Beta untuk model regresi ZIGP: (
)
√
{
(
) }
(4.8)
Perlu diketahui bahwa variabel acak Uniform (0,1) dapat dinyatakan sebagai Beta (1,1), dimana distribusi Uniform (0,1) merupakan fungsi kepadatan peluang yang konstan pada interval [0,1], yang dapat didefinisikan sebagai berikut: {
62
(4.9)
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Bukti: Beta (a,b) = ∫
(4.10)
Beta (1,1) = ∫
|
∫
(4.11)
Maka fungsi kepadatan Beta (1,1) adalah |
0
b. Fungsi Likelihood Regresi ZIGP Fungsi likelihood regresi ZIGP dapat ditulis sebagai berikut:
{ ∑
( ∑ ∑
∑
( [ [
(
)) ∑
)
(∑
(
(
)
(∑ (∑
)
(∑
) )
)]
)
) (∑
(∑
)
]}
(4.12)
c. Pembentukan Distribusi Posterior Distribusi posterior diperoleh dari perkalian antara fungsi likelihood dengan distribusi prior. Dalam hal ini, distribusi prior adalah independen terhadap likelihood-nya sehingga data yang diobservasi harus independen terhadap prior yang telah ditetapan. Secara umum distribusi posterior adalah sebagai berikut:
Pengujian Parameter Pengujian parameter model dilakukan untuk memeriksa pengaruh variabel prediktor terhadap variabel respon di dalam model atau untuk menguji keberartian koefisien parameter
dengan hipotesis :
, artinya tidak ada pengaruh antara variabel prediktor ke- dengan variabel respon. , artinya ada pengaruh antara variabel prediktor ke-
dengan
variabel respon.
TAHUN 6, VOLUME 1, JUNI 2014
63
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Jika distribusi posterior tidak diketahui secara pasti, pengujian hipotesis terhadap parameter regresi dilakukan dengan pendekatan credible interval. Parameter model yang telah dihasilkan diuji menggunakan credible interval pada tingkat kepercayaan 95 persen yang ditandai dengan persentil 2,5 persen dan 97,5 persen. Parameter dinyatakan signifikan jika selang interval pada tingkat kepercayaan 95 persen parameter tidak memuat nilai nol. Parameter yang signifikan menunjukkan variabel prediktor berpengaruh terhadap variabel respon (Apsari, 2012). Pemilihan Model Terbaik Pemilihan model terbaik untuk regresi berdasarkan pendekatan Bayesian, dapat dilakukan, salah satunya, dengan metode DIC (Deviance Information Criterion). Model terbaik adalah yang mempunyai nilai DIC terkecil. Deviance Information Criterion diperkenalkan oleh Spiegelhalter et al (2002) sebagai ukuran perbandingan model hierarkis dan dapat dihitung dengan mudah menggunakan metode MCMC. Misalkan
adalah data pengamatan dan
parameter model posterior. Ukuran unstandardized Deviance
adalah , yakni
sebesar minus dua kali loglikelihood dapat dinyatakan sebagai berikut: |
(4.13)
Sementara untuk Deviance pada rata-rata posterior ̅
̅ dinotasikan dengan
| ̅
(4.14) (
Sedangkan
| ) adalah nilai rata-rata Deviance
posterior (posterior mean deviance). Perbedaan antara dikenal sebagai
̅
dan
yaitu dapat diartikan sebagai estimasi jumlah "efektif"
parameter yaitu: ̅
(4.15)
dengan demikian, DIC dapat didefinisikan sebagai berikut: ̅
(4.16)
atau dapat dituliskan sebagai persamaan yang analog dengan AIC (Akaike’s Information Criterion), yaitu: ̅
(4.17)
(Shriner dan Yi, 2008)
64
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
III. HASIL DAN PEMBAHASAN Karakteristik Perokok di Provinsi Sumatera Selatan Perilaku merokok merupakan salah satu indikator perilaku masyarakat yang berpengaruh negatif terhadap derajat kesehatan (Profil Kesehatan Indonesia, 2006). Perilaku merokok dapat diukur melalui umur mulai merokok, intensitas merokok (jumlah batang rokok yang dihisap setiap hari dan waktu yang dibutuhkan seseorang untuk segera merokok setelah bangun pagi), lama merokok, dan jenis rokok (Fitriani, 2012). Dari 11.386 responden diketahui bahwa sejumlah 7.939 atau sebesar 69,7 persen adalah penduduk berumur 15 tahun ke atas yang tidak merokok setiap hari dalam satu bulan terakhir, yaitu penduduk yang kadang-kadang merokok, atau tidak merokok tetapi sebelumnya pernah merokok, atau tidak pernah merokok sama sekali. Sedangkan sisanya, atau sebanyak 3.447 penduduk berumur 15 tahun ke atas atau sebesar 30,3 persen adalah penduduk berumur 15 tahun ke atas yang merokok setiap hari. Berdasarkan
banyaknya
rokok
yang
dihisap,
Smet
(1994)
mengklasifikasikan perokok ke dalam tiga kelompok, yaitu: a. Perokok berat yang menghisap lebih dari 15 batang rokok dalam sehari. b. Perokok sedang yang menghisap 5-14 batang rokok dalam sehari. c. Perokok ringan yang menghisap 1-4 batang rokok dalam sehari. Dari penduduk yang merokok setiap hari, dapat ditunjukkan bahwa sebagian besar responden tergolong sebagai kategori perokok sedang yaitu sebanyak 19,20 persen, sebanyak 8,50 persen responden termasuk kategori perokok berat, dan yang paling sedikit adalah kategori perokok ringan yaitu sebanyak 2,60 persen responden. Penduduk yang menghisap rokok rata-rata 10-14 batang setiap hari adalah yang terbanyak yaitu sebesar 13,70 persen. Secara keseluruhan, rata-rata jumlah rokok yang dihisap oleh responden adalah 13,1 batang per hari. Perilaku Merokok Menurut Jenis Kelamin Sebanyak 1,62 persen perempuan dan 58,81 persen laki-laki merokok setiap hari. Informasi ini menunjukkan bahwa di Provinsi Sumatera Selatan, perilaku merokok setiap hari pada umumnya masih dilakukan oleh laki-laki.
TAHUN 6, VOLUME 1, JUNI 2014
65
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Martini (2000) mengatakan bahwa merokok dikaitkan dengan budaya maskulinitas, yaitu laki-laki yang tidak merokok dianggap kurang jantan. Jika dilihatpenduduk yang merokok setiap hari, maka jumlah batang rokok yang dihisap per hari pada umumnya berkisar antara10-14 batang. Pada kelompok perokok perempuan, sebesar 0,39 persen tergolong perokok ringan n, 1,04 persen merupakan perokok sedang, dan selebihnya, yaitu 0,20 persen merupakan perokok berat.. Dapat dikatakan bahwa pada penduduk perempuan lebih banyak menjadi perokok sedang, walaupun masih juga terdapat perokok berat yang jumlahnya hampir menyamai jumlah perokok ringan. Demikian juga, pada perokok laki-laki lebih didominasi oleh perokok sedang yaitu sebesar 37,37 persen, dilanjutkan dengan
perokok berat yaitu
sebesar 16,64 persen, dan sedikit yang tergolong perokok ringan yaitu sebesar 4,80 persen. Perilaku Merokok Menurut Umur Sebesar 15,09 persen remaja (umur 11-20 tahun) merokok setiap hari, kemudian diikuti 28,57 persen lanjut usia (umur 60 tahun ke atas), 33,09 persen dewasa (21-40 tahun), dan 34,77 persen setengah baya (41-60 tahun). Terlihat bahwa pecandu rokok setiap hari didominasi oleh umur setengah baya, diikuti oleh umur dewasa, lanjut usia, dan yang paling sedikit adalah remaja. Informasi di atas menunjukkan bahwa memang kebiasaan merokok adalah kebiasaan orang dewasa. Umur remaja adalah sebagai umur untuk mulai mencoba merokok. Martini (2000) menyebutkan bahwa sebagian perokok remaja beralasan merokok agar dianggap dewasa. Jika dilihat, penduduk yang merokok setiap hari, jumlah batang rokok yang dihisap setiap hari oleh remaja, dewasa, setengah baya dan lanjut usia pada umumnya berkisar antara 10-14 batang. Perilaku Merokok Menurut Tingkat Pendidikan Penduduk yang berpendidikan di atas SMA pada umumnya tidak merokok setiap hari, yaitu sebesar 83,10 persen, dan ini lebih tinggi dibandingkan persentasependuduk yang berpendidikan SMA ke bawah tidak merokok setiap hari, yaitu sebesar 68,64 persen. Dengan kata lain, semakin tinggi tingkat pendidikan penduduk maka lebih cenderung untuk tidak merokok setiap hari.
66
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Dengan adanya pengetahuan diharapkan penduduk mengerti akan bahaya rokok sehingga dapat menghindari kebiasaan merokok. Jika dilihat dari kebiasaan merokok setiap hari, terdapat 7,23 persen penduduk yang berpendidikan di atas SMA yang menghisap rokok antara 10-14 batang setiap hari, sedangkan persentase penduduk yang berpendidikan SMA ke bawah yang menghisap rokok antara 10-14 batang per hari adalah lebih tinggi, yaitu 14,25 persen. Pada penduduk yang mempunyai pendidikan SMA ke bawah, persentase yangtergolong sebagai perokok sedang dan berat masing-masing adalah sebesar 19,87 dan 9,16 persen. Sedangkan pada penduduk yang mempunyai pendidikan di atas SMA, persentase yang tergolong sebagai perokok sedang adalah sebesar 11,54 persen, lebih rendah dari pada persentase yang tergolong perokok sedang dalam kelompok berpendidikan SMA ke bawah. Perilaku Merokok Menurut Kegiatan Utama Sebanyak kurang dari 10 persen penduduk yang mempunyai kegiatan bukan bekerja merokok setiap hari, sedangkan sebesar 30,27 persen penduduk yang mempunyai kegiatan bekerja adalah merokok setiap hari. Dengan kata lain, penduduk yang kegiatan utamanya adalah bekerja lebih cenderung untuk merokok setiap hari. Hal ini di atas terjadi berkemungkinan karena secara psikologis orang yang bekerja mempunyai beban yang lebih berat dibanding yang lain, sehingga mereka menggunakan rokok sebagai alat untuk mengurangi stress yang ada pada diri mereka. Selain itu, pemenuhan kebutuhan akan rokok memerlukan dana, sehingga orang yang bekerja akan lebih dapat memenuhi kebutuhan tersebut karena sudah memiliki penghasilan (Aminudin, 2004). Jika dilihat dari kebiasaan merokok setiap hari, 13,73 persen penduduk yang bekerja menghisap rokok antara 10-14 batang per hari, sedangkan dari penduduk yang kegiatan utamanya bukan bekerja, sebesar 3,26 persen menghisap rokok antara 10-14 batang per hari.. Pada penduduk yang mempunyai kegiatan bekerja, sebanyak 19,42 persen merupakanperokok sedang, kemudian 7,40 persen sebagai perokok berat, dan hanya 2,60 persen sebagai perokok ringan.
Sedangkan penduduk yang
mempunyai kegiatan utama bukan bekerja, juga 5,54 persen sebagai perokok sedang, 3,00 persen sebagai perokok berat, dan 1,40 persen sebagai perokok
TAHUN 6, VOLUME 1, JUNI 2014
67
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
ringan. Terlihat bahwa penduduk yang mempunyai kegiatan bekerja lebih tinggi persentasenya sebagai perokok berat dibanding penduduk yang kegiatan utamanya bukan bekerja. Mixture Count Regression dengan Pendekatan Bayesian Pendeteksian Zero Inflated dan Overdispersion Seperti yang telah diketahui, variabel respon yang digunakan dalam penelitian ini adalah jumlah batang rokok yang dihisap setiap hari oleh penduduk berumur lima belas tahun ke atas. Data tersebut adalah berupa data cacah yang nonnegatif. Berdasarkan data, terdapat 7.939 penduduk atau 69,7 persen penduduk yang tidak merokok setiap hari. Hal tersebut dapat berarti bahwa terdapat sebesar 69,7 persen frekuensi jumlah rokok yang dihisap per hari adalah nol batang. Persentase nol tersebut melebihi 50 persen sehingga merupakan indikasi terjadinya zero inflated. Untuk lebih jelasnya, frekuensi nol yang amat banyak dapat dilihat pada histogram berikut ini:
Gambar 4.1. Jumlah Batang Rokok yang Dihisap per Hari di Sumatera Selatan Tahun 2010 Selain banyak data yang bernilai nol, histogram di atas juga memperlihatkan bahwa sebaran data yang tidak normal, yaitu menceng kanan. Pola data respon tersebut mempunyai ciri-ciri sama dengan distribusi Poisson yang merupakan distribusi diskrit dengan data cacah nonnegatif dan cenderung berbentuk menceng. Namun, adanya data nilai nol yang berlebih tersebut menyebabkan nilai observasi pada titik nol melebihi nilai yang diharapkan pada titik nol sehingga menyebabkan distribusi Poisson menjadi tidak sesuai.
68
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Rata-rata jumlah rokok yang dihisap setiap hari adalah 3,97 batang dan besarnya varians yaitu 57,431. Jika dilihat secara deskriptif, dapat ditunjukkan bahwa nilai varians pada variabel respon adalah lebih besar dari nilai rata-ratanya (overdispersion). Untuk mengetahui lebih lanjut terjadinya overdispersion, dapat diperiksa dengan statistik uji Deviance, jika nilai Deviance dibagi dengan derajat bebasnya menghasilkan nilai lebih dari 1 maka terjadi overdispersion. Dalam penelitian ini, nilai Deviance yang dihasilkan yaitu 64.406,5341 dengan derajat bebas sebesar 11.381. Maka, pembagian dari 64.406,5341 dengan 11.381 akan menghasikan nilai lebih dari 1 yaitu 5,6591. Hal tersebut jelas menunjukkan adanya kondisi overdispersion. Selain distribusi Poisson yang tidak sesuai karena data respon terdapat zero inflated, asumsi equidispersion juga akan terlanggar jika menggunakan model regresi Poisson karena terjadinya overdispersion. Oleh karena itu, perlu model lain untuk mengetahui faktor-faktor yang mempengaruhi jumlah batang rokok yang dihisap setiap hari oleh penduduk berumur 15 tahun ke atas. Model yang diusulkan adalah model regresi Zero Infated Generalized Poisson (ZIGP). Model Regresi Zero Inflated Generalized Poisson Model regresi Zero Inflated Generalized Poisson (ZIGP) digunakan untuk menganalisis hubungan antara variabel prediktor dan variabel respon yang berupa data cacah, dimana terjadi overdispersion dan variabel responnya memiliki zero inflated. Model yang akan digunakan dalam regresi ZIGP melibatkan kombinasi dari variabel prediktornya atau disebut juga All Possible Regression (APR). Terdapat 4 variabel prediktor yang dapat digunakan untuk pembentukan model regresi ZIGP sehingga didapat 15 kemungkinan model dengan variabel prediktor yang berbeda. Kemungkinan 15 model regresi ZIGP adalah sebagai berikut: 1. 2. 3. 4. 5. 6.
TAHUN 6, VOLUME 1, JUNI 2014
69
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
7. 8. 9. 10. 11. 12. 13. 14. 15. Estimasi parameter model regresi ZIGP pada penelitian ini menggunakan estimasi Bayesian metode Markov Chain Monte Carlo (MCMC) algoritma Gibbs sampling. Pengolahan data yaitu dengan menggunakan paket program WinBUGS14 (Windows Bayesian Inference Using Gibbs Sampling). Hasil estimasi parameter regresi ZIGP menggunakan pendekatan Bayesian dengan 300.000 iterasi dapat dilihat pada Tabel 4.1 berikut ini: Tabel 4.1.
Nilai Estimasi Parameter Model Regresi ZIGP dengan Variabel Prediktor Jenis Kelamin, Umur, Tingkat Pendidikan, dan Kegiatan Utama Standar 2,5% 97,5% Parameter Estimasi Signifikan Deviasi Persentil Persentil -1,77 0,073 -1,913 -1,629 3,426 0,042 3,343 3,508 Ya 0,009 9,082E-4 0,008 0,011 Ya 0,253 0,051 0,154 0,351 Ya 0,366 0,031 0,304 0,428 Ya 0,116 0,003 0,110 0,123 Ya 0,219 0,011 0,197 0,241 Ya Pengujian terhadap parameter regresi ZIGP menggunakan pendekatan
credible interval 95 persen. Pada credible interval 95 persen, parameter yang tidak memuat nilai nol, yaitu yang signifikan adalah
dan dan
sehingga parameter . Parameter
yang
signifikan menunjukkan model regresi ZIGP adalah sesuai. Sedangkan parameter yang signifikan menunjukkan variabel-variabel prediktor yang mempengaruhi pada model log sama dengan variabel-variabel prediktor yang mempengaruhi pada model logit. Dengan demikian, model regresi ZIGP dengan keseluruhan 70
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
variabel prediktor adalah sesuai dan variabel jenis kelamin, umur, tingkat pendidikan, dan kegiatan utama berpengaruh terhadap jumlah batang rokok yang dihisap setiap hari. Pemilihan Model Terbaik Regresi ZIGP Salah satu metode pemilihan model terbaik regresi adalah Deviance Information Criterion (DIC). Berikut ini adalah tabel yang menunjukkan nilai DIC untuk kelima belas model regresi ZIGP: Tabel 4.2. No. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.
Nilai Deviance Information Criterion (DIC) menurut Variabel Prediktor Model Regresi ZIGP Variabel Model Regresi ZIGP Jenis kelamin, umur, dan tingkat pendidikan Umur, tingkat pendidikan, dan kegiatan utama Jenis kelamin, tingkat pendidikan, dan kegiatan utama Jenis kelamin, umur, dan kegiatan utama Jenis kelamin,umur, dan tingkat pendidikan Tingkat pendidikan dan kegiatan utama Umur dan kegiatan utama Umur dan tingkat pendidikan Jenis kelamin dan kegiatan utama Jenis kelamin dan tingkat pendidikan Jenis kelamin dan umur Kegiatan utama Tingkat pendidikan Umur Jenis kelamin
DIC 35090,5 38695,3 35215,5 35116,4 35220,5 38695,7 38694,6 38735,1 35235,1 35333,2 35236,8 38705,6 38734,0 38732,1 35348,6
Model yang terbaik adalah yang mempunyai nilai DIC terkecil. Pada Tabel 4.2 dapat dilihat bahwa model terbaik dengan nilai DIC terkecil adalah model regresi ZIGP dengan keseluruhan variabel prediktor, yaitu jenis kelamin, umur, tingkat pendidikan, dan kegiatan utama. Jika dilihat pada Tabel 4.1, keseluruhan parameter
,
dan
adalah signifikan. Maka model terbaik yang dipilih
yaitu: ̂ atau ̂
exp(
dan ̂ atau ̂
TAHUN 6, VOLUME 1, JUNI 2014
71
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
dimana
menyatakan jenis kelamin,
tingkat pendidikan, dan
menyatakan umur,
menyatakan
menyatakan kegiatan utama.
Model log regresi ZIGP menjelaskan bahwa peluang variabel respon bernilai positif dipengaruhi oleh variabel-variabel yang signifikan, yaitu jenis kelamin, umur, tingkat pendidikan, dan kegiatan utama. Sedangkan model logit regresi ZIGP menjelaskan bahwa peluang variabel respon bernilai nol dipengaruhi oleh variabel-variabel yang signifikan.
IV. KESIMPULAN DAN SARAN Berdasarkan hasil dan pembahasan yang telah diuraikan sebelumnya, dapat diambil tiga kesimpulan sebagai berikut: 1. Data jumlah batang rokok yang dihisap setiap hari oleh penduduk di Provinsi Sumatera Selatan tahun 2010 menunjukkan zero inflated dan terjadi overdispersion. 2. Model yang sesuai untuk menangani data zero inflated yang overdispersion tersebut adalah model Zero Inflated Generalized Poisson (ZIGP). 3. Jumlah batang rokok yang dihisap setiap hari dipengaruhi secara signifikan oleh jenis kelamin, umur, tingkat pendidikan, dan kegiatan utama. Saran yang dapat diberikan pada penelitian selanjutnya adalah: 1. Penggunaan metode Bayesian dapat dilakukan melalui distribusi prior lain yang sesuai dengan pengetahuan mengenai informasi awal. 2. Pengujian parameter dengan pendekatan Bayesian dalam penelitian ini menggunakan credible interval sehingga untuk penelitan selanjutnya dapat menggunakan faktor Bayes (Bayes factor) untuk pengujian parameter. 3. Pemilihan model terbaik dengan pendekatan Bayesian sebaiknya tidak hanya menggunakan satu kriteria saja yaitu Deviance Information Criterion (DIC) tetapi perlu dikembangkan kriteria model terbaik lainnya.
72
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
DAFTAR PUSTAKA Aminudin, Fuad. (2004). Pengaruh Karakteristik Individu Terhadap Kecenderungan Merokok di Provinsi DKI Jakarta Tahun 2001 [Skripsi]. Jakarta: Sekolah Tinggi Ilmu Statistik Apsari, Wayaning. (2011). Estimasi Parameter Regresi Logistik Multinomial dengan Metode Bayes dan Algoritma Markov Chain Monte Carlo [Skripsi]. Semarang: Program Studi Statistika Jurusan Matematika dan Ilmu Pengetahuan Alam Universitas Diponegoro (tidak dipublikasikan) Cameron, A. dan Trivedi, P. (1998). Regression Analysis of Count Data. Cambridge: Cambridge University Press Czado, Claudia, Erhardt, Vinzenz, dan Min, Aleksey. (2006). Zero Inflated Generalized Poisson Models with Regression Effect on the Mean, Dispersion and Zero Inflation Level Applied to Patent Outsourcing Rates. Institut fur Statistik Sonderforschungsbereich 386, Paper 482 Famoye, F. Dan Singh, K.P. (2006). Zero-Inflated Generalized Poisson Regression Model with an Application to Domestic Violence Data. Journal of Data Science. hlm. 117-130 Fitriani, (2012). Perbedaan Faktor yang Berhubungan dengan Kebiasaan Merokok Remaja Kota dengan SMU Desa [Skripsi]. Semarang: Universitas Muhammadiyah Semarang Istiana, Nofita. (2011). Count Regression Model pada Data Respon dengan Excess Zero [Skripsi]. Jakarta: Sekolah Tinggi Ilmu Statistik Kementerian Kesehatan . (2010). Riset Kesehatan Dasar (RISKESDAS) 2010. Jakarta: Kementerian Kesehatan Republik Indonesia. Martin et al. (2005). Zero Tolerance Ecology: Improving Ecological Inference by Modelling The Source of Zero Observations. Ecology Letters, 8, Hlm. 1235-1246 Ntzoufras, Ioannis. (1973). Bayesian Modelling Using WinBUGS. Ney Jersey: John Wiley & Sons, Inc Ridout, M., Demetrio, C.G., dan Hinde, J. (1998). Models for Count Data with Many Zeros. International Biometric Conference, Cape Town, Desember 1998 Shriner, D. dan Yi, N. (2008). Deviance Information Criterion (DIC) in Bayesian Multiple QTL Mapping. Computational Statistical Data Analysis, 53(5), Hlm. 1850-1860 Sekolah Tinggi Ilmu Statistik. (2010). Kajian Strategis Kesehatan Dan Pendidikan di Sumatera Selatan Tahun 2010. [Laporan Penelitian]. Jakarta: Badan Pusat Statistik Smet, Bart. (1994). Psikologi Kesehatan. Jakarta: Grasindo
TAHUN 6, VOLUME 1, JUNI 2014
73
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
PEMANFAATAN TEKNOLOGI BIG DATA UNTUK PENGOLAHAN DATA BPS (STUDI DATA SENSUS PENDUDUK 2010)
Florencia Satwika Genah
Abstract
As an institution that provides statistical data, Statistics Indonesia (Badan Pusat Statistik/BPS) has been collecting various kind of data. Considering about the data volume itself, all of the data that has been collected by BPS can be classified into Big Data concept. Until now, BPS has been using Relational Database Management System (RDBMS) to store and process the data. However, the growth in quantity of the data observed by time brings out the consequence that the data itself outgrow the maximum capacity of RDBMS. This research try to design a cluster architecture to implement Big Data technologies, and this research will conduct a testing phase to evaluate the performance comparison between Big Data technologies and RDBMS in case of processing the 2010 Indonesia Population Census (SP2010) data. The implementation of RDBMS will be conducted in stand-alone mode, while the implementation of Big Data technologies will be conducted in both stand-alone and cluster mode. The testing phase shows that the performance of RDBMS surpass the performance of Big Data technologies in order to process SP2010 data. Some reasons for the result are because the SP2010 data still meet the RDBMS storage capacity requirement and the data itself is structured. Meanwhile, the testing phase also shows that the implementation of Big Data technologies in cluster mode drives out a better performance in processing the data compared to stand-alone mode.
Keywords : database, big data, BPS
74
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
I. PENDAHULUAN Sebagai instansi penyedia data, Badan Pusat Statistik (BPS) telah banyak melaksanakan sensus ataupun survei. Seiring dengan berjalannya waktu, maka data yang dikumpulkan menjadi semakin banyak dari segi kuantitas. Terkait pertambahan aliran data yang semakin meningkat tiap tahunnya, maka penyimpanan dan pemrosesan data yang besar tersebut menjadi suatu permasalahan yang perlu untuk diperhatikan dan ditindaklanjuti. Di samping itu, terdapat juga kemungkinan bahwa data BPS akan berkembang dari sisi variasi datanya, yang saat ini secara mayoritas bersifat terstruktur menjadi sekumpulan data yang memiliki beragam variasi (terstruktur, semi terstruktur, maupun tidak terstruktur). Hal ini terjadi karena sumber daya teknologi yang ada terus berkembang. Perkembangan variasi data tersebut sangat penting untuk diperhatikan terutama terkait dengan tantangan dan permasalahan penyimpanan dan pemrosesannya. Saat ini, mayoritas penyimpanan dan pemrosesan data BPS menggunakan Relational Database Management System (RDBMS). RDBMS memiliki kapasitas penyimpanan maksimum, dan untuk menampung data dengan volume besar yang terus bertambah, kapasitas penyimpanan RDBMS akan mengalami titik jenuh pada kapasitas maksimalnya. Ketika ukuran data bertambah secara terus-menerus dan frekuensi penulisan data meningkat, maka lingkungan RDBMS memerlukan proses scaling up yang biasanya dilakukan secara vertikal, yaitu menambah core untuk pemrosesan, memory, dan disk yang memadai (George, 2011). Hal ini mengindikasikan biaya untuk menciptakan lingkungan RDBMS yang sesuai dengan kebutuhan akibat pertumbuhan data tergolong mahal untuk direalisasikan, serta membutuhkan waktu yang tidak cepat. Di samping tantangan terkait penyimpanan RDBMS, terdapat juga permasalahan lainnya menyangkut pemrosesan data. Pemrosesan data BPS dipengaruhi oleh faktor teknis dan faktor non-teknis. Faktor teknis tersebut dapat dikontrol dan saat ini BPS menggunakan RDBMS sebagai alat pemrosesan data, yang dalam hal ini mengalami penurunan kinerja seiring dengan bertambahnya ukuran data yang diproses. Di samping itu, faktor non-teknis mencakup hal-hal
TAHUN 6, VOLUME 1, JUNI 2014
75
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
yang sulit untuk dikontrol seperti pelaksanaan prosedur, penjadwalan, maupun koordinasi sumber daya manusia dalam hal pemrosesan data-data yang ada. Berdasarkan penjelasan yang telah dipaparkan, maka perlu untuk mencari solusi terkait masalah penyimpanan dan pemrosesan data yang bervolume besar. Hal tersebut ditujukan bagi tercapainya efisiensi dan efektivitas terkait penyimpanan dan pemrosesan data dengan skala besar. Oleh karena itu, dibutuhkan suatu mekanisme lain untuk mengatasi permasalahan terkait penyimpanan dan pemrosesan data yang besar yang sulit dikelola oleh sistem RDBMS. Mekanisme tersebut adalah teknologi Big Data. Dalam penelitian ini akan menggunakan data Sensus Penduduk 2010 (SP2010) sebagai studi kasus, karena data tersebut dianggap memiliki kontribusi yang besar terhadap ukuran dan pertumbuhan data BPS secara keseluruhan. Dengan memanfaatkan data SP2010 sebagai studi kasus, penelitian ini akan mengaji tentang teknologi Big Data dalam mengatasi permasalahan terkait penyimpanan dan pemrosesan data berskala besar. Salah satu permasalahan terkait penyimpanan dan pemrosesan data berskala besar pada tempat penyimpanan terpusat, yaitu perlu adanya mekanisme yang menjamin kekonsistenan dan ketersediaan data. Data harus tetap tersedia sekalipun terjadi kegagalan pada salah satu bagian yang menyusun tempat penyimpanan data terpusat tersebut. Oleh karena itu, diperlukan suatu mekanisme yang mendukung adanya satu tempat penyimpanan data yang terpercaya kekonsistenan datanya dan juga menjamin ketersediaan data. BPS memiliki kebutuhan yang sama akan adanya Single Source of Truth (SSOT) bagi data yang telah dikumpulkan, mengingat data BPS bersifat multi subject dan bersifat krusial terhadap kekonsistenan data. SSOT adalah konsep penyimpanan dan pengaksesan sumber data yang satu dan terpercaya. Oleh karena itu, teknologi Big Data merupakan salah satu solusi alternatif yang dapat mendukung penerapan SSOT di BPS. Tujuan penelitian ini secara umum yaitu mengaji performa teknologi Big Data dalam melakukan pengolahan data BPS. Penelitian mengenai penyimpanan dan pemrosesan data BPS dengan memanfaatkan teknologi Big Data ini mengawali diskusi mengenai penerapan teknologi terkait Big Data di BPS. Selain
76
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
itu, hasil dari penelitian ini menunjukkan bagaimana performa penerapan teknologi Big Data dalam hal penyimpanan dan pemrosesan data BPS. Di samping itu, hasil penelitian ini juga memberikan rancangan awal dari arsitektur sistem yang mengacu pada konsep Single Source of Truth (SSOT) dan rancangan skema basis data terkait teknologi Big Data yang diterapkan untuk data Sensus Penduduk 2010.
II. TEORI DAN KERANGKA PIKIR Sensus Penduduk 2010 Sensus Penduduk adalah kegiatan pengumpulan data demografi, ekonomi, dan sosial yang menyangkut semua penduduk pada waktu tertentu di suatu negara atau wilayah. Untuk Sensus Penduduk 2010 (SP2010), pelaksanaannya mencakup seluruh penduduk warga negara Indonesia (WNI) maupun warga negara asing (WNA) yang berdomisili di wilayah teritorial Indonesia, baik yang bertempat tinggal tetap maupun yang tidak. Pada SP2010, kegiatan pendaftaran bangunan dan rumah tangga serta pencacahan lengkap seluruh penduduk dilaksanakan pada bulan Mei 2010. SP2010 merupakan Sensus Penduduk keenam yang dilaksanakan sejak Indonesia merdeka. Sensus Penduduk yang pertama sejak Indonesia merdeka dilaksanakan pada tahun 1961, dan berturut-turut setelahnya pada tahun 1971, 1980, 1990, dan 2000 (Badan Pusat Statistik, 2010). Relational Database Management System (RDBMS) Relational database pada mulanya dibangun untuk memisahkan penyimpanan fisik data dari representasi konseptual dan untuk menyediakan dasar perhitungan matematis untuk representasi data serta proses manipulasi data (querying). Dalam relational data model, terdapat bahasa tingkat tinggi (highlevel query) yang merupakan antarmuka bahasa pemrograman, yang membuat proses penulisan query menjadi lebih mudah dan cepat. Dalam Relational Database Management System (RDBMS), Structured Query Languange (SQL) merupakan bahasa yang berperan sebagai View Definition Languange (VDL) untuk mendefinisikan view dari pengguna atau aplikasi sebagai hasil dari query yang telah ditentukan sebelumnya. Secara umum, inti operasi dan fungsi dalam
TAHUN 6, VOLUME 1, JUNI 2014
77
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
modul internal dari sistem relasional kebanyakan berdasarkan pada operasi relational algebra (Elmasri & Navathe, 2011). Single Source of Truth (SSOT) Single Source of Truth (SSOT) merupakan pendekatan pada tingkat perusahaan atau instansi (enterprise level) untuk membuat struktur pemodelan informasi dan schemata yang terasosiasi. Dalam hal ini, data disimpan sekali dan dapat diakses oleh berbagai bagian dalam perusahaan atau instansi yang bersangkutan sesuai dengan hak aksesnya. Keterkaitan (linkages) dan hubungan antar elemen data dalam pendekatan SSOT dikelola dengan pemberian reference. Dengan pemberian reference, ketika elemen data diperbarui (update), maka keseluruhan data untuk perusahaan atau organisasi pun diperbarui, tanpa adanya kemungkinan duplikat nilai yang tidak diperbarui (Burkhow, 2011). Big Data Big Data merupakan teknologi yang memiliki kemampuan untuk mengelola data bervolume besar yang berbeda-beda variasinya, pada kecepatan yang tepat, dan dalam kerangka waktu yang tepat untuk mengizinkan analisis dan reaksi yang bersifat realtime. Big Data secara khusus dibagi dalam tiga karakteristik, yaitu volume (seberapa banyak data), velocity (seberapa cepat data diproses), dan variety (tipe data yang beragam). Data harus mampu diverifikasi berdasarkan akurasi dan konteks. Big Data mencakup semua data, termasuk data terstruktur
dan
data
tidak
terstruktur,
seperti
e-mail,
media sosial, dan aliran teks (Hurwitz et all, 2013). Big Data merupakan data yang melebihi kapasitas pemrosesan sistem basis data konvensional, baik data tersebut besar dalam ukuran, pergerakannya terlalu cepat, atau struktur datanya tidak sesuai dengan arsitektur basis data yang memiliki sejumlah ketentuan yang ketat (Dumbill, 2012). Secara sederhana, Big Data mengacu kepada alat-alat, proses-proses, dan prosedur-prosedur
yang
mengizinkan
organisasi
untuk
menciptakan,
memanipulasi, dan mengelola sekumpulan data yang besar. Big Data digambarkan dengan “3 Vs”, yaitu volume, variety, dan velocity. Terkait volume, alat dan layanan untuk Big Data memerlukan kemampuan yang melampaui kemampuan basis data tradisional. Terkait variety, alat untuk memproses Big
78
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Data harus dapat mengelola variasi data yang beragam, yang berarti alat tersebut memiliki kemampuan mengelola data terstruktur maupun data tidak terstruktur, serta mendukung kemampuan untuk memproses data terstruktur agar dapat bekerja bersama dengan data tidak terstruktur. Terkait velocity, alat untuk Big Data memiliki kemampuan untuk mengumpulkan, menganalisis, dan melaporkan perubahan terhadap sekumpulan data yang terjadi secara cepat (Kusnetzky, 2012). International Data Corporation (IDC)1 mendefinisikan teknologi Big Data sebagai “a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery, and/or analysis” (Gantz & Reinsel, 2012). Hal yang penting dipertimbangkan yaitu kebutuhan fungsional untuk Big Data. Gambar 5.1 mengilustrasikan bahwa data harus terlebih dahulu ditangkap (captured), kemudian diorganisasikan (organized) dan diintegrasikan (integrated). Setelah ketiga fase tersebut berhasil diimplementasikan, maka data dapat dianalisis berdasarkan masalah yang ingin diselesaikan. Selanjutnya, aksi yang tepat dapat dilakukan berdasarkan outcome yang dihasilkan dari analisis (Hurwitz et all, 2013).
Sumber : Hurwitz et all (2013) Gambar 5.1. Siklus Manajemen Big Data Hadoop Hadoop merupakan framework perangkat lunak yang dikelola Apache dan merupakan turunan dari MapReduce dan Big Table. Hadoop memungkinkan aplikasi yang menerapkan mekanisme MapReduce dapat berjalan pada klaster dari commodity hardware. Commodity hardware adalah perangkat keras mesin dengan 1
IDC iView, disponsori oleh EMC Corporation, Desember 2012
TAHUN 6, VOLUME 1, JUNI 2014
79
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
spesifikasi yang umumnya dipakai (misalnya Personal Computer), dan bukan merupakan mesin yang memiliki spesifikasi server grade. Hadoop dirancang sedemikian rupa untuk melakukan pemrosesan data secara paralel melalui sejumlah node untuk mempercepat komputasi dan menyembunyikan latency. Dua komponen utama dari Hadoop yaitu sistem berkas terdistribusi yang dapat menampung data dalam ukuran Petabyte dan mesin komputasi yang dikenal dengan MapReduce untuk melakukan pemrosesan data berskala besar dalam mode batch. Server dalam klaster Hadoop dapat ditambah atau dikurangi secara dinamis karena Hadoop dirancang untuk dapat melakukan “self-healing”. Dengan kata lain, Hadoop dapat dengan mudah mendeteksi perubahan, termasuk jika terdapat kegagalan, dan menyesuaikan diri dengan perubahan tersebut sehingga dapat terus beroperasi tanpa adanya interupsi (Hurwitz et al, 2013). Hadoop Distributed Filesystem (HDFS) Ketika kumpulan data berkembang (outgrow) dan tidak dapat ditangani hanya dengan bermodalkan kapasitas penyimpanan satu mesin fisik, maka diperlukan mekanisme partisi data ke beberapa mesin fisik. Hal tersebut mengindikasikan adanya konsep sistem berkas yang terdistribusi, yaitu sistem berkas yang mengelola penyimpanan data yang dibagi ke dalam beberapa mesin fisik dalam satu jaringan. Berkaitan dengan itu, Hadoop pun memiliki sistem berkas terdistribusi yang dikenal dengan Hadoop Distributed Filesystem (HDFS). HDFS dirancang untuk menyimpan berkas yang sangat besar dari segi jumlahnya dengan pola akses data yang bersifat streaming, serta berjalan pada klaster dari commodity hardware (White, 2009). MapReduce MapReduce dirancang oleh Google sebagai jalan untuk mengeksekusi sekumpulan fungsi secara efisien terhadap sejumlah data yang besar dalam mode batch. Tahap map mendistribusikan pekerjaan lewat sejumlah besar sistem dan menangani pembagian pekerjaan dengan cara yang dapat menyeimbangkan beban kerja serta dapat menangani proses recovery ketika terjadi kegagalan. Setelah komputasi
terdistribusi
tersebut
selesai,
fungsi
lainnya
yaitu
reduce,
mengagregasikan seluruh hasil dari tahap map menjadi suatu hasil tunggal (Hurwitz et al, 2013).
80
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
HBase HBase adalah basis data terdistribusi dan bersifat non-relasional (columnar) yang memanfaatkan HDFS sebagai tempat penyimpanan tetapnya. HBase dimodelkan serupa dengan Google BigTable dan mampu menyimpan tabel yang sangat besar karena berjalan di atas klaster Hadoop yang tersusun atas sejumlah commodity hardware. HBase menyediakan akses baca/tulis terhadap Big Data secara acak dan realtime. HBase dapat dengan mudah dikonfigurasi yang memungkinkan fleksibilitas dari HBase untuk secara efisien dapat menangani data dalam jumlah besar. Karena HBase merupakan basis data columnar, maka seluruh data yang ada disimpan ke dalam tabel dengan baris dan kolom yang serupa dengan RDBMS (Hurwitz et al, 2013). Zookeeper Zookeeper pada awalnya dibangun di Yahoo! untuk mempermudah aplikasi perusahaan tersebut dalam mengakses informasi konfigurasi secara handal dan mudah dipahami, yang bertujuan untuk mengkoordinasikan pekerjaan melalui klaster yang terdistribusi. Zookeeper merupakan penyimpanan key/value yang bersifat khusus dengan antarmuka layaknya filesystem dan mendukung operasi-operasi seperti memeriksa adanya callback, menulis consensus, dan ID transaksi yang sering diperlukan untuk mengkoordinasikan algoritma yang terdistribusi. Zookeeper dirancang untuk berjalan secara terdsitribusi melalui sejumlah mesin, dan juga menawarkan akses untuk membaca secara cepat dengan ganti akses menulis yang menjadi lebih lama karena server yang ada digunakan untuk menangani layanan (Warden, 2011). Kerangka Pikir Penelitian ini dilakukan dengan pendekatan System Development Life Cycle (SDLC). Tahapan-tahapan yang dicakup dalam pendekatan SDLC yakni sebagai berikut: 1. Perencanaan Sistem Pada tahap ini dilakukan pengumpulan informasi mengenai fakta-fakta mengenai sistem berjalan yang ada di BPS terutama terkait masalah penyimpanan dan pemrosesan data-data di BPS.
TAHUN 6, VOLUME 1, JUNI 2014
81
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
2. Analisis Sistem Pada tahap ini dilakukan analisis terhadap permasalahan yang ada pada sistem berjalan. Di samping itu, juga dilakukan analisis mengenai kebutuhan sistem. 3. Perancangan Pada tahap ini dilakukan perancangan terhadap penelitian yang ingin dilakukan terkait kepentingan uji coba performa teknologi Big Data. Beberapa hal yang dilakukan dalam bagian perancangan yaitu rancangan pengujian dan rancangan sistem. 4. Implementasi Pada tahap ini dilakukan penerapan arsitektur sistem usulan yang telah dirancang. Penerapan arsitektur sistem usulan mencakup implementasi perangkat keras dan perangkat lunak yang digunakan, serta proses instalasi teknologi Big Data dan RDBMS. Di samping itu, juga dilakukan implementasi rancangan basis data dan skenario rancangan pengujian yang telah disusun. 5. Evaluasi Pada tahap ini dilakukan uji coba untuk meninjau performa teknologi Big Data dan membandingkannya dengan teknologi RDBMS. Uji coba tersebut dilakukan berdasarkan skenario pengujian yang telah ditetapkan.
III. ANALISIS DAN SOLUSI Gambaran Sistem Berjalan Dalam menjalankan perannya sebagai instansi penyedia data, BPS telah mengumpulkan data dalam jumlah yang besar melalui sensus maupun survei. Jika ditinjau dari besarnya volume data, maka dapat disimpulkan bahwa series dari data hasil sensus relatif besar. Begitu juga halnya dengan data hasil survei yang telah dilaksanakan oleh BPS. Kegiatan pengumpulan data seperti sensus dan survei, menghasilkan raw data yang besar untuk diolah sedemikian rupa agar dapat menghasilkan publikasi yang bermanfaat. Sehubungan dengan hal tersebut, terdapat beberapa tahapan proses terkait aliran data di BPS, yang pada akhirnya menghasilkan publikasi-
82
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
publikasi baik cetak ataupun digital. Gambar 5.2 memperlihatkan business process alur data dari subject matter ke Direktorat Diseminasi Statistik.
Gambar 5.2. Gambaran Business Process Sistem Berjalan di BPS Analisis Permasalahan Gambar 5.3 memperlihatkan fishbone diagram yang menjelaskan permasalahan-permasalahan terkait sistem penyimpanan dan pemrosesan data di BPS.
Gambar 5.3. Diagram Fishbone Pemrosesan Data dengan Volume Besar di BPS yang Kurang Optimal
TAHUN 6, VOLUME 1, JUNI 2014
83
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Analisis Kebutuhan Data yang dikumpulkan oleh BPS semakin bertambah banyak dari waktu ke waktu. Oleh karena itu, BPS memerlukan sistem penyimpanan data yang dapat menampung data yang relatif besar tersebut. Kondisi ini berkaitan dengan definisi Big Data, yang dalam hal ini menunjukkan bahwa data yang ada di BPS termasuk ke dalam karateristik Big Data jika ditinjau dari segi volume. Berdasarkan hal tersebut, teknologi Big Data dianggap sesuai untuk menangani kebutuhan akan penyimpanan yang relatif besar tersebut. Hal ini juga tidak terlepas dari adanya kebutuhan performa yang baik dalam memproses data dengan volume besar. Salah satu hal penting yang diharapkan dari performa tersebut yaitu terkait kecepatan pemrosesan data yang besar. Di samping itu, BPS membutuhkan penerapan konsep Single Source of Truth (SSOT) pada data yang dikelola. Dalam hal ini, data disimpan sekali dan dapat diakses oleh berbagai bagian dalam perusahaan atau instansi yang bersangkutan sesuai dengan hak aksesnya. Hal ini terutama untuk mengatasi permasalahan yang muncul pada sistem yang menyimpan data di berbagai tempat dalam organisasi. Untuk BPS secara khusus, hal tersebut berkaitan dengan tugas BPS sebagai instansi penyedia data, yang dalam hal ini bertanggung jawab dalam hal penyajian data yang akurat dan relevan. Oleh karena itu, penerapan SSOT dari data yang disimpan dan dikelola oleh BPS menjadi salah satu isu yang penting. Solusi terhadap Permasalahan Jika ditinjau dari volume data yang ada di BPS secara keseluruhan, serta kecenderungan pertumbuhan data dari tahun ke tahun, maka diperlukan adanya alat untuk menangani ukuran data yang terus berkembang tersebut. Terdapat beberapa alternatif solusi untuk menangani kebutuhan BPS tersebut. Solusi tersebut
diantaranya
menggunakan
yaitu
RDBMS
melakukan
atau
mencari
optimisasi solusi
sistem berjalan
alternatif
lainnya
yang untuk
mengakomodasi kebutuhan BPS tersebut yaitu menggunakan teknologi Big Data. Pada RDBMS mempunyai skema tabel yang tetap (fixed), bersifat roworiented, dan mempunyai SQL query engine. Sehubungan dengan itu, untuk aplikasi-aplikasi
yang
mempunyai
karakteristik
small-to-medium-volume,
RDBMS masih baik untuk digunakan jika ditinjau dari segi kemudahannya,
84
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
fleksibilitasnya, kematangannya, dan fitur-fitur pendukungnya yang tersedia dengan implementasi yang bersifat open source, seperti MySQL dan PostgreSQL. Namun, ketika dihadapkan pada kebutuhan scaling-up data yang berukuran besar, pada concurrency dari proses baca dan tulis, performa RDBMS akan mencapai titik jenuh dan menjadi sulit atau bahkan tidak dapat diterapkan lagi. Hal tersebut karena ketika melakukan scaling pada RDBMS, biasanya akan ada beberapa kekurangan seperti pelanggaran terhadap aturan Codd (Codd’s 12 Rules), terjadi kelonggaran pada pembatasan-pembatasan ACID (atomicity, consistency, isolation, durability), pengabaian aturan DBA konvensional, bahkan kehilangan beberapa property yang dituntut dari RDBMS (White, 2009). Di samping itu, skema basis data dalam RDBMS bersifat ketat sehingga perubahan terhadap struktur data memiliki dampak yang cukup besar terhadap penyimpanan dan pemrosesan data. Berdasarkan penjelasan di atas, penelitian ini ingin menawarkan sebuah solusi alternatif untuk menangani pemrosesan Big Data, yaitu Hadoop. Hadoop hadir dengan implementasi framework MapReduce yang bersifat open source, dan disertai dengan dukungan sistem berkasnya yang dikenal sebagai Hadoop Distributed File System atau HDFS (Webster, 2012). Hadoop memiliki dua teknologi terkait yaitu HBase dan Pig. HBase merupakan basis data berorientasi kolom yang memiliki skema yang fleksibel dan bukan merupakan basis data SQL (NoSQL). HBase merupakan proyek yang terintegrasi dengan Hadoop dan dalam hal ini didesain sebagai kloning dari Google BigTable dan bersifat open source (Warden, 2011). Sementara Pig memberikan kemudahan dalam pemrograman karena didukung oleh high level languange yang dikenal dengan Pig Latin. Pig Latin memberikan optimisasi eksekusi secara otomatis dan memiliki extensibility yang cukup baik (http://pig.apache.org/). Tantangan utama dalam mengimplementasikan teknologi Big Data yaitu dalam hal tuning konfigurasi untuk mencapai kondisi yang optimal. Selain itu, masalah pemeliharaan (maintenance) komponen sistem yang ada juga menjadi hal yang krusial. Kedua proses tersebut membutuhkan waktu dan tenaga yang tidak sedikit meskipun biaya yang dikeluarkan dapat ditekan menjadi seminimal mungkin.
TAHUN 6, VOLUME 1, JUNI 2014
85
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Berdasarkan pertimbangan akan kelebihan dan kelemahan dari solusi RDBMS dan teknologi Big Data, penelitian ini menawarkan solusi bagi pemrosesan data yang besar dan keperluan akan adanya SSOT bagi data BPS dengan menggunakan teknologi Big Data. Solusi terkait teknologi Big Data tersebut dianggap jauh lebih murah dan cukup feasible untuk diterapkan. Solusi yang hendak ditawarkan yaitu dengan mengaplikasikan suatu arsitektur kombinasi teknologi Hadoop, HBase, dan Pig dalam penyimpanan dan pemrosesan data BPS. Kemudian penelitian ini akan melakukan uji coba sistem Big Data dan membandingkannya dengan RDBMS yang saat ini diterapkan di BPS.
IV. PERANCANGAN Rancangan Pengujian Dalam penelitian ini, pengujian terhadap pemrosesan data difokuskan pada retrieval data. Untuk itu, dilakukan pengujian performa teknologi Big Data, yaitu kombinasi Hadoop, HBase, dan Pig, dalam melakukan akses retrieval data, yang kemudian akan dibandingkan dengan performa retrieval data pada RDBMS. Skenario pengujian retrieval data akan menggunakan query, dengan jenis query sederhana dan query tidak sederhana (query dengan satu atau beberapa constraint kondisi). Sehubungan dengan pembandingan performa teknologi Big Data dan RDBMS, perbandingan performa akan dilihat dari sisi penyimpanan data dan kecepatan query data. Penelitian ini menggunakan kedua parameter tersebut untuk menangkap cara kerja serta kinerja teknologi Big Data dan RDBMS dalam hal menyimpan dan memproses data. Untuk penyimpanan data akan ditinjau dari sisi ukuran data yang disimpan dalam basis data dan untuk kecepatan query data akan ditinjau dari sisi waktu yang diperlukan oleh teknologi Big Data dan RDBMS dalam melakukan pemrosesan query sampai hasil query ditampilkan. Penelitian ini menggunakan mode komputer tunggal untuk teknologi Big Data dan RDBMS, serta mode klaster khusus untuk penerapan teknologi Big Data. Dalam mode komputer tunggal, dilakukan instalasi teknologi Big Data (Hadoop, HBase, dan Pig) serta RDBMS masing-masing pada dua komputer dengan spesifikasi perangkat keras yang sama. Pembandingan dengan mode
86
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
komputer tunggal ditujukan untuk menangkap perbandingan penerapan teknologi Big Data dan RDBMS dengan mempertimbangkan kondisi RDBMS sebagaimana (as is) yang ada di BPS. Khusus untuk teknologi Big Data, dilakukan pengembangan lebih lanjut menjadi mode klaster. Pengembangan dari mode komputer tunggal menjadi mode klaster bertujuan untuk
melihat perbedaan
kinerja teknologi Big Data dalam menyimpan dan memproses data untuk kedua lingkungan tersebut. Rancangan Arsitektur Sistem Usulan Arsitektur sistem yang diusulkan merupakan lingkungan klaster yang meliputi sistem berkas berupa HDFS, master sebagai node yang berperan dalam pembagian pekerjaan dan pengaturan region kepada slave, slave sebagai node yang berperan dalam mengelola dan memproses region, zookeeper sebagai layanan koordinasi antara master dan slave, client sebagai pihak yang mengakses data dalam HDFS, serta pemanfaatan platform yang melakukan komputasi MapReduce terhadap data yang tersimpan dalam HDFS. Gambar 5.4 memperlihatkan rancangan arsitektur sistem yang diusulkan.
Gambar 5.4. Rancangan Arsitektur Sistem Usulan
TAHUN 6, VOLUME 1, JUNI 2014
87
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
V. IMPLEMENTASI Implementasi Perangkat Keras dan Perangkat Lunak Seperti yang telah dipaparkan sebelumnya, perbandingan teknologi Big Data (Hadoop, HBase, dan Pig) dan RDBMS akan dilakukan dalam mode komputer tunggal, dan akan diterapkan mode klaster untuk teknologi Big Data (fully distributed). Mode komputer tunggal dilakukan dalam rangka memenuhi tujuan membandingkan teknologi Big Data dan RDBMS dalam melakukan pemrosesan data. Sementara itu, mode klaster untuk teknologi Big Data dilakukan dalam rangka membandingkan kinerja teknologi Big Data dalam mode klaster dan mode komputer tunggal. a. Perangkat Keras Kedua mode tersebut menggunakan spesifikasi perangkat keras yang sama. Hal ini bertujuan untuk menjamin aspek fairness dalam pembandingan yang dilakukan. Penelitian ini menggunakan lima unit PC (Personal Computer) dengan spesifikasi yang sama, yang terhubung dalam satu jaringan. Penjelasan terkait penggunaan lima unit PC tersebut yaitu sebagai berikut: 1. satu unit PC digunakan untuk instalasi teknologi Big Data dalam mode komputer tunggal 2. satu unit PC digunakan untuk instalasi RDBMS dalam mode komputer tunggal 3. dan tiga unit PC digunakan untuk menerapkan mode klaster (fully distributed) pada teknologi Big Data. Adapun spesifikasi perangkat keras yang digunakan yaitu PC dengan Processor Intel® Core™ i5 CPU, RAM 4 GB, dan Harddisk 500 GB. b. Perangkat Lunak Selain menggunakan perangkat keras dengan spesifikasi seperti yang telah disebutkan di atas, terdapat juga perangkat lunak yang digunakan dalam penelitian ini yaitu sebagai berikut: 1. Ubuntu 12.04 64-bit sebagai sistem operasi untuk penerapan teknologi Big Data. 2. Microsoft Windows 7 Enterprise 64-bit sebagai sistem operasi untuk RDBMS.
88
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
3. JDK (Java Development Kit) 1.7.0_21 sebagai development environment untuk implementasi Hadoop dan HBase. 4. Hadoop 1.0.4 dan HBase 0.94.8. 5. SSH (secure shell) untuk mengelola remote daemon dari HBase dan Hadoop. 6. Pig 0.10.0 sebagai platform untuk menjalankan mekanisme komputasi MapReduce. 7. Microsoft SQL Server 2008 R2 sebagai RDBMS. 8. yEd Graph Editor 3.10.2, Edraw Max 6.8.1 sebagai alat bantu pemodelan dan perancangan. 9. Mozilla Firefox 18.0.2 sebagai web browser untuk keperluan monitoring Hadoop dan HBase. Instalasi Teknologi Big Data dan RDBMS Untuk melakukan implementasi basis data dan rancangan pengujian, terlebih dahulu dilakukan instalasi teknologi Big Data dan RDBMS. Teknologi Big Data yang digunakan dalam penelitian ini merupakan kombinasi dari tiga teknologi yaitu Hadoop, HBase, dan Pig. Sedangkan untuk RDBMS, penelitian ini menggunakan Microsoft SQL Server 2008 R2. Implementasi Basis Data Untuk pengujian performa teknologi Big Data dan RDBMS dalam melakukan penyimpanan dan pemrosesan data, penelitian ini menggunakan data SP2010 sebagai studi kasus. Data SP2010 merupakan bagian dari data repository yang dikelola oleh Subdirektorat PTI (Pengelolaan Teknologi Informasi) BPS. Volume data BPS
yang sudah terekam
dalam
repository pada saat
dilaksanakannya penelitian ini yaitu sebesar 280 GB (dari tahun 1971-2012) untuk 334 koleksi data. Untuk data SP2010 yang akan digunakan dalam penelitian, tabel yang akan digunakan untuk uji coba yaitu tabel pop yang berisi data karakteristik sosial ekonomi penduduk Indonesia per individu. Struktur data yang digunakan telah disesuaikan dengan struktur data untuk tabel pop yang ada di BPS, dengan mengambil atribut-atribut yang menggambarkan karakteristik dasar dari penduduk Indonesia pada tahun 2010 yang menyangkut jumlah dan distribusi penduduk, famili, kelahiran, dan pendidikan.
TAHUN 6, VOLUME 1, JUNI 2014
89
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Implementasi Rancangan Pengujian Implementasi rancangan pengujian terdiri dari implementasi mode komputer tunggal untuk teknologi Big Data dan RDBMS, implementasi mode klaster khusus untuk teknologi Big Data, dan implementasi query terhadap data. Berikut ini merupakan penjelasan dari masing-masing mode implementasi serta query terhadap data. Implementasi Mode Komputer Tunggal (HBase dan RDBMS) Dalam mode komputer tunggal, digunakan dua unit PC, masing-masing untuk instalasi teknologi Big Data dan RDBMS. Untuk mode komputer tunggal pada teknologi Big Data dilakukan proses instalasi Hadoop, HBase, dan Pig. Begitu juga dengan RDBMS, dilakukan instalasi untuk mode komputer tunggal. Setelah proses instalasi untuk masing-masing komputer selesai dilakukan, dibuat tabel pop dalam HBase dan RDBMS dengan mengikuti skema tabel pop yang telah dirancang sebelumnya. Kemudian, data tabel pop dalam bentuk .csv diimpor secara bertahap ke dalam basis data HBase dan RDBMS. Implementasi Mode Klaster (HBase) Dalam mode klaster untuk teknologi Big Data, digunakan tiga unit PC yang terhubung dalam satu jaringan, dengan satu unit PC digunakan sebagai master dan dua unit PC lainnya digunakan sebagai slave. Untuk mode klaster tersebut, dilakukan beberapa pengubahan dan penambahan konfigurasi Hadoop dan HBase (pengembangan konfigurasi yang diterapkan pada mode komputer tunggal hingga menjadi mode klaster). Beberapa konfigurasi penting yang diterapkan dalam mode klaster yaitu nama file system (dalam hal ini menggunakan HDFS sebagai file system), penentuan tugas master dan slave, serta konfigurasi zookeeper. Kemudian dilakukan proses impor secara bertahap seperti yang diterapkan pada mode komputer tunggal. Implementasi Query terhadap Data Berkaitan dengan penilaian performa teknologi Big Data dan RDBMS dalam memroses data, penelitian ini menggunakan dua jenis query yaitu query sederhana dan query tidak sederhana untuk keperluan retrieval data. Jenis query sederhana adalah query yang menghasilkan tabulasi untuk atribut-atribut tertentu saja atau atribut turunan (menggunakan fungsi agregat) dan jenis query tidak
90
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
sederhana adalah perluasan query sederhana dengan menambahkan saringan kondisi.
VI. UJI COBA DAN EVALUASI Uji Coba Dalam ketiga mode uji coba yaitu mode komputer tunggal RDBMS, mode komputer tunggal teknologi Big Data, serta mode klaster teknologi Big Data, dilakukan tahap impor data sebanyak tiga kali. Untuk tahap impor pertama menggunakan satu berkas .csv sebagai data masukan. Sedangkan, untuk tahap impor kedua dan ketiga masing-masing menggunakan lima dan sepuluh berkas .csv sebagai data masukan. Pada setiap tahap impor, dilakukan pemrosesan data masukan dengan menggunakan jenis query sederhana dan query tidak sederhana. Untuk setiap jenis query dilakukan proses eksekusi sebanyak tiga kali dan waktu eksekusi query-nya didokumentasikan. Perbandingan Hasil Uji Coba Dari kegiatan uji coba yang telah dilakukan, penelitian ini ingin melihat bagaimana performa penyimpanan dan pemrosesan data pada teknologi Big Data dan RDBMS. Berdasarkan hal tersebut, dilakukan perbandingan hasil uji coba untuk pemrosesan data pada mode komputer tunggal RDBMS, mode komputer tunggal teknologi Big Data, dan mode klaster teknologi Big Data. Berikut ini ditampilkan perbandingan hasil uji coba dari sisi waktu eksekusi query untuk query sederhana dan query tidak sederhana pada masing-masing tahap impor berdasarkan mode pengujian (keterangan Gambar 5.5 sampai dengan Gambar 5.10: SA = mode komputer tunggal, C = mode klaster).
TAHUN 6, VOLUME 1, JUNI 2014
91
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
2500
Waktu Eksekusi (detik)
2000 1500 SA RDBMS SA Teknologi Big Data C Teknologi Big Data
1000 500 0 1
2
3
Eksekusi ke
Gambar 5.5. Waktu Eksekusi Jenis Query Sederhana Berdasarkan Mode Pengujian (Tahap Impor Data Pertama) 2500
Waktu Eksekusi (detik)
2000 1500 SA RDBMS 1000
SA Teknologi Big Data C Teknologi Big Data
500 0 1
2
3
Eksekusi ke
Gambar 5.6. Waktu Eksekusi Jenis Query Tdak Sederhana Berdasarkan Mode Pengujian (Tahap Impor Data Pertama) 12000
Waktu Eksekusi (detik)
10000 8000 SA RDBMS SA Teknologi Big Data C Teknologi Big Data
6000 4000 2000 0 1
2
3
Eksekusi ke
Gambar 5.7. Waktu Eksekusi Jenis Query Sederhana Berdasarkan Mode Pengujian (Tahap Impor Data Kedua)
92
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Waktu Eksekusi (detik)
14000 12000 10000 SA RDBMS
8000
SA Teknologi Big Data
6000
C Teknologi Big Data
4000 2000 0 1
2
3
Eksekusi ke
Gambar 5.8. Waktu Eksekusi Jenis Query Tidak Sederhana Berdasarkan Mode Pengujian (Tahap Impor Data Kedua)
16000
Waktu Eksekusi (detik)
14000 12000 10000 SA RDBMS SA Teknologi Big Data C Teknologi Big Data
8000 6000 4000 2000 0 1
2
3
Eksekusi ke
Gambar 5.9. Waktu Eksekusi Jenis Query Sederhana Berdasarkan Mode Pengujian (Tahap Impor Data Ketiga)
Waktu Eksekusi (detik)
25000 20000 15000 SA RDBMS 10000
SA Teknologi Big Data C Teknologi Big Data
5000 0 1
2
3
Eksekusi ke
Gambar 5.10. Waktu Eksekusi Jenis Query Tidak Sederhana Berdasarkan Mode Pengujian (Tahap Impor Data Ketiga) TAHUN 6, VOLUME 1, JUNI 2014
93
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Berdasarkan perbandingan hasil uji coba yang disajikan di atas, dapat dilihat bahwa performa pemrosesan data dalam mode komputer tunggal RDBMS yang ditinjau dari sisi waktu eksekusi query masih lebih unggul untuk ketiga tahap impor. Hal tersebut disebabkan oleh jumlah data yang menjadi masukan dalam basis data masih dalam lingkup kapasitas RDBMS untuk disimpan dan diproses. Selain itu, mekanisme query pada RDBMS memanfaatkan cache dan tidak mengandung waktu untuk proses overhead, seperti pada penerapan teknologi Big Data. Sementara itu, untuk penerapan teknologi Big Data dalam mode klaster terbukti lebih baik performanya dibandingkan dengan mode komputer tunggal. Hal ini disebabkan oleh jumlah komponen yang terlibat dalam komputasi pada mode klaster lebih banyak daripada mode komputer tunggal. Mode klaster lebih unggul karena penyimpanan datanya terdistribusi pada setiap datanode yang ada dalam klaster dan pekerjaan komputasi juga didistribusikan untuk setiap tasktracker yang terdaftar dalam klaster. Evaluasi Hal-hal yang dievaluasi terkait penerapan teknologi Big Data tersebut yaitu sebagai berikut: 1. Dari segi karakteristik Big Data (3V), data BPS hanya memenuhi salah satu karakteristik, yaitu karakteristik volume. Sedangkan, pemrosesan dengan menggunakan teknologi Big Data akan lebih baik jika ketiga karakteristik terpenuhi. 2. Sistem berkas terdistribusi (HDFS) pada teknologi Big Data telah mampu menjadi tempat penyimpanan data yang terintegrasi dan tetap menjamin kekonsistenan data yang tersimpan. 3. Performa teknologi Big Data dalam melakukan pemrosesan data BPS dipengaruhi oleh komponen yang terlibat. Berdasarkan hasil uji coba, dapat dilihat bahwa dengan menggunakan mode klaster, pemrosesan data menjadi lebih cepat daripada mode komputer tunggal. Hal ini mengindikasikan, semakin banyak node komputasi yang dilibatkan dalam pemrosesan, akan menyebabkan pemrosesan yang dilakukan semakin baik.
94
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
4. Dari hasil uji coba, jumlah map task (mapper) didasarkan pada jumlah region. Berdasarkan hasil uji coba yang diperoleh, mode klaster memiliki lebih banyak jumlah region dibandingkan dengan mode komputer tunggal. Dalam hal ini, semakin banyak jumlah map, waktu eksekusi query menjadi lebih cepat. Hal tersebut mengindikasikan bahwa load balancing akan tercapai ketika melibatkan sejumlah datanode yang bekerja bersama. 5. Waktu pemrosesan data dengan mekanisme MapReduce relatif lama karena adanya waktu untuk proses overhead. Waktu overhead tersebut adalah waktu untuk mempersiapkan lingkungan eksekusi sampai kepada penugasan task kepada setiap tasktracker (proses scheduling). 6. Paramater konfigurasi yang digunakan dalam penelitian ini merupakan parameter konfigurasi yang bersifat default. Penelitian ini belum melakukan tuning parameter konfigurasi dengan tujuan menyamakan kondisi dengan RDBMS yang dibandingkan (yang juga tidak dilakukan proses tuning). Untuk mencapai performa MapReduce yang optimal, sebaiknya dilakukan tuning terhadap parameter konfigurasi yang digunakan dan disesuaikan dengan kebutuhan. 7. Query yang digunakan dalam uji coba belum melewati tahap optimisasi, sehingga belum dapat disimpulkan hal terkait keoptimalan query untuk diproses oleh teknologi Big Data. Dalam penelitian ini, query yang digunakan dalam uji coba ditujukan dengan fokus hanya untuk meninjau performa pemrosesan data oleh teknologi Big Data, tanpa melihat optimal atau tidaknya query tersebut.
VII. KESIMPULAN DAN SARAN Kesimpulan Berdasarkan penelitian yang telah dilakukan terkait penyimpanan dan pemrosesan
data
membandingkannya
dengan
memanfaatkan
dengan
teknologi
teknologi
RDBMS,
dapat
Big
Data
ditarik
serta
beberapa
kesimpulan yaitu sebagai berikut:
TAHUN 6, VOLUME 1, JUNI 2014
95
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
1. Pertumbuhan data di BPS dari tahun ke tahun menyebabkan ukuran data menjadi lebih besar dari sisi size, sehingga dibutuhkan adanya tempat penyimpanan yang memadai. 2. Penerapan teknologi Big Data dengan memanfaatkan Hadoop, HBase, dan Pig merupakan alternatif solusi yang murah dan cukup baik untuk permasalahan penyimpanan dan pemrosesan data BPS dengan kuantitas yang besar. 3. HDFS mampu menjadi alternatif pilihan tempat penyimpanan data yang baik dan bersifat SSOT (Single Source of Truth) untuk data BPS melalui fungsi replikasi
secara otomatis
yang ditawarkan
dengan tetap menjamin
kekonsistenan data. 4. Jika ukuran data masih memenuhi kapasitas penyimpanan RDBMS, teknologi RDBMS masih menjadi teknologi yang cukup handal dari segi pemrosesan data, meskipun performa RDBMS menurun seiring dengan berkembangnya jumlah data yang disimpan dalam basis data. 5. Teknologi Big Data yang dimanfaatkan dalam penelitian ini dapat menjadi alternatif solusi yang baik ketika data yang ada di BPS telah berkembang melebihi kapasitas sistem RDBMS, atau telah berkembang hingga memiliki struktur data yang beragam, maupun membutuhkan akses streaming terhadap data yang berkembang tersebut. 6. Dalam penerapan teknologi Big Data dengan melibatkan sejumlah node (mode klaster) untuk penyimpanan dan komputasi data terdistribusi, terbukti menghasilkan performa yang lebih baik daripada hanya melibatkan satu node saja (mode komputer tunggal). Saran Berkaitan dengan hasil penelitian yang diperoleh, beberapa saran untuk pengembangan penelitian dan penerapan teknologi Big Data ke depannya di BPS yaitu sebagai berikut: 1. Untuk saat ini, penerapan RDBMS di BPS masih dapat dilakukan, karena data yang ada di BPS masih dalam lingkup kapasitas RDBMS. Namun, untuk ke depannya BPS perlu mempersiapkan strategi-strategi untuk menghadapi tantangan terkait penyimpanan dan pemrosesan data-data yang ada, terutama ketika volume datanya telah berkembang melebihi kapasitas penyimpanan
96
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
RDBMS yang diterapkan saat ini, atau ketika volume datanya masih dalam lingkup kapasitas penyimpanan RDBMS namun kinerja pemrosesannya menurun sehingga perlu untuk diatasi melalui mekanisme lain. Untuk kondisi tersebut, teknologi Big Data dapat menjadi salah satu solusi alternatif yang murah dan bermanfaat. 2. Terdapat kemungkinan untuk mengkombinasikan RDBMS dan teknologi Big Data dalam hal penyimpanan dan pemrosesan data. Teknologi Big Data dapat berperan menjadi alat dalam memasukkan raw data ke dalam tempat penyimpanan, sementara RDBMS dapat menjadi alat yang handal dalam memproses bagian dari data bervolume besar tersebut yang berada dalam lingkup kapasitasnya. 3. Agar penerapan teknologi Big Data dengan memanfaatkan Hadoop dan HBase dapat berjalan dengan optimal, maka diperlukan proses tuning parameter konfigurasi dan pemeliharaan (maintenance) yang baik untuk setiap komponen yang terlibat khususnya untuk node yang berperan sebagai namenode dan HMaster. 4. Dalam menerapkan teknologi Big Data, spesifikasi perangkat keras yang digunakan sebaiknya memiliki processor dengan inti yang lebih dari satu, RAM yang memadai dan sesuai dengan kebutuhan pengolahan data, serta memiliki kapasitas harddisk yang cukup besar dengan pertimbangan replikasi data yang ditentukan. 5. Untuk penelitian selanjutnya, dapat dikaji teknologi lain terkait Big Data dalam melakukan pemrosesan data BPS atau data-data lain yang terkait, atau dengan memperbesar ukuran data, menambah variasi data yang akan dipakai dalam penelitian, serta mengkaji parameter-parameter komputasi terkait MapReduce dan/atau pemanfaatan NoSQL dari HBase.
DAFTAR PUSTAKA Badan Pusat Statistik. (2010). Pedoman Monitoring Kualitas Sensus Penduduk 2010. Jakarta: Badan Pusat Statistik. Burkhow, Joshua. (13 Agustus 2011). Data and the “Single Source of Truth”. http://www.dataenthusiast.com/2011/08/data-single-source-truth/ (diakses 20 Maret 2013 pukul 02:22 WIB).
TAHUN 6, VOLUME 1, JUNI 2014
97
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Chang, F., Dean, J., Ghemawat, S., Hsieh, W. C., Wallach, D. A., Burrows, M., Chandra, T., Fikes, A. & Gruber, R. E. (2008). Bigtable: A Distributed Storage System for Structured Data, ACM Transactions on Computer Systems (TOCS), 26(2), 4. Dean, J., & Ghemawat, S. (2008). MapReduce: Simplified Data Processing on Large Clusters, Communications of the ACM, 51(1), 107-113. Dumbill, Edd. (11 Januari 2012). What is Big Data? An Introduction to the Big Data Landscape. http://strata.oreilly.com/2012/01/what-is-big-data.html (diakses 10 Juli 2013 pukul 14:31 WIB). Elmasri, R. & Navathe S. B. (2011). Fundamental of Database Systems. USA: Addison-Wesley. Gantz, J. & Reinsel, D. (Desember 2012). The Digital Universe in 2020: Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East. International Data Corporation, EMC Corporation. George, Lars. (2011). HBase: The Definitive Guide. USA: O’Reilly Media, Inc. Holmes, Alex. (2012). Hadoop in Practice. New York: Manning Publications Co. http://technet.microsoft.com/en-us/library/ms143432.aspx (diakses 2 September 2013 pukul 09:16 WIB). http://technet.microsoft.com/en-us/library/bb500395(v=sql.105).aspx (diakses 20 Agustus 2013 pukul 11:31 WIB). http://pig.apache.org/ (diakses 2 September 2013 pukul 09:25 WIB). Hurwitz, J., Nugent, A., Halper, F., & Kaufman, M. (2013). Big Data for Dummies. USA: John Weley and Sons, Inc. Khetrapal, A., & Ganesh, V. (2006). HBase and Hypertable for Large Scale Distributed Storage Systems. Dept. of Computer Science, Purdue University. Kusnetzky, Dan. (2012). MapR Technologies M7 Making Big Data Work for Everyone. Kuznetsky Group, hal. 1. Olston, C., Reed, B., Srivastava, U., Kumar, R., & Tomkins, A. (Juni 2008). Pig Latin: a Not-So-Foreign Language for Data Processing, In Proceedings of the 2008 ACM SIGMOD International Conference on Management of Data, 1099-1110. Sekolah Tinggi Ilmu Statistik. (2010). Pedoman Penyusunan Skripsi Jurusan Komputasi Statistik Sekolah Tinggi Ilmu Statistik Edisi Keempat. Jakarta: Sekolah Tinggi Ilmu Statistik. Titianingrum. (2011). Perancangan dan Implementasi Komputasi Paralel pada Proses Tabulasi Data (Studi Kasus Data Sensus Penduduk 2010) [Skripsi]. Jakarta: Sekolah Tinggi Ilmu Statistik. Vaishnavi, V. K., & Kuechler, W. (2008). Design Science Research Methods and Patterns: Innovating Information and Communication Technology. Boca Raton: Auerbach Publications.
98
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Venner, Jason. (2009). Pro Hadoop. USA: Apress. Warden, Pete. (2011). Big Data Glossary. USA: O’Reilly Media, Inc. Webster, John. (Oktober 2012). Evaluating Hadoop in the Data Center: What Will Make Hadoop An Enterprise Data Center-Grade Analytics Platform?. Technology Insight Paper, Evaluator Group. White, Tom. (2009). Hadoop: The Definitive Guide. USA: O’Reilly Media, Inc. Zikopoulos, P. C., Eaton, C., Deroos, D., Deutsch, T., & Lapis, G. (2012). Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. USA: McGraw-Hill.
TAHUN 6, VOLUME 1, JUNI 2014
99
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
KOMPUTASI PARALEL UNTUK PROSES TABULASI DATA BERBASIS ARSITEKTUR SHARED MEMORY (STUDI DATA SENSUS PENDUDUK 2010)
Thio Lutfi Habibi dan Imam Machdi
Abstract
Nowadays, the growth of information in huge amount needs improved performance of the processing in terms of time. Tabulation is a process that relates to arranging data, facts, information, statistics, etc. in orderly form of rows and column. For presenting the demographic information as a result of Population Census 2010, Badan Pusat Statistik (BPS) – Statistics Indonesia tabulate a total of 237.641.326 records of individual data. Even though the tabulation process of Population Census 2010 was utilizing multicore processors, the processing time takes considerably long time. This study aims to reduce processing time of Population Census Tabulation by designing parallel computing technique based on shared memory architecture on multicore processors. By implementing the concepts in this study, the experiment shows significant performance improvement in reduction of processing times.
Keywords: multicore processor, parallel, shared memory, tabulation
I. PENDAHULUAN Sensus Penduduk 2010 (SP2010) merupakan kegiatan besar yang dilakukan oleh Badan Pusat Statistik (BPS) setiap 10 tahun yang bertujuan untuk mendapatkan informasi kependudukan Indonesia. Hasil kegiatan SP2010 disajikan dalam bentuk tabel dari data yang telah dikelompokan berdasarkan kategori tertentu yang kemudian dipublikasikan dalam bentuk media cetak ataupun elektronik. Untuk memberikan kualitas data yang baik, informasi hasil SP2010 harus diterbitkan tepat waktu. Oleh karena jumlah data yang diolah sangat
100
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
besar maka diperlukan strategi pengolahan khusus untuk menyelesaikan proses tabulasi. Untuk menghasilkan informasi kependudukan dari data SP2010, BPS mengolah 237.641.326 data individu yang dikelompokkan berdasarkan kategori tertentu. Untuk memproses data tersebut BPS didukung dengan multi computer dengan basis data terpusat dan setiap komputer yang terhubung dilengkapi oleh multicore processor untuk melakukan perhitungan secara cepat. Proses tabulasi dilakukan dengan membagi data menjadi 33 region untuk diolah di setiap komputer, kemudian hasil parsial dari masing-masing komputer akan disatukan secara manual. Walaupun telah didukung oleh sumber daya TI yang mencukupi, metode pengolahan data belum berjalan secara cepat, sehingga waktu yang diperlukan untuk memproses tabulasi memerlukan waktu yang lama. Penerapan konsep paralel dalam lingkungan komputer yang sedang digunakan saat ini menjadi salah satu solusi untuk mengurangi waktu yang diperlukan dalam melaksanakan tabulasi. Dalam penelitian (Rabenseifner, Hager, & Jost, 2009) dibahas mengenai arsitektur yang digunakan dalam penerapan konsep paralel, yaitu salah satunya dengan memanfaatkan multicore processor dengan konsep multithread sebagai media untuk menerapkan paralel. Dengan diterapkannya konsep tersebut, setiap core yang dimiliki processor dianggap sebagai sebuah unit kerja untuk memproses task secara simultan. Konsep paralel shared memory yang dibahas pada (Lewis & El-Riwini, 1992) merupakan metode paralel yang memanfaatkan thread sebagai media untuk memproses task di setiap core pada processor. Pada penelitian ini konsep paralel akan diterapkan pada strategi pengambilan data di basis data. Berdasarkan penelitian (Huber & Freytag, 2009), permasalahan klasik dalam penerapan konsep paralel pada penelitian ini adalah cara menemukan peluang untuk dilakukannya proses secara paralel pada query optimization. Sehingga penerapan konsep paralel tidak hanya terbatas pada arsitektur yang digunakan untuk implementasi, namun pada permasalahan algoritma pengeksekusian dan cara membagi proses utama menjadi sub proses yang dapat dieksekusi secara simultan. Penelitian ini membahas tentang algoritma pengeksekusian tabulasi secara paralel yang akan diimplementasikan pada multicore processor dengan
TAHUN 6, VOLUME 1, JUNI 2014
101
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
menggunakan konsep shared memory. Tujuan utama dari penelitian ini untuk merancang penguraian masalah dan menyusun algoritma yang efisien untuk melakukan tabulasi agar proses tabulasi dapat dipercepat. Kontribusi utama dari penelitian ini adalah sebagai berikut: 1. Pemanfaatan arsitektur shared memory untuk proses tabulasi data. 2. Menguraikan proses untuk mendapatkan sub proses yang independen dengan menganalisis query execution plan relational algebra. 3. Melakukan percobaan untuk menguji efektifitas dari algoritma paralel yang diajukan. Selanjutnya, pada bagian 2 akan dibahas tentang penelitian yang terkait dengan pengeksekusian basis data secara paralel. Metode yang diajukan akan dibahas pada bagian 3. Untuk hasil uji coba yang dilakukan akan dibahas di bagian 4. Terakhir, kesimpulan akan dibahas pada bagian 5.
II. PENELITIAN TERKAIT Beberapa penelitian paralel pada multicore systems (Huber & Freytag, 2009) dan (Pahlevi, 2008) serta penjelasan (Culler et al, 1998) mengacu pada kerangka pikir sebagai berikut: 1. Penguraian masalah komputasi menjadi task. 2. Pengalokasian task ke dalam proses. 3. Orchestration dari akses data, komunikasi dan sinkronisasi. 4. Mapping proses ke dalam processor. Penelitian sebelumnya mengenai tabulasi paralel dilakukan oleh (Titianingrum, 2012), pada penelitian ini proses paralel dilakukan dengan memanfaatkan multicomputer dengan pendekatan pemecahan data kepada sejumlah node yang digunakan dalam lingkungan computer yang ada. Komunikasi antar komputer untuk koordinasi dilakukan dengan memanfaat Message Passing Interface (MPI) untuk melakukan proses tabulasi secara paralel agar proses disetiap komputer dilakukan secara simultan. Dijelaskan di dalam penelitian oleh (DeWitt & Gray, 1992) proses optimisasi pada basis data paralel tidak cukup dilakukan dengan berdasarkan disk access cost. Beberapa aspek seperti komputasi dan komunikasi juga
102
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
dipertimbangkan dalam proses penerapan eksekusi query secara paralel. (Hasan, 1995) mempertegas hal tersebut dengan penelitian yang dilakukannya mengenai proses penjadwalan paralel yang digambarkan dalam bentuk tree dengan node dan edge yang merepresentasikan bobot dari komputasi dan komunikasi untuk mendapatkan alternatif rencana eksekusi query. Dalam penelitian ini proses paralel akan dilakukan dengan pendekatan task parallelism. Pada pendekatan ini proses utama akan dipecah menjadi beberapa sub proses yang dapat dieksekusi secara independen. (Silva & Buyya, 1999) menjelaskan tentang tingkat dari paralel berdasarkan grain size dari code yang menjadi kandidat untuk dilakukannya paralel, penguraian dengan independensi yang tinggi memungkinkan untuk dilakukannya alokasi langsung untuk setiap core processor. Berikutnya pada penelitian (Hong, 1992) dan (Ioannidis, 1996) dibahas tentang pemanfaatan analisis dari penjadwalan spanning tree dan bushy tree plan untuk dilakukannya optimisasi proses eksekusi agar didapatkan algoritma yang efisien. Konsep tersebut dimanfaatkan untuk proses penguraian proses utama menjadi sub proses dengan fine granularity agar setiap sub proses dapat dialokasikan langsung kepada core processor sehingga nilai guna dari multicore processor dapat dimaksimalkan. Untuk pengeksekusian query secara paralel terdiri dari 3 aspek yang dijelaskan oleh (Graefe, 1993) Aspek pertama adalah inter query parallelism, menjelaskan jumlah query yang dapat dieksekusi secara simultan. Aspek kedua adalah inter operator parallelism, menjelaskan jumlah operator yang dapat dieksekusi secara paralel. Aspek terakhir tentang intra operator parallelism, yang mengindikasikan operasi yang dapat dibentuk menjadi eksekusi paralel.
III. METODE YANG DIUSULKAN Rancangan Eksekusi Query Secara garis besar tabulasi pada SP2010 memiliki bentuk yang digambarkan pada Tabel 6.1. Pengelompokan data yang didasarkan pada tiga kategori utama: Perkotaan, Pedesaan, dan Nasional.
TAHUN 6, VOLUME 1, JUNI 2014
103
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Tabel 6.1. Tabulasi Sensus Penduduk 2010 Provinsi (prov)
#L (C1 k )
Perkotaan #Pr #Total (C2) (C3)
#Lk (C4)
Pedesaan #Pr #Tot (C5) (C6) al
#Lk (C7)
Nasional #Pr #Tota (C8 (C9) l )
Setiap kategori mendeskripsikan jumlah laki-laki, perempuan, dan jumlah laki-laki dan perempuan. Dengan menggunakan relational algebra, tabulasi dideskripsikan sebagai berikut: Tabulation( id#, ρR(C1)idℑcountsex(σsex=1
Λ
region=1),ρR(C2)idℑcountsex(σsex=2
Λ
region=1),
ρR(C3)=C1+C2,ρR(C3)idℑcountsex(σsex=1 ρR(C5)idℑcountsex(σsex=2
Λ region=2),
Λ region=2),ρR(C6)=C4+C5,ρR(C7)=C1+C4,
ρR(C8)=C2+C5, ρR(C9)=C7+C8 ) Query yang diproses akan dilakukan query decomposition dan query optimization. Pada tahap ini query akan diurai menjadi proses yang atomic yang kemudian akan disusun ulang dengan strategi tertentu yang akan meminimumkan waktu eksekusi. Secara garis besar strategi penyusunan ulang yang akan diaplikasikan jika direpresentasikan dalam bentuk diagram pohon akan membentuk spanning tree dan bushy tree (Ioannidis, 1996). Pada penelitian ini strategi eksekusi bushy tree akan dimanfaatkan sebagai kerangka eksekusi paralel. Rencana eksekusi bushy tree memiliki struktur seperti balance tree, hal ini akan membuat eksekusi query akan diperluas ditandai dengan jumlah parent node yang lebih banyak. Dengan demikian setiap sub proses eksekusi yang independen dapat dikelompokan pada leaves node sehingga akan memunculkan peluang untuk dilakukannya eksekusi secara paralel dan proses sinkronisasi antar node dapat dikurangi ataupun dihindari untuk memberikan performa terbaik.
104
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Gambar 6.3. Bushy Tree Query Execution Plan Gambar 6.3 merupakan strategi eksekusi bushy tree untuk proses tabulasi SP2010 yang didalamnya memiliki 4 tahap proses eksekusi. Tahap pertama merupakan proses penguraian query utama untuk mendapatkan subquery sebagai sub proses. Tahap kedua merupakan proses left join untuk setiap subquery dari tahap satu dengan kolom prov untuk mendapatkan hasil parsial yang merupakan kolom utama di dalam tabel tabulasi. Tahap ketiga merupakan proses equijoin untuk menggabungkan hasil dari tahap dua menjadi kategori utama. Tahap terakhir merupakan penggabungan untuk mendapatkan tabel tabulasi dan melakukan penjumlahan untuk mendapatkan kolom yang merupakan total dari kategori yang disajikan dalam tabulasi. Pada tahap satu query diurai menjadi empat subquery yang merupakan kolom utama dari tabulasi dengan kriteria tertentu pada kolom jenis kelamin dan region dari tabel data mentah. Proses ini merupakan partisi horizontal secara logic dan didapatkan subquery sebagai berikut: Sub query M1: C1 ←
idℑcountsex(σsex = 1 Λ region = 1).
Sub query M2: C2 ←
idℑcountsex(σsex = 2 Λ region = 1).
Sub query M3: C4 ←
idℑcountsex(σsex = 1 Λ region = 2).
TAHUN 6, VOLUME 1, JUNI 2014
105
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Sub query M4: C5 ←
idℑcountsex(σsex = 2 Λ region = 2).
Kemudian pada tahap kedua akan dilakukan left join antara hasil dari subquery Mi sebelumnya dengan kolom prov. Hal ini dilakukan dilakukan karena dimungkinkan adanya tuple yang null dan tuple tersebut akan diikutkan dalam hasil Ni yang diekspresikan sebagai Ni ← Πall_attribute(prov ⟕prov.id=Mi.id Mi). Proses equijoin untuk mendapatkan kategori utama dilakukan pada tahap tiga yang diekspresikan pada Pi ← Πall_attribute(N2i-1 ⋈N2i-1.id=N2i.id N2i). Hasil akhir R yang merupakan tabel tabulasi didapatkan pada tahap 4 dengan menggabungkan hasil Pi dengan equijoin proses dan diekspresikan dalam bentuk R ← Πall_attribute(P2i-1 ⋈N2i-1.id=N2i.id P2i). Implementasi Paralel pada Multicore Processor
Gambar 6.4. Rancangan Eksekusi yang Telah Direstruktur Untuk memanfaatkan multicore system setiap subquery akan dialokasikan terhadap core processor. Pada penelitian ini proses eksekusi query secara paralel dapat dilakukan pada aspek query dan operator (Graefe, 1993). Untuk intra query parallelism dilakukan eksekusi subquery yang didapatkan pada proses penguraian
106
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
yang dijelaskan pada poin III.A secara paralel. Kemudian intra operator parallelism akan dimanfaatkan pada proses left join yang terjadi di tahap 2 pada Gambar 6.1. Proses sinkronisasi terjadi pada tahap 4 untuk penggabungan hasil parsial menjadi hasil akhir R. Untuk melakukan eksekusi secara paralel, rancangan eksekusi bushy tree akan direstrukur seperti yang digambarkan pada Gambar 6.2. Proses eksekusi pada rancangan ini dibagi dalam dua tahap: (i) intra query parallelism pada eksekusi subquery dan (ii) perhitungan fungsi penjumlahan. Kedua tahap dieksekusi secara paralel dengan memanfaatkan thread untuk setiap core processor. Pada tahap pertama setiap thread akan mengeksekusi sebuah subquery Mi dan melakukan local join dengan kolom prov untuk menghasilkan Ni. Proses join secara paralel dilakukan dengan cara fragment and replicate join (Hasan, 1995), yaitu dengan membagi tuple dari Mi kepada thread dan dilakukannya join dengan setiap kolom prov yang telah diduplikasi untuk setiap thread untuk sinkronisasi hasil dari Ni. Kemudian hasil Ni akan dimasukkan kedalam tabel sementara tabulation buffer. Pada tahap kedua, setiap thread akan membaca tabulation buffer dan melakukan perhitungan penjumlahan untuk mengisi kolom C3, C6, C7, C8, dan C9. Setiap thread akan mengeksekusi perintah yang sama namun dengan data yang berbeda. Data dipartisi secara horizontal dengan jumlah data yang hampir seimbang untuk masing-masing thread dan tidak ada proses sinkronisasi dilakukan pada tahap ini. Secara garis besar bushy tree query plan yang telah direstruktur akan dideskripsikan sebagai algoritma berikut: //Stage one //sub_key_join as key join in subquery result In parallel do Subquery(M1) Subquery(M2) Subquery(M3) Subquery(M4) End do Select key_join key_join as shared variable While key_join != null do In parallel do
TAHUN 6, VOLUME 1, JUNI 2014
107
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
Sync(key_join == sub_key_join) do Tabulation_buffer[i*9+0] = value_M1 Tabulation_buffer[i*9+1] = value_M2 Tabulation_buffer[i*9+3] = value_M3 Tabulation_buffer[i*9+4] = value_M4 End do End do End while //Stage two, result[] as tabulation buffer In parallel do For i = 0 to num_records/num_threads do result[i*9+2] = result[i*9+0]+result[i*9+1] result[i*9+5] = result[i*9+3]+result[i*9+4] result[i*9+6] = result[i*9+0]+result[i*9+3] result[i*9+7] = result[i*9+1]+result[i*9+4] result[i*9+8] = result[i*9+6]+result[i*9+7] End for End do
Fungsi waktu eksekusi dari algoritma paralel pada rancangan ini diekspresikan sebagai berikut:
Tthreading Tstage1 Tstage2 TSQL _ aggregate T fragment_ replicate_ join T parallel_ sum
M log N M p tc
M p tc
M log N 2M p tc p tc
p adalah jumlah thread yang digunakan, N adalah jumlah baris dari tabel SP2010 yaitu sebesar 237.641.326 baris. M untuk tabel master prov sebanyak 33 baris, dan tc adalah computational rate. Dari persamaan diatas maka disimpulkan waktu eksekusi dari shared memory parallel bergantung pada kompleksitas dari SQL M log N dengan N sebagai p
aggregation function yang dideskripsikan dengan O
faktor yang dominan dalam mempengaruhi waktu eksekusi.
IV. UJI COBA DAN EVALUASI Pada bagian ini akan dilakukan evaluasi performa dari rancangan eksekusi paralel yang telah diuraikan pada bagian III. Uji coba dilakukan menggunakan 10 komputer yang identik dengan processor 4 core dan terpasang basis data di setiap komputer tanpa mengimplementasikan indexing di kolom tertentu. Tabulasi yang digunakan dalam percobaan ini yaitu Jumlah Penduduk Berdasarkan Provinsi, 108
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Jenis Kelamin, Perkotaan dan Pedesaan. Data yang digunakan adalah data dummy yang memiliki karakteristik yang sama dengan data aslinya dengan rincian seperti yang diuraikan dalam Tabel 6.2. Tabel 6.2. Jumlah Data dan Besarnya (Gigabyte) No. Nama Tabel Jumlah Data Size (GB) 1 sp2010 237,641,326 20.1 2 sp2010-2 118,820,663 10.1 3 sp2010-3 79,213,775 6.7 4 sp2010-4 59,410,332 5.0 5 sp2010-5 47,528,265 4.0 6 sp2010-6 39,606,888 3.4 7 sp2010-7 33,948,761 2.9 8 sp2010-8 29,705,166 2.5 9 sp2010-9 26,404,592 2.2 10 sp2010-10 23,764,133 2.0 Pengukuran waktu eksekusi dilakukan dengan memanfaat API. Fungsi yang digunakan adalah omp_get_time() didapatkan dari API OpenMP yang digunakan untuk mendapatkan waktu eksekusi thread. Mekanisme perhitungan yang digunakan yaitu dengan mengukur waktu eksekusi di setiap tahap, yaitu proses parallel subquery, proses fragment and replicate join, proses penjumlahan secara paralel, serta waktu keseluruhan untuk melakukan tabulasi. Tabel 6.3. Waktu Eksekusi SQL Secara Sekuensial (Detik) No. Nama Tabel Waktu Eksekusi (detik) 1 sp2010 1,118.51 2 sp2010-2 637.56 3 sp2010-3 419.58 4 sp2010-4 321.25 5 sp2010-5 289.45 6 sp2010-6 242.02 7 sp2010-7 190.21 8 sp2010-8 163.16 9 sp2010-9 143.24 10 sp2010-10 128.06 Tabel 6.3 merupakan data waktu eksekusi dengan menggunakan SQL query untuk melakukan tabulasi. Untuk memproses data penduduk seluruh Indonesia dibutuhkan waktu sebesar 1.118,51 detik. Sedangkan untuk data sejumlah 118.820.663 pada tabel SP2010-2 memerlukan waktu 637,56 detik dan
TAHUN 6, VOLUME 1, JUNI 2014
109
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
untuk tabel SP2010-10 memerlukan waktu 128,06 detik. Data waktu ini akan dijadikan acuan untuk perhitungan kecepatan dan pembanding untuk eksekusi secara paralel. Tabel 6.4. Waktu Eksekusi Shared Memory Parallel (Detik) Jumlah Core Waktu Eksekusi Kecepatan Efisiensi (%) 2 542.0486 2.0635 103.17 (detik) 3 539.1561 2.0746 69.15 4 269.3085 4.1533 103.83
Gambar 6.5. Kecepatan Shared Memory Parallelism Dari Tabel 6.4 dapat dilihat kecepatan yang dihasilkan oleh shared memory parallel sama dengan jumlah thread yang digunakan. Penggunaan dua thread menurunkan waktu eksekusi menjadi 542,0486 detik atau mengalami kecepatan sebanyak 2,06. Pada penggunaan tiga thread terdapat anomali yaitu kecepatan yang dihasilkan hampir sama dengan penggunaan dua thread yaitu 2.07 dengan waktu eksekusi sebesar 539,1561 detik. Anomali disebabkan oleh adanya alokasi thread yang mengeksekusi lebih dari satu sub proses sedangkan yang lainnya hanya satu sub proses, oleh sebab itu penjadwalan pada tiga thread akan sama dengan penjadwalan dua thread. Untuk penggunaan empat thread memberikan kecepatan sebesar 4,15 detik dengan waktu eksekusi 269,3085 detik.
110
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Gambar 3.6. Kecepatan Paralel terhadap Jumlah Data dengan 4 Core Gambar 6.6 merupakan data kecepatan dengan menggunakan empat thread yang diuji coba dengan jumlah data yang berubah yang diuraikan pada Tabel 6.2. Dari grafik dapat dilihat kecepatan yang dihasilkan mendekati konstan untuk setiap jumlah data yang dieksekusi yaitu sekitar 4,00. Hal ini menggambarkan kecepatan yang dihasilkan oleh paralel shared memory cukup robust terhadap jumlah data.
V. KESIMPULAN DAN SARAN Berdasarkan hasil percobaan, shared memory parallelism memberikan kecepatan dengan memanfaatkan arsitektur multicore processor dengan pendekatan task decomposition. Proses penguraian bushy tree query plan menghasilkan sub proses yang independen sehingga sub proses dapat langsung dialokasikan terhadap thread dan proses sinkronisasi dapat diminimalkan. Kecepatan yang dihasilkan oleh model paralel shared memory menunjukkan potensi paralel yang diimplementasikan pada kasus tabulasi dapat dikembangkan lebih lanjut. Penelitian selanjutnya dapat ditekankan pada pemanfaatan penggabungan arsitektur multicomputer dan multicore sehingga kecepatan yang diberikan dapat melingkupi aspek proses dan jumlah data yang diproses yang nantinya akan memberikan pengaruh kecepatan yang lebih baik. Perancangan ini diharapkan dapat memberikan perubahan pada strategi pemrosesan data terutama
TAHUN 6, VOLUME 1, JUNI 2014
111
JURNAL APLIKASI STATISTIK & KOMPUTASI STATISTIK
dalam kasus tabulasi, sehingga waktu yang diperlukan untuk memproses data dapat lebih singkat dengan memaksimalkan potensi sumber daya yang tersedia.
DAFTAR PUSTAKA Acker, R., Roth, C., & Bayer, R. (2008). Parallel Query Processing on Multicore Architecture. Berger, E. D., Yang, T., Liu, T., & Novark, G. (2009). Grace: Safe Multithreaded Programming for C/C++. Chaudhuri, S., & Shim, K. (1994). Including Group By in Query Optimization. Connolly, T., & Begg, C. (2005). Database System, A Practical Approach to Design, Implementation and Management. England: Pearson Education Limited. Culler, D., Singh, J., & Gupta, A. (1998). Parallel Computer Architecture: A Hardware/Software Approach. San Francisco: Morgan Kaufmann. DeWitt, D. J., & Gray, J. (1992). Parallel Database Systems: The Future of High Performance Database Processing. Graefe, G. (1993). Query Evaluation Techniques for Large Databases. Hasan, W. (1995). Optimization of SQL Queries for Parallel Machines. California: Stanford University. Hassan, M. A., & Bamha, M. (2008). Parallel Processing of ”Group-By Join” Queries on Shared Nothing Machines. Hong, W. (1992). Parallel Query Processing Using Shared Memory Multiprocessors and Disk Arrays. Berkeley: University of California. Huber, F., & Freytag, J.-C. (2009). Query Processing on Multi-Core Architectures. Ioannidis, Y. E. (1996). Query Optimization. Levesque, J., & Wagenbreth, G. (2011). High Performance Computing Programming and Application. Florida: Taylor & Francis Group. Lewis, T. G., & El-Riwini, H. (1992). Introduction to Parallel Computing. New Jersey: Prentice-Hall. Machdi, I. (2002). Non-Blocking Message Passing pada MPI dengan Implementasi pada Metode Preconditioned Conjugated Gradient. Surabaya: Institut Teknologi Surabaya. Pahlevi, S. M. (2008). Komputasi Grid dan Paralel. Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir, (pp. 15-24). Quinn, M. J. (2004). Parallel Programming in C with MPI and OpenMP. New York: McGraw Hill.
112
TAHUN 6, VOLUME 1, JUNI 2014
JURNAL STATISTIKA & KOMPUTASI STATISTIK
Rabenseifner, R., Hager, G., & Jost, G. (2009). Hybrid MPI/OpenMP Parallel Programming on Cluster of Multicore SMP Nodes. Silva, L. M., & Buyya, R. (1999). Parallel Programming and Paradigm. Titianingrum. (2012). Perancangan dan Implementasi Komputasi Paralel Pada Proses Tabulasi Data (Studi Kasus Sensus Penduduk 2010). Jakarta: Sekolah Tinggi Ilmu Statistik.
TAHUN 6, VOLUME 1, JUNI 2014
113
Petunjuk Penulisan JURNAL APLIKASI STATISTIKA & KOMPUTASI STATISTIK Naskah dikirim dalam bentuk softcopy ke alamat email
[email protected] disertai dengan daftar riwayat hidup ringkas penulis. Format naskah mengacu pada Petunjuk Penulisan Naskah berikut: Naskah dibuat menggunakan Microsot Office Word 2010. Seluruh bagian dalam naskah diketik dengan huruf Times New Roman, ukuran 12, spasi 1,5, ukuran kertas A4 dan marjin 2 cm untuk semua sisi, serta jumlah halaman 15-20. Untuk kepentingan penyuntingan naskah, seluruh bagian naskah (termasuk tabel, gambar dan persamaan matematika) dibuat dalam format yang dapat disunting oleh editor. Gaya penulisan naskah untuk Jurnal Aplikasi Statistika dan Komputasi Statistik ditulis dalam Bahasa Indonesia dengan gaya naratif. Pembabakan dibuat sederhana dan sedapat mungkin menghindari pembabakan bertingkat. Tabel dan gambar harus mencantumkan sumber jika dari data sekunder. Tabel, gambar dan persamaan matematika diberi nomor secara berurut sesuai dengan kemunculannya. Semua kutipan dan referensi dalam naskah harus tercantum dalam daftar pustaka, dan sebaliknya sumber bacaan yang tercantum dalam daftar pustaka harus ada dalam naskah. Format sumber: Nama Penulis dan Tahun. Nomor dan judul tabel diletakkan di bagian atas tabel dan dicetak tebal, sedangkan nomor dan judul gambar diletakkan di bagian bawah gambar dan dicetak tebal. Bagian naskah berisi: Judul. Judul tidak melebihi 12 kata dalam Bahasa Indonesia. Data Penulis. Berisi nama lengkap semua penulis tanpa gelar, asal institusi, dan alamat email. Abstrak. Ditulis dalam Bahasa Inggris dan Bahasa Indonesia, maksimum 100 kata untuk masing-masing abstrak dan berisikan tiga hal yaitu topik yang dibahas, metodologi yang dipergunakan dan hasil yang didapatkan. Kata Kunci. Berisi kata atau frasa (maksimum 5 subjek) yang sering dipergunakan dalam naskah dan dianggap mewakili dan atau terkait dengan topik yang dibahas. Pendahuluan. Memuat latar belakang, studi sebelumnya yang relevan, permasalahan ataupun hipotesis yang akan diuji dalam penelitian, ruang lingkup penelitian, serta tujuan dari penelitian. Metodologi terdiri atas: a. Tinjauan Referensi. Bagian ini menguraikan landasan konseptual dari tulisan dan berisi alasan teoritis mengapa pertanyaan penelitian dalam artikel diajukan. Di samping itu penulis dapat mengutip studi yang relevan sebelumnya untuk melengkapi justifikasi mengenai kerangka pikir penelitian. b. Metode Analisis. Bagian ini berisi informasi teoritis dan teknis yang cukup memadai untuk pembaca dapat mereproduksi penelitian dengan baik termasuk di dalamnya uraian
mengenai jenis dan sumber data serta variabel yang digunakan. Dalam hal keperluan verifikasi hasil, editor dan mitra bestari (reviewer) berhak meminta data mentah (raw data) yang digunakan penulis. Hasil dan Pembahasan. Tuliskan hasil yang didapat berdasarkan metode yang digunakan disertai analisis terhadap variabel-variabelnya . Dapat disajikan berupa tabel, gambar, hasil pengujian hipotesis dengan disertai uraian analitis yang mengangkat poin-poin penting berdasarkan konsepsi teoritisnya. Kesimpulan dan Saran. Bagian ini memuat kesimpulan dari hasil dan implikasinya secara akademis, dan saran yang dapat diberikan berdasarkan temuan dari pembahasan. Bagian ini juga memuat keterbatasan penelitian dan kemungkinan penelitian lanjutan yang dapat dilakukan dengan penggunaan/pengembangan variabel, metode analisis ataupun cakupan wilayah penelitian lainnya. Daftar Pustaka. Daftar pustaka disusun berdasarkan urutan abjad dengan ketentuan sebagai berikut: Publikasi Buku 1. Penulis satu orang Enders, Walter. 2010. Applied Econometric Time Series, Third Edition. New Jersey: Wiley. 2. Penulis dua orang Pyndick, Robert. S. dan Rubinfeld, Daniel L. 2009. Microeconomics, Seventh Edition. New Jersey: Pearson Education. 3. Penulis tiga orang Fotheringham, A. S., Brunsdon, C, dan Charlton, M. 2002. Geographically Weighted Regression: The Analysis of Spatially Varying Relationships. West Sussex: John Wiley & Sons. Artikel dalam jurnal Romer, P. 1993. Idea Gaps and Object Gaps in Economic Development. Journal of Monetary Economics, Vol. 32 (3), 543–573. Artikel online Woodward, Douglas P. 1992. Locational Determinants of Japanese Manufacturing Start-Ups in the United States. Southern Economic Journal, Vol. 58 (3), 690-708. http://www.jstor.org/discover/10.2307/1059836 (Diakses 1 September, 2014). Buku yang ditulis oleh lembaga atau organisasi BPS. 2009. Analisis dan Penghitungan Tingkat Kemiskinan 2008. Jakarta: BPS. Kertas kerja (working papers) Edwards, S. 1990. Capital Flows, Foreign Direct Investment, and Debt-Equity Swaps in Developing Countries. NBER Working Paper, 3497. Makalah yang direpresentasikan Zhang, Kevin H. 2006. Foreign Direct Investment and Economic Growth in China: A Panel Data Study for 1992-2004. Conference of WTO, China, and Asian Economies. Beijing. Karya yang tidak dipublikasikan Hartono, Djoni. 2002. Analisis Dampak Kebijakan Harga Energi terhadap Perekonomian dan Distribusi Pendapatan di DKI Jakarta: Aplikasi Model Komputasi Keseimabangan Umum (Computable General Equilibrium Model. Tesis. Jakarta. Artikel di koran, majalah, dan periodik sejenis Reuters. (2014, September 17). Where is Inflation?. Newsweek.