ANALISIS REGRESI TOBIT SPASIAL: Studi Kasus Penggunaan Internet di Pulau Jawa Andhie Surya Mustari1, Ismaini Zain2 Mahasiswa Program Magister Jurusan Statistika, Institut Teknologi Sepuluh Nopember 1 E-mail:
[email protected] 2 Dosen Jurusan Statistika, Institut Teknologi Sepuluh Nopember 2
[email protected] 1,2 Kampus ITS Sukolilo, Surabaya 60111
1
Abstract In the year of 2011, Indonesia is a country with second largest Facebook access in the world. A total of more than 39 million Facebook accounts were made by Indonesian residents, equivalent to 16 percent of the population. There are 34 of 118 regencies/municipalities in Java with percentage of internet users higher than 16 percent, then categorized as a high level of internet usage. The high level of Internet usage is mainly found in large cities as centers of education and entertainment services, such as Jakarta, Yogyakarta, Bandung, and Surabaya, than followed by other urban areas and surrounding districts. This spatial dependence phenomenon is interesting to be studied, where the regencies/municipalities with high internet usage categories can be viewed as censored data. Spatial Tobit regression model is used for modeling the data of internet usage in Java. Using seven predictor variables, the model was producing five statistically significant variables. Backward elimination procedure was used for variables election, whereas MCMC Gibbs sampler method with Bayesian inference approach was used for parameter estimation. Human resources variables that influence internet usage are the percentage of urban population, the percentage of population with high school and more educational grade, and the mean years of schooling. While device and network variables that influential are the percentage of households owning cell phone, and the percentage of villages having cellular networks. Keywords: censored data, spatial dependence, spatial Tobit, MCMC Gibbs sampler, internet usage
Abstrak Pada tahun 2011, Indonesia merupakan negara dengan pengakses Facebook terbesar kedua di dunia. Sebanyak lebih dari 39 juta akun facebook yang dibuat oleh penduduk Indonesia, atau setara dengan 16 persen populasi. Sebanyak 34 dari 118 kabupaten/kota di Pulau Jawa memiliki peersentase pengguna internet yang lebih tinggi daripada 16 persen, kemudian dikategorikan sebagai tingkat penggunaan internet yang tinggi. Tingginya tingkat penggunaan internet tersebut terutama ditemukan di kota-kota besar sebagai pusat jasa pendidikan dan hiburan, seperti DKI Jakarta, Yogyakarta, Bandung, dan Surabaya, kemudian diikuti oleh wilayah perkotaan lain serta daerah kabupaten di sekitarnya. Fenomena dependensi spasial ini menarik untuk diteliti, dimana kabupaten/kota dengan penggunaan internet kategori tinggi dapat dipandang sebagai data tersensor. Model regresi Tobit spasial digunakan untuk pemodelan data penggunaan internet di Pulau Jawa. Menggunakan tujuh variabel prediktor, lima variabel diantaranya dinyatakan signifikan secara statistik untuk dimasukkan ke dalam model. Pemilihan variabel dilakukan secara backward elimination, sedangkan estimasi parameter dilakukan menggunakan metode
1
MCMC Gibbs sampler dengan pendekatan inferensia Bayesian. Variabel sumber daya manusia yang mempengaruhi penggunaan internet adalah persentase penduduk perkotaan, persentase penduduk dengan pendidikan SMA ke atas, dan rata-rata lama sekolah. Sedangkan variabel perangkat dan jaringan yang berpengaruh adalah persentase rumah tangga yang memiliki telepon genggam, dan persentase desa/kelurahan yang mendapatkan jaringan telepon seluler. Kata kunci: data tersensor, korelasi spasial, Tobit spasial, MCMC Gibbs sampler, penggunaan internet
1. Pendahuluan Pada tahun 2011, Indonesia merupakan negara dengan pengakses Facebook terbesar kedua di dunia [1]. Sebanyak lebih dari 39 juta akun facebook yang dibuat oleh penduduk Indonesia, atau setara dengan 16 persen populasi [2]. Sebanyak 34 dari 118 kabupaten/kota di Pulau Jawa memiliki persentase pengguna internet yang lebih tinggi daripada 16 persen [3], kemudian dikategorikan sebagai tingkat penggunaan internet yang tinggi. Tingginya tingkat penggunaan internet tersebut terutama ditemukan di kota-kota besar sebagai pusat jasa pendidikan dan hiburan, seperti DKI Jakarta, Yogyakarta, Bandung, dan Surabaya, kemudian diikuti oleh wilayah perkotaan lain serta daerah kabupaten di sekitarnya. Fenomena dependensi spasial ini menarik untuk diteliti, dimana kabupaten/kota dengan penggunaan internet kategori tinggi dapat dipandang sebagai data tersensor. Dibutuhkan metode khusus untuk melakukan analisis penggunaan internet, dengan fakta bahwa data penggunaan internet merupakan data tersensor yang memiliki korelasi spasial. Fischer dan Getis [4] mengatakan bahwa pemodelan data tersensor yang melibatkan wilayah sebaiknya menggunakan analisis spasial, metode yang paling sesuai adalah regresi Tobit spasial. Selain itu, Lee [5] juga menyatakan bahwa pendekatan Tobit spasial lebih disarankan untuk analisis wilayah yang melibatkan data tersensor. Analisis regresi Tobit spasial digunakan apabila variabel respon pada model spasial melibatkan data yang diyakini memiliki nilai tersensor [6]. Penelitian yang menggunakan model regresi Tobit spasial diantaranya dilakukan oleh Langyintuo dan Mekuria [7] yang menggunakan metode maksimum likelihood untuk membentuk model Tobit SARMA pada data petani di Mozambique. Pada tahun 2002, Kaliba [8] mengembangkan model Tobit SARMA menggunakan modul aplikasi Maximum Likelihood 4 dari paket program GAUSS (dikembangkan oleh Aptech Systems, 1995) pada data pedesaan di Tanzania. Sementara LeSage dan Pace [6] menggunakan data simulasi yang dibangkitkan oleh Koop untuk membentuk model Tobit spasial menggunakan pendekatan Bayesian MCMC (Markov Chain Monte Carlo) dengan algoritma Gibbs Sampling. Penelitian ini bermaksud untuk membentuk model Tobit spasial dan mencari metode estimasi parameter dari model regresi Tobit spasial. Data yang digunakan sebagai variabel respon adalah persentase penduduk yang mengakses internet selama tiga bulan terakhir di pulau Jawa pada tahun 2010. Sensor diberikan kepada wilayah kabupaten/kota dengan persentase penduduk pengguna internet lebih besar dari 16 persen. Angka tersebut setara dengan persentase penduduk Indonesia yang mengakses facebook pada tahun 2011, atau dapat dianggap sebagai batas minimal persentase pengguna internet yang ingin dicapai oleh suatu kabupaten/kota.
2
2. Tinjauan Pustaka Model Regresi Tobit Misalkan adalah suatu variabel respon dengan informasi yang lengkap dan adalah data sampel dari , maka variabel respon yang tersensor dapat didefinisikan sebagai berikut [9] [10] [5] [11] [12]:
yi * yi
jika yi *
jika yi *
(1)
dimana merupakan suatu konstanta batasan, dan adalah banyaknya observasi. Jika nilai tidak diketahui ketika , maka mengandung suatu variabel latent yang tidak dapat diamati pada seluruh range-nya. Panel A pada Gambar 2.1 ( ), dengan nilai variabel latent digambarkan memperlihatkan distribusi dari sebagai wilayah gelap pada kurva. Jika nilai yang tidak diketahui tersebut dipotong, maka sebagian informasi yang dapat menjelaskan populasi akan hilang dimana kurva distribusi menjadi lebih runcing (panel B). Panel C menggambarkan data tersensor yang mengelompok pada nilai sehingga tidak merubah informasi berkaitan distribusi populasi.
Gambar 1. Ilustrasi Variabel Latent, Terpotong, dan Tersensor [11]
Long [11] menjelaskan bahwa jika menggunakan keseluruhan data untuk model regresi linier pada data tersensor, akan menghasilkan nilai parameter yang overestimates pada slope dan underestimates pada intercept. Sedangkan jika menghilangkan observasi yang nilainya tidak diketahui, akan menghasilkan koefisien parameter yang underestimates pada slope dan overestimates pada intercept. Data terpotong menyebabkan terjadinya korelasi antara variabel prediktor dengan residual, sehingga menghasilkan estimasi yang tidak konsisten. Model Tobit dibentuk dengan terlebih dahulu mengasumsikan adanya hubungan linier antara dengan variabel prediktor yang dinyatakan dengan: yi xi β i *
T
i 1, 2,...n
(2)
[ ] adalah vektor variabel prediktor, ( ), dimana [ ] adalah vektor parameter, merupakan banyaknya variabel, dengan mengandung variabel latent yang mewakili nilai tersensor [10] [11]. Nilai tersensor tersebut bisa lebih kecil dari suatu batas bawah ( ̅ ), lebih besar dari batas atas ( ̅ ), atau keduanya. Ketika tersensor pada batas atas , maka model regresi Tobit dinyatakan dengan persamaan sebagai berikut [11]:
3
yi * x i T β i yi
jika yi *
(3)
jika yi *
Model Regresi Spasial Efek korelasi spasial dapat muncul pada pembentukan model regresi linier yang menggunakan data kewilayahan (cross section data). Hal tersebut mengakibatkan tidak terpenuhinya asumsi error yang independen dan identik berdistribusi normal, sehingga menghasilkan estimasi parameter yang tidak valid dan mengaburkan interpretasi model [13]. Pada tahun 1988, Anselin [14] mengembangkan bentuk umum dari model regresi spasial (general spatial model) menggunakan data cross section sebagai berikut: y I W Xβ I W 1
I W
1
1
ε
(4)
( ), dimana merupakan vektor variabel respon yang memiliki korelasi spasial, adalah matriks variabel prediktor, dan adalah vektor parameter regresi. Adapun adalah koefisien korelasi spasial lag dari variabel respon, merupakan koefisien korelasi spasial error, dan merupakan matriks penimbang spasial dengan elemen diagonalnya bernilai nol. y y1
1 x11 1 x 21 X 1 xn1
yn , β 0 T
y2
1
p , ε 1 T
2
x1 p
0 w x2 p , dan W 21 xnp wn1
x12 x22 xn 2
2
n , T
w1n
w12
w2 n
0
0 .
wn 2
Persamaan (4) di atas menjadi bentuk model regresi spasial lag ketika , yang menjelaskan terjadinya efek korelasi spasial antar lag variabel respon. Ketika , persamaan (4) menjadi bentuk model regresi spasial error, yang menjelaskan terjadinya efek korelasi spasial antar lag variabel respon dan antar lag variabel prediktor. Statistik uji Lagrange digunakan untuk menentukan bentuk dari model regresi spasial [15]. Untuk melihat ada atau tidaknya efek korelasi spasial lag, digunakan hipotesis lawan dengan statistik uji LM-lag Test sebagai berikut:
e Wy T
LM LAG
ˆ
2
2
(5)
D
Untuk melihat adanya atau tidaknya efek spasial error, digunakan hipotesis lawan dengan statistik uji LM-err Test sebagai berikut:
e We ˆ T
LM ERR
dimana ̂ , dan sehingga
⁄ ,
̂,
2
2
(6)
T
*(
̂) (
(
)
)(
̂ )+⁄
{( ) }. Statistik uji ini mengikuti distribusi asimtotik ditolak apabila ( ) atau p-value lebih kecil dari nilai .
(
),
4
Uji Heteroskedastisitas Untuk melihat adanya keragaman dalam varians error, dilakukan pengujian heteroskedastisitas menggunakan statistik uji Breusch-Pagan [16] dengan hipotesis sebagai berikut: (homoskedastisitas) minimal ada satu (heteroskedastisitas) Nilai dari BP-Test adalah sebagai berikut: BP
1
f X X X
ei 2
T
2
T
1
T
(7)
X f
dengan elemen vektor adalah: fi
ˆ
2
1
⁄ , dimana adalah residual observasi ke- hasil regresi linier, , ̂ ( ) dari observasi dengan elemen kolom pertama merupakan adalah matriks vektor satu, dan adalah jumlah variabel prediktor. ditolak apabila ( ). Markov Chain Monte Carlo (MCMC) MCMC merupakan suatu teknik metode simulasi yang membangkitkan sejumlah sampel dari distribusi data yang telah diketahui [17]. Ide dasar dari teknik MCMC adalah daripada menghitung suatu fungsi kepadatan peluang ( | ), lebih baik mengambil sampel random dalam jumlah besar dari ( | ) untuk mengetahui bentuk probabilitas tersebut secara tepat. Dengan ukuran sampel random yang cukup besar, nilai rata-rata dan standar deviasinya dapat dihitung secara akurat [18]. LeSage [19] menjelaskan bahwa algoritma MCMC Gibbs sampler akan memberi kemudahan estimasi parameter untuk model regresi Tobit spasial daripada harus memecahkan sejumlah persamaan integral pada metode maksimum likelihood. Metode MCMC Gibbs sampler bertujuan untuk mencari nilai estimasi dari menggunakan suatu distribusi posterior bersyarat, dimana nilai lainnya diasumsikan telah diketahui. Distribusi posterior dari parameter ditentukan melalui prinsip dari teorema Bayes yang dinyatakan oleh p y
L y p m y
L y p
(8)
dimana ( | ) merupakan fungsi likelihood dari , ( ) merupakan distribusi marginal dari yang tidak melibatkan parameter, dan ( ) merupakan distribusi prior dari yang diperoleh dari penelitian sebelumnya maupun berdasarkan kajian teoritis atas masalah yang sedang diteliti [20]. Secara umum, algoritma Gibbs sampler [18] dapat dinyatakan dengan: i. ii.
Tentukan nilai inisiasi awal ( ) ( Lakukan langkah di bawah sejumlah Bangkitkan nilai
( )
( |
( )
( )
( )
, dimana (
)
(
)
) = jumlah iterasi. (
)
)
5
( )
( |
( )
(
Bangkitkan nilai ( ) ( | Tentukan hasil estimasi ̂ dengan cara
( )
( )
Bangkitkan nilai
)
(
)
)
… iii.
( )
)
1 m t θˆ t 1 θ m
(9)
Hastings [21] mengembangkan metode Metropolis untuk mencari estimasi parameter ( ) melalui suatu nilai inisiasi awal ( ) , yang didasari oleh distribusi kandidat ( ( ) | ( ) ) dimana nilai ( ) diketahui. Nilai dari ( ) dibangkitkan dari distribusi kandidat, kemudian jalankan algoritma Metropolis Hastings di bawah ini. i.
Hitung peluang penerimaan
*
p θ ,θ
ii. iii.
t 1
min 1 ,
p θ p θ
( ) * t 1
sebagai
( )
.
θ y f θ θ
y f θ
t 1
*
*
t 1
Bangkitkan angka random ( ). Terima ( ) sebagai nilai baru dari ( ) apabila ( ( ( Jika tidak, nilai ( ) tidak berubah atau ( )
(10)
)
( )
)
)
.
.
Faktor-faktor yang Mempengaruhi Penggunaan Internet Pembangunan teknologi informasi dan komunikasi (TIK) suatu negara memiliki hubungan yang positif dengan pertumbuhan ekonomi. Artinya, pembangunan TIK akan memberikan efek berantai kepada meningkatnya pertumbuhan ekonomi [22]. Rao dan Pattnaik [23] menyatakan bahwa pertumbuhan TIK telah membuka kesempatan bagi masyarakat untuk lebih memanfaatkan fasilitas pembangunan sosial ekonomi dan budaya secara lebih modern. Pembangunan TIK memberikan pengaruh ekonomi yang luas, baik secara langsung maupun tidak langsung, meningkatkan kesejahteraan dan pembangunan fasilitas sosial ekonomi [24]. Menggunakan data dari 154 negara, Howard dan Mazaheri [25] menemukan bahwa kesenjangan penggunaan TIK (telepon seluler, komputer, dan bandwidth internet) dipengaruhi oleh; investasi asing, perdagangan, jumlah penduduk, populasi perkotaan, literacy rate, konsumsi, telepon kabel, serta sembilan variabel lain yang menjelaskan regulasi pemerintah. Andonova dan Serrano [26] menjelaskan bahwa perkembangan TIK dan pertumbuhan pemanfaatan internet lebih banyak dipengaruhi oleh faktor perhatian pemerintah dan regulasi yang berlaku di wilayah tersebut. Michailidis dkk. [27] mengungkapkan bahwa pengguna internet di pedesaan Yunani dipengaruhi oleh tingkat pendapatan, harga dari akses internet, kepemilikan PC, tempat tinggal, serta variabel sosial demografi seperti; jenis kelamin, jumlah penduduk muda yang tinggal satu rumah, umur, tingkat pendidikan, dan status pekerjaan. 3. Metodologi Sumber Data dan Variabel Penelitian Sumber data yang digunakan dalam penelitian ini adalah data olahan hasil Susenas 2010, dan Podes 2008 yang dikumpulkan oleh Badan Pusat Statistik (BPS).
6
Adapun matriks penimbang spasial disusun berdasarkan metode queen contiguity, menggunakan peta digital hasil kegiatan updating peta sensus penduduk 2010. Objek penelitian yang akan dijadikan sebagai variabel respon adalah tingkat penggunaan internet di 118 kabupaten/kota di Pulau Jawa, merupakan persentase dari penduduk usia 5 tahun ke atas yang pernah menggunakan internet selama tiga bulan yang lalu terhadap seluruh penduduk usia 5 tahun ke atas dalam suatu kabupaten/kota. Sensor diberikan kepada wilayah kabupaten/kota dengan persentase penduduk pengguna internet di atas 16 persen dengan menganggap nilai pada nilai . Adapun variabel prediktor yang digunakan adalah sebagai berikut. : Persentase penduduk yang tinggal di daerah perkotaan. : Persentase penduduk usia muda. : Persentase penduduk lulusan SMA ke atas. : Rata-rata lama sekolah. : Persentase rumah tangga yang memiliki komputer. : Persentase rumah tangga dengan telepon genggam. : Persentase desa/kelurahan yang mendapatkan sinyal telepon seluler. Model Regresi Tobit Spasial Model regresi Tobit spasial merupakan penerapan model regresi spasial pada data yang tersensor. Sehingga dengan menggabungkan persamaan (4) ke dalam (1), akan diperoleh suatu model umum regresi Tobit spasial sebagaimana berikut.
yi * g y i * , x i , w i , , β ,
jika yi
jika yi
yi
*
*
(11)
dimana merupakan suatu nilai konstanta batasan yang diberikan kepada jika | ) dapat dituliskan dalam bentuk tersensor, . Persamaan ( ) ( ) ( ( ) , yang merupakan model matriks SARMA. Menjadi model spasial lag jika , dan menjadi model spasial error jika ( ) dengan ( ) merupakan pengali yang menyatakan , dimana heterogenitas dari varians error. Pada kondisi homoskedastisitas [28], matriks . Apabila nilai dan , persamaan (11) menjadi model regresi Tobit spasial lag sebagai berikut:
wi T y xi T β i
jika yi
jika yi
yi
Apabila nilai dan persamaan berikut ini:
, menjadi model regresi Tobit spasial error sesuai
wi T y xi T β wi T X β i jika yi
yi
(12)
jika yi
(13)
Melengkapi Data Tersensor Estimasi parameter model regresi Tobit spasial dilakukan dengan asumsi awal bahwa variabel respon merupakan data dengan informasi yang lengkap, tidak tersensor, dan memiliki korelasi spasial. Padahal sesuai persamaan (1), data yang memiliki informasi lengkap adalah variabel respon yang mengikuti distribusi normal ( ). Nilai dari ketika merupakan observasi yang tidak diketahui
7
atau dianggap sebagai variabel latent. Sehingga nilainya harus dilengkapi menggunakan suatu nilai . Variabel respon yang lengkap kemudian didefinisikan sebagai berikut:
yi *
jika yi
zi
jika yi
*
yi
(14)
*
Pemilihan observasi tersensor dari distribusi normal terpotong dilakukan dengan cara membangkitkan variabel random yang berdistribusi ( ). Nilai [ ] merupakan elemen ke- dari vektor . Menurut LeSage [6] [19] [28], nilai rata-rata dari adalah:
μ I W Xβ 1
adalah
Adapun nilai varians dari
Σ I W
1
(15)
I W
1
1 1 2 V I W I W T
T
(16)
Estimasi Parameter Sesuai dengan asumsi awal bahwa variabel respon merupakan data dengan informasi yang lengkap, tidak tersensor, dan memiliki korelasi spasial, maka hubungannya dengan variabel prediktor diwakili oleh model regresi spasial sesuai dengan persamaan (4) di atas. Fungsi likelihood yang diperoleh adalah:
L , V , β , , y 2 2
2
n/2
I W I W
n v 1/ 2 exp 1 ε TV 1ε (17) ii i 1 2 2
dimana ε I W I W y Xβ
. LeSage [28] dan Lacombe [29] merumuskan diffuse (uninformative) prior dari masing-masing parameter model regresi Spasial pada data tersensor sebagai berikut.
p
1
2
p V
2
n
ii
1
r 2
2
i 1
r n 1 exp 2 i 1 vii
p β konstanta p p konstanta
Sehingga diperoleh distribusi posterior bersyarat dari masing-masing parameter adalah sebagai berikut.
1 ε TV 1ε ~ 2 2 n 4
(18)
1 i 2 2 2 r ~ r 1 ii
(19)
p β , V , , exp 2
1 2
B Ay Xβ
T
2
V
1
B Ay Xβ
(20)
8
p , , V , β I W I W exp 2
1 2
1
εV ε T
2
(21)
( ), ( ), dan ( ). Estimasi parameter metode MCMC Gibbs sampler dilakukan dengan cara membangkitkan angka random yang mengikuti distribusi posterior bersyarat dari masingmasing parameter, sebanyak jumlah iterasi yang diinginkan. Adapun algoritma Metropolis within Gibbs digunakan pada bentuk distribusi posterior yang tidak standar, seperti untuk parameter atau parameter [28]. Hasil uji Lagrange digunakan untuk menentukan bentuk dari model spasial, apakah spasial lag ( ) atau spasial error ( ). Sementara hasil uji Breusch Pagan digunakan untuk menentukan nilai , menjadi ketika terjadi kondisi homoskedastisitas. dimana
4. Hasil dan Pembahasan Deskriptif Data Penggunaan Internet Tingkat penggunaan internet dilihat dari nilai persentase pengguna internet dalam suatu wilayah kabupaten/kota. Penggunaan internet terbesar di Indonesia dapat ditemukan di kota pelajar Yogyakarta, yaitu sebanyak 36,20 persen. Disusul oleh Jakarta Selatan, Kabupaten Sleman, dan kota industri Tangerang Selatan, masing-masing sebanyak 33,20 persen, 29,52 persen, dan 29,29 persen. Rata-rata penggunaan internet per kabupaten/kota di Pulau Jawa sebesar 12,02 persen. Wilayah dengan nilai penggunaan internet di sekitar rata-rata adalah Kabupaten Mojokerto, Bandung, Madiun, dan Kota Pasuruan. Sementara wilayah dengan persentase pengguna internet terkecil ada di Kabupaten Sampang dan Bangkalan, masing-masing sebesar 2,23 persen dan 2,54 persen.
Gambar 2. Peta Tematik Penggunaan Internet Menurut Kabupaten/Kota di Pulau Jawa Tahun 2010 (3)
Peta tematik penggunaan internet pada Gambar 2 memperlihatkan bahwa penggunaan internet kategori tinggi banyak terdapat pada wilayah perkotaan seperti DKI Jakarta dan sekitarnya, deretan Yogyakarta ke arah Surakarta, serta wilayah Bandung, Surabaya dan sekitarnya. Tingginya penggunaan internet di kota-kota pusat pelajar, industri, dan bisnis tersebut kemudian diikuti oleh wilayah lain di sekitarnya. Wilayah yang bersinggungan langsung dengan kota-kota tersebut memiliki persentase pengguna internet yang sedikit lebih rendah, sementara wilayah berikutnya yang bersinggungan secara tidak langsung memiliki nilai yang lebih rendah lagi.
9
Tabel 1. Deskriptif Variabel Penelitian Variabel Penelitan (1)
Deskripsi
Minimum
Maksimum
Rata-rata
(2)
(3)
(4)
(5)
Standar Deviasi (6)
Persentase pengguna internet
2,23
16,00
9,968
4,626
Persentase penduduk perkotaan
9,27
100,00
57,991
30,837
Persentase penduduk usia muda
12,44
25,00
17,395
2,567
Persentase penduduk lulusan SMA ke atas
5,30
50,26
21,349
11,105
Rata-rata lama sekolah
4,21
11,55
8,052
1,518
Persentase rumah tangga dengan komputer
2,20
40,22
11,433
9,127
Persentase rumah tangga dengan telepon genggam
44,87
94,89
71,923
12,050
Persentase desa/kelurahan dengan sinyal telepon
50,00
100,00
88,892
10,026
Deskriptif data tingkat penggunaan internet sebagai variabel respon yang tersensor dapat dilihat pada Tabel 1 di atas. Nilai maksimum dari persentase pengguna internet per kabupaten/kota sama dengan 16 persen, dengan rata-rata dan standar deviasi masing-masing sebesar 9,97 persen dan 4,63. Variabel yang memiliki variasi nilai terbesar adalah persentase penduduk perkotaan dengan standar deviasi sebesar 30,84 dan panjang range data dari 9,27 persen hingga 100 persen. Variabel rata-rata lama sekolah memiliki variasi terkecil dengan standar deviasi sebesar 1,52. Hal itu karena satuan dari variabel tersebut dalam ukuran tahun, sementara variabel lainnya dalam satuan persentase. Pemodelan Data Penggunaan Internet Menggunakan Regresi Tobit Spasial Menggunakan keseluruhan tujuh variabel prediktor, hasil uji efek korelasi spasial dan heteroskedastisitas memperlihatkan bahwa bentuk model yang akan dibentuk adalah regresi Tobit spasial lag dalam kondisi homoskedastisitas (Tabel 2). Menggunakan hipotesis lawan , nilai statistik uji LM-lag memperlihatkan kesimpulan untuk menolak pada derajat kepercayaan 95 persen. Sementara nilai statistik uji LM-err memperlihatkan bahwa gagal ditolak pada nilai . Dengan menggunakan hipotesis : homoskedastisitas lawan : heteroskedastisitas, Statistik uji Breusch Pagan memperlihatkan kesimpulan untuk tidak menolak pada derajat kepercayaan 95 persen. Tabel 2. Hasil Uji Efek Korelasi Spasial dan Heteroskedastisitas dari Pemodelan Tahap Pertama hingga Tahap Ketiga Statistik Uji (1) . LM-lag LM-err Breusch Pagan .
Tahap I (7 Variabel) Nilai p-Value (2) (3) 12,1942 1,5595 9,7859
0,0000 0,2117 0,2010
Tahap II (6 Variabel) Nilai p-Value (4) (5) 12,2410 1,5765 9,4602
0,0000 0,2093 0,1493
Tahap III (5 Variabel) Nilai p-Value (6) (7) 11,8122 1,4396 7,9076
0,0000 0,2302 0,1614
Metode backward elimination [30] digunakan dengan cara menggugurkan satu persatu variabel yang tidak signifikan, dimulai dari variabel dengan nilai p-value yang paling besar. Pada tahap-tahap berikutnya, hasil uji efek korelasi spasial dan heteroskedastisitas juga mengindikasikan bentuk model regresi Tobit spasial lag dengan
10
kondisi homoskedastisitas. Menggunakan backward elimination, variabel-variabel yang tersisihkan satu persatu dari model secara berturut-turut adalah , kemudian . Pada tahap akhir, digunakan lima variabel prediktor yang signifikan pada tahap sebelumnya untuk pemodelan data penggunaan internet menggunakan regresi Tobit spasial. Simulasi Gibbs sampler dilakukan sebanyak 500 iterasi, 1000 iterasi dan 5000 iterasi. Perbedaan jumlah iterasi tersebut bertujuan untuk membandingkan konsistensi hasil simulasi sebagai akibat dari perbedaan banyaknya iterasi. Selain itu, banyaknya jumlah iterasi akan menentukan tingkat konvergensi dari parameter yang dibangkitkan. Dibutuhkan waktu kurang dari empat menit untuk melakukan 5000 iterasi, sedangkan 500 iterasi membutuhkan waktu tidak lebih dari empat detik saja. Simulasi Gibbs sampler dilakukan pada perangkat komputer notebook MSI dengan prosesor Intel® Core2™ Duo CPU T6600 @2,20GHz dan memori sebesar RAM 2,00GB. Tabel 3 Hasil Estimasi MCMC Parameter Model Regresi Tobit Spasial Lag Parameter (1) .
Jumlah Iterasi = 500 Waktu Iterasi = 3,6910 Statistik Koefisien p-Value Uji Wald (2) (3) (4)
Jumlah Iterasi = 1000 Waktu Iterasi = 8,2010 Statistik Koefisien p-Value Uji Wald (5) (6) (7)
Jumlah Iterasi = 5000 Waktu Iterasi = 203,9420 Statistik Koefisien p-Value Uji Wald (8) (9) (10)
-0.1707
-5.4208
0,0000
-0.1690
-3.7961
0,0000
-0.1700
-3.1408
0,0000
-13,9591
-19,6343
0,0000
-13,8956 -17,5323
0,0000
-13,7268
-14,7152
0,0000
0,0113
7,6119
0,0000
0,0115
6,4355
0,0000
0,0117
6,1385
0,0000
0,1422
11,5386
0,0000
0,1430
11,6398
0,0000
0,1435
11,1433
0,0000
0,7642
13,7179
0,0000
0,7614
13,4552
0,0000
0,7548
12,3613
0,0000
0,0959
12,7110
0,0000
0,0951
10,6940
0,0000
0,0931
9,0076
0,0000
0,0830
33,5310
0,0000
0,0829
36,2902
0,0000
0,0827
32,8898
0,0000
1.9644
–
–
1.9612
–
–
1.9580
–
–
0.8397
–
–
0.8400
–
–
0.8394
–
–
.
Setelah dilakukan proses Gibbs sampler sebanyak tiga kali dengan jumlah iterasi yang berbeda, nilai koefisien determinasi berada pada kisaran 84 persen. Koefisien determinasi menjelaskan besarnya variasi dari variabel renspon yang dapat dijelaskan oleh variabel prediktor. Menggunakan hasil iterasi MCMC terbanyak, dapat disimpulkan bahwa sebesar 83,94 persen variasi penggunaan internet di Pulau Jawa dijelaskan oleh sebelas variabel prediktor dan sisanya oleh variabel lain. Analisis Penggunaan Internet di Pulau Jawa Berdasarkan hasil estimasi parameter pada Tabel 3 di atas, maka model regresi Tobit spasial lag untuk data penggunaan internet di Pulau Jawa adalah sebagai berikut: Untuk kabupaten/kota dengan kategori penggunaan internet yang rendah: yˆ i 13, 727 0,17
n j 1, j i
wij y j 0, 012 x1i 0,144 x3i 0, 755 x4 i 0, 093x6 i 0, 083x7 i
(22)
Untuk kabupaten/kota dengan kategori penggunaan internet yang tinggi: yˆ i 16
11
Variabel persentase penduduk yang tinggal di perkotaan mengindikasikan tingkat kemajuan dan kelengkapan fasilitas umum di daerah tersebut. Sementara variabel presentase penduduk lulusan SMA ke atas dan rata-rata lama sekolah mencerminkan kualitas sumber daya manusia di daerah tersebut. Dengan demikian untuk meningkatkan persentase pengguna internet di daerah kabupaten/kota berkategori penggunaan internet yang rendah, perlu dilakukan upaya peningkatan kualitas sumber daya manusia dari aspek pendidikan. Selain itu, upaya pembangunan daerah pedesaan dengan cara melengkapi fasilitas umum yang tersedia juga perlu dilakukan. Variabel-variabel yang mencerminkan karakteristik perangkat dan jaringan di daerah, mengindikasikan pentingnya perkembangan teknologi telepon seluler bagi pertumbuhan internet. Berbagai kemudahan akses internet yang disediakan melalui perangkat telepon genggam dan keluasan jaringan telepon seluler, telah secara signifikan mendorong tingkat penggunaan internet menjadi lebih tinggi. Sementara variabel-variabel yang dikeluarkan dari model mengindikasikan bahwa penggunaan internet tidak secara signifikan didominasi oleh penduduk usia muda, tidak pula diakses melalui komputer. 5. Kesimpulan Model regresi Tobit spasial merupakan suatu model regresi spasial yang diterapkan pada data tersensor, dengan bentuk model umum dari regresi Tobit spasial adalah: T T T T T T wi y wi y W W i y xi β wi X β i jika yi yi jika yi
(23)
Metode estimasi parameter yang digunakan adalah teknik Markov Chain Monte Carlo (MCMC) dengan algoritma Gibbs Sampler pendekatan inferensia Bayesian, atau disingkat MCMC Gibbs sampler. Variabel-variabel yang mempengaruhi penggunaan internet di Pulau jawa adalah persentase penduduk yang tinggal di daerah perkotaan, persentase penduduk lulusan SMA ke atas, rata-rata lama sekolah, persentase rumah tangga yang memiliki telepon genggam, dan persentase desa/kelurahan yang mendapatkan sinyal telepon seluler. Berdasarkan hasil penelitian yang telah diperoleh, pengembangan lebih lanjut dapat dilakukan dengan menggunakan highest posterior density (HPD) dan Bayes Faktor sebagai metode pengujian parameter dan model. Penelitian ini masih menggunakan matriks penimbang queen contiguity, sehingga pada penelitian selanjutnya dapat dikembangkan menggunakan matriks penimbang lain, misalnya penimbang jarak. Lebih lanjut, metode MCMC Gibbs sampler untuk pemodelan regresi Tobit spasial ini dapat digunakan untuk data dan kasus lain yang lebih aplikatif. Daftar Pustaka [1] Socialbaker. Facebook Statistics by Country. www.socialbaker.com. [Online] Agustus 17, 2011. [Cited: Agustus 17, 2011.] http://www.socialbakers.com/facebookstatistics/?interval=last-3-months#chart-intervals. [2] BPS. Sensus Penduduk 2010. Sensus Penduduk 2010. [Online] 2011. [Cited: November 4, 2011.] http://sp2010.bps.go.id/index.php/site/index. [3] —. Statistik Komunikasi dan Teknologi Informasi Tahun 2010. Jakarta : Badan Pusat Statistik, 2011.
12
[4] Fischer, Manfred M. and Getis, Arthur. Handbook of Applied Spatial Analysis: Software Tools, Methods, and Application. New York : Springer, 2010. [5] Lee, Myoung Jae. Micro-Econometrics: Methods of Moments and Limited Dependent Variables, Second Edition. New York : Springer, 2010. [6] LeSage, James and Pace, R. Kelley. Introduction to Spatial Econometrics. New York : CRC Press, 2009. [7] Assessing the Influence of Neighborhood Effects on the Adoption of Improved Agricultural Technologies in Developing Agriculture. Langyintuo, Augustine S. and Mekuria, Mulugetta. 2008, AfJARE, Vol. 2, No. 2, pp. 151-169. [8] Kaliba, Aloyce R. M. Dissertation: Participatory Evaluation of Community Based Water and Sanitation Programes: The Case of Central Tanzania. Mahattan : Kansas State University, 2002. [9] DeMaris, Alfred. Regression with Social Data: Modelling Continuous and Limited Response Variable. New Jersey : John Wiley and Sons, Inc., 2004. [10] Greene, William H. Econometric Analysis, Sixth Edition. New York : Pearson - Prentice Hall, 2008. [11] Long, J. Scott. Regression Models for Categorical and Limited Dependent Variables. California : Sage Publications, Inc., 1997. [12] Estimation of Relationships for Limited Dependent Variables. Tobin, James. 1958, Econometrica, Vol. 26, No. 1, pp. 24-36. [13] Probit with Spatial Correlation by Field Plot: Potato Leafroll Virus Net Necrosis in Potatoes. Marsh, Thomas L., Mittelhammer, Ron C. and Huffaker, Ray G. 2000, Journal of Agricultural, Biological, and Environmental Statistics, pp. Volume 5, Number 1, Pages 2236. [14] Anselin, Luc. Spatial Econometrics: Methods and Models. Dordrecht : Kluwer Academic Publishers, 1988. [15] —. Spatial Econometrics. Dallas : University of Texas, 1999. [16] A Simple Test for Heteroscedasticity and Random Coefficient Variation. Breusch, T. S. and Pagan, A. R. 1979, Econometrica, Vol. 47, No. 5, pp. 1287-1294. [17] Markov Chain Monte Carlo Simulation Methods in Econometrics. Chib, Siddhartha and Greenberg, Edward. 1996, Econometrics Theory, Vol. 12, pp. 409-431. [18] Explaining the Gibbs Sampler. Casella, George and George, Edward I. 1992, The American Statistician, Vol. 46, No. 3, pp. 167-335. [19] LeSage, James P. The Theory and Practice of Spatial Econometrics. Ohio : University of Toledo, 1999. [20] Casella, George and Berger, Roger L. Statistical Inference. s.l. : Duxbury, Thomson Learning, 2002. [21] Monte Carlo Sampling Methods using Markov Chains and Their Applications. Hastings, W. K. 1970, Biometrika, Vol. 57, No. 1, pp. 97-109. [22] Kominfo. Buku Putih Komunikasi dan Informatika Indonesia. Jakarta : Pusat Data Kementerian Komunikasi dan Informatika, 2010. [23] Technology for Rural Development Role of Telecommunication Media in India. Rao, J.S. Giri and Pattnaik, S.N. 2006, Indian Media Studies Journal, Vol. 1, No. 1, pp. 85-92. [24] ITU. Measuring the Information Society. Geneva : International Telecommunications Union, 2010. [25] Telecommunications Reform, Internet Use, and Mobile Phone Adoption in Developing World. Howard, Philip N. and Mazaheri, Nimah. 2009, World Development, Vol. 37, No. 7, pp. 1159-1169.
13
[26] Andonova, Veneta and Serrano, Luis Diaz. Political Institutions and the Development of Telecommunications. Bonn : IZA Discussion Paper, 2007. [27] Who Goes Online? Evidence of Internet Use Patterns from Rural Greece. Michailidis, Anastasios, et al., et al. 2011, Telecommunications Policy, Vol. 35, pp. 333-343. [28] Bayesian Estimation of Limited Dependent Variable Spatial Autoregressive Models. LeSage, James P. 2000, Geographical Analysis, Vol. 32, No. 1, pp. 19-35. [29] Lacombe, Donald J. An Introduction to Bayesian Inference in Spatial Econometrics. http://ssrn.com/abstract=1244261. [Online] July 24, 2008. [Cited: November 13, 2011.] [30] Draper, Norman R. and Smith, Harry. Applied Regression Analysis. New York : John Willey and Sons, Inc, 1998.
14