PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
(R.3) PENERAPAN MODEL MULTILEVEL LOGISTIK UNTUK DATA STATUS SETENGAH PENGANGGUR 1Gde
Harta Wijaya, 2Gandhi Pawitan, 3Budhi Handoko
1Mahasiswa
Program Pascasarjana Magister Statistika Terapan, Universitas Padjajaran Jl. Ir. H. Juanda No. 4 Dago-40135 2Dosen Statistika Universitas Katolik Parahyangan 3Dosen Statistika Universitas Padjajaran
Email :
[email protected],
[email protected],
[email protected]
Abstrak Selama ini, pengangguran cenderung dilihat dari pengangguran terbuka dan kurang melihat setengah penganggur (underemployment). Pada waktu tertentu, ada kemungkinan lebih banyak orang yang setengah penganggur dari pada orang tanpa pekerjaan sama sekali (pengangguran terbuka). Setengah penganggur adalah mereka yang bekerja di bawah jam kerja normal. Di Indonesia, pengumpulan data ketenagakerjaan (setengah penganggur) dilakukan melalui Survei Angkatan Kerja Nasional (Sakernas). Sakernas adalah suatu survei dengan desain sampling bertahap (multistage sampling), yang akan menghasilkan data dengan struktur hirarkis. Pendekatan yang sesuai untuk menganalisis data hasil survei seperti ini adalah menggunakan pendekatan analisis multilevel. Model analisis multilevel yang digunakan adalah model multilevel logistik. Prosedur penaksiran model multilevel logistik dilakukan dengan penalized-quasi likelihood (PQL) melalui paket program R. Kata Kunci : setengah penganggur, model multilevel logistik, penalized-quasi likelihood (PQL)
1.
PENDAHULUAN Masalah pengangguran baik di negara maju maupun negara berkembang menjadi
bagian penting dalam perencanaan pembangunan. Selama ini, pengangguran cenderung dilihat dari pengangguran terbuka dan kurang melihat pengangguran terselubung atau setengah penganggur. (Harfina, 2009). Individu dapat mengalami setengah penganggur karena mereka tidak dapat bekerja sebanyak jam yang mereka inginkan. Penyebab lain mungkin karena mereka hanya dapat memperoleh pekerjaan sementara ketika mereka inginkan pekerjaan permanen, atau karena mereka tidak bisa mendapatkan pekerjaan yang sepadan dengan pendidikan mereka, keterampilan tingkat, dan pengalaman (Maynard dan Feldman, 2011). Di Indonesia, pengumpulan data tentang ketenagakerjaan, yang didalamnya memuat data pengangguran dan setengah penganggur dilaksanakan melalui Survei Angkatan Kerja Nasional (Sakernas), yang merupakan survei khusus untuk mengumpulkan data ketenagakerjaan. Sakernas adalah suatu survei dengan desain sampling bertahap (multistage Jurusan Statistika-FMIPA-Unpad 2011
110
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
sampling). Rancangan sampel Sakernas adalah rancangan sampel berstrata dua tahap (stratified two stage sampling) (BPS, 2009) Penelitian tentang setengah penganggur di Indonesia, pernah dilakukan oleh Harfina, 2009. Penelitian ini dilakukan di pedesaan Jawa Tengah dengan menggunakan data Sakernas 2007. Penelitian ini bertujuan untuk memodelkan setengah penganggur dan faktor-faktor yang mepengaruhinya dengan menggunakan alat analisis regresi logistik. Status setengah penganggur dalam penelitian ini merupakan variabel biner,
dengan kondisi setengah
penganggur atau bukan setengah penganggur. Namun penelitian ini belum memperhatikan bahwa data status setengah penganggur tersebut mempunyai struktur data hirarkis. Dalam penelitian dengan data bertingkat, struktur data dalam populasi adalah hirarkis. Populasi seperti itu biasanya akan menghasilkan suatu sampel dengan struktur bertingkat (multistage) juga. Atas pertimbangan biaya, waktu dan efisiensi, sampel-sampel bertingkat terstratifikasi (stratified multistage samples ) menjadi pilihan untuk survei demografi dan sosial. Untuk sampel seperti itu pengklasteran dari data perlu mendapatkan perhatian dalam tahapan analisis dan pelaporan data. Karena sampel-sampel ini, walaupun efiesien untuk penaksiran jumlah-jumlah deskripsi populasi, namun memunculkan banyak tantangan untuk inferensi berbasis model yang berhubungan dengan statistik (Khan dan Shaw 2011). Tujuan dari makalah ini adalah untuk menghasilkan model bagi status setengah penganggur dengan memperhatikan bahwa data yang digunakan memiliki struktur hirarkis.
2.
STATUS SETENGAH PENGANGGUR Menurut konsep The Labor Force Concept yang disarankan oleh The International Labor
Organization (ILO) penduduk dibagi menjadi dua kelompok, yaitu penduduk usia kerja dan penduduk bukan usia kerja. Penduduk usia kerja adalah penduduk berumur 15 tahun dan lebih. Selanjutnya, penduduk usia kerja ini dibedakan menjadi dua kelompok berdasarkan kegiatan utama yang sedang dilakukannya. Kelompok tersebut adalah angkatan kerja dan bukan angkatan kerja (BPS, 2009). Angkatan kerja yang bekerja, dapat mempunyai status sebagai pekerja penuh atau setengah penganggur. Pada makalah ini, konsep setengah penganggur
yang digunakan
adalah mereka yang bekerja di bawah jam kerja normal yaitu kurang dari 35 jam seminggu. Status setengah penganggur terdiri dari setengah penganggur atau bukan setengah penganggur. Status setengah penganggur dipengaruhi oleh beberapa variabel. Variabel tersebut adalah jenis kelamin, umur, tingkat pendidikan, status perkawinan, status dalam rumah tangga, lapangan pekerjaan, status pekerjaan, dan jenis pekerjaan (Harfina, 2009).
Jurusan Statistika-FMIPA-Unpad 2011
111
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Selain itu, bila dibedakan menurut klasifikasi perkotaan dan perdesaan, penduduk yang bekerja di perdesaan lebih banyak yang mempunyai jam kerja kurang dari jam kerja normal yang dapat dikategorikan juga sebagai setengah penganggur, jika dibandingkan dengan yang bekerja di perkotaan (Bellante dan Jackson 1983) 3.
MODEL MULTILEVEL LOGISTIK Untuk sample terklaster bertingkat, ketergantungan antar pengamatan-pengamatan
sering kali berasal dari level hirarki. Selain itu kebergantungan antara pengamatan individual juga muncul. Munculnya kebergantungan antara pengamatan individual, dapat disebabkan oleh sampel yang tidak diambil secara acak, tetapi menggunakan sampling klaster dari wilayah geografis. Dalam hal ini, penggunanaan model statistik level tunggal tidak lagi beralasan dan valid. Karenanya, untuk mendapatkan inferensi dan kesimpulan yang tepat dari data survei terstratifikasi bertingkat, dibutuhkan teknik pemodelan multilevel (Khan dan Shaw 2011). Analisis data bertingkat (multilevel) telah dimulai pada pertengahan 1980-an dalam pengukuran pendidikan dan sosiologi (Leeuw dan Meijer, 2008). Secara historis, masalah multilevel mengarahkan pada pendekatan analisis yang memindahkan semua variabel dengan penggabungan atau pemecahan pada suatu level ketertarikan. Kemudian diikuti dengan suatu metode analisis atau model statistik (Hox, 2002). Dalam hal ini adalah model multilevel logistik (Goldstein, 2011). Model multilevel juga dikenal dengan beberapa sebetun lain. Nama lainnya adalah mixed model (McCulloch dan Searle, 2001), dan juga hierarchical model (Raudenbush dan Bryk, 2002) Untuk kondisi data multilevel, maka perlu memperhatikan ketergantungan dalam klaster dan perbedaan antar klaster, hal mana yang tidak ada dalam model linier umum (GLM) standar. Maka, selanjutnya akan diperkenalkan istilah vektor dimensi Q dari paramter klaster tertentu,
= θ ,…,θ
. Vektor ini berindeks , menyatakan bahwa adanya
hubungan dengan klaster . Suatu himpunan prediktor yang bersesuaian dengan efek dari masing-masing klaster dinyatakan oleh
. Dalam GLM dengan variabel klaster tertentu,
rata-rata yang ditransformasi dari suatu pengamatan,
= (
) , diregresikan pada
prediktor sebagai berikut: (
)=
+
(1)
Pengembangan dari model regresi logistik menjadi suatu model dengan parameter klaster tertentu menyertakan suatu intersep terpisah
Jurusan Statistika-FMIPA-Unpad 2011
, untuk masing-masing klaster.
112
PROSIDING Seminar Nasional Statistika | 12 November 2011 Dalam hal ini,
= 1 untuk seluruh
ISSN : 2087-5290. Vol 2, November 2011
dan , maka model regresi logistik dua level akan
menjadi: P(
= 1| ,
)=
(2)
Selanjutnya peluang atau fungsi kepadatan dari suatu pengamatan tunggal, bersyarat pada parameter-paramter dalam model dilambangkan dengan:
(
| ,
) . Peluang
gabungan atau fungsi kepadatan gabungan dari bentuk respon untuk klaster n dinyatakan sebagai: ( | ,
)=∏
(
| ,
).
Model dari generalized linier mixed model (GLMM) yang paling umum diterapkan dalam praktek adalah GLMM dengan efek acak (random effect) yang berdistribusi normal. Dalam model ini, peluang marjinal dari suatu bentuk pengamatan ( | )=∫ dengan Φ(
∏
(
| ,
) Φ(
| , )
=∫
diperoleh dengan: ( | ,
)Φ(
| , )
(3)
|0, ) adalah distribusi normal multivariat dengan vektor rata-rata adalah
vektor 0, dan matrik kovarians .
4.
PENAKSIRAN MODEL MULTILEVEL LOGISTIK Untuk beberapa model dari GLMM, integral pada persamaan (3) mempunyai
penyelesaian analitis. Namun untuk model yang akan digunakan pada makalah ini yaitu model logistik-normal, integral dari persamaan (3) tidak mempunyai solusi analitik. Ada dua cara penyelesaian umum yang digunakan untuk menyelesaikan persamaan (3). Cara pertama adalah memperkirakan integralnya. Cara ini misalnya dapat dilakukan dengan Gauss-Hermite Quadrature atau Adaptive Gauss-Hermite Quadrature. Sedangkan cara kedua adalah memperkirakan integrannya terlebih dahulu, sehingga integralnya bisa diselesaikan kemudian. Cara kedua ini biasanya dilakukan dengan Laplace Approximation dan metode quasi-likelihood (Tuerlinckx et al. 2006). Pada makalah ini, metode penaksiran yang akan digunakan adalah metode kedua, yaitu dengan pendekatan penalized quasi-likelihood (PQL). Untuk menjelaskan metode ini dimulai dengan memecah suatu pengamatan sebagai rata-rata dan bentuk erornya (Tuerlinckx et al. 2006). =
+
=
+
+
(4)
b(.) adalah fungsi respon. Untuk model multilevel logistik, bentuknya menjadi:
Jurusan Statistika-FMIPA-Unpad 2011
113
PROSIDING Seminar Nasional Statistika | 12 November 2011
=
=P(
+
= 1| ,
)=
=
ISSN : 2087-5290. Vol 2, November 2011
exp
+
1 + exp
+
Pendekatan PQL dimulai dengan suatu aproksimasi Taylor bagi fungsi respon, untuk taksiran efek tetap . Rata-rata kemudian dievaluasi pada ∗.
dan
, dan dinyatakan sebagai
Dan perkiraan varians dari error dinyatakan sebagai (
). Maka pengamatan
,
dapat dinyatakan sebagai: ≈
+
+
+ =
+
+ ∗
−
+ (
Semua pengamatan
∗)
∗
+
+ (
−
dan error
pada X dan Z. Rata-rata
−
∗)
−
+
(5)
bisa disusun dalam vektor kolom
pada vektor
, dan taksiran varians (
∗)
dan ,
dan
pada suatu
matriks diagonal V. Maka persamaan (5) akan dapat dituliskan menjadi: ≈
∗
+
−
∗
+
−
∗
+
Dengan menyusun ulang persamaan dengan memindahkan dengan
∗
, dan juga memindahkan ∗
Error
∗
≡
∗
( −
dan ∗)
Konsekuensinya, varians dari ( ∗) ≈
+
+
=
∗ ∗ secara
(
≈ ∗.
+
∗
(6)
Maka: ( ∗)
∗
+
∗
≈
∗
perkiraan adalah:
+
=
5.
ke sisi kiri, akan menghasilkan:
selanjutnya akan dinyatakan dengan ( ∗) =
ke sisi kiri dan mengalikan
+ +
∗)
≈
(
)
+
∗
∗
(7)
DATA DAN VARIABEL PENELITIAN Data yang digunakan dalam makalah ini adalah data sekunder yang bersumber dari
Survei Angkatan Kerja Nasional (Sakernas) 2010 untuk Provinsi Nusa Tenggara Barat (NTB). Provinsi NTB, teridiri dari 8 Kabupaten dan 2 Kota Madya. Data Sakernas yang digunakan adalah data Sakernas semester II, yang dilaksanakan pada bulan Agustus 2010. Struktur data yang digunakan dalam makalah ini dapat dilihat pada Gambar 1. Pada Gamar 1 terlihat bahwa masing-masing Kabupaten/Kota memuat sampel rumah tangga (RT).
Jurusan Statistika-FMIPA-Unpad 2011
114
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Gambar 2. Struktur Hirarki Data Sakernas Untuk Makalah Berdasarkan model (2), maka variabel penelitian yang digunakan adalah variabel status setengah penganggur (STATSP) sebagai variabel respon. Sedangkan variabel-variabel prediktornya adalah variabel umur (UMUR), jenis kelamin (JK), pendidikan tertinggi yang ditamatkan (PENDDK), status perkawinan (STATP), hubungan dengan kepala rumah tangga (HUBKRT), lapangan pekerjaan utama (LAPPU), status pekerjaan utama (STATPU), jenis pekerjaan utama (JENPU), dan klasifikasi daerah tempat tinggal (KLASDT). Untuk variabel pendidikan tertinggi yang ditamatkan (PENDDK) dikelompokan atas tiga kategori yaitu rendah, sedang dan tingggi. Variabel status perkawinan (STATP) dikelompokan atas kategori belum kawin dan sudah kawin (kawin dan cerai), variabel hubungan dengan kepala rumah tangga (HUBKRT) dikelompokan menurut kategori kepala rumah tangga dan bukan kepala rumah tangga. Untuk lapangan pekerjaan utama (LAPPU) dikelompokan menjadi kategori pertanian dan non pertanian, status pekerjaan utama (STATPU) dikelompokan atas tiga kategori wirausaha, pegawai/buruh tetap dan pegawai/buruh tidak tetap serta pekerja tidak dibayar. Sedangkan untuk jenis pekerjaan utama (JENPU) dikategorikan menjadi tenaga usaha pertanian, operator angkutan, pekerja kasar serta lainnya, dan non tenaga usaha pertanian, operator angkutan, pekerja kasar serta lainnya, sedangkan klasifikasi daerah tempat tinggal (KLASDT), dikategorikan menjadi perdesaan dan perkotaan.
6.
HASIL DAN PEMBAHASAN Pengolahan dilakukan dengan bantuan paket program R, dengan memanfaatkan
librarry MASS. Misalnya dicoba untuk model sederhana dengan hanya intersep acak pada level 2 (Kabupaten/Kota), diperoleh hasil seperti terlihat pada Tabel 1. Taksiran efek tetap
Jurusan Statistika-FMIPA-Unpad 2011
115
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
pada Tabel 1, memang terlihat hampir sama antara model satu level dan model dua level, sehingga belum menunjukan perbedaan. Hal yang sama juga terlihat dari hasil penghitungan nilai standar error untuk taksiran tiap-tiap efek, nilai standar error antara model satu level dengan model dua level tidak berbeda jauh. Misalnya taksiran untuk model dua level dengan PQL untuk status setengah penganggur nilai expected log odds nya adalah -1.2443. Maka nilai odds nya adalah exp(−1.2443) = 0.2881
.
1⁄ 1 + exp −(−1.2443)
= 0.2237. Sedangan untuk nilai yang dihasilkan dari model
Nilai
ini
bersesuaian
dengan
nilai
peluang
logistik standar adalah exp(−1.2433) = 0.2884 yang bersesuaian dengan nilai peluang 1⁄ 1 + exp −(−1.2443)
= 0.2239. Dapat dilihat bahwa perbedaan antara nilai yang
dihasilkan dari model dua level dengan model satu level memang sangat kecil.
Tabel 1. Taksiran Efek Tetap dan Efek Acak Model Multilevel Logistik Sederhana Model Satu Level (FS) Efek Model
Model 2 Level (PQL)
Taksiran
Sig.
Std. Error
Odds
Taksiran
Sig.
Std. Error
Odds
Intersep
-1.2433
***
0.1424
0.288
-1.2443
***
0.1998
0.288
Jk
0.5263
***
0.0628
1.693
0.5367
***
0.0644
1.710
Umur
0.0124
***
0.0021
1.012
0.0121
***
0.0021
1.012
Penddk1
-0.8508
***
0.1039
0.427
-0.7112
***
0.1065
0.491
Penddk2
-0.6630
***
0.0978
0.515
-0.6168
***
0.0992
0.540
Statp
0.4127
***
0.0744
1.511
0.4246
***
0.0759
1.529
Hubkrt
0.0996
0.0699
1.105
0.0912
0.0716
1.096
Efek Tetap
Lappu
1.0202
***
0.0602
2.774
0.9751
***
0.0621
2.651
Statpu1
-0.2092
**
0.0745
0.811
-0.1528
*
0.0762
0.858
Statpu2
0.4917
***
0.0579
1.635
0.4717
***
0.0593
1.603
Jenpu
-0.0039
0.0689
0.996
0.0061
0.0705
1.006
Klasdt
0.3676
0.0506
1.444
0.2300
0.0585
1.259
***
***
Efek Acak Intersep
0.4315
(Kab./Kot.)
Ket: *** 0.001, ** 0.01, * 0.05
Jurusan Statistika-FMIPA-Unpad 2011
116
PROSIDING Seminar Nasional Statistika | 12 November 2011 7.
ISSN : 2087-5290. Vol 2, November 2011
PENUTUP Penerapan model multilevel (dua level) logistik sederhana (hanya intersep pada level
2) untuk data status setengah penganggur dengan metode penaksiran penalized quasilikelihood (PQL) menghasilkan nilai taksiran yang hampir sama untuk nilai efek tetap dengan model logistik satu level. Untuk keperluan penelitian lebih lanjut, dapat menerapkan model yang lebih rumit, misalnya model multilevel dengan random slope (Khan dan Shaw 2011). Selain itu penggunaan metode penaksiran penalized quasi-likelihood (PQL) juga menjadi catatan tersendiri. Meskipun metode ini merupakan salah satu metode yang populer, namun taksiran yang dihasilkan bisa menjadi kurang baik pada beberapa situasi (Tuerlinckx et al. 2006). Untuk itu pada penelitian selanjutnya, agar dapat menghasilkan nilai taksiran yang lebih meyakinkan, dapat diterapkan metode penaksiran tambahan, misalnya dengan metode integral numerik untuk menaksir integral pada persamaan (3), metode Monte Carlo Integration (Tuerlinckx et al. 2006) dan juga metode Bayesian (Browne dan Draper, 2000). Perbandingan nilai taksiran dengan metode-metode ini, akan dapat dijadikan penilaian untuk mengevaluasi hasil taksiran PQL.
8.
DAFTAR PUSTAKA
Badan Pusat Statistik (BPS). 2009. Keadaan Angkatan Kerja Indonesia Agustus 2008. Jakarta: Badan Pusat Statistik. Bellante, D dan Jackson, M. 1983. Ekonomi Ketenagakerjaan. Jakarta: Lembaga Penerbit Fakultas Ekonomi Universitas Indonesia Browne, W.J. dan Draper, D. 2000. Implementation and performance issues in the Bayesian and likelihood fitting of multilevel models. Computational statistics, 15: 391–420 Goldstein, Harvey .2011. Multilevel Statistical Models 4th Edition. West Sussex: John Wiley & Sons Ltd Harfina, Dewi. 2009. Faktor-faktor yang Mempengaruhi Pengangguran Terselubung Di Perdesaan Jawa Tengah Analisis Data Sakernas 2007. Jurnal Kependudukan Indonesia:Vol IV No. 1 Hox, J. 2002. Multilevel Analysis Techniques and Applications. New Jersey: Lawrence Erlbaum Associates, Inc Khan, Md. Hasinur Rahaman dan Shaw, J. Ewart H. 2011. Multilevel Logistic Regression Analysis Applied to Binary Contraceptive Prevalece Data. Journal of Data Science 9:93110. Leeuw, Jan de dan Meijer, Erik. 2008. Introduction to Multilevel Analysis. Dalam Leeuw, Jan de dan Meijer, Erik (Penyunting). “Handbook of Multilevel Analysis”. New York: Springer Science+Business Media, LLC Maynard, Douglas C. dan Feldman, Daniel C. 2011. Introduction. Dalam Maynard, Douglas C. dan Feldman, Daniel C (penyunting). “Underemployment Psychological, Economic, and Social Challenges”. New York: Springer McCulloch, Charles E. dan Searle, Shayle R. 2001. Generalized, Linier, and Mixed Models. New York: John Wiley & Sons, Inc. Jurusan Statistika-FMIPA-Unpad 2011
117
PROSIDING Seminar Nasional Statistika | 12 November 2011
ISSN : 2087-5290. Vol 2, November 2011
Raudenbush, S. W., dan Bryk, A. S.2002. Hierarchical linear models: Applications and data analysis methods (2nd ed.). London: Sage. R Development Core Team 2011. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org/. Tuerlinckx et al. 2006.Statistical inference in generalized linear mixed models: A review. British Journal of Mathematical and Statistical Psychology 59: 225–255 Venables, W. N. & Ripley, B. D.2002. Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
Jurusan Statistika-FMIPA-Unpad 2011
118