PENDUGAAN PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL) Shaifudin Zuhdi, Dewi Retno Sari Saputro Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Sebelas Maret
ABSTRAK. Model regresi logistik biner (MRLB) merupakan model regresi berganda dengan variabel terikatnya merupakan variabel biner (0 dan 1). Pendugaan parameter MRLB dapat menggunakan pendugaan maksimum likelihood (PML). Dengan PML diperoleh fungsi yang harus dioptimalkan sehingga pada akhirnya diperoleh estimator parameternya. Secara komputasi, penyelesaian secara analitik tidak menguntungkan, oleh karena itu diperlukan software pendukung yang salah satunya diantaranya dengan spreadsheet solver (add-in Microsoft Excel). Solver merupakan salah satu prosedur yang dipergunakan untuk menghitung nilai atau kombinasi beberapa nilai yang menghasilkan output paling optimal. Tujuan penulisan artikel ini adalah melakukan pendugaan parameter pada MRLB, menghitung statistik G, dan nilai kritis pengujian berdasar sebaran chi-square dengan spreadsheet solver. Spreadsheet solver memberikan kemudahan perhitungan untuk pendugaan parameter model regresi logistik biner menggunakan metode maksimum likelihood. Kata Kunci: regresi logistik biner, maksimum Likelihood, spreadsheet solver 1. PENDAHULUAN Model regresi merupakan salah satu model stokastik yang sering digunakan di dalam analisis data pengamatan bertujuan untuk melihat hubungan antara suatu variabel bebas dan satu atau lebih variabel terikatnya. Data yang digunakan pada model regresi dapat berupa data kontinu atau data diskret. Apabila peubah respon berskala kontinu dan menyebar normal maka disebut dengan model regresi normal atau klasik, sebaliknya apabila peubah respon berskala biner model regresinya disebut model regresi logistik (Ryan, 1997). Model regresi logistik merupakan model stokastik yang menggambarkan hubungan antara peubah prediktor dengan peubah respon yang mempunyai dua atau lebih kategori dengan peubah prediktor yang menggunakan skala kategorik maupun interval (Hosmer dan Lemeshow, 1989. Pendugaan parameter model regresi logistik tidak dapat menggunakan metode kuadrat terkecil (ordinary least square/OLS) seperti halnya model regresi linear. Berdasarkan asumsi yang biasa digunakan untuk regresi linear (misalnya asumsi kenormalan atau kehomogenan varians), metode kuadrat terkecil menghasilkan estimasi parameter dengan sifat-sifat statistik yang diinginkan yakni tak bias dan memiliki varians minimum (Maharani dkk., 2007). Berbeda dengan estimasi model regresi linear, metode kuadrat terkecil tidak dapat diterapkan untuk model regresi logistik karena penduga parameter yang dihasilkan tidak lagi memiliki sifat-sifat statistik yang diinginkan yaitu asumsi homoskedastisitas yang tidak mungkin dipenuhi oleh distribusi Bernoulli. Hal ini
ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)
disebabkan karena variansi distribusi Bernoulli berubah-ubah bergantung pada nilai peluang suksesnya. Alternatif metode yang dapat digunakan adalah maksimum likelihood. Proses komputasi dari metode ini tidak sederhana sehingga diperlukan software pendukung, dan yang paling sederhana dengan memanfaatkan spreadsheet solver (add in Microsoft Excel). Solver merupakan salah satu prosedur yang tersedia pada add-in Microsoft Excel dan dapat dipergunakan untuk menghitung nilai atau kombinasi beberapa nilai yang menghasilkan output paling optimal (Dodson et al., 1998). Dengan prosedur ini, dapat dimasukkan fungsi dari satu atau beberapa sel pada spreadsheet Excel, kemudian diperoleh nilai di sel-sel tersebut yang dapat menghasilkan fungsi dengan nilai maksimum, minimum, atau yang paling mendekati nilai target. Konsep kerja solver add-in ini tidak secara analitik, namun dilakukan secara numerik dengan beberapa iterasi. Beberapa penelitian yang telah memanfaatkan spreadsheet solver adalah Setiawan (2010) dan Muhammad dkk. (2013) untuk mendapatkan output paling optimal dari suatu fungsi matematis/fungsi tujuan (linear maupun nonlinear) dengan kendala atau tidak dengan kendala dan hal itu memberikan kemudahan dalam hal komputasi. Sejalan dengan kelebihan dan kepraktisan pemanfaatan spreadsheet solver yang dinyatakan oleh Dodson et al. (1998) dan pemanfaatannya oleh Setiawan (2010) dan Muhammad dkk. (2013), pada artikel ini dilakukan pendugaan parameter model regresi logistik biner dengan memanfaatkan spreadsheet solver. 2.
METODE PENELITIAN
Penelitian ini merupakan penelitian terapan dengan terlebih dahulu melakukan penelusuran pustaka dan pengkajian terkait materi penelitian, selanjutnya diberikan ilustrasi pendugaan parameter dan pengujian parameternya dengan memanfaatkan spreadheet solver. Adapun materi yang dimaksudkan meliputi materi-materi model regresi logistik biner, estimasi parameter model regresi logistik biner, dan spreadheet solver. Berikut adalah langkah-langkah penggunaan solver. a. Melakukan pengumpulan data dan penentuan variabel bebas dan terikatnya (sumber data untuk ilustrasi website University of California (http://idre.ucla.edu)). b. Meng-input-kan nilai variabel respon dan variabel terikat pada sheet. c. Mengidentifikasi masalah yaitu estimasi parameter dan pengujian parameter. d. Setting solver add-ins. Pada tahap ini dilakukan pengaktifan solver add-ins, kemudian mengatur sel excel tempat penginputan data dan hasil perhitungan, penulisan formula serta setting pembatas model dan terakhir menampilkan hasil dengan menekan tombol solve.
Seminar Nasional Matematika, Sains, dan Informatika 2015
2
Prosiding
ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)
e. Menyelesaikan masalah dengan pemanfaatan spreadsheet solver untuk memeperoleh estimasi parameter 𝛽 (diperoleh fungsi likelihood yang maksimum dan memperoleh nilai statistik uji G). f. Menentukan nilai chi-square dengan solver add-ins statistik uji penolakan 𝐻𝑜 . 3. HASIL PENELITIAN DAN PEMBAHASAN Hasil dan pembahasan meliputi pembahasan analisis regresi logistik dan uji hipotesisnya serta pendugaan parameternya dengan solver Add-Ins, selengkapnya diuraikan seperti berikut. 3.1 Model Regresi Logistik Biner Model regresi logistik biner adalah suatu model yang menggambarkan hubungan antara beberapa variabel prediktor dengan sebuah variabel respon biner. Variabel respon pada model regresi logistik dikatakan biner karena terdiri dari dua kategori yaitu 0 dan 1 (Agresti, 2002). Model regresi logistik biner digunakan untuk memperoleh probabilitas terjadinya variabel prediktor dan dinyatakan sebagai 𝜋(𝑥) ) 1−𝜋(𝑥)
ln (
= 𝛽0 + 𝛽1 𝑥1 + 𝛽2 𝑥2 + ⋯ + 𝛽𝑖 𝑥𝑖
(1)
dengan 𝑥𝑖 adalah variabel prediktor ke-i, 𝜋(𝑥) adalah peluang yang bergantung pada variabel 𝑥𝑖 dan 𝛽𝑖 adalah parameter ke-i dengan 𝑖 = 1, 2, 3, . . . , 𝑛. Parameter 𝛽𝑖 dapat diduga dengan pendugaan maksimum likelihood (PML) atau dengan iterasi NewtonRaphson. Pada penelitian ini estimasi parameter model regresi logistik biner menggunakan PML. Pendugaan parameternya dengan memaksimumkan fungsi likelihood. Karena 𝑌 bersifat biner, distribusi Bernoulli dapat digunakan untuk menyatakan distribusi Y. Dengan demikian fungsi likelihood dinyatakan sebagai 𝐿(𝛽) = ∏𝑛𝑖=1 𝜋(𝑥𝑖 )𝑦𝑖 (1 − 𝜋(𝑥𝑖 ))1−𝑦𝑖 (2) 𝑒𝑥𝑝(𝛽 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑖 𝑥𝑖 )
dengan 𝜋(𝑥𝑖 ) = 1+𝑒𝑥𝑝(𝛽0
.
0 +𝛽1 𝑥1 +𝛽2 𝑥2 +⋯+𝛽𝑖 𝑥𝑖 )
Persamaan (2) merupakan persamaan dengan fungsi nonlinear, untuk dapat melihat hubungan antara variabel respon dengan variabel prediktor diperlukan fungsi linear. Oleh karena itu, dilakukan transformasi logaritma pada persamaan (2) dan diperoleh 𝐿𝐿(𝛽) = log(𝐿(𝛽)) = ∑𝑛𝑖=1 𝑦𝑖 log 𝜋(𝑥𝑖 ) + (1 − 𝑦𝑖 )log(1 − 𝜋(𝑥𝑖 )). (3) Estimasi parameter 𝛽 diperoleh dengan memaksimumkan LL(𝛽). Yang perlu menjadi perhatian bahwa fungsi logaritma bersifat monoton naik sehingga jika fungsi log-likelihood mencapai maksimum, maka fungsi likelihood juga akan mencapai maksimum. Selanjutnya untuk mengetahui pengaruh dari variabel respon terhadap variabel prediktor dapat dilakukan uji signfikansi secara simultan (Hosmer & Lemeshow, 1989). Adapun hipotesisnya adalah 𝐻0 : 𝛽0 = 𝛽1 = 𝛽2 =. . . = 𝛽𝑝 = 0 (tidak ada pengaruh variabel
Seminar Nasional Matematika, Sains, dan Informatika 2015
3
Prosiding
ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)
bebas secara simultan terhadap variabel terikat) dan H1 : ada pengaruh variabel bebas secara simultan terhadap variabel terikat) dan statistik uji yang digunakan dinyatakan sebagai 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑡𝑎𝑛𝑝𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑏𝑒𝑏𝑎𝑠
𝐺 = 2 log [𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 𝑑𝑒𝑛𝑔𝑎𝑛 𝑣𝑎𝑟𝑖𝑎𝑏𝑒𝑙 𝑏𝑒𝑏𝑎𝑠]
(4)
Statistik G mengikuti distribusi 𝜒 2 dengan derajat bebas 𝑝 dan statistik ujinya adalah H0 ditolak jika 𝐺 > 𝜒 2 (𝛼,𝑝) . 3.2 Spreadsheet Solver (Add-Ins Microsoft Excel) Salah satu penggunaan komputer sebagai alat bantu dalam proses pengambilan keputusan adalah penggunaan berbagai jenis spreadsheet Solvers. Solver adalah sebuah spreadsheet optimizer dan goal-seeking yang merupakan program add-in dalam software microsoft excel (ME). Spreadsheet solver adalah Microsoft Excel add-in, program ini secara otomatis ter-install ketika ME di-install. Untuk menggunakannya dalam ME harus diaktifkan dahulu solver-nya (http://www.solver.com). Adapun langkah pengaktifannya dilakukan dengan klik pada File tab, klik Options, dan kemudian klik Add-Ins Category; dalam kotak Manage, klik Excel Add-ins, kemudian klik Go. Kotak dialog Add-Ins akan muncul ; pada kotak Add-Ins dilakukan cek list dan kemudian klik OK. Berikut adalah langkah-langkah penggunaan solver add-ins bersumber http://office.microsoft.com/en-us/excel-help/load-the-solver-add-inHP010342660.aspx? CTT=3). 1. Set target cell : target sel berisi kuantitas atau jumlah yang dioptimumkan yaitu nilai fungsi tujuan. Untuk menentukan letak target sel, klik pada sel yang telah ditentukan atau ketik nama selnya. 2. Equal to : menentukan arah optimasi, bila kasusnya biaya maka dipilih min, sedangkan apabila kasusnya keuntungan maka dipilih max. 3. By changing cells : kolom ini diisi dengan sel pada sheet dimana akan ditampilkan nilai variabel. Nilai variabel ini lah yang akan mengoptimumkan fungsi tujuan. 4. Subject to the constraints : menentukan kendala dengan mengklik tombol Add, kemudian memasukkan fungsi kendala dengan mengisi sel sebelah kiri, dipilih tanda “= atau ≤ atau ≥” (sesuai fungsi pembatas/kendala), kemudian diisi sel sebelah kanan. Setelah seluruh kendala fungsional dimasukkan, ditekan tombol OK, dipastikan kembali bahwa telah dilakukan check list pembatas nonnegatif. 3.3 Pendugaan Parameter Model Regresi Logistik Biner dengan Spreadsheet Solver Ilustrasi penggunaan spreadsheet solver untuk menduga parameter model regresi logistik biner dan melakukan pengujian parameternya. Data ilustrasi bersumber dari website University of California (http://idre.ucla.edu), masalah dengan data tersebut adalah
Seminar Nasional Matematika, Sains, dan Informatika 2015
4
Prosiding
ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)
bagaimana variabel prediktor nilai menulis (writing/𝑋1), nilai membaca (reading/𝑋2), dan nilai matematika (mathematics/𝑋3) mempengaruhi seseorang memilih jenis kelas perkuliahan. Jenis data untuk variabel independen nilai menulis, membaca dan matematika adalah kuantitatif (skala data rasio) serta jenis data untuk variabel respon jenis kelas perkuliahan adalah kualitatif (skala data nominal yang terdiri atas: 1=berhasil, 2=tidak berhasil). Adapun variabel responnya menyatakan berhasil atau tidak berhasil masuk program studi tertentu dengan distribusi Bernoulli dengan tingkat peluang 0.95. Dengan dasar paragraf 1, selanjutnya dilakukan penggunaan spreadsheet solver dengan langkah awal adalah menyiapkan worksheet berisi data dan formula (dalam hal ini fungsi) yang diperlukan. Nilai dugaan awal untuk b0, b1, b2, dan b3 dapat diisi secara acak. Sel b0 merupakan pendugaan nilai 𝛽0, b1 merupakan pendugaan nilai 𝛽1, b2 merupakan pendugaan nilai 𝛽2, dan b3 merupakan pendugaan nilai 𝛽3. Langkah selanjutnya, pada kolom p, dihitung nilai dugaan peluang Y=1 dengan memasukkan nilai b0, b1, b2, dan b3 dan X1, X2, dan X3 pada persamaan (1). Nilai LL model didapat dengan menggunakan persamaan (3) dengan nilai p berasal dari kolom p. Nilai LL awal menggunakan nilai proporsi pada data yang berhasil (𝑌 = 1). Nilai LL awal dan LL model masing-masing dijumlahkan diletakkan pada sel terpisah. Pada ilustrasi ini, fungsi LL model pada sel G3 yang dimaksimumkan dengan mengubah-ubah nilai b0, b1, b2, dan b3 pada sel C1, C2, C3, dan C4. Pada Gambar 1 ditampilkan solver yang memuat kolom sel yang dioptimumkan, bentuk fungsi tujuan, dan sel yang ditentukan agar hasilnya optimum.
Gambar 1. Kotak dialog Solver yang harus diisi oleh user untuk mendapatkan estimasi
Pada saat nilai dugaan b0, b1, b2, dan b3 telah diperoleh, nilai LL model dan statistik uji
G
juga
diperoleh.
Pada
penerapan
ini
diperoleh
𝑏0 = 0, 𝑏1 = 0, 𝑏2 =
0.030061827, 𝑏3 = 0, dan 𝐺 = −2.353404985 (ditunjukkan pada Gambar 3). Proses berikutnya adalah mendapatkan nilai kritis chi-square dengan taraf signifikansi tertentu (dalam hal ini dipergunakan nilai 0.05). Dalam penerapan ini nilai kritis diletakkan pada sel H5 dan tingkat kesalahan pengujian pada sel G5, dengan G5 adalah fungsi dari H5. Fungsi yang digunakan adalah CHIDIST, yakni fungsi yang menghasilkan peluang suatu
Seminar Nasional Matematika, Sains, dan Informatika 2015
5
Prosiding
ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)
titik jatuh di sebelah kanan nilai tertentu pada sebaran chi-square. Solver kembali digunakan untuk mengarahkan nilai G5 mendekati nilai target tertentu, tampilan pada solver berdasarkan hal tersebut ditunjukkan pada Gambar 2.
Gambar 2. Kotak dialog untuk mendapatkan nilai kritis
Hasil akhir dari langkah-langkah yang dilakukan sebelumnya ditampilkan pada Gambar 3. Gambar 3 menunjukkan bahwa nilai statistik uji (G) adalah −2.353404985 2 dan nilai tabel chi-square (𝜒0.05(3) ) adalah 7.814727956 (ditunjukkan pada sel H5). 2 Dengan demikian 𝐻0 tidak ditolak karena 𝐺 < 𝜒0.05(3) , hal ini berarti variabel prediktor
tidak memiliki pengaruh signifikan terhadap variabel terikat. Masih pada Gambar 3, peluang sukses bahwa seorang mahasiswa berhasil lulus pada mata kuliah matematika adalah 0.76 (ditunjukkan pada sel G1).
Gambar 3. Hasil akhir pendugaan parameter dan pengujiannya
4. KESIMPULAN Spreadsheet solver memberikan kemudahan perhitungan untuk pendugaan parameter model regresi logistik biner menggunakan metode maksimum likelihood. DAFTAR PUSTAKA Agresti, A., Categorical Data Analysis, John Willey and Sons Inc., New Jersey, 2002.
Seminar Nasional Matematika, Sains, dan Informatika 2015
6
Prosiding
ESTIMASI PARAMETER REGRESI LOGISTIK BINER DENGAN SPREADSHEET SOLVER (ADD-IN MICROSOFT EXCEL)
Dodson, C.S, W. Prinzmetal, and A.P. Using Excel to estimate parameters from observed data: An example from source memory data. Behavior Research Methods, Instruments, & Computers 1998, 30 (3), 517-526 Hosmer, D.W dan Lemeshow. 1989. Applied Logistic Regression. Wiley and Sons. New York. Maharani, I.I, Hardiansyah, Bambang S. Aplikasi Regresi Logistik dalam Analisis Faktor Resiko Anemia Gizi pada Mahasiswa Baru IPB. Jurnal Gizi dan Pangan, Juli 2007 2(2): 36-43. Ryan, Thomas. P. 1997. Modern Regression Methods. New York: John Wiley & Sons, Inc. Setiawan, E. 2010. Penggunaan Solver sebagai Alat Bantu Kalibrasi Parameter Model Hujan Aliran. Journal Spektrum Sipil. Vol 1. No 1. Muhammad, C.H, Dwiyanto dan Z. Abidin. Optimalisasi Model Transshipment Di Pt. Primatexco Menggunakan Program Solver. Unnes. Journal Of Mathematics, Ujm 2(1) 2013.
Seminar Nasional Matematika, Sains, dan Informatika 2015
7
Prosiding