PENERAPAN ALGORITMA FUZZY C-MEANS DAN REGRESI PROBIT BINER (Studi Kasus: Data Lulusan Mahasiswa Fakultas MIPA Universitas Halu Oleo)
Skripsi
Untuk memenuhi sebagian persyaratan mencapai derajat Sarjana S-1
Oleh: MUH. GALIH BAHTIAR F1A112080
JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS HALUOLEO KENDARI 2016
KATA PENGANTAR
Segala puji bagi Allah S.W.T atas segala rahmat, taufik, karunia dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini dengan judul โPenerapan Algoritma Fuzzy C-Means dan Regresi Probit Binerโ serta salawat dan salam penulis haturkan atas Nabi Muhammad Shallallahu Alaihi Wasallam, keluarga, sahabat dan para pengikutnya. Penulis menyadari bahwa dalam penulisan skripsi ini tidak dapat terselesaikan tanpa bimbingan dan arahan dari Bapak Dr. Ruslan, S.Si., M.Si selaku pembimbing I dan Bapak Rasas Raya, S.Si., M.Si selaku pembimbing II yang telah banyak meluangkan waktunya untuk membimbing dan mengarahkan penulis sejak dari perencanaan hingga terselesaikannya skripsi ini serta memberikan dorongan dan motivasi kepada penulis. Oleh karena itu penulis mengucapkan banyak terima kasih. Ucapan terima kasih juga disampaikan kepada yang tersayang ayahanda Ansari Togala dan ibunda Siti Ramlah yang telah mendukung dan memberikan doa yang tulus ikhlas serta kasih sayangnya kepada penulis hingga skripsi ini selesai, saudara-saudaraku Muh. Naufal Hisyam, Muh. Maulana Malik Ibrahim, Muh. Dimas Rizky Alfaraz, Siti Zahra Meisya Putri dan Kayla Nurul Syahrin yang selalu memberikan doa dan semangat, semua itu penulis mendoakan menjadi pahala serta catatan amal kebaikan disisi Allah Subhanahu Wa Taโala.
iii
Suatu hal yang tidak terlupakan atas dorongan dan bimbingannya, serta arahan dan bantuan kepada penulis, maka patutlah kiranya penulis menyampaikan ucapan terima kasih dan penghargaan kepada semua pihak khususnya: 1.
Rektor Universitas Halu Oleo, Bapak Prof. Dr. Ir. H. Usman Rianse, M.S.
2.
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Halu Oleo, Bapak Dr. Muh. Zamrun F., S.Si., M.Si., M.Sc.
3.
Kepala Laboratorium Komputasi Matematika F-MIPA Universitas Halu Oleo, Ibu Norma Muhtar, S.Si., M.Si.
4.
Kepala Perpustakaan F-MIPA Universitas Halu Oleo, Ibu Dra. Hj. Indrawati, M.Si.
5.
Segenap Staf Administrasi dan Tata Usaha di Lingkungan F-MIPA Universitas Halu Oleo atas segala bentuk bantuan yang diberikan kepada penulis selama studi.
6.
Ketua Jurusan Matematika F-MIPA Universitas Halu Oleo, Bapak La Gubu, S.Si., M.Si. dan sekretaris jurusan Matematika, Bapak Rasas Raya, S.Si,. M.Si.
7.
Norma Muhtar, S.Si., M.Si. selaku penasehat akademik yang telah memberikan pengarahan dan bimbingan dalam memprogramkan mata kuliah serta seluruh staf pengajar di lingkungan F-MIPA Universitas Halu Oleo.
8.
La Gubu, S.Si., M.Si., Dr.rer.nat Wayan Somayasa, S.Si., M.Si dan Agusrawati, S.Si., M.Si selaku dewan penguji.
iv
9.
Sahabat Pelmaha Kendariyang memberikan Dorongan Ukhuwa Islamiyah dalam suka dan duka: Ustad Nur Soim, Ustad Umar, Ustad Mustakim, Ustad Tahzin, Ustad Ridwan, Mujib, Heri, Jifar, Ustra, Alan, Armin, Ahmad, Rizal, Akbar, Asdan, Hari, Iman, Ainul, Tazran, Fahmi dll yang tidak bisa disebutkan satu persatu.
10. Teman-teman MatematikaAngkatan 2012: Nurdahlia DS, Rianto, S.Mat, Rosni, S.Mat, Akwal, S.Mat, Egi, S.Mat, Dani, S.Mat, Pantry, S.Mat, Novita, S.Mat, Treni, S.Mat, Diana, S.Mat, Desi, S.Mat, Ila, Eka, Ekawati, Obil, Bertin, Astrid, Suri, Yuliana, Mergar, Rina, Nella dan lain-lain yang telah memberikan dorongan moral dan spiritual serta kebersamaan yang tidak terlupakan selama mengikuti perkuliahan. 11. Senior-senior Matematika: Ully Hidayati, Citrawan Fitri, Eka Rahmi, Rina, Mayan, Lia, Wahyu, Raful, Kalvin, Tono, Rajab, Idris, Ayu, Ati, Ismail,Naim dan semuanya yang tidak dapat disebutkan satu persatu. 12. Junior Matematika Angkatan 2013, 2014 dan 2015 dan Kawan-kawan SMA. Selanjutnya penulis menyadari bahwa penulisan skripsi ini masih jauh dari kesempurnaan. Sehingga dengan senang hati dan segala kerendahan hati penulis menerima segala saran yang sifatnya membangun demi penyempurnaannya. Akhir kata penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang membutuhkan. Kendari,
Agustus 2016
Penulis
v
DAFTAR ISI
Halaman HALAMAN JUDUL .............................................................................
i
HALAMAN PENGESAHAN ...............................................................
ii
KATA PENGANTAR ...........................................................................
iii
DAFTAR ISI ..........................................................................................
vi
DAFTAR GAMBAR .............................................................................
vii
DAFTAR TABEL .................................................................................
viii
DAFTAR LAMPIRAN .........................................................................
ix
ABSTRAK ............................................................................................
x
ABSTRACT ..........................................................................................
xi
BAB I PENDAHULUAN 1.1
Latar Belakang.................................................................
1
1.2
Rumusan Masalah ...........................................................
3
1.3
Tujuan Penelitian .............................................................
4
1.4
Manfaat Penelitian ...........................................................
4
BAB II TINJAUAN PUSTAKA 2.1
Clustering ........................................................................
5
2.2
Algoritma Fuzzy C-Means ...............................................
5
2.3
Statistik Deskriptif ...........................................................
9
2.4
Model RegresiLinear Umum ...........................................
10
2.5
Distribusi Normal ............................................................
12
2.6
Variabel Dummy .............................................................
14
2.7
Estimasi Parameter dengan Metode MLE .......................
15
2.8
Model Regresi Probability Unit (Probit)..........................
17
2.9
Uji Signifikansi Parameter ...............................................
23
2.10 Uji Kecocokan Model Regresi Probit .............................
26
2.12 Kerangka Pemikiran........................................................
27
vi
BAB III METODE PENELITIAN 3.1
Waktu dan Tempat Penelitian .........................................
29
3.2
Sumber Data ....................................................................
29
3.2
Variabel Penelitian ..........................................................
29
3.3
Prosedur Penelitian ..........................................................
30
BAB IV HASIL DAN PEMBAHASAN 4.1
Statistik Deskriptif ...........................................................
31
4.2
Clustering dengan Algoritma Fuzzy C-Means ................
33
4.3
Pembentukan Model Regresi Probit Biner ......................
37
4.3.1 Pembentukan Variabel Dummy ..............................
37
4.3.2 Uji Signifikansi Parameter Serentak ......................
38
4.3.3 Uji Signifikansi Parameter Parsial..........................
40
4.3.4 Uji Signifikansi Parameter SerentakModel Terbaik ...................................................................
41
4.3.5 Uji Signifikansi Parameter ParsialModel Terbaik ...................................................................
42
4.3.6 Uji Kecocokan Model.............................................
43
4.3.7 Interpretasi Model ..................................................
45
BAB V PENUTUP 5.1
Kesimpulan ......................................................................
48
5.2
Saran ................................................................................
49
DAFTAR PUSTAKA ............................................................................
50
LAMPIRAN ...........................................................................................
52
vii
DAFTAR GAMBAR
Gambar 2.1 Skema Perulangan Proses Iterasi..................................................
9
Gambar 2.2 Kurva Normal ...............................................................................
20
Gambar 2.3 Kurva Model Probit......................................................................
21
Gambar 4.1 Pie Chart Presentase lama studi dan IPK ....................................
32
Gambar 4.2 Pie Chart Kategori Hasil Clustering ............................................
37
Gambar 4.3 Hubungan Antara Probabilitas Status lulus dan jurusan ..............
45
Gambar 4.4 Hubungan Antara Probabilitas Status lulus dan IPS1 ..................
46
vii
DAFTAR TABEL
Tabel 4.1 Nilai Fungsi Obyektif Selama Iterasi ...............................................
33
Tabel 4.2 Derajat Keanggotaan untuk Setiap Cluster ......................................
35
Tabel 4.3 Anggota pada Kedua Cluster ...........................................................
36
Tabel 4.4 Variabel Respon dan Prediktor .......................................................
37
Tabel 4.5 Pembentukan Variabel Dummy ........................................................
38
Tabel 4.6 Uji Signifikansi Parameter Serentak ................................................
39
Tabel 4.7 Taksiran Parameter Parsial...............................................................
40
Tabel 4.8 Uji Signifikansi Parameter Model Terbaik ......................................
42
Tabel 4.9 Taksiran Parameter Model Terbaik..................................................
42
Tabel 4.10 Uji Hosmer dan Lemeshow............................................................
44
viii
DAFTAR LAMPIRAN
Lampiran 1. Solusi untuk Center P dan Anggota Matriks U..................
52
Lampiran 2. Data untuk Algoritma Fuzzy C-Means ..............................
54
Lampiran 3. Data untuk Analisis Regresi Probit Biner ..........................
56
Lampiran 4. Sourcecode dan Output Algoritma Fuzzy C-Means ..........
57
Lampiran 5. Sourcecode dan Output Regresi Probit Biner ....................
66
Lampiran 6. Tabel Normal Standar ........................................................
72
Lampiran 7. Tabel Distribusi Chi-Square.. ............................................
73
ix
PENERAPAN ALGORITMA FUZZY C-MEANS DAN REGRESI PROBIT BINER (Studi Kasus: Data Lulusan Mahasiswa Fakultas MIPA Universitas Halu Oleo )
OLEH: MUH. GALIH BAHTIAR F1A1 12 080 ABSTRAK Penelitian ini bertujuan untuk mengetahui karakteristik, clustering dan pemodelan faktor-faktor yang mempengaruhi lulusan mahasiswa Fakultas MIPA Universitas Halu Oleo Kendari. Clustering lama studi (๐1 ) dan IPK (๐2 ) mahasiswa menggunakan algoritma fuzzy c-means menghasilkan 2 status lulus yaitu kategori memuaskan dan pujian. Status lulus digunakan sebagai variabel respon (๐) pada model probit. Model pada analisis regresi probit biner diduga menggunakan 4 variabel prediktor yaitu jurusan (๐ฅ1 ), jenis kelamin (๐ฅ2 ), asal daerah (๐ฅ3 )dan Indeks Prestasi Semester 1 (๐ฅ4 ). Berdasarkan hasil uji kecocokan model dan Kriteria model terbaik menunjukkan bahwa variabel prediktor yang berpengaruh terhadap variabel respon yaitu jurusan dan Indeks Prestasi Semester 1. Variabel-variabel prediktor terpilih tersebut merupakan faktor-faktor yang mempengaruhi status lulus mahasiswa Fakultas MIPA Universitas Halu Oleo Kendari. Kata Kunci: Lulusan, Clustering, Algortima Fuzzy C-Means, Regresi Probit Biner.
x
APPLICATION OF FUZZY C - MEANS ALGORITHM AND BINARY PROBIT REGRESSION (Case Study: Students Graduated from Faculty of Science Halu Oleo University Data) BY: MUH. GALIH BAHTIAR F1A1 12 080 ABSTRACT
The aims of the research were to know characteristic, clustering and modeling the factors affecting graduate students of the Faculty of Science HaluOleo University Kendari. Clustering duration of the study (๐1 ) and GPA (๐2 ) of students using fuzzy c-means algorithm generates two graduate status is satisfactory category and praise. Status pass is used as the response variable (๐) in the probit model. Model on binary probit regression analysis allegedly used four predictor variables are majors (๐ฅ1 ), gender (๐ฅ2 ), national origin (๐ฅ3 ) and their GPA 1 (๐ฅ4 ). Based on the goodness of fit test results and the model fit criteria for best model showed that the predictor variables that influence the response variable is majors and their GPA 1. The variables are selected predictors are all factors that affect the status of graduate students of the Faculty of Science Halu Oleo University Kendari. Keywords: Graduates, Clustering, Fuzzy C -Means algorithms, Binary Probit Regression.
xi
xi
BAB I PENDAHULUAN 1.1
Latar Belakang Perkembangan ilmu pengetahuan dalam beberapa dekade terakhir,
memungkinkan semakin mudahnya memperoleh data dan informasi dalam jumlah yang besar. Pertumbuhan data yang tersimpan dalam suatu data base yang besar telah jauh melebihi kemampuan manusia untuk bisa memahami sehingga dibutuhkan suatu alat dan metode tepat yang mampu mentransformasikan sejumlah besar data kedalam informasi yang berguna untuk menunjang keakuratan informasi itu sendiri. Misalnya penyelesaian masalah analisis data multivariat dan metode statistika. Teknik analisis data multivariat dalam mencari pola sampel data berdasarkan proses pertumbuhan kelompok data homogen disebut clustering dan metode statistika yang dapat menjelaskan hubungan sebabakibat dari suatu data disebut analisis regresi. Salah satu permasalahan yang dapat dianalisis menggunakan Clustering dan regresi adalah permasalahan tentang kelulusan mahasiswa Perguruan Tinggi. Kelulusan mahasiswa merupakan hasil yang diperoleh mahasiswa dari proses belajarnya. Pada kenyataannya tidak semua mahasiswa lulus tepat waktu atau sesuai dengan waktu yang ditetapkan oleh tempat mahasiswa tersebut menempuh pendidikannya. Keberhasilan mahasiswa dalam menempuh studinya selain dapat dilihat dari waktu yang ditempuh, dapat juga diukur dari predikat kelulusan yang diperoleh. Predikat kelulusan ditetapkan berdasarkan pada lama studi yang ditempuh dan nilai Indeks Prestasi Kumulatif (IPK) mahasiswa. Oleh
1
karena itu, dalam menentukan kelulusan mahasiswa terdapat dua hal yang perlu diperhatikan yaitu berdasarkan lama studi yang ditempuh dan nilai IPK yang diperoleh. Pada Fakultas MIPA Universitas Halu Oleo, tidak semua mahasiswa disetiap jurusannya memenuhi persyaratan yang telah ditetapkan yakni lulus tepat waktu dengan IPK memuaskan atau pujian. Untuk mengetahui faktor-faktor penyebab kelulusan mahasiswa Fakultas MIPA Universitas Halu Oleo baik yang tepat waktu maupun yang tidak tepat waktu serta tetap memperhitungkan nilai IPK yang diperoleh mahasiswa diperlukan suatu analisis tepat yang dapat menyelesaikan permasalahan tersebut. Algoritma fuzzy c-means clustering mengusulkan model yang lebih mendekati pada permasalahan dunia nyata, yaitu bagaiman data dihasilkan dari pola yang teridentifikasi. Algoritma fuzzy c-means adalah pengenalan pola dengan pemodelan yang lebih fleksibel dan memudahkan pemecahan perhitungan dari masalah yang dirumuskan. Kelebihan fuzzy c-means bahwa penempatan posisi data pada cluster dilakukan dengan perbaikan penentuan pusat cluster awal dan nilai keanggotaan secara berulang (Asfi M, 2008). Salah satu model regresi yang dapat digunakan untuk menganalisis faktorfaktor yang mempengaruhi kelulusan mahasiswa adalah regresi probit. Pemodelan regresi probit biner berasal dari variabel respon kualitatif yang diawali dengan model regresi secara umum. Fungsi transformasi dalam model probit menggunakan fungsi distribusi kumulatif (CDF) dari distribusi normal standar. Kelebihan menggunakan regresi probit bahwa nilai-nilai yang diperoleh dari
2
pencocokan model (fitting) langsung dapat diubah menjadi probabilitas dengan menggunakan nilai dari tabel normal standar. Dalam hal ini kita hanya perlu mencari nilai probabilitas terkait dengan skor z yang diperoleh dari model (Hosmer & Lemeshow, 2000). Berdasarkan uraian di atas, maka penulis tertarik untuk melakukan kajian mengenai โPenerapan Algoritma Fuzzy C-Means dan Regresi Probit Binerโ. 1.2
Rumusan Masalah Berdasarkan uraian pada latar belakang diatas, maka masalah yang muncul
dapat dirumuskan sebagai berikut: 1. Bagaimana karakteristik lulusan mahasiswa Fakultas MIPA Universitas Halu Oleo ? 2. Bagaimana menerapkan metode clustering Algoritma fuzzy c-means untuk pengelompokkan data lulusan mahasiswa FMIPA Universitas Halu Oleo ? 3. Bagaimana memodelkan faktor-faktor yang mempengaruhi lulusan mahasiswa FMIPA Universitas Halu Oleo menurut status lulus hasil clustering fuzzy cmeans menggunakan regresi probit biner? 1.3
Tujuan Penelitian Tujuan yang akan dicapai pada penelitian ini adalah sebagai berikut:
1. Mengkaji karakteristik lulusan mahasiswa Fakultas MIPA Universitas Halu Oleo berdasarkan data yang ada. 2. Mengetahui pengelompokkan lulusan mahasiswa FMIPA Universitas Halu Oleo berdasarkan lama studi dan IPK menggunakan metode algoritma fuzzy cmeans. 3
3. Menerapkan/mengaplikasikan model regresi probit biner pada lulusan mahasiswa FMIPA Universitas Halu Oleo menurut status lulus hasil clustering algoritma fuzzy c-means. 1.4
Manfaat Penelitian Adapun manfaat pada penelitian ini adalah:
1. Bagi penulis Untuk memperdalam dan memperluas pengetahuan penulis tentang
data
mining dan matematika statistika serta dapat mengaplikasikan teori-teorinya untuk menyelesaikan masalah-masalah yang terjadi di lapangan. Terutama dalam menerapkan algoritma fuzzy c-means dan model regresi probit biner. 2. Bagi Matematika dan lembaga pendidikan Sumbangan pemikiran dan sebagai sarana informasi bagi pembaca dan sebagai bahan pelengkap referensi bagi pihak-pihak yang membutuhkan. 3. Bagi instansi terkait Dapat memberikan informasi kepada instansi terkait terhadap permasalahan yang terjadi yang selanjutnya dapat menjadi bahan pertimbangan dalam mengambil kebijakan.
4
BAB II TINJAUAN PUSTAKA 2.1
Clustering Perkembangan analisis cluster dimulai dari metode hierarchical yang secara
garis besar membentuk sebuah tree diagram yang biasa disebut dengan dendogram yang mendeskripsikan pengelompokan berdasarkan jarak, graphtheoritic melihat objek sebagai node pada network terboboti, mixture models mengasumsikan suatu objek dihasilkan dari skala data yang berbeda-beda, partitional lebih dikenal dengan metode non-hierarchy termasuk didalamnya adalah metode K-means cluster. Perkembangan terakhir dari analisis cluster mempertimbangkan tingkat keanggotaan yang mencakup himpunan fuzzy sebagai dasar pembobotan bagi pengelompokan yang disebut dengan fuzzy clustering (Bezdek, 1981). Clustering merupakan proses pengelompokkan data dalam kelas-kelas atau cluster-cluster sehingga data dalam suatu cluster memiliki tingkat kesamaan yang tinggi antara data satu dengan yang lainnya tetapi sangat berbeda dengan data pada cluster lain. Clustering juga dapat dianggap sebagai bentuk kompresi data dan aplikasi, berbagai jenis ukuran kesamaan dapat digunakan untuk mengidentifikasi kelas, di mana ukuran kesamaan mengontrol bagaimana cluster terbentuk. Beberapa contoh nilai-nilai yang dapat digunakan sebagai parameter kesamaan termasuk jarak, konektivitas dan intensitas. (Sowmya & Rani, 2004). 2.2
Algoritma Fuzzy C-Means Secara umum teknik dari fuzzy cluster adalah meminimumkan fungsi
obyektif dimana parameter utamanya adalah fungsi keanggotaan dalam fuzzy 5
(membership function) yang disebut juga dengan fuzzier (Klawonn & Hรถppner, 2001). Fuzzy c-means adalah suatu teknik clustering (pengelompokkan) data di mana keberadaan titik-titik data dalam suatu cluster ditentukan oleh derajat keanggotaan. Penentuan titik cluster dilakukan secara berulang-ulang hingga diperoleh data yang akurat berdasarkan derajat keanggotaannya. Perulangan ini didasarkan pada minimalisasi fungsi obyektif yang menggambarkan jarak dari titik data ke pusat cluster yang terbobot oleh derajat keanggotaan. Akibat adanya derajat keanggotaan tersebut, maka suatu titik data bisa dimiliki lebih dari suatu kelompok (Sowmya & Rani, 2004). Fuzzy C-Means (FCM) cluster pertama kali dikemukakan oleh Dunn (1973) dan kemudian dikembangkan oleh Bezdek (1981) yang banyak digunakan dalam pattern recognition. Metode ini merupakan pengembangan dari metode non hierarki K-means Cluster, karena pada awalnya ditentukan dulu jumlah kelompok atau cluster yang akan dibentuk. Kemudian dilakukan iterasi sampai mendapatkan keanggotaan kelompok tersebut. Metode ini adalah metode yang paling digemari karena merupakan metode yang paling robust (( Klawonn dan Hรถppner, 2001) dan (Klawonn, 2000)) dan memberikan hasil yang smooth (halus) dengan toleransi relatif (Shihab, 2000). Algoritma fuzzy c-means memiliki keuntungan yaitu dapat memahami karakteristik data yang kabur atau data yang tidak terdefinisikan, dapat mengelompokkan data yang besar, lebih kokoh terhadap data outlier dan penentuan titik cluster yang optimal(Simbolon et al., 2013). Prinsip utama pengelompokkan dengan fuzzy c-means cluster adalah meminimumkan fungsi obyektif.
6
Misalkan ๐น adalah himpunan bilangan real, ๐น๐ himpunan dari ๐ tuples dari bilangan real, ๐น+ himpunan real non negatif dan ๐๐๐ himpunan dari bilangan real matriks ๐ x ๐. ๐น๐ disebut ruang utamadan elemen-elemen ๐ฅ โ ๐น+ vektor utama; vektor๐ = (๐ฅ1 , ๐ฅ๐ , โฆ , ๐ฅ๐ ) adalah dibentuk dari bilangan real ๐. ๐๐๐ akan menunjukkan himpunan dari partisi fuzzy ๐ dari ๐. Defenisi 2.1.1 (Cannon et al,1986) Misalkan ๐๐๐๐๐ menyatakan sebuah partisi fuzzy ๐ dari ๐ dan misalkan ๐ข menyatakan ๐ tuple (๐1 , ๐2 , โฆ , ๐๐ ), ๐ข๐ โ ๐น๐ fungsi fuzzy c-means ๐ฝ๐ : ๐๐๐ x ๐น๐๐ โ ๐น+ didefenisikan sebagai ๐
๐ ๐
๐ฝ๐ (๐, ๐) = โ โ(๐๐๐ ) (๐๐๐ )
2
(2.1)
๐=1 ๐=1
dimana ๐๐๐๐๐ , merupakan sebuah partisi fuzzy ๐ dari ๐; ๐ = (๐1 , ๐2 , โฆ , ๐๐ ) โ ๐น๐๐ , dengan ๐ข๐ โ ๐น๐ pusat cluster atau bentuk dasar dari cluster ๐, 1 โค ๐ โค ๐, dan 2
๐๐๐ 2 = โ๐๐ โ ๐๐ โ ,
(2.2)
untuk setiap produk inti matriks norm โ. โ dan ๐ โ [1, โ). Keterangan: U dan ๐ adalah variabel yang kondisi optimalnya diharapkan, untuk matriks U kondisi optimalnya berarti konvergensi keanggotaan kelompok dalam FCM. ๐, c, m adalah parameter input dari ๐ฝ๐ .Dimana: ๏ท
c adalah jumlah cluster yang memenuhi ๐ (jumlah cluster yang diinginkan,
2๏ฃc๏ผ N)
7
๏ท
m ๏ณ 1 adalah tingkat ke-fuzzy-an dari hasil pengelompokkan artinya nilai m merepresentasikan eksponen pembobot untuk keanggotaan dan bernilai konstan yang mengontrol pembagian nilai fuzzy. Parameter ini disebut dengan fuzzier, nilai dari m yang sering dipakai dan dianggap yang paling halus adalah m=2 (Klawonn dan Hรถppner, 2001).
๏ท
uik adalah tingkat keanggotaan yang merupakan elemen dari matriks U.
๏ท
n jumlah observasi.
๏ท
2 ๐๐๐ adalah jarak observasi yang dapat dirumuskan kembali dari persamaan
(2.2) sebagai berikut: 2
๐
2 ๐๐๐ (x๐ , pi ) = โ๐ฑ๐ โ ๐ฉ๐ โ๐ด = (๐ฑ๐ โ ๐ฉ๐ ) ๐ด(๐ฑ๐ โ ๐ฉ๐ ) 2 jika A adalah matriks identitas maka ๐๐๐ adalah jarak Euclid.
Dengan menggunakan fungsi obyektif fuzzy c-means mempartisi data masuk ke dalam cluster-cluster hingga optimasi dari fungsi obyektif tercapai. Untuk perubahan membership atau keanggotaan data digunakan persamaan (2.4) dan pembaharuan pusat cluster digunakan persamaan (2.3). Algoritma pengelompokan fuzzy c-means cluster diberikan sebagai berikut: 1. Menentukan c banyak cluster atau kelompok yang ingin dibuat. 2. Menentukan tingkat ke-fuzzy-an hasil pengelompokan (m). 3. Menghitung fuzzy cluster center (p) dengan
persamaan (2.3) (Persamaan
diperoleh dari fungsi obyektif, lihat lampiran 1). ๐ โ๐๐=1 ๐ข๐๐ ๐ฅ๐ ๐๐ = ๐ ๐ โ๐=1 ๐ข๐๐
(2.3)
8
4. Update anggota matriks U dengan persamaan (2.4) (Persamaan diperoleh dari fungsi obyektif, lihat lampiran 1). 1
๐ข๐๐ =
(2.4)
1 2 (๐โ1) ๐๐๐ 2 ๐๐๐
โ๐๐=1 ( )
5. Keanggotaan data terhadap cluster dan pusat cluster akan terus mengalami perubahan hingga mencapai konvergensi di mana perubahan batas minimum distance error yang telah ditentukan sebagai termination criterion yang ditunjukkan dengan persamaan: |๐ฝ๐ โ ๐ฝ๐โ1 | < ๐ atau bandingkan nilai keanggotaan dalam matriks U, jika tidak banyak mengalami perubahan maka artinya sudah konvergen dan keanggotaannya sudah maksimal. Iterasi dihentikan dan didapatkan hasil pengelompokkan. Skema proses iterasi berlangsung :
Gambar 2.1 Skema perulangan proses iterasi 2.3
Statistik Deskriptif Analisis statistik deskriptif adalah statistik yang digunakan untuk
menganalisis data dengan cara mendeskripsikan atau menggambarkan data yang
9
telah terkumpul sebagaimana adanya tanpa bermaksud membuat kesimpulan yang berlaku untuk umum atau generalisasi. Analisis ini hanya berupa akumulasi data dasar dalam bentuk deskripsi semata dalam arti tidak mencari atau menerangkan saling hubungan, menguji hipotesis, membuat ramalan, atau melakukan penarikan kesimpulan. Teknik analisis ini biasa digunakan untuk penelitian-penilitian yang bersifat eksplorasi, misalnya ingin mengetahui persepsi masyarakat terhadap kenaikan harga BBM, ingin mengetahui sikap guru terhadap pemberlakuan UU Guru dan Dosen, ingin mengetahui minat siswa mahasiswa terhadap profesi guru, dan sebagainya. Adapun teknik analisis statistik deskriptif yang sering digunakan salah satunya yaitu penyajian data dalam bentuk visual seperti histogram, poligon, ogive, diagram batang, diagram lingkaran, diagram pastel (pie chart) dan diagram lambang serta dalam bentuk gambar. (Sudrajat, 1998). 2.4
Model Regresi Linear Umum Model regresi linear terbagi menjadi dua, yaitu model regresi linear
sederhana dan model regresi linear berganda. Model regresi linear sederhana adalah analisis regresi yang melibatkan hubungan fungsional antara satu variabel respon dengan satu variabel prediktor. Secara umum, persamaan regresi linear sederhana dapat dituliskan sebagai berikut: ๐๐ = ๐ฝ0 + ๐ฝ๐ ๐๐๐ + ๐๐ ;
๐ = 1,2, โฆ , ๐; ๐ = 1,2, โฆ , ๐
(2.5) (Neter dkk, 1997).
10
Sedangkan model regresi linear berganda merupakan analisis regresi yang melibatkan lebih dari satu variabel prediktor (๐1 , ๐2 , โฆ , ๐๐ ) dan mempunyai hubungan linear dengan variabel respon (๐). Apabila disajikan dalam bentuk matriks maka persamaan (2.5) akan berbentuk: 1 ๐ฆ1 ๐ฆ2 1 [โฎ]=[ โฎ ๐ฆ๐ 1
๐ฅ11 ๐ฅ21 โฎ ๐ฅ๐1
๐ฅ12 ๐ฅ22 โฎ ๐ฅ๐2
โฆ ๐ฅ1๐ ๐ฝ0 ๐1 ๐2 โฆ ๐2๐ ๐ฝ1 ][ ] + [ โฎ ] โฎ โฎ ๐๐ โฆ ๐๐๐ ๐ฝ๐
dengan bentuk sederhana, dapat dinotasikan sebagai berikut: ๐=๐๐+ ๐ 1 ๐ฅ11 ๐ฆ1 ๐ฆ2 1 ๐ฅ21 dengan ๐ = [ โฎ ] , ๐ = [ โฎ โฎ ๐ฆ๐ ๐ฅ 1 ๐1
(2.6) ๐ฅ12 โฆ ๐ฅ1๐ ๐ฅ22 โฆ ๐2๐ ], โฎ โฎ ๐ฅ๐2 โฆ ๐๐๐
๐ฝ0 ๐1 ๐ ๐ฝ 2 ๐ = [ 1 ], dan ๐ = [ โฎ ] โฎ ๐๐ ๐ฝ๐ dimana: ๐
: vektor variabel respon berukuran ๐ ร 1
๐
: matriks variabel prediktor berukuran ๐ ร (๐ + 1)
๐
: matriks koefisien berukuran (๐ + 1) ร 1 atau (๐ฝ0 , ๐ฝ1 , โฆ , ๐ฝ๐ )
๐
: matriks error berukuran ๐ ร 1
๐
dimana fungsi error diasumsikan memiliki sifat: 1. ๐ธ(๐๐ ) = 0, 2. ๐ฃ๐๐(๐๐ ) = ๐ 2 (konstan), dan 3. ๐๐๐ฃ(๐๐ , ๐๐ ) = 0, untuk ๐ โ ๐ (Johnson & Wichern, 2002).
11
2.5
Distribusi Normal Distribusi normal sering juga disebut Distribusi Gaussian. Model distribusi
ini pertama dipublikasikan oleh Abraham de moivre tahun 1733, sebagai suatu pendekatan untuk distribusi dari jumlahan variabel-variabel binomial. Distribusi ini merupakan distribusi yang paling penting dalam statistik. Defenisi 2.1.2 Variabel acak kontinu Y dikatakan berdistribusi normal dengan mean ๐ dan variansi ๐ 2 , jika mempunyai pdf :
f(y;ฮผ,ฯ
2 )=
1
1 y-ฮผ 2 ) 2 ฯ
- (
โ2ฯฯ2
e
(2.7)
, untuk -โ < x < โ
dimana โโ < ๐ < โ dan ๐ 2 > 0. Selanjutnya dinotasikan dengan : ๐~๐(๐, ๐ 2 ) dengan permisalan ๐ง = (๐ฆ โ ๐)/๐, maka; โ
I= โซ โโ
1
1 y-ฮผ 2 ) 2 ฯ
- (
โ2ฯฯ2
e
โ
๐๐ฆ = 2 โซ 0
1 โ2ฯ
1 2
eโ2z ๐๐ง
(2.8)
jadi dimisalkan ๐ค = ๐ง 2 /2., maka ๐ง = โ2๐ค dan ๐๐ง = (๐ค โ1/2 /โ2) ๐๐ค, maka; โ
I=โซ 0
๐ค โ1/2 โฯ
1
e-w ๐๐ค =
แดฆ(2) โฯ
=1
(2.9)
transformasi ๐ = (๐ โ ๐)/๐ merupakan variabel normal standar dengan pdf; ๐(๐ง) =
1 โ2๐
1 2
๐ โ2๐ง ; untuk -โ < z < โ
(2.10)
Persamaan (2.10) merupakan fungsi kepadatan probabilitas distribusi normal standar dengan CDF dari Z adalah:
12
๐ง
(2.11)
ฮฆ(๐ง) = โซ ๐(๐ก)๐๐ก โโ
Jika ๐ mempunyai pdf ๐(๐ง) maka dinotasikan sebagai ๐~๐(0,1) dan disebut distribusi normal standar. Sifat-sifat distribusi normal standar: 1. ๐(๐ง)
merupakan
fungsi
genap,
yaitu
๐(๐ง) = ๐(โ๐ง),
sehingga
distribusinya simetris terhadap garis tegak yang melalui ๐ง = 0. 2. ๐(๐ง) = โ๐ง๐(๐ง), karena ๐(๐ง) > 0 untuk setiap ๐ง, maka maksimum terjadi pada titik ๐ง = 0. 3.
lim ๐(๐ง) = 0, ini berarti distribusinya asimtotis terhadap sumbu
๐งโยฑโ
mendatar. โ
โ
4. ๐ธ(๐) = โซโโ ๐ง๐(๐ง)dz = โซโโ ๐ง โ
1 โ2๐
โ
5. ๐ธ(๐ 2 ) = โซโโ ๐ง 2 ๐(๐ง)dz = โซโโ ๐ง 2
1 2
๐ 2๐ง dz = 0, 1 โ2๐
1 2
๐ 2๐ง dz = 1.
6. Dari sifat 4 dan 5, maka ๐๐๐(๐) = 1. Jika ๐~๐(๐, ๐ 2 ), maka dengan subtitusi ๐ง = (๐ฆ โ ๐)/๐, diperoleh: โ
๐ฅ
1 ๐ฆโ๐ 2 ) ๐
a. ๐ธ(๐) = โซโโ โ2๐๐2 ๐ 2( โ
๐ฅ2
1 ๐ฆโ๐ 2 ( ) ๐
b. ๐ธ(๐ 2 ) = โซโโ โ2๐๐2 ๐ 2
โ
dy = โซโโ(๐ + ๐ง๐)๐(๐ง) dz = ฮผ โ
dy = โซโโ(๐ + ๐ง๐)2 ๐(๐ง) dz = ฮผ2 + ๐ 2
c. ๐๐๐(๐) = (ฮผ2 + ๐ 2 ) โ ฮผ2 = ๐ 2 Hubungan antara distribusi normal dan distribusi normal standar diberikan oleh teorema berikut ini: Teorema 2.1.1 Jika ๐~๐(๐, ๐ 2 ), maka berlaku: a. ๐ =
๐ฆโ๐ ๐
berdistribusi normal standar
13
b. ๐น๐ฆ (๐ฆ) = ฮฆ(
๐ฆโ๐ ๐
)
Bukti : ๐โ๐
a. ๐น๐ง (๐ง) = ๐{๐ โค ๐ง} = ๐ {
๐
โค ๐ง} = ๐{๐ โค ๐ + ๐๐ง} ๐+๐๐ง
1
= โซ
โ2๐๐ 2
โโ
1 y-ฮผ 2 ) 2 ฯ
- (
e
๐๐ฆ
misalkan ๐ค = (๐ง โ ๐)/๐, maka diperoleh : ๐ง
๐น๐ง (๐ง) = โซ โโ
1
1 2
โ2ฯ
eโ2w ๐๐ค = ฮฆ(๐ง)
(2.12)
ฮฆ(๐ง) merupakan CDF dari distribusi normal standar. ๐โ๐
b. ๐น๐ฆ (๐ฆ) = ๐{๐ โค ๐ฅ} = ๐ { = ๐ {๐ โค
๐
โค
๐ฆโ๐ ๐
}
๐ฆโ๐ ๐ฆโ๐ ๐ฆโ๐ } = ๐น๐ ( ) = ฮฆ( ) ๐ ๐ ๐
karena distribusi normal adalah simestris, maka untuk ๐ง yang negatif berlaku ฮฆ(โ๐ง) = 1 โ ฮฆ(๐ง)
(2.13)
(Bain & Engelhardt, 1992:18-21). 2.6
Variabel dummy Variabel dummy disebut juga variabel boneka, variabel indikator, variabel
biner (2 angka), variabel bersifat kategori, dan variabel kualitatif. Pada umumnya variabel dummy untuk dua kategori diberi kode 0 dan 1. Ciri model regresi dengan variabel dummy adalah sebagai berikut : 1.
Jika suatu variabel kualitatif mempunyai ๐ kategori, maka ada ๐ โ 1 variabel dummy. 14
2.
Penetapan nilai 0 dan 1 untuk dua kategori, seperti pria dan wanita adalah tanpa suatu dasar atau bukan merupakan hal yang mutlak dalam variabel dummy mengambil nilai 0 dan 1 sebagai kode dari kategori tersebut.
3.
Kelompok, kategori, atau klasifikasi yang diberi nol seringkali disebut sebagai kategori dasar, kategori kontrol, atau kategori perbandingan. Dengan kata lain marupakan perbandingan yang dibuat dalam kategori tersebut (Gujarati & Zain, 2006). Menurut Hosmer dan Lemeshow (2000) bahwa variabel rancang (atau
dummy) ๐ โ 1 ditulis sebagai ๐ท๐๐ dan variabel rancang untuk koefisiennya ditulis sebagai ๐ฝ๐ , ๐ = 1,2, โฆ , ๐๐ โ 1. Adapun variabel dummy untuk model probit dengan ๐ variabel adalah, ๐๐ โ1
๐๐ = ๐ผ + ๐ฝ1 ๐ฅ1 + โฏ + โ ๐ฝ๐ ๐ท๐๐ + ๐ฝ๐ ๐ฅ๐
(2.14)
๐=1
๐๐ merupakan variabel respon, ๐ผ adalah intercept (konstanta), ๐ฝ๐ adalah koefisien (parameter) regresi untuk ๐ฅ๐ dan ๐ท๐๐ , ๐ฅ๐ adalah variabel prediktor sedangkan ๐ท๐๐ merupakan variabel dummy dengan ๐ kategori. 2.7
Estimasi Parameter dengan metode Maximum Likelihood Estimation Pada regresi linear umumnya digunakan metode kuadrat terkecil untuk
menaksir parameter ๐ฝ๐ . Berdasarkan asumsi yang biasa digunakan untuk regresi linear (misalnya asumsi kenormalan ataupun kehomogenan varians), metode kuadrat terkecil akan menghasilkan penaksiran parameter dengan sifat-sifat statistik yang diinginkan (tak bias dan memiliki varians minimum). Namun apabila metode kuadrat ini diterapkan untuk model dengan variabel respon biner, 15
maka penaksir parameter yang dihasilkan tidak lagi memiliki sifat-sifat statistik yang diinginkan tersebut, yaitu ada asumsi homoskedastisitas yang tidak mungkin dipenuhi oleh distribusi binomial. Hal ini disebabkan karena varians distribusi binomial berubah-ubah bergantung pada nilai peluang suksesnya. Oleh karena itu, pendekatan yang digunakan untuk mengatasi hal tersebut adalah dengan metode kemungkinan atau Maximum Likelihood Estimation (MLE). Berikut ini disajikan cara pendugaan parameter ๐ dan ๐ 2 pada distribusi normal. Misalkan ๐1 , ๐2 , โฆ , ๐๐ adalah sampel acak dari suatu populasi yang berdistribusi normal dengan parameter ๐ dan ๐ 2 . Fungsi kepadatan peluang untuk distribusi normal tersebut adalah sebagai berikut. 1
๐
๐(๐ฆ๐ |๐, ๐ 2 ) = {โ2๐๐ 2 0,
โ
1 (๐ฆ โ๐)2 2๐2 ๐
, ๐ฆ๐ > 0, ๐ 2 > 0, ๐ > 0
(2.15)
๐๐๐๐๐๐ฆ๐
Cara menentukan estimator parameter ๐ dan ๐ 2 dengan metode maximum likelihood estimation (MLE) adalah sebagai berikut. 1. Membuat fungsi likelihood distribusi normal, yaitu sebagai berikut. ๐
๐ฟ(๐, ๐
2)
=โ ๐=1
1 โ2๐๐ 2
๐
โ
1 (๐ฆ โ๐)2 2๐2 ๐
๐
1
= โ(2๐๐ 2 )โ2 ๐
โ
1 โ๐ (๐ฆ โ๐)2 2๐2 ๐=1 ๐
๐=๐
2. Membuat transformasi fungsi tersebut dalam bentuk ln. ๐
ln๐ฟ(๐, ๐
2)
1 1 1 = โ ln(2๐) โ ln(๐ 2 ) โ 2 โ(๐ฆ๐ โ ๐)2 2 2 2๐
(2.16)
๐=1
3. Untuk mempermudah perhitungan, maka dilakukan penaksiran paramater ๐ฝ dengan cara memaksimumkan fungsi logaritma kemungkinannya (log-
16
likelihood), yaitu membuat turunan secara parsial terhadap parameter ๐ dan ๐ 2 dan menyamakan dengan nol. Turunan terhadap ๐: ๐ ๐๐ โ โ๐๐=1 ๐ฆ๐ 2) ln๐ฟ(๐, ๐ = โ =0 ๐๐ ๐2 Turunan terhadap ๐ 2 : โ๐๐=1(๐ฆ๐ โ ๐)2 โ ๐๐ 2 ๐ 2) ln๐ฟ(๐, ๐ = =0 ๐๐ 2 2๐ 4 4. Dari turunan parsial terhadap ๐ dan ๐ 2 bisa diperoleh estimator parameter ๐ dan ๐ 2 sebagai berikut. ๐
1 ๐ฬ = โ ๐ฆ๐ = ๐ฆฬ
๐
(2.17)
๐=1 ๐
1 ๐ฬ = โ(๐ฆ๐ โ ๐ฆฬ
)2 ๐ 2
(2.18)
๐=1
(Agresti, 2007). 2.8
Model Regresi Probability Unit (Probit) Model regresi ini dikemukakan pertama kali oleh Chester Bliss pada tahun
1935. Model Probit merupakan model nonlinear yang digunakan untuk menganalisis hubungan antara satu variabel respon dan beberapa variabel bebas, dengan variabel responnya berupa data kualitatif dikotomi yaitu bernilai 1 untuk menyatakan keberadaan sebuah karakteristik dan bernilai 0 untuk menyatakan ketidakberadaan sebuah karakteristik. Fungsi transformasi dalam model probit adalah fungsi distribusi kumulatif (CDF) dari distribusi normal standar dengan menggunakan fungsi distribusi kumulatif normal link function pada generelized
17
linear model (GLM). Link function untuk model probit disebut probit link yang mentransformasi peluang ke z-score dari distribusi normal standar. Secara rinci penjelasan model dalam Generalized Linear Models (GLM) memiliki tiga komponen yaitu: a) Komponen Acak: Diidentifikasi oleh variabel respon (Y) dan diasumsikan memiliki distribusi. Dalam hal ini model probit mengikuti distribusi normal. b) Komponen sistematik: Meliputi variabel-variabel penjelas dari model. Penjelas yang dimaksud adalah menghubungkan vektor (๐1 , โฆ , ๐๐ ) ke variabel prediktor melalui model linier. Misalkan ๐ฅ๐๐ menyatakan nilai variabel prediktor ๐ (๐ = 1, โฆ , ๐) untul subyek ๐ maka ๐๐ = โ ๐ฝ๐ ๐ฅ๐๐ = ๐ท๐ ๐๐ ,
(2.19)
๐ = 1, โฆ , ๐.
๐
dimana: ๐ท = (๐ฝ0 , ๐ฝ1 , โฆ , ๐ฝ๐ )๐ dan๐๐ = (๐ฅ๐1 , โฆ , ๐ฅ๐๐ )๐ c) Fungsi
penghubung
(link
function):
yaitu
suatu
fungsi
yang
menghubungkan ekspektasi respon (Y) dengan variabel-variabel penjelas melalui persamaan linier. ๐(๐๐ ) = ๐ฝ0 + ๐ฝ1 ๐1 + โฆ + ๐ฝ๐ ๐๐๐
(2.20)
Fungsi penghubung akan menentukan model yang akan digunakan dalam GLM. Fungsi penghubung paling sederhana adalah g(๐๐ ) = ๐๐ disebut sebagai penghubung identitas (identity link) merupakan model regresi linier dengan respon kontinu. Fungsi penghubung yang lain akan menghubungkan ๐๐ secara nonlinier terhadap prediktor. Untuk variabel respon kategori biner maka ๐๐ ๐ [0,1].
18
Menurut
Agresti
(2007)
bahwa
๐๐ = ๐ธ(๐๐ );
๐ = 1, โฆ , ๐.
Model
menghubungkan ๐๐ ke ๐๐ dengan ๐๐ = ๐(๐๐ ). Jadi ๐(. ) menghubungkan (๐๐ ) ke variabel penjelas melalui formula, ๐(๐๐ ) = โ ๐ฝ๐ ๐ฅ๐๐ ,
๐ = 1, โฆ , ๐
(2.21)
๐
Sehingga dari penjelasan diatas model probit mempunyai ekspresi: (2.22)
๐ฆ๐ = ๐๐ + ๐๐ dengan ๐๐ = ๐ท๐ ๐๐ ,
๐ = 1, โฆ , ๐.
Sisi kiri dari model probit dapat dianggap sebagai z-score. ๐ฆ๐ merupakan peluang kategori โsuksesโ, yang dalam model regresi klasik disimbolkan dengan ๐๐ . Dalam model probit, sebuah perubahan linear ๐ฅ๐ menghasilkan probabilitas sukses dan parameter ๐ฝ๐ merepresentasekan perubahan probabilitas dalam perubahan unit pada ๐ฅ๐ . Dalam hal ini ๐ท๐ ๐๐ dipandang sebagai skor standar z (Agresti,2007). Diketahui bahwa model probit menggunakan distribusi normal dengan rataan (๐) dan variansi ๐ 2 dengan pendekatan ๐(0,1) dalam transformasinya. Distribusi normal ๐(0,1) ini memiliki fungsi kepadatan peluang sebagai berikut: ๐(๐ฆ) = ๐(๐ฆ) =
1 โ2๐
1
๐ ๐ )2 ๐
๐ โ(2)(๐ฆโ๐ท
(2.23)
Sedangkan fungsi distribusi kumulatifnya yaitu : ๐(๐ = 1) = ๐(๐ โค ๐ฆ) = ฮฆ(๐ฆ โ ๐ท๐ ๐๐ ) = ฮฆ(๐ง1 )
(2.24)
Bentuk kurva Normal seperti yang digambarkan pada gambar 2.2 di bawah ini
19
Gambar 2.2 Kurva Normal Dari Gambar 2.2 di atas dapat dilihat bahwa kurva normal memiliki nilai maksimum pada saat ๐ฅ = ๐. Kurva simetris kiri kanan terhadap sumbu tegak yang melalui rataan ๐ (Johnson & Wichern, 2002). Misalkan ๐๐ adalah variabel respon yang bernilai 1 yang menyatakan โsuksesโ dan 0 yang menyatakan โgagalโ. Misalkan pula ๐ฅ๐ adalah variabel faktor-faktor yang mempengaruhi ๐๐ . Jika ๐ฆ๐ menyatakan besarnya peluang terjadinya โsuksesโ, maka bentuk model probit adalah sebagai berikut: ๐๐ = probit = ฮฆโ1 (๐ฆ๐ ) = ๐ท๐ ๐๐ + ๐๐
(2.25)
1, ๐๐๐๐ ๐ฆ๐ > 0 0, ๐๐๐๐ ๐ฆ๐ โค 0
(2.26)
dan ๐๐ = {
dimana: ๐ท = (๐ฝ1 , ๐ฝ2 , โฆ , ๐ฝ๐ )๐ = Koefisien parameter. ฮฆโ1 = Invers fungsi distribusi normal standar. ๐๐
= Error, ๐๐ berdistribusi normal standar.
Bentuk model seperti yang dinyatakan pada persamaan (2.25) di atas didapat dari transformasi distribusi normal. Jika error ๐๐ berdistribusi normal, maka berdasarkan persamaan (2.26) di atas didapat persamaan untuk peluang terjadinya ๐ฆ๐ = 1 sebagai berikut, ๐ฆ๐ = ๐(๐ฆ๐ > 0) = ๐(๐ท๐ ๐๐ + ๐๐ > 0) = ๐(๐๐ > โ(๐ท๐ ๐๐ ))
20
= ๐(๐๐ < ๐ท๐ ๐๐ ) ๐ฆ๐ = ๐น(๐ท๐ ๐๐ )
(2.27)
dari persamaan (2.27) di atas didapat, ๐๐ = probit = ฮฆโ1 (๐ฆ๐ ) = ฮฆโ1 (๐น(๐ท๐ ๐๐ )) ๐ท๐ ๐
= ฮฆโ1 (โซโโ ๐ ๐(๐ก) ๐๐ก) ๐ฆ๐ = ๐ท๐ ๐๐ Terbukti hasilnya sama dengan persamaan (2.25) yang telah disebutkan di awal. Pada model persamaan (2.25) perubahan unit dalam ๐ฅ๐ menghasilkan perubahan dalam probabilitas normal kumulatif (z score) bahwa ๐ฆ๐ masuk dalam kategori tertentu. Kurva model probit membentuk huruf S yang mendekati nilai 0 dan 1, seperti yang digambarkan pada gambar 2.3 di bawah ini.
Gambar 2.3 Kurva Model Probit (Greene, 2008). Menurut Agresti (2007) model probit diduga menggunakan metode MLE (Maximum Likelihood Estimation) dengan asumsi antar observasi adalah saling bebas serta diketahui distribusinya. Untuk menduga parameter yang dibentuk dalam model terlebih dahulu ditinjau MLE Kasus ๐ parameter.
21
Defenisi 2.1.3 (Somayasa, 2009) Misalkan ruang parameter ฮ merupakan himpunan terbuka pada ruang Euclid โ๐ dan ๐ฟ(. ) terdiferensialkan pada ฮ. Titiktitik ekstrim adalah titik-titik yang merupakan penyelesaian dari sistem persamaan ๐๐๐๐ฟ(๐1 , โฆ , ๐๐ ) = 0, ๐๐๐
๐ = 1, โฆ , ๐.
(2.28)
Selanjutnya apakah titik-titik ekstrim ini memberikan nilai maksimum, harus diverifikasi. Untuk kasus ๐ = 2, kita gunakan alat dari kalkulus sebagai berikut. Misalkan ๐ฟ(๐1 , ๐2 ) terdiferensialkan sampai order kedua, dan misalkan (๐ฬ1 , ๐ฬ2 ) merupakan penyelesaian tunggal dari persamaan (2.28). misalkan ๐ 2 ๐๐๐ฟ(๐1 , ๐2 ) ๐ 2 ๐๐๐ฟ(๐1 , ๐2 ) ๐ 2 ๐๐๐ฟ(๐1 , ๐2 ) ๐ท(๐1 , ๐2 ) โ ( )( )โ( ). ๐๐1 ๐๐2 ๐๐1 ๐๐2 Jika ๐ท(๐1 , ๐2 ) > 0 dan
๐2 ๐๐๐ฟ(๐1 ,๐2 ) ๐๐1
(2.29)
(๐ฬ1 , ๐ฬ2 ) < 0, maka (๐ฬ1 , ๐ฬ2 ) merupakan
MLE. Dalam kasus penyelsaian dari (2.28) tidak tunggal, semua penyelesaian harus diverifikasi apakah dia merupakan titik maksimum atau bukan. Selanjutnya MLE adalah titik (๐ฬ1 , ๐ฬ2 ) dengan ๐ฟ(๐ฬ1 , ๐ฬ2 ) terbesar. Diketahui pada penelitian ini ๐1 , โฆ , ๐๐ adalah sampel acak dengan ๐๐ ~๐(๐, ๐ 2 ). Kita mempunyai, ๐ฟ(๐, ๐ 2 ) = โ
๐
1
๐=1 โ2๐๐ 2
๐๐ฅ๐ {
โ1 (๐ฆ โ ๐)2 } , (๐, ๐ 2 ) โ (โโ, โ) ร (0, โ) 2๐ 2 ๐ ๐
1 1 = ๐๐ฅ๐ {โ โ(๐ฆ๐ โ ๐)2 } 2๐ 2 (2๐)๐/2 ๐ ๐
(2.30)
๐=1
๐
๐๐๐ฟ(๐, ๐
2)
๐ ๐ 1 = โ ln(2๐) โ ๐๐๐ 2 โ 2 โ(๐ฆ๐ โ ๐)2 . 2 2 2๐
(2.31)
๐=1
22
Dari dua persamaan ๐
๐ 2 ๐๐๐ฟ(๐, ๐ 2 ) 1 = 2 โ(๐ฆ๐ โ ๐) = 0 ๐๐ ๐ ๐=1
๐
๐ 2 ๐๐๐ฟ(๐, ๐ 2 ) ๐ 1 = โ 2 + 4 โ(๐ฆ๐ โ ๐)2 = 0, 2 ๐๐ 2๐ 2๐ ๐=1
Diperoleh ๐ฬ = ๐ฆฬ
dan ๐ฬ 2 =
โ๐ ฬ
)2 ๐=1(๐ฆ๐ โ๐ฆ ๐
โ ๐ ๐2 . Selanjutnya masih harus diverifikasi,
apakah syarat untuk ๐ท(๐ฬ 2 , ๐ ๐2 ) dipenuhi. Dari persamaan diatas, kita peroleh ๐ 2 ๐๐๐ฟ(๐, ๐ 2 ) 2 2 ๐ (๐ ) ฬ , ๐ = โ ๐ ๐๐ 2 ๐ ๐2 ๐
๐ 2 ๐๐๐ฟ(๐, ๐ 2 ) 2 2 ๐ 1 1 ๐ (๐ฬ , ๐ ๐ ) = โ + 4 โ(๐ฆ๐ โ ๐ฆฬ
)2 = โ 4 2 2 2 2 2 3 ๐(๐ ) 2(๐ฬ ) 2(๐ฬ ) 2๐ 2๐ ๐ ๐=1
๐
๐ 2 ๐๐๐ฟ(๐, ๐ 2 ) 2 2 1 (๐ฬ , ๐ ๐ ) = 2 2 โ(๐ฆ๐ โ ๐ฆฬ
) = 0. 2 (๐ ๐ ) ๐๐๐๐ ๐=1
๐ Jadi ๐ท(๐ฬ 2 , ๐ ๐2 ) > 0, dan karena โ ๐ 2 selalu negatif, maka dapat dipastikan ๐ฬ
dan ๐
๐ ๐2 โ โ๐๐=1(๐๐ โ ๐ฬ
)/๐ = 0 merupakan MLE untuk ๐ dan ๐ 2 . 2.9
Uji Signifikansi Parameter Uji signifikansi parameter dilakukan untuk mengetahui apakah variabel-
variabel prediktor terdapat dalam model memiliki hubungan yang nyata dengan variabel responnya, baik secara serentak maupun parsial. Uji signifikansi parameter model secara serentak dilakukan dengan uji rasio likelihood ๐บ. Menurut Hosmer dan Lemeshow (2000), suatu statistik uji rasio likelihood ๐บ adalah fungsi dari L(๐ ฬ) dan L(๐บฬ) yang berdistribusi ๐ 2 (Chi-square)
23
dengan derajat bebas ๐ (banyaknya variabel prediktor yang ada dalam model) yang didefenisikan sebagai, ๐บ = โ2 ln [
L(๐ ฬ) ฬ )) โ ln(L(๐ ] = 2 [ln (L(ฮฉ ฬ))] L(๐บฬ )
(2.32)
dimana p adalah banyaknya parameter model dibawah populasi dikurangi dengan ฬ ) adalah nilai log likelihood untuk model banyaknya parameter dibawah H0, L(ฮฉ yang mengandung seluruh variabel independent dan L(๐ ฬ) adalah log likelihood untuk model yang tidak mengandung variabel independent. Nilai log-likelihood dihitung berdasarkan persamaan (2.23) dengan asumsi bahwa ๐ฅ๐ variabel yang diamati. Langkah-langkah pengujiannya sebagai berikut: 1) Rumusan hipotesis ๐ป0 : ๐ฝ1 = ๐ฝ2 = โฏ = ๐ฝ๐ = 0, yang berarti bahwa semua variable prediktor tidak signifikan terhadap model. ๐ป0 : paling sedikit ada satu ๐ฝ๐ โ 0, ๐ = 1,2, โฆ , ๐ yang signifikan terhadap model. 2) Besaran yang diperlukan: ฬ ), L(๐ Hitung L(ฮฉ ฬ). 3) Statistik Uji: ฬ )) โ ln(L(๐ ๐บ = 2 [ln (L(ฮฉ ฬ))] 4) Kriteria pengujian ๐ป0 ditolak jika ๐บ > ๐ 2 (๐ผ;๐๐) . 5) Kesimpulan 24
Penafsiran ๐ป0 diterima atau ditolak Selanjutnya dengan menggunakan uji Wald, akan dilakukan pengujian secara individu (Parsial) terhadap signifikansi parameter model. Menurut Hosmer dan Lemeshow (2000: 16), statistik Uji Wald didefinisikan sebagai: ๐ฝฬ๐
2
๐๐ = ( ) ; ๐ = 1,2, โฆ , ๐ ๐๐ธ(๐ฝฬ๐ )
(2.33)
dengan: ๐ฝฬ๐
= penaksiran dari ๐ฝ๐ .
๐๐ธ(๐ฝฬ๐ ) = penaksiran standar error๐ฝ๐ . Uji Wald ini akan menunjukkan apakah variabel prediktor signifikan atau layak untuk masuk dalam model atau tidak. Uji Wald ini diperoleh dengan membandingkan penaksiran kemungkinan maksimum dari parameter, yaitu ๐ฝ๐ dengan penaksiran galat bakunya. Adapun langkah-langkah pengujiannya adalah sebagai berikut: 1) Rumusan hipotesis ๐ป0 : ๐ฝ๐ = 0, ๐ = 1,2, โฆ , ๐, yang berarti bahwa variabel prediktor tidak signifikan terhadap model. ๐ป0 : ๐ฝ๐ โ 0, ๐ = 1,2, โฆ , ๐, ada variabel prediktor yang signifikan terhadap model. 2) Besaran yang diperlukan: ๐ฝฬ๐ dan ๐๐ธ(๐ฝฬ๐ ) = โ(๐ 2 (๐ฝฬ๐ )) 3) Statistik uji:
25
๐ฝฬ๐
2
๐๐ = ( ) ๐๐ธ(๐ฝฬ๐ ) 4) Kriteria pengujian Tolak ๐ป0 jika ๐๐ > ๐ 2 (๐ผ:1) . 5) Kesimpulan Penafsiran ๐ป0 diterima atau ditolak. 2.10 Uji Kecocokan Model Regresi Probit Uji kecocokan model digunakan untuk mengevaluasi cocok tidaknya model dengan data, nilai observasi yang diperoleh sama atau mendekati dengan yang diharapkan dalam model. Cocok tidaknya model regresi probit pada skripsi ini dinilai dengan menggunakan uji Hosmer dan Lemeshow karena terdapat variabel prediktor yang bersifat kategori, yaitu jurusan dan IPS1. Variabel tersebut memungkinkan terjadinya pola kovariat yang beragam, sehingga uji Hosmer dan Lemeshow lebih tepat untuk diterapkan. Uji Hosmer dan Lemeshow dapat digunakan saat pola kovariat yang sama dari variabel prediktor muncul dalam observasi atau tidak. Pola kovariat merupakan kejadian dari nilai-nilai variabel prediktor. Jika semua pola kovariat dari variabel prediktor merupakan kejadian unik, maka jumlah pola kovariatnya sama dengan jumlah sampel (๐). Jika uji Hosmer dan Lemeshow dipenuhi maka model mampu memprediksi nilai observasinya atau dapat dikatakan model dapat diterima karena sesuai dengan data observasinya. Uji Hosmer dan Lemeshow yang ditulis dengan uji ๐ถฬ , dihitung berdasarkan taksiran probabilitas.
26
Statistik uji Hosmer dan Lemeshow ๐ถฬ yang dihitung berdasarkan nilai y = 1 dirumuskan: 1. Perumusan hipotesis ๐ป0 : model sesuai dengan data ๐ป1 : model tidak sesuai dengan data 2
(๐ โ๐๐ ๐ฆฬ
1๐ ) ๐ 2. Statistik Uji : ๐ถฬ = โ๐=1 ๐ ๐ฆ๐ฬ
(1โ๐ฆ , ฬ
) ๐ 1๐
(2.34)
1๐
dengan ๐ฆฬ
1๐ menyatakan rata-rata taksiran probabilitas sukses kelompok ke-๐, ๐๐ adalah jumlah sampel kejadian sukses dalam kelompok ke-๐, ๐๐ adalah total ๐ sampel kelompok ke-๐, dan โ๐=1 ๐๐ = ๐, dengan ๐ = 1,2, โฆ , ๐. Dimana
๐ adalah jumlah group. 3. Kriteria pengujian 2 Keputusan tolak ๐ป0 jika ๐ถฬโ๐๐ก๐ข๐๐ โฅ ๐(๐ผ:๐โ2)
(Hosmer & Lemeshow, 2000). 2.11 Kerangka Pemikiran Kelulusan mahasiswa Fakultas MIPA Universitas Halu Oleo merupakan tolak ukur keberhasilan dari setiap Perguruan Tinggi. Ukuran keberhasilan dapat dilihat dari lama studi dan Indeks Prestasi Kumulatif. Keberhasilan tersebut biasa dicantumkan pada Predikat kelulusan. Pada kenyataannya tidak semua lulusan mahasiswa FMIPA UHO dapat selesai dengan waktu dan IPK yang diharapkan. Adanya keragaman tersebut, maka perlu adanya proses clustering yaitu dengan mengelompokkan lulusan mahasiswa FMIPA UHO menggunakan algoritma fuzzy c-means. Hasil clustering tersebut selanjutnya disebut sebagai status lulus mahasiswa. Status lulus mahasiswa dipengaruhi oleh jurusan, jenis kelamin, asal 27
daerah dan Indeks prestasi sementara semester 1. Hubungan antar faktor-faktor tersebut dapat dijelaskan dari suatu model. Regresi probit adalah model yang sesuai untuk menjelaskan, dan menduga faktor-faktor tersebut, dengan status lulus mahasiswa sebagai variabel respon dan keempat faktor lainya sebagai variabel prediktor. Langkah-langkah dalam pembentukan model regresi probit dalam menduga faktor-faktor yang mempengaruhi status lulus mahasiswa FMIPA UHO adalah pembentukan variabel rancang (dummy variabel), penaksiran parameter model menggunakan metode maksimum likelihood, melakukan
uji signifikansi
parameter dengan uji wald chi-square dan uji rasio likelihood. Jika parameter telah signifikan, maka dilakukan uji kecocokan model menggunakan uji Hosmer dan Lemeshow. Semua langkah dilakukan untuk mendapatkan model yang sesuai dengan data yang dapat diinterpretasikan. Pengolahan data dilakukan dengan bantuan program Matlab R2008b dan SAS 9.1.
28
BAB III METODE PENELITIAN 3.1
Waktu dan Tempat Penelitian ini berlangsung dari bulan Februari sampai Mei 2016. Penelitian
ini berlokasi di Laboratorium Komputasi Jurusan Matematika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Halu Oleo. 3.2
Sumber Data Data yang digunakan pada penelitian ini adalah data sekunder diperoleh dari
Badan Administrasi kemahasiswaan Fakultas MIPA Universitas Halu Oleo. Data yang digunakan merupakan data lulusan mahasiswa FMIPA UHO selama periode Februari 2015 sampai Februari 2016 dengan jumlah sampel sebanyak 227. 3.3
Variabel Penelitian Variabel yang dilibatkan dalam penelitian ini terdiri dari dua model: 3.3.1 Variabel untuk Clustering Fuzzy C-Means ๐1 = Indeks Prestasi Kumulatif (IPK) ๐2 = Lama Studi (dalam tahun) 3.3.2 Variabel untuk Regresi Probit Biner a. VariabelRespon ๐ = Status Lulus Mahasiswa hasil Clustering Fuzzy C-Means. b. VariabelPrediktor (๐) ๐ฅ1 = Jurusan ๐ฅ2 = Jenis Kelamin ๐ฅ3 = Asal Daerah
29
๐ฅ4 = Indeks Prestasi Sementara semester 1 (IPS) 3.4
Prosedur Penelitian Tahapan prosedur penelitian dilakukan dengan urutan sebagai berikut:
1. Melakukan analisis deskriptif untuk mengetahui karakteristik lulusan mahasiswa FMIPA Universitas Halu Oleo. 2. Melakukan clustering (Pengelompokkan) lulusan mahasiswa FMIPA UHO menggunakan algoritma fuzzy c-means. 3. Melakukan analisis regresi probit dengan langkah-langkah sebagai berikut : a. Melakukan uji signifikansi regresi probit serentak model lengkap, untuk mengetahui
apakah
terdapat
variabel
prediktor
yang
signifikan
berpengaruh terhadap variabel respon. b. Melakukan uji signifikansi
parameter
parsial model lengkap untuk
mengetahui variabel-variabel prediktor yang
berpengaruh secara
signifikan terhadap variabel respon. c. Menentukan model terbaik antara variabel respon dengan variabel variabel prediktor yang signifikan dari langkah b. d. Melakukan pengujian secara serentak dan parsial terhadap model terbaik yang diperoleh. e. Melakukan uji kecocokan model. f.
Menginterpretasikan model regresi probit yang diperoleh.
4. Menarik kesimpulan berdasarkan analisis.
30
BAB IV HASIL DAN PEMBAHASAN 4.1
Statistik Deskriptif Dalam penelitian ini statistik deskriptif mencakup informasi tentang
variabel-variabel yang digunakan. Pada penelitian ini dianalisis faktor-faktor yang mempengaruhi kelulusan mahasiswa Fakultas MIPA Universitas Halu Oleo dengan menggunakan metode regresi probit biner. Kelulusan mahasiswa mempunyai dua hal utama yaitu masa studi dan Indeks Prestasi Kumulatif (IPK) mahasiswa. Dua variabel tersebut merupakan tolak ukur menjadi variabel respon. Pemilihan variabel respon dilakukan dengan cara clustering. Proses clustering menggunakan algoritma fuzzy c-means. Hasil clustering akan menghasilkan variabel respon biner yaitu status lulus kategori memuaskan dan status lulus kategori pujian. Persentase mahasiswa yang lulus selama periode Februari 2015 sampai Februari 2016 dengan masa studi tidak tepat waktu sebesar 89,87 persen dan masa studi tepat waktu sebesar 10,13 persen. Hal ini berarti kelulusan dengan masa studi tidak tepat waktu di Fakultas MIPA Universitas Halu Oleo tinggi sehingga perlu diperbaiki faktor-faktor yang mempengaruhi masa studi. Persentase mahasiswa Fakultas MIPA Universitas Halu Oleo yang lulus dan memiliki IPK < 3,00
sebesar 29,96 persen dan IPK โฅ 3,00 sebesar 70,04 persen. Ini
menunjukkan bahwa mahasiswa yang memiliki IPK โฅ 3,00 lebih banyak daripada mahasiswa yang memiliki IPK < 3,00.
31
Gambar 4.1 Pie Chart Persentase lama Studi dan IPK Lulusan Mahasiswa FMIPA Universitas Halu Oleo Pada proses regresi probit biner akan diduga faktor-faktor yang mempengaruhi status lulus mahasiswa berdasarkan dua kategori hasil clustering fuzzy c-means. Adapun faktor-faktor yang mempengaruhi status lulus mahasiswa berdasarkan data yang ada antara lain Jurusan mahasiswa, jenis kelamin, asal daerah dan Indeks Prestasi Sementara (IPS) semester 1 yang selajutnya disebut sebagai variabel prediktor. Dari total 227 sampel terdapat 29,08 persen mahasiswa jurusan matematika, 14,10 persen mahasiswa jurusan fisika, 24,23 persen mahasiswa jurusan kimia dan 32,59 persen mahasiswa jurusan biologi. Sedangkan 70,93 persen lulusan FMIPA UHO berjenis kelamin perempuan, sisanya 29,07 persen adalah laki-laki. Untuk asal daerah 74,93 persen merupakan lulusan berasal dari luar kota kendari, sisanya 29,07 persen berasal dari kendari. Sementara untuk IPS semester 1 39,20 persen mahasiswa lulusan FMIPA UHO memiliki IPS < 2,50. 35,24 persen berada pada rentang IPS 2,5 โ 2,99. Sebesar 20,71 persen mahasiswa lulusan FMIPA memiliki IPS semester 1 diatas 3,00 sampai 3,49. Sedangkan, sisanya sebesar 4,85 persen memiliki IPS semester 1 3,5-4,00.
32
4.2
Clustering dengan Algoritma Fuzzy C-Means Pengolahan data pada penelitian ini menggunakan bantuan program yaitu
Matlab R2008b. Dari clustering yang dilakukan diperoleh hasil yaitu nilai fungsi obyektif selama iterasi, pusat cluster atau center serta derajat keanggotaan lulusan untuk setiap cluster pada iterasi terakhir. Jumlah cluster yang dikehendaki dalam penelitian ini adalah ๐ = 2. Sehingga bentuk fungsi objektifnya adalah: 2
๐ฝ๐ =
๐
๐ โ โ ๐ข๐๐ ๐=1 ๐ฝ=1
๐ 2 ๐๐๐
=
๐ โ ๐ข1๐ ๐ฝ=1
๐ 2 ๐๐๐
๐ 2 + โ ๐ข2๐ ๐๐๐ ๐ฝ=1
Dalam penelitian ini, proses iterasinya berhenti pada iterasi ke-20 karena nilai |๐ฝ๐ โ ๐ฝ๐โ1 | < ๐. Termination error (๐) yang digunakan dalam program adalah 0,001 dengan ๐ = 2 serta iterasi awal sama dengan 1. Hal ini dapat dilihat pada nilai fungsi obyektif yang relatif tidak mengalami perubahan pada iterasiiterasi terakhir. Nilai fungsi obyektif pada iterasi terakhir yang diperoleh adalah 55,50173. Hasil lengkap dari clustering lihat Lampiran 4. 1.
Nilai fungsi obyektif selama 20 iterasi dapat dilihat pada tabel 4.1 Tabel 4.1 Nilai Fungsi Obyektif Selama Iterasi Iterasi ke1 2 3 4 5 6 7 8 9 10 โฎ 20
Fungsi Obyektif 109,63081 84,30962 84,30787 84,30629 84,29984 84,24320 83,72385 79,89698 67,15851 57,64587 โฎ 55,50173 33
2.
Nilai pusat cluster atau center Dalam penelitian ini eksponen pembobot atau fuzzier yang digunakan yaitu ๐ = 2. Sehingga persamaan fungsi pusat cluster ๐๐ menjadi, ๐๐ =
2 โ๐ ๐=1 ๐ข๐๐ ๐ฅ๐ 2 โ๐ ๐=1 ๐ข๐๐
karena jumlah observasi ๐ = 227, maka: ๐๐ =
2 โ227 ๐=1 ๐ข๐๐ ๐ฅ๐ 2 โ227 ๐=1 ๐ข๐๐
2, 2 ๐ข1,1 ๐ข1,2 = ๐ฅ + ๐ฅ +โฏ ๐ข1,1 + ๐ข1,2 + โฏ + ๐ข1,227 1 ๐ข1,1 + ๐ข1,2 + โฏ + ๐ข1,227 2 2 ๐ข1,227 + ๐ฅ ๐ข1,1 + ๐ข1,2 + โฏ + ๐ข1,227 227
Pada iterasi terakhir (iterasi ke-20), pusat cluster ๐๐๐ yang dihasilkan dengan ๐ = 1,2 dan ๐ = 1,2 adalah: ๐๐๐ = (
2,98 3.20
5,5 ) 4,2
Nilai ini merupakan nilai dari koordinat keempat titik pusat cluster dan memberikan garis besar tiap cluster yaitu: a. Untuk pusat cluster 1terdiri dari lulusan dengan kisaran lama studi 5,5 tahun dan IPK 2,98. b. Untuk pusat cluster 2 terdiri dari lulusan dengan kisaran lama studi 4,2 tahun dan IPK 3.20. 3.
Perubahan pada matriks ๐, merupakan proses update derajat keanggotaan. Untuk ๐ = 2 maka fungsi ๐ข๐๐ menjadi: ๐ข๐๐ =
1 ๐2
2
โ2๐ ( ๐๐2 ) ๐ ๐๐
34
Derajat keanggotaan lulusan untuk setiap cluster pada iterasi terakhir (iterasi ke-20) dapat dilihat pada tabel 4.2 di bawah ini (selengkapnya lihat lampiran 4): Tabel 4.2 Derajat Keanggotaanuntuk Setiap Cluster pada Iterasi Terakhir
Lulusan ke 1 2 3 4 5 6 7 8 9 10 โฎ 227
Derajat keanggotaan (๐) lulusan untuk setiap cluster pada iterasi terakhir ๐ข๐1 ๐ข๐2 0,9881 0,0118 0,9888 0,0111 0,0397 0,9602 0,0330 0,9669 0,0397 0,9602 0,0309 0,9690 0,0374 0,9625 0,0171 0,9829 0,1694 0,8305 0,0087 0,9912 โฎ โฎ 0,1073 0,8926
Dari derajat keanggotaan lulusan pada iterasi terakhir dapat diperoleh informasi mengenai kecendrungan lulusan untuk masuk ke cluster mana. Derajat keanggotaan terbesar menunjukkan bahwa kecendrungan tertinggi lulusan untuk masuk menjadi anggota cluster tersebut. Misalnya untuk lulusan ke-3, dapat menjadi: a. Anggota cluster pertama dengan derajat keanggotaan 0,0397. b. Anggota cluster kedua dengan derajat keanggotaan 0,9602.
35
Derajat keanggotaan terbesar terletak di cluster kedua, maka lulusan ke-3 akan dimasukkan kedalam cluster kedua. Hasil selengkapnya pengelompokkan ke-227 lulusan ke dalam 2 cluster dapat dilihat pada tabel 3 di bawah ini: Tabel 4.3 Anggota pada Kedua Cluster Cluster Beranggotakan lulusan nomor 1 1,2,20,21,22,23,24,25,26,38,39,41,42,43,44,45,46,47,48,50,51,62,69, 70,71,85,86,89,90,91,100,104,106,107,108,109,112,113,114,115,119, 123,124,126,128,129,130,131,132,133,134,135,136,137,138,139,140, 144,148,151,152,153,162,166,170,172,177,179,180,188,189,190,191, 194,196,198,201,209,222,223,225,226 2 3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,27,28,29,30,31,32,33,34, 35,36,37,40,49,52,53,54,55,56,57,58,59,60,61,63,64,65,66,67,68,72, 73,74,75,76,77,78,79,80,81,82,83,84,87,88,92,93,94,95,96,97,98,99, 101,102,103,105,110,111,116,117,118,120,121,122,125,127,141,142, 143,145,146,147,149,150,154,155,156,157,158,159,160,161,163,164, 165,167,168,169,171,173,174,175,176,178,181,182,183,184,185,186, 187,192,193,195,197,199,200,202,203,204,205,206,207,208,210,211, 212,213,214,215,216,217,218,219,220,221,224,227
Dari table 3 di atas dapat diperoleh: a.
Cluster 1 beranggotakan lulusan dengan IPK 2,63 sampai 3,58 dan lama studi 4,2 sampai 7,10 tahun sebanyak 82 lulusan.
b.
Cluster 2 beranggotakan lulusan dengan IPK 2,82 sampai 3,98 dan lama studi 3,5 sampai 4,9 tahun sebanyak 145 lulusan.
Selanjutnya dengan menggunakan hasil dari clustering diperoleh dua status lulus yang akan digunakan sebagai variabel respon pada proses regresi probit biner. Cluster 1 berstatus lulus kategori Memuaskan dan cluster 2 berstatus lulus kategori pujian.
36
Gambar 4.2 Pie Chart Dua Kategori Hasil Clustering Fuzzy C-Means 4.3
Pembentukan Model Regresi Probit Biner
4.3.1 Pembentukan Variabel Dummy Berikut ini deskripsi variabel respon dan variabel prediktor yang digunakan pada proses regresi probit biner. Tabel 4.4 Menunjukkan Variabel Respon dan Prediktor Beserta Frekuensi Variabel Respon
Label Variabel Hasil Clustering algoritma Fuzzy C-Means
Par ๐
Jurusan (Bidang Studi)
๐1
Jenis kelamin
๐2
Asal Daerah
๐3
Indeks Prestasi Semester 1
๐4
Prediktor
Kategori
Frekuensi
0 = Lulus memuaskan 1 = Lulus pujian
82 145
0 = Matematika 1 = Fisika 2 = Kimia 3 = Biologi 0 = Perempuan 1 = Laki-laki 0 = Kendari 1 = Luar Kendari 0 = IPS1 < 2.50 1 = 2.50 โค IPS1< 3.00 2 = 3.00 โค IPS1< 3.50 3 = 3.5 โค IPS1 โค 4.00
66 32 55 74 161 66 58 169 89 80 47 11
Langkah pertama adalah pembentukan variabel dummy. Pembentukan variabel dummy dilakukan karena variabel prediktor yang digunakan ada yang bersifat kategorik. Pembentukan variabel dummy dilakukan pada variabel ๐1 dan
37
๐4. Variabel yang memilliki kategori sejumlah ๐, membutuhkan variabel dummy sebanyank ๐ โ 1. Pada variabel ๐1 karena terdiri dari 4 kategori maka dibutuhkan tiga variabel dummy yaitu ๐ท11 , ๐ท12 dan ๐ท13 dengan ๐1 kategori 0 sebagai acuan. Sedangkan pada variabel ๐4 juga dibutuhkan tiga variabel dummy, yaitu ๐ท41 , ๐ท42 dan ๐ท43 dengan ๐4 kategori 0 sebagai acuan. Tabel 4.5 menunjukkan pembentukan variabel dummy secara lebih jelas. Tabel 4.5 Pembentukan Variabel Dummy Model Regresi Probit Variabel ๐1
๐4
Nilai 0 1 2 3 0 1 2 3
Variabel Prediktor (๐ท๐๐ ) 0 0 1 0 0 0 1 0
0 1 0 0 0 1 0 0
0 0 0 1 0 0 0 1
4.3.2 Uji Signifikansi Parameter Serentak Model Lengkap Langkah kedua adalah mencari taksiran parameter dari model. Parameter yang ditaksir adalah parameter pada y1 karena nilai respon kategori 0 digunakan sebagaia acuan. Metode maksimum likelihood diterapkan untuk manaksir parameter regresi probit. Diperlukan metode komputasi khusus yaitu metode iterasi untuk mendapatkan taksiran pada metode maksimum likelihood. Metode ini dikembangkan pada sejumlah program statistik yaitu SAS 9.1. Model regresi probit biner dari semua variabel prediktor dengan variabel respon status lulus mahasiswa adalah ๐(๐ = 1) = ๐(๐ โค ๐ฆ1 ) =
1 โ2๐
1
๐ ๐ )2 ๐
๐ โ(2)(๐ฆ1 โ๐ท
= ฮฆ(๐ง1 )
38
๐ฆ1 = ๐ฝ0 + ๐ฝ1 ๐ท11 + ๐ฝ2 ๐ท12 + ๐ฝ3 ๐ท13 + ๐ฝ4 ๐2 + ๐ฝ5 ๐3 + ๐ฝ6 ๐ท41 + ๐ฝ7 ๐ท42 + ๐ฝ8 ๐ท43 . dan ๐ฆ0 = 0 Variabel respon status lulus mahasiswa dengan kategori 0 digunakan sebagai acuan pada model regresi probit biner tersebut. Uji signifikansi parameter serentak model lengkap dilakukan dengan uji rasio likelihood. Uji rasio likelihood digunakan untuk mengetahui apakah ada variabel prediktor yang berpengaruh pada model. Uji rasio likelihood G didefenisikan sebagai: ฬ )) โ ln(L(๐ ๐บ = 2 [ln (L(ฮฉ ฬ))] ฬ ) adalah nilai log likelihood untuk model yang mengandung seluruh dengan L(ฮฉ variabel independent dan L(๐ ฬ) adalah log likelihood untuk model yang tidak mengandung variabel independent. Statistik uji rasio likelihood G berdistribusi ๐ 2 dengan derajat bebas 8. Nilai G diperoleh dengan bantuan program SAS 9.1 dan ditunjukkan Tabel 4.6. Tabel 4.6 Uji Signifikansi Parameter Serentak Model Regresi Probit Biner Uji Rasio Likelihood
Chi-Square 51,2477
db 8
Uji hipotesisnya adalah sebagai berikut. 1.
๐ป0 : ๐ฝ1 = ๐ฝ2 = โฏ = ๐ฝ8.Tidak ada variabel prediktor yang berpengaruh pada status lulus mahasiswa FMIPA. ๐ป1 : ๐ฝ๐ โ 0; ๐ = 1,2, โฆ ,8. Terdapat paling tidak satu variabel prediktor yang berpengaruh pada status lulus Mahasiswa FMIPA
2.
Tingkat signifikansi yang digunakan adalah ๐ผ = 5 %
39
3.
๐ป0 ditolak jika G>๐ 2 (0,05;8) = 15,5073.
4.
Statistik Uji G = 51,2477.
5.
Diperoleh G = 51,2477>๐ 2 (0,05;8)= 15,5073, sehingga ๐ป0 ditolak. Terdapat paling tidak ada satu varibel prediktor yang berpengaruh pada status lulus mahasiswa.
4.3.3 Uji Signifikansi Parameter Parsial Model Lengkap Selanjutnya dilakukan uji signifikansi parameter parsial karena terdapat variabel prediktor yang berpengaruh pada model. Digunakan uji wald chi-square untuk menguji signifikansi parameter model secara terpisah. Uji wald chi-square digunakan untuk mengetahui varibel prediktor yang berpengaruh pada model. Taksiran parameter dari status lulus mahasiswa Fakultas MIPA Universitas Halu Oleo diperlihatkan oleh Tabel 4.7. Tabel 4.7 Taksiran Parameter Parsial Model Regresi Probit Biner Parameter
Db
Taksiran
Konstanta ๐ซ๐๐ ๐ซ๐๐ ๐ซ๐๐ ๐ฟ๐ ๐ฟ๐ ๐ซ๐๐ ๐ซ๐๐ ๐ซ๐๐
1 1 1 1 1 1 1 1 1
0,7247 -1,5498 -1,1311 -1,0931 -0,1703 -0,0601 0,8392 1,4580 1,3879
Standar Error 0,2949 0,3333 0,2884 0,2676 0,2161 0,2213 0,2306 0,2919 0,5068
Wald ChiSquare 6,0395 21,6241 15,3807 16,6821 0,6212 0,0737 13,2473 24,9430 7,5001
Sig. 0,0140 0,0000 0,0000 0,0000 0,4306 0,7860 0,0003 0,0000 0,0062
Statistik uji wald dirumuskan dengan (Hosmer dan Lemeshow, 2000), 2
ฬ ๐ฝ
๐๐ = (๐๐ธ(๐ฝ๐ฬ )) , dengan ๐ = 1,2, โฆ ,8 ๐
statistik uji ๐ mendekati distribusi Chi-Square dengan derajat bebas 1.
40
Uji hipotesisnya adalah sebagai berikut. 1.
๐ป0 : ๐ฝ๐ = 0, ๐ = 1,2, โฆ ,8. Varibel prediktor ke-๐ tidak signifikan terhadap model. ๐ป1 : ๐ฝ๐ โ 0, ๐ = 1,2, โฆ 8. Varibel prediktor ke-๐ signifikan terhadap model.
2.
Tingkat signifikansi yang digunakan adalah ๐ผ = 5 %.
3.
๐ป0 ditolak jika ๐๐ >๐ 2 (0,05;1) = 3,841.
4.
Statistik Uji Wald Chi-Square dapat dilihat di Tabel 4.7.
5.
Menurut Tabel 4.7, variabel yang signifikan adalah ๐ท12 , ๐ท12 , ๐ท13 , ๐ท41 , ๐ท42 , ๐ท43 pada y1 . Keenam variabel tersebut memiliki statistik uji ๐๐ > 3,841. Berikut adalah estimasi parameter yang dihasilkan oleh model:
๐ฆ1 = 0,7247 โ 1,5498๐ท11 โ 1,1311๐ท12 โ 1,0931๐ท13 โ 0,1703๐2 โ 0,0601๐3 + 0,8392๐ท41 + 1,4580๐ท42 + 1,3879๐ท43 . 4.3.4 Uji Signifikansi Parameter Serentak Model Terbaik Selanjutnya dibentuk model regresi probit biner baru berdasarkan variabelvariabel yang signifikan. Variabel ๐2 dan ๐3 dikeluarkan dari model karena tidak signifikan. Pembentukan model mulai dari langkah kedua. Model regresi probit binernya adalah ๐ฆ1 = ๐ฝ0 + ๐ฝ1 ๐ท11 + ๐ฝ2 ๐ท12 + ๐ฝ3 ๐ท13 + ๐ฝ4 ๐ท41 + ๐ฝ5 ๐ท42 + ๐ฝ6 ๐ท43 Langkah berikutnya adalah melakukan uji signifikansi pada model terbaik regresi probit biner. Statistik uji rasio likelihood yang diperoleh dari model regresi probit biner adalah G = 50,5145, seperti yang tercantum pada Tabel 4.8. Jika G
41
dibandingkan dengan ๐ 2 (0,05;6) = 12,592, maka ๐ป0 ditolak. Ada variabel prediktor yang berpengaruh pada status lulusan mahasiswa. Tabel 4.8 Uji Signifikansi Parameter Serentak Model Terbaik Uji Rasio Likelihood
Chi-Square 50,5145
db 6
4.3.5 Uji Signifikansi Parameter Parsial Model Terbaik Tabel 4.9 Taksiran Parameter Model Terbaik Regresi Probit Biner Parameter
db
Taksiran
Konstanta ๐ซ๐๐ ๐ซ๐๐ ๐ซ๐๐ ๐ซ๐๐ ๐ซ๐๐ ๐ซ๐๐
1 1 1 1 1 1 1
0,5861 -1,5089 -1,1143 -1,0319 0,8585 1,4852 1,3415
Standar Error 0,1992 0,3278 0,2867 0,2544 0,2275 0,2880 0,4921
Wald ChiSquare 8,6564 21,1909 15,1083 16,4548 14,2420 26,5878 7,4321
P-value 0,0033 0,0000 0,0001 0,0000 0,0002 0,0000 0,0064
Setelah diketahui ada variabel prediktor yang berpengaruh pada model regresi probit biner, dilakukan uji signifikansi parameter model secara terpisah. Nilai statistik uji wald dapat dilihat pada Tabel 4.9. Statistik uji wald dibandingkan dengan ๐ 2 (0,05;1) = 3,841. Semua variabel prediktor signifikan terhadap model karena ๐ท11 ,๐ท12 , ๐ท13 , ๐ท41 , ๐ท42 , ๐ท43 memiliki nilai statistik uji wald yang lebih besar dari 3,84. Kedua uji signifikansi parameter dipenuhi pada model regresi probit biner : ๐ฆ1 = 0,5861 โ 1,5089๐ท11 โ 1,1143๐ท12 โ 1,0319๐ท13 + 0,8585๐ท41 + 1,4852๐ท42 + 1,3415๐ท43 dan ๐ฆ0 = 0.
42
4.3.6 Uji Kecocokan Model Setelah diperoleh model dengan parameter yang signifikan, uji kecocokan model dilakukan untuk mengevaluasi kecocokan model dengan data. Uji kecocokan model regresi probit pada penelitian ini dimulai dengan menggunakan uji Hosmer dan Lemeshow yang dirumuskan dengan: ๐
๐ถฬ = โ ๐=1
(๐๐ โ ๐๐ ๐ฆฬ
1๐ )2 , ๐๐ ๐ฆฬ
1๐ (1 โ ๐ฆฬ
1๐ )
Kategori yang digunakan untuk menghitung ๐ถฬ adalah mahasiswa dengan status lulus kategori pujian. Observasi dipisah kira-kira menjadi sepuluh kelompok berdasarkan aturan berikut. 1. Total observasi adalah ๐ = 227. 2. Target sampel setiap kelompok adalah ๐ = (0,1 x ๐ + 0,5) = 23,2. 3. Jika terjadi blok, pada satu atau lebih pola kovariat dari variabel prediktor terjadi sejumlah observasi, maka blok tersebut dimasukkan dalam kelompok yang sama. 4. Misalkan terdapat dua pola kovariat yang membentuk blok dan memiliki taksiran probabilitas berurutan, masing-masing memiliki sejumlah ๐1 dan ๐2 sampel. Blok pertama masuk pada kelompok ke-๐. Blok kedua masuk kelompok ke-๐ jika ๐1 < ๐dan (๐1 + (0,5๐ฅ๐2 )) โค ๐. Jika tidak, maka blok kedua masuk kelompok ke-(๐ + 1). Pola kovariat yang terjadi dari semua observasi yang ada sebanyak empat macam. Pengelompokkan yang dapat dibuat pada uji Hosmer dan Lemeshow
43
sebanyak sepuluh kelompok. Hasil perhitungan statistik uji Hosmer dan Lemeshow diperlihatkan pada Tabel 4.10. Tabel 4.10 Uji Hosmer dan Lemeshow Group
Jumlah Sampel
1 2 3 4 5 6 7 8 9 10
18 35 13 28 19 11 36 21 16 30
Y=1 Observasi 5 12 8 16 11 7 25 18 14 29
๐ถฬ 3,1405
Harapan 4,53 11,48 6,17 17,62 12,54 7,84 25,96 17,25 13,61 28,25 db 8
Uji hipotesinya adalah sebagai berikut. 1. ๐ป0 : Model cocok dengan data. ๐ป1 : Model tidak cocok dengan data. 2. Tingkat signifikansi yang digunakan adalah ๐ผ = 5 %. 3. ๐ป0 ditolak jika ๐ถฬ >๐ 2 (0,05;8) = 15,5073. 4. Statistik Uji ๐ถฬ = 3,1405. 5. Nilai ๐ถฬ = 3,1405 < 15,5073, sehingga ๐ป0 tidak ditolak yang berarti bahwa model cocok dengan data. Model yang diperoleh layak untuk diterima dan dapat diinterpretasikan.
44
4.3.7 Interpretasi Model Koefisien probit ๐ฝ๐ merupakan pengaruh perubahan satu unit peubah prediktor ๐ฝ๐ pada peluang normal kumulatif (๐ง) dari peubah respon (๐ฆ๐ ). Pengaruh dari perubahan satu unit ๐ฅ๐ pada peluang ๐ฆ๐ tergantung pada kategori peubah prediktor. Sehingga perlu dipilih salah satu kategori peubah prediktor untuk dijadikan titik acuan atau pembanding. Interpretasi koefisien model probit dilakukan dengan melihat tanda dari koefisien probit ๐ฝ๐ . Model terbaik yang terbentuk, ๐ฆ1 = 0,5861 โ 1,5089๐ท11 โ 1,1143๐ท12 โ 1,0319๐ท13 + 0,8585๐ท41 + 1,4852๐ท42 + 1,3415๐ท43 dan ๐ฆ0 = 0. Berdasarkan model terbaik maka diperoleh faktor-faktor yang berpengaruh terhadap status kelulusan mahasiswa yaitu Jurusan dan Indeks Prestasi Sementara Semester satu. Variabel respon ๐ฆ๐ adalah nilai ๐ง dari fungsi kumulatif distribusi normal atau Cumulatif Distribution Function (CDF). Sebagai contoh hubungan jurusan mahasiswa terhadap status lulus kategori pujian yaitu lama studi 3,5 tahun sampai 4,9 tahun dengan IPK 2,82 sampai 3,98 adalah sebagai berikut.
Gambar 4.3 Hubungan antara Probabilitas Status Lulus Kategori Pujian dan Jurusan Mahasiswa 45
Hasil yang didapat pada Gambar 4.4 menunjukkan bahwa setiap jurusan di FMIPA UHO memiliki probabilitas yang berbeda-beda terhadap status lulus kategori pujian. Jurusan Matematika mempunyai nilai probit sebesar 0,5861, dengan nilai CDF sebesar 0,72, yang diartikan bahwa kemungkinan jurusan matematika memiliki tingkat probabilitas yang relatif tinggi dalam menghasilkan lulusan kategori pujian yaitu sebesar 72 persen. Dengan cara yang sama diperoleh untuk jurusan lain. Jurusan fisika memiliki tingkat probabilitas lulusan sebesar 18 persen dengan nilai probit sebesar -0,9228. Jurusan Kimia memiliki tingkat probabilitas lulusan sebesar 30 persen dengan nilai probit sebesar -0,5282. Jurusan Biologi memiliki tingkat probabilitas lulusan sebesar 33 persen. Dari pernyataan tersebut diketahui bahwa jurusan Matematika memiliki tingkat probabilitasyang lebih di banding jurusan lainnya dalam menghasilkan lulusan. Pengaruh Indeks prestasi sementara semester 1 terhadap probabilitas status lulus mahasiwa FMIPA UHO kategori pujian disajikan pada gambar 4.5 berikut.
Gambar 4.4 Hubungan antara Probabilitas Status Lulus Kategori Pujian dan Indeks Prestasi Sementara Semester 1
46
Grafik di atas mengalami kenaikan yang menunjukkan tingkat probabilitas yang tinggi masing-masing kategori Indeks Prestasi Sementara semester 1 (IPS1) terhadap status lulus kategori pujian. Sebagai contoh pengaruh 3,50 โค IPS1 < 4,00 terhadap status lulus kategori pujian mempunyai nilai probit sebesar1,9276 dengan nilai CDF sebesar 97,5 persen. Hal ini dapat diartikan bahwa kemungkinan lulusan dengan IPS1 antara 3,50 sampai 4,00 memiliki kecenderungan yang tinggi terhadap status lulus kategori pujian. Dengan cara yang sama diperoleh probabilitas untuk masing-masing tingkat IPS1 terhadap status kategori pujian. Untuk IPS1 antara 3,00 sampai 3,50 memiliki tingkat probabilitas sebesar 98 persen. Sementara untuk IPS1 antara 2,50 sampai 3,00 memiliki tingkat probabilitas sebesar 92,5 persen. Sedangkan untuk IPS1 dibawah 2,50 hanya memiliki tingkat probabilitas sebesar 72 persen. Sehingga dapat disimpulkan bahwa semakin baik nilai yang diperoleh mahasiswa pada semester 1 maka akan berpengaruh positif terhadap lama studi yang tempuh dan IPK yang diperoleh.
47
BAB V PENUTUP 5.1
Kesimpulan Berdasarkan hasil dan pembahasan yang telah dilakukan sebelumnya maka
dapat ditarik kesimpulan sebagai berikut : 1. Clustering lama studi dan IPK menggunakan algoritma fuzzy c-means menghasilkan 2 status lulus yaitu kategori memuaskan dan pujian. Sebanyak 82 lulusan masuk kategori memuaskan dan 145 lulusan masuk kategori pujian. 2. Variabel yang berpengaruh terhadap status lulus (๐) mahasiswa FMIPA Universitas Halu Oleo adalah Jurusan (๐ฅ1 ) dan Indeks Prestasi Sementara (IPS) semester 1 (๐ฅ4 ). Jenis kelamin (๐ฅ2 ) dan asal daerah (๐ฅ3 ) tidak berpengaruh secara langsung terhadap status lulus jika dimodelkan menggunakan regresi probit. Adapun model yang terbentuk sebagai berikut: (1)
(2)
(3)
๐ฆ1 = 0,5861 โ 1,5089๐1 โ 1,1143๐1 โ 1,0319๐1 + (1)
(2)
(3)
0,8585๐4 + 1,4852๐4 + 1,3415๐4 dan ๐ฆ0 = 0. 3. Hubungan status lulus kategori pujian dengan masing-masing jurusan adalah Matematika mempunyai probabilitas sebesar 72 persen, Fisika sebesar 18 persen, Kimia sebesar 30 persen dan Biologi sebesar 33 persen. Hubungan status lulus dengan IPS semester 1 bahwa semakin baik nilai yang diperoleh mahasiswa pada semester 1 maka akan berpengaruh positif terhadap lama studi dan IPK.
48
5.2
Saran Berdasarkan analisis yang telah dilakukan terdapat beberapa masalah yang
dapat menjadi saran untuk penelitian selanjutnya yaitu perlu dilakukan penambahan variabel yang diduga mempengaruhi lulusan FMIPA Universitas Halu Oleo. Selain itu, bagi para pembaca bisa membandingkan model regresi lain dengan probit pada penggunaan data yang sama. Selanjutnya jika ditemukan masalah maka perlu dilakukan peningkatan kualitas dan kuantitas lulusan dengan menigkatkan kinerja dan fasilitas di Fakultas MIPA UHO.
49
DAFTAR PUSTAKA Agresti, A. 2007.An Introduction to Categorical Data Analysis (second ed.). New Jersey: John Wiley & Sons, Inc. Asfi M.2008. Pelabelan Otomatis Citra Menggunakan Fuzzy C-Means Untuk Sistem Temu Kembali Citra [M.Sc thesis]. Institut Pertanian Bogor: Bogor. Bain, L.J., & Engelhardt, M. 1992. Introduction to Probability and Mathematicals Statistics 2nd edition. United State: Duxbury. Bezdek, James. 1981. Pattern Recognition with Fuzzy Objective Function Algorith, Plenum Press, New York.
B. Sowmya, B. Sheela Rani. โColour image segmentation using fuzzy clustering techniques and competitive neural networkโ, Elsevier Applied Soft Computing ScienceDirect. Sathyabama University, Old Mamallapuram Road, Chennai 600119, India, 2010.a Cannon L. Robert, Dave V. Jitendra, & Bezdek C. James. 1986. โEffecient Implementation of the Fuzzy c-Means Clustering Algoritmaโ. Vol. PAMI, No. 2. Hal 248-255. Damodar Gujarati dan Sumarno Zain. 2006. Ekonometrika Dasar. Erlangga: Jakarta. Greene, W.H. 2008. Econometric Analysis (sixth ed.). New Jersey, USA: Pearson Prentice Hall. Hosmer, D.W. & Lemeshow, S. 2000. Applied Logistic Regression, A WileyInterscience Publication, John Wiley & Sons, New York - Singapore. Johnson. Wichern. (2002). Applied Multivariate Statistical Analysis. Prentice Hall: New Jersey. Klawonn, Frank. (2000). โFuzzy Clustering: Insight and a New Approachโ. Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn. Klawonn and Hรถppner. (2001). โWhat is Fuzzy about Fuzzy Clustering? Understanding and Improving the Concept of the Fuzzierโ. Science Journal, http://public.rz.fh-wolfenbuettel.de/klawonn.
Kusumadewi, Sri dan Purnomo Hari. 2010. โAplikasi Logika Fuzzyโ. Cetakan Pertama, Graha Ilmu:Yogyakarta.
50
Neter, J., Wasserman, W., & Kutner, M. H. 1997. Model Linear Terapan. Buku I. Bambang Sumantri, penerjemah. Bogor: FMIPA IPB. Shihab, A.I. (2000). โFuzzy Clustering Algorithm and Their Application to Medical Image Analysisโ. Dissertation, University of London, London.
Simbolon.Cary Lineker, Kusumastuti Nilamsari, Irawan Beni. 2013.โClustering Lulusan Mahasiswa Matematika FMIPA Untan Pontianak Menggunakan Algoritma Fuzzy C-Meansโ, Vol.02, No.1, hal.21-26. Somayasa, W. 2009. Diktat Statistika Matematika I. Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Halu Oleo: Kendari. Sudrajat, M.S.W. 1998. Mengenal Ekonometrika Pemula. ARMIDO: Bandung.
51
LAMPIRAN 1. Solusi untuk center (p๐ ) dan Perubahan anggota Matriks (๐๐๐ ) Diketahui Fungsi Objektif: ๐
๐
๐ min ๐ฝ(๐ข๐๐ , ๐๐ ) = โ โ ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ
๐ข๐๐ ,๐๐
2
๐=1 ๐=1
Dengan: โ๐๐=1 ๐ข๐๐ = 1 ; ๐ = 1,2, โฆ , ๐ #1. Solusi untuk ๐ข๐๐ dengan menggunakan fungsi lagrange ๐
๐
๐ ๐ฟ(๐ข๐๐ , ๐๐ ) = โ โ ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ
2
๐=1 ๐=1
Untuk memudahkan transformasi persamaan di atas perhatikan uraian berikut: ๐ฅ1 โ ๐ข11 + ๐ข21 = 1 โ ๐1 ๐ฅ2 โ ๐ข12 + ๐ข22 = 1 โ ๐2 โฎ ๐ฅ๐ โ ๐ข1๐ + ๐ข2๐ = 1 โ ๐๐ dengan mengambil asumsi bahwa : โ๐๐=1 ๐ข๐๐ โ 1 = 0, maka: 2
๐ ๐ ๐ ๐ฟ(๐ข๐๐ , ๐๐ ) = โ๐๐=1 โ๐ ๐=1 ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ โ ๐1 (โ๐=1 ๐ข๐1 โ 1) โ ๐2 (โ๐=1 ๐ข๐2 โ 1) โ โฏ โ ๐๐ (โ๐๐=1 ๐ข๐๐ โ 1) 2
๐ ๐ ๐พ โ ๐ฟ(๐ข๐๐ , ๐๐ , ๐๐ ) = โ๐๐=1 โ๐ ๐=1 ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ โ โ๐=1 ๐๐ (โ๐=1 ๐ข๐๐ โ 1) 2
๐ Tinjau persamaan: โ๐๐=1 โ๐ ๐=1 ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ , sebagai langkah awal untuk mencari solusi ๐ข๐๐ .
Selanjutnya uraikan persaman tersebut untuk menemukan bentuk fungsi turunannya, ๐ โ๐ฅ ๐ ๐ 2 2 2 ๐ข11 1 โ ๐1 โ + ๐ข21 โ๐ฅ1 โ ๐2 โ + โฏ + ๐ข๐1 โ๐ฅ1 โ ๐๐ โ ๐ โ๐ฅ ๐ ๐ 2 2 2 +๐ข12 2 โ ๐1 โ + ๐ข22 โ๐ฅ2 โ ๐2 โ + โฏ + ๐ข๐2 โ๐ฅ2 โ ๐๐ โ + โฏ 2 2 2 ๐ ๐ ๐ +๐ข1๐ โ๐ฅ๐ โ ๐1 โ + ๐ข2๐ โ๐ฅ๐ โ ๐2 โ + โฏ + ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ 2
๐ + โฏ + ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ + โฏ ๐ โ๐ฅ ๐ ๐ โ๐ฅ 2 2 +๐ข1๐ ๐ โ ๐1 โ + ๐ข2๐ โ๐ฅ๐ โ ๐2 โ2 + โฏ + ๐ข๐๐ ๐ โ ๐๐ โ
diperoleh turunan fungsi Lagrangenya yaitu: ๐๐ฟ 2 ๐โ1 = ๐๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ ๐๐ข๐๐ ๐ Selanjutnya tinjau untuk persamaaan โ๐ ๐=1(โ๐=1 ๐ข๐๐ โ 1)
dengan memperhatikan uraian di bawah ini diperoleh turunan persamaan kedua,
52
๐1 (๐ข11 + ๐ข21 + โฏ + ๐ข๐1 โ 1) + ๐2 (๐ข12 + ๐ข22 + โฏ + ๐ข๐2 โ 1) + โฏ +๐๐ (๐ข1๐ + ๐ข2๐ + โฏ + ๐ข๐๐ + โฏ + ๐ข๐๐ โ 1) + โฏ +๐๐ (๐ข1๐ + ๐ข2๐ + โฏ + ๐ข๐๐ โ 1) 2
๐๐ฟ ๐๐ข๐๐
๐โ1 = ๐๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ โ ๐๐ = 0
๐โ1 โ ๐ข๐๐ = ๐โ1 โ ๐ข๐๐ =
๐๐ 2
๐โ๐ฅ๐ โ๐๐ โ ๐๐ 1
๐ โ๐ฅ๐ โ๐๐ โ2 1
๐๐ ๐โ1
โ ๐ข๐๐ = ( ๐ )
(2)
1 โ๐ฅ๐ โ๐๐
2 โ๐โ1
Telah diketahui bahwa: โ๐๐=1 ๐ข๐๐ = 1, maka; 1
1=
โ๐๐=1 ๐ข๐๐
=
๐ ๐โ1 โ๐๐=1 ( ๐ ) ๐
1 2
โ๐ฅ๐ โ๐๐ โ๐โ1
1
๐๐ ๐โ1
1 = (๐)
โ๐๐=1
1 2
โ๐ฅ๐ โ๐๐ โ๐โ1
1
๐๐ ๐โ1
โ (๐)
=
1 โ๐๐=1
(3)
1 2 โ๐ฅ๐ โ๐๐ โ๐โ1
Sehingga untuk memperoleh solusi ๐ข๐๐ hubungan antara persamaan (2) dan (3). Subtitusi persamaan (2) ke persamaan (3). ๐ข๐๐ =
1 โ๐๐=1
1 2
1 2 โ๐ฅ๐ โ๐๐ โ๐โ1
โ๐ฅ๐ โ๐๐ โ๐โ1
1
๐ข๐๐ =
2 โ๐ฅ๐ โ๐๐ โ๐โ1 1 โ๐๐=1 2 โ๐ฅ๐ โ๐๐ โ๐โ1
=
1 2 โ๐ฅ๐ โ๐๐ โ ๐โ1 ๐ โโ ( ) โ๐ฅ๐ โ๐๐ โ
=
1 2 ๐โ1 ๐2 ๐๐ ๐ โโ ( 2 ) ๐๐๐
#2 Solusi untuk ๐๐ 2
๐ Tinjau persamaan โ๐๐=1 โ๐ ๐=1 ๐ข๐๐ โ๐ฅ๐ โ ๐๐ โ untuk memperolehfungsi minimasi untuk ๐๐ , ๐๐ฟ ๐๐๐
1
1
๐ ๐ ๐ = โ๐ ๐=1 ๐ข๐๐ 2 (๐ฅ๐ โ ๐๐ ) (0 โ 1) = โ๐=1(โ2)๐ข๐๐ (๐ฅ๐ โ ๐๐ ) = 0
๐ ๐ ๐ โ โ๐ ๐=1 ๐ข๐๐ ๐ฅ๐ โ (โ๐=1 ๐ข๐๐ ) ๐๐ = 0 ๐ ๐ ๐ โ โ๐ ๐=1 ๐ข๐๐ ๐ฅ๐ = (โ๐=1 ๐ข๐๐ ) ๐๐
โ ๐๐ =
๐ โ๐ ๐=1 ๐ข๐๐ ๐ฅ๐ ๐ โ๐ ๐=1 ๐ข๐๐
53
Lampiran 2. Data untuk Algoritma Fuzzy C-Means No. Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43
IPK 2,90 2,91 2,92 2,95 2,92 2,96 2,93 3,04 3,26 3,12 2,89 3,46 2,93 2,90 3,16 3,09 3,01 2,93 3,05 2,63 2,93 3,12 3,11 3,04 3,02 2,98 2,92 2,92 3,28 3,12 2,88 3,18 2,86 2,93 3,29 3,20 3,10 3,14 2,74 3,69 3,06 2,79 3,16
Lama Studi 5,7 5,7 4,10 4,10 4,10 4,10 4,10 4,10 3,10 4,10 4,10 3,10 4,10 4,10 4,10 4,10 4,10 4,10 4,10 6,6 6,7 5,8 6,9 5,9 5,9 6,9 4,6 4,7 4,7 4,7 4,7 4,7 4,7 4,7 4,7 4,7 4,7 5,7 6,8 4,9 4,9 4,9 4,9
No. Obs. 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157
54
IPK 3,00 3,46 3,74 3,12 2,81 3,49 3,25 3,14 2,88 2,84 3,35 3,05 3,58 2,89 2,99 3,03 3,24 2,90 3,04 2,99 2,97 2,85 2,97 2,70 3,12 2,81 2,88 3,32 3,20 3,21 3,38 3,43 3,68 3,01 3,09 3,4 3,00 2,92 2,88 3,06 3,11 3,37 3,03
Lama Studi 5,2 4,2 4,2 4,2 5,2 4,2 4,2 4,2 6,2 6,2 4,2 5,2 4,2 6,1 5,1 5,1 5,1 5,2 5,2 5,2 5,2 6,2 6,2 4,2 5,2 5,2 4,2 4,2 4,2 5,2 4,2 4,2 4,2 6,2 4,2 4,2 5,2 5,2 5,2 4,5 4,5 4,5 4,5
44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89
3,21 2,97 2,81 2,85 2,99 3,50 2,82 2,98 3,26 3,25 3,14 3,17 3,32 3,68 3,21 3,61 2,94 3,27 2,72 3,06 3,58 3,05 3,13 3,12 2,86 2,97 2,63 2,71 3,14 3,52 3,09 3,76 3,38 3,57 3,07 2,97 2,99 2,91 3,06 3,80 3,14 3,04 3,00 3,16 3,12 2,94
5,9 4,9 5,9 4,9 4,9 4,9 5,9 5,9 3,10 3,10 3,10 3,10 3,10 3,10 3,10 3,10 4,10 3,10 5,10 4,10 4,10 4,10 4,10 4,10 4,10 5,10 7,10 7,10 4,10 3,10 4,10 3,10 3,10 3,10 3,10 4,10 4,10 4,10 4,10 3,11 4,10 5,2 5,2 4,2 4,2 6,2
158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203
55
2,97 3,01 2,85 3,07 2,93 2,98 3,61 3,51 3,07 2,82 3,15 2,92 2,95 3,56 3,01 3,58 3,25 3,27 3,07 3,01 3,28 3,13 3,03 3,26 3,18 3,27 3,39 3,16 2,86 3,24 2,75 3,34 3,01 3,03 3,37 3,45 3,05 3,26 3,28 3,44 3,16 3,42 3,00 3,01 3,09 3,08
4,5 4,6 4,6 4,6 5,6 4,6 3,6 3,6 5,6 4,6 4,6 4,6 5,6 4,3 5,5 4,5 4,6 4,6 4,6 5,6 4,6 5,6 5,6 4,6 4,6 4,6 4,6 4,6 4,6 4,6 6,6 5,4 5,4 5,4 4,4 4,5 5,5 4,5 4,5 4,5 4,5 4,5 4,5 5,5 4,5 4,5
90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114
3,22 3,04 3,10 3,03 3,04 3,04 3,59 3,30 3,07 3,23 2,90 3,27 3,14 3,15 2,72 3,06 3,58 3,58 3,01 3,03 3,68 3,83 3,21 3,00 3,09
5,2 5,2 4,2 4,2 4,2 4,2 4,2 4,2 4,2 4,2 5,2 4,2 4,2 4,2 5,11 4,11 5,2 5,2 5 6 4,1 4,1 5,1 5,2 5,2
204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227
3,11 3,01 3,26 3,25 3,16 3,02 3,56 3,31 2,97 3,10 3,86 3,11 3,98 3,15 3,01 3,06 3,25 3,12 2,81 2,81 3,36 2,79 2,85 2,96
4,5 4,5 4,5 4,5 4,5 5,5 4,5 4,5 4,5 4,5 3,5 4,5 3,5 4,5 4,5 4,5 4,5 4,5 5,5 5,5 4,5 5,5 5,5 4,5
Lampiran 3. Data untuk Regresi Probit PROC PRINT DATA=dataprob; title'DATA PROBIT'; RUN; DATA PROBIT
07:52 Friday, May 10, 2016
Obs
Y
X1
X2
X3
X4
1 2 3 4 5 6 7 8 9 10 11 12 13 14
0 0 1 1 1 1 1 1 1 1 1 1 1 1
0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 1 0 0 0 1 1 1 1 0 1 0 0
1 1 1 1 1 1 0 1 1 1 0 1 1 1
0 0 1 0 1 1 0 0 0 0 0 3 0 0
56
1
15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71
1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 0
0 0 0 0 0 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 0 0 0 0 0 0 0 0 0 0 1 1 1 2 2 2 2 2 2 2
57
0 0 1 0 0 0 1 1 1 0 0 0 1 1 0 1 1 0 1 0 1 1 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 1 0 1 0 1 0 0 0 1 0 0 0
1 0 1 1 1 1 1 1 1 1 0 0 0 1 1 1 1 1 1 0 1 1 0 0 1 0 1 1 1 0 1 1 1 0 1 1 1 1 1 1 1 0 0 1 1 0 0 0 0 1 1 0 1 1 0 0 1
0 0 0 1 0 0 0 2 2 1 1 2 1 1 2 1 0 0 1 1 1 1 2 1 0 2 1 0 1 3 0 0 0 0 2 0 0 1 1 1 1 3 2 1 2 0 0 3 1 2 2 1 1 1 2 1 0
72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128
1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 0 0 0 1 1 0 0 0 0 1 1 1 0 1 1 1 0 0 1 0 1 0
3 3 3 3 3 3 3 3 3 3 3 3 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3
58
0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 0 1 1 1 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 0 0 0 1 1 0 1 0 1 0 0 1 0 0 0 0
0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 1 0 1 0 1 1 1 1 0 1
1 2 0 3 1 2 2 0 1 0 0 3 1 0 0 0 2 0 1 0 0 1 0 1 2 2 1 1 0 1 1 2 0 1 0 0 0 1 2 3 1 1 1 0 3 3 2 0 2 1 1 0 0 2 0 2 0
129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185
0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 1 1 1 0 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 1 1 1
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
59
0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 0 1 1 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0
0 1 1 1 1 1 0 1 1 1 1 1 1 0 1 1 0 1 0 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1 0 1 1 1 1 1 0 0 1 0 0 1 0 1 0 0 1 1 0
0 0 2 0 2 0 0 0 0 0 1 1 0 2 0 1 1 2 2 1 0 1 1 0 0 0 0 2 1 0 0 1 0 0 1 1 1 0 0 0 0 0 2 0 2 1 2 1 1 2 2 1 1 1 1 2 1
186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227
1 1 0 0 0 0 1 1 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 0 0 1
1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 1 1 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
1 1 1 1 1 1 1 1 0 1 1 1 0 1 0 1 1 1 0 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1
Lampiran 4. Sourcecode dan Output Algoritma Fuzzy C-Means clear clc load ('data_file.txt'); data = rand(100, 2); n_cluster = 2; [center,U,obj_fcn]= fcm(data_file,n_cluster); maxU = max(U); index1 = find(U(1,:) == maxU); index2 = find(U(2,:) == maxU);
60
0 2 1 1 1 1 2 2 2 1 1 2 1 1 0 1 0 1 1 0 2 2 2 0 2 1 0 1 3 0 3 1 0 2 2 1 0 0 1 0 0 0
Hasil run Nilai Fungsi Obyektif selama Iterasi:
Nilai Pusat Cluster:
Derajat Keanggotaan: No. Observasi 1 2 3 4 5 6 7 8 9 10 11 12
๐ข๐1 0,988132 0,98882 0,039749 0,033048 0,039749 0,03096 0,037445 0,017096 0,169478 0,008725 0,047065 0,173437
61
๐ข๐2 0,011868 0,01118 0,960251 0,966952 0,960251 0,96904 0,962555 0,982904 0,830522 0,991275 0,952935 0,826563
13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
0,037445 0,044561 0,006715 0,011191 0,021681 0,037445 0,015739 0,832168 0,82725 0,971117 0,799333 0,960306 0,960923 0,801481 0,193587 0,293459 0,226667 0,240498 0,306852 0,231946 0,313676 0,290189 0,226731 0,229998 0,244228 0,981119 0,811435 0,435036 0,524284 0,570371 0,502143 0,945181 0,542922 0,952863 0,56296 0,538988 0,446219 0,953811 0,961411 0,169478 0,169462 0,170482 0,169987 0,169944 0,184979 0,16958
62
0,962555 0,955439 0,993285 0,988809 0,978319 0,962555 0,984261 0,167832 0,17275 0,028883 0,200667 0,039694 0,039077 0,198519 0,806413 0,706541 0,773333 0,759502 0,693148 0,768054 0,686324 0,709811 0,773269 0,770002 0,755772 0,018881 0,188565 0,564964 0,475716 0,429629 0,497857 0,054819 0,457078 0,047137 0,43704 0,461012 0,553781 0,046189 0,038589 0,830522 0,830538 0,829518 0,830013 0,830056 0,815021 0,83042
59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104
0,180589 0,03521 0,169511 0,779874 0,014469 0,061507 0,015739 0,008085 0,008725 0,054942 0,796841 0,775465 0,777351 0,007537 0,175902 0,011191 0,190699 0,171039 0,178366 0,17227 0,028947 0,025154 0,042122 0,014469 0,193809 0,007537 0,882355 0,885732 0,000745 0,003047 0,906641 0,841088 0,882355 0,004841 0,014421 0,012746 0,012746 0,066388 0,005891 0,008326 0,000821 0,884632 0,003134 0,001681 0,001159 0,788354
63
0,819411 0,96479 0,830489 0,220126 0,985531 0,938493 0,984261 0,991915 0,991275 0,945058 0,203159 0,224535 0,222649 0,992463 0,824098 0,988809 0,809301 0,828961 0,821634 0,82773 0,971053 0,974846 0,957878 0,985531 0,806191 0,992463 0,117645 0,114268 0,999255 0,996953 0,093359 0,158912 0,117645 0,995159 0,985579 0,987254 0,987254 0,933612 0,994109 0,991674 0,999179 0,115368 0,996866 0,998319 0,998841 0,211646
105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150
0,013642 0,6999 0,6999 0,673663 0,942647 0,087383 0,128386 0,750008 0,885732 0,874996 0,885732 0,033188 0,110077 0,003047 0,873451 0,040198 0,001777 0,001681 0,905429 0,903913 0,012297 0,881161 0,063615 0,923576 0,795435 0,791173 0,740408 0,884632 0,882355 0,886226 0,8868 0,904344 0,906755 0,112116 0,868959 0,873451 0,050367 0,008191 0,000156 0,844346 0,01714 0,026683 0,092293 0,906389 0,005897 0,020748
64
0,986358 0,3001 0,3001 0,326337 0,057353 0,912617 0,871614 0,249992 0,114268 0,125004 0,114268 0,966812 0,889923 0,996953 0,126549 0,959802 0,998223 0,998319 0,094571 0,096087 0,987703 0,118839 0,936385 0,076424 0,204565 0,208827 0,259592 0,115368 0,117645 0,113774 0,1132 0,095656 0,093245 0,887884 0,131041 0,126549 0,949633 0,991809 0,999844 0,155654 0,98286 0,973317 0,907707 0,093611 0,994103 0,979252
151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196
0,885732 0,885889 0,882897 0,080288 0,071496 0,080887 0,087168 0,104181 0,164238 0,220149 0,149175 0,997457 0,173235 0,115626 0,1044 0,99578 0,232075 0,136139 0,193587 0,998429 0,068683 0,997598 0,134932 0,132036 0,132787 0,149175 0,998952 0,133345 0,988913 0,998309 0,13235 0,133488 0,132787 0,146562 0,135118 0,216227 0,131849 0,837781 0,905274 0,982172 0,981246 0,041703 0,098655 0,99562 0,066302 0,067921
65
0,114268 0,114111 0,117103 0,919712 0,928504 0,919113 0,912832 0,895819 0,835762 0,779851 0,850825 0,002543 0,826765 0,884374 0,8956 0,00422 0,767925 0,863861 0,806413 0,001571 0,931317 0,002402 0,865068 0,867964 0,867213 0,850825 0,001048 0,866655 0,011087 0,001691 0,86765 0,866512 0,867213 0,853438 0,864882 0,783773 0,868151 0,162219 0,094726 0,017828 0,018754 0,958297 0,901345 0,00438 0,933698 0,932079
197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227
0,096184 0,066228 0,091438 0,095164 0,997598 0,074599 0,076359 0,071496 0,09238 0,066302 0,065683 0,066228 0,997283 0,128996 0,071261 0,104181 0,072977 0,160514 0,071496 0,177888 0,066995 0,09238 0,080288 0,065683 0,070156 0,980565 0,980565 0,079034 0,976737 0,987212 0,107395
0,903816 0,933772 0,908562 0,904836 0,002402 0,925401 0,923641 0,928504 0,90762 0,933698 0,934317 0,933772 0,002717 0,871004 0,928739 0,895819 0,927023 0,839486 0,928504 0,822112 0,933005 0,90762 0,919712 0,934317 0,929844 0,019435 0,019435 0,920966 0,023263 0,012788 0,892605
Lampiran 5. Sourcecode dan Output Regresi Probit Biner *model serentak; proc logistic data = dataprob descending; class X1(ref="0") X4(ref="0")/coding=reference; model Y =X1 X2 X3 X4 /link = probit technique = newton lackfit; run;
Hasil Run The SAS System
08:25 Friday, April 20, 2016
1
The LOGISTIC Procedure Model Information Data Set Response Variable Number of Response Levels
66
WORK.DATAPROB Y 2
Y
Model Optimization Technique
binary probit Newton-Raphson
Number of Observations Read Number of Observations Used
227 227
Response Profile Ordered Value
Y
Total Frequency
1 2
1 0
145 82
Probability modeled is Y=1. Class Level Information Class
Value
Design Variables
X1
0 1 2 3
0 1 0 0
0 0 1 0
0 0 0 1
X4
0 1 2 3
0 1 0 0
0 0 1 0
0 0 0 1
Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. The LOGISTIC Procedure Model Fit Statistics
Intercept Only
Criterion
Intercept and Covariates
AIC 298.973 SC 302.398 -2 Log L 296.973 Testing Global Null Hypothesis: Test
263.725 294.549 245.725 BETA=0
Chi-Square
DF
Pr > ChiSq
51.2477 45.4831 42.1705
8 8 8
<.0001 <.0001 <.0001
Likelihood Ratio Score Wald
Type 3 Analysis of Effects
67
Effect X1 X2 X3 X4
DF
Wald Chi-Square
Pr > ChiSq
3 1 1 3
26.1745 0.6212 0.0737 29.7874
<.0001 0.4306 0.7860 <.0001
Analysis of Maximum Likelihood Estimates
Parameter Intercept X1 X1 X1 X2 X3 X4 X4 X4
1 2 3
1 2 3
DF
Estimate
Standard Error
Wald Chi-Square
Pr > ChiSq
1 1 1 1 1 1 1 1 1
0.7247 -1.5498 -1.1311 -1.0931 -0.1703 -0.0601 0.8392 1.4580 1.3879
0.2949 0.3333 0.2884 0.2676 0.2161 0.2213 0.2306 0.2919 0.5068
6.0395 21.6241 15.3807 16.6821 0.6212 0.0737 13.2473 24.9430 7.5001
0.0140 <.0001 <.0001 <.0001 0.4306 0.7860 0.0003 <.0001 0.0062
The LOGISTIC Procedure Association of Predicted Probabilities and Observed Responses Percent Concordant Percent Discordant Percent Tied Pairs
75.4 21.3 3.3 11890
Somers' D Gamma Tau-a c
0.541 0.560 0.251 0.771
Partition for the Hosmer and Lemeshow Test
Group
Total
Observed
Y = 1 Expected
Observed
1 2 3 4 5 6 7 8 9
21 27 26 20 23 23 23 24 40
7 8 17 8 13 17 17 20 38
5.26 9.02 12.71 12.68 15.32 16.06 17.31 20.15 36.86
14 19 9 12 10 6 6 4 2
Hosmer and Lemeshow Goodness-of-Fit Test Chi-Square
DF
Pr > ChiSq
10.2037
7
0.1773
68
Y = 0 Expected 15.74 17.98 13.29 7.32 7.68 6.94 5.69 3.85 3.14
*model terbaik; proc logistic data = dataprob descending; class X1(ref="0") X4(ref="0")/coding=reference; model Y = X1 X4 /link = probit technique = newton lackfit; run;
Hasil Run The SAS System
00:25 Friday, April 22, 2016
7
The LOGISTIC Procedure Model Information Data Set Response Variable Number of Response Levels Model Optimization Technique
WORK.DATAPROB Y 2 binary probit Newton-Raphson
Number of Observations Read Number of Observations Used
227 227
Response Profile Ordered Value
Y
Total Frequency
1 2
1 0
145 82
Probability modeled is Y=1.
Class Level Information Class
Value
Design Variables
X1
0 1 2 3
0 1 0 0
0 0 1 0
0 0 0 1
X4
0 1 2 3
0 1 0 0
0 0 1 0
0 0 0 1
Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied.
69
Y
The LOGISTIC Procedure Model Fit Statistics
Criterion AIC SC -2 Log L
Intercept Only
Intercept and Covariates
298.973 302.398 296.973
260.458 284.433 246.458
Testing Global Null Hypothesis: BETA=0 Test
Chi-Square
DF
Pr > ChiSq
50.5145 44.9274 41.7898
6 6 6
<.0001 <.0001 <.0001
Likelihood Ratio Score Wald
Type 3 Analysis of Effects
Effect X1 X4
DF
Wald Chi-Square
Pr > ChiSq
3 3
25.7492 31.5666
<.0001 <.0001
Analysis of Maximum Likelihood Estimates
Parameter Intercept X1 X1 X1 X4 X4 X4
1 2 3 1 2 3
DF
Estimate
Standard Error
Wald Chi-Square
Pr > ChiSq
1 1 1 1 1 1 1
0.5861 -1.5089 -1.1143 -1.0319 0.8585 1.4852 1.3415
0.1992 0.3278 0.2867 0.2544 0.2275 0.2880 0.4921
8.6564 21.1909 15.1083 16.4548 14.2420 26.5878 7.4321
0.0033 <.0001 0.0001 <.0001 0.0002 <.0001 0.0064
Association of Predicted Probabilities and Observed Responses Percent Concordant Percent Discordant Percent Tied Pairs
72.3 19.3 8.4 11890
Somers' D Gamma Tau-a c
0.531 0.579 0.246 0.765
The LOGISTIC Procedure Partition for the Hosmer and Lemeshow Test
70
Group
Total
Observed
Y = 1 Expected
Observed
Y = 0 Expected
1 2 3 4 5 6 7 8 9 10
18 35 13 28 19 11 36 21 16 30
5 12 8 16 11 7 25 18 14 29
4.53 11.48 6.17 17.62 12.54 7.84 25.96 17.25 13.61 28.25
13 23 5 12 8 4 11 3 2 1
13.47 23.52 6.83 10.38 6.46 3.16 10.04 3.75 2.39 1.75
Hosmer and Lemeshow Goodness-of-Fit Test Chi-Square
DF 3.1405
71
Pr > ChiSq 8
0.9252
Lampiran 6. Tabel Normal Standar
72
Lampiran 7. Tabel Distribusi Chi-Square
73