PERBANDINGAN VERTEX DISCRIMINANT ANALYSIS (VDA) DAN QUADRATIC DISCRIMINANT ANALYSIS (QDA) (Studi Kasus Pengklasifikasian Provinsi dan Kabupaten/Kota di Pulau Sumatera Berdasarkan Tingkat Kemiskinan)
HELGA KURNIA
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa tesis berjudul Perbandingan Vertex Discriminant Analysis (VDA) dan Quadratic Discriminant Analysis (QDA) (Studi Kasus Pengklasifikasian Provinsi dan Kabupaten/Kota di Pulau Sumatera Berdasarkan Tingkat Kemiskinan) adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir tesis ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2015
Helga Kurnia NIM G151120211
RINGKASAN HELGA KURNIA. Perbandingan Vertex Discriminant Analysis (VDA) dan Quadratic Discriminant Analysis (QDA) (Studi Kasus Pengklasifikasian Provinsi dan Kabupaten/Kota di Pulau Sumatera Berdasarkan Tingkat Kemiskinan). Dibimbing oleh I MADE SUMERTAJAYA dan FARIT M. AFENDI. Analisis diskriminan merupakan suatu analisis pada data peubah ganda yang digunakan untuk mengklasifikasikan setiap observasi ke dalam kelas yang saling bebas berdasarkan peubah-peubah pencirinya. Analisis diskriminan yang sering digunakan adalah Linear Discriminant Analysis (LDA) dengan pendekatan Fisher. Pembentukan fungsi diskriminan pada LDA melibatkan komponen matriks kovarian bersama. Struktur matriks kovarian antarkelas harus sama sehingga dapat digabungkan membentuk matriks kovarian bersama. Apabila matriks kovarian antarkelas berbeda, penggunaan LDA menjadi tidak valid. Quadratic Discriminant Analysis (QDA) dapat mengatasi masalah ini. Pada saat jumlah peubah lebih banyak daripada observasi (n < p), LDA dan QDA tidak dapat dilakukan karena rank dari matriks lebih kecil dari jumlah peubah. Hal ini mengakibatkan matriks kovarian singular, sehingga tidak memiliki invers. Hal tersebut dapat diatasi dengan Vertex Discriminant Analysis (VDA). Oleh karena itu, pada penelitian ini dilakukan perbandingan antara VDA dan QDA dengan menggunakan data simulasi dan data kasus terapan. Pada data dengan jumlah observasi lebih besar dari jumlah peubah (n > p), secara umum kemampuan klasifikasi VDA dan QDA hampir sama. Akan tetapi, VDA memiliki ketepatan klasifikasi lebih kecil dibandingkan QDA pada saat keragaman antarkelas besar dan jarak nilai tengah antarkelas dekat. Pada data dengan jumlah observasi lebih kecil dari jumlah peubah (n < p), hanya VDA yang dapat dilakukan. Hasil kajian terapan sesuai dengan hasil kajian simulasi. Kata kunci : analisis diskriminan kuadratik, analisis peubah ganda, vertex discriminant analysis
SUMMARY HELGA KURNIA. Comparison of Vertex Discriminant Analysis (VDA) and Quadratic Discriminant Analysis (QDA) (Case Study of Province and City Clasification in Sumatera Based on Poverty Level). Supervised by I MADE SUMERTAJAYA and FARIT M. AFENDI. Discriminant analysis is one of the multivariate analysis concerned with separating distinct sets of observations and with allocating new observations to previously defined groups based on its feature variables. One of the discriminant analysis that frequently used is Fisher linear discriminant analysis (LDA). The development of discriminant function on LDA involve the pooled covariance matrix component. Structure of covariance matrix each classes have to similar in order to be able to be merged as pooled covariance matrix. When the structure of covariance matrix each classes are different, LDA will be invalid. Alternatively quadratic discriminant analysis (QDA) will be the solution of this. However, when the number of variables is more than number of observations (n < p) both LDA & QDA could not be executed due to rank of matrix lower than number of variables, thus covariance matrix become singular and have no invers. To solve the issue, we can use vertex discriminant analysis (VDA). In this research, we are comparing the VDA and QDA using simulated and case study data. When the number of observations more than number of variables (n > p), in overall the VDA and QDA performance are relatively similar. However the VDA classification accuracy lower than QDA when interclass variance is big and interclass means are near. When the number of observation less than number of variables (n < p), only VDA can be executed. Case study data shows the same results as simulated data. Keywords : quadratic discriminant analysis, multivariate analysis, vertex discriminant analysis
© Hak Cipta Milik IPB. Tahun 2015 Hak Cipta Dilindungi Undang-Undang Dilarang mengutip sebagian atau seluruh karya tulis ini tanpa mencantumkan atau menyebutkan sumbernya. Pengutipan hanya untuk kepentingan pendidikan, penelitian, penulisan karya ilmiah, penyusunan laporan, penulisan kritik, atau tinjauan suatu masalah; dan pengutipan tersebut tidak merugikan kepentingan IPB Dilarang mengumumkan dan memperbanyak sebagian atau seluruh karya tulis ini dalam bentuk apa pun tanpa izin IPB
PERBANDINGAN VERTEX DISCRIMINANT ANALYSIS (VDA) DAN QUADRATIC DISCRIMINANT ANALYSIS (QDA) (Studi Kasus Pengklasifikasian Provinsi dan Kabupaten/Kota di Pulau Sumatera Berdasarkan Tingkat Kemiskinan)
HELGA KURNIA
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2015
Penguji pada Ujian Tesis:
Dr. Bagus Sartono, M.Si., S.Si
Judul Tesis
Nama NIM
: Perbandingan Vertex Discriminant Analysis (VDA) dan Quadratic Discriminant Analysis (QDA) (Studi Kasus Pengklasifikasian Provinsi dan Kabupaten/Kota di Pulau Sumatera Berdasarkan Tingkat Kemiskinan) : Helga Kurnia : G151120211
Disetujui oleh Komisi Pembimbing
Dr Ir I Made Sumertajaya, MSi Ketua
Dr Farit M Afendi, SSi MSi Anggota
Diketahui oleh
Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr Ir Kusman Sadik, MSi
Dr Ir Dahrul Syah, MScAgr
Tanggal Ujian: 19 Agustus 2015
Tanggal Lulus: 07/10/2015
PRAKATA Puji dan syukur penulis ucapkan kehadirat Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga penulis dapat menyelesaikan tesis yang berjudul “Perbandingan Vertex Discriminant Analysis (VDA) dan Quadratic Discriminant Analysis (QDA) (Studi Kasus Pengklasifikasian Provinsi dan Kabupaten/Kota di Pulau Sumatera Berdasarkan Tingkat Kemiskinan)”. Keberhasilan penulisan tesis ini tidak lepas dari bantuan, bimbingan, dan petunjuk dari berbagai pihak. Terima kasih penulis ucapkan kepada Bapak Dr Ir I Made Sumertajaya, M.Si dan Bapak Dr Farit M. Afendi, S.Si., M.Si selaku pembimbing yang telah banyak memberi bimbingan, arahan, serta saran kepada penulis. Terimakasih juga kepada Kementerian Pendidikan dan Kebudayaan yang telah memberikan penulis Beasiswa Unggulan untuk staf dan telah memberikan tugas belajar kepada penulis. Ungkapan terima kasih terkhusus penulis sampaikan kepada suami, orang tua, anak-anak, seluruh keluarga, dosen-dosen, dan teman-teman atas do’a, dukungan, dan kasih sayangnya. Terima kasih pula kepada seluruh staf Program Studi Statistika dan rekan-rekan di Pusat Kurikulum dan Perbukuan Balitbang Kementerian Pendidikan dan Kebudayaan atas bantuan, dukungan, dan kebersamaannya. Semoga tesis ini bermanfaat serta dapat menambah wawasan bagi para pembaca. Kritikan yang membangun sangat penulis harapkan demi perbaikan tesis ini dimasa yang akan datang.
Bogor, Agustus 2015
Helga Kurnia
DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR DAFTAR LAMPIRAN 1 PENDAHULUAN Latar Belakang Tujuan Penelitian 2 TINJAUAN PUSTAKA Analisis Diskriminan Analisis Diskriminan Linier dan Non-linier Quadratic Discriminant Analysis (QDA) Vertex Discriminant Analysis (VDA) Vertex pada Ruang 𝑅 𝑘−1 Meminimumkan Fungsi Kerugian (Loss Function) Fungsi Tujuan pada VDA Algoritma MM (Majorize-Minimize) pada VDA Mayorisasi dari Jarak ϵ-insensitif dan Fungsi Tujuan Algoritma VDA 3 DATA DAN METODE Data Data Simulasi Data Kasus Terapan Metode Analisis 4 HASIL DAN PEMBAHASAN Kajian Simulasi Kajian Kasus Terapan Deskripsi Data Hasil Uji Box’s Hasil Analisis Diskriminan Kuadratik (QDA) VDA pada Data Kabupaten VDA pada Data Kabupaten dengan Penambahan Komponen Kuadratik VDA pada Data Provinsi VDA pada Data Provinsi dengan Penambahan Komponen Kuadratik Perbandingan Ketepatan Klasifikasi antara QDA dan VDA 5 SIMPULAN DAN SARAN Simpulan Saran DAFTAR PUSTAKA
vi vi vi 1 1 2 2 2 2 3 4 4 5 5 6 6 7 7 7 8 9 9 11 11 13 13 16 16 17 18 19 19 21 22 21 21 23
LAMPIRAN
25
RIWAYAT HIDUP
33
DAFTAR TABEL 1 Skenario simulasi 2 Perbandingan rataan ketepatan klasifikasi antara VDA dan QDA 3 Jumlah kabupaten/kota setiap kelas dan karakteristik masing-masing kelas 4 Jumlah provinsi setiap kelas dan karakteristik masing-masing kelas 5 Ketepatan klasifikasi pada data training kabupaten/kota 6 Ketepatan klasifikasi QDA pada data testing kabupaten/kota 7 Ketepatan klasifikasi VDA pada data training kabupaten/kota 8 Ketepatan klasifikasi VDA pada data testing kabupaten/kota 9 Ketepatan klasifikasi VDA pada data training kabupaten/kota dengan penambahan komponen kuadratik 10 Ketepatan klasifikasi VDA pada data testing kabupaten/kota dengan penambahan komponen kuadratik 11 Ketepatan klasifikasi VDA pada data testing provinsi 20% 12 Ketepatan klasifikasi VDA pada data testing provinsi 40% 13 Ketepatan klasifikasi VDA pada data testing provinsi 50% 14 Ketepatan klasifikasi VDA pada data testing provinsi 20% dengan penambahan komponen kuadratik 15 Ketepatan klasifikasi VDA pada data testing provinsi 40% dengan penambahan komponen kuadratik 16 Ketepatan klasifikasi VDA pada data testing provinsi 50% dengan penambahan komponen kuadratik 17 Perbandingan ketepatan klasifikasi antara QDA, VDA, dan VDA dengan penambahan komponen kuadratik pada data kabupaten/kota 18 Perbandingan ketepatan klasifikasi antara QDA, VDA, dan VDA dengan penambahan komponen kuadratik pada data provinsi
8 11 14 15 16 16 17 17 18 18 19 19 19 21 21 21 22 22
DAFTAR GAMBAR 1 2 3 4
Penentuan indikator vertex untuk tiga kelas Boxplot ketepatan klasifikasi data simulasi Perbandingan persentase kebaikan klasifikasi antara QDA dan VDA dari 100 kali ulangan data simulasi Histogram tingkat kemiskinan kabupaten/kota di Sumatera
5 12 12 13
DAFTAR LAMPIRAN 1 2 3 4 5
Daftar kabupaten/kota di Sumatera dan klasifikasinya Daftar provinsi di Sumatera dan klasifikasi berdasarkan tingkat kemiskinan Rataan peubah-peubah di setiap kelas pada data kabupaten/kota Rataan peubah-peubah di setiap kelas pada data provinsi Matriks jarak antar-provinsi
25 29 30 31 32
1
1 PENDAHULUAN Latar Belakang Analisis diskriminan merupakan suatu analisis pada data peubah ganda yang digunakan untuk mengklasifikasikan setiap observasi ke dalam kelas yang saling bebas berdasarkan peubah-peubah pencirinya. Analisis diskriminan sampai saat ini masih mengalami perkembangan secara aktif. Analisis diskriminan yang sering digunakan adalah linear discriminant analysis (LDA) dengan pendekatan Fisher. Pembentukan fungsi diskriminan pada LDA melibatkan komponen matriks kovarian bersama. Matriks kovarian bersama dapat dibentuk jika struktur matriks kovarian antarkelas sama sehingga dapat digabungkan. Bila matriks kovarian antarkelas berbeda penggunaan LDA menjadi tidak valid. quadratic discriminant analysis (QDA) dapat mengatasi masalah ini. Pada saat jumlah peubah lebih banyak daripada observasinya (n < p). LDA dan QDA tidak dapat dilakukan karena rank dari matriks lebih kecil dari jumlah peubah, mengakibatkan matriks kovarian singular, sehingga tidak memiliki invers. Menurut Wu & Lange (2008) hal tersebut dapat diatasi dengan vertex discriminant analysis (VDA). Pada penelitian ini akan dilakukan perbandingan antara VDA dan QDA, sementara penelitian tentang perbandingan antara VDA dan LDA sudah dilakukan oleh Nurmaleni (2015). Kajian kasus pada penelitian ini menggunakan data tentang kemiskinan di pulau Sumatera yang dipublikasikan oleh Tim Nasional Percepatan Penanggulangan Kemiskinan (TNP2K) pada website www.tnp2k.go.id. Data ini diambil berdasarkan pertimbangan bahwa kemiskinan merupakan permasalahan bangsa. Pemerintah telah melaksanakan penanggulangan kemiskinan melalui berbagai program baik di tingkat pusat maupun di daerah. Program pemerintah dalam penanggulangan kemiskinan di daerah diharapkan dapat berjalan optimal dan lebih bermanfaat jika ada kebijakan yang berbeda antardaerah. Perbedaan kebijakan tersebut disesuaikan dengan tinggi rendahnya tingkat kemiskinan daerah dan kebutuhan daerah yang bersangkutan. Oleh karena itu, dibutuhkan identifikasi pengklasifikasian tingkat kemiskinan daerah-daerah yang ada di Indonesia baik provinsi maupun kabupaten/kota. Pulau Sumatera dipilih sebagai objek penelitian dalam kajian kasus karena berdasarkan data indikator kesejahteraan daerah 2010 TNP2K, dari 10 provinsi dengan tingkat kemiskinan tertingi di Indonesia. Tiga di antaranya adalah provinsi di pulau Sumatera, yaitu Aceh, Lampung, dan Bengkulu. Tujuh provinsi lainnya merupakan daerah Indonesia bagian timur, yaitu Papua, Papua Barat, Maluku, Gorontalo, NTT, NTB, dan Sulawesi Tengah. Pulau Sumatera adalah pulau yang relatif dekat dengan pulau Jawa yang merupakan letak pusat pemerintahan Indonesia, tetapi tiga di antaranya masih termasuk 10 provinsi paling miskin di Indonesia.
2 Tujuan Penelitian Tujuan penulisan dalam penelitian ini adalah membandingkan vertex discriminant analysis (VDA) dengan quadratic discriminant analysis (QDA) pada data n < p dan n > p, dengan n adalah jumlah observasi dan p adalah jumlah peubah.
2 TINJAUAN PUSTAKA Analisis Diskriminan Analisis diskriminan adalah teknik peubah ganda yang berhubungan dengan pemisahan sekelompok objek (observasi) dan penempatan objek (observasi) ke dalam kelompok yang telah ditentukan terlebih dahulu (Johnson & Wichern 2007). Pada analisis diskriminan pengelompokan dan identifikasi sifat khas suatu kelompok dapat dilakukan sekaligus. Model dasar analisis diskriminan adalah sebuah persamaan yang menunjukkan suatu kombinasi linier dari berbagai peubah penjelas, yaitu : (1) 𝐷 = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + ⋯ + 𝑏𝑘 𝑋𝑘 dengan : 𝐷 = skor diskriminan 𝑏𝑖 = koefisien diskriminan atau bobot ke-i 𝑋𝑖 = predictor atau peubah penjelas ke-i Koefisien yang diduga adalah b sehingga nilai 𝐷 setiap kelas sedapat mungkin berbeda. Berdasarkan nilai 𝐷 itulah keanggotaan sebuah observasi diprediksi. (Mattjik & Sumertajaya 2011)
Analisis Diskriminan Linier dan Non-linier Kelinieran pada analisis diskriminan ditentukan oleh matriks ragamperagamnya (∑). Jika matriks ragam-peragam antarkelas sama, maka dapat dikatakan analisis diskriminan linier, dan sebaliknya disebut analisis diskriminan non-linier. Untuk menguji kesamaan matriks ragam-peragam antarkelas digunakan statistik uji Box’s berikut: 𝑾 (2) −2 ln 𝜆∗ = 𝑛 − 𝑘 ln − ∑ 𝑛𝑗 − 1 ln 𝑺𝑗 𝑛−𝑘 dengan:
𝜆∗
=
𝑺𝒋
𝑛 𝑗 −1
𝑾 𝑛−𝑘
2
𝑛 −𝑘
2
k = banyaknya kelas 𝑛 = jumlah semua observasi 𝑛𝑗 = jumlah observasi pada kelas ke-j, dengan j=1,2,...,k 𝑾 𝑛 − 𝑘 = matriks ragam-peragam dalam kelas gabungan 𝑺𝑗 = matriks ragam-peragam kelas ke-j. Bila matriks ragam-peragam sama, maka −2 ln 𝜆∗ 𝑏 akan mengikuti sebaran F dengan derajat bebas 𝑑𝑏1 dan 𝑑𝑏2 pada taraf nyata α, dimana:
3 𝑑𝑏1 = 1 2 𝑘 − 1 𝑝 𝑝 + 1 𝑑𝑏2 = 𝑑𝑏1 + 2 𝑎2 − 𝑎1 2 𝑏 = 𝑑𝑏1 1 − 𝑎1 − 𝑑𝑏1 𝑑𝑏2 2𝑝 2 +3𝑝−1
𝑎1 = 6 𝑎2 =
𝑘−1 𝑝+1
𝑝−1 𝑝+2 6 𝑘−1
∑ ∑
1
−
𝑛 𝑗 −1 1 𝑛 𝑗 −1
2
−
1 𝑛−𝑘 1 𝑛 −𝑘 2
p = jumlah peubah pembeda dalam fungsi diskriminan Oleh karena itu apabila −2 ln 𝜆∗ 𝑏 ≤ 𝐹𝑑𝑏 1 .𝑑𝑏 2 .𝛼 atau 𝑛𝑖𝑙𝑎𝑖 − 𝑃 > 𝛼 maka dapat disimpulkan bahwa semua kelas mempunyai matriks ragam-peragam yang sama atau dapat dianalisa dengan analisis diskriminan linier. (Mattjik & Sumertajaya 2011)
Quadratic Discriminant Analysis (QDA) Analisis dikskriminan dengan pendekatan Fisher untuk data normal multivariat dan matriks ragam-peragam tidak sama adalah analisis diskriminan kuadratik atau quadratic discriminant analysis (QDA). Menurut Johnson & Wichern (2007), untuk dua kelas (k=2), himpunan dari kemungkinan semua hasil pada contoh dibagi menjadi dua wilayah, 𝑅1 dan 𝑅2 . Misalkan 𝑓1 𝒙 dan 𝑓2 𝒙 fungsi kepekatan peluang dari 𝑝 × 1 vektor peubah acak X untuk populasi 𝜋1 dan 𝜋2 . 𝑅1 adalah serangkaian nilai x untuk objek yang kita klasifikasikan sebagai 𝜋1 sehingga 𝑅2 = 𝛺 − 𝑅1 , dengan Ω adalah ruang contoh yang berisi kumpulan dari semua observasi yang mungkin dari x. Jika rasio harga kesalahan klasifikasi tidak ditentukan, maka rasio tersebut diambil bernilai satu. Daerah klasifikasinya menjadi 𝑅1 :
𝑓1 𝒙 𝑓2 𝒙
𝑝
≥ 𝑝2 1
dan
𝑓 𝒙
𝑅2 : 𝑓1
2 𝒙
𝑝
< 𝑝 2 . Skor diskriminan kuadratik 1
didefinisikan sebagai:
1 1 (3) 𝒙 − 𝝁𝑗 ′∑−𝟏 𝒙 − 𝝁 − ln ∑𝑗 𝑗 𝒋 2 2 Karena 𝝁𝑗 dan ∑𝑗 tidak diketahui, sehingga dicari estimasi dari contohnya. Jadi, estimasi dari skor diskriminan kuadratik dapat menjadi: 1 1 (4) 𝑑𝑗𝑄 𝒙 = ln 𝑝𝑗 − 𝒙 − 𝒙𝑗 ′𝑺𝑗−1 𝒙 − 𝒙𝑗 − ln 𝑺𝑗 2 2 Maka, taksiran pengelompokannya adalah mengalokasikan 𝒙 ke dalam 𝜋2 jika skor diskriminan kuadratiknya: 𝑄 𝑄 (5) 𝑑1 𝒙 < 𝑑2 𝒙 Untuk mengestimasi probabilitas anggota 𝑝𝑗 pada persamaan (4), dapat digunakan dua pendekatan yang umum. Yang pertama 𝑝𝑗 diasumsikan sama dari semua 𝑑𝑗𝑄 𝒙 = ln 𝑝𝑗 −
1
populasi, maka 𝑝𝑗 = 𝑘 untuk setiap 𝑗. Kedua, 𝑝𝑗 diestimasi sebagai frekuensi 𝑛
relatif dari observasi pada setiap kelas, sehingga 𝑝𝑗 = 𝑛𝑗 . (Hubert & Driessen 2004) Jika jumlah kelas lebih dari dua, maka pembentukan fungsi diskriminan kuadratik menggunakan persamaan 1 1 𝑑𝑗𝑄 𝒙 = ln 𝑝𝑗 − 2 𝒙 − 𝝁𝑗 ′𝜮𝑗 −1 𝒙 − 𝝁𝑗 − 2 ln 𝜮𝑗 , j =1,2,...,k (6)
4 dengan 𝝁𝑗 = rataan populasi kelas ke-j, j = 1,2,...,k ,
1
𝑝𝑗 = peluang prior, apabila nilainya tidak diketahui maka 𝑝𝑗 = 𝑘 , 𝜮𝑗 = matriks ragam-peragam kelas ke-j. Karena 𝝁𝑗 dan 𝜮𝑗 tidak diketahui, sehingga dapat menggunakan estimasi dari contohnya. Jadi, estimasi dari skor diskriminan kuadratik dapat menjadi 1 1 𝑄𝑗 𝒙 = 𝑑𝑗𝑄 𝒙 = ln 𝑝𝑗 − 2 𝒙 − 𝒙𝑗 ′𝑺𝑗−1 𝒙 − 𝒙𝑗 − 2 ln 𝑺𝑗 (7) dengan 𝒙𝑗 = estimasi dari rataan kelas ke-j, j = 1,2,...,k , 𝑺𝑗 = estimasi dari ragam-peragam kelas ke-j. Maka, pendugaan pengelompokannya dengan menentukan kelas mana yang memiliki skor maksimum seperti persamaan (8) berikut: 𝑄𝑖 𝒙 = maks 𝑄1 𝒙 , 𝑄2 𝒙 , … , 𝑄𝑘 𝒙 .
(8)
Vertex Discriminant Analysis (VDA) Salah satu pengembangan metode dari analisis diskriminan adalah vertex discriminant analysis (VDA). Dalam masalah ruang berdimensi tinggi (high dimensional) atau jumlah peubah lebih banyak dari jumlah observasi, kelemahan yang mungkin terjadi adalah overfitting. Meskipun demikian, hal tersebut dapat ditangani dengan baik melalui pengaturan pendugaan koefisien regresi dengan menambahkan syarat penalti yang menyusutkan pendugaan mendekati nilai aslinya. Jumlah penyusutan dapat dikalibrasi dengan validasi silang (crossvalidation). (Wu & Lange 2008) Vertex pada Ruang 𝑹𝒌−𝟏 Pemilihan indikator kelas dilakukan dengan membentuk equidistant points (titik-titik dengan jarak yang sama) pada ruang 𝑅 𝑘−1 , dimana 𝑘 adalah jumlah kelompok/kelas. Jumlah equidistant points yang harus ditemukan sebanyak 𝑘 kelas. Equidistant points tersebut untuk selanjutnya dinamakan dengan vertex. Menurut Wu & Lange (2008), suatu cara yang mungkin untuk mengkontruksi vertex tersebut dengan menggunakan formula berikut: 1
− untuk j = 1 2 𝑣𝑗 = 𝑘 − 1 𝟏 , untuk 2 ≤ j ≤ k 𝑐𝟏 + d𝐞j−1 , dengan : matriks 1 berukuran (1x𝑛𝑗 )
𝑐=−
1+ 𝑘 𝑘−1
3 2
, 𝑑=
𝑘 𝑘−1
(9)
, j = 1. 2. .... k
𝑒𝑗 = vektor koordinat ke-j dalam 𝑅 𝑘−1 Sebagai ilustrasi, jika jumlah ada tiga kelas, maka tiga titik yang terbentuk pada 𝑅 2 , adalah 𝑣1 = 0.707, 0.707 ; 𝑣2 = 0.25, −0.966 ; 𝑣3 = (−0.966, 0.259) dan dapat digambarkan sebagai berikut:
5
Gambar 1 Penentuan indikator vertex untuk tiga kelas Meminimumkan Fungsi Kerugian (Loss Function) Fungsi tujuan merupakan nilai harapan dari fungsi kerugian (loss function). Fungsi kerugian yang digunakan pada VDA adalah kerugian ϵ-insensitif. Kerugian ϵ-insensitif pada regresi diformulakan menjadi: (10) L 𝑦, 𝑥 = y − 𝑎𝑡 𝑥 − 𝑏 ∈ dengan 𝑢 ∈ = 𝑚𝑎𝑥 𝑢 −∈ ,0 (Vapnik 1995; Hastie et al. 2001). Kerugian ϵ-insensitif lebih resisten terhadap pencilan dibandingkan dengan squared error loss (Liu et al 2005). Pengklasifikasian dilakukan dengan memilih jarak terdekat antara penduga linier dengan indikator kelas yang mungkin. Kerugian ϵ-insensitif baik digunakan pada dimensi tinggi. Agar nilai dugaan dapat mendekati nilai populasi, maka fungsi kerugian diminimumkan. Misalkan Y menunjukkan indikator kelas dan X menunjukkan vektor peubah penciri dari observasi acak. Vektor Y bertepatan dengan salah satu simpul (vertex) tersebut. Diketahui fungsi kerugian (loss function) L(y,x), analisis diskriminan berusaha untuk meminimumkan nilai harapan kerugian sebagai berikut: 𝐸 𝐿 𝑌, 𝑋 = 𝐸 𝐿 𝑌, 𝑋 |𝑋 . Untuk meminimalkan kerugian dapat dilakukan diferensiasi/turunan. Tetapi fungsi kerugian ϵ-insensitif tidak dapat diturunkan. Hal ini sulit dilakukan, sehingga untuk pendugaan parameter dilakukan dengan cara meminimumkan ratarata kerugian bersyarat 𝑛−1 × ∑𝑛𝑖=1 𝐿 𝑦𝑖 , 𝑥𝑖 dengan menambahkan batas penalti. Fungsi Tujuan pada VDA VDA linier mengasumsikan model regresi linier 𝑓(𝑥) = 𝑨𝑥 + 𝒃, dengan 𝑨 = 𝑎𝑗𝑚 adalah matriks koefisien kemiringan berukuran (𝑘 − 1) × 𝑝, dan 𝒃 = 𝑏𝑗 adalah vektor kolom dari intersep yang berukuran (𝑘 − 1) × 1. Fungsi diskriminan VDA adalah: (11) 𝒇 𝒙 = 𝑨𝒙 + 𝒃. Overfitting dapat dihindari dengan menerapkan penalti pada slope 𝑎𝑗𝑚 tetapi bukan pada intersep 𝑏𝑗 . Setelah dilakukan identifikasi terhadap kelas indikator dengan vertex, fungsi tujuan (fungsi kerugian yang dinormalisasi) terdiri dari fungsi kerugian dan penalti, didefinisikan sebagai berikut:
6 1 𝑅 𝜽 = 𝑛
𝑛𝑗
𝑘
𝑘−1
𝒗𝑗 (𝑖) − 𝑨𝑥𝑗
𝑖
𝑗 =1 𝑖=1
−𝒃
+𝜆 ∈
𝒂𝑗
2
(12)
𝑗 =1
θ = (𝑨, 𝒃) 𝒗𝑗 (𝑖) = penempatan titik vertex ke-j untuk observasi ke-i 𝒂𝑗 = baris ke-j dari matriks koefisien regresi A yang berukuran (𝑘 − 1) × 𝑝 b = vektor kolom intersep berukuran (𝑘 − 1) × 1 𝑢 ∈ = 𝑚𝑎𝑥 𝑢 −∈ ,0 adalah ϵ-insensitif jarak Euclid Fungsi kerugian ϵ-insensitif jarak Euclid dapat didefinisikan sebagai berikut: 0 , jika 𝐮 < 𝜖 (13) 𝝊𝑗 (𝑖) − 𝐀x𝑗 (𝑖) − 𝐛 = 𝐮 ϵ = max ϵ 𝐮 − 𝜖 , jika 𝐮 ≥ 𝜖
dengan :
1
dengan 𝜖 = 2
2𝑘+2 𝑘
.
Algoritma MM (Majorize-Minimize) pada VDA Algoritma MM mensubstitusikan masalah optimasi sederhana untuk masalah optimasi yang sulit. Dalam meminimumkan singkatan MM berarti mayorisasi-minimum (Majorize-Minimize), sedangkan dalam maksimal singkatan MM berarti minorisasi-maksimum (Minorize-Maximize). Sebuah algoritma MM beroperasi dengan menciptakan fungsi pengganti yang memayorisasi atau meminorisasi fungsi tujuan. Ketika fungsi pengganti dioptimalkan, fungsi tujuan akan didorong agar meningkat atau menurun sesuai kebutuhan. Pada VDA algoritma MM dibutuhkan untuk meminimumkan fungsi tujuan, sehingga MM berarti mayorisasi-minimum (Majorize-Minimize). Fungsi asal mengikuti definisi 𝑓 𝜃 𝑛+1 ≤ 𝑔 𝜃 𝑛+1 |𝜃 𝑛 ≤ 𝑔 𝜃 𝑛 |𝜃 𝑛 = 𝑓 𝜃 𝑛 . Algoritma MM minimalisasi memenuhi fungsi asal 𝑓 𝜃 𝑛+1 ≤ 𝑓 𝜃 𝑛 dengan pertidaksamaan yang sempurna. kecuali memenuhi kedua syarat berikut: (14) 𝑔 𝜃 𝑛+1 |𝜃 𝑛 = 𝑔 𝜃 𝑛 |𝜃 𝑛 dan 𝑓 𝜃 𝑛+1 = 𝑔 𝜃 𝑛+1 |𝜃 𝑛 . Fungsi asal membuat algoritma MM sangat stabil. Mayorisasi dari Jarak ϵ-insensitif dan Fungsi Tujuan Aplikasi yang diulang pada pertidaksamaan Cauchy-Schwarz menghasilkan mayorisasi dari 𝑥 𝜖 yang didefinisikan pada persamaan (13). Sehingga fungsi mayorisasinya adalah sebagai berikut: 1 2 xt q x xt =
x 2+ 1
1 t x -ϵ, 2
x-xt 2 , 4(ϵ- xt ) 1 x-z 2 , 4(ϵ- z )
untuk x 𝑡
≥ 2𝜖
untuk x 𝑡 < 𝜖 untuk 𝜖 <
dimana pada kasus terakhir 𝑧 = 𝑐𝑥 (𝑡) dan 𝑐 = 2𝜖 mayorisasi dalam situasi anomali 𝑥 𝑡 = 𝜖.
(15)
x 𝑡 < 2𝜖
𝑥 (𝑡) − 1. Tidak ada
7 Mayorisasi dari fungsi tujuan dengan meminimalisasi fungsi pengganti. Minimalisasi fungsi pengganti dengan cara mereduksi menjadi pendugaan kuadrat terkecil terboboti: 2 𝑛𝑗 1 𝑅 𝜃 = 𝑛 ∑𝑘𝑗=1 ∑𝑖=1 𝒗𝑗 (𝑖) − 𝑨𝑥𝑗 𝑖 − 𝒃 + 𝜆 ∑𝑘−1 𝑗 =1 𝒂𝑗 2 ≤ 𝑛 ∑𝑛𝑖=1 𝑤𝑖 ri -si + 𝜆 ∑𝑘𝑗=1 2 1 = 𝑛 ∑𝑘𝑗=1 ∑𝑛𝑖=1 𝑤𝑖 rij -sij + 𝜆 1
𝒂𝑗 𝒂𝑗
∈ 2
+𝑑
2
+𝑑
(16)
𝑢𝑛𝑡𝑢𝑘 𝐫𝑖 = 𝐯𝑖 − 𝐀x𝑖 − 𝐛. dengan pembobot: 1
2 𝒓𝑖
𝑤𝑖 =
𝑗𝑖𝑘𝑎 𝒓𝑖 ≥ 2𝜖 1
𝑗𝑖𝑘𝑎 𝒓𝒊 < 𝜖
4 𝜖− 𝒓𝒊 1
𝑗𝑖𝑘𝑎 𝜖 < 𝒓𝑖 < 2𝜖
4 𝒓𝑖 −𝜖
dan argument shift: 𝟎 𝑠 = 𝒓𝒊 𝑖
2𝜖 𝒓𝑖
(17)
𝑗𝑖𝑘𝑎 𝒓𝒊 ≥ 2𝜖 𝑗𝑖𝑘𝑎 𝒓𝑖 < 𝜖 − 1 𝒓𝑖
(18)
𝑗𝑖𝑘𝑎 𝜖 < 𝒓𝑖 < 2𝜖
Konstanta d tergantung pada sisaan 𝒓𝑖 pada iterasi ke-t. Algoritma VDA Proses perhitungan pada VDA cukup rumit bila dilakukan secara manual karena melibatkan proses iterasi, sehingga dibutuhkan bantuan program perangkat lunak. yaitu program R dengan paket VDA. Algoritma VDA dapat dituliskan sebagai berikut (Wu & Lange 2008): i. Tentukan nilai awal iterasi 𝑡 = 0, dan inisialisasi 𝑨 0 = 0 dan 𝒃 0 = 0 ; ii. Definisikan 𝑦𝑖 = 𝑣𝑗 jika subjek ke-i menjadi kategori ke-j, dimana 𝑣𝑗 didefinisikan pada persamaan (9); iii. Mayorisasi fungsi tujuan dengan sisaan ke-i 𝑟𝑖 𝑡 = 𝑦𝑖 − 𝑨 𝑡 𝑥𝑖 − 𝒃 𝑡 ; iv. Meminimumkan fungsi pengganti dan menentukan 𝑨 𝑡+1 dan 𝒃 𝑡+1 dengan dengan cara menyelesaikan k set persamaan linier. v. Jika 𝑨 𝑡+1 − 𝑨 𝑡 < 𝛾 dan 𝑅 𝑨 𝑡+1 . 𝒃 𝑡+1 − 𝑅 𝑨 𝑡 . 𝒃 𝑡 < 𝛾 keduanya sampai 𝛾 = 10−4 , kemudian berhenti. Jika tidak ulangi langkah ke-iii sampai dengan langkah ke-v.
3 DATA DAN METODE Data Data yang digunakan dalam penelitian ini terdiri dari dua sumber yaitu data simulasi dan data kasus terapan. Berdasarkan tujuan penelitian, yaitu untuk membandingkan vertex discriminant analysis (VDA) dengan quadratic discriminant analysis atau analisis diskriminan kuadratik (QDA) pada data
8 dengan n < p dan n > p, maka data terapan terdiri dari dua pengelompokan. Pengelompokan kabupaten/kota untuk memenuhi kondisi data n > p dan pengelompokan provinsi untuk memenuhi kondisi n < p. Tetapi kedua kondisi tersebut tidak dapat dilakukan pada data simulasi karena metode QDA tidak dapat mengklasifikasikan objek pada n < p, karena matriks ragam-peragamnya bersifat singular sehingga tidak memiliki invers, sehingga tidak dapat dilakukan perhitungan. Data Simulasi Proses pembangkitan data simulasi terdiri dari dua tahap, yaitu: Tahap I : Menentukan skenario simulasi Skenario simulasi disajikan pada Tabel 1. Keragaman berbeda kecil ditentukan dengan perbedaan keragaman yang tidak nyata, berbeda sedang ditentukan dengan perbedaan yang mulai nyata, sedangkan keragaman berbeda besar ditentukan dengan perbedaan keragaman antarkelas yang jelas nyata. Tabel 1 Skenario simulasi Skenario 1 2 3 4
Keragaman antarkelas sama kecil sedang besar
Vektor simpangan baku 𝒔1 𝒔2 𝒔3 (2, 2, 2) (2, 2, 2) (2, 2, 2) (2, 2, 2) (3, 3, 3) (3, 3, 3) (2, 2, 2) (4, 4, 4) (4, 4, 4) (2, 2, 2) (12, 12, 12) (12, 12, 12)
Tahap II : Membangkitkan data Langkah-langkah pada tahap membangkitkan data adalah sebagai berikut: a. Menentukan jumlah kelas yang akan dibentuk, yaitu 3 kelas. b. Menentukan ukuran contoh untuk masing-masing kelas, yaitu 20. c. Menentukan jumlah peubah bebas (X), yaitu 3 peubah. d. Menentukan vektor simpangan baku masing-masing kelas (𝒔𝒋 ) sesuai dengan skenario simulasi yang ditentukan pada tahap I, dengan j adalah indeks kelas. e. Menentukan vektor rataan untuk masing-masing kelas 𝝁𝑗 =(µ1j,µ2j,µ3j) yaitu 𝝁1 = 3, 6, 9 , 𝝁2 = 𝝁1 + 𝒔1 , dan 𝝁3 = 𝝁2 + 2𝒔2 . 1 0.1 0.4 f. Menentukan matriks korelasi 𝝆 = 0.1 1 0.8 , matriks korelasi ini sama 0.4 0.8 1 untuk ketiga kelas. g. Membentuk matriks diagonal dari vektor simpangan baku 𝑫𝒋 = 𝒔𝒋 𝑰. h. Membentuk matriks ragam-peragam dengan formula j = 𝑫𝑗 𝝆𝑫𝑗 . i. Membangkitkan peubah acak normal ganda 𝑵𝑗 ~𝑁 𝟎. 𝑰 j. Menguraikan setiap matriks j menjadi U`U dengan dekomposisi Cholesky. k. Membentuk Xj dengan 𝐗𝑗 = 𝑼𝑵𝒋 + 𝝁𝑗 dan 𝐗𝑗 ~ N(𝛍𝒋 , 𝑗). l. Menggabungkan semua data kelas menjadi satu data simulasi. Langkah-langkah di atas dilakukan sebanyak 100 kali ulangan untuk masingmasing skenario dengan menggunakan program R.
9 Data Kasus Terapan Data kasus terapan adalah data sekunder yang diperoleh dari data Indikator Kesejahteraan Daerah Provinsi-provinsi di Sumatera yang diambil dari data publikasi Tim Nasional Percepatan Penanggulangan Kemiskinan (TNP2K) tahun 2011 melalui situs www.tnp2k.go.id, diunduh pada tanggal 12 Mei 2014. Peubah yang diambil mencakup peubah yang berhubungan dengan indikator kemiskinan masyarakat yang berada di pulau Sumatera sebagai peubah penjelas (X). Peubahpeubah tersebut adalah: X1 : Tingkat pengangguran terbuka (%) X2 : Pekerja yang bekerja selama kurang dari 14 jam seminggu (%) X3 : Pekerja di sektor informal (%) X4 : Pengeluaran per kapita (ribu rupiah) X5 : Persentase balita kekurangan gizi (%) X6 : Angka kematian bayi per1000 kelahiran hidup (jiwa) X7 : Angka harapan hidup (tahun) X8 : Persentase kelahiran ditolong oleh tenaga medis (%) X9 : Penduduk dengan keluhan kesehatan (%) X10 : Angka morbiditas (%) X11 : Rata-rata lama sakit (%) X12 : Penduduk yang melakukan pengobatan sendiri (%) X13 : Penduduk tanpa akses pada fasilitas sarana kesehatan (%) X14 : Penduduk tanpa akses pada air bersih (%) X15 : Angka partisipasi pendidikan SD X16 : Angka partisipasi pendidikan SMP X17 : Angka partisipasi pendidikan SMA X18 : Angka putus sekolah usia 7-15 tahun (%) X19 : Angka melek huruf (%) Masing-masing observasi dikelompokkan ke dalam tiga kelas berdasarkan sebaran tingkat kemiskinan daerah (Y) dari tingkat kemiskinan terendah sampai ke tingkat kemiskinan tertinggi. Unit observasi dibedakan menjadi dua kasus berdasarkan jumlah observasi (n) dan jumlah peubah (p), yaitu: a. n < p, unit observasi adalah provinsi, terdiri dari 10 provinsi di pulau Sumatera. b. n > p, unit observasi adalah kabupaten/kota, terdiri dari 151 kabupaten/kota di pulau Sumatera.
Metode Analisis Metode analisis yang digunakan pada penelitian ini mencakup tahapantahapan berikut: 1. Melakukan eksplorasi data. a. Pada data simulasi. Eksplorasi data dilakukan untuk memastikan data bangkitan sudah sesuai dengan skenario simulasi, yaitu: cek keragaman antarkelas, rataan, dan uji Box’s. b. Pada data kasus terapan. Ekspolasi data yang dilakukan antara lain: membuat histogram data tingkat kemiskinan untuk menentukan kelas,
10
2.
3.
cek keragaman antarkelas, rataan setiap peubah pada masing-masing kelasnya, dan uji Box’s. Membagi dua data menjadi data training dan data testing dengan perbandingan 4:1, kecuali pada data provinsi dilakukan variasi jumlah data testing, yaitu 20%, 40%, dan 50%. Data training digunakan untuk membentuk fungsi diskriminan, lalu fungsi yang terbentuk dapat memprediksi kelas jika data setiap peubah dimasukkan. Sehingga perbandingan kelas prediksi dan kelas sebenarnya menghasilkan ketepatan klasifikasi. Sedangkan data testing digunakan untuk menguji ketepatan klasifikasi seakan-akan menentukan kelas pada data baru. Pemilihan data training dan data testing dilakukan secara acak. Pengepasan fungsi diskriminan pada data training, yaitu dengan metode VDA dan QDA. Proses perhitungan pada VDA cukup rumit bila dilakukan secara manual karena melibatkan proses iterasi, sehingga dibutuhkan bantuan program perangkat lunak, yaitu program R dengan paket VDA. Proses perhitungan QDA juga dilakukan dengan bantuan program R dengan paket MASS. Algoritma VDA dapat dituliskan sebagai berikut (Wu & Lange 2008): i. Tentukan nilai awal iterasi 𝑡 = 0, dan inisialisasi 𝑨 0 = 0 dan 𝒃0 =0; ii. Definisikan 𝑦𝑖 = 𝑣𝑗 jika subjek ke-i menjadi kategori ke-j, dimana 1
− 2 𝑣𝑗 = 𝑘 − 1 𝟏 , 𝑐𝟏 + d𝐞j−1 ,
untuk j = 1 untuk 2 ≤ j ≤ 𝑘 ;
Mayorisasi fungsi tujuan dengan sisaan ke-i 𝑟𝑖 𝑡 = 𝑦𝑖 − 𝑨 𝑡 𝑥𝑖 − 𝒃𝑡 ; iv. Meminimumkan fungsi pengganti dan menentukan 𝑨 𝑡+1 dan 𝒃 𝑡+1 dengan cara menyelesaikan k set persamaan linier. v. Jika 𝑨 𝑡+1 − 𝑨 𝑡 < 𝛾 dan 𝑅 𝑨 𝑡+1 , 𝒃 𝑡+1 − 𝑅 𝑨 𝑡 , 𝒃 𝑡 < 𝛾 keduanya sampai 𝛾 = 10−4 , kemudian berhenti. Jika tidak ulangi langkah ke-iii sampai dengan langkah ke-v. Algoritma pembentukan fungsi diskriminan pada QDA adalah sebagai berikut (Johnson & Wichern 2007; Venables & Ripley 2002): i. Membentuk fungsi diskriminan kuadratik k kelas yang didefinisikan 1 1 𝑑𝑗𝑄 𝒙 = ln 𝑝𝑗 − 2 𝒙 − 𝝁𝑗 ′∑−1 𝒙 − 𝝁𝑗 − 2 ln 𝜮𝑗 , j =1,2,...,k 𝑗 dengan 𝝁𝑗 = rataan populasi kelas ke-j, j = 1,2,...,k. 𝑝𝑗 = peluang prior, apabila nilainya tidak diketahui iii.
4.
1
𝑝𝑗 = 𝑘 . 𝜮𝑗 = matriks ragam-peragam kelas ke-j. ii. Karena 𝝁𝑗 dan ∑𝑗 tidak diketahui, sehingga dapat menggunakan estimasi dari contohnya. Jadi, estimasi dari skor diskriminan kuadratik dapat menjadi 1 1 𝑄𝑗 𝒙 = 𝑑𝑗𝑄 𝒙 = ln 𝑝𝑗 − 2 𝒙 − 𝒙𝑗 ′𝑺𝑗−1 𝒙 − 𝒙𝑗 − 2 ln 𝑺𝑗 . Mengklasifikasikan setiap unit observasi data training dan data testing ke dalam sejumlah kelas. Pada VDA dilakukan dengan memilih jarak terdekat maka
11
5.
6.
antara penduga dengan indikator kelas yang mungkin (titik vertex ke-j), dengan formula y=argminj=1....k vj -Axi -b . Pada QDA aturan pengelompokannya adalah mengalokasikan 𝒙 ke dalam kelas ke-j jika 𝑄𝑖 𝒙 = maks 𝑄1 𝒙 , 𝑄2 𝒙 , … , 𝑄𝑘 𝒙 . Menghitung persentase ketepatan klasifikasi baik data training maupun data testing. Ketepatan klasifikasi merupakan persentase ketepatan antara kelas prediksi dan kelas sebenarnya pada semua unit observasi. Ketepatan klasifikasi merupakan indikator untuk melihat kemampuan klasifikasi pada metode analisis diskriminan yang digunakan. Membandingkan VDA dengan QDA. Perbandingan didasarkan pada kemampuan klasifikasi yang lebih baik. Kemampuan klasifikasi dapat dilihat dari persentase ketepatan klasifikasi. Pada data simulasi perbandingan dilakukan berdasarkan keragaman antarkelas.
4 HASIL DAN PEMBAHASAN Kajian Simulasi Pada kajian simulasi ada empat kelompok skenario. Masing-masing kelompok skenario simulasi dianalisis menggunakan metode QDA dan VDA untuk masing-masing data training dan data testing dengan 100 kali ulangan. sehingga masing-masingnya menghasilkan 100 ketepatan klasifikasi. Perbandingan rataan ketepatan klasifikasi antara metode QDA dan VDA pada data training dan data testing disajikan pada Tabel 2 dan boxplot ketepatan klasifikasi pada data training dan data testing disajikan pada Gambar 2 berikut. Tabel 2 Perbandingan rataan ketepatan klasifikasi antara VDA dan QDA Rataan Ketepatan Klasifikasi
Skenario simulasi
Keragaman
1 2 3 4
sama kecil sedang besar
QDA data training 82.2% 99.9% 99.6% 91.5%
VDA data training 79.5% 99.3% 98.8% 81.8%
QDA data testing 73.4% 99.1% 98.0% 85.8%
VDA data testing 75.4% 98.3% 98.4% 79.0%
12 1,0
ketepatan klasifikasi
ketepatan klasifikasi
1,0 0,9 0,8 0,7 0,6 metode keragaman
QDA VDA sama
QDA VDA kecil
QDA VDA sedang
QDA VDA besar
0,9 0,8 0,7 0,6 0,5
0,4 metode keragaman
QDA VDA sama
a) data training
QDA VDA kecil
QDA VDA sedang
QDA VDA besar
b) data testing
Gambar 2 Boxplot ketepatan klasifikasi data simulasi Berdasarkan rataan ketepatan klasifikasi pada data training persentase ketepatan klasifikasi QDA lebih besar daripada VDA, meskipun pada keragaman kecil dan sedang selisih persentase rataan klasifikasinya relatif kecil. Hal ini dapat dilihat juga pada boxplotnya di Gambar 2a. Perbedaan yang signifikan terlihat pada keragaman besar, yaitu QDA relatif jauh lebih baik daripada VDA, artinya pada analisis diskriminan non-linier QDA bekerja lebih baik dalam pengklasifikasian dibandingkan VDA. Namun, untuk kondisi keragaman lainnya VDA hampir sama baiknya dengan QDA. Pada data testing perbedaan ketepatan klasifikasi tidak terlihat perbedaan secara signifikan antara ketepatan klasifikasi QDA dan VDA untuk semua jenis keragaman. Bila dibandingkan antara empat skenario keragaman, QDA dan VDA sangat baik dalam mengklasifikasikan pada keragaman kecil dan sedang, hampir tidak ada kesalahan klasifikasi. Sedangkan pada keragaman sama dan besar relatif lebih beragam dan ketepatan klasifikasinya tidak sebaik pada keragaman kecil dan sedang. 97%
100% 80% 60% 40% 20%
56% 24%
29% 2%
34% 4%
0%
36% 24% 15% 14% 9% 9% 6%
sama
0% sama kecil VDA lebih baik
59% 60% 50% 40% 30% 20% 10% 0%
sedang besar QDA lebih baik
kecil sedang besar
VDA lebih baik
QDA lebih baik
b) data testing a) data training Gambar 3 Perbandingan persentase kebaikan klasifikasi antara QDA dan VDA dari 100 kali ulangan data simulasi Gambar 3 menyajikan perbandingan persentase kebaikan klasifikasi antara QDA dan VDA berdasarkan ketepatan klasifikasi pada setiap ulangan data simulasi, karena pada setiap ulangan kadang ketepatan klasifikasi VDA lebih
13 baik, kadang sebaliknya. atau bisa terjadi ketepatan klasifikasi VDA dan QDA sama. Setiap data simulasi dibandingkan ketepatan klasifikasinya, jika ketepatan klasifikasi VDA lebih besar dibandingkan QDA maka “VDA lebih baik”, begitu juga sebaliknya. Berdasarkan Gambar 3a, pada data training persentase QDA lebih baik daripada VDA untuk semua keragaman, terlihat dari garis “QDA lebih baik” selalu di atas garis “VDA lebih baik”. Pada keragaman besar 97% QDA lebih baik dibandingkan VDA, hal ini sesuai dengan bahasan sebelumnya berdasarkan Gambar 2a. Berdasarkan Gambar 3b, pada keragaman sama dan sedang persentase VDA lebih baik daripada QDA. Seperti halnya pada data training, untuk keragaman besar persentase kebaikan QDA terhadap VDA lebih besar secara signifikan. Sehingga dapat disimpulkan untuk n > p metode QDA lebih baik dibandingkan VDA terutama pada keragaman besar (analisis diskriminan non-linier), namun ketepatan klasifikasi VDA masih cukup baik, sehingga masih dapat dipakai sebagai analisis pilihan. Jika kondisi data dengan jumlah peubah lebih banyak dibandingkan jumalh obseravasi p > n. VDA merupakan pilihan mutlak, karena pada QDA matriks ragam-peragamnya akan bersifat singular sehingga tidak memiliki invers. Berdasarkan perbandingan antara tabel 2 dengan gambar 3 dapat disimpulkan bahwa rataan ketepatan klasifikasi mirip dengan persentase kebaikan klasifikasi tiap ulangan.
Kajian Kasus Terapan Deskripsi Data Pulau Sumatera terdiri dari 10 provinsi dan 151 kabupaten/kota. Data tingkat kemiskinan kabupaten di Sumatera berkisar antara 2.47% (Kota Sawahlunto) sampai dengan 42.56% (Kepulauan Meranti), dengan rataan 13.9% dan simpangan baku 6.5%. Tingkat kemiskinan provinsi berkisar antara 6.51% (Bangka Belitung) sampai dengan 20.98% (Aceh), dengan rataan 12.61% dan simpangan baku 5.31%. Semakin kecil tingkat kemiskinan maka semakin sejahtera kehidupan masyarakat di daerah tersebut. 35
Mean StDev N
30
13,90 6,511 151
Frekuensi
25 20 15 10 5 0
0,0
7,5
15,0
22,5
30,0
37,5
Tingkat Kemiskinan
Gambar 4 Histogram tingkat kemiskinan kabupaten/kota di Sumatera
14 Pada penelitian ini, tingkat kemiskinan merupakan peubah yang dijadikan kelas diskriminasi, sehingga tingkat kemiskinan tersebut dikelompokkan menjadi tiga kelas dengan pertimbangan sebaran datanya. Sebaran data tingkat kemiskinan kabupaten dapat dilihat pada Gambar 4. Tiga kelas tersebut adalah: kelas 1 (kaya) : tingkat kemiskinan kurang dari 10%. kelas 2 (menengah) : tingkat kemiskinan 10% sampai dengan 15%. kelas 3 (miskin) : tingkat kemiskinan lebih dari 15%. Penamaan kelas “kaya”, “menengah”, dan “miskin” dibuat oleh penulis hanya untuk memudahkan interpretasi. Daftar kabupaten/kota di Sumatera dengan klasifikasi berdasarkan tiga kelas di atas dapat dilihat pada Lampiran 1. Berdasarkan tiga kelas diskriminasi yang ditentukan, ada 41 kabupaten/kota termasuk ke dalam tingkat kemiskinan kelas 1, 55 kabupaten/kota di kelas 2, dan 55 kabupaten/kota di kelas 3. Jumlah kabupaten/kota pada setiap kelas tersebut dan peubah-peubah yang menonjol pada masing-masing kelas disajikan pada Tabel 3. Lampiran 3 menyajikan rataan masing-masing peubah di setiap kelas pada data kabupaten/kota. Tabel 3 Jumlah kabupaten/kota setiap kelas dan karakteristik peubah masingmasing kelas Kelas kelas 1 (kaya) kelas 2 (menengah) kelas 3 (miskin)
Jumlah kabupaten/kota 41 55 55
Peubah yang menonjol X1, X2, X5, X6, X13, X14, X18 X6, X11, X17, X19 X3, X4, X8, X9, X12, X19
Pada kelas kaya, peubah yang menonjol atau mencirikan adalah persentase balita kekurangan gizi (X5) dan angka kematian bayi per1000 kelahiran hidup (X6) yang sangat rendah dibandingkan kabupaten/kota di kelas lainnya; persentase penduduk tanpa akses pada fasilitas sarana kesehatan (X13) dan penduduk tanpa akses pada air bersih (X14) yang juga jauh lebih rendah dibandingkan kelas lainnya; pekerja yang bekerja selama kurang dari 14 jam seminggu (X2) yang juga sangat sedikit; tetapi tingkat pengangguran terbuka (X1) dan angka putus sekolah usia 7-15 tahun (X18) sangat tinggi. Kelas menengah dicirikan oleh peubah angka kematian bayi per1000 kelahiran hidup (X6) yang tertinggi dibandingkan kelas lainnya dan angka tersebut hampir sama dengan kabupaten/kota di kelas miskin; persentase rata-rata lama sakit (X11) yang tinggi; angka partisipasi pendidikan SMA (X17) yang paling rendah dibandingkan kelas lainnya; tetapi angka melek huruf (X19) di kelas ini merupakan yang tertinggi dibandingkan kelas lainnya. Sementara itu pada kelas miskin, peubah yang menonjol adalah persentase yang besar untuk jumlah pekerja di sektor informal (X3) yaitu rata-rata 67.47%; pengeluaran perkapita (X4) yang rendah; persentase kelahiran ditolong oleh tenaga medis (X8) yang kecil, rata-rata hanya 78.95%; persentase penduduk dengan keluhan kesehatan (X9) terbesar dibandingkan kelas lainnya, persentase penduduk yang melakukan pengobatan sendiri (X12) besar, dan angka melek huruf (X19) yang terkecil dibandingkan kabupaten/kota di kelas lainnya.
15 Jika mengikuti pengelompokan tingkat kemiskinan seperti data kabupaten/kota, maka untuk data provinsi ada lima provinsi di dalam kelas kaya, yaitu Sumatera Barat, Riau, Jambi, Bangka Belitung, dan Kepualauan Riau; hanya ada satu provinsi di kelas menengah, yaitu Sumatera Utara; dan empat provinsi di kelas miskin, yaitu Aceh, Sumatera Selatan, Bengkulu, dan Lampung. Tersaji pada Tabel 4 jumlah provinsi pada masing-masing kelas dan peubah yang menjadi karakteristiknya. Nilai rataan peubah-peubah di setiap kelas pada data provinsi dapat dilihat pada Lampiran 4. Tabel 4 Jumlah provinsi setiap kelas dan karakteristik masing-masing kelas Kelas kelas 1 (kaya) kelas 2 (menengah) kelas 3 (miskin)
Jumlah provinsi 5 1 4
Peubah yang menonjol X3, X6, X13 X1, X5, X8, X9, X17, X18, X19 X4, X12, X14, X15
Peubah yang menonjol pada kelas kaya adalah persentase pekerja di sektor informal (X3) yang rendah, yaitu rata-rata 51.08%. Lalu peubah angka kematian bayi (X6) yang paling rendah dibandingkan kelas lainnya, yaitu rata-rata 28,8 jiwa per1000 kelahiran hidup. Peubah ketiga yang menjadi karaktistik kelas kaya adalah penduduk tanpa akses pada fasilitas sarana kesehatan (X13) yang rendah, yaitu hanya 9,82%. Pada kelas menengah, peubah yang menonjol mecerminkan karakteristik dari provinsi Sumatera Utara, karena hanya ada satu provinsi pada kelas tersebut. Ada beberapa peubah yang menarik, yaitu tingkat pengangguran (X1) yang tertinggi dibandingkan kelas lainnya; dan persentase balita kekurangan gizi (X5) yang juga tinggi, bahkan lebih tinggi daripada rata-rata di kelas miskin. Namun, kesadaran terhadap pentingnya kesehatan pada masyarakat relatif tinggi, ditandai dengan persentase kelahiran ditolong oleh tenaga medis (X8) yang tinggi (88.68%), dan penduduk dengan keluhan kesehatan (X9) yang paling rendah dibandingkan kelas lainnya, yaitu 29.11%. Selain itu, pendidikan masyarakat juga relatif baik, ditandai dengan angka melek huruf (X19) yang sangat tinggi (97.32%), angka putus sekolah usia 7-15 tahun (X18) yang sangat rendah (1.6%), dan angka partisipasi pendidikan SMA (X17) yang cukup tinggi dibandingkan kelas lainnya (55.3%). Kelas miskin dicirikan oleh empat peubah. Pengeluaran per kapita (X4) yang paling rendah dibandingkan kelas lainnya, yaitu rata-rata Rp 621,990. Penduduk yang melakukan pengobatan sendiri (X12) sangat tinggi, rata-rata 72.28%. Persentase penduduk tanpa akses pada air bersih (X14) masih cukup tinggi (54.17%). Angka partisipasi pendidikan SD (X15) paling tinggi dibandingkan kelas lainnya. Peubah-peubah tersebut mencerminkan bahwa pada kelas miskin kesadaran terhadap kesehatan masih rendah, sanitasi masih rendah, demikian juga tingkat pendidikan masyarakatnya. Dalam analisis diskriminan dibutuhkan data training dan data testing dengan proporsi 20% data testing. Sehingga ada 30 kabupaten/kota pada data testing pada data kabupaten/kota, dan ada 2, 4, dan 5 provinsi pada data provinsi karena dilakukan variasi persentase data testing. Pemilihan data testing dilakukan secara acak. Data training digunakan untuk membentuk fungsi diskriminan,
16 sedangkan data testing berguna untuk menguji ketepatan fungsi diskriminan bila akan menentukan kelas pada data baru. Hasil Uji Box’s Seperti telah dijelaskan pada bab tinjauan pustaka, uji Box’s digunakan untuk menguji kehomogenan matriks ragam-peragam antarkelas pada analisis diskriminan. Jika semua kelas mempunyai matriks ragam-peragam yang homogen, maka analisis diskriminan tersebut linier. Tetapi, jika ada kelas yang matriks ragam-peragamnya tidak homogen, lebih cocok menggunakan analisis diskriminan non-linier. Hasil uji Box’s terhadap data kabupaten/kota menunjukkan bahwa 𝑛𝑖𝑙𝑎𝑖 𝑃 = 0.000 lebih kecil dari 𝛼 = 0.05, dapat disimpulkan bahwa matriks ragam-peragam yang berbeda, sehingga data ini lebih cocok jika menggunakan analisis diskriminan non-linier. Pada penelitian ini akan digunakan QDA dan VDA. Tetapi, karena menurut Wu & Wu (2012) VDA lebih ditujukan untuk analisis diskriminan linier, maka dibandingkan juga dengan VDA bila data dimodifikasi dengan penambahan komponen kuadratik di dalamnya. Hasil Analisis Diskriminan Kuadratik (QDA) Data kemiskinan kabupaten/kota dianalisis dengan QDA dengan bantuan program R. Pada analisis QDA tidak ditampilkan fungsi diskriminannya, tetapi langsung menghitung hasil prediksi kelas pada data training. Sehingga dapat dihitung ketepatan klasifikasi data training yaitu 91.74%, dengan rincian ketepatan klasifikasinya dapat dilihat pada Tabel 5 berikut. Tabel 5 Ketepatan klasifikasi pada data training kabupaten/kota Kelas sebenarnya 1 2 3
1 28 0 0
Kelas prediksi 2 3 44 4
3 1 2 39
Tabel 6 Ketepatan klasifikasi QDA pada data testing kabupaten/kota Kelas sebenarnya 1 2 3
1 1 1 0
Kelas prediksi 2 8 8 5
3 0 0 7
Setelah itu prediksi terhadap data testing juga dapat dilakukan, sehingga dapat dihitung ketepatan klasifikasi pada data testing sebesar 53.3%. Rincian kesalahan klasifikasinya disajikan pada Tabel 6. Ketepatan klasifikasi QDA untuk data testing lebih kecil dibandingkan pada data training. Data kemiskinan provinsi di Sumatera tidak mungkin dianalisa dengan QDA. karena jumlah peubah jauh lebih besar dibandingkan jumlah provinsi (𝑝 ≫ 𝑛). Hal ini akan mengakibatkan matriks ragam-peragam non-singular,
17 sehingga tidak dapat dilakukan proses analisis diskriminan kuadratik lebih lanjut. Tetapi hal ini dapat diatasi oleh VDA, karena pada VDA besaran kategorik ditransformasi ke besaran empirik. VDA pada Data Kabupaten VDA dapat digunakan pada data dengan 𝑛 > 𝑝 maupun 𝑛 < 𝑝. Sehingga pada penelitian ini dapat digunakan untuk menganalisis data kabupaten/kota dan juga data provinsi. Sebagai pembanding, data kabupaten/kota dianalisis dengan metode VDA menggunakan program R. Pada keluaran program R dihasilkan dugaan koefisien (estimated coefficients), sehingga dapat dibentuk fungsi diskriminan vertex Axi -b sebagai berikut: 𝐷1 = −0.016 𝑋1 − 0.032𝑋2 − 0.077 𝑋3 + 0.081 𝑋4 + 0.198 𝑋5 + 0.025 𝑋6 − 0.066 𝑋7 − 0.049 𝑋8 − 0.068 𝑋9 + 0.027 𝑋10 + 0.046 𝑋11 − 0.003 𝑋12 − 0.061 𝑋13 − 0.040 𝑋14 − 0.028 𝑋15 − 0.008 𝑋16 − 0.075 𝑋17 − 0.060 𝑋18 − 0.083 𝑋19 + 0.130 𝐷2 = −0.075 𝑋1 + 0.005 𝑋2 − 0.025 𝑋4 − 0.022 𝑋5 − 0.008 𝑋6 − 0.024 𝑋7 + 0.009 𝑋8 − 0.003 𝑋9 − 0.009 𝑋10 + 0.038 𝑋11 − 0.013 𝑋12 − 0.022 𝑋13 + 0.003 𝑋14 + 0.008 𝑋15 − 0.010 𝑋16 − 0.054 𝑋17 + 0.036 𝑋18 + 0.022 𝑋19 − 0.063
Hasil prediksi kelas setiap kabupaten/kota juga sudah ditampilkan pada keluaran, sehingga dapat dibandingkan dengan kelas sebenarnya untuk menghitung ketepatan klasifikasi pada data training, karena kebaikan model diskriminan dapat dilihat dari ketepatan klasifikasi masing-masing kelas. Semakin besar jumlah klasifikasi yang sama antara kelas prediksi dengan kelas sebenarnya atau semakin kecil persentase kesalahan klasifikasi, maka model diskriminan tersebut semakin baik. Ketepatan klasifikasi VDA pada data training sebesar 74.4%, dengan rinciannya pada tabel 7 berikut. Tabel 7 Ketepatan klasifikasi VDA pada data training kabupaten/kota Kelas sebenarnya 1 2 3
1 20 3 3
Kelas prediksi 2 8 39 9
3 4 4 31
Berdasarkan fungsi diskriminan yang dihasilkan VDA, selanjutnya dapat dilakukan prediksi klasifikasi untuk data testing. Kemudian dapat dibandingkan dengan klasifikasi sebenarnya untuk menghitung besarnya ketepatan klasifikasi. Pada Tabel 8 dapat dilihat rincian ketepatan klasifikasi setiap kelas pada data testing, sehingga dapat dihitung besar ketepatan klasifikasi 0.6667 atau 66.67%. Tabel 8 Ketepatan klasifikasi VDA pada data testing kabupaten/kota Kelas sebenarnya 1 2 3
1 5 2 0
Kelas prediksi 2 3 5 2
3 1 2 10
18 VDA pada Data Kabupaten dengan Penambahan Komponen Kuadratik Pada proses analisis diskriminan kuadratik (QDA) terjadi pembentukan komponen kuadratik, sedangkan pada VDA tidak. Agar pembandingan lebih adil, maka dilakukan penambahan komponen kuadratik pada data yang akan dianalisa dengan VDA. Komponen kuadratik merupakan kuadrat dari peubah X1 sampai dengan X19 yang sebelumnya distandarisasi, sehingga pada data ini ada 38 peubah. Berdasarkan dugaan koefisien (estimated coefficients), fungsi diskriminan vertex yang terbentuk sebagai berikut: 𝐷1 = −0.032𝑋1 − 0.020𝑋2 − 0.110𝑋3 + 0.164𝑋4 + 0.069𝑋5 + 0.073𝑋6 − 0.048𝑋7 − 0.020𝑋8 − 0.012𝑋9 − 0.061𝑋10 + 0.005𝑋11 + 0.045𝑋12 − 0.124𝑋13 − 0.127𝑋14 + 0.152𝑋15 − 0.019𝑋16 − 0.008𝑋17 + 0.003𝑋18 − 0.146𝑋19 + 0.053𝑋20 − 0.002𝑋21 + 0.074𝑋22 − 0.111𝑋23 + 0.110𝑋24 − 0.076𝑋25 + 0.003𝑋26 − 0.015𝑋27 − 0.051𝑋28 + 0.064𝑋29 + 0.026𝑋30 − 0.024𝑋31 + 0.093𝑋32 + 0.104𝑋33 − 0.190𝑋34 + 0.014𝑋35 − 0.020𝑋36 − 0.055𝑋37 + 0.081𝑋38 + 0.033 𝐷2 = −0.066 𝑋1 + 0.003𝑋2 + 0.133𝑋3 + 0.029𝑋4 − 0.011𝑋5 − 0.113𝑋6 − 0.063𝑋7 − 0.007𝑋8 + 0.081𝑋9 − 0.040𝑋10 − 0.001𝑋11 − 0.120𝑋12 − 0.134𝑋13 − 0.077𝑋14 + 0.168𝑋15 − 0.051𝑋16 − 0.029𝑋17 + 0.034𝑋18 − 0.119𝑋19 − 0.033𝑋20 − 0.011𝑋21 − 0.128𝑋22 − 0.091𝑋23 + 0.026𝑋24 + 0.097𝑋25 + 0.060𝑋26 + 0.023𝑋27 − 0.123𝑋28 + 0.043𝑋29 − 0.0143𝑋30 + 0.095𝑋31 + 0.123𝑋32 + 0.078𝑋33 − 0.169𝑋34 + 0.052𝑋35 + 0.006𝑋36 + 0.019𝑋37 + 0.196𝑋38 − 0.022
Ketepatan klasifikasi VDA pada data training sebesar 81%. lebih besar dibandingkan VDA tanpa penambahan komponen kuadratik. Rincian ketepatan klasifikasi tersebut disajikan pada Tabel 9 berikut. Tabel 9 Ketepatan klasifikasi VDA pada data training kabupaten/kota dengan penambahan komponen kuadratik Kelas sebenarnya 1 2 3
1 23 3 3
Kelas prediksi 2 6 41 6
3 3 2 34
Tabel 10 Ketepatan klasifikasi VDA pada data testing kabupaten/kota dengan penambahan komponen kuadratik Kelas sebenarnya 1 2 3
1 2 1 0
Kelas prediksi 2 6 6 2
3 1 2 10
Prediksi klasifikasi untuk data testing dapat dihitung berdasarkan fungsi diskriminan vertex yang sudah terbentuk. Kemudian dibandingkan dengan klasifikasi sebenarnya untuk masing-masing kabupaten/kota. Rincian perbandingan klasifikasi sebenarnya dengan prediksi tersebut disajikan pada
19 Tabel 10, sehingga dapat dihitung ketepatan klasifikasi, yaitu sebesar 60%. Lebih kecil dibandingkan ketepatan klasifikasi data testing tanpa penambahan komponen kuadratik. VDA pada Data Provinsi Salah satu kelebihan VDA dibandingkan QDA adalah mampu melakukan analisis pada kondisi data dengan 𝑝 ≫ 𝑛, seperti pada data kemiskinan provinsi di Sumatera, jumlah peubah (19 peubah) lebih banyak daripada jumlah provinsi (10 provinsi). Data provinsi tersebut dibagi menjadi dua, yaitu data training dan data testing. Pemilihan data testing dilakukan secara acak. Pada data provinsi ini dicobakan beberapa pilihan persentase data testing, yaitu 20%, 40%, dan 50%, Perbedaan jumlah provinsi pada data training dan data testing mengakibatkan perbedaan fungsi diskriminannya. Tabel 11 Ketepatan klasifikasi VDA pada data testing provinsi 20% Kelas sebenarnya 1 2 3
1 -
Kelas prediksi 2 -
3 1 1
Tabel 12 Ketepatan klasifikasi VDA pada data testing provinsi 40% Kelas sebenarnya 1 2 3
1 -
Kelas prediksi 2 1 1
3 1 1
Tabel 13 Ketepatan klasifikasi VDA pada data testing provinsi 50% Kelas sebenarnya 1 2 3
1 -
Kelas prediksi 2 1 1
3 1 2
Ketepatan klasifikasi data training untuk ketiga persentase data testing adalah 100%, artinya tidak ada kesalahan klasifikasi sama sekali. Tetapi ketepatan klasifikasi pada data testing beragam untuk masing-masing proporsi data testing. Secara berurutan proporsi data testing 20%, 40%, dan 50% ketepatan klasifikasinya adalah 50%, 25%, dan 40%. Ketepatan klasifikasi terbesar adalah analisis yang terbaik. Pada kasus ini proporsi data testing 20% adalah yang terbaik. Sehingga ada indikasi bahwa semakin banyak jumlah data training dibandingkan data testingnya, maka ketepatan klasifikasinya akan semakin besar. Rincian ketepatan klasifikasi data testing VDA dapat dilihat pada Tabel 11, 12, dan 13.
20 Pada pemilihan data testing 20% (Tabel 11), provinsi yang terpilih sebagai data testing adalah Sumatera Barat dari kelas 1 dan Sumatera Selatan dari kelas 3. Pada pemilihan data testing 40% (Tabel 12), provinsi yang terpilih adalah Riau dan Jambi dari kelas 1 serta Aceh dan Sumatera Selatan dari kelas 3. Selanjutnya pada pemilihan data testing 50% (Tabel 13), provinsi yang terpilih adalah Sumatera Barat dan Jambi dari kelas 1 serta Aceh, Sumatera Selatan, dan Bengkulu dari kelas 3. Ketepatan klasifikasi data training tersebut relatif kecil. Ada indikasi VDA baik pada klasifikasi data training tetapi kurang baik pada klasifikasi data testing. Hal ini disebabkan jumlah data training yang sedikit sehingga model yang dihasilkan kurang baik. Sebagai perbandingan dilakukan justifikasi dengan melihat jarak antar-propinsi, jarak yang digunakan adalah jarak Euclid. Tabel jarak antar-propinsi pada Lampiran 5a. Provinsi yang tergolong kelas 1 (kaya) adalah Sumatera Barat, Riau, Jambi, Bangka Belitung, dan Kepulauan Riau. Kelas 2 (menengah) hanya Sumatera Utara saja yang menjadi anggotanya. Provinsi yang tergolong kelas 3 (miskin) adalah Aceh, Sumatera Selatan, Bengkulu, dan Lampung. Berdasarkan jarak antar-provinsi pada Lampiran 5a, jarak terdekat adalah antara Lampung dan Bengkulu yang memang berada pada kelas yang sama. Namun, Sumatera Barat dan Sumatera Utara memiliki jarak yang dekat juga, padahal berada pada kelas yang berbeda. Ada indikasi bahwa kedekatan jarak ini yang menyebabkan kesalahan klasifikasi Sumatera Barat digolongkan ke kelas 2 pada data testing 50% di Tabel 13. Begitu juga kedekatan jarak antara Jambi (kelas 1) dengan Bengkulu dan Lampung dari kelas 3. Kedekatan jarak tersebut menyebabkan kesalahan klasifikasi Jambi digolongkan ke kelas 3 pada pemilihan data testing 40% (Tabel 12) dan 50% (Tabel 13). Provinsi Aceh dari kelas 3 memiliki jarak terdekat dengan Sumatera Utara dari kelas 2, sedangkan cukup jauh jaraknya dengan provinsi-provinsi di kelas 3. Sehingga pada klasifikasi data testing 40% (Tabel 12) dan data testing 50% (Tabel 13), Aceh diklasifikasikan ke kelas 2. Demikian halnya dengan Riau (kelas 1) diklasifikasikan ke kelas 2 pada pemilihan data testing 40% (Tabel 12) karena memiliki jarak terdekat dengan Sumatera Utara yang tergolong ke kelas 2. Dengan demikian dapat disimpulkan bahwa ada indikasi kesalahan klasifikasi pada data testing VDA disebabkan karena dari awal pengelompokan provinsi ke dalam kelas berdasarkan tingkat kemiskinan tidak mencerminkan kedekatan karakteristik peubah antar-provinsi dalam kelas yang sama. VDA pada Data Provinsi dengan Penambahan Komponen Kuadratik Seperti yang dilakukan pada data kabupaten/kota, pada data provinsi juga dilakukan penambahan komponen kuadratik, sehingga jumlah peubah menjadi 38. Penambahan peubah ini menyebabkan perbedaan 𝑛 dan 𝑝 semakin jauh (𝑛 ≪ 𝑝). Data testing juga dicobakan untuk proporsi 20%, 40%, dan 50%. Provinsiprovinsi yang terpilih sebagai data testing sama dengan pemilihan pada VDA tanpa penambahan komponen kuadratik. Ketepatan klasifikasi data training untuk ketiga persentase data testing adalah 100%, artinya tidak ada kesalahan klasifikasi sama sekali. Tetapi ketepatan klasifikasi pada data testing beragam untuk masing-masing proporsi data testing, yaitu untuk 20%, 40%, dan 50% masing-masing ketepatan klasifikasinya adalah
21 50%, 25%, dan 20%. Ketepatan klasifikasi terbesar adalah analisis yang terbaik. Pada kasus ini proporsi data testing 20% juga yang terbaik. Sehingga ada indikasi bahwa semakin banyak jumlah data training dibandingkan data testingnya, maka ketepatan klasifikasi akan semakin besar. Rincian ketepatan klasifikasi data testing VDA dapat dilihat pada Tabel 14,15, dan 16. Tabel 14 Ketepatan klasifikasi VDA pada data testing provinsi 20% dengan penambahan komponen kuadratik Kelas sebenarnya 1 2 3
1 -
Kelas prediksi 2 -
3 1 1
Tabel 15 Ketepatan klasifikasi VDA pada data testing provinsi 40% dengan penambahan komponen kuadratik Kelas sebenarnya 1 2 3
1 -
Kelas prediksi 2 1 1
3 1 1
Tabel 16 Ketepatan klasifikasi VDA pada data testing provinsi 50% dengan penambahan komponen kuadratik Kelas sebenarnya 1 2 3
1 -
Kelas prediksi 2 1 2
3 1 1
Perbandingan dengan jarak antar-observasi juga dilakukan seperti pada data provinsi tanpa penambahan komponen kuadratik. Tabel jarak antar-provinsi pada data dengan penambahan komponen kuadratik dapat dilihat pada Lampiran 5b. Berdasarkan tabel jarak tersebut, klasifikasi berdasarkan jarak antar-propinsi mirip dengan klasifikasi kelas prediksi VDA. Perbedaan dengan hasil VDA tanpa komponen kuadratik hanya pada hasil klasifikasi data testing 50%, yaitu jarak terdekat Sumatera Selatan (kelas 3) dengan Sumatera Utara (kelas 2) menyebabkan Sumatera Selatan digolongkan ke kelas 2. Sebelumnya pada VDA tanpa komponen kuadratik, Sumatera Selatan digolongkan ke kelas 3. Perbandingan Ketepatan Klasifikasi antara QDA dan VDA Ketepatan klasifikasi pada analisis diskriminan merupakan indikator untuk melihat kebaikan metode analisis yang digunakan. Perbandingan ketiga analisis yang digunakan pada kajian kasus ini disajikan pada Tabel 17 dan 18. Tabel 17 adalah perbandingan ketepatan klasifikasi untuk data kabupaten/kota, sedangkan Tabel 18 menyajikan perbandingan ketepatan klasifikasi pada data provinsi.
22 Berdasarkan Tabel 17, untuk data training QDA adalah yang terbaik dibandingkan dengan VDA, karena memiliki ketepatan klasifikasi terbesar. Tetapi pada data testing QDA memiliki ketepatan klasifikasi terkecil, yang terbesar adalah VDA tanpa penambahan komponen kuadratik. Berdasarkan Tabel 18, untuk data training tidak ada kesalahan klasifikasi sama sekali untuk kedua metode analisis VDA, tetapi VDA tanpa penambahan komponen kuadratik lebih baik dibandingkan VDA dengan penambahan komponen kuadratik. Pada proporsi data testing 50% ada perbedaan ketepatan klasifikasi, yaitu 60% untuk VDA dan 80% untuk VDA dengan penambahan komponen kuadratik. Hal ini sesuai dengan hasil kajian simulasi yang menyatakan bahwa QDA lebih baik pada keragaman antarkelas besar atau matriks ragamperagam tidak homogen. Tabel 17 Perbandingan ketepatan klasifikasi antara QDA, VDA, dan VDA dengan penambahan komponen kuadratik pada data kabupaten/kota Jenis data
QDA
VDA
Data training Data testing
91.74% 53.33%
74.38% 66.67%
VDA dengan komponen kuadratik 80.99% 60.00%
Tabel 18 Perbandingan ketepatan klasifikasi antara QDA, VDA, dan VDA dengan penambahan komponen kuadratik pada data provinsi VDA Jenis data QDA Data training Data testing
VDA dengan komponen kuadratik Persentase data testing 50% 20% 40% 50%
20%
40%
-
100%
100%
100%
100%
100%
100%
-
50%
25%
40%
50%
25%
20%
5 SIMPULAN DAN SARAN Simpulan Simpulan yang diperoleh dari penelitian ini adalah: pada data dengan jumlah observasi lebih besar dari jumlah peubah (n > p), kemampuan klasifikasi vertex discriminant analysis (VDA) dan quadratic discriminant analysis (QDA) hampir sama secara umum. Tetapi VDA memiliki ketepatan klasifikasi lebih kecil dibandingkan QDA pada saat keragaman antarkelas besar. Pada data dengan jumlah observasi lebih kecil dari jumlah peubah (n < p), hanya VDA yang dapat dilakukan. Sedangkan QDA tidak bisa dilakukan karena rank dari matriks lebih
23 kecil dari jumlah peubah ( p ). Sehingga mengakibatkan matriks ragamperagamnya singular dan mengakibatkan tidak memiliki invers. Hasil kajian terapan sesuai dengan hasil kajian simulasi, yaitu pada data dengan keragaman antarkelas besar akan lebih baik menggunakan QDA untuk pengklasifikasian, walaupun VDA masih cukup baik dengan ketepatan klasifikasi lebih dari 70% pada data training, dan ketepatan klasifikasi yang hampir sama pada data testing. QDA tidak dapat digunakan pada data provinsi karena jumlah peubah lebih besar dibandingkan jumlah observasi, sehingga VDA adalah salah satu solusinya. Saran Pada penelitian ini simulasi data hanya dilakukan dengan variasi skenario keragaman antarkelas saja, untuk penelitian selanjutnya dapat dilakukan juga simulasi data dengan memasukkan unsur pengaruh dari jarak nilai tengah antarkelas pada analisis QDA dan VDA. Selain itu, analisis diskriminan non-linier vertex pada penelitian ini menggunakan VDA, untuk penelitian selanjutnya dapat dikembangkan juga dengan metode Nonlinear Vertex Discriminant Analysis with Reproducing Kernels.
DAFTAR PUSTAKA Hastie T, Tibshirani R, Friedman J. 2008. The Elements Of Statistical Learning, Data Mining, Inference, and Prediction. Ed. Ke-2 [internet]. [diunduh 2014 Feb 9]; Springer. Tersedia pada : http://www.stanford.edu/~hastie/pub.htm. Hubert M, Driessen KV. 2004. Fast and Robust Discriminant Analysis. Computational Statistics and Data Analysis. 45:301-320. Liu Y, Shen X, Doss H. 2005. Multicategory ψ-learning and Support Vector Machine: Computational Tools. J Comput Graph Stat. 14:219-236. Johnson RA, Wichern DW. 2007. Applied Multivariate Statistical Analysis. New Jersey (US): Pearson Prentice Hall. Ed ke-6. Mattjik AA, Sumertajaya IM. 2011. Sidik Peubah Ganda. Bogor (ID): IPB Press. Morisson DF. 1976. Multivariate Statistical Methods. New York (US): McGrawHill. Nurmaleni. 2015. Perbandingan Metode Multikategori Vertex Discriminant Analysis dan Analisis Diskriminan Fisher [tesis]. Bogor (ID): Institut Pertanian Bogor. Vapnik V. 1995. The Nature of Statistical Learning Theory. New York (US): Springer. Wu TT, Lange K. 2008. An MM Algoritm For Multicategory Vertex Discriminant Analysis. J Comput Graph Stat. 17:527-544. Wu TT, Wu Y. 2012. Nonlinear Vertex Discriminant Analysis with Reproducing Kernels. Statistical Analysis and Data Mining. doi: 10.1002/sam.11137.
24
25 Lampiran 1
Daftar kabupaten/kota di Sumatera dan klasifikasinya
Kode kabupaten/kota 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
Nama provinsi Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Aceh Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara
Nama Kabupaten/Kota Simeulue Aceh Singkil Aceh Selatan Aceh Tenggara Aceh Timur Aceh Tengah Aceh Barat Aceh Besar Pidie Bireuen Aceh Utara Aceh Barat Daya Gayo Lues Aceh Tamiang Nagan Raya Aceh Jaya Bener Meriah Pidie Jaya Banda Aceh Sabang Langsa Lhokseumawe Subulussalam Nias Mandailing Natal Tapanuli Selatan Tapanuli Tengah Tapanuli Utara Toba Samosir Labuhan Batu Asahan Simalungun Dairi Karo Deli Serdang Langkat Nias Selatan Humbang Hasundutan Pakpak Bharat Samosir
Kelas 3 2 2 2 2 2 3 2 3 2 3 2 3 2 3 2 3 3 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 1 2 2 2 2 2
26 Lampiran 1 Daftar kabupaten/kota di Sumatera dan klasifikasinya (lanjutan) Kode kabupaten/kota 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80
Nama provinsi Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Utara Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Sumatera Barat Riau Riau Riau Riau Riau
Nama Kabupaten/Kota Serdang Bedagai Batu Bara Padang Lawas Utara Padang Lawas Labuhan Batu Selatan Labuhan Batu Utara Nias Utara Nias Barat Kota Sibolga Kota Tanjung Balai Kota Pematang Siantar Kota Tebing Tinggi Kota Medan Kota Binjai Kota Padang Sidempuan Kota Gunungsitoli Kepulauan Mentawai Pesisir Selatan Solok Sawahlunto/Sijunjung Tanah Datar Padang Pariaman Agam Lima Puluh Koto Pasaman Solok Selatan Dharmasraya Pasaman Barat Kota Padang Kota Solok Kota Sawah Lunto Kota Padang Panjang Kota Bukittinggi Kota Payakumbuh Kota Pariaman Kuantansingingi Indragirihulu Indragirihilir Pelalawan Siak
Kelas 2 2 2 2 2 2 3 3 2 2 2 2 2 1 2 3 2 2 2 2 1 2 2 2 2 2 2 2 1 1 1 2 1 2 1 2 2 2 2 1
27 Lampiran 1
Daftar kabupaten/kota di Sumatera dan klasifikasinya (lanjutan)
Kode kabupaten/kota 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Nama provinsi Riau Riau Riau Riau Riau Riau Riau Jambi Jambi Jambi Jambi Jambi Jambi Jambi Jambi Jambi Jambi Jambi Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Sumatera Selatan Bengkulu Bengkulu Bengkulu Bengkulu Bengkulu Bengkulu Bengkulu
Nama Kabupaten/Kota Kampar Rokanhulu Bengkalis Rokanhilir Kepulauan Meranti Kota Pekanbaru Kota Dumai Kerinci Merangin Sarolangun Batang Hari Muarojambi Tanjung Jabung Timur Tanjung Jabung Barat Tebo Bungo Kota Jambi Kota Sungai Penuh Ogan Komering Ulu Ogan Komering Ilir Muaraenim Lahat Musirawas Musi Banyuasin Banyuasin OKU Selatan OKU Timur Ogan Ilir Empang Lawang Kota Palembang Kota Prabumulih Kota Pagar Alam Kota Lubuk Linggau Bengkulu Selatan Rejang Lebong Bengkulu Utara Kaur Seluma Mukomuko Lebong
Kelas 2 2 2 2 3 1 1 2 2 2 2 1 2 2 1 1 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2
28 Lampiran 1 Daftar kabupaten/kota di Sumatera dan klasifikasinya (lanjutan) Kode kabupaten/kota 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151
Nama provinsi Bengkulu Bengkulu Bengkulu Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Lampung Bangka Belitung Bangka Belitung Bangka Belitung Bangka Belitung Bangka Belitung Bangka Belitung Bangka Belitung Kepulauan Riau Kepulauan Riau Kepulauan Riau Kepulauan Riau Kepulauan Riau Kepulauan Riau Kepulauan Riau
Nama Kabupaten/Kota Kepahiang Bengkulu Tengah Kota Bengkulu Lampung Barat Tanggamus Lampung Selatan Lampung Timur Lampung Tengah Lampung Utara Waykanan Tulang Bawang Pesawaran Pringsewu Mesuji Tulang Bawang Barat Kota Bandar Lampung Kota Metro Bangka Belitung Bangka Barat Bangka Tengah Bangka Selatan Belitung Timur Kota Pangkal Pinang Karimun Bintan Natuna Lingga Kepulauan Anambas Kota Batam Kota Tanjung Pinang
Kelas 2 1 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 1 2 1 2 1 1 1 1 2 1 1 2
29 Lampiran 2
Daftar provinsi di Sumatera dan klasifikasi berdasarkan tingkat kemiskinan
Kode provinsi 1 2 3 4 5 6 7 8 9 10
Nama provinsi Aceh Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung Bangka Belitung Kepulauan Riau
Kelas 3 2 1 1 1 3 3 3 1 1
30 Lampiran 3 Rataan peubah-peubah di setiap kelas pada data kabupaten/kota Peubah
Satuan peubah
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19
% % % ribu rupiah % jiwa tahun % % % % % % % % % % % %
Kelas 1 (kaya) 7,49% 4,05 54,79 633,46 17,91 30,66 69,38 84,31 32,21 18,23 5,40 68,80 8,29 43,94 93,66 66,33 53,19 2,34 97,19
Kelas kabupaten/kota Kelas 2 (menengah) 6,22 4,90 65,19 628,23 20,60 34,54 68,66 82,03 32,60 18,87 5,67 71,78 12,48 53,58 94,89 71,29 51,15 2,19 97,49
Kelas 3 (miskin) 6,20 4,98 67,47 612,27 22,41 34,52 68,65 78,95 33,92 19,76 5,41 74,25 14,49 56,64 95,00 71,62 52,44 2,18 95,21
31 Lampiran 4
Rataan peubah-peubah di setiap kelas pada data provinsi
Peubah
Satuan peubah
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19
% % % ribu rupiah % jiwa tahun % % % % % % % % % % % %
Kelas 1 (kaya) 6,72 4,28 51,08 640,02 16,42 29,80 69,74 82,98 34,39 19,74 5,63 68,93 9,82 46,83 94,35 66,05 48,51 2,79 96,88
Kelas provinsi Kelas 2 (menengah) 7,43 4,00 61,44 636,33 21,30 31,00 69,50 88,68 29,11 17,53 5,97 70,62 14,38 43,48 94,46 74,21 55,30 1,60 97,32
Kelas 3 (miskin) 6,30 4,32 66,54 621,99 18,10 31,50 69,43 81,54 34,13 18,49 5,23 72,28 13,22 54,17 95,08 70,57 48,89 2,55 96,05
32 Lampiran 5 Matriks jarak antar-provinsi a) peubah tanpa komponen kuadratik Provinsi 1 2 3 4 5 6 7 8 9 10
1 0.00 5.38 6.50 7.75 6.85 6.96 6.70 7.00 9.56 7.66
2 5.38 0.00 4.26 6.05 4.95 4.91 5.40 6.22 7.66 5.48
3 6.50 4.26 0.00 7.12 5.77 7.07 5.25 5.62 6.82 5.11
4 7.75 6.05 7.12 0.00 7.13 6.40 6.77 7.60 9.94 7.21
5 6.85 4.95 5.77 7.13 0.00 4.81 4.49 4.48 7.54 7.13
6 6.96 6.91 7.07 6.40 4.81 0.00 5.35 5.25 7.06 7.03
7 6.70 5.40 5.25 6.77 4.49 5.35 0.00 3.41 7.06 6.27
8 7.00 6.22 5.62 7.60 4.48 5.25 3.41 0.00 6.27 7.03
9 9.56 7.66 6.82 9.94 7.54 7.06 7.06 6.27 0.00 6.38
10 7.66 5.48 5.11 7.21 7.13 7.03 6.27 7.03 6.38 0.00
b) peubah dengan penambahan komponen kuadratik Provinsi 1 2 3 4 5 6 7 8 9 10
1 2 3 4 0.00 9.40 12.02 12.91 9.40 0.00 7.04 12.22 12.02 7.04 0.00 13.48 12.91 12.22 13.48 0.00 11.77 6.74 8.91 13.31 11.44 7.01 8.10 13.01 11.18 6.84 8.84 12.19 10.40 7.41 9.27 12.79 13.11 12.45 14.12 16.48 12.95 9.50 9.96 13.84
5 11.77 6.74 8.91 13.31 0.00 8.19 7.87 7.38 13.26 11.44
6 7 8 9 10 11.44 11.18 10.40 13.11 12.95 7.01 6.84 7.41 12.45 9.50 8.10 8.84 9.27 14.12 9.96 13.01 12.19 12.79 16.48 13.84 8.19 7.87 7.38 13.26 11.44 0.00 8.45 8.46 13.12 10.28 8.45 0.00 5.74 13.12 9.48 8.46 5.74 0.00 12.39 10.28 13.12 13.12 12.39 0.00 13.54 10.28 9.48 10.28 13.54 0.00
33
RIWAYAT HIDUP Penulis dilahirkan di Jakarta, pada tanggal 2 Juni 1982, sebagai anak bungsu dari empat bersaudara., putri pasangan Djismi Yed dan Daharnis. Pendidikan sekolah menengah ditempuh di SMA Negeri 1 Suliki Gunung Mas pada Program IPA, dan lulus pada tahun 2000. Pada tahun yang sama penulis melanjutkan pendidikan sarjana pada program studi Statistika Institut Pertanian Bogor (IPB), dan menyelesaikannya pada tahun 2005 dengan gelar Sarjana Sains (S.Si). Saat ini penulis bekerja sebagai staf di Pusat Kurikulum dan Perbukuan Kementerian Pendidikan dan Kebudayaan. Melalui program Beasiswa Unggulan untuk staf Kemdikbud yang diperoleh dari Pusat Kerjasama Luar Negeri Kementerian Pendidikan dan Kebudayaan, penulis berkesempatan untuk melanjutkan program master (S2) pada program studi Statistika, Sekolah Pascasarjana IPB, diterima pada tahun 2012.