SMOOTHLY CLIPPED ABSOLUTE DEVIATION (SCAD) SEBAGAI METODE ALTERNATIF DALAM MENANGANI ANALISIS REGRESI PADA DATA BERDIMENSI TINGGI
RIZKY FAUZIA LISTIARASANI
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Smoothly Clipped Absolute Deviation (SCAD) sebagai Metode Alternatif dalam Menangani Analisis Regresi pada Data Berdimensi Tinggi adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2015 Rizky Fauzia Listiarasani NIM G14110035
ABSTRAK RIZKY FAUZIA LISTIARASANI. Smoothly Clipped Absolute Deviation (SCAD) sebagai Metode Alternatif dalam Menangani Analisis Regresi pada Data Berdimensi Tinggi. Dibimbing oleh BAGUS SARTONO dan CICI SUHAENI. Data berdimensi tinggi ialah data dengan banyaknya peubah penjelas lebih besar daripada banyaknya amatan. Pendugaan koefisien regresi pada data berdimensi tinggi tidak dapat menggunakan metode kuadrat terkecil. Hal ini memerlukan teknik analisis tertentu dalam pendekatannya. Salah satu metode alternatif dalam menangani kasus tersebut ialah metode SCAD. Penelitian ini menggunakan data komposisi campuran temulawak, kunyit, dan bangle yang diperoleh dari Pusat Studi Biofarmaka LPPM IPB. Selanjutnya data tersebut dianalisis menggunakan alat ATR-FTIR (Attenuated Total Reflectance Fourier Transform Infra Red) hingga mendapatkan nilai absorban yang dijadikan sebagai peubah penjelas pada interval bilangan gelombang . Persentase temulawak dijadikan sebagai peubah respon dalam penelitian ini. Metode validasi silang digunakan untuk menentukan parameter terbaik. Peubah penjelas yang berpengaruh sebanyak delapan peubah penjelas pada minimum 0.009. optimal yang terpilih sebesar 0.0106 dengan nilai cross validation error minimum 0.0201. Kata kunci: data berdimensi tinggi, SCAD, tanaman obat, validasi silang.
ABSTRACT RIZKY FAUZIA LISTIARASANI. Smoothly Clipped Absolute Deviation (SCAD) as A Method in Handling Regression Analysis in High Dimensional Data. Supervised by BAGUS SARTONO and CICI SUHAENI. High dimensional data is a data which have more independent variable than its number of observation. The least square method cannot be used in estimating the coefficient of regression in high dimensional data. Thus, these data need a certain analytical technique in the approach. One of the alternative methods in dealing with those cases is SCAD method. The data used in this study is the mixture composition data of curcuma, turmeric, and bangle from Pusat Studi Biofarmaka LPPM IPB. ATR-FTIR (Attenuated Total Reflectance Fourier Transform Infra Red) was used to analyze the data until the absorption value, that is used as an independent variable, reaches the wave numeral interval of . This research used the percentage of curcuma as a response variable. Cross validation was used to determine the greatest parametric estimator. Eight independent variables were found with minimum of 0.009, meanwhile optimum is at 0.0106 with minimum cross validation error at 0.0201. Keywords: cross validation, herb, high dimensional data, SCAD.
SMOOTHLY CLIPPED ABSOLUTE DEVIATION (SCAD) SEBAGAI METODE ALTERNATIF DALAM MENANGANI ANALISIS REGRESI PADA DATA BERDIMENSI TINGGI
RIZKY FAUZIA LISTIARASANI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PRAKATA Puji syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan karya ilmiah yang berjudul “Smoothly Clipped Absolute Deviation (SCAD) sebagai Metode Alternatif dalam Menangani Analisis Regresi pada Data Berdimensi Tinggi”. Karya ilmiah ini merupakan salah satu syarat untuk mendapatkan gelar Sarjana Statistika pada Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu dalam menyelesaikan karya ilmiah ini, antara lain: 1. Bapak Dr Bagus Sartono, MSi dan Ibu Cici Suhaeni, MSi selaku pembimbing yang telah sabar dalam memberikan banyak saran dan nasihat selama penulisan karya ilmiah ini. 2. Ibu Dra Itasia Dina Sulvianti, MSi sebagai penguji luar komisi yang telah memberikan banyak saran dan masukan dalam penulisan karya ilmiah ini. 3. Bapak Rudi Heryanto, MSi dari Biofarmaka yang telah membantu penulis dalam mendapatkan dan memberi penjelasan tentang data yang digunakan pada penelitian ini. 4. Seluruh Dosen pengajar Departemen Statistika atas ilmu yang bermanfaat yang telah diberikan. 5. Ayah dan Ibu, adik-adik atas doa, kasih sayang, dan dukungan kepada penulis. 6. Seluruh Staf Tata Usaha Departemen Statistika IPB yang selalu bersedia direpotkan sehingga segala proses adminitrasi berjalan dengan lancar. 7. Rekan satu bimbingan Nida, Haifa, Erza, Farah, Kartika, Citra sebagai teman satu perjuangan satu dosen bimbingan yang selalu memberikan dukungan dan masukannya. 8. Nida, Umil, Ita, Kak Ipeh, Kak Jijah, atas semangat dan kebersamaannya. 9. Kakak-kakak, dan adik-adik di Omda IPMRT Bogor serta teman-teman Dita, Nopi, Frida, Rahman, Galih, Anik atas motivasi dan kebersamaannya selama di kota rantau. 10. Teman-teman Statistika 48 atas motivasi dan dukungannya selama ini. Semoga karya ilmiah ini dapat bermanfaat bagi semua pihak. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya ilmiah ini.
Bogor, Agustus 2015 Rizky Fauzia Listiarasani
DAFTAR ISI DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
1
TINJAUAN PUSTAKA
2
Analisis Regresi
2
Smoothly Clipped Absolute Deviation (SCAD)
2
Validasi Silang
3
Spektroskopi Infra Merah Transformasi Fourier (FTIR)
4
METODOLOGI
5
Sumber Data
5
Prosedur Analisis Data
5
HASIL DAN PEMBAHASAN
6
Deskripsi Data
6
Penerapan SCAD
8
SIMPULAN
10
DAFTAR PUSTAKA
11
RIWAYAT HIDUP
13
DAFTAR TABEL 1 2 3 4
Daerah identifikasi spektrum IR kurkuminoid Hasil CVE minimum dan optimal Bilangan gelombang yang berpengaruh, nilai CVE, Bilangan gelombang yang berpengaruh
optimal saat
7 9 0.8176 9 9
DAFTAR GAMBAR 1 2 3 4 5
Spektrum IR temulawak murni, kunyit murni, dan bangle murni Histogram dari nilai |̂| Plot CVE saat 0.05 sampai 1 Plot CVE saat 0.009 sampai 1 Letak bilangan gelombang yang berpengaruh
6 7 8 8 10
DAFTAR LAMPIRAN 1 Plot CVE
12
PENDAHULUAN Latar Belakang Data berdimensi tinggi banyak dijumpai pada beberapa bidang ilmu pengetahuan, misalnya pada bidang biologi, kimia, dan fisika. Data berdimensi tinggi adalah data dengan banyaknya peubah penjelas lebih banyak daripada banyaknya amatan. Data seperti ini membutuhkan pendekatan analisis yang berbeda dari data dengan amatan yang lebih banyak daripada peubah penjelasnya (Verleysen 2003). Analisis regresi merupakan suatu alat untuk mengetahui suatu pengaruh hubungan ketergantungan peubah penjelas ( ) terhadap peubah respon ( ) (Draper dan Smith 1992). Salah satu metode yang digunakan pada analisis regresi dalam pendugaan koefisien regresinya adalah Metode Kuadrat Terkecil (MKT), yaitu dengan cara meminimumkan Jumlah Kuadrat Sisaan (JKS). Salah satu syarat perlu untuk dapat menduga parameter dengan MKT ialah banyaknya dengan adalah banyaknya amatan dan adalah banyaknya peubah penjelas agar ) yang bersifat non singular. Sebaliknya jika ditemukan maka matriks ( ) tidak mempunyai tidak dapat menghasilkan penduga bagi karena matriks ( matriks kebalikan, rank tidak penuh dan bersifat singular (Myers dan Milton 1991). Data berdimensi tinggi umumnya memiliki dimensi peubah yang lebih banyak daripada amatan, sehingga MKT tidak dapat diterapkan. Kasus seperti ini dapat diatasi dengan beberapa metode alternatif yaitu metode reduksi, seleksi, dan model averaging. Metode reduksi meliputi AKU (Analisis Komponen Utama), PLS (Partial Least Square), dan pembuangan peubah penjelas yang tidak penting. Metode seleksi meliputi forward, stepwise, dan penalyzed method. Dalam penalyzed method terdapat beberapa metode lagi antara lain LASSO (Least Absolute Shrinkage and Selection Operator), Group LASSO (Group Least Absolute Shrinkage and Selection Operator), SCAD (Smoothly Clipped Absolute Deviation), dan Hard Thresholding. Penelitian ini fokus pada penggunanan metode SCAD yang diperkenalkan oleh Fan dan Li (2001). Perkembangan SCAD telah diterapkan pada beberapa bidang ilmu, misalnya dalam Compressed Sensing (CS) Magnetic Resonance Imaging (MRI) pada bidang Nuclear Science, penyeleksian parameter di bidang Biometrika pada data persediaan tenaga kerja wanita di Jerman. Selain itu, digunakan pada data survei, serta pada Support Vector Machines (SVM) diadaptasi dari bidang teknik dan bioinformatika. Beberapa solusi yang digunakan SCAD untuk menentukan parameter terbaiknya ialah AIC (Akaike Information Criterion), BIC (Bayesian Information Criterion), CV (Cross Validation), dan GCV (Generalized Cross Validation) (Fan dan Li 2001). Salah satu contoh data berdimensi tinggi dapat dijumpai pada kasus data komposisi tanaman obat, seperti temulawak, kunyit, dan bangle. Ketiga jenis tanaman obat tersebut diekstrak menjadi serbuk simplisia. Serbuk simplisia dianalisis dengan menggunakan alat ATR-FTIR (Attenuated Total Reflectance Fourier Transform Infra Red) sehingga menghasilkan nilai absorban sebanyak 1798 pada bilangan gelombang . Persentase temulawak dijadikan
2 sebagai peubah respon dengan banyaknya amatan 280. Sehingga data ini relevan untuk menjadi studi kasus penerapan metode SCAD pada data berdimensi tinggi.
Tujuan Penelitian Tujuan dari penelitian ini adalah menerapkan metode SCAD dalam penentuan bilangan gelombang untuk menduga kandungan temulawak pada simplisia hasil percampuran tanaman obat temulawak, kunyit, dan bangle.
TINJAUAN PUSTAKA Analisis Regresi Analisis regresi ialah suatu teknik dalam statistika yang digunakan untuk memeriksa dan membuat model hubungan antar peubah. Aplikasi dari analisis ini banyak terjadi di hampir setiap bidang, termasuk teknik, fisika, ekonomi, manajemen, biologi dan sosial (Montgomery dan Peck 1992). Syarat perlu dalam regresi ialah banyaknya amatan lebih besar daripada banyaknya peubah penjelas. dapat ditulis Model regresi linear umum dalam peubah-peubah sebagai berikut:
dengan: = peubah respon untuk suatu amatan ke-i = vektor parameter yang akan diduga pada peubah penjelas ke-p = elemen matriks pada amatan ke-i peubah penjelas ke-p = error untuk suatu amatan ke-i p = banyaknya peubah penjelas i = 1,2,...,n, dengan n indeks pengamatan Pendugaan koefisien regresi dengan MKT dapat diperoleh dengan ) menyelesaikan rumus ̂ ( . ̂ sebagai vektor penduga parameter regresi, merupakan matriks peubah penjelas, sedangkan merupakan vektor amatan (Draper dan Smith 1992).
Smoothly Clipped Absolute Deviation (SCAD) Metode alternatif dalam menangani data berdimensi tinggi yaitu metode reduksi, seleksi, dan model averaging. Penalyzed method merupakan salah satu metode yang terdapat pada metode seleksi. Metode ini bekerja dengan cara menambahkan suatu penalty atau fungsi kendala saat meminimumkan jumlah kuadrat sisaan. Penalty yang baik harus menghasilkan penduga yang memiliki 3 sifat, yaitu unbiasedness, sparsity, dan continuity. Unbiasedness ialah suatu sifat
3 penduga yang nilai harapannya penduga sama dengan nilai parameter. Sparsity merupakan suatu kondisi dengan menghasilkan sedikit peubah penjelas yang terseleksi dan membuat peubah penjelas lainnya bernilai nol karena berpengaruh kecil. Continuity ialah kondisi suatu fungsi yang pendugaannya bersifat stabil (Fan dan Li 2001). Smoothly Clipped Absolute Deviation (SCAD) merupakan salah satu penalyzed method sebagai metode alternatif dengan data yang memiliki banyak peubah penjelas ( ) lebih besar daripada banyaknya amatan ( ). Metode SCAD ini juga sebagai salah satu teknik untuk menyusutkan parameter hingga mendekati nol atau tepat nol, sehingga akan diperoleh pendugaan dengan ragam yang paling minimum. Penduga koefisien pada metode SCAD diperoleh dengan meminimumkan persamaan berikut: ‖
‖
dengan menambahkan penalty ∑ (| |) untuk semua nilai . Kemudian bagi parameter akan diseleksi oleh metode tersebut dan akan (| |) dapat didefinisikan menghasilkan nilai yang minimum. Dengan { (| |
)
(
| |) (
)
(| |
)}
* + akan bernilai 1 jika memenuhi syarat pada * + dan dan ( ) sebagai konstanta, sedangkan untuk bernilai 0 jika sebaliknya. Ketentuan sebagai parameter (Wang et al. 2007). Jika hasil | | bernilai kecil maka akan menghasilkan penalty besar. Pada keadaan tersebut peubah penjelasnya dicegah untuk masuk pada model karena peubah penjelasnya tidak berpengaruh. Sebaliknya jika hasil | | bernilai besar maka penalty akan kecil sehingga peubah penjelas dapat dimasukkan pada model karena peubah penjelas tersebut berpengaruh. Selain itu, jika hasil dari | | sangat besar maka akan menghasilkan penalty bernilai 0.
Validasi Silang Teknik validasi silang berfokus pada tidak menggunakan gugus data keseluruhan ketika membangun sebuah model (Starkweather 2011). Validasi silang membagi dua gugus data yaitu satu gugus data sebagai data latih dan sisanya menjadi gugus data validasi. Gugus data latih akan digunakan untuk membentuk suatu model dan gugus data validasi digunakan untuk mengevaluasi kebaikan model yang telah terbentuk sebelumnya dari gugus data latih (Izenman 2008). Penyeleksian parameter dapat menggunakan dua metode pada penggunaan SCAD, yaitu dengan validasi silang dan validasi silang terampat (Fan dan Li 2001). Proses validasi silang menggunakan prinsip membagi data menjadi
4 sebanyak k bagian. Lipat k merupakan salah satu metode yang digunakan pada validasi silang. Nilai k yang digunakan yaitu lima atau sepuluh (Izenman 2008). Menurut Fan dan Li (2001) langkah-langkah validasi silang lipat k ialah dengan membagi gugus data menjadi k subcontoh data dengan ukuran yang sama. Data keseluruhan disebut dengan data . Dipilih satu subcontoh sebagai gugus ). Proses data validasi ( ). Subcontoh lainnya sebagai gugus data latih ( ini diulang hingga k kali dengan setiap satu subcontoh digunakan hanya sekali sebagai gugus data validasi. Penduga ̂ ( ) ( ) didapatkan dari yang menggunakan gugus data latih pada setiap dan . Pemilihan parameter optimum diperoleh dengan cara meminimumkan Cross Validation Error (CVE) pada persamaan berikut: ∑
∑(
)
{
̂ ( ) ( )}
Spektroskopi Infra Merah Transformasi Fourier (FTIR) Spektroskopi adalah salah satu teknik analisis instrumental. Teknik spektroskopi ini memanfaatkan fenomena interaksi materi dengan gelombang elektromagnetik seperti sinar-x, ultraviolet, cahaya tampak dan infra merah. Spektroskopi infra merah merupakan salah satu alat untuk mengidentifikasi senyawa alami maupun buatan. Spektrum ini terletak pada daerah dengan panjang gelombang dari 0.78-100 atau bilangan gelombang dari 12800-10 cm-1. Berdasarkan instrumentasi spektrum infra merah dibagi ke dalam tiga jenis radiasi yaitu infra merah dekat dengan bilangan gelombang 12800-4000 cm-1, infra merah pertengahan dengan bilangan gelombang 4000-200 cm-1, dan infra merah jauh dengan bilangan gelombang 200-10 cm-1 (Nur dan Adijuawaria 1989). FTIR dalam metode spektroskopi infra merah radiasi IR dilewatkan melalui contoh. Radiasi tertentu infra merah diserap oleh contoh dan beberapa di antaranya dilewatkan melalui pemancaran. Hasil dari spektrum merupakan molekul penyerapan dan transmisi, menciptakan sidik jari molekul sampel. Hal ini membuat spektroskopi infra merah berguna untuk beberapa jenis analisis. Informasi yang didapatkan ketika menggunakan FTIR ialah dapat mengidentifikasi material yang tidak diketahui, menentukan kualitas atau konsistensi dari sampel, dan menentukan banyaknya komponen dalam komponen. Alat ini dapat digunakan untuk pengujian secara kualitatif dan kuantitatif (Nicolet 2001). Selain itu, kegunaan dari spektrum infra merah adalah memberikan keterangan tentang gugus fungsi pada suatu molekul. Gugus fungsi ini dapat dibedakan antara daerah identifikasi dan daerah sidik jari. Serapan tipe-tipe akan mencermikan gugus fungsi dan hanya diperoleh dalam bagian-bagian kecil tertentu dari daerah vibrasi infra merah. Kisaran serapan yang kecil dapat digunakan untuk menentukan suatu ikatan (Wibowo 2009).
5
METODOLOGI Sumber Data Data yang digunakan adalah data primer penelitian komposisi campuran tanaman obat temulawak, kunyit, dan bangle yang didapatkan dari Pusat Studi Biofarmaka LPPM IPB. Temulawak merupakan bahan utama sementara kunyit dan bangle merupakan bahan pencampur. Komposisi campuran tanaman obat tersebut berupa serbuk simplisia. Simplisia yaitu bahan alami yang digunakan untuk obat dan belum mengalami perubahan proses, umumnya berupa bahan yang telah dikeringkan. Penelitian ini fokus menggunakan persentase temulawak yang dijadikan sebagai peubah respon dengan banyak amatan 280 dari persentase 100%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 90%, 80%, dan 0%. Selanjutnya serbuk simplisia dianalisis dengan menggunakan alat ATR-FTIR (Attenuated Total Reflectance Fourier Transform Infra Red) sehingga mendapatkan 1798 nilai absorban sebagai peubah penjelas pada bilangan gelombang antara 4000-650 cm-1. Peubah penjelas pertama ( ) terletak pada bilangan gelombang sebesar 650 cm-1.
Prosedur Analisis Data Analisis dalam penelitian ini dibantu dengan R i386 3.1.2 software dengan menggunakan paket ncvreg. Tahapan analisis yang dilakukan dalam penelitian ini adalah sebagai berikut: 1. Peubah penjelas ( ) dan peubah respon ( ) dibakukan sehingga memiliki nilai tengah 0 dan ragam 1. 2. Melakukan regresi linear sederhana masing-masing peubah penjelas dengan peubah respon hingga mendapatkan ̂ . 3. Melakukan pemilihan peubah penjelas yang berpengaruh dengan menggunakan metode optimasi coordinate descent: a. Menentukan nilai parameter tertentu pada selang (0,1) dan sebesar 3.7 (Fan dan Li 2001). b. Melakukan pendugaan yang meminimumkan ‖ dengan (
‖
∑
(| |)
| |) yang didefinisikan ( | |) { (| | ) (| | )} ( ) * + akan bernilai 1 jika memenuhi syarat pada dan ( ) * + dan bernilai 0 jika sebaliknya. c. Melakukan validasi silang dan menghitung jumlah kuadrat sisaan validasi silang dengan menggunakan validasi silang lipat sepuluh. Dalam proses validasi silang ini didapatkan nilai CVE. d. Mengulangi tahap a, b, dan c sebanyak 100 kali.
6 4. Mengulangi tahap 3 dengan berbagai nilai yaitu 0.8, 0.08, 0.05, 0.02, 0.009, 0.007. 5. Menentukan parameter terbaik berdasarkan nilai CVE minimum dari berbagai ulangan yang dilakukan. 6. Melakukan perhitungan hasil dengan menggunakan data pada persentase untuk menilai kebaikan hasil yang didapatkan, dilakukan validasi dengan beberapa data contoh yang sudah diketahui komposisinya yaitu data contoh dengan komposisi temulawak sebesar 82%, 84%, 86%, dan 88%.
HASIL DAN PEMBAHASAN Deskripsi Data Data yang dianalisis pada penelitian ini disajikan pada Gambar 1 yang menampilkan plot spektrum IR untuk komposisi temulawak murni, kunyit murni, dan bangle murni. Pada gambar tersebut plot didapatkan dari hasil perhitungan rata-rata nilai absorban pada setiap persentase komposisi campuran tiga jenis tanaman obat dengan sepuluh ulangan pada setiap jenis tanaman obat.
0.6
Temulawak Murni
Kunyit Murni
d
0.5 Absorban
Bangle Murni c
0.4 0.3
a b
0.2 0.1 0 3937 3572 3207 2841 2476 2111 1746 1380 1015
650
Bilangan gelombang (cm-1) Gambar 1 Spektrum IR temulawak murni, kunyit murni, dan bangle murni Terlihat pada Gambar 1 bahwa plot setiap jenis tanaman obat memiliki pola absorban yang cenderung identik. Plot dengan interval bilangan gelombang terlihat nilai absorban yang relatif berbeda antara ketiga jenis tanaman obat. Plot spektrum kunyit terlihat lebih tinggi daripada plot temulawak dan plot bangle. Hal ini dikarenakan penyerapan infra merah pada interval bilangan gelombang tersebut berbeda intensitasnya. Selain itu, dari plot tersebut juga terlihat puncak-puncak spektrum dari ketiga jenis tanaman obat. Puncak-puncak tersebut berada pada interval bilangan gelombang yang sama. Puncak merupakan nilai maksimum absorban yang berarti adanya penyerapan infra merah yang kuat pada interval tertentu. Puncak tertinggi
7 berada pada interval dengan rataan temulawak sebesar 0.497, kunyit sebesar 0.451, dan bangle sebesar 0.566. Puncak spektrum yang berada pada interval bilangan gelombang yang sama berarti memiliki gugus fungsi yang sama. Dengan demikian, gugus fungsi kandungan kurkuminoid untuk temulawak, kunyit, dan bangle berada pada bilangan gelombang yang sama. Rincian tentang gugus fungsi dari ketiga jenis tanaman obat disajikan pada Tabel 1.
Tabel 1 Daerah identifikasi spektrum IR kurkuminoida No
Jenis Vibrasi
1 2 3 4 5 6
Ikatan hidrogen OH C - H alkana Karbonil Aromatik -C=C- rentangan R -O- Ar Sidik Jari
Bilangan Gelombang cm-1 3600 - 3300 3000 - 2850 1820 - 1660 1660 - 1450 1300 - 1000 900 - 700
Intensitas m-s s vs s m
a
Sumber: Wibowo (2009). Keterangan: (s) kuat; (m) medium; (vs) sangat kuat.
Pada Gambar 1, puncak (a) berada pada interval bilangan gelombang . Interval tersebut menjelaskan gugus fungsi ikatan hidrogen OH dengan intensitas medium sampai kuat. Terlihat puncak (b) berada pada interval bilangan gelombang . Interval tersebut menjelaskan gugus fungsi C–H alkana dengan intensitas kuat. Puncak (c) terletak pada bilangan gelombang . Interval tersebut menjelaskan gugus fungsi aromatik -C=Crentangan dengan intensitas sangat kuat. Sedangkan pada puncak (d) dapat dilihat , dapat dikatakan pada berada pada interval bilangan gelombang puncak tersebut menjelaskan gugus fungsi dari R-O-Ar dengan intensitas yang kuat. Gambar 2 merupakan sebaran nilai |̂| masing-masing peubah penjelas. Nilai ̂ diperoleh dari hasil analisis regresi linear sederhana masing-masing peubah penjelas dengan peubah respon. 200
Frekuensi
150
100
50
0
0,00
0,16
0,32
0,48
0,64
0,80
0,96
Nilai |̂|
Gambar 2 Sebaran nilai |̂| masing-masing peubah penjelas
8 Sebaran nilai |̂| pada Gambar 2 menunjukkan banyaknya peubah penjelas dengan nilai |̂| yang semakin besar lebih banyak dibandingkan dengan peubah penjelas yang memiliki nilai |̂| kecil. Sebaran nilai |̂| tersebut akan digunakan dalam penentuan nilai percentil ke-90 sebagai awal perhitungan.
Penerapan SCAD Parameter yang terbaik ialah ketika nilai CVE minimum. Hasil dari CVE didapatkan pada saat dilakukannya validasi silang. Pada penggunaan paket ncvreg memerlukan input suatu nilai minimum yang akan dicoba dengan beberapa nilai . Penelitian ini menggunakan lima nilai berbeda yaitu 0.08, 0.05, 0.02, 0.009, dan 0.007. Fungsi ncvreg akan bekerja dengan menghitung nilai CVE untuk setiap nilai dari terkecil yang ditentukan hingga yang bernilai satu dengan interval seragam sebanyak 100 buah. Variables selected
1 1
1 1 1
1 1
1 1 2
Variables selected
2 3
3 2 2
2
0
1.2
1.2
1.0
1.0
Cross-validation error
Cross-validation error
0
0.8
0.6
0.4
0.2
1 1
1 1 1
1 2
3 2 2
2 3
6 5 6 11
0.8
0.6
0.4
0.2
0.0
0.0 0.0
-0.5
-1.0
-1.5
-2.0
-2.5
-3.0
log
Gambar 3 Plot CVE saat lambda 0.05 sampai 1
0
-1
-2
-3
-4
log
Gambar 4 Plot CVE saat lambda 0.009 sampai 1
Gambar 3 adalah plot hasil CVE untuk berbagai nilai yang digunakan. Berdasarkan plot tersebut nilai CVE minimum yang bernilai 0.0280 terjadi pada saat bernilai 0.0485. Pada Gambar 4 terlihat bahwa plot tersebut dengan nilai CVE minimum sebesar 0.0201 terjadi pada saat bernilai 0.0106. Parameter optimal saat CVE minimum disajikan pada Tabel 2. Pada saat minimum bernilai 0.08 didapatkan nilai CVE minimum sebesar 0.0332 terjadi saat optimal 0.0776. Ulangan dengan minimum 0.02 dengan nilai CVE minimum 0.0234 terjadi saat optimal bernilai 0.0194. Pada minimum 0.007 dengan nilai CVE minimum 0.0209 terjadi pada saat optimal sebesar 0.0079. Gambar plot CVE saat minimum 0.08, 0.02, dan 0.007 disajikan pada Lampiran 1.
9 Tabel 2 Hasil CVE minimum dan λ optimal Hasil CVE minimum optimal
minimum yang dicoba 0.05 0.02 0.009 0.0280 0.0238 0.0201 0.0485 0.0194 0.0106
0.08 0.0332 0.0776
0.007 0.0209 0.0079
Setelah didapatkan optimal pada Tabel 2 kemudian optimal tersebut digunakan untuk melakukan seleksi peubah penjelas. Selain menggunakan lima nilai minimum tersebut, pada bagian ini juga menggunakan perhitungan dengan lain. Penentuan yang akan digunakan dipilih dengan menentukan percentil ke90 dari sebaran nilai |̂| dengan mengikuti prinsip sparsity. Percentil ke-90 menghasilkan nilai sebesar 0.8176 pada peubah penjelas ke-1619. Hasil dengan minimum sebesar 0.8176 dapat dilihat di Tabel 3. Bilangan gelombang yang berpengaruh hanya terpilih satu yaitu pada peubah penjelas ke329 dengan nilai ̂ sebesar -0.1772. Dilihat dari nilai korelasi antara dan peubah ke-329 memiliki nilai -0.9715 yang merupakan korelasi paling kuat di antara korelasi lainnya. Bilangan gelombang tersebut dapat dikatakan bilangan gelombang yang mewakili bilangan gelombang di sampingnya. Tabel 3 Bilangan gelombang yang berpengaruh, nilai CVE, 0.8176 Bilangan gelombang (cm-1) 1261
̂ -0.1772
CVE 0.7149
optimal saat optimal 0.7929
Parameter terbaik dilihat dari nilai CVE minimum. Pada Tabel 2 dan Tabel 3 terlihat dari berbagai nilai CVE minimum terpilihlah CVE bernilai 0.0201. Dari nilai CVE tersebut terpilih juga parameter terbaik sebesar 0.0106 saat menggunakan minimum 0.009. Tabel 4 memperlihatkan bilangan gelombang yang berpengaruh saat optimal. Tabel 4 Bilangan gelombang yang berpengaruh optimal 0.7929 0.0776 0.0485 0.0194 0.0106 0.0079
Bilangan gelombang (cm-1) 1261 1261, 2922 1261, 2922 717, 1261, 1539, 2922, 3075 715, 1261, 1539, 2922, 3075, 3561, 3587, 3634 717, 1261, 1539, 1701, 1964, 2042, 2146, 2922, 3075, 3561, 3630, 3634
Terlihat pada Tabel 4 bahwa dari beberapa optimal didapatkan berbagai bilangan gelombang yang berpengaruh. Semakin kecil optimal yang didapatkan maka semakin banyak bilangan gelombang yang berpengaruh. Berdasarkan parameter terbaik yang terpilih sebelumnya, didapatkan juga delapan bilangan
10 gelombang yang berpengaruh. Gambar 5 memperlihatkan letak bilangan gelombang yang berpengaruh. 0.6
Absorban
0.5
3587
0.4
1539 3561
1261
0.3 0.2
715
3075 2922
3634
0.1 0 3937
3572
3207
2841
2476
2111
1746
1380
1015
650
Bilangan gelombang (cm-1) Gambar 5 Letak bilangan gelombang yang berpengaruh Bilangan gelombang yang berpengaruh pada Gambar 5 berada pada beberapa lembah dan puncak spektrum IR temulawak. Dari segi kimia menginginkan bilangan gelombang yang berpengaruh berada pada puncak spektrum. Namun kenyataannya dari hasil yang diperoleh dengan menggunakan metode SCAD terdapat bilangan gelombang yang berada di lembah. Hal ini dapat dikatakan bahwa satu bilangan gelombang yang berpengaruh tersebut merupakan satu bilangan gelombang yang mewakili bilangan gelombang di sampingnya. Bilangan gelombang di sampingnya yaitu bilangan gelombang yang memiliki nilai lebih pendek atau lebih panjang dari bilangan gelombang yang terpilih. Delapan bilangan gelombang yang berpengaruh tersebut kemudian digunakan dalam perhitungan hasil pada data contoh persentase temulawak 82%, 84%, 86%, dan 88%. Perhitungan dengan keempat data contoh menghasilkan dugaan persentase cukup baik dengan hasil yang hampir mendekati persentase yang sebenarnya, yaitu untuk persentase 82% didapatkan 81.8%. Persentase temulawak 84% didapatkan dugaan persentasenya sebesar 83.4%, pada persentase temulawak 86% didapatkan dugaan persentasenya sebesar 86.1%, dan persentase temulawak 88% didapatkan dugaan persentasenya sebesar 87.1%.
SIMPULAN Hasil perhitungan dengan berbagai nilai minimum didapatkan nilai CVE minimum saat parameter optimal. Bilangan gelombang yang didapat untuk menduga kandungan temulawak pada simplisia hasil percampuran tanaman obat temulawak, kunyit, dan bangle yaitu terletak pada titik 715 cm-1, 1261 cm-1, 1539 cm-1, 2922 cm-1, 3075 cm-1, 3561 cm-1, 3587 cm-1, dan 3634 cm-1 saat terbaik bernilai 0.0106. Delapan gelombang tersebut digunakan dalam perhitungan hasil pada empat data contoh sehingga mendapatkan dugaan persentase temulawak
11 yang mendekati persentase sebenarnya, dengan penyimpangan rata-rata sebesar 0.45%.
DAFTAR PUSTAKA Draper N, Smith H. 1992. Analisis Regresi Terapan. Ed ke-2. Sumantri B, penerjemah. Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis. Fan J, Li R. 2001. Variable selection via nonconcave penalized likelihood and its oracle properties. Journal of the American Statistical Association. 96:1348– 1360. Izenman AJ. 2008. Modern Multivariate Statistical Techniques: Regression, Classification, and Manifold Learning. New York (US): Springer. Montgomery DC, Peck EA. 1992. Introduction to Linier Regression Analysis. Ed ke-2. USA: John Wiley & Sons, Inc. Myers RH, Milton JS. 1991. A First Course In The Theory Of Linear Statistical Models. Boston (USA): PWS-KENT Publishing Company. [Nicolate T]. 2001. Introduction to Fourier Tranform Infrared Spectrometry. USA: Thermo Nicolate Corporation. Nur MA, Adijuwana H. 1989. Teknik Spektroskopi dalam Analisis Biologi. Bogor: PAU Ilmu Hayat, IPB. Verleysen M. 2003. Learning high-dimensional data. Limitations and Future Trends in Neural Computation, S Ablameyko et al (Eds). 141-162. Wang H, Li R, Tsai CL. 2007. Tuning parameter selectors for the smoothly clipped absolute deviation method. Biometrika Trust. 94(3):553-568. doi:10.1093/biomet/asm053. Wibowo EW. 2009. Metode eksploratif untuk menguji kesamaan spektrum FTIR temulawak [tesis]. Bogor (ID): Institut Pertanian Bogor. Starkweather J. 2011. Cross Validation techniques in R: A brief overview of some methods packages, and functions for assessing prediction models. [Internet]. [diunduh 27 April 2015]. Tersedia pada: http//www.unt.edu/rss/class/Jon/ Benchmarks/CrossValidation1_JDS_May2011.pdf.
12 Lampiran 1 Plot CVE Variables selected
1 1
1 1 1
1 1
1 1 1
Variables selected
1 2
2 3 3
5
0 1.2
1.0
1.0 Cross-validation error
1.2
0.8
0.6
0.4
1 1
1 1 1
1 1
2 3 3
2 2
2 3 5
7
0.8
0.6
0.4
0.2
0.2
0.0
0.0 0.0
-0.5
-1.0
-1.5
-2.0
-2.5
0
-1
-2
log
-3
-4
log
Gambar 6 Plot CVE saat lambda 0.08 sampai 1
Gambar 7 Plot CVE saat lambda 0.02 sampai 1 Variables selected
0
1 1
1 1 1
2 3
5 2 2
3 7
5 5 8 13
1.2
1.0
Cross-validation error
Cross-validation error
0
0.8
0.6
0.4
0.2
0.0 0
-1
-2
-3
-4
-5
log
Gambar 8 Plot CVE saat lambda 0.007 sampai 1
13
RIWAYAT HIDUP Penulis dilahirkan di Tuban pada tanggal 26 Juni 1992, sebagai anak pertama dari tiga bersaudara pasangan Parmin dan Dwi Priyandari. Tahun 2005 penulis lulus dari SD Negeri Kebonsari 2 Tuban, kemudian melanjutkan pendidikan di SMP Negeri 1 Tuban dan lulus tahun 2008. Selanjutnya, pada tahun 2011 penulis menyelesaikan pendidikannya di SMA Negeri 1 Tuban dan pada tahun yang sama diterima di Institut Pertanian Bogor melalui jalur Seleksi Nasional Masuk Perguruan Tinggi Undangan. Penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor dengan mayor Statistika. Selama menempuh pendidikan di Institut Pertanian Bogor penulis berpengalaman menjadi asisten dosen untuk mata kuliah Metode Statistika. Penulis juga aktif baik dalam kegiatan organisasi mahasiswa daerah Ikatan Pelajar Mahasiswa Ronggolawe Tuban (IPMRT) Bogor, Himpro, dan kepanitiankepanitiaan. Pada tahun pertama penulis menjadi panitia Tingkat Persiapan Bersama (TPB) Cup 2012. Tahun 2013 penulis juga aktif menjadi panitia The 9 th Statistika Ria, Welcome Ceremony Statistics, Spirit FMIPA, Kompetisi Statistika Junior, The 1st IPB Business Festival, dan menjadi delegasi pada Musyawarah Kerja Wilayah II IHMSI. Tahun berikutnya penulis mengikuti kepantiaan Kompetisi Statistika Junior, ISEE, Welcome Ceremony Statistics. Pada dua periode masa bakti Himpunan Profesi Mahasiswa Statistika Gamma Sigma Beta (GSB) tahun 2013-2014 dan 2014-2015, penulis aktif dalam Badan Pelaksana Harian sebagai Bendahara Umum Himpunan Profesi GSB. Penulis juga mendapatkan beasiswa Bidik Misi selama masa kuliah. Pada semester 6, penulis berkesempatan melaksanakan kegiatan praktik lapang di Balai Penelitian Tanaman Jeruk dan Buah Subtropika, Batu.