PENERAPAN GROUP LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR SEBAGAI METODE ALTERNATIF DALAM MENANGANI DATA BERDIMENSI TINGGI
HAIFA MARDHOTILLAH
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Group Least Absolute Shrinkage and Selection Operator sebagai Metode Alternatif dalam Menangani Data Berdimensi Tinggi adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Agustus 2015 Haifa Mardhotillah NIM G14110056
ABSTRAK HAIFA MARDHOTILLAH. Penerapan Group Least Absolute Shrinkage and Selection Operator sebagai Metode Alternatif dalam Menangani Data Berdimensi Tinggi. Dibimbing oleh BAGUS SARTONO dan YENNI ANGRAINI. Pendugaan koefisien regresi dapat dilakukan dengan menggunakan Metode Kuadrat Terkecil (MKT). Namun, penggunaan MKT tidak dapat dilakukan pada data berdimensi tinggi yaitu data dengan jumlah peubah bebas lebih banyak dibandingkan dengan jumlah amatan. Hal ini disebabkan karena matriks XβX tidak memiliki matriks kebalikan dan bersifat singular sehingga solusi penduga MKT tidak dapat diperoleh. Salah satu metode yang dapat mengatasi hal tersebut adalah metode Group Least Absolute Shrinkage and Selection Operator (Group LASSO). Group LASSO merupakan metode penyeleksian kelompok peubah bebas dengan menyusutkan nilai koefisien menjadi nol atau mendekati nol sehingga didapatkan model yang lebih sederhana. Penelitian ini dilakukan untuk mengetahui persentase kandungan temulawak pada simplisia yang terdiri dari kunyit, bangle dan temulawak. Data yang digunakan merupakan frekuensi penyerapan infra merah pada berbagai komposisi Temulawak dalam suatu simplisia yang diukur menggunakan Fourier Transform Infrared (FTIR) pada bilangan gelombang 4000cm-1 sampai 650cm-1. Pengelompokan yang dilakukan berdasarkan informasi sifat-sifat kimia dan urutan bilangan gelombang. Pengelompokan yang memberikan model paling sederhana dengan nilai ketepatan tinggi adalah pengelompokan berdasarkan informasi sifat-sifat kimia yang terbagi menjadi 23 grup. Kelompok ini memberikan 166 peubah penjelas berpengaruh dengan nilai ketepatan model sebesar 0.98. Kata Kunci: data berdimensi tinggi, FTIR, group LASSO, seleksi peubah.
ABSTRACT
HAIFA MARDHOTILLAH. The Application of Group Least Absolute Shrinkage and Selection Operator as an Alternative Method for Handling High Dimensional Data. Supervised by BAGUS SARTONO and YENNI ANGRAINI. Coefficients regression can be estimated by using Ordinary Least Squares (OLS) Method. However, LSM can not be applied to high-dimensional data (HDD). HDD is the data that the number of explanatory variables is more than the number of observations. This can be happened due to the singularity of matrix X'X so it does not have inverse. One of the method to handle that problem is Group of Least Absolute Shrinkage and Selection Operator (Group LASSO). Group LASSO is selecting groups of explanatory variables by shrinking the value of the coefficient to zero or close to zero to get a simple model. The data used in this study is the content of Curcuma in a simplicia measured using Fourier Transform Infrared (FTIR). Grouping was done by information about the nature of chemical properties and sequence of wave numbers. Grouping which provides the simplest models with high accuracy values were grouping that based on FTIR spectrum plot which was divided into 23 groups. This group gave 166 explanatory variables. The accuracy of the model value by 0.98. Keywords: high dimensional data, FTIR, Group LASSO, variable selection.
PENERAPAN GROUP LEAST ABSOLUTE SHRINKAGE AND SELECTION OPERATOR SEBAGAI METODE ALTERNATIF DALAM MENANGANI DATA BERDIMENSI TINGGI
HAIFA MARDHOTILLAH
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa taβala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Tema yang dipilih dalam penelitian yang dilaksanakan sejak bulan Januari 2015 ini ialah Metode Regresi, dengan judul Penerapan Group Least Absolute Shrinkage and Selection Operator sebagai Metode Alternatif dalam Menangani Data Berdimensi Tinggi. Penulis mengucapkan terima kasih kepada Bapak Dr Bagus Sartono, MSi dan Ibu Yenni Angraini, MSi selaku pembimbing yang telah memberikan bimbingan, arahan, dan saran kepada penulis. Di samping itu, penulis juga mengucapkan terima kasih kepada Bapak Rudi Heryanto, MSi, Dr Farit Mochamad Afendi, dan Antonio Kautsar, SSi dari Pusat Studi Biofarmaka IPB yang telah membantu dalam merancang data penelitian. Ucapan terima kasih juga penulis sampaikan kepada Ayah, Ibu, serta seluruh keluarga yang selalu memberikan doa dan semangat, serta kepada teman-teman statistika angkatan 48 yang selalu memberikan inspirasi dan semangat. Penulis mohon maaf atas segala kekurangan dan kesalahan yang terdapat dalam pembuatan karya ilmiah ini. Semoga karya ilmiah ini bermanfaat bagi pembaca.
Bogor, Agustus 2015 Haifa Mardhotillah
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
ABSTRACT
iii
PENDAHULUAN
1
Latar Belakang
1
Tujuan Penelitian
2
TINJAUAN PUSTAKA
2
LASSO
2
Group LASSO
2
Group LARS
3
Validasi Silang Lipat k
3
Spektrofotometer FTIR
4
METODE
4
Data
4
Prosedur Analisis Data
5
HASIL DAN PEMBAHASAN
5
Eksplorasi Data Hasil FTIR
5
Penentuan Kelompok Peubah Penjelas yang Berpengaruh
7
Ketepatan Model antar Pengelompokan Peubah
11
SIMPULAN
11
DAFTAR PUSTAKA
12
LAMPIRAN
14
RIWAYAT HIDUP
15
DAFTAR TABEL 1 2 3 4
Kandidat model kelompok FTIR Kandidat model kelompok Gelombang 90 Kandidat model kelompok Gelombang 36 Hasil statistik metode Group LASSO
7 9 9 11
DAFTAR GAMBAR 1 2 3 4 5 6 7 8
Plot data spektrum FTIR pada semua komposisi simplisia Daerah identifikasi gugus fungsi penyusun kurkuminoid Pengelompokan peubah penjelas berdasarkan sifat-sifat kimia Plot CVE kelompok FTIR Kelompok peubah penjelas terpilih berdasarkan sifat-sifat kimia Plot CVE kelompok Gelombang 90 Plot CVE kelompok Gelombang 36 Kelompok peubah penjelas terpilih berdasarkan urutan gelombang
5 6 7 8 8 10 10 11
DAFTAR LAMPIRAN 1 Komposisi Simplisia
14
PENDAHULUAN Latar Belakang Analisis regresi merupakan metode untuk melihat hubungan antara peubah penjelas (X) dan peubah respon (Y) (Draper dan Smith 1992). Berbagai bidang ilmu pengetahuan seringkali menggunakan analisis ini untuk menduga suatu kondisi berdasarkan faktor-faktor yang mempengaruhinya. Misalnya dalam bidang klimatologi digunakan untuk menduga cuaca musiman berdasarkan curah hujan harian (Robertson et al. 2009). Pada bidang kesehatan digunakan untuk menduga status nutrisi berdasarkan indeks massa tubuh (Adriyendi dan Syahputra 2013). Hubungan antar peubah ini dapat dilihat berdasarkan pemodelan yang terbentuk dari penduga koefisien regresi. Salah satu metode yang digunakan untuk menentukan nilai penduga koefisien regresi adalah Metode Kuadrat Terkecil (MKT). MKT merupakan metode untuk menduga koefisien regresi linier dengan meminimumkan jumlah kuadrat sisaan. MKT dapat digunakan ketika banyaknya amatan melebihi banyaknya peubah penjelas dan matriks XβX bersifat nonsingular (Setiawan dan Sutikno 2010). Sebaliknya, MKT tidak dapat digunakan pada data yang bersifat singular seperti pada data berdimensi tinggi. Data berdimensi tinggi merupakan data yang memiliki peubah penjelas melebihi banyaknya amatan yang digunakan. Berbagai penelitian seringkali menghadapi permasalahan dengan kondisi data berdimensi tinggi. Misalnya penelitian yang mengukur kadar flavonoid dalam tanaman tempuyung menggunakan 15 data amatan dengan 1866 peubah penjelas (Rohaeti et al. 2011). Selain itu, penelitian mengidentifikasi jahe merah dari dua spesies kerabatnya menggunakan spektroskopi Fourier Transform Infra Red (FTIR) (Purwakusumah et al.2014) Terdapat berbagai metode untuk menangani analisis regresi pada data berdimensi tinggi. Salah satunya dengan cara menyeleksi peubah penjelas. Penanganan data berdimensi tinggi dengan cara seleksi dapat dilakukan dengan metode forward/stepwise regression dan shrinkage regression/penalyzed method melalui metode Least Absolute Shrinkage and Selection Operator (LASSO), Group Least Absolute Shrinkage and Selection Operator (Group LASSO), smoothly clipped absolute deviation (SCAD), dan Hard Thresholding. Penelitian ini menggunakan data kandungan temulawak hasil pengukuran FTIR. Data ini merupakan data berdimensi tinggi dengan 1798 bilangan gelombang sebagai peubah penjelas dan 280 data amatan. Untuk mengatasi data tersebut, dilakukan penyeleksian terhadap kelompok peubah penjelas sehingga didapatkan model yang lebih sederhana. Metode yang diterapkan pada penelitian ini adalah Group LASSO yang diperkenalkan oleh Yuan dan Lin (2006). Solusi penduga koefisien Group LASSO diperoleh melalui algoritme Group Least Angle Regression Selection (Group LARS) dengan pemilihan model yang digunakan menggunakan Validasi Silang Lipat k. Group LASSO seringkali digunakan pada data dengan peubah penjelas yang telah berkelompok sebelumnya. Seperti pada penelitian oleh Meier et al. (2008) yang menerapkan metode Group LASSO pada data kategorik. Namun, penelitian
2 yang akan dilakukan menggunakan data dengan peubah penjelas yang tidak terkelompok sebelumnya. Oleh karena itu, diperlukannya pengelompokan peubah penjelas pada data yang akan digunakan.
Tujuan Penelitian Penelitian ini bertujuan menerapkan metode Group Least Absolute Shrinkage and Selection Operator untuk mengetahui kandungan temulawak pada simplisia yang terdiri dari campuran temulawak, kunyit, dan bangle.
TINJAUAN PUSTAKA LASSO Metode Least Absolute Shrinkage and Selection Operator (LASSO) yang diperkenalkan oleh Tibshirani (1996), merupakan salah satu teknik regresi yang digunakan untuk mengatasi data berdimensi tinggi. Metode ini menyeleksi peubah penjelas yang pengaruhnya kecil dengan menyusutkan nilai koefisien regresi (π½) menjadi nol atau mendekati nol. Peubah penjelas dan peubah respon yang digunakan merupakan peubah yang sudah dibakukan. Penduga koefisien pada metode LASSO diperoleh dengan cara meminimumkan Jumlah Kuadrat Sisaan (JKS) berikut: π π 2 π½πΎπ = βπ π=1(π¦π β βπ=1 πππ π½π ) + π βπ=1|π½π |,
π Dengan kendala π βπ=1|π½π | β€ π‘. Nilai t merupakan besaran yang mengontrol penyusutan pada penduga koefisien dengan π‘ β₯ 0 , π merupakan banyaknya peubah penjelas, dan π merupakan banyaknya pengamatan. Penduga LASSO π diperoleh dengan menentukan batas yang dibakukan, yaitu π = π‘/ βπ=1|π½Μπ0 | π dengan π‘ = βπ=1|π½π0 | sedangkan π½Μπ0 merupakan solusi dari penduga kuadrat π terkecil. Jika nilai π‘ < π‘0 = β1 |π½Μπ0 | maka akan menyebabkan π½Μ LASSO menyusut ke π nol atau tepat nol. Jika π‘ β₯ π‘0 = βπ=1|π½Μπ0 | maka penduga LASSO merupakan hasil yang sama dengan penduga kuadrat terkecil (π½Μ LASSO = π½Μπ0 ). Hal ini menyebabkan LASSO dapat membentuk model yang efisien dengan mempertahankan peubah yang berpengaruh pada model.
Group LASSO Metode Group Least Absolute Shrinkage and Selection Operator (Group LASSO) merupakan teknik regresi yang menerapkan penyeleksian LASSO pada peubah penjelas secara berkelompok. Pengelompokan ini bertujuan mempermudah penyeleksian pada peubah penjelas yang memiliki karakteristik yang serupa. Group LASSO memungkinkan peubah berkelompok dalam ukuran besar dengan jumlah tidak merata (Huang dan Zhang 2009). Group LASSO memberikan hasil yang lebih baik dalam memprediksi dibandingkan dengan
3 LASSO (Lounici et al. 2011). Penduga koefisien pada Group LASSO diperoleh dengan cara meminimumkan Jumlah Kuadrat Sisaan (JKS) berikut (Yuan dan Lin 2006): π½πΎπ =
1 2
2
βπ β βππ½=1(π π£ ππ£ )β + π βππ½=1βππ£ β,
dengan k merupakan banyaknya kelompok, Xj adalah peubah penjelas ke-j, dan π½π adalah koefisien regresi ke-j. Sedangkan π β₯ 0 sebagai pengontrol besarnya penyusutan. Model akan menjadi bentuk standar ketika π = 0 , jika nilai π semakin besar maka nilai dugaan koefisien akan semakin kecil menuju nol untuk π menuju tak hingga.
Group LARS Group Least Angle Regression Selection (Group LARS) merupakan algoritme regresi untuk menyeleksi kelompok peubah pada data berdimensi tinggi. Metode ini bekerja seperti metode forward stepwise regression dengan cara membuat semua koefisien peubah menjadi nol pada awal agoritme kemudian memasukkannya satu persatu ke dalam model berdasarkan peubah penjelas yang paling berkorelasi dengan sisaan (Efron et al. 2004). Langkah metode group LARS sebagai berikut ( Yuan dan Lin 2006): 1. Membakukan nilai peubah penjelas dan peubah respon sehingga memiliki nilai rataan nol dan ragam satu. 2. Memulai dengan menginisiasi nilai koefisien peubah dengan nol 3. Menghitung nilai ο₯ = y - yΛ . 4. Cari kelompok peubah πΏπ yang memiliki nilai korelasi βπΏβ² ο₯ β2/ππ paling besar, dengan ππ merupakan banyaknya peubah dalam kelompok. 5. Ubah nilai π½ pada kelompok peubah πΏπ dari 0 menuju penduga kuadrat terkecil ( πΏπ , ο₯ ), sampai kelompok peubah lain πΏπ memiliki korelasi sebesar korelasi πΏπ dengan sisaan sekarang. 6. Ubah nilai π½ pada kelompok ke-j dan ke-k bergerak ke arah koefisien kuadrat terkecil bersama dari sisaan sekarang dengan (πΏπ , πΏπ ), sampai kompetitor lain πΏπ memiliki korelasi yang cukup dengan sisaan akibat (πΏπ , πΏπ ). ketika koefisien bukan nol mencapai nilai nol, keluarkan peubah tersebut dari gugus peubah aktif dan hitung kembali arah kuadrat kecil bersama. 7. Ulangi langkah tiga sampai semua peubah penjelas terpilih.
Validasi Silang Lipat k Validasi silang digunakan untuk menentukan nilai π agar optimal sehingga didapatkan model terbaik. Metode ini dilakukan dengan membagi data menjadi set data latih dan set data validasi (Hastie et al. 2008). Set data latih digunakan untuk menentukan dugaan nilai Ξ² dan set data validasi digunakan untuk menguji kebaikan model dari hasil dugaan nilai Ξ² pada set data latih. Nilai π yang
4 diperoleh merupakan π yang memberikan nilai sisaan validasi silang (CVE) minimum. 2
1
CVE = πΎ βπΎ Μβπ (π₯π )) π=1 β(π₯π, π¦π )βπ (π¦π β π¦
dengan π¦π adalah peubah respon ke-i pada set data uji dan π¦Μβπ (π₯π ) adalah dugaan y untuk π₯π pada saat Lipat ke-k tidak digunakan dalam membentuk suatu model. Lipat k merupakan salah satu metode yang digunakan pada validasi silang. Pada validasi silang Lipat k, seluruh data dibagi secara acak menjadi k subcontoh dengan ukuran yang sama. Dipilih satu subcontoh yang digunakan sebagai set data validasi sedangkan subcontoh lain digunakan sebagai set data latih. Proses ini diulang k kali, dan setiap satu subcontoh digunakan hanya sekali sebagai set data validasi. Nilai k yang biasa digunakan pada validasi silang adalah lima atau sepuluh, karena menghasilkan nilai penduga sisaan prediksi dengan bias tinggi dan ragam rendah (Izenman 2008).
Spektrofotometer FTIR FTIR merupakan salah satu teknik spektroskopi infra merah berupa plot hubungan antara bilangan gelombang dengan nilai penyerapan infra merah. Infra merah terbagi menjadi tiga jenis radiasi berdasarkan daerah bilangan gelombang, yaitu: infra merah dekat (bilangan gelombang 1280cm-1-4000cm-1), infra merah pertengahan (bilangan gelombang 4000cm-1-200cm-1), dan infra merah jauh (bilangan gelombang 200cm-1-10cm-1). FTIR termasuk dalam kategori infra merah pertengahan (Nur dan Adijuawaria 1989). Spketrofotometer FTIR memungkinkan mengukur penyerapan infra merah pada berbagai bilangan gelombang pada satu waktu (Christian 1986). Penyerapan infra merah pada daerah bilangan gelombang tertentu dapat digunakan untuk mengetahui gugus fungsi yang terbentuk. Suatu senyawa organik dapat diidentifikasi dari gugus fungsi yang terkandung di dalamnya. Senyawa yang berbeda memberikan gugus fungsi dan bentuk serapan infra merah yang berbeda pula. Jika dua senyawa memberikan puncak serapan infra merah pada letak yang sama, maka dapat dikatakan dua senyawa tersebut identik (Wibowo 2009).
METODE Data Data yang digunakan merupakan hasil percobaan oleh tim Pusat Studi Biofarmaka yang bekerjasama dengan Departemen Statistika IPB pada tahun 2015. Data ini merupakan hasil pengukuran FTIR untuk melihat kandungan temulawak pada simplisia yang terdiri dari campuran temulawak, kunyit, dan bangle. Simplisia merupakan bahan alami yang dikeringkan dan digunakan sebagai obat tanpa mengalami pengolahan apapun.
5 Amatan yang digunakan diperoleh dengan mengeringkan bahan simplisia dan digiling menjadi serbuk, kemudian dilakukan pencampuran bahan menjadi 280 komposisi campuran yang dapat dilihat pada Lampiran 1. Selanjutnya, dilakukan pengukuran menggunakan alat spektrofotometer FTIR pada bilangan gelombang 4000cm-1 sampai 650cm-1 yang menghasilkan 1798 titik serapan. Peubah penjelas (X) yang digunakan merupakan besarnya penyerapan infra merah pada setiap titik serapan. Sedangkan peubah respon (Y) yang digunakan merupakan persentase kandungan temulawak dalam simplisia.
Prosedur Analisis Data Analisis dalam penelitian ini dilakukan menggunakan R i386 3.1.3 dengan menggunakan paket grpreg. Dalam penelitian ini, akan dilakukan beberapa pengelompokan sebagai perbandingan. Tahapan analisis yang dilakukan adalah sebagai berikut: 1. Eksplorasi hasil spektrum infra merah Temulawak. a. Membakukan nilai peubah penjelas dan peubah respon sehingga memiliki nilai rataan nol dan ragam 1. b. Melakukan perbandingan spektrum simplisia hasil pengukuran FTIR c. Menghitung nilai korelasi antar peubah penjelas yang bersebelahan. 2. Membentuk kelompok peubah penjelas dengan beberapa cara: a. Pengelompokan berdasarkan informasi sifat-sifat kimia b. Pengelompokan berdasarkan urutan bilangan gelombang. 3. Menentukan model terbaik dari kandidat model hasil algoritme Group LARS dengan melihat lambda yang memberikan nilai sisaan validasi silang (CVE) minimum. 4. Membandingkan hasil yang diperoleh antar pengelompokan peubah penjelas.
HASIL DAN PEMBAHASAN Eksplorasi Data Hasil FTIR Penelitian ini dilakukan dengan menggunakan data spektrum hasil pengukuran FTIR. Gambar 1 menampilkan grafik spektrum FTIR simplisia yang mengandung bangle murni, kunyit murni, temulawak murni, dan temulawak campuran yang komposisi campurannya dapat dilihat pada Lampiran 1.
a
b
Gambar 1 Plot data spektrum FTIR pada semua komposisi simplisia
6 Grafik spektrum FTIR diatas menunjukkan intensitas penyerapan infra merah (y) pada setiap bilangan gelombang (x). Spektrum FTIR yang digunakan berada pada kisaran bilangan gelombang antara 3999.43cm-1 sampai 650.42cm-1. Gambar tersebut memperlihatkan intensitas penyerapan infra merah yang tidak jauh berbeda antar setiap spektrum komposisi simplisia. Hal ini menyebabkan pola yang relatif sama untuk puncak atau lembah yang terbentuk setiap spektrum pada selang tertentu. Persamaan pola puncak atau lembah ini menunjukkan adanya kemiripan gugus fungsi yang terkandung pada semua komposisi simplisia. Gugus fungsi tersebut terbentuk karena adanya kandungan kurkuminoid atau pewarna kuning yang terdapat pada bangle, kunyit, dan temulawak. Puncak yang terbentuk dari gugus fungsi yang terdapat pada kurkuminoid dapat dilihat pada Gambar 2. e
d a b
c
Gambar 2 Daerah identifikasi gugus fungsi penyusun kurkuminoid Puncak a menunjukkan adanya gugus fungsi ikatan hidrogen OH yang terdapat pada bilangan gelombang 3600cm-1β3300cm-1 atau pada peubah penjelas ke 215β376. Puncak b yang berada pada bilangan gelombang 3000cm-1β2850cm-1 atau pada peubah penjelas ke 538-617 menunjukkan adanya gugus fungsi C-H alkana. Puncak c yang terdapat pada bilangan gelombang 1820cm-1β1660cm-1 atau pada peubah penjelas ke 1171-1256 merupakan puncak yang terbentuk karena adanya gugus fungsi karbonil. Kemudian pada puncak d terdapat gugus fungsi aromatik βC=C- rentangan yang berada pada interval bilangan gelombang 1660cm-1β1450cm-1 atau pada peubah penjelas ke 1257-1368. Sedangkan puncak e yang berada pada interval bilangan gelombang 1660cm-1β1450cm-1 atau pada peubah penjelas ke 1257-1368 merupakan gugus fungsi R -O- Ar. Puncak a, b, c, d, dan e tersebut berada pada bilangan gelombang yang sama pada setiap spektrum. Oleh karena itu, pengklasifikasian kelompok peubah penjelas berdasarkan sifat-sifat kimia dapat dilakukan pada semua spektrum komposisi simplisia yang digunakan. Selain berdasarkan sifat-sifat kimia, pengelompokan dapat dilakukan berdasarkan urutan bilangan gelombang. Hal ini dapat dilakukan karena Spektrum FTIR memiliki korelasi nilai penyerapan infra merah yang sangat tinggi antar bilangan gelombang yang bersebelahan. Nilai korelasi antar bilangan gelombang mencapai 0.87 sampai 1.
7 Penentuan Kelompok Peubah Penjelas yang Berpengaruh Penyeleksian kelompok peubah penjelas dilakukan menggunakan algoritme group LARS. Pemilihan kandidat model dilakukan dengan melihat model yang memberikan nilai sisaan validasi silang (CVE) minimum. Peubah penjelas akan dikelompokan berdasarkan 2 hal, yaitu: 1. Pengelompokan berdasarkan sifat-sifat kimia. Pengelompokan ini dilakukan dengan melihat puncak gelombang spektrum FTIR pada semua komposisi persentase kandungan temulawak dalam simplisia. Peubah penjelas yang terbentuk dalam satu puncak gelombang dianggap berada dalam grup yang sama. Penentuan batas yang membedakan antar grup dilakukan secara subjektif oleh peneliti. Pengelompokan berdasarkan sifat-sifat kimia membentuk 23 grup. Pembagian grup dapat dilihat pada Gambar 3. Pengelompokan ini disebut dengan kelompok FTIR.
Gambar 3 Pengelompokan peubah penjelas berdasarkan sifat-sifat kimia Selanjutnya, dilakukan pemilihan grup yang dapat mengidentifikasi kandungan temulawak menggunakan algoritme group LARS. Pada algoritme group LARS, grup akan masuk secara bertahap ke dalam model sehingga akan menghasilkan beberapa kandidat model. Masuknya grup dimulai dari kelompok yang pengaruhnya paling besar hingga yang paling kecil. Grup yang tidak masuk ke dalam model merupakan kelompok yang tidak memiliki pengaruh. Pada kelompok FTIR, algoritme group LARS menghasilkan 6 kandidat model yang diperlihatkan pada Tabel 1. Tabel 1 Kandidat model kelompok FTIR Model 1 2 3 4 5 6
Grup dalam model 20 20,15 20,15,19 20,15,19,12 20,15,19,12,16 20,15,19,12,16,21
8 Penentuan model yang dipilih dilakukan dengan melihat lambda yang meminimumkan nilai CVE. Pada penelitan ini perhitungan CVE dilakukan pada 100 lambda sehingga didapatkan 100 model yang akan ditentukan model terbaiknya. Nilai CVE didapat dari hasil perhitungan validasi silang lipat k. Plot CVE menunjukkan nilai CVE (y) pada setiap logaritma natural lambda (x) yang diperlihatkan pada Gambar 4. Berdasarkan nilai CVE minimum, model yang dipilih merupakan model yang terdiri dari 6 grup dengan lambda 0.0115. Groups selected
0
1
1
1
2
2
2
2
2
2
2
3
3
3
3
4
6
1.2
Cross-validation error
1.0
0.8
0.6
0.4
0.2
0.0 -1.5
-2.0
-2.5
-3.0
-3.5
-4.0
-4.5
log
Gambar 4 Plot CVE kelompok FTIR Pada pengelompokan ini, kelompok peubah penjelas terpilih adalah grup 20, grup 15, grup 19, grup 12, grup 16, dan grup 21. Grup tersebut berada pada rentang X1324 sampai X1354, X1516 sampai X1576, dan X1677 sampai X1750. Daerah kelompok peubah penjelas terpilih diperlihatkan pada Gambar 5. Warna hitam menunjukkan kelompok peubah penjelas terpilih yang dapat digunakan untuk menduga kandungan temulawak.
Gambar 5 Kelompok peubah penjelas terpilih berdasarkan sifat-sifat kimia 2.
Pengelompokan berdasarkan urutan bilangan gelombang. Pada pengelompokan ini, akan dibentuk kelompok berdasarkan urutan bilangan gelombang yang terurut berdasarkan urutan peubah penjelas (X). Hal ini dilakukan berdasarkan alasan bahwa bilangan gelombang yang bersebelahan memiliki korelasi yang besar. Pengelompokan ini akan terbentuk dengan memotong puncak gelombang. Pengelompokan akan
9 dibentuk menjadi dua kelompok, pertama yaitu Gelombang 90 yang terdiri dari 90 grup. Masing-masing grup terdiri dari 20 peubah penjelas, sedangkan grup terakhir terdiri dari 18 peubah penjelas. Kelompok kedua yaitu Gelombang 36 yang terdiri dari 36 grup. Masing-masing grup terdiri dari 50 peubah penjelas, sedangkan grup terakhir terdiri dari 48 peubah penjelas. Pengelompokan peubah dapat dilihat di bawah ini: Gelombang 90: Gelombang 36:
X1- X20, X21- X40, β¦, X1761- X1780, X1781- X1798 X1- X50, X51- X100, β¦, X1701- X1750, X1751- X1798
Dari pengelompokan yang telah dilakukan, didapatkan kandidat model hasil algoritme group LARS yang dapat dilihat pada Tabel 2 dan Tabel 3. Berdasarkan hasil algoritme group LARS diperoleh 14 kandidat model pada kelompok Gelombang 90 dan 10 kandidat model pada kelompok Gelombang 36 dengan peubah penjelas yang bertambah secara bertahap. Tabel 2 Kandidat model kelompok Gelombang 90 Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Grup dalam model 65 65,69 65,69,74 65,69,74,71 65,69,74,71,75 65,69,74,71,75,77 65,69,74,71,75,77,64 65,69,74,71,75,77,64,76 65,69,74,71,75,77,64,76,85 65,69,74,71,75,77,64,76,85,32 65,69,74,71,75,77,64,76,85,32,27 65,69,74,71,75,77,64,76,85,32,27,70 65,69,74,71,75,77,64,76,85,32,27,70,84 65,69,74,71,75,77,64,76,85,32,27,70,84,66
Tabel 3 Kandidat model kelompok Gelombang 36 Model 1 2 3 4 5 6 7 8 9 10
Grup dalam model 31 31,28 31,28,26 31,28,26,29 31,28,26,29,30 31,28,26,29,30,11 31,28,26,29,30,11,34 31,28,26,29,30,11,34,25 31,28,26,29,30,11,34,25,32 31,28,26,29,30,11,34,25,32,27
10 Berdasarkan kandidat model yang didapat dari hasil algoritme group LARS, pemilihan model yang digunakan dilakukan menggunakan validasi silang lipat k. Model yang terpilih pada kelompok Gelombang 90 adalah model yang terdiri dari 14 grup dengan lambda 0.111, sedangkan model terpilih pada kelompok Gelombang 36 adalah model yang terdiri dari 9 grup dengan lambda 0.007. Hal ini dapat dilihat pada Gambar 6 dan Gambar 7. Groups selected
0
3
4
4
4
4
6
6
6
7
9
12
12
13
13
14
1.2
Cross-validation error
1.0
0.8
0.6
0.4
0.2
0.0 -1.5
-2.0
-2.5
-3.0
-3.5
-4.0
-4.5
log
Gambar 6 Plot CVE kelompok Gelombang 90 Groups selected
0
3
3
3
3
3
4
5
6
6
6
6
6
6
6
7
7
7
7
7
7
7
7
8
8
8
8
8
8
8
8
8
9 10
1.2
Cross-validation error
1.0
0.8
0.6
0.4
0.2
0.0 -2.0
-2.5
-3.0
-3.5
-4.0
-4.5
-5.0
log
Gambar 7 Plot CVE kelompok Gelombang 36 Mod Pada kelompok Gelombang 90, model terpilih adalah model ke-14 dengan peubah penjelas yang berada pada rentang X521-X540, X621-X640, X1261-X1320, X1361-X1420, X1461-X1540, dan X1661-X1700. Pada kelompok Gelombang 36, model terpilih adalah model ke-10 dengan peubah penjelas yang berada pada rentang X501-X550, X1201-X1600, dan X1651-X1700. Perbandingan kelompok peubah penjelas berpengaruh antara kelompok Gelombang 90 dan Gelombang 36 diperlihatkan pada Gambar 8. Barisan kotak bagian atas memperlihatkan kelompok peubah penjelas pada kelompok Gelombang 36 dengan banyaknya peubah penjelas dalam satu kotak adalah 50, sedangkan barisan kotak bagian bawah memperlihatkan
11 kelompok peubah penjelas pada kelompok Gelombang 90 dengan banyaknya peubah penjelas dalam satu kotak adalah 20. Warna abu-abu menggambarkan daerah kelompok peubah penjelas berpengaruh pada masing-masing kelompok.
Gambar 8 Kelompok peubah penjelas terpilih berdasarkan urutan gelombang Ketepatan Model antar Pengelompokan Peubah Ketepatan model dalam memprediksi dapat dilihat pada Tabel 4 yang ditunjukkan dari besarnya nilai R2. Semakin tinggi nilai R2, model semakin baik digunakan untuk memprediksi. Pada Tabel 4, kedua pengelompokan memberikan R2 yang tinggi. Selain berdasarkan nilai R2, banyaknya peubah berpengaruh juga mempengaruhi dalam pemilihan model yang digunakan. Pengelompokan yang memiliki jumlah peubah bebas berpengaruhnya paling sedikit akan membentuk model yang paling sederhana. Pengelompokan berdasarkan FTIR memberikan hasil dengan banyaknya peubah berpengaruh yang lebih sedikit. Tabel 4 Hasil statistik metode Group LASSO Kelompok FTIR Gelombang 90 Gelombang 36
R2 Banyaknya peubah berpengaruh 0.98 166 0.99 280 0.99 500
SIMPULAN Metode Group LASSO dapat diterapkan pada data spektrum hasil pengukuran FTIR yang memiliki peubah penjelas lebih banyak dibandingkan dengan jumlah amatan. Pengelompokkan pada data spektrum FTIR dapat dilakukan berdasarkan sifat-sifat kimia dan urutan bilangan gelombang. Kedua pengelompokan ini memberikan nilai ketepatan model yang tinggi. Agar memperoleh model yang sederhana, maka dipilih kelompok dengan sedikit
12 peubah penjelas berpengaruh. Model yang dipilih adalah model hasil pengelompokkan berdasarkan sifat-sifat kimia dengan 166 peubah penjelas berpengaruh. Berdasarkan model tersebut bilangan gelombang yang dapat digunakan untuk mengidentifikasi persentase temulawak dalam simplisia yaitu pada rentang X1324 sampai X1354, X1516 sampai X1576, dan X1677 sampai X1750. Peubah penjelas tersebut berada pada rentang bilangan gelombang 1533.80cm-1 sampai 1477.89cm-1, 1175.98cm-1 sampai 1064.15cm-1, dan 875.93cm-1 sampai 739.88cm-1.
DAFTAR PUSTAKA Adriyendi, Syahputra D. 2013. Prediction Nutrition Status using Body Mass Index on Mobile Device. International Journal of Bio-Science and Biotechnology vol.5 no. 1. Christian GD. 1986. Analytical Chemistry. Ed ke-5. New York: J Wiley Draper N, Smith H. 1992. Analisis Regresi Terapan. Ed ke-2. Sumantri B, penerjemah. Jakarta (ID): Gramedia Pustaka Utama. Terjemahan dari: Applied Regression Analysis. Efron B, Hastie E, Johnstone I, Tibshirani R. 2004. Least Angle Regression (with discussions). Annals of Statistics 32(2): 407-451. Hastie T, Thibsirani R, Friedman J. 2008. The Elements of Statistical Learning. Data Mining, Inference, and Prediction. Ed ke-2. New York (US): Springer. Huang J, Zhang T. 2009. The Benefit of Group Sparsity. Annals of Statistics Izenman AJ. 2008. Modern Multivariate Statistical Techniques: Regression, Classification, and Manifold Learning. New York (US): Springer. Lounici K, Pontil M, van de Geer S, and Tsybakov AB. 2011. Oracle Inequalities and Optimal Inference under Group Sparsity. Annals of Statistics vol.39 2164-2204. Meier L, van de Geer S, dan Buhlmann P. 2008. The group Lasso for logistic regression. Journal of the Royal Statistical Society Series B vol.70 53β71. Nur MA, Adijuwana H. 1989. Teknik Spektroskopi dalam Analisis Biologi. Bogor: PAU Ilmu Hayat, IPB. Purwakusumah ED, Rafi M, Syafitri UD, Nurcholis W, Adzkiya MAZ. 2014. Identifikasi Autentifikasi Jahe Merah Menggunakan Kombinasi Spektroskopi FTIR dan Kemometrik.Agritech vol.34 no.1. Robertson AW, Moron V, Swarinoto Y. 2009. Seasonal Predictability of Daily Rainfall Statistics over Indramayu District Indonesia. International Journal of Climatology 29:1449-1462. doi 10.1002/joc.1816. Rohaeti E, Heryanto R, Rafi M, Wahyuningrum A, Darusman LK. 2011. Prediksi Kadar Flavonoid Total Tempuyung Menggunakan Kombinasi Spektroskopi dengan Regresi Kuadrat Terkecil Parsial. Jurnal Kimia 5(2): 101-108. Setiawan, Sutikno. 2010. Bayes Wavelet regression approach solve problems in multivariate calibration modeling. IPTEK, The Journal for Technology and science. 21(2):1-8.
13 Tibshirani R. 1996. Regression Shrinkage and Selection via the LASSO. Journal of the Royal Statistical Society Series B 58(1): 267-288. Wibowo EW. 2009. Metode eksploratif untuk menguji kesamaan spektrum FTIR Temulawak [Tesis]. Bogor (ID): Institut Pertanian Bogor. Yuan M, Lin Y. 2006. Model Selection and Estimation in Regression with Grouped Variables. Journal of the Royal Statistical Society Series B 68(1): 49-67.
14 Lampiran 1 Komposisi Simplisia Kunyit (%) 0 100 0 0 0.25 0.5 0.75 1 0 0.5 1 1.5 2 0 0.75 1.5 2.25 3 0 1 2 3 4 0 1.25 2.5 3.75 5
Bangle Temulawak Ulangan (%) (%) 0 100 10 0 0 10 100 0 10 1 99 5 0.75 99 5 0.5 99 5 0.25 99 5 0 99 5 2 98 5 1.5 98 5 1 98 5 0.5 98 5 0 98 5 3 97 5 2.25 97 5 1.5 97 5 0.75 97 5 0 97 5 4 96 5 3 96 5 2 96 5 1 96 5 0 96 5 5 95 5 3.75 95 5 2.5 95 5 1.25 95 5 0 95 5
Kunyit Bangle Temulawak (%) (%) (%) 0 6 94 1.5 4.5 94 3 3 94 4.5 1.5 94 6 0 94 0 7 93 1.75 5.25 93 3.5 3.5 93 5.25 1.75 93 7 0 93 0 8 92 2 6 92 4 4 92 6 2 92 8 0 92 0 10 90 2.5 7.5 90 5 5 90 7.5 2.5 90 10 0 90 0 20 80 5 15 80 10 10 80 15 5 80 20 0 80 Banyaknya amatan
Ulangan 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 280
15
RIWAYAT HIDUP Penulis lahir di Jakarta tanggal 15 Agustus 1993. Penulis memiliki dua kakak laki-laki dan dua adik perempuan dari pasangan Usep Sudarmaji dan Ade Desmulyani. Penulis menyelesaikan masa sekolahnya di SDI Pondok Duta Depok, SMPIT Nurul Fikri Depok, dan SMAIT Nurul Fikri Depok. Pada tahun 2011 penulis diterima di Peruguruan Tinggi Negeri Institut Pertanian Bogor (IPB) melalui jalur seleksi nasional masuk perguruan tinggi negeri undangan. Penulis diterima sebagai mahasiswa Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam. Ketika menempuh pendidikan di IPB, penulis aktif dalam Himpunan Profesi Gamma Sigma Beta (GSB) tahun 2013 sebagai staff divisi sains, bendahara divisi logistik dan transportasi dalam acara Statistika Ria ke-9, bendahara divisi kesekretariatan dalam acara IPB Business Festival, dan anggota divisi kesekretariatan dalam acara Pesta Sains Nasional 2014, Sehari Kuliah di IPB, dan Komstat Jr. Selain aktif dengan kegiatan di dalam kampus, penulis juga aktif di luar kampus seperti tergabung dalam organisasi sosial Swayanaka regional Jakarta. Swayanaka adalah organisasi sosial yang fokus menangani kesejahteraan anak-anak khususnya yang memiliki keterbatasan ekonomi. Pada tahun 2014 penulis berkesempatan menjalani praktik lapang di PT. Interpariwara Global, Jakarta.