PEMODELAN KALIBRASI PEUBAH GANDA DENGAN PENDEKATAN REGRESI SINYAL P-SPLINE
TONAH
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan ini saya menyatakan bahwa tesis dengan judul Pemodelan Kalibrasi dengan Pendekatan Regresi Sinyal P-Spline adalah karya saya sendiri dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apapun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam daftar pustaka di bagian akhir tesis ini. Bogor, Juni 2006 Tonah NIM G151020211
ABSTRAK TONAH. Pemodelan Kalibrasi Peubah Ganda dengan Pendekatan Regresi Sinyal P-Spline. Dibimbing oleh AHMAD ANSORI MATTJIK dan KHAIRIL ANWAR NOTODIPUTRO. Didalam pembuatan model E ( y ) = f ( x1 , x 2 , K , x p ), permasalahan serius
akan muncul jika banyaknya peubah (p) jauh lebih besar daripada banyaknya pengamatan (n) dan ada multikolinearitas antar peubah penjelas. Kondisi data seperti ini sering dijumpai dalam model kalibrasi. Model kalibrasi merupakan fungsi hubungan antara sekelompok ukuran yang dapat diperoleh melalui proses yang relatif mudah atau murah (X), dengan sekelompok ukuran lain yang memerlukan waktu lama dan biaya mahal dalam memperolehnya ( y ). Sebagian besar pendekatan model kalibrasi memerlukan pereduksian data terlebih dulu. Salah satu solusi alternatif bagi pemodelan kalibrasi tanpa mereduksi data X adalah Regresi Sinyal P-spline (RSP). RSP merupakan salah satu pendekatan nonparametrik yang mensyaratkan bahwa koefisien regresi berada dalam ruang fungsi mulus. Hal ini dilakukan dengan cara merepresentasikan koefisien regresi sebagai kombinasi linear dari basis B-spline. Penambahan penalti dilakukan untuk mengatasi multikolinearitas pada model serta meningkatkan kemulusan koefisien regresi. Spektra gingerol diidentifikasi memiliki pengaruh pencaran multiplikatif, sehingga perlu dilakukan koreksi pencaran. Model RSP dengan koreksi pencaran multiplikatif pada senyawa aktif gingerol memberikan hasil prediksi yang baik. Hal ini ditunjukkan oleh nilai RMSEP dan R2Y vs Ŷ masing-masing sebesar 0.06862 dan 95.71%. Nilai-nilai tersebut lebih kecil dari hasil yang diberikan oleh model RKU dengan pra-pemrosesan koreksi pencaran maupun transformasi wavelet.
ABSTRACT TONAH. Multivariate Calibration Modelling using P-Spline Signal Regression Approach. Under supervision of AHMAD ANSORI MATTJIK and KHAIRIL ANWAR NOTODIPUTRO.
In modelling E ( y ) = f ( x1 , x 2 , K , x p ), serious problems will be occurred if the number of variables (p) exceeds the number of observations (n) and multicollinearity exists within independent variables. The data with this condition can often be found in calibration models. A calibration model describes functional relationship between one set of measurements which are easy or cheap to acquire (X), and other measurements, which are either expensive or labor intensive ( y ). Therefore, most calibration models approach require data reduction prior to modelling. An alternative solution for calibration modelling without data reduction is P-spline Signal Regression (PSR). PSR is one of nonparametric approach that assumes regression coeficients are in the smooth function space. This can be done by representing regression coeficients as a linear combination of basis B-spline. Adding penalty is used to solve multicollinearity of the model and increase the smoothness of regression coeficients. Spectra of gingerol are identified have a multiplicative scatter effect, so scatter correction is needed. PSR model with multiplicative scatter correction at gingerol data produce RMSEP and R2Y vs Ŷ respectively 0.06862 and 95.71%. Those values are less than the result that is given by PCR model using either scatter correction or wavelet transformation pre-processing.
PEMODELAN KALIBRASI PEUBAH GANDA DENGAN PENDEKATAN REGRESI SINYAL P-SPLINE
Tesis Sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Departemen Statistika
TONAH
SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2006
Judul Tesis Nama NIM
: Pemodelan Kalibrasi Peubah Ganda dengan Pendekatan Regresi Sinyal P-Spline : Tonah : G151020211
Disetujui Komisi Pembimbing
Prof. Dr. Ir. Ahmad Ansori Mattjik, M.Sc. Dr. Ir. Khairil Anwar Notodiputro, M.S. Ketua Anggota
Diketahui Ketua Program Studi Statistika
Dekan Sekolah Pascasarjana
Dr. Ir. Budi Susetyo, M.Sc.
Dr. Ir. Khairil Anwar Notodiputro, M.S.
Tanggal Ujian : 22 Mei 2006
Tanggal Lulus :
PRAKATA
Puji syukur hanya milik Allah SWT, atas rahmat dan karunia-Nya penulis diberi kemudahan dan kekuatan untuk menyelesaikan karya ilmiah ini. Shalawat dan salam semoga selalu tercurah kepada suri teladan kita Nabi Muhammad SAW. Tema yang dipilih dalam penelitian ini adalah pemodelan kalibrasi, dengan judul Pemodelan Kalibrasi Peubah Ganda dengan Pendekatan Regresi Sinyal PSpline. Penulis mengucapkan terima kasih yang sedalam-dalamnya kepada Bapak Prof. Dr. Ir. Ahmad Ansori Mattjik, M.Sc dan Bapak Dr. Ir. Khairil Anwar Notodiputro, M.S selaku pembimbing yang telah mencurahkan ilmu dan waktunya. Terima kasih penulis sampaikan kepada tim peneliti Hibah Pascasarjana 2003-2005 yang merupakan hasil kerja sama antara Departemen Statistika dengan Pusat Studi Biofarmaka LPPM-IPB, atas izin yang diberikan kepada penulis untuk menggunakan sebagian data hasil penelitiannya. Ucapan terima kasih yang tak terhingga teruntuk Mimi, Mama, adik dan semua kakak atas doa, kasih sayang, pengertian dan segala dukungan yang telah diberikan. Tidak lupa pula terima kasih penulis sampaikan kepada seluruh teman STK 2002 dan ibu Anik Djuraidah atas diskusi dan masukan yang diberikan selama menyelesaikan karya ilmiah ini. Semoga karya ilmiah ini bermanfaat. Amin.
RIWAYAT HIDUP Penulis dilahirkan di Indramayu, Jawa Barat pada tanggal 5 Maret 1978 sebagai anak keempat dari lima bersaudara dari pasangan Sawin dan Kanimah. Tahun 1997 penulis lulus seleksi masuk IPB melalui jalur Undangan Masuk Seleksi Institut Pertanian Bogor (USMI). Penulis memilih jurusan Matematika, Fakultas Matematika dan Ilmu Pengetahuan Alam dan lulus pada tahun 2002. Pada tahun yang sama, penulis diterima di Program Studi Statistika, Sekolah Pascasarjana Institut Pertanian Bogor.
DAFTAR ISI Halaman
DAFTAR TABEL............................................................................................ xiii DAFTAR GAMBAR ....................................................................................... xiv PENDAHULUAN Latar Belakang ....................................................................................... Tujuan Penelitian ...................................................................................
1 4
TINJAUAN PUSTAKA Pra-pemrosesan Koreksi Pencaran Multiplikatif .................................... Fungsi Basis B-Spline ............................................................................. Regresi Sinyal P-spline ........................................................................... Pendugaan Parameter Koefisien RSP ..................................................... Penempatan Knot dengan Equally Spaced Knots.................................... Kriteria Kebaikan Model dan Validasi Model ........................................ Derajat Bebas(Dimensi) Efektif dari Parameter .....................................
5 6 9 12 13 14 15
DATA DAN METODE PENELITIAN Data ........................................................................................................ Metode ......... ...........................................................................................
16 16
HASIL DAN PEMBAHASAN Koreksi Pencaran Multiplikatif ............................................................... Pembentukan Basis B-Spline .................................................................. Regresi Sinyal P-spline ...........................................................................
19 21 22
SIMPULAN DAN SARAN .............................................................................
29
DAFTAR PUSTAKA.................................................................................... ..
30
DAFTAR TABEL Halaman 1 Ringkasan nilai kebaikan model gingerol dengan RSP pada data yang dikoreksi ............................................................................................
23
2 Ringkasan nilai kebaikan model gingerol dengan RSP pada data yang tidak dikoreksi ...................................................................................
23
3 Nilai Y dan Yˆ konsentrasi gingerol pada kelompok data kalibrasi............
25
4 Nilai Y dan Yˆ konsentrasi gingerol pada kelompok data validasi.............
25
5 Nilai RMSEP dan R2Y vs Ŷ dari beberapa model kalibrasi pada gingerol....
28
DAFTAR GAMBAR Halaman 1 Grafik 6 basis B-spline kubik pada domain [1,100] ..................................
9
2 Spektra gingerol serbuk rimpang jahe yang tidak dikoreksi pada 1866 bilangan gelombang ......................................................................
19
3 Plot persen transmitan terhadap rata-rata seluruh contoh pada data yang tidak dikoreksi............................................................................. ......
20
4 Spektra gingerol serbuk rimpang jahe yang dikoreksi pada 1866 bilangan gelombang ..........................................................................
20
5 Plot persen transmitan terhadap rata-rata seluruh contoh pada data yang dikoreksi............................................................................
21
6 Grafik 16 basis B-spline pada domain [1,1866].........................................
22
7 Plot koefisien RSP untuk data yang dikoreksi ..........................................
24
8 Plot koefisien RSP untuk data yang tidak dikoreksi ..................................
24
9 Plot Y dan Yˆ untuk data kalibrasi yang dikoreksi .....................................
26
10 Plot Y dan Yˆ untuk data kalibrasi yang tidak dikoreksi ..........................
26
11 Plot Y dan Yˆ untuk data validasi yang dikoreksi......................................
27
12 Plot Y dan Yˆ untuk data validasi yang tidak dikoreksi .............................
27
PENDAHULUAN Latar Belakang Permasalahan serius di dalam pembuatan model E ( y ) = f ( x1 , x 2 ,K, x p )
akan muncul, jika banyaknya peubah (p) jauh lebih besar daripada banyaknya pengamatan (n) dan ada multikolinearitas antar peubah penjelas. Hal ini menyebabkan pemodelan dengan Regresi Kuadrat Terkecil (RKT) tidak dapat dilakukan, karena RKT memiliki asumsi yang sangat ketat, di antaranya adalah tidak terdapat multikolinearitas antar peubah penjelas. Menurut Naes et al (2002), banyaknya peubah yang jauh lebih besar daripada banyaknya pengamatan dapat mengakibatkan munculnya hubungan linear yang sempurna di antara peubah penjelas (multikolinear sempurna), sehingga matriks X t X pada RKT tidak memiliki kebalikan yang unik dan berakibat penduga parameter menjadi tidak unik. Naes et al (2002) juga menjelaskan bahwa pelanggaran terhadap asumsi tidak adanya multikolinearitas antar peubah penjelas akan menghasilkan penduga parameter yang unik tapi tidak stabil, sehingga kemampuan prediksi model menjadi sangat rendah. Dengan demikian, diperlukan metode tertentu yang dapat mengatasi
permasalahan
dimensi
peubah
yang
besar
dan
masalah
multikolinearitas. Beberapa metode yang dapat mengatasi permasalahan tersebut antara lain: regresi ridge, pendekatan Bayes (Rahayu 2003; Erfiani 2005), Regresi Kuadrat Terkecil Parsial (RKTP), Regresi Komponen Utama (RKU) dan Jaringan Syaraf Tiruan (JST) (Atok 2005; Djuraidah 2003). Sebagian besar analisis tersebut mengalami kesulitan dalam penerapannya karena banyaknya pengamatan jauh lebih sedikit dibandingkan dengan banyaknya peubah, oleh karena itu diperlukan pereduksian dimensi data terlebih dulu. Metode reduksi data yang digunakan antara lain: komponen utama yang menghasilkan peubah baru yang dimensinya jauh lebih kecil dari p dan antar peubah baru tidak saling berkorelasi, transformasi fourier diskret (Atok 2005), transformasi wavelet (Sunaryo 2005), pendekatan regresi terpenggal (Erfiani 2005), basis B-spline (Alsberg 1993, diacu dalam Marx & Eilers 1999). Semua teknik pereduksian tersebut menitikberatkan pada
2
pereduksian dimensi peubah penjelas (X) yaitu mengganti pengamatan pada *
* T contoh ke-i x i = ( xi1 , xi 2 , K , xip ) T menjadi x i = ( xi*1 , xi*2 , K, xim ) , m << p.
Metode-metode reduksi di atas tidak memberikan jaminan bahwa peubah baru yang dihasilkannya tidak saling berkorelasi, kecuali untuk komponen utama. Oleh karena
itu,
harus
dimodelkan
dengan
metode
yang
dapat
mengatasi
multikolinearitas antar peubah. Solusi alternatif yang dapat digunakan untuk mengatasi dua permasalahan di atas tanpa mereduksi data X adalah Regresi Sinyal P-spline (RSP) yang pertama kali diperkenalkan oleh Eilers dan Marx pada tahun 1996. RSP merupakan salah satu pendekatan nonparametrik yang mensyaratkan bahwa koefisien regresi ada dalam ruang fungsi mulus. Hal ini dilakukan dengan cara merepresentasikan koefisien regresi sebagai kombinasi linear dari basis yang ada dalam ruang fungsi mulus. Basis yang digunakan untuk RSP adalah basis Bspline. RSP merupakan suatu model regresi linear berganda terpenalti yang terkendala pada suatu ruang fungsi mulus. Penambahan penalti bertujuan untuk mengatasi multikolinearitas pada model serta dapat meningkatkan kemulusan koefisien regresi. Pada model RSP, posisi spasial atau urutan (indeks) peubah penjelas memegang peranan yang sangat penting yaitu untuk mengevaluasi fungsi basis B-spline yang dibangun. Berdasarkan hasil penelitian Marx BD & Eilers PHC (1999 dan 2002) RSP memiliki kemampuan validasi yang lebih baik dibandingkan dengan RKU dan RKTP serta memberikan hasil yang baik meskipun data X yang digunakan tidak mulus (kasar). Pada salah satu disiplin ilmu di bidang kimia yaitu Chemometrics, sering dijumpai data dengan kondisi seperti di atas yaitu banyaknya peubah jauh lebih besar daripada banyaknya contoh dan ada multikolinearitas antar peubah. Contoh kasus dari masalah tersebut ada pada model kalibrasi yang tercakup dalam Chemometrics. Model kalibrasi merupakan suatu fungsi hubungan antara
sekumpulan ukuran yang dapat diperoleh melalui proses yang relatif mudah atau murah (X), dengan sekelompok ukuran lain yang memerlukan waktu lama dan biaya mahal dalam memperolehnya ( y ) (Naes et al. 2002). Ukuran yang mahal berupa konsentrasi suatu unsur atau senyawa yang dihasilkan oleh HPLC (High
3
Performance Liquid Chromatography) sedangkan ukuran yang murah adalah
persen transmitan pada bilangan gelombang yang dihasilkan oleh spektrometer. Tujuan pemodelan kalibrasi adalah menemukan model yang dapat digunakan untuk memprediksi konsentrasi senyawa secara cepat dan akurat berdasarkan informasi persen transmitan dari senyawa yang dianalisis. Peubah penjelas pada model kalibrasi terdiri atas peubah tunggal atau peubah ganda, bergantung pada spektrometer yang digunakan. Spektrometer yang menghasilkan spektrum berbentuk satu puncak persen transmitan akan membentuk model kalibrasi peubah tunggal, sebaliknya spektrometer yang menghasilkan spektrum dengan banyak puncak persen transmitan akan membentuk model kalibrasi peubah ganda. Menurut Nur & Adijuwana (1989), model kalibrasi untuk suatu senyawa lebih tepat menggunakan banyak puncak persen transmitan dibandingkan dengan satu puncak persen transmitan. Spektrometer yang menghasilkan banyak puncak persen transmitan adalah FTIR (Fourier Transform Infrared) dan NIR (Near Infrared). Selain masalah multikolinearitas dan dimensi peubah yang besar, pada model kalibrasi sering muncul masalah yang terkait dengan pencaran spektra. Persen transmitan yang dihasilkan FTIR menunjukkan besarnya nilai radiasi yang diserap oleh contoh saat disinari inframerah. Sering terjadi penyimpangan cahaya saat dilakukan penyinaran inframerah pada contoh, sehingga radiasi inframerah yang diserap tidak sesuai sebagaimana mestinya. Penyimpangan tersebut diakibatkan oleh sifat fisik dan kimiawi dari contoh yang dianalisis. Pengaruh yang muncul karena sifat-sifat fisik dan kimia tersebut dapat mengakibatkan ketidaklinearan pencaran, penyimpangan cahaya dan respon yang tidak konsisten (Blanco at al. 1998 diacu dalam Arnita 2005). Karena itu perlu dilakukan pengendalian data dengan koreksi pencaran, agar masalah yang diakibatkan oleh pengaruh sifat fisik dan kimiawi tersebut dapat diminimumkan, sehingga model yang diperoleh menjadi lebih baik. Arnita (2005) telah mengidentifikasi adanya pengaruh pencaran pada data persen transmitan senyawa aktif gingerol serbuk rimpang jahe, kemudian melakukan koreksi pencaran menggunakan koreksi pencaran multiplikatif. Hasil yang diberikan oleh koreksi pencaran multiplikatif sebagai pra-pemrosesan adalah
4
meningkatkan kemampuan prediksi model yang dibentuk dengan RKU. Berdasarkan hal tersebut, penelitian ini akan menggabungkan pra-pemrosesan koreksi pencaran multiplikatif dengan model RSP pada data yang sama yang digunakan oleh Arnita (2005). Tujuan Penelitian
Tujuan dari penelitian ini adalah membandingkan kemampuan prediksi RSP pada data yang terlebih dulu dilakukan pra-pemrosesan koreksi pencaran dengan data tanpa pra-pemrosesan koreksi pencaran.
5
TINJAUAN PUSTAKA Pra-pemrosesan Koreksi Pencaran Multiplikatif
Pra-pemrosesan yang terkait dengan pengaruh yang muncul akibat sifat fisik dan kimiawi contoh atau sering disebut sebagai pengaruh pencaran merupakan tahapan penting dalam model kalibrasi. Pra-pemrosesan tersebut bertujuan untuk menghasilkan pendugaan yang baik dan spektra yang dapat diinterpretasikan. Salah satu teknik yang sering digunakan adalah koreksi pencaran multiplikatif. Koreksi tersebut dapat mengeliminasi keragaman spektra yang disebabkan oleh keragaman pencaran contoh dan noise, sehingga keragaman yang tersisa hanyalah keragaman yang terkait dengan informasi kimia dari contoh yang dianalisis (Antti 1999). Konsekuensi dari koreksi pencaran yang dilakukan adalah meningkatkan kelinearan dan kemampuan prediksi dari suatu model (Naes et al. 2002). Koreksi pencaran multiplikatif dilakukan dengan meregresikan
spektrum masing-masing contoh terhadap spektrum rataannya. Bentuk persamaan regresi untuk masing-masing contoh sebagai berikut: xij = β 0i + β 1i x j + ei
(i = 1, 2, K , n; j = 1, 2, K , p ) (1)
dimana xij = spektrum contoh ke-i pada bilangan gelombang ke-j
β 0i = intersep pada contoh ke-i β 1i = kemiringan pada contoh ke-i xj =
1 n ∑ xij . n i =1
β 0i dan β 1i pada masing-masing contoh diduga dengan metode kuadrat terkecil. Setelah diperoleh nilai βˆ 0i dan βˆ1i , kemudian βˆ 0i dan βˆ1i digunakan untuk mentransformasi spektrum asli dengan menggunakan persamaan berikut: xij* =
( xij − β 0i )
β 1i
dimana xij = spektrum yang belum dikoreksi (spektrum asli) xij* = spektrum yang telah dikoreksi.
(2)
6
Spektrum yang sudah dikoreksi dari masing-masing contoh memiliki posisi pencaran yang relatif lebih rapat daripada sebelum dikoreksi. Hal ini mengindikasikan bahwa keragaman spektrum antar contoh semakin kecil, karena keragaman yang tersisa hanyalah keragaman yang disebabkan oleh perbedaan informasi kimia yang diberikan masing-masing contoh. Fungsi Basis B-Spline
Fungsi spline merupakan potongan polinomial yang memiliki ruas-ruas polinomial yang berbeda dan tersambung bersama pada titik-titik knot dengan syarat jaminan kekontinuan tertentu (Gunawan 2001). Fungsi spline berderajat q didefinisikan sebagai sembarang fungsi s dengan titik-titik knot ξ1, ξ2, ..., ξm (a<ξ1<ξ2<...< ξm
m
i =0
j =1
s ( x) = ∑ δ 0i x i + ∑ δ jq ( x − ξ j ) q+ untuk suatu himpunan konstanta real δ00, δ01, ..., δ0q, δ1q, δ2q, ..., δmq dan fungsi
( x − ξ j ) + = maks {0, ( x − ξ j )}. Setiap fungsi spline dapat dinyatakan sebagai kombinasi linear dari basis B-spline (de Boor 1978). Basis B-spline merupakan basis alternatif bagi basis fungsi pangkat terpotong. Basis B-spline banyak memberikan keuntungan baik dari sifat-sifat B-spline itu sendiri maupun dari aspek komputasinya, sehingga lebih mudah didapatkan dan lebih bersifat atraktif. Divided Diference dari fungsi g pada titik-titik τ i ,τ i +1 , K ,τ i + q dinotasikan sebagai [τ i ,τ i +1 , Kτ i + q ]g . Misalkan Pq +1 adalah himpunan fungsi polinomial berderajat q. Jika pq+1 ∈ Pq +1 yang bersesuaian dengan g pada titik-titik
τ 1 ,τ 2 ,K,τ q +1 maka pq+1 dapat dituliskan sebagai: p q +1 ( x) = p q ( x) + ( x − τ 1 ) K ( x − τ q )[τ 1 ,τ 2 , Kτ q +1 ]g . Berdasarkan persamaan di atas, [τ i ,τ i +1 , Kτ i + q ]g didefinisikan sebagai koefisien utama dari polinomial berderajat q yang bersesuaian dengan g pada titik-titik
7
τ i ,τ i +1 ,K,τ i + q (de Boor 1978). Nilai Divided Diference pada beberapa titik diberikan sebagai berikut: 1. [τ 1 ]g = g (τ 1 ) [τ 2 ]g − [τ 1 ]g g (τ 2 ) − g (τ 1 ) = , jika τ 1 ≠ τ 2 τ 2 −τ1 2. [τ 1 ,τ 2 ]g = τ 2 − τ 1 g ' (τ ), jika τ = τ 1 1 2 [τ i +1 ,τ i + 2 , Kτ i + q ]g − [τ i ,τ i +1 , Kτ i + q −1 ]g , jika τ i + q ≠ τ i τ i+q − τ i 3. [τ i ,τ i +1 , Kτ i + q ]g = (q) g (τ i ) , jika τ = τ = K = τ dan g ∈ C ( q ) i i +1 i+q q! dengan q!= 1 × 2 × L × q dan g ( q ) merupakan turunan ke-q dari fungsi g. Misalkan T = {t 0 ≤ t1 ≤ L ≤ t m } adalah himpunan (m+1) knot pada selang [t0,tm], B-spline berderajat q ke-i didefinisikan dalam bentuk divided difference dari (t − x) q+ pada barisan knot T yang diberikan oleh persamaan berikut: Bi , q ,t ( x ) = Bi ,q ( x) = (t i + q +1 − t i )[t i , K , t i + q +1 ](t − x) q+ , x ∈ ℜ .
t − x, jika x ≤ t Dengan (t − x) + = maks{0, (t − x)} = 0, jika x > t. Sebagai ilustrasi bagi B-spline, untuk i = 1 dan q = 1 maka
B1,1 ( x) = (t 3 − t1 )[t1 , t 2 , t 3 ](t − x) + , x ∈ ℜ [t , t ](t − x) + − [t1 , t 2 ](t − x) + = (t 3 − t1 ) 2 3 = [t 2 , t 3 ](t − x) + − [t1 , t 2 ](t − x) + t 3 − t1 [t ](t − x) + − [t 2 ](t − x) + [t 2 ](t − x) + − [t1 ](t − x) + = 3 − t3 − t 2 t 2 − t1 (t − x) + − (t 2 − x) + (t 2 − x) + − (t1 − x) + = 3 − . t3 − t 2 t 2 − t1 Fungsi basis B-spline berderajat q ke-i (Bi,q) lebih mudah dipahami dengan menggunakan definisi secara rekursif (rekursif Cox de Boor) dengan persamaan: 1, jika t i ≤ x ≤ t i +1 Bi , 0 ( x) = 0, selainnya t i + q +1 − x x − ti Bi ,q ( x) = Bi ,q −1 ( x) + Bi +1,q −1 ( x) ti+q − ti t i + q +1 − t i +1
(3)
8
B-spline berderajat nol pada suatu interval yang terletak di antara dua knot merupakan konstanta, sehingga dengan menggunakan Persamaan 3 fungsi Bspline berderajat 1, 2 dan 3 dapat diperoleh dengan mudah. Sebuah fungsi spline berderajat q dengan barisan knot T dapat dituliskan sebagai kombinasi linear B-spline:
s ( x) = ∑ β i Bi ,q ,t ( x)
(4)
dengan βi merupakan koefisien basis B-spline. Fungsi basis B-spline memiliki sifat-sifat sebagai berikut: 1. Bi ,q ( x) merupakan polinomial berderajat q pada x. 2. Nonnegativity, Bi ,q ( x) ≥ 0 untuk semua i, q, x. 3. Local support, Bi ,q ( x) merupakan polinomial taknol pada [ti,ti+q+1). 4. Pada setiap interval [ti,ti+1), paling banyak memiliki q+1 fungsi basis berderajat q taknol, yaitu Bi − q ,q ( x), Bi − q +1,q ( x), Bi − q + 2,q ( x), K, Bi ,q ( x) . 5. Partition of unity yaitu jumlah dari semua fungsi basis tak nol pada interval [ti,ti+1) sama dengan satu. 6. Jika jumlah total knot yang digunakan pada B-spline berderajat q sebanyak s+1 dan banyaknya fungsi basis = n+1, maka s = n+q+1. 7. Fungsi basis Bi ,q ( x) merupakan kurva komposit dari polinomial berderajat q dengan titik gabung pada knot-knot yang ada pada [ti,ti+q+1). 8. Pada knot dengan multiplisitas k, fungsi basis Bi ,q ( x) merupakan Cq-k yang kontinu. Gambar 1 menyajikan grafik 6 fungsi basis B-spline kubik pada domain [1,100]. Barisan knot (internal) yang digunakan adalah T = {0.01, 33.67, 67.33, 100.99} yang posisinya ditunjukkan oleh garis vertikal.
9
0.7
Nilai B-spline
0.6 0.5 0.4 0.3 0.2 0.1 0.0 1
8
15 22 B1
29 36 B2
43
50 57
64
Domain B-spline B3 B4
71 78
85
92 99
B5
B6
Gambar 1 Grafik 6 basis B-spline kubik pada domain [1,100]. Regresi Sinyal P-spline
RSP merupakan salah satu pendekatan nonparametrik yang melibatkan penggunaan basis B-spline dan penalti pemulus (penalti pembeda dan penalti rigde) dalam pendugaan parameter (koefisien) regresi. Dengan memanfaatkan informasi spasial (urutan atau indeks) dari peubah penjelas, koefisien regresi yang dihasilkan oleh RSP ada dalam ruang fungsi mulus. Hal ini dicapai dengan cara merepresentasikan koefisien regresi sebagai kombinasi linear dari basis B-spline. Dalam model RSP, indeks peubah penjelas memegang peranan yang sangat penting yaitu untuk mengevaluasi fungsi basis B-spline yang dibangun. Model kalibrasi dapat dipandang sebagai regresi linear berganda yang dituliskan dalam bentuk: y i = α 0 + α 1 x1i + α 2 x 2i + L + α p x pi + ei (i = 1, 2, K, n). Nilai harapan persamaan di atas adalah:
E ( y ( n×1) ) = α 0 1( n×1) + X ( n× p ) α ( p×1)
(5)
dimana X = matriks spektra peubah penjelas yang dihasilkan pada p bilangan gelombang dan antar peubah penjelas terdapat multikolinearitas. n = dimensi/jumlah contoh p = dimensi peubah penjelas, p >> n
10
α 0 = intersep α = vektor koefisien regresi. Matriks X ( n× p ) memiliki dimensi peubah penjelas yang sangat besar sehingga dimensi vektor koefisien regresi ( α ) juga besar. Oleh karena itu, dalam proses pendugaan α perlu dilakukan pereduksian dimensi koefisien regresi dengan cara merepresentasikan α sebagai kombinsi linear dari basis B-spline (B) berdimensi sedang. Dengan demikian, α dapat dinyatakan sebagai berikut:
α ( p×1) = B ( p×m ) β ( m×1)
(6)
dengan β = vektor koefisien basis berdimensi m, m << p. Permasalahan mendasar dalam membangun fungsi basis B-spline adalah penentuan jumlah dan penempatan knot yaitu tempat tersambungnya potonganpotongan polinomial pada B-spline. Jumlah knot yang terlalu banyak akan menyebabkan overfitting, sebaliknya jika terlalu sedikit akan mengakibatkan underfitting. Pengoptimalan jumlah dan penempatan knot merupakan masalah non linear yang kompleks dan lebih mengarah pada masalah algoritma. P-spline dapat mengatasi permasalahan di atas dengan cara menentukan terlebih dulu jumlah knot pada B-spline, dan penempatan knot dilakukan dengan konsep equally spaced knots yaitu mengatur posisi knot sedemikian rupa sehingga jarak antar knot yang satu dengan lainnya sama. Dengan mensubstitusikan Persamaan 6 ke Persamaan 5 diperoleh: E ( y ( n×1) ) = α 0 1( n×1) + U ( n×m ) β ( m×1)
(7)
dengan U ( n×m ) = X ( n× p ) B ( p×m ) m merupakan banyaknya B-spline yang dibangun; m << p. Dengan menggunakan Persamaan 7, masalah yang timbul akibat dimensi peubah yang besar dalam proses pendugaan parameter dapat diatasi tanpa membuang data pada matriks X. Persamaan 7 memberikan model regresi berganda baku berdimensi sedang yang terkendala pada suatu ruang fungsi mulus, akan tetapi masalah multikolinearitas masih ada pada kolom-kolom matriks U. Multikolinearitas pada
U dapat diatasi dengan menambahkan dua penalti yaitu penalti pembeda dan
11
penalti ridge, karena regresi ridge merupakan salah satu solusi untuk masalah multikolinearitas. Penambahan dua penalti tersebut sekaligus dapat meningkatkan kemulusan α . Penalti pembeda diberikan oleh persamaan berikut: m
∑ (∆
P=λ
k = d +1
d k
β )2
dengan ∆dk merupakan operator pembeda ke-k berordo d. Penalti ini dapat dinyatakan dalam bentuk matriks:
P = λ β D Td D d β T
dengan D d = matriks (d+1) diagonal yang berukuran (m-d) x m dan dihitung secara rekursif, dengan D1 memiliki entri d i ,i = −1 dan d i ,i +1 = 1 , i = 1, 2, ..., m-1 dan entri lain = 0. Persamaan rekursif untuk D d dinyatakan sebagai berikut: D0 β = β D1 β = {β k − β k −1 } ; k = 2, 3, ..., m. D d +1 β = D1 D d β
Sebagai ilustrasi, matriks-matriks berikut merupakan matriks D d berdimensi rendah untuk m = 4 dan nilai d = 0, 1, 2, 3 secara berturut-turut. 0 0 − 1 1 1 − 2 1 0 D 0 = I m ; D1 = 0 − 1 1 0 ; D 2 = ; D 3 = [1 − 3 3 − 1] . 0 1 − 2 1 0 0 − 1 1
Model yang akan dibangun diharapkan memiliki doubly penalized least square (S) yang minimum. S =|| y − α 0 − U β || 2 + λ
m
m
k = d +1
i =1
∑ (∆dk β ) 2 + κ ∑ β i2 .
(8)
bentuk matriks dari persamaan di atas adalah: T T * *T * *T * *T * S = y y − 2 y U * β + β U *T U * β + λ β D *dT D *d β + κ β I *( m +1) β . dengan U * = (1n | U) , D *d = (0 ( m − d ) | D d ) , I * = diag (0,1m ) dan β
*T
= (α 0 | β ). T
Matriks-matriks di atas menunjukkan bahwa intersep pada model tidak dimuluskan dan tidak diberikan penalti. Suku pertama pada Persamaan 8 merupakan ukuran kecocokan model terhadap data yaitu jumlah kuadrat residual
12
antara data dan nilai prediksi. Suku kedua dan ketiga merupakan penalti pembeda ( λ ≥ 0) dan penalti ridge ( κ ≥ 0). λ merupakan ukuran yang mengontrol tingkat kemulusan α pada tahap lanjut yaitu menentukan mulus atau kasarnya β . Nilai
λ yang sangat besar akan menghasilkan kurva β yang mendekati polinomial berderajat d-1, sebaliknya λ = 0 akan menginterpolasi β untuk nilai d dan κ yang tetap. κ merupakan bilangan positif yang sangat kecil yang berguna untuk menstabilkan kebergantungan linear di antara B-spline sekaligus mengatasi multikolinearitas pada U ( n×m ) . Nilai prediksi (ŷ) dapat diperoleh dari persamaan berikut: * * * yˆ = Xαˆ ; αˆ = B βˆ .
(9)
Derajat bebas pada pemodelan kalibrasi direduksi dari p menjadi derajat bebas efektif yang nilainya lebih kecil dari m; m << p. Oleh karana itu, model regresi yang meminimumkan Persamaan 8 memungkinkan untuk menggunakan banyaknya B-spline (m) yang lebih besar dari pada banyaknya pengamatan (n). Pendugaan Parameter Koefisien RSP Pendugaan parameter β , λ dan к yang meminimumkan S dilakukan *
secara serentak dan iteratif menggunakan metode Newton-Raphson. Metode tersebut memerlukan turunan parsial pertama dan turunan parsial kedua dari fungsi tujuan (S) terhadap β , λ dan κ . *
Turunan pertama fungsi S terhadap β adalah: *
∂S ∂β
*
(
)
= 2 U *T U * + λD *dT D *d + κI *( m +1) β − 2U *T y
turunan pertama S terhadap λ adalah: ∂S *T * = β D*dT D*d β ∂λ
turunan pertama S terhadap κ adalah:
∂S *T * = β I *( m +1) β . ∂κ
*
13
Sedangkan turunan parsial kedua dari S terhadap β , λ dan κ sebagai berikut: *
∂2S ∂β
*2
(
∂2S ∂ β ∂λ *
∂2S ∂ β ∂κ *
)
= 2 U *T U * + λD*dT D *d + κI *( m +1) ;
=
=
∂2S ∂λ∂ β
*
= 2D *dT D *d β ;
*
= 2I *( m +1) β .
*
∂2S ∂κ∂ β
∂2S ∂2S = 0 ; =0 ∂λ2 ∂κ 2
*
Penduga parameter RSP menggunakan metode Newton-Raphson diperoleh dari persamaan berikut: β* β* λ = λ − H −1 ( r ) g ( r ) , r = 0, 1, 2, ..., sampai konvergen κ ( r +1) κ ( r ) gβ* dengan g = g λ g κ ∂ 2S 2 ∂β * 2 ∂ S H= ∂λ∂ β * 2 ∂ S ∂κ∂ β *
; gβ* = ∂ 2S * ∂ β ∂λ ∂ 2S ∂λ2 ∂ 2S ∂κ∂λ
∂S ∂β
*
, gλ =
∂S ∂S , gκ = dan ∂κ ∂λ
∂2S * ∂ β ∂κ ∂2S . ∂λ∂κ ∂2S ∂κ 2
Penempatan Knot dengan Equally Spaced Knots Fungsi basis B-spline berderajat q yang akan dibentuk memiliki domain pada interval [1, p], kemudian fungsi tersebut dievaluasi pada indeks dari peubah penjelas yaitu 1,2, sampai p. Misalkan domain B-spline terbentang pada m' interval yang sama panjang dan terbagi oleh m ' + 1 knot internal ( h = t i +1 − t i ,
untuk q ≤ i ≤ m'+ q − 1 dan h ∈ ℜ ), maka jumlah total knot yang dibutuhkan untuk membangun B-spline = m'+2q + 1 dan banyaknya B-spline yang digunakan pada
14
persamaan regresi adalah m = m'+ q. Penempatan knot menggunakan konsep equally spaced knot pada penelitian ini dapat dijelaskan sebagai berikut: 1. Misalkan x1 = min{indeks dari peubah penjelas} = min{1,2, ..., p} = 1 dan x r = maks{ indeks dari peubah penjelas } = maks {1,2, ..., p} = p. 2. Ditetapkan
x min = x1 − 0.01( x r − x1 ) ,
x maks = x r + 0.01( x r − x1 )
dan
dx = ( x maks − x min ) / m' . 3. Menentukan barisan knot (T) secara keseluruhan yang akan digunakan pada Bspline. T = barisan ( x min − qdx : x maks + qdx); dengan increment sebesar dx. Kriteria Kebaikan Model dan Validasi Model
Pemilihan model terbaik dapat dilakukan dengan memperhatikan beberapa kriteria kebaikan model pada data penyusun model dan data validasi. a. Kriteria kebaikan model pada data penyusun model antara lain nilai S yang diformulasikan pada Persamaan 8 dan Generalized Cross Validation (GCV) diformulasikan sebagai berikut: GCV =
1 n 2 ∑ [( yi − yˆ i ) /(1 − (tr (G ) / nc ))] n i =1
(10)
dengan G = U * (U *T U * + λD *dT D*d + κI *( m +1) ) −1 U *T . b. Kriteria kebaikan model pada data validasi digunakan Root Mean Square Error of Predictions (RMSEP). 1 RMSEP = nC
( y i − yˆ i ) ∑ i∈C
1/ 2
2
(11)
dimana C merupakan kumpulan data validasi
nc = banyaknya data validasi
yˆ i = dugaan untuk data validasi y i . Kriteria lain yang dapat digunakan pada data penyusun model dan data validasi adalah R2 dari regresi Y dugaan (Ŷ) terhadap nilai Y sebenarnya. Semakin kecil nilai S, GCV dan RMSEP maka semakin baik model yang diperoleh.
15
Derajat Bebas (Dimensi ) Efektif dari Parameter
Derajat bebas (df) efektif dari RSP merupakan banyaknya parameter RSP yang efektif. Derajat bebas efektif bisa dijadikan ukuran kemulusan koefisien RSP dan berguna untuk membandingkan hasil fitting RSP pada jumlah knot, d, λ dan κ yang berbeda-beda. Derajat bebas efektif sama dengan trace dari matriks hat (Hastie dan Tibshirani, 1990) yang diberikan oleh persamaan berikut: df efektif (λ , κ , d ) = tr [U *T U * (U *T U * + λD *dT D *d + κI *( m +1) ) −1 ] .(12)
16
DATA DAN METODE
Data
Data yang digunakan dalam penelitian ini merupakan bagian dari data penelitian Hibah Pascasarjana angkatan ke I tahun 2003-2005, hasil kerjasama antara Departemen Statistika IPB dengan pusat studi Biofarmaka LPPM IPB. Penelitian tersebut didanai oleh DP3M, Dirjen Pendidikan Tinggi, Departemen Pendidikan Nasional Indonesia. Data yang digunakan dalam penelitian ini adalah data spektra persen transmitan hasil pengukuran spektrometer FTIR dan data konsentrasi hasil pengukuran HPLC pada senyawa aktif gingerol yang terdapat pada serbuk rimpang jahe yang berasal dari beberapa petani di Kulonprogo, Karanganyar, Majalengka, Bogor dan jahe hasil koleksi dari Balitro. Metode
Pada penelitian ini fungsi basis B-spline yang digunakan adalah fungsi basis B-spline berderajat tiga (basis B-spline kubik), karena hal ini banyak digunakan dalam aplikasi. Tahapan analisis data yang dilakukan pada penelitian ini sebagai berikut: A. Pada data yang dikoreksi tahapan analisis yang dilakukan meliputi: a. Tahap pra-pemrosesan 1. Spektrum dari semua contoh diplot terhadap rata-rata untuk melihat pola garis lurus yang dibentuk oleh tiap contoh tersebut apakah ada pengaruh pencaran atau tidak. 2. Membentuk model regresi linear xij = β 0i + β 1i x j + ei dan menduga nilai parameter menggunakan kuadrat terkecil. 3. Mentransformasi data spektrum asli dengan menggunakan transformasi * berikut: xij = ( xij − βˆ0i ) / βˆ1i .
4. Data dibagi secara acak ke dalam dua kelompok yaitu data untuk menyusun model (data kalibrasi) dan data untuk validasi model. Pada
17
penelitian ini, data yang digunakan terdiri dari dua puluh contoh. Lima belas contoh digunakan untuk menyusun model dan lima contoh sisanya digunakan untuk validasi model. b. Tahap pembentukan dan validasi model mencakup: 1. Ditetapkan sejumlah knot dengan jarak yang sama antara knot yang satu dengan yang lainnya. Pada Penelitian ini, B-spline kubik yang dibentuk menggunakan dua kemungkinan interval knot yaitu 12 interval dan 13 interval. Hal ini bertujuan agar bisa diperoleh model dengan performan yang baik. 2. Membangun fungsi basis B-spline kubik sepanjang indeks bilangan gelombang (1:p) dengan sejumlah knot yang diberikan pada Langkah 1. Konsentrasi senyawa aktif gingerol pada serbuk rimpang jahe dipengaruhi oleh masa penyimpanannya, sehingga dalam model yang akan dibangun ditambahkan peubah dummy masa penyimpanan (I). 1, masa simpan sebentar (kurang dari tiga bulan) I = 0, masa simpan lama (lebih dari tiga bulan) Peubah dummy ini tidak dilibatkan dalam pemulusan koefisien regresi, sehingga domain dari B-spline kubik yang akan dibentuk hanya indeks bilangan gelombang yaitu (1,2, ..., 1866). Peubah dummy akan diikutkan dalam pemodelan dengan cara memperbesar matriks-matriks berikut:
[
]
1.
X ( n×( p +1)) = X ( n× p ) M I n
2.
B ( p× m ) M 0 p B (( p +1)×( m +1)) = T M 1 0 m
3.
D (( m − d )×m ) M 0 ( m − d ) ) I (( m +1)×( m +1)) = diag(1m ,0) dan D (( m − d +1)×( m +1)) = T . M0 0 m
3. Membangun model RSP pada berbagai ordo pembeda (d ; d = 0, 1, 2, 3), kemudian diperoleh nilai dugaan, sisaan, S, GCV dan R2Y vs Ŷ. 4. Data bagian kedua digunakan untuk validasi model, kemudian diperoleh nilai konsentrasi dugaan, sisaan, RMSEP dan R2Y vs Ŷ (pred).
18
B. Pada data yang tidak dikoreksi tahapan analisis yang dilakukan adalah: Tahap pembentukan dan validasi model mencakup: 1. Data hasil transformasi dibagi menjadi dua, dengan susunan contoh yang sama seperti pada data yang dikoreksi. 2. Digunakan fungsi basis B-spline yang sama dengan fungsi basis Bspline pada data yang dikoreksi. 3. Membangun model RSP pada berbagai ordo pembeda (d; d = 0, 1, 2, 3), kemudian diperoleh nilai dugaan, sisaan, S, GCV dan R2Y vs Ŷ. 4. Data bagian kedua digunakan untuk validasi model, kemudian diperoleh nilai konsentrasi dugaan, sisaan, RMSEP dan R2Y vs Ŷ (pred). C. Membandingkan hasil model RSP pada data yang dikoreksi dengan hasil model RSP pada data yang tidak dikoreksi. Tahapan analisis di atas dilakukan dengan bantuan Software S-PLUS 2000 PROFESSIONAL dan SAS 9.1.
19
HASIL DAN PEMBAHASAN Koreksi Pencaran Multiplikatif Data persen transmitan diperoleh dari pengukuran dengan menggunakan FTIR pada 1866 bilangan gelombang yang berkisar antara 4000 – 400 cm-1. Grafik spektrum persen transmitan gingerol dari 20 contoh serbuk rimpang jahe yang berasal dari berbagai daerah disajikan pada Gambar 2. Berdasarkan Gambar 2 spektra gingerol dari berbagai daerah memiliki pola yang sama, hal ini menunjukkan adanya kekhasan pola spektrum gingerol. Namun demikian, nilai persen transmitan antara daerah yang satu dengan lainnya sangat beragam dengan
% Transmitan
kisaran nilai 0.04 sampai 0.82, sehingga sebaran plot spektranya berjauhan. 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 3996
3128
2260
1393
525
-1
Bilangan Gelombang (cm )
Gambar 2 Spektra gingerol serbuk rimpang jahe yang tidak dikoreksi pada 1866 bilangan gelombang. Gambar 3 menunjukkan bahwa ada perbedaan nilai kemiringan dan intersep pada garis regresi spektra contoh terhadap rata-ratanya. Arnita (2005) mengidentifikasi perbedaan tersebut sebagai perbedaan yang diakibatkan adanya pengaruh pencaran. Oleh karena itu, informasi yang ada pada tiap contoh juga sangat berbeda, sehingga perlu dilakukan koreksi pencaran agar keragaman yang diakibatkan adanya pengaruh pencaran dapat dieliminasi.
% Transmitan
20
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.2
0.3
0.4 0.5 Rata-rata % transmitan
0.6
Gambar 3 Plot persen transmitan terhadap rata-rata seluruh contoh pada data yang tidak dikoreksi. Secara berurutan, Gambar 4 dan Gambar 5 menyajikan plot spektra gingerol dan plot persen transmitan terhadap rata-ratanya pada data yang dikoreksi. Gambar 4 memiliki pola yang s ama dengan Gambar 2, tetapi sebaran plot pada Gambar 4 lebih rapat daripada Gambar 2. Perbedaan nilai kemiringan dan intersep pada Gambar 5 jauh lebih kecil dibandingkan dengan Gambar 3. Hal ini mengindikasikan bahwa keragaman spektra yang disebabkan pengaruh pencaran sudah dieliminasi. Keragaman yang tersisa hanyalah keragaman yang terkait dengan perbedaan informasi kimia yang diberikan masing-masing spektrum contoh. Dengan demikian, koreksi pencaran multiplikatif mampu mengeliminasi keragaman antar spektra.
% Transmitan
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 3996
Gambar 4
3128 2260 1393 -1 Bilangan Gelombang (cm )
525
Spektra gingerol serbuk rimpang jahe yang dikoreksi pada 1866 bilangan gelombang.
% Transmitan
21
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.2
0.3
0.4 0.5 Rata-Rata % Transmitan
0.6
Gambar 5 Plot persen transmitan terhadap rata-rata seluruh contoh pada data yang dikoreksi. Selanjutnya data hasil koreksi dibagi secara acak ke dalam dua kelompok data. Kelompok pertama mencakup 15 contoh yang digunakan untuk menyusun model RSP (kelompok data kalibrasi) dan 5 contoh yang tersisa digunakan untuk validasi model RSP (kelompok data validasi). Pembentukan Basis B-spline Sebelum memodelkan data dengan RSP, terlebih dulu dibangun fungsi basis B-spline. Input yang dibutuhkan dalam membangun basis B-spline adalah domain, derajat B-spline dan banyaknya knot yang digunakan. Domain yang digunakan pada penelitian ini adalah interval [1,1866] yang dibentuk oleh indeks dari 1866 bilangan gelombang yang terukur oleh FTIR. Knot internal yang digunakan untuk membangun B-spline kubik sebanyak 13 knot dan 14 knot (banyaknya knot internal = banyaknya interval knot + 1). Penggunaan dua kemungkinan jumlah knot bertujuan untuk mendapatkan model yang terbaik. Jumlah knot yang banyak menyebabkan overfitting, sebaliknya jika terlalu sedikit akan mengakibatkan underfitting. Fungsi basis B-spline kubik tersebut kemudian dievaluasi pada indeks bilangan gelombang yaitu 1, 2, sampai 1866. Gambar 6 menyajikan grafik B-spline kubik yang tersambung pada 14 knot internal yaitu: -17.65, 128.68, 275.01, 421.34, 567.67, 714, 860.33, 1006.67, 1153, 1299.33,
22
1445.66, 1591.99, 1738.32, 1884.65 sehingga diperoleh 16 basis B-spline (banyaknya interval knot + derajat B-spline). 0.7
Nilai B-spline
0.6 0.5 0.4 0.3 0.2 0.1 0.0 1
166 331 496 661 826 991 1156 1321 1486 1651 1816 Inde k Bilangan Ge lombang
Gambar 6 Grafik 16 basis B-spline pada domain [1,1866]. Regresi Sinyal P-spline Hasil pendugaan parameter model RSP menggunakan metode NewtonRaphson sangat dipengaruhi oleh batas bawah dari nilai λ dan к. Adanya batasan nilai λ dan к pada peminimuman fungsi S mengakibatkan dugaan nilai λ dan к selalu sama dengan batas bawah yang diberikan. Hal tersebut dapat dilihat dari suku kedua dan ketiga pada Persamaan 8 yang bertanda positif serta nilai λ dan к yang dikalikan dengan suatu bilangan taknegatif. Oleh karena itu batas bawah yang diberikan untuk λ dan к bukanlah nol, melainkan bilangan positif yang kecil. Hal tersebut bertujuan untuk mengatasi permasalahan multikolinearitas pada model. Penentuan nilai batas bawah yang digunakan pada penelitian ini didasarkan pada pengalaman penulis. Sebelum menggunakan metode Newton Raphson dalam pendugaan parameter, penulis meregresikan nilai RMSEP terhadap berbagai kombinasi nilai λ dan к. Setelah diperoleh persamaan regresinya, kemudian dicari nilai λ dan к yang meminimumkan persamaan regresi tersebut dan menggunakannya sebagai batas bawah untuk nilai λ dan к.
23
Batas bawah untuk nilai λ dan к pada data yang dikoreksi masing-masing sebesar 0.015 dan 0.0007, sedangkan pada data yang tidak dikoreksi batas bawahnya adalah 0.0001 untuk λ dan 0.05 untuk к. Nilai-nilai tersebut digunakan untuk menduga nilai parameter model RSP secara serentak menggunakan metode Newton-Raphson. Secara berurutan, Tabel 1 dan Tabel 2 menyajikan hasil ukuran-ukuran kebaikan model pada berbagai nilai d untuk data yang dikoreksi dan data tidak dikoreksi. Tabel 1 Ringkasan nilai kebaikan model gingerol dengan RSP pada data yang dikoreksi Banyaknya interval knot (m') 12
13
Ordo Pembeda (d) 0 1 2 3 0 1 2 3
S 0.05799 0.06762 0.08003 0.08968 0.05415 0.06246 0.07357 0.08307
GCV
RMSEP
Df
0.05025 0.04168 0.03890 0.03906 0.05514 0.04437 0.03985 0.03936
0.07249 0.07048 0.07799 0.08904 0.07674 0.06862 0.07381 0.08420
11.16336 10.56383 10.00510 9.58502 11.44010 10.84032 10.29463 9.88527
Tabel 2 Ringkasan nilai kebaikan model gingerol dengan RSP pada data yang tidak dikoreksi Banyaknya interval knot (m') 12
13
Ordo Pembeda (d) 0 1 2 3 0 1 2 3
S 0.06478 0.06481 0.06490 0.06520 0.06156 0.06158 0.06168 0.06195
GCV
RMSEP
Df
0.06177 0.06165 0.06143 0.06068 0.06493 0.06486 0.06461 0.06383
0.11802 0.11801 0.11803 0.11807 0.12972 0.12967 0.12948 0.12881
11.27575 11.27276 11.26269 11.23196 11.46880 11.46607 11.45685 11.42810
Berdasarkan Tabel 1, model terbaik untuk data yang dikoreksi dicapai pada model RSP yang menggunakan 13 interval knot dan d = 1. Model tersebut menghasilkan S, GCV, RMSEP dan derajat bebas efektif masing-masing sebesar 0.06246, 0.04437, 0.06862 dan 10.84. Untuk data yang tidak dikoreksi, RSP
24
menghasilkan nilai S, GCV dan RMSEP yang hampir sama pada berbagai nilai d yang disajikan pada Tabel 2. Meskipun demikian nilai yang dihasilkan oleh model RSP yang menggunakan 12 interval knot sedikit lebih baik dibandingkan dengan RSP yang menggunakan 13 interval knot. Nilai S, GCV, df efektif dan RMSEP yang diperoleh dari model terbaik yang dicapai pada m' = 12 dan d = 1, untuk data yang tidak dikoreksi masing-masing sebesar 0.06481, 0.06165, 11.27 dan 0.11801. Nilai RMSEP dari data yang dikoreksi jauh lebih kecil dibandingkan
Koefisien P-spline
pada data yang tidak dikoreksi. 0.20 0.15 0.10
df efektif = 10.84
0.05 0.00 -0.05 -0.10 -0.15 -0.20 -0.25 0
300
600
900
1200
1500
1800
Indeks bilangan gelombang
Koefisien P-spline
Gambar 7 Plot koefisien RSP untuk data yang dikoreksi. 0.10 0.08 0.06 0.04 0.02 0.00 -0.02 -0.04 -0.06 -0.08 -0.10
df efektif = 11.27
0
300
600
900
1200
1500
1800
Indeks bilangan gelombang
Gambar 8 Plot koefisien RSP untuk data yang tidak dikoreksi.
25
Gambar 7 dan Gambar 8 menunjukkan bahwa koefisien RSP membentuk fungsi mulus jika diplotkan terhadap indeks bilangan gelombang. Tingkat kemulusan yang diperoleh untuk kedua data (dikoreksi dan tidak dikoreksi) berbeda. Koefisien regresi untuk data yang dikoreksi lebih kasar dibandingkan dengan koefisien regresi untuk data yang tidak dikoreksi. Pada data yang dikoreksi, nilai mutlak koefisien regresi terbesar terdapat pada interval bilangan gelombang (300,600). Hal ini dapat diinterpretasikan bahwa nilai persen transmitan pada bilangan gelombang yang tercakup pada interval tersebut lebih menentukan konsentrasi gingerol dibandingkan dengan nilai persen transmitan pada bilangan gelombang yang lain. Secara berurutan, Tabel 3 dan Tabel 4 menyajikan ringkasan hasil prediksi model RSP untuk kelompok data kalibrasi dan kelompok data validasi. Tabel 3 Nilai Y dan Ŷ konsentrasi gingerol pada kelompok data kalibrasi
Y (HPLC) 0.53 0.72 0.78 0.52 0.54 0.78 0.63 0.63 0.78 0.79 1.26 1.60 1.18 1.14 1.24
Ŷ (data dikoreksi) 0.64297 0.71558 0.64297 0.61584 0.51737 0.73290 0.63880 0.63295 0.74834 0.81152 1.27688 1.57313 1.14610 1.20083 1.22257
Ŷ (data tidak dikoreksi) 0.64569 0.73211 0.64569 0.62472 0.50782 0.70448 0.63005 0.66354 0.75924 0.78751 1.28782 1.58034 1.15693 1.19486 1.20056
Tabel 4 Nilai Y dan Ŷ konsentrasi gingerol pada kelompok data validasi
Y (HPLC) 0.63 0.58 0.53 0.79 1.07
Ŷ (data dikoreksi) 0.59133 0.55498 0.57817 0.75569 1.20388
Ŷ (data tidak dikoreksi) 0.57961 0.41736 0.54331 0.71884 1.25816
26
Nilai R2 dari regresi Yˆ terhadap Y merupakan salah satu ukuran kebaikan model. Berdasarkan data pada Tabel 2, regresi Yˆ terhadap Y menghasilkan R2 sebesar 96.61% untuk data yang dikoreksi dan 96.21% untuk data yang tidak dikoreksi. Plot antara nilai Y dan Yˆ untuk kelompok kalibrasi pada Gambar 9 dan Gambar 10 mendekati pola garis lurus 450 yang melalui titik nol. Hal ini menunjukkan bahwa nilai prediksi yang diperoleh RSP sangat dekat dengan nilai
Prediksi konsentrasi gingerol
Y yang sebenarnya untuk data yang koreksi maupun data tidak dikoreksi. 1.8 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0
2
R = 96.61%
0.0
0.2
0.4 0.6 0.8 1.0 1.2 1.4 Konsentrasi gingerol hasil HPLC
1.6
1.8
Prediksi konsentrasi gingerol
Gambar 9 Plot Y dan Yˆ untuk data kalibrasi yang dikoreksi. 1.8 1.6 1.4 1.2 1.0
2
R = 96.21%
0.8 0.6 0.4 0.2 0.0 0.0
0.2
0.4 0.6 0.8 1.0 1.2 1.4 Konsentrasi gingerol hasil HPLC
1.6
1.8
Gambar 10 Plot Y dan Yˆ untuk data kalibrasi yang tidak koreksi.
27
Gambar 11 menyajikan plot antara nilai Y dan Yˆ untuk kelompok data validasi yang dikoreksi dan Gambar 12 untuk data validasi yang tidak dikoreksi. Gambar 11 lebih mendekati pola garis lurus 450 yang melalui titik nol dan R2 yang dimiliki lebih tinggi daripada Gambar 12. Hal ini berarti bahwa model RSP pada data yang dikoreksi memiliki kemampuan prediksi yang lebih baik
Prediksi konsentrasi gingerol
dibandingkan dengan data yang tidak dikoreksi. 1.8 2
R = 95.71% RMSEP = 0.06862
1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0
0.2
0.4 0.6 0.8 1.0 1.2 1.4 Konsentrasi gingerol hasil HPLC
1.6
1.8
Prediksi konsentrasi gingerol
Gambar 11 Plot Y dan Yˆ untuk data validasi yang dikoreksi.
1.8
2
R = 93.06% RMSEP = 0.11801
1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 0.0
0.2
0.4 0.6 0.8 1.0 1.2 1.4 Konsentrasi gingerol hasil HPLC
1.6
1.8
Gambar 12 Plot Y dan Yˆ untuk data validasi yang tidak dikoreksi.
28
Berdasarkan hasil-hasil yang diperoleh, pra-pemrosesan koreksi pencaran pada data persen transmitan senyawa aktif gingerol mampu meningkatkan kemampuan prediksi RSP. Hal ini ditunjukkan dengan adanya penurunan nilai S, GCV dan RMSEP masing-masing sebesar 3.62%, 28.03% dan 41.85% serta adanya peningkatan nilai R2 pada regresi Yˆ terhadap Y. Tabel 5 menyajikan hasil validasi beberapa model kalibrasi untuk gingerol. Berdasarkan Tabel 5, hasil yang diperoleh RSP mampu mereduksi RMSEP yang dihasilkan oleh RKU dengan pra-pemrosesan koreksi pencaran (Arnita 2005) sebesar 37.39%. Apabila dibandingkan dengan hasil dari transformasi wavelet dengan menggunakan RKU sebagai model, RSP mampu mereduksi RMSEP sebesar 35.99% (Sunaryo 2005). RSP ini merupakan pemodelan yang kompetitif bagi pemodelan kalibrasi dengan pendekatan Bayes yang menggunakan regresi terpenggal sebagai teknik pereduksian dimensi data. Gabungan antara pendekatan Bayes dan regresi terpenggal menghasilkan RMSEP sebesar 0.0622 (Erfiani 2005). Tabel 5 Nilai RMSEP dan R2Y vs Ŷ dari beberapa model kalibrasi pada gingerol Model RMSEP R2Y vs Ŷ (pred) (%) Koreksi pencaran - RKU * 0.10960 82.40 Transformasi wavelet - RKU ** 0.10720 93.90 0.06220 93.90 Regresi terpenggal – pendekatan Bayes *** Koreksi pencaran - RSP 0.06862 95.71 Keterangan * Arnita 2005; ** Sunaryo 2005; *** Erfiani 2005.
29
SIMPULAN DAN SARAN
SIMPULAN Koreksi pencaran pada data persen transmitan senyawa aktif gingerol dapat meningkatkan kemampuan prediksi model regresi sinyal P-spline. Model RSP dengan koreksi pencaran multiplikatif pada senyawa aktif gingerol memberikan hasil prediksi yang cukup baik. Nilai RMSEP dari model RSP jauh lebih kecil dari hasil yang diberikan oleh model RKU dengan pra-pemrosesan koreksi pencaran maupun transformasi wavelet. Model regresi sinyal P-spline merupakan alternatif yang baik bagi pemodelan kalibrasi dengan tingkat keakuratan yang cukup baik. SARAN Penerapan RSP pada model kalibrasi belum mengakomodasi tentang ada atau tidaknya pemotongan spektra pada daerah identifikasi dari senyawa yang dianalisis. Oleh karena itu, diperlukan penelitian lebih lanjut mengenai hal tersebut dan mencari solusi jika ada pemotongan spektra pada daerah identifikasi, sehingga diperoleh model kalibrasi yang lebih baik. Selain itu perlu dilakukan penelitian lebih lanjut tentang metode penentuan nilai penalti pembeda dan penalti ridge yang baik untuk berbagai kondisi data.
30
DAFTAR PUSTAKA
[Anonim].
B-Spline
Basis
Functions:
Important
Properties.
http://www.cs.mtu.edu/~shene/COURSES/cs3621/NOTES/spline/bsplineproperty.html [15 Mei 2005]. Arnita. 2005. Koreksi Pencaran dalam Model Kalibrasi Peubah Ganda pada Data Senyawa Aktif Gingerol Serbuk Rimpang Jahe (Zingeber Officinale Roscue) [tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Atok RM. 2005. Jaringan Syaraf Tiruan dalam Pemodelan Kalibrasi dengan Prapemrosesan Analisis Komponen Utama dan Transformasi Fourier Diskret [tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. de Boor C. 1978. A Practical Guide to Spline. New York: Springer-Verlag. Djuraidah A. 2003. Penerapan Model Nonlinear PLS dengan Jaringan Syaraf Tiruan dalam Kalibrasi. Jurnal Matematika Aplikasi dan Pembelajarannya (JMAP) 2:339-345. Eilers PHC, Marx BD. 1996. Flexible Smoothing with B-Spline and Penalties.
Technometrics 11:89-121. Erfiani. 2005. Pengembangan Model Kalibrasi dengan Pendekatan Bayes (Kasus Tanaman Obat) [disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Gunawan A. 2001. Studi Penggunaan Pemulusan Spline pada Regresi Nonparametrik
[skripsi].
Depok:
Fakultas
Matematika
dan
Ilmu
Pengetahuan Alam, Universitas Indonesia. Hastie T, Tibshirani R. 1990. Generalized Additive Models. London: Chapman and Hall. Hastie T, Mallows C. 1993. A Discussion of ‘A Statistical View of some Chemometrics Regression Tools’ by I. E. Frank and J. H. Friedman.
Technometrics 35:140-143. Marx BD, Eilers PHC. 1999. Generalized Linear Regression on Sampled Sinyal and Curves: A P-Spline Approach. Technometrics 41:1-13. Marx BD, Eilers PHC. 2002. Multivariate Calibration Stability: A Comparison of Methods. J.Chemometrics 16:129-140.
31
Marx BD, Eilers PHC. 2003. Multivariate Calibration with Temperature Interaction
using
Two-Dimensional
Penalized
Signal
Regression.
Chemometrics and -en Laboratory Sistems 66:159-174. Antti H. 1999. Multivariate Characterization of Wood Related Materials [thesis]. Sweden, Umea University. Naes T, Issakson T, Fearn T, Davies T. 2002. A User Friendly Guied to
Multivariate Calibration and Classification. UK: NIR Publications. Nash SG. 1996. Linear and Nonlinear Programming. Ed Int. Singapore: McGraw-Hill. Nur MA, Adijuwana H. 1989. Teknik Spektroskopis dalam Analisis Biologi. Pusat antar Universitas Ilmu Hayat, Institut Pertanian Bogor. Rahayu W. 2003. Pendekatan Bayes dalam Masalah Kalibrasi [tesis]. Bogor: Program Pascasarjana, Institut Pertanian Bogor. Sunaryo S. 2005. Model Kalibrasi dengan Transformasi Wavelet sebagai Metode Pra-pemrosesan [disertasi]. Bogor: Program Pascasarjana, Institut Pertanian Bogor.