Rˆ =
(n − 1)W + B nW
(2.2) W adalah within sequence variance dan B adalah between sequence variance. Konvergensi diperoleh bila
Rˆ
<1.2.
Pendekatan Bayes dengan menggunakan MCMC merupakan suatu pendekatan yang cukup menjanjikan. Namun demikian diperlukan kehati-hatian dalam pemilihan sebaran prior. West (2001) menggunakan pendekatan Bayes dan MCMC untuk penyusunan model kalibrasi pada p>>n, hasil yang diperoleh sangat baik dengan R2 sebesar 99.995%.
BAB III PEMAMPATAN DATA KELUARAN Fourier Tansform Infrared (FTIR) MENGGUNAKAN PENDEKATAN REGRESI TERPENGGAL (Segmented Regression) A. Pendahuluan Spektrum keluaran FTIR merupakan data dalam dua dimensi yang merupakan data berpasangan antara persen transmitan (Y) dan bilangan gelombang (X). Data spektrum yang dihasilkan oleh FTIR tersebut adalah data kuantitatif yang umumnya berdimensi besar.
Sehingga bila ingin dilakukan
analisis data akan dijumpai permasalahan dalam penggunaan paket program pengolah data dan kemampuan hardware yang dimiliki.
Oleh karena itu
diperlukan suatu metode pendekatan untuk mereduksi data tanpa menghilangkan pola spektrum awal. Bila pendekatan ini diperoleh akan mempermudah untuk melakukan analisis statistika selanjutnya, seperti dalam hal pengelompokan senyawa dan penentuan senyawa yang dianggap memberikan hasil respons terbaik. Erfiani et al. (2004a) mencoba pereduksian data keluaran FTIR menggunakan Pendekatan Metode Titik Balik untuk data pengukuran senyawa
aktif gingerol dan kurkumin.
Hasil yang diperoleh menunjukkan metode
pendekatan ini cukup baik dilakukan untuk mereduksi dimensi data. Penggunaan metode pendekatan titik balik dapat mereduksi dimensi vektor titik persentase transmitan dari 1869 menjadi 27. Teknik pereduksian data keluaran Near Infrared (NIR), yang diterapkan pada Regresi Komponen Utama, dicobakan pada Erfiani et al. (2004b). Hasil yang diperoleh menunjukkan terdapat banyak metode eksploratif yang relatif sederhana namun memberikan ketepatan pendugaan model yang tinggi. Beberapa metode pendekatan yang digunakan yaitu penyekatan peubah menjadi kelompokkelompok peubah dengan jumlah peubah pada setiap kelompok sama. Jarak lompatan antara kelompok dicobakan pada beberapa jarak lompatan yaitu 2, 5, 10, 20, 30, 50, 75, dan 80. Dari setiap kelompok peubah diambil satu peubah baru yang merupakan fungsi dari peubah-peubah di dalam kelompok tersebut. Fungsi yang digunakan adalah nilai rataan, maksimum, dan peubah pada ujung sekatan. Hasil yang diperoleh menunjukkan bahwa penggunaan fungsi peubah pada ujung masing-masing sekatan dengan berbagai jarak lompatan lebih mudah dan sederhana dilakukan dari dua fungsi lainnya. Penggunaan jarak lompatan kurang dari 10 dapat menggunakan salah satu dari ketiga macam fungsi pereduksian banyak peubah, tetapi penggunaan jarak lompatan lebih dari 10 lebih baik jika menggunakan fungsi nilai rataan pada masing-masing sekatan atau peubah pada ujung masing-masing sekatan.
Jarak lompatan tergantung banyaknya peubah
bebas. Semakin banyak peubah bebas, maka jarak lompatan masing-masing kelompok sekatan dapat semakin besar.
Besaran nilai R2 dan R2(adj) yang
dihasilkan oleh regresi dengan menggunakan data hasil reduksi dengan pendekatan lompatan dan Regresi Komponen Utama relatif sama. Oleh karena itu metode pendekatan ini cukup baik penggunaannya dalam mereduksi data keluaran Infrared. Metode pendekatan pereduksian yang dicobakan pada Erfiani et al. (2004a) dan
Erfiani et al. (2004b) meski memberi hasil yang cukup baik namun
menggunakan pendekatan eksploratif, sehingga hasil yang diperoleh sangat bersifat subyektif.
Oleh karena itu masih diperlukan kajian pendekatan-
pendekatan lain yang dapat digunakan untuk pereduksian data keluaran Infrared.
Pada tulisan ini akan dilakukan kajian penerapan pendekatan Regresi Terpenggal (Segmented Regression) untuk pereduksian data keluaran FTIR. B. Sumber Data Data yang digunakan untuk penerapan pendekatan Regresi Terpenggal untuk pereduksian data keluaran FTIR merupakan data pengukuran senyawa aktif gingerol menggunakan FTIR.
Senyawa aktif gingerol tersebut berasal dari
tanaman jahe hasil pengamatan dua daerah sentra produksi tanaman obat yaitu Kulonprogo, Jawa Tengah dan Karanganyar, D.I. Yogyakarta.
Pengamatan
dilakukan pada periode waktu 27 Juli 2003 sampai dengan 1 Agustus 2003.
C. Regresi Terpenggal (Segmented Regression) Jika (Xi, Yi), i=1, 2, ..., n adalah pasangan data yang saling bebas dengan Y adalah peubah terikat dan X adalah peubah bebas. Pada Model Regresi Terpenggal wilayah X dibagi menjadi dua atau lebih interval atau sekatan dengan masing-masing sekatan memiliki bentuk fungsi tersendiri Titik akhir dari setiap sekatan disebut changepoints atau breakpoints (Küchenhoff & Wellisch 1997). Ilustrasi sederhana dari model Regresi Terpenggal dengan dua buah sekatan tersaji pada Gambar 6, τ adalah breakpoints.
β2 á
β1=0
τ
Gambar 6 Ilustrasi Regresi Terpenggal dengan dua buah sekatan. Jika fungsi regresinya kontinu, model linear dengan dua sekatan atau satu breakpoints, memiliki persamaan regresi sebagai berikut: E( Y | X=x ) = G( á + â1(x-ô)- + â2(x-ô)+ ) yϑ − b(ϑ ) f ( y | ϑ , ξ ) = exp + c( y, ξ ) ξ
(3.1) (3.2)
Keterangan: t+ = maks (0,t) t- = min (0,t) G adalah fungsi penghubung Natural, ϑ = á + â1(x-ô)- + â2(x-ô)+ ô adalah parameter breakpoints ξ adalah nuisance parameter b '(ϑ ) = E( Y | X=x ) Vektor parameter yang akan diduga adalah θ = (á, â1, â2, ô). Perilaku θˆ, dapat diperoleh dengan menggunakan beberapa regularity assumptions berikut: (Fahrmeir & Kaufmann 1985)
(1) Jika (Xi, Yi), i=1, 2, ..., n adalah contoh yang saling bebas dari model persamaan (3.1) dan (3.2) dengan fungsi penghubung natural, maka penciri model persamaan (3.1) akan dipenuhi bila â1 ≠ â2. (2) Momen pertama dan momen kedua dari X ada atau E(X) dan E(X2) ada. (3) (i) E(G(Y, á + â1(x-ô)- + â2(x-ô)+), ada. G adalah fungsi log-kemungkinan. (ii) E(S(Y, X, θ)2) ada. S adalah score function. Berdasarkan (1) dan (3) diperoleh perilaku θˆsebagai berikut: (a) θˆbersifat konsisten. Plim θˆ= θ untuk n → ∞. (b) θˆadalah asymptotic solution dari score equation. − 12 n P n ∑ S (Yi , X i , θˆ) → 0 , untuk n → ∞. i =1 D. Pendekatan Regresi Terpenggal untuk Pereduksian Data Keluaran FTIR Setiap pola spektrum terdiri dari titik yang menunjukkan hubungan antara bilangan gelombang (cm-1) dengan persentase transmittan yang dihasilkan oleh FTIR. Banyaknya titik yang dihasilkan mengakibatkan dimensi yang dihasilkan oleh setiap spektrum sangat besar.
Setiap pola spektrum yang dapat disekat
menjadi beberapa sekatan garis, dengan setiap sekatan memilliki pola spektrum tertentu. Berdasarkan pola yang diperoleh pada setiap sekatan, dapat dilakukan pereduksian jumlah titik dalam partisi tersebut. Sebagai contoh pada suatu partisi yang terdiri dari 20 titik dan membentuk suatu pola garis lurus, maka sesungguhnya cukup hanya diambil sedikitnya dua titik saja dari partisi tersebut. Sehingga jumlah data yang semula 20 titik dapat direduksi menjadi dua titik. Pendekatan ini memiliki konsep yang relatif sama dengan Regresi Terpenggal, hanya tujuan dari pendekatan ini bukan untuk menduga besaran vektor parameter θ = (á, â1, â2, ô), melainkan mereduksi jumlah titik pada setiap sekatan. Pada setiap sekatan hanya diambil dua titik yaitu titik awal dan titik akhir pengamatan. Pendekatan ini secara teori memungkinkan untuk dilakukan karena pada regresi terpenggal sifat dari statistik yang dihasilkannya konsisten, sehingga secara umum akan selalu dapat dibentuk suatu persamaan garis lurus pada setiap sekatan.
Algoritma pereduksian data menggunakan pendekatan Regresi Terpenggal, yaitu: 1. Tetapkan R02 , yaitu besaran koefisien determinasi standar untuk persamaan garis lurus pada semua sekatan. 2.
Tetapkan i = 1, j = 2, dan k =1 i = titik ujung awal sekatan, j = titik ujung akhir sekatan, k = sekatan
3. Ambil dua pasang titik pertama (Xi, Yi) dan (Xj, Yj) sebagai titik awal. 4. Buat regresi linier Yˆ = á + âX . dan hitung nilai R2. 5. Bila R2 • R02 , j = j + 1, gabungkan pasangan data (Xj, Yj) dan kembali kerjakan 4. 6. Bila R2 < R02 , a. Catat nilai pasangan data pertama (Xi, Yi) dan data terakhir (Xj, Yj) sebagai titik ujung awal dan titik ujung akhir sekatan ke-k. b. Hitung i=j+1, j=j+2, dan k=k+1. Jika j < n kembali ke 4, selainnya stop. t4
t9
t2 t1
t8
t3 t5
t7 t6
Gambar 7 Pemilihan titik pada pendekatan Regresi Terpenggal. Ilustrasi pendekatan Regresi Terpenggal untuk pereduksian data tersaji pada Gambar 7. Pada Gambar 7 terdapat sembilan titik yang membentuk tiga daerah sekatan. Daerah sekatan pertama terdiri dari tiga titik t1, t2 dan t3, daerah sekatan kedua terdiri dari titik t4, t5 dan t6, sedangkan daerah sekatan ketiga terdiri dari titik t7, t8 dan t9. Pada setiap sekatan diambil dua titik yang merupakan titik ujung setiap sekatan, sehingga jumlah titik hasil pereduksian sebanyak enam yaitu t1, t3, t4, t6, t7 dan t9. Bila jumlah sekatan yang dihasilkan adalah k, maka jumlah titik yang digunakan sebanyak 2k.
Keuntungan menggunakan pendekatan Regresi Terpenggal untuk mereduksi data keluaran FTIR, yaitu: 1. Pereduksian data dilakukan dengan tidak menghilangkan pola sebaran data. Hal ini diperlukan karena untuk setiap senyawa aktif akan memiliki daerah identifikasi tertentu. Pada daerah identifikasi tersebut, yaitu daerah bilangan gelombang tertentu akan ditemukan lonjakan-lonjakan nilai persentase transmitan.
Hasil pereduksian data menggunakan pendekatan Regresi
Terpenggal ini, akan berupa pasangan titik data bilangan gelombang dan persentase transmitan dengan pola spektrum yang sama dengan pola spektrum data awal. 2. Menanggulangi permasalahan dimensi data yang besar.
Pada beberapa
perangkat lunak dimensi data yang besar kadang menimbulkan permasalahan tersendiri dalam pengolahan data, misalkan dalam hal waktu proses. Oleh karena itu diawal proses diperlukan tahapan pereduksian data. Pereduksian data menggunakan pendekatan Regresi Terpenggal, merupakan salah satu alternatip metode yang cukup mudah dan efisien penggunaannya. Hal ini terlihat dari algoritma yang sederhana sehingga tidak ditemukan masalah dalam hal komputasi, dalam pengadaan perangkat lunak maupun perangkat keras. 3. Pengukuran kebaikan hasil menggunakan acuan yang pasti. Pada pendekatan ini digunakan besaran koefisien determinasi ( R02 ) untuk menentukan banyaknya daerah sekatan bilangan gelombang. Semakin besar acuan nilai R02 yang digunakan, akan semakin banyak jumlah sekatan dan jumlah titik hasil reduksi yang dihasilkan. E. Studi Kasus Penerapan Pendekatan Regresi Terpengga Gambar 8 dan Gambar 9, merupakan plot data antara bilangan gelombang dan persentase transmitan keluaran FTIR untuk pengukuran senyawa aktif Gingerol yang dihasilkan dari tanaman jahe daerah Kulonprogo dan Karanganyar. Berdasarkan plot tersebut terlihat bahwa setiap senyawa aktif memiliki pola spektrum yang tertentu. Pada senyawa aktif tertentu terdapat lonjakan-lonjakan nilai persentase transmitan pada daerah bilangan gelombang tertentu yang disebut
daerah identifikasi. Pada Spektrum IR Gingerol, pada daerah bilangan gelombang 3550-3230 cm-1 akan terdapat ikatan hidrogen O-H, pada daerah bilangan gelombang
2935-2925 cm-1 terdapat C-H rentangan asimetri; CH3-Ar, dst
(Socratesg 1994). Gambar 8 dan Gambar 9. memperjelas kondisi tersebut, bahwa untuk senyawa aktif tertentu meskipun berasal dari sumber berbeda (pada kasus ini berasal dari daerah dan teknik budidaya yang berbeda), akan memiliki pola spektrum yang sama. Oleh karena itu untuk tahap pereduksian data selanjutnya, hanya akan diambil salah satu spektrum saja. FTIR Jahe-Kulonprogo
100 80 60 40 20 0 4400 3900 3400 2900 2400 1900 1400
% Transm itan
% Transm itan
100 80 60 40 20 0 4400 3900 3400 2900 2400 1900 1400
FTIR Jahe-Karanganyar
900
400
Bila nga n Ge lom ba ng (cm -1 )
900
400
Bila nga n Ge lom ba ng (cm -1)
Gambar 8 Spektrum serbuk Gingerol Kulonprogo
Gambar 9 Spektrum serbuk Gingerol Karanganyar
Kriteria penentuan jumlah titik pada setiap sekatan yaitu berdasarkan besaran koefisien determinasi (R2) yang diperoleh dengan menggunakan regresi linier sederhana. Jumlah titik yang berada dalam satu sekatan akan ditentukan oleh besaran R2 yang ditetapkan ( R02 ).
Semakin tinggi nilai penetapan R02 , akan
semakin sedikit jumlah titik yang dihasilkan untuk setiap partisi. Pada penelitian ini pereduksian data dicobakan pada beberapa besaran R02 yaitu 0.95, 0.98, 0.99 dan 0.999. Hasil pereduksian jumlah pasangan data persentase transmitan dan bilangan gelombang dengan empat kriteria R02 yang digunakan tertera pada Tabel 3.
R
2 0
0.95 0.98 0.99 0.999
Tabel 3 Jumlah titik hasil reduksi Jumlah Titik Hasil Persentase Data Tereduksi 14 99 % 26 99 % 46 98 % 86 90 %
Penerapan pendekatan Regresi Terpenggal untuk data diatas, ternyata memberikan hasil yang cukup baik. Pada pendekatan ini hanya akan diambil dua titik dari sekumpulan titik yang membentuk persamaan regresi linier. Pada R02 sebesar 0.999, jumlah titik awal sebanyak 1868 ternyata dapat direduksi menjadi 86 titik tanpa merubah pola titik yang dihasilkan seperti tampak pada Gambar 10
1
1
0.8
0.8
Persen T ran sm itan
Persen Transmitan
dan Gambar 11.
0.6 0.4 0.2
0 4400
3400
2400
1400
400
Bilangan Gelombang (cm -1)
Gambar 10 Spektrum serbuk Gingerol sebelum reduksi data Gambar 11 Spektrum serbuk Gingerol sesudah reduksi data
0.6 0.4 0.2
0 4400
3400
2400
1400
Bilan g an Ge lo m b an g (cm -1 )
400
F. Simpulan Beberapa kelebihan pendekatan Regresi Terpenggal untuk pereduksian data adalah tetap mempertahankan pola data awal, mudah dalam pengerjaannya dan tidak menghadapi kendala dalam penyediaan perangkat lunak maupun perangkat keras. Penerapan pendekatan Regresi Terpenggal untuk pereduksian data keluaran FTIR memberikan hasil yang cukup baik. Berdasarkan data yang digunakan metode ini dapat mereduksi hingga 99% data. Banyaknya titik hasil pereduksian data sangat dipengaruhi jumlah R02 yang digunakan, semakin tinggi R02 akan semakin banyak jumlah titik yang dihasilkan