BAGGING MULTIVARIATE ADAPTIVE REGRESSION SPLINES (MARS) UNTUK KLASIFIKASI PASIEN HASIL PAP TEST PENYAKIT KANKER SERVIKS (STUDI KASUS DI RS ”X” SURABAYA) Hartini Yastuti1 dan Bambang Widjanarko Otok2 1
Mahasiswa Jurusan Statistika, ITS, Surabaya Dosen Pembimbing, Jurusan Statistika, ITS, Surabaya
[email protected];
[email protected] 2
Abstrak Kanker serviks merupakan kanker terbanyak yang diderita perempuan di Indonesia. Penyebab tingginya angka kejadian disebabkan penyakit tersebut tidak menimbulkan gejala sehingga mayoritas penderita datang berobat telah mencapai stadium lanjut. Oleh karena itu diperlukan pendeteksian dini terhadap abnormalitas sel untuk memperkecil pertumbuhan sel abnormal menjadi kanker dengan Pap test. Penelitian ini dilakukan untuk mendapatkan suatu model yang mampu mengklasifikasikan pasien hasil Pap test dengan tingkat kesalahan klasifikasi yang minimal dengan metode MARS yang dikombinasikan dengan bagging. Bagging MARS dengan 50 sampai 200 kali replikasi masing-masing tidak memiliki kesalahan klasifikasi yang lebih kecil dari kesalahan klasifikasi model MARS terbaik. Hal ini menunjukkan bahwa pada kasus ini bagging tidak selalu dapat menurunkan kesalahan klasifikasi dari model data set awal. Model yang digunakan adalah model MARS terbaik dari kombinasi BF=24, MI=3, dan MO=0 dengan kesalahan klasifikasi sebesar 20,33%. Sementara variabel yang berkontribusi dalam model MARS adalah variabel usia pasien, penggunaan kontrasepsi, frekuensi melahirkan, usia menstruasi pertama, siklus menstruasi, serta riwayat keguguran. Kata kunci: Kanker serviks, Pap test, MARS, bagging, klasifikasi. terbanyak diantara jenis kanker lain yang dialami oleh kaum wanita. YKI mencatat setidaknya terdapat 15.000 kasus baru dan kematian 8.000 jiwa per tahun dengan perkiraan 52 juta perempuan Indonesia berisiko terkena kanker serviks. Penyebab tingginya angka kematian perempuan yang disebabkan oleh kanker serviks adalah terbatasnya informasi seputar kanker tersebut. Koordinator Perempuan Peduli Kanker Serviks (Kessek, 2010) menjelaskan bahwa tingginya kejadian kanker serviks di Indonesia disebabkan penyakit tersebut tidak menimbulkan gejala, sehingga mayoritas penderita datang berobat saat penyakit tersebut telah mencapai stadium lanjut (http://www.bataviase.co. id). Penelitian terhadap kanker serviks pernah dilakukan oleh Melva (2008) dan Setyarini (2009) untuk mengetahui faktor-faktor yang mempengaruhi kejadian kanker serviks. Faktor-faktor tersebut yaitu hubungan seksual usia muda (kurang dari 20 tahun), berganti-ganti pasangan seksual, melahirkan banyak anak (paritas), dan sering menderita infeksi di daerah kelamin dengan menggunakan analisis regresi logistik (Melva, 2008). Setyarini (2009) dengan menggunakan analisis bivariat menyatakan bahwa kejadian kanker serviks berhubungan dengan usia, usia pertama kali menikah, melahirkan banyak anak (paritas), dan penggunaan kontrasepsi oral dalam jangka waktu lama yaitu lebih dari 4 tahun. Pendeteksian sejak dini terhadap abnormalitas sel dapat memperkecil bahkan menghambat pertumbuhan
1.
PENDAHULUAN Kanker atau tumor ganas adalah istilah untuk menjelaskan suatu penyakit dimana sel-sel tubuh yang normal berubah menjadi abnormal. kanker dapat menyebar ke organ-organ lain dalam tubuh manusia dan menyebabkan kematian. Kanker bisa terjadi pada berbagai jaringan dalam berbagai organ dalam tubuh salah satunya pada area bawah rahim yang menghubungkan rahim sebelah atas dengan vagina atau yang lebih dikenal dengan sebutan kanker leher rahim (serviks). Kanker serviks 90% disebabkan karena infeksi HPV (Human Papillomavirus). Menurut Setiawan (2010) 8-10 perempuan diduga sudah terinfeksi HPV selama hidupnya. Terdapat 100 jenis HPV dengan 30 jenis diantaranya mengenai bagian kelamin, namun dibersihkan sendiri oleh tubuh. Jenis HPV yang paling sering menginfeksi adalah HPV 16 dan 18 yang menyebabkan perubahan sel-sel pada vagina atau serviks yang pada mulanya menjadi displasia dan selanjutnya berkembang menjadi kanker serviks (http://www.kompas.com). WHO menyatakan bahwa di negara berkembang setiap dua menit wanita meninggal dunia karena kanker serviks. Di Indonesia, kasus baru kanker serviks ditemukan sebanyak 40-45 kasus per hari. Hal ini berarti bahwa dalam waktu 24 jam terjadi kematian sebanyak 24 perempuan dikarenakan kanker serviks (Nurwijaya, dkk., 2010). Yayasan Kanker Indonesia (YKI) memaparkan angka kematian kanker serviks 1
Surabaya, dimana variabel respon yang digunakan adalah penderita dan non penderita kanker payudara (Kartini, 2008). Penggunaan metode yang sama juga digunakan untuk klasifikasi penderita penyakit kaki gajah (filariasis) di kabupaten Aceh Timur (Kurniasari, 2011). Penelitian ini membahas mengenai karakteristik, pengaruh serta pola hubungan antar faktor-faktor risiko, dan besar kesalahan klasifikasi pasien hasil Pap test penyakit kanker serviks dari model MARS yang telah diperoleh.
sel menjadi kanker. Pemeriksaan (skrining) merupakan metode untuk menemukan infeksi HPV atau lesi prakanker. Skrining dapat mendeteksi kanker yang terjadi pada fase awal sebelum kanker tersebut memberikan gejala atau keluhan secara klinis. Salah satu metode skrining yang ada adalah Pap Test. Pap Test memberikan klasifikasi klasifikasi gambaran sitologi sel yang berguna dalam mengetahui sejauh mana infeksi HPV sehingga berguna dalam menentukan pengobatan atau tindakan medis selanjutnya. Sensitivitas Pap Test bila dilakukan dengan prosedur yang sangat baik akurasinya antara 76% sampai 94%. Penyebab hasil tes tidak akurat yaitu sampel yang diambil kurang memadai, human error dari dokter atau perawat yang melakukan pemeriksaan, serta proses laboratorium yang tidak baik. Oleh karena itu perlu dilakukan penelitian untuk mendapatkan suatu model yang mampu mengklasifikasikan pasien hasil Pap test penyakit kanker serviks dengan tingkat klasifikasi yang minimal. Penelitian mengenai klasifikasi pasien hasil Pap test pernah dilakukan oleh Nurdim (2006) dengan pendekatan Multivariate Adaptive Regression splines (MARS). Variabel yang berkontribusi dalam klasifikasi adalah usia, frekuensi melahirkan (paritas), penggunaan kontrasepsi, cairan vagina, dan keadaan leher rahim. Sementara itu prevalensi kejadian kanker serviks semakin meningkat setiap tahunnya. Oleh karena itu penelitian kali ini dilakukan pada data terbaru di RS “X” Surabaya tahun 2007-2010 menggunakan bagging MARS. Pendekatan parametrik mengasumsikan bentuk model sudah ditentukan. Apabila tidak ada informasi apapun tentang bentuk fungsi atau kurva serta tidak tergantung pada asumsi bentuk kurva tertentu, sehingga memberikan fleksibilitas yang lebih besar dan diasumsikan fungsi termuat dalam ruang fungsi berdimensi tak berhingga (Eubank, 1988). Multivariate Adaptive Regression Splines (MARS) merupakan suatu model regresi nonparametrik. Penerapan MARS pada umumnya digunakan untuk menyelesaikan permasalahan untuk respon kontinu dan kategorik. Interaksi antar variabel prediktornya diperhitungkan sehingga dapat menggambarkan keadaan data secara riil, terutama pada data-data kesehatan. Bagging merupakan salah satu bentuk dari bootstrap. Pada metode bootstrap dilakukan dengan pengambilan sampel dengan pengembalian (resampling with replacement) pada sampel data (Efron, 1979). Sementara pada metode bagging dilakukan pengembalian sampel dengan pengembalian pada data set yang berpasangan. Teknik ini diharapkan dapat digunakan untuk memperbaiki akurasi klasifikasi dari metode MARS. Penggunaan metode MARS pernah dilakukan pada penelitian sebelumnya dalam mengklasifikasikan penderita kanker payudara di RS Dr. Soetomo
2. TINJAUAN PUSTAKA Uji Independensi Uji independensi merupakan suatu uji untuk mengetahui hubungan antar variabel respon dan prediktor. Hipotesis yang digunakan adalah sebagai berikut (Agresti, 1990). H0 : Tidak ada hubungan antara variabel Y dan X H1 : Ada hubungan antara variabel Y dan X Statistik uji yang digunakan adalah uji pearson Chi-square berikut. (1) dimana, j = 1,2 Penolakan hipotesis awal apabila . dengan derajat bebas Multivariate Adaptive Regression Splines (MARS) MARS diperkenalkan pertama kali oleh Friedman (1991). MARS merupakan pendekatan untuk regresi nonparametrik dimana melakukan pendekatan regresi yang sesuai untuk pola data yang tidak diketahui bentuk kurva regresinya atau tidak terdapat informasi masa lalu yang lengkap tentang bentuk pola data (Eubank, 1988). Model MARS difokuskan untuk mengatasi permasalahan dimensi yang tinggi dan diskontiouitas pada data. Keuntungan MARS terletak pada kemampuannya untuk memperkirakan kontribusi fungsi basis terhadap variabel respon, dimana tidak hanya dapat menangkap efek adaptif tetapi juga efek interaksi antar prediktor. Teknik MARS menjadi populer karena tidak mengasumsi-kan dan tidak menentukan tipe khusus seperti pada hubungan (linier, kuadratik, kubik) diantara variabel prediktor dan respon (Otok, et al., 2006). Selain itu, proses pembentukan model pada MARS tidak memerlukan asumsi. Beberapa hal yang perlu diperhatikan dalam membangun model MARS yaitu: 1. Knot, dapat didefinisikan sebagai akhir dari sebuah garis regresi (region) dan awal dari sebuah garis regresi (region) yang lain. Di setiap titik knot, diharapkan adanya kontinuitas dari fungsi basis antar satu region dengan region lainnya. Minimum jarak antara knot atau minimum observasi antara knot (MO) sebesar 0, 1, 2, dan 3. 2. Basis Function, yaitu kumpulan dari fungsi yang digunakan untuk menjelaskan hubungan antara 2
variabel respon dan variabel prediktor. Fungsi basis terdiri dari satu atau lebih variabel. Fungsi basis ini merupakan fungsi parametrik yang didefinisikan pada tiap region. Pada umumnya fungsi basis yang dipilih adalah berbentuk polinomial dengan turunan yang kontinu pada setiap titik knot. Maksimum fungsi basis (BF) yang diijinkan adalah 2-4 kali jumlah variabel prediktornya (Friedman, 1991). 3. Interaksi, yaitu cross product antar variabel yang saling berhubungan atau berkorelasi. Jumlah maksimum interaksi (MI) yang diperbolehkan adalah 1, 2 dan 3. Jika lebih dari tiga, model akan sulit untuk diinterpretasi. MARS digunakan untuk mengurangi efek dari outlier pada model yang terakhir. Estimator model MARS menurut Friedman (1991) ditulis dalam persamaan (2). ^
M
Km
m =1
k =1
[
f ( x) = α 0 + ∑ α m ∏ s km .( x v ( k , m ) − t km )
]
+
: d : nilai ketika fungsi basis mencapai optimasi (2 ≤ d ≤ 4). Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi (Johnson dan Wichern, 1992). Ukuran yang digunakan adalah Apparent Error Rate (APER). Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi. Jika subjek hanya diklasifikasikan menjadi dua kelompok yaitu y1 dan y2 maka penentuan kesalahan pengklasifikasian dapat diketahui melalui Tabel 1. Tabel 1 Tabel Klasifikasi Taksiran (Predicted Class) Hasil Observasi (Actual Class) y1 y2
(2)
dimana, α0 = konstanta αm = koefisien dari basis fungsi ke-m M = banyaknya fungsi basis Km = derajat interaksi skm = nilainya 1 atau -1 jika data berada di sebelah kanan atau kiri titik knot. xv(k,m) = variabel independen tkm = nilai knot dari variabel independen xv(k,m)
GCV ( M ) =
ASR = 2 C ( Mˆ ) 1 − n
[y n∑ n
i =1
i
]
2 − fˆ ( xi ,α )
C ( Mˆ ) 1 − n
n11
n12
y2
n21
n22
dengan : n11 : Jumlah subjek sebagai y1 n12 : Jumlah subjek sebagai y2 n21 : Jumlah subjek sebagai y1 n22 : Jumlah subjek sebagai y2
dari y1 tepat diklasifikasikan dari y1 tepat diklasifikasikan dari y2 tepat diklasifikasikan dari y2 tepat diklasifikasikan
Perhitungan besarnya nilai APER adalah sebagai berikut:
Pemilihan knots pada MARS menggunakan algoritma forward dan backward. Pemilihan model dengan menggunakan tahap forward dilakukan untuk mendapatkan jumlah basis fungsi maksimum dengan kriteria pemilihan basis fungsi adalah meminimumkan average sum of square residual (ASR). Kemudian untuk memenuhi konsep persemoni (model sederhana) dilakukan tahap backward yaitu memilih basis fungsi yang dihasikan dari tahap forward dengan meminimumkan nilai Generalized Cross-Validation atau GCV (Friedman dan Silverman, 1989). Bentuk GCV minimum sebagai kriteria untuk menentukan knots ditulis dalam persamaan (3). 1
y1
APER (%) =
n12 + n21 n11 + n12 + n21 + n22
(4)
Bootstrap Aggregating (Bagging) Bagging adalah teknik yang diusulkan oleh Breiman (1994). Bagging banyak digunakan pada metode klasifikasi dan regresi untuk mereduksi variansi estimator. Teknik ini digunakan untuk memperbaiki estimator atau pengklasifikasi yang tidak stabil, khususnya masalah data berdimensi tinggi. Bagging merupakan salah satu bagian dari bootstrap. Perbedaannya pada bagging dilakukan dengan membangkitkan sampel data secara berpasangan. Bagging mampu meningkatkan akurasi klasifikasi. Namun, penelitian Buhlmann dan Yu (2002) menunjukkan bahwa bagging tidak selalu baik untuk menurunkan MSE. Sebuah data set £ i terdiri dari {(Yi , xi ), i = 1,..., n} dilakukan replikasi bootstrap sehingga * * * . Replikasi dilakukan sebanyak B £ i = (Yi , xi ), i = 1,..., n
(3)
2
dimana: n : jumlah data : nilai variabel respon : nilai taksiran variabel respon pada M fungsi basis
kali sehingga didapatkan {£ i(B) } . Algoritma bagging adalah sebagai berikut.
: 3
1. Mengambil sampel bootstrap sebanyak n dari data set £ i dengan pengulangan sebanyak n. 2. Memodelkan MARS dari data set hasil sampel bootstrap £ i(B) . 3. Mendapatkan nilai ketepatan klasifikasi pada setiap pengambilan sampel B replikasi bootstrap. Kesalahan klasifikasi pada langkah ini disebut . 4. Ulangi langkah (1-3) sebanyak B kali (replikasi bootstrap). Mendapatkan ketepatan klasifikasi bagging dari ratarata ketepatan klasifikasi pada setiap pengambilan sampel sampai B. Sehingga kesalahan klasifikasi bagging untuk replikasi B kali adalah .
1. Dokter atau perawat praktisi tidak mengambil sampel yang memadai, proses di laboratorium yang tidak baik, pembacaan yang tidak baik karena pewarnaan yang tebal atau kotor sehingga sensitivitas pemeriksaan yang rendah. 2. Waktu pengambilan sampel sel yang dekat dengan menstruasi seringkali menyebabkan gangguan pada saat dibaca, sel-sel endometrium disalahtafsirkan sebagai sel serviks yang abnormal. 3. Jika sedang hamil atau mengonsumsi pil KB yang membawa perubahan hormon dapat mempengaruhi kualitas Pap test. Ulangi tes dalam jangka waktu tiga bulan. Ini merupakan waktu minimum yang dibutuhkan untuk menggantikan sel-sel baru pada serviks.
Deteksi Dini Kanker Serviks Leher rahim atau serviks merupakan bagian dari sistem reproduksi wanita. Serviks adalah organ yang menghubungkan rahim dengan vagina. Peristiwa kanker serviks diawali dari sel serviks normal yang terinfeksi oleh Human Papillomavirus (HPV). Infeksi HPV umumnya terjadi setelah wanita melakukan hubungan seksual. HPV memiliki lebih dari 100 tipe, dimana sebagian besar diantaranya tidak berbahaya dan akan lenyap dengan sendirinya. Jenis HPV yang agresif adalah HPV 16 dan 18 yang dapat menyebabkan transformasi sel-sel menjadi ganas di serviks sehingga merupakan penyebab tersering kanker serviks yang terjadi di seluruh dunia (Wijaya, 2010). Kanker serviks dapat dicegah. Tahap awal dan kondisi pra-kanker serviks hampir 100% dapat disembuhkan. Bentuk yang paling umum kanker seviks dimulai dengan perubahan dalam sel-sel serviks. Jika perubahan ini dideteksi cukup dini, pengobatan dapat dimulai segera mungkin untuk mencegah kanker serviks berkembang. Ada dua pencegahan yang dapat dilakukan yaitu pencegahan primer dan sekunder. Pencegahan primer adalah pencegahan faktor penyebab kanker serviks. Pencegahan primer dilakukan dengan cara menghindari faktor-faktor yang menyebabkan infeksi HPV dan melakukan vaksin HPV. Sedangkan pencegahan sekunder adalah menemukan lesi prakanker dan mengobatinya agar tidak berkembang menjadi kanker serviks. Pencegahan sekunder dapat dilakukan melalui skrining (deteksi dini). Metode skrining yang lazim digunakan adalah tes Pap test. Pemeriksaan dilakukan dengan mengambil cairan yang mengandung sel-sel dinding leher rahim menggunakan spatula atau sikat khusus. Sel-sel diletakkan pada gelas obyek atau slide kemudian dilakukan pengecekan laboratorium patologi. Pap test konvensional bila dilakukan dengan prosedur yang sangat baik akurasinya antara 76% sampai 94 %. Pap Smear liquid base akurasinya mencapai 99%. Ada beberapa sebab yang menyebabkan hasil tes tidak akurat yaitu (Nurwijaya, 2010):
3.
METODOLOGI PENELITIAN Data yang digunakan dalam penelitian ini adalah data sekunder yang diperoleh dari RS “X” Surabaya. Data tersebut merupakan data anamesa Bagian Pengembangan RS “X” Surabaya tahun 2007-2010. Data mengenai hasil Pap test pasien dan faktor-faktor yang diduga mempengaruhi penyakit kanker serviks. Sampel yang digunakan sebanyak 2282 pasien. Hasil Pap test menjelaskan bahwa sebanyak 997 pasien normal dan 1285 abnormal. Variabel yang digunakan dalam penelitian ini berdasarkan pihak rumah sakit dan penelitian sebelumnya yaitu penelitian yang dilakukan oleh Nurdim (2006), Melva (2008), dan Setyarini (2009). Variabel penelitian disajikan pada Tabel 2. Tabel 2. Variabel Penelitian Variabel Definisi Operasional Variabel respon: Y Hasil Pap 1. Normal (1) test 2. Abnormal (2) Kode
Variabel prediktor: X1 Usia
4
Skala Pengukuran Nominal
Usia pasien
Rasio
X2
Penggunaan kontrasepsi
1. Tidak menggunakan kontrasepsi (1) 2. Menggunakan kontrasepsi (2)
Nominal
X3
Frekuensi melahirkan
1. Pernah melahirkan ≤ 2 anak (1) 2. Pernah melahirkan > 2 anak (2)
Nominal
X4
Usia menstruasi pertama
Usia pertama kali mengalami menstruasi
Rasio
X5
Siklus menstruasi
1. Teratur (1) 2. Tidak teratur (2)
Nominal
X6
Riwayat keguguran
1. Tidak pernah keguguran (1) 2. Pernah keguguran (2)
Nominal
i. Menginterpretasikan tingkat kontribusi variabel prediktor yang mempunyai kepentingan dalam pengelompokan variabel respon. 3. Untuk mencapai tujuan ketiga dilakukan prediksi klasifikasi dari masing-masing kelompok dari model MARS yang telah diperoleh sehingga dapat diketahui besar kesalahan klasifikasi pasien hasil Pap test.
Tahapan analisis yang dilakukan pada penelitian ini adalah sebagai berikut. 1. Untuk mencapai tujuan pertama dilakukan statistik deskriptif dengan SPSS 16.0 untuk mengetahui karakteristik pasien hasil Pap Test penyakit kanker serviks. Melakukan uji chi-square untuk mengetahui hubungan antara variabel hasil Pap test dan masing-masing variabel prediktor menggunakan Minitab 16. 2. Untuk menjawab tujuan kedua dilakukan analisis bagging MARS. Pembentukan model MARS menggunakan MARS 2.0 dan bootstrap menggunakan macro minitab. Langkah-langkah analisis yang dilakukan sebagai berikut. a. Pembentukan model MARS terbaik dengan mengkombinasikan besarnya Basis Function (BF), Maximum Interaction (MI), dan Minimum Observation (MO). Langkah yang dilakukan dengan menentukan maksimum fungsi basis (Max-BF), yaitu 2 sampai 4 kali jumlah prediktor yang akan digunakan, menentukan jumlah interaksi maksimum (Max-I) yaitu 1,2 dan 3, dengan asumsi bahwa jika MI > 3 akan menghasilkan model yang semakin kompleks, dan menentukan minimal jumlah pengamatan setiap knots (MO) yaitu 0, 1,2 dan 3. b. Menetapkan model terbaik dengan didasarkan pada nilai GCV terkecil. c. Mendapatkan variabel-variabel yang berpengaruh signifikan dalam model MARS terbaik untuk data set awal. d. Melakukan bagging dari pasangan variabel respon dan variabel prediktor yang signifikan dari model MARS terbaik untuk data set awal dengan 50, 100, 150, dan 200 kali replikasi bootstrap. e. Melakukan pemodelan MARS pada setiap pengambilan sampel B replikasi bootstrap dengan kombinasi BF, MI, dan MO yang sama dengan kombinasi BF, MI, dan MO pada model MARS terbaik untuk data set awal. f. Mendapatkan nilai ketepatan klasifikasi pada setiap pengambilan sampel B replikasi bootstrap. Kesalahan klasifikasi pada langkah ini disebut . g. Mendapatkan ketepatan klasifikasi bagging dari rata-rata ketepatan klasifikasi pada setiap pengambilan sampel sampai B. Sehingga kesalahan klasifikasi bagging untuk replikasi B kali adalah . h. Model bagging MARS yang didapatkan adalah model MARS terbaik untuk data set awal. Hal ini dikarenakan nilai knot yang berubah-ubah untuk setiap replikasi sehingga estimasi parameternya tidak bisa dirata-rata.
4.
HASIL DAN PEMBAHASAN Statistik deskriptif digunakan untuk mendeskripsikan atau menggambarkan obyek penelitian yang diambil dari sampel maupun populasi sehingga menghasilkan informasi yang berguna. Dalam laporan ini, statistik deskriptif bermanfaat untuk mengetahui karakteristik pasien yang melakukan Pap test di RS ”X” Surabaya tahun 20072010. Karakteristik pasien menurut faktor risiko penyakit kanker serviks yaitu usia pasien, penggunaan kontrasepsi, frekuensi melahirkan, usia menstruasi pertama, siklus menstruasi, dan riwayat keguguran. Data sampel jumlah pasien yang melakukan Pap test sebanyak 2282 orang. Tabel 3. Jumlah Sampel dan Proporsi Kelompok Hasil Pap Test Hasil Pap test N p (%) 1. Normal 997 43,69 2. Abnormal 1285 56,31 2282 100 Total
Tabel 3 memberikan informasi mengenai jumlah sampel dan proporsi kelompok pasien hasil Pap test. Hasil Pap test menunjukkan bahwa persentase pasien yang diketahui normal sebesar 43,69%. Sementara jumlah pasien yang diketahui abnormal sebesar 56,31%. Pasien yang datang untuk melakukan Pap test memiliki usia yang beragam. Pasien yang melakukan Pap test di RS “X” Surabaya pada tahun 2007-2010 rata-rata berusia 42 tahun. Rentang usia pasien adalah 66 tahun. Usia paling muda adalah 14 tahun dan paling tua berusia 80 tahun. Hal ini menunjukkan kesadaran pasien untuk melakukan deteksi dini penyakit kanker serviks karena perempuan yang rawan mengidap kanker serviks adalah mereka yang berusia 35-40 tahun dan masih aktif berhubungan seksual (prevalensi 5-10%) (Wijaya, 2010). Sementara usia pasien menurut hasil Pap test disajikan dalam Tabel 4. Tabel 4. Statistik Deskriptif Kelompok Hasil Pap test Menurut Usia Pasien Hasil Pap Test Usia Pasien Normal Abnormal
5
N
997
1285
Minimum
14
24
Maksimum
71
80
Rata-rata
39,18
44,65
Rentang
57
56
normal cenderung pernah melahirkan kurang dari atau sama dengan 2 anak dengan proporsi 67,26%. Jumlah pasien yang diketahui ada sel abnormal menurut usia menstruasi pertama sebanyak 1285 orang. Pasien rata-rata mengalami menstruasi pertama saat berusia 13 tahun dengan rentang usia 11 tahun. Menstruasi pertama paling muda yang dialami pasien adalah saat usia 8 tahun dan paling tua saat usia 19 tahun. Statistik deskriptif usia menstruasi pertama menurut hasil Pap test disajikan dalam Tabel 5.
Jumlah pasien dengan hasil Pap test abnormal sebanyak 1285 orang. Pasien dengan hasil pap test abnormal memiliki usia rata-rata berusia 45 tahun dengan rentang usia 56 tahun. Usia paling muda 24 tahun dan paling tua 80 tahun. Tercatat bahwa dari keseluruhan sampel, Jumlah pasien secara keseluruhan yang tidak menggunakan kontrasepsi sebanyak 944 orang. Sementara jumlah pasien secara keseluruhan yang menggunakan kontrasepsi sebanyak 1338 orang. Jumlah pasien dengan hasil Pap test abnormal yang menggunakan kontrasepsi sebanyak 946 orang dan 339 orang tidak menggunakan kontrasepsi. Visualisasi proporsi setiap kategori penggunaan kontrasepsi disajikan pada Gambar 1. Pasien yang diketahui ada sel abnormal cenderung menggunakan kontrasepsi dengan proporsi 70,70%. Sementara pasien dengan hasil pap test normal cenderung tidak menggunakan kontrasepsi dengan proporsi 64,09%.
pasien (%)
80 70 60 50 40 30 20 10 0
Tabel 5. Statistik Deskriptif Kelompok Hasil Pap Test Menurut Usia Menstruasi Pertama Usia Menstruasi Pertama N
70.70% 64.09%
Normal Abnormal
Menggunakan kontrasepsi
Gambar 1. Proporsi Kelompok Hasil Pap Test Menurut Penggunaan Kontrasepsi
pasien (%)
Jumlah pasien secara keseluruhan dengan karakteristik pernah melahirkan kurang dari atau sama dengan 2 anak sebanyak 1072 orang. Sementara jumlah pasien secara keseluruhan yang pernah melahirkan lebih dari 2 anak sebanyak 1210 orang. Proporsi kelompok hasil Pap test menurut frekuensi melahirkan disajikan dalam Gambar 2.
pasien (%)
77.19% 80 70 60 50 40 30 20 10 0
67.26%
≤ 2 anak
Abnormal
997
1285
Minimum
9
8
Maksimum
18
19
Rata-rata
12,87
12,95
Rentang
9
11
80 70 60 50 40 30 20 10 0
70.11% 52.87% 47.13% 29.89%
Normal Abnormal
Teratur 32.74% 22.81%
Normal
Jumlah pasien secara keseluruhan dengan karakteristik siklus menstruasi yang teratur sebanyak 1827 orang. Sementara jumlah pasien secara keseluruhan dengan siklus menstruasi tidak teratur sebanyak 455 orang. Proporsi kelompok hasil Pap test pasien menurut siklus menstruasi disajikan dalam Gambar 3. Pasien yang diketahui ada sel abnormal cenderung memiliki siklus menstruasi yang tidak teratur dengan proporsi 70,11%. Sementara pasien dengan hasil pap test normal cenderung memiliki siklus menstruasi yang teratur dengan proporsi 47,13%.
35.91% 29.30%
Tidak menggunakan kontrasepsi
Hasil Pap Test
Tidak teratur
Gambar 3. Proporsi Kelompok Hasil Pap Test Menurut Siklus Menstruasi
Normal
Jumlah pasien secara keseluruhan yang pernah mengalami keguguran sebanyak 833 orang. Sementara jumlah pasien secara keseluruhan yang tidak pernah mengalami keguguran sebanyak 1449 orang. Proporsi kelompok hasil pap test menurut riwayat keguguran disajikan dalam Gambar 4. Pasien yang diketahui ada sel abnormal cenderung pernah mengalami keguguran dengan proporsi 74,91%. Sementara pasien dengan hasil pap test normal cenderung tidak pernah mengalami keguguran dengan proporsi 54,38%.
Abnormal
>2anak
Gambar 2. Proporsi Kelompok Hasil Pap Test Menurut Frekuensi Melahirkan
Pasien dengan ada sel abnormal cenderung pernah melahirkan lebih dari 2 anak dengan proporsi 77,19%. Sementara pasien dengan hasil pap test 6
pasien (%)
80 70 60 50 40 30 20 10 0
74.91% 54.38% 45.62%
;
25.09%
;
Normal Abnormal
Tidak pernah keguguran
. Penjelasan basis fungsi pada persamaan (4.1) yaitu:
Pernah keguguran
dimana, X3=1, jika pasien dengan frekuensi melahirkan≤ 2 anak. X3=2, jika pasien dengan frekuensi melahirkan > 2 anak. Artinya koefisien akan bermakna jika nilai = 1, maka koefisien tidak tetapi jika nilai bermakna sehingga nilainya adalah 0.
Gambar 4. Proporsi Kelompok Hasil Pap Test Menurut Riwayat Keguguran
Hubungan hasil Pap test dan masing-masing faktor risiko kanker serviks dapat dilihat dari tabulasi silang. Uji chi-square digunakan untuk mengetahui hubungan antara variabel respon dan prediktor. Uji chi-square antara hasil Pap test dan masing-masing faktor risiko kanker serviks disajikan dalam Tabel 6. Langkah uji chi-square sebagai berikut. H0: Tidak ada hubungan variabel Y dan variabel X H1: Ada hubungan variabel Y dan variabel X α = 0,05 Daerah kritis: Tolak H0 jika > 3,84
dimana, X2=1, jika pasien yang tidak menggunakan kontrasepsi. X2=2, jika pasien yang menggunakan kontrasepsi. akan bermakna jika nilai = 1, Artinya koefisien tetapi jika nilai maka koefisien tidak bermakna sehingga nilainya adalah 0.
Tabel 6. Uji Chi-square Variabel Prediktor dan Respon Variabel Variabel Keputusan respon prediktor X2 272,33 3,84 Tolak H0 X3 456,45 3,84 Tolak H0 Y X5 43,99 3,84 Tolak H0 X6 184,47 3,84 Tolak H0
dimana, X5=1, jika pasien dengan siklus menstruasi yang teratur. X5=2, jika pasien dengan siklus menstruasi yang tidak teratur. Artinya koefisien akan bermakna jika nilai = 1, maka koefisien tidak tetapi jika nilai bermakna sehingga nilainya adalah 0.
Pada Tabel 6 diketahui bahwa keputusan untuk masing-masing varibel prediktor dan respon adalah tolak H0. Hal ini menunjukkan bahwa ada hubungan antara hasil pap test dengan masing-masing variabel prediktor. Variabel prediktor tersebut antara lain penggunaan kontarsepsi (X2), frekuensi melahirkan (X3), siklus menstruasi (X5), dan riwayat keguguran (X6). Setelah dilakukan trial and error maka didapatkan model MARS terbaik dengan mengkombinasikan nilai BF=24, MI=3, dan MO=0, dimana memiliki nilai GCV minimum sebesar 0,1234. Model MARS terbaik sebagai berikut.
dimana, X4 > 12, jika pasien mengalami menstruasi pertama saat usia lebih dari 12 tahun. X4 ≤ 12, jika pasien mengalami menstruasi pertama saat usia kurang dari atau sama dengan 12 tahun. Artinya koefisien akan bermakna jika nilai > maka koefisien tidak 12, tetapi jika nilai bermakna sehingga nilainya adalah 0.
(5) dengan, ; ; ; ; 7
dimana, X1 > 44 , jika pasien berusia lebih dari 44 tahun. X1 ≤ 44, jika pasien berusia kurang dari atau sama dengan 44 tahun. Artinya koefisien akan bermakna jika nilai >44, tetapi jika nilai maka koefisien tidak bermakna sehingga nilainya adalah 0. dimana, X3=2, jika pasien dengan frekuensi melahirkan > 2 anak dan X6=2 , jika pasien pernah mengalami keguguran. X3=1, jika pasien dengan frekuensi melahirkan≤ 2 anak dan X6=1 , jika pasien tidak pernah mengalami keguguran. Artinya koefisien akan bermakna jika nilai =2 dan maka dan =2, tetapi jika nilai koefisien tidak bermakna sehingga nilainya adalah 0.
dimana, X4 > 11, jika pasien mengalami menstruasi pertama saat usia lebih dari 11 tahun. X4 ≤ 11, jika pasien mengalami menstruasi pertama saat usia kurang dari atau sama dengan 11 tahun. Artinya koefisien akan bermakna jika nilai >11, tetapi jika nilai maka koefisien tidak bermakna sehingga nilainya adalah 0.
dimana, X5=1, jika pasien dengan siklus menstruasi yang teratur; X3=2 , jika pasien dengan frekuensi melahirkan > 2 anak dan X6=2 , jika pasien pernah mengalami keguguran. X5=2, jika pasien dengan siklus menstruasi yang tidak teratur; X3=1 , jika pasien dengan frekuensi melahirkan ≤ 2 anak dan X6=1 , jika pasien tidak pernah mengalami keguguran. Artinya koefisien akan bermakna jika nilai =1 , dan , =2, dan =2 tetapi jika nilai maka koefisien tidak bermakna sehingga nilainya adalah 0.
dimana, X1 > 59, jika pasien berusia lebih dari 59 tahun dan X5=2 , jika pasien dengan siklus menstruasi yang tidak teratur. X1 ≤ 59, jika pasien berusia kurang dari atau sama dengan 59 tahun dan X5=1 , jika pasien dengan siklus menstruasi yang teratur. Artinya koefisien akan bermakna jika nilai >59 dan =2, tetapi jika nilai dan tidak bermakna sehingga nilainya maka koefisien adalah 0.
dimana, X3=1, jika pasien dengan frekuensi melahirkan≤ 2 anak dan X6=2 , jika pasien pernah mengalami keguguran. X3=2, jika pasien dengan frekuensi melahirkan > 2 anak dan X6=1 , jika pasien tidak pernah mengalami keguguran. Artinya koefisien akan bermakna jika nilai =1 dan =2, tetapi jika nilai dan maka koefisien tidak bermakna sehingga nilainya adalah 0.
dimana, X1 > 45, jika pasien berusia lebih dari 45 tahun dan X2=1 , jika pasien yang tidak menggunakan kontrasepsi. X1 ≤ 45, jika pasien berusia kurang dari atau sama dengan 45 tahun dan X2=2 , jika pasien yang menggunakan kontrasepsi. Artinya koefisien akan bermakna jika nilai >45 dan =1, tetapi jika nilai dan maka koefisien tidak bermakna sehingga nilainya adalah 0. 8
menurunkan kesalahan klasifikasi dari model data set awal. Replikasi Bootstrap 50 kali 100 kali 150 kali 200 kali
dimana, X1 < 45, jika pasien berusia kurang dari 45 tahun dan X2=1, jika pasien yang tidak menggunakan kontrasepsi. X1 ≥ 45, jika pasien berusia lebih dari atau sama dengan 45 tahun dan X2=2, jika pasien yang menggunakan kontrasepsi. Artinya koefisien akan bermakna jika nilai < 45 dan =1, tetapi jika nilai dan maka koefisien tidak bermakna sehingga nilainya adalah 0. Kontribusi dari masing-masing variabel prediktor terhadap dalam fungsi pengelompokkan disajikan dalam Tabel 7. Fungsi yang diperoleh menunjukkan bahwa variabel pembeda yang mempengaruhi dalam pengelompokkan dari tingkat kepentingan tertinggi hingga terendah adalah variabel frekuensi melahirkan (X3), penggunaan kontrasepsi (X2), riwayat keguguran (X6), siklus menstruasi (X5), usia menstruasi pertama (X4), dan variabel usia pasien (X1).
Tabel 8. Hasil bagging MARS Rata-rata ketepatan klasifikasi 76,61% 23.39% 77,32% 22.68% 77,51% 22.49% 76,85% 23.15%
20.33% 20.33% 20.33% 20.33%
Estimasi parameter model bagging merupakan nilai rata-rata estimasi parameter B kali replikasi bootstrap. Namun, karena nilai knots untuk model MARS pada setiap replikasi bootstrap berubah-ubah maka untuk estimasi parameternya tidak bisa diratarata. Sehingga model untuk bagging MARS tidak ada. Bagging hanya digunakan untuk menurunkan kesalahan klasifikasi dari data set awal. Model yang digunakan untuk keperluan klasifikasi adalah model MARS terbaik yaitu model dengan kombinasi BF=24, MI=3, dan MO=0. Prosedur yang digunakan untuk mengevaluasi masalah klasifikasi adalah dengan menggunakan APER (Apparent Error Rate). APER digunakan untuk menghitung seberapa besar peluang kesalahan dalam klasifikasi pasien hasil Pap test. Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi. Kesalahan klasifikasi disajikan dalam Tabel 9. Tabel 9. Kesalahan Klasifikasi Pasien Hasil Pap Test RS “X” Surabaya tahun 2007-2010 Prediksi kelas Total Kelas Aktual Aktual 1 2 835 162 997 1 302 983 1285 2 1137 1145 2282 Total Prediksi
Tabel 7. Tingkat Kepentingan Variabel Prediktor Variabel Tingkat Kepentingan X3 100% X2 70,996% X6 65,972% X5 63,879% X4 46,733% X1 32,456%
Pengelompokan pasien hasil Pap test penyakit kanker serviks menjadi dua yaitu pasien dengan hasil pap test normal (1) dan pasien dengan hasil pap test abnormal (2). Tabel 9 menunjukkan kesalahan hasil klasifikasi pasien hasil Pap test dari model MARS. Secara keseluruhan kesalahan klasifikasi untuk pasien hasil Pap test RS “X” Surabaya tahun 2007-2010 sebesar 20,33% dan sisanya 79,67% kelompok hasil pap test terklasifikasi sesuai dengan data asli.
Model MARS terbaik ditunjukkan pada persamaan (5). Pasangan variabel respon dan prediktor yang signifikan tersebut akan dilakukan replikasi bootstrap. Replikasi dilakukan sebanyak 50, 100, 150, dan 200 kali. Pada setiap pengambilan sampel dilakukan pemodelan MARS dengan kombinasi jumlah BF, MI, dan MO yang sama dengan jumlah BF, MI, dan MO pada model MARS terbaik data set awal. Kombinasi yang digunakan yaitu BF=24, MI=3, dan MO=0, sehingga didapatkan sebanyak B kesalahan klasifikasi dalam B replikasi bootstrap ( . Selanjutnya kesalahan klasifikasi tersebut dirata-rata sehingga menghasilkan kesalahan klasifikasi bagging MARS untuk replikasi B kali ( ). Tabel 8 memberikan informasi bahwa pada 50 sampai 200 kali replikasi masing-masing tidak memiliki kesalahan klasifikasi bagging ( ) yang lebih kecil dari kesalahan klasifikasi model MARS terbaik ( . Hal ini menunjukkan bahwa pada kasus klasifikasi pasien hasil Pap test ini bagging tidak selalu dapat
5.
KESIMPULAN DAN SARAN Berdasarkan pembahasan hasil penelitian yang telah dilakukan maka didapatkan kesimpulan hasil Pap test menunjukkan bahwa dari 2282 orang terdapat 43,69% pasien dengan hasil normal dan 56,31% pasien dengan hasil abnormal. Pasien yang melakukan Pap test rata-rata berusia 42 tahun. Sebanyak 1338 pasien menggunakan kontrasepsi dan 70,70% pasien dengan dengan hasil abnormal menggunakan kontrasepsi. Pasien yang pernah melahirkan lebih dari dua orang anak sebanyak 1210 orang dan 77,19% pasien dengan hasil abnormal pernah melahirkan lebih
9
berkonsultasi dengan dokter ahli dalam menggunakan variabel faktor risiko kanker serviks, dan bagi wanita yang sudah menikah dan atau berusia diatas 35 tahun sebaiknya melakukan Pap test secara rutin dan memberikan informasi yang akurat ketika pengisian pada formulir data pasien.
dari dua orang anak. Menstruasi pertama rata-rata dialami pasien saat berusia 13 tahun. Sementara sebanyak 1827 orang mengalami siklus menstruasi yang teratur dan sebesar 52,87% pasien dengan hasil abnormal memiliki siklus menstruasi yang teratur. Sebanyak 1449 orang tidak pernah mengalami keguguran dan 54,38% pasien dengan hasil normal memiliki riwayat tidak pernah mengalami keguguran. Analisis chi-square menunjukkan ada hubungan antara hasil Pap test dengan masing-masing variabel prediktor yaitu penggunaan kontarsepsi (X2), frekuensi melahirkan (X3), siklus menstruasi (X5), dan riwayat keguguran (X6). Bagging MARS dengan 50 sampai 200 kali replikasi masing-masing tidak memiliki kesalahan klasifikasi yang lebih kecil dari kesalahan klasifikasi model MARS terbaik. Hal ini menunjukkan bahwa pada kasus klasifikasi pasien hasil Pap test ini bagging tidak selalu dapat menurunkan kesalahan klasifikasi dari model data set awal. Model yang digunakan adalah model MARS terbaik untuk klasifikasi pasien hasil Pap test penyakit kanker serviks di RS “X” Surabaya diperoleh dari kombinasi BF=24, MI=3, dan MO=0. Model MARS terbaik:
6.
DAFTAR PUSTAKA
Agresti, A. (1990). Categorical Data Analysis. John Willey and Sons, New York. Buhlman, P., Yu, B. (2002). Analyzing Bagging, The Annals of Statistics, Vol. 30 no. 4, hal 927-961. Cox, D.R., Snell, E.J. (1989). Analysis of Binary Data. Second Edition, Chapman & Hall, London. Efron, B., Tibshirani, R.J. (1993). An Introduction to the Bootstrap. Chapman Hall, New York. Eubank, R. L. (1988). Spline Smoothing and Nonparametric Regression. Marcel Deker, New York. Friedman, J.H. (1991). Multivariate Adaptive Regression Splines. The Annals of Statistics, Vol. 19 No. 1. Friedman, J.H., Silverman, B.W. (1989). Flexible Parsimony Smoothing and Additive Modelling. Technometrics, 31.
dengan,
Johnson, R.A., Wichern, D.W. (1992). Applied Multivariate Statistical Analysis. Prentice Hall, New Jersey.
; ;
Kartini, A.Y. (2008). Permodelan Multivariate Adaptive Regression Splines (MARS) untuk Klasifikasi Penderita Kanker Payudara (Studi Kasus di RSU DR. Soetomo Surabaya). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya. Kessek, H. (2010). Tiap Satu Jam Perempuan Indonesia Meninggal Akibat Kanker Serviks, http://bataviase.co.id/node/86897, [diakses pada tanggal 30 September 2010]. Kurniasari, Y.D. (2011). Permodelan Angka Kejadian Penyakit Kaki Gajah (Filariasis) di Kabupaten Aceh Timur Menggunakan Multivariate Adaptive Regression Splines (MARS). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya. Melva. (2008). Faktor-faktor yang Mempengaruhi Kejadian Kanker Leher Rahim Pada Penderita Yang Datang Berobat Di RSUP H. Adam Malik Medan. Tesis, Universitas Sumatera Utara, Medan. Nurdim, F.I. (2006). Klasifikasi Pasien Hasil Pap Test Penyakit Kanker Leher Rahim dengan Metode Multivariate Adaptive Regression splines
; ;
; ;
Fungsi yang diperoleh menunjukkan bahwa variabel pembeda yang mempengaruhi dalam pengelompokkan dari tingkat kepentingan tertinggi hingga terendah adalah variabel frekuensi melahirkan (X3), penggunaan kontrasepsi (X2), riwayat keguguran (X6), siklus menstruasi (X5), usia menstruasi pertama (X4), dan variabel usia pasien (X1). Kesalahan klasifikasi untuk pasien hasil Pap test RS “X” Surabaya tahun 2007-2010 sebesar 20,33% dan sisanya 79,67% kelompok hasil pap test terklasifikasi sesuai dengan data asli. Saran untuk penelitian selanjutnya sebaiknya penggunaan metode MARS dibandingkan dengan metode lainnya seperti regresi logistik sehingga dapat diketahui keunggulan dari metode yang digunakan, 10
(MARS). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya. Nurwijaya, H., Andrijono, Suheimi, H.K., (2010). Cegah dan Deteksi Kanker Serviks. Gramedia, Jakarta. Otok, B.W., Guritno, S., Subanar, Haryatmi, S. (2006). Bootstrap dalam MARS untuk Klasifikasi Perbankan. Inferensi Jurnal Statistika, Volume 2, No. 1. FMIPA ITS Surabaya. Otok, B.W. (2008). M.A.R.S (Multivariate Adaptive Regression Spline). Komputasi Statistik, Surabaya. Setiawan, A. (2010). Kanker Serviks Penyebab Utama Kematian, http://kesehatan.kompas.com/read/ 2010/05/07/08042334/Kanker.Serviks.Penyebab. Utama.Kematian.htm, [diakses pada tanggal 30 September 2010]. Setyarini, E. (2009). Faktor-faktor yang Berhubungan Dengan Kejadian Kanker Leher Rahim Di RSUD Dr. Moewardi Surakarta. Skripsi, Jurusan Kesehatan Masyarakat Universitas Muhammadiyah Surakarta, Surakarta. Wijaya, D. (2010). Pembunuh Ganas Itu Bernama Kanker Serviks. Sinar Kejora, Yogyakarta.
11