PENERAPAN POHON KLASIFIKASI DAN BOOTSTRAP AGGREGATING DALAM KLASIFIKASI USIA MENARCHE (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga)
IIS ISTIQOMAH
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan Pohon Klasifikasi dan Bootstrap Aggregating dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga) benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2015 Iis Istiqomah NIM G14110032
ABSTRAK IIS ISTIQOMAH. Penerapan Pohon Klasifikasi dan Bootstrap Aggregating dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga). Dibimbing oleh ANIK DJURAIDAH dan AGUS MOHAMAD SOLEH. Menarche adalah menstruasi pertama bagi remaja putri. Menarche cepat merupakan salah satu penyebab wanita terkena kanker payudara sedangkan menarche terlambat merupakan salah satu penyebab osteoporosis. Penelitian ini bertujuan menentukan faktor-faktor yang memengaruhi usia menarche remaja putri di SMPN Ragunan dan SMPN 1 Dramaga. Peubah respons yang digunakan yaitu kategori usia menarche (cepat, ideal, dan lambat). Metode analisis yang digunakan adalah Classification and Regression Trees (CART) dan bootsrap aggregating (bagging). CART menghasilkan pohon klasifikasi tunggal sedangkan bagging menghasilkan pohon agregat untuk meningkatkan akurasi pendugaan pohon klasifikasi tunggal. Peubah-peubah penting yang memengaruhi usia menarche pada pohon klasifikasi tunggal secara berurutan adalah jenis sekolah, asupan protein, asupan kalsium, dan asupan lemak. Sementara itu, pada pohon agregat urutannya adalah jenis sekolah, asupan kalsium, asupan protein, dan asupan lemak. Pohon agregat dengan berbagai versi replikasi memberikan ketepatan klasifikasi yang lebih baik dibandingkan pohon klasifikasi tunggal. Selain itu, hasil validasi silang lipat 5 menunjukkan bahwa ketepatan klasifikasi pohon agregat dengan 100 replikasi lebih baik dibandingkan dengan pohon klasifikasi tunggal. Pada penelitian ini, bagging mampu meningkatkan ketepatan klasifikasi pohon tunggal dari 60.00% menjadi 62.50%. Kata kunci: bootstrap aggregating (bagging), Classification and Regression Trees (CART), menarche, validasi silang
ABSTRACT IIS ISTIQOMAH. Application of Classification Trees and Bootstrap Aggregating in Menarche Age Classification (Case Study: Ragunan Junior High School and Dramaga 1 Junior High School). Supervised by ANIK DJURAIDAH and AGUS MOHAMAD SOLEH. Menarche is the first menstruation for girls. Early menarche is one of the causes of breast cancer. Meanwhile, late menarche is one of the causes of osteoporosis. This research aims to determine the factors that affect menarche age at Ragunan Junior High School and Dramaga 1 Junior High School. The response variable is the category of menarche age (early, ideal, and late). The analytical methods are Classification and Regression Trees (CART) and bootstrap aggregating (bagging). CART generates a single classification tree while bagging generates an aggregat classification tree to improve prediction accuracy of a single tree. The important variables affecting menarche age on single classification tree consecutively are type of school, protein consumption, calcium consumption, and fat consumption. While on the aggregat tree, consecutively, the important variables are type of school, calcium consumption, protein consumption, and fat consumption. The aggregat tree with different versions of replication give better classification accuracy than single classification tree. In addition, cross validation 5 fold of bagging with 100 replication shows the classification accuracy of bagging is better than single classification tree. In this research, bagging can improve classification accuracy of the single tree from 60.00% to 62.50%. Keywords: bootstrap aggregating (bagging), Classification and Regression Trees (CART), cross validation, menarche
PENERAPAN POHON KLASIFIKASI DAN BOOTSTRAP AGGREGATING DALAM KLASIFIKASI USIA MENARCHE (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga)
IIS ISTIQOMAH
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015
Judul Skripsi: Penerapan Pohon Klasifikasi dan Bootstrap Aggregating dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga) Nama
: lis Istiqomah
NIM
: G14110032
Disetujui oleh
Dr Ir Anik Djuraidah. MS
A
Pembimbing I
I
Tanggal Lulus:
0 3 JUN 2015
PRAKATA Puji syukur penulis panjatkan kepada Allah subhanahu wa taβala atas segala limpahan rahmat dan karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul karya ilmiah yang dipilih ialah βPenerapan Pohon Klasifikasi dan Bootstrap Aggregating (Bagging) dalam Klasifikasi Usia Menarche (Studi Kasus: SMPN Ragunan dan SMPN 1 Dramaga). Penulis mengucapkan terima kasih kepada semua pihak yang berperan dalam membantu penyusunan karya ilmiah ini, antara lain: 1. Ibu Dr Ir Anik Djuraidah, MS dan Bapak Agus Mohamad Soleh, SSi MT selaku dosen pembimbing, 2. Ibu Dian Kusumaningrum, MSi selaku penguji luar, 3. Ayah, ibu, serta seluruh keluarga atas segala doa dan kasih sayangnya, 4. Sry Novi Yanti Sofya yang telah mengizinkan saya menggunakan data penelitiannya, dan 5. Rekan-rekan Statistika Institut Pertanian Bogor angkatan 48 atas kebersamaan dan dukungannya selama ini. Penulis menyadari masih terdapat kekurangan dalam penyusunan karya ilmiah ini sehingga penulis mengharapkan saran dan kritik yang bersifat membangun dari pembaca untuk kesempurnaan karya ilmiah. Semoga karya ilmiah ini bisa bermanfaat bagi kita semua.
Bogor, Juni 2015 Iis Istiqomah
DAFTAR ISI DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
vi
PENDAHULUAN
vi
Latar Belakang
1
Tujuan Penelitian
2
METODOLOGI
2
Sumber Data
2
Prosedur Analisis Data
3
HASIL DAN PEMBAHASAN
5
Deskripsi Data
5
Pohon Klasifikasi
6
Pembentukan Pohon Klasifikasi Optimum
6
Faktor-faktor yang Memengaruhi Usia Menarche
8
Pengaruh Batas Kategori Usia Menarche terhadap Ketepatan Klasifikasi
9
Bootstrap Aggregating (Bagging)
10
SIMPULAN
11
DAFTAR PUSTAKA
11
DAFTAR LAMPIRAN
12
RIWAYAT HIDUP
14
DAFTAR TABEL 1 2 3 4 5
Peubah penjelas dalam penelitian Hubungan antara banyaknya simpul terminal dan nilai relatif Persentase ketepatan klasifikasi data Persentase ketepatan klasifikasi pengkategorian baru Nilai relatif dan ketepatan klasifikasi pada setiap replikasi bagging
2 7 7 9 10
DAFTAR GAMBAR 1 2 3 4
Sebaran frekuensi usia menarche Sebaran frekuensi peubah penjelas pada setiap kategori Pohon klasifikasi optimum Diagram kotak-garis skor kepentingan peubah penjelas pada pohon agregat 100 replikasi
5 6 8 10
DAFTAR LAMPIRAN 1 Pohon klasifikasi maksimal CART 2 Skor kepentingan peubah penjelas pada pohon klasifikasi tunggal CART 3 Aturan pengklasifikasian (rules) pohon agregat bagging dengan 100 replikasi pada pohon ke-1, 2, 3, 98, 99, dan 100
12 12 13
PENDAHULUAN Latar Belakang Masa remaja merupakan masa transisi menuju dewasa yang terjadi pada usia 9 sampai 18 tahun. Sebelum memasuki masa remaja, seseorang akan mengalami periode pubertas terlebih dahulu. Tarwoto et al. (2010) dalam Safitri et al. (2014) menyatakan bahwa pada periode pubertas ini, seseorang mengalami percepatan pertumbuhan dan perkembangan fisik serta kematangan organ reproduksi seksual. Pada wanita, masa pubertas ditandai oleh pertumbuhan fisik yang cepat, menarche, perubahan psikologis, dan timbulnya ciri-ciri kelamin sekunder. Menarche adalah suatu periode menstruasi pertama bagi remaja putri. Menarche dianggap sebagai peristiwa yang penting karena menjadi puncak dari serangkaian perubahan remaja putri pada masa pubertas. Tingkat usia menarche di Indonesia sangat bervariasi antara 10-16 tahun dengan rata-rata 12 tahun. Saat ini usia rata-rata menarche di Indonesia lebih cepat 0.145 tahun tiap dekade dan menempati urutan ke-15 dari 67 negara dengan usia menarche cepat (Hendrawati & Glinka 2003). Bagga dan Kulkarni (2000) membagi usia menarche menjadi tiga kategori yaitu kategori cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (β₯ 14 tahun). Rosenthal (2009) dalam Safitri et al. (2014) mengemukakan bahwa menarche yang terlalu cepat merupakan faktor risiko wanita terkena kanker payudara, obesitas abdominal, resistensi insulin, risiko penyakit kardiovaskular, dan hipertensi sedangkan menarche yang terlambat merupakan salah satu penyebab osteoporosis. Oleh karena itu, menarche ideal merupakan hal yang penting untuk diperhatikan. Cepat dan lambatnya usia menarche dipengaruhi oleh berbagai faktor. Aktivitas fisik yang berat dan teratur seperti renang, sepeda, dan lari maraton oleh remaja putri akan menunda usia menarche. Rosenthal (2009) dalam Safitri et al. (2014) menyatakan bahwa para atlet putri dengan olahraga yang terlalu berat dapat mengalami amennorhea yaitu kondisi ketika wanita tidak akan mengalami menstruasi sama sekali. Selain itu, konsumsi makanan beragam dan bergizi seimbang juga memengaruhi terjadinya menarche. Asupan lemak, protein (hewani dan nabati), serat, dan kalsium berperan penting sebagai penentu usia menarche remaja putri (Susanti 2012). Berdasarkan latar belakang tersebut, penelitian ini dilakukan untuk mengetahui faktor-faktor yang memengaruhi usia menarche. Peubah respons yang digunakan adalah kategori usia menarche yaitu kategori cepat, ideal, dan lambat dengan empat peubah penjelas yaitu jenis sekolah, asupan lemak, asupan protein, dan asupan kalsium. Jenis sekolah dibedakan berdasarkan aktivitas fisiknya menjadi sekolah atlet dan sekolah umum. Analisis yang dapat digunakan yaitu pohon klasifikasi dengan algoritme Classification and Regression Trees (CART) dan bootstrap aggregating (bagging). CART akan menghasilkan pohon klasifikasi tunggal sedangkan bagging akan menghasilkan pohon agregat.
2 Tujuan Penelitian Tujuan dari penelitian ini adalah: 1. Menentukan faktor-faktor yang memengaruhi usia menarche menggunakan pohon klasifikasi dengan algoritme Classification and Regression Trees (CART). 2. Menerapkan prosedur bootstrap aggregating (bagging) untuk membangun pohon agregat.
METODOLOGI Sumber Data Data yang digunakan dalam penelitian ini adalah data primer hasil penelitian Sofya (2015) tentang pengaruh aktivitas fisik terhadap usia menarche. Jenis penelitian yang dilakukan yaitu penelitian survei analitik dengan rancangan cross sectional, yaitu mengukur peubah respons dan peubah penjelas dalam satu titik secara bersamaan pada bulan Desember 2014 di dua Sekolah Menengah Pertama Negeri (SMPN), yaitu SMPN Ragunan dan SMPN 1 Dramaga. Metode penarikan contoh yang digunakan yaitu purposive sampling dengan kriteria responden yaitu siswi yang telah mengalami menstruasi, berusia 9-14 tahun, dan memiliki status gizi normal. Informasi usia menarche yang didapatkan adalah usia (tahun) pertama responden mengalami menstruasi. Akan tetapi, pada penelitian ini dilakukan pengkategorian usia menarche menjadi kategori cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (β₯14 tahun) karena hasil pengkategorian akan lebih informatif daripada sebelum pengkategorian. Sementara itu, peubah penjelas yang digunakan ada empat yaitu jenis sekolah (π1 ), asupan lemak (π2 ), asupan protein (π3 ), dan asupan kalsium (π4 ). Informasi asupan lemak, protein, dan kalsium didapatkan melalui pengisian kuesioner Food Recall 24-hours, yaitu pencatatan jenis dan jumlah bahan makanan yang dikonsumsi pada periode 24 jam. Pencatatan tersebut dilakukan selama dua hari, yaitu satu hari kerja dan satu hari libur. Kebiasaan responden dalam mengkonsumsi makanan saat penelitian diasumsikan tidak berbeda dengan sebelum menarche karena waktu pelaksanaan penelitian tidak terlalu lama dengan saat responden mengalami menarche. Kategori setiap peubah penjelas yang digunakan dapat dilihat pada Tabel 1. Tabel 1 Peubah penjelas dalam penelitian No. 1 2 3 4
Peubah penjelas Jenis sekolah Asupan lemak Asupan protein Asupan kalsium
1. 1. 1. 1.
Umum Kurang Kurang Kurang
Kategori 2. Atlet 2. Cukup 2. Cukup 2. Cukup
3. Lebih 3. Lebih 3. Lebih
3 Prosedur Analisis Data Tahapan-tahapan analisis yang dilakukan pada penelitian ini adalah: 1. Melakukan analisis statistika deskriptif terhadap data yang ada untuk mengetahui gambaran umum responden. i. Membuat diagram sebaran frekuensi usia menarche untuk mengetahui gambaran umum usia menarche di SMPN Ragunan dan SMPN 1 Dramaga. ii. Membuat diagram sebaran frekuensi peubah penjelas untuk mengetahui gambaran umum karakteristik responden berdasarkan peubah penjelas yang digunakan dalam penelitian. 2. Membangun pohon klasifikasi optimum dengan algoritme CART. i. Membentuk pohon klasifikasi melalui tiga tahapan utama, yaitu pemilihan penyekat (classifier), penentuan simpul terminal, dan penandaan label kelas. Ketiga tahapan utama tersebut sebagai berikut (Breiman et al. 1993): a. Aturan Penyekatan Penyekatan yang dilakukan pada setiap simpul yaitu menentukan semua kemungkinan penyekat (π ) pada tiap peubah penjelas. Tiap penyekat bergantung pada nilai yang berasal dari satu peubah penjelas π. Jika peubah penjelas ππ bersifat kontinu, penyekatan yang mungkin yaitu ππ < π, dengan π adalah nilai tengah antara dua nilai amatan peubah ππ secara berurutan. Sehingga apabila ππ memiliki nilai π amatan yang berbeda, akan ada penyekatan (π ) sebanyak π β 1 . Jika peubah penjelas bersifat kategorik dengan πΏ kategori, akan ada sebanyak 2πΏβ1 β 1 kemungkinan penyekatan untuk peubah penjelas kategorik nominal dan sebanyak πΏ β 1 kemungkinan penyekatan untuk peubah kategorik ordinal. Penyekatan simpul ditentukan dengan memilih penyekat yang menghasilkan penurunan keheterogenan paling tinggi. Ukuran keheterogenan ini diukur menggunakan nilai impuritas indeks Gini. Nilai indeks Gini pada simpul π‘, π(π‘), dapat dituliskan sebagai berikut: π(π‘) = 1 β β π2 (π|π‘) π
dengan π(π|π‘) adalah peluang unit pengamatan dalam kelas ke-π dari simpul π‘. Kebaikan penyekat (π ) pada simpul π‘ didefinisikan sebagai penurunan impuritas βπ(π , π‘) yaitu: βπ(π , π‘) = π(π‘) β ππΏ π(π‘πΏ ) β ππ
π(π‘π
) dengan ππΏ adalah peluang pengamatan pada simpul kiri, π(π‘πΏ ) adalah nilai impuritas simpul ke- π‘ kiri, ππ
adalah peluang pengamatan pada simpul kanan, dan π(π‘π
) adalah nilai impuritas simpul ke- π‘ kanan. Penyekat terbaik adalah penyekat yang memiliki nilai kebaikan penyekat terbesar, yaitu: βπ(π β , π‘) = πππ₯π βπ βπ(π , π‘) dengan π β adalah penyekat terbaik. Sehingga simpul akan disekat menjadi dua bagian yaitu simpul anak kanan dan simpul anak kiri. Proses penyekatan dilakukan secara rekursif terhadap dua simpul anak sampai memenuhi kriteria berhenti tertentu.
4 b. Pemilihan Simpul Akhir atau Simpul Terminal Simpul terminal adalah simpul yang sudah tidak disekat lagi oleh suatu peubah penjelas. Suatu simpul t akan menjadi simpul terminal apabila simpul tersebut memenuhi salah satu kriteria berikut: tidak terdapat penurunan keheterogenan yang berarti pada penyekatan simpul, hanya ada satu pengamatan ( π = 1) dalam tiap simpul anak atau adanya batasan minimum π pengamatan tertentu, dan adanya batasan jumlah level atau tingkat kedalaman pohon maksimal. Batas minimum pengamatan pada penelitian ini yaitu 1 amatan karena data yang digunakan kecil. c. Penandaan Label Kelas Label dari suatu simpul adalah kelas π0 yang dapat memaksimumkan π(π|π‘), yaitu π0 yang memenuhi π(π0 |π‘) = πππ₯π π(π|π‘). Peluang prior yang digunakan adalah prior equal, sehingga ππ (π‘) π(π|π‘) = ππ ππ (π‘) adalah banyaknya amatan kelas j di simpul t sedangkan ππ adalah banyaknya amatan kelas j. ii. Melakukan pemangkasan terhadap pohon klasifikasi untuk membuang sub pohon yang dianggap tidak berarti. Ukuran pemangkasan yang digunakan adalah cost complexity minimum dengan fungsi sebagai berikut: π
πΌ (π) = π
(π) + πΌ|πΜ | π
πΌ (π) adalah nilai relatif resubstitution suatu sub pohon π , π
(π) adalah nilai kesalahan klasifikasi resubstitution pada sub pohon π , πΌ|πΜ| menunjukkan ukuran kompleksitas oleh penambahan suatu simpul terminal pada sub pohon π, dan |πΜ| adalah himpunan simpul terminal pada sub pohon π. Nilai relatif adalah nilai yang dikorbankan dari proses pemangkasan suatu pohon menjadi sub pohon yang berukuran lebih kecil. Sub pohon ππ0 yang memiliki nilai relatif paling kecil, yaitu π
πΌ (ππ0 ) = min π
πΌ (ππ ) dipilih menjadi pohon optimum. iii. Memilih pohon klasifikasi optimum, yaitu sub pohon hasil pemangkasan yang memiliki nilai relatif validasi silang paling kecil. Nilai relatif ini didapatkan dari penerapan prosedur validasi silang lipat V (cross validation V-fold). Nilai V standar yang digunakan adalah 10 (cross validation 10-fold) namun untuk data yang berukuran kecil bisa digunakan fold yang lebih rendah (Timofeev 2004), sehingga pada penelitian ini digunakan validasi silang lipat 5. iv. Melakukan validasi model untuk mengetahui ketepatan pohon klasifikasi dalam memprediksi data baru. Prosedur validasi model yang digunakan yaitu validasi silang lipat 5. Validasi silang lipat 5 dibentuk dengan membagi n amatan data learning secara acak menjadi 5 subset data berukuran relatif sama. Sebanyak 4 subset data digunakan sebagai data learning untuk membangun pohon klasifikasi. Satu subset sisanya digunakan sebagai data testing. Proses ini dilakukan sebanyak 5 kali menggunakan setiap subset data sehingga setiap subset data pernah satu kali menjadi data testing. Hasil akhir validasi silang adalah ketepatan klasifikasi rata-rata dari 5 kali pengulangan prosedur tersebut. Ketepatan klasifikasi ini menunjukkan ketepatan prediksi pohon terhadap data baru.
5 3. Membangun pohon agregat menggunakan prosedur bootstrap aggregating (bagging). Proses bagging dapat digunakan untuk mengurangi kesalahan klasifikasi yang dihasilkan oleh pohon tunggal (Hastie et al. 2008). Selain itu, Breiman (1996) menyatakan bahwa pada banyak gugus data yang dicoba, bagging mampu mengurangi tingkat kesalahan klasifikasi. Tahapan-tahapan dalam pembentukan pohon agregat prosedur bagging yaitu: i. Menarik sampel berukuran π dari gugus data learning tanpa pengembalian (resampling bootstrap) kemudian dibangun pohon klasifikasi terbaik berdasarkan data yang didapatkan. ii. Lakukan langkah i sebanyak π kali untuk mendapat π buah pohon. iii. Melakukan pendugaan gabungan berdasarkan π buah pohon tersebut menggunakan majority vote. iv. Mendapatkan ketepatan klasifikasi rata-rata dari π buah pohon yang didapatkan pada langkah iv. v. Nilai π yang digunakan yaitu 10, 25, 50, 100, dan 125. Hal ini berdasarkan pernyataan Sutton (2005) bahwa bagging umumnya menunjukkan hasil yang baik dengan 100 pohon, namun disarankan untuk melakukan bagging dari replikasi yang rendah. Jika saat replikasi rendah bagging kurang bekerja dengan baik, bagging dilakukan dengan replikasi hingga 100 atau bahkan lebih. vi. Melakukan validasi model menggunakan prosedur validasi silang lipat 5 terhadap model pengklasifikasian bagging dengan replikasi yang memberikan hasil paling baik. Prosedur validasi silang yang dilakukan sama dengan validasi pohon tunggal CART pada poin 2. Hasil akhir yang didapatkan adalah ketepatan klasifikasi pohon agregat dalam memprediksi data baru.
HASIL DAN PEMBAHASAN Deskripsi Data Remaja putri yang menjadi responden dalam penelitian ini adalah 40 orang, terdiri dari 16 siswi SMPN Ragunan dan 24 siswi SMPN 1 Dramaga. Gambar 1 menunjukkan sebaran usia menarche setiap remaja putri yang menjadi responden. Berdasarkan pengkategorian yang digunakan, yaitu cepat (9-11 tahun), ideal (1213 tahun), dan lambat (β₯ 14 tahun), terdapat 7 orang siswi yang mengalami menarche cepat, 29 siswi menarche ideal, dan sisanya 4 siswi menarche lambat.
Gambar 1 Sebaran frekuensi usia menarche
6 Sebaran setiap peubah penjelas pada penelitian ini dapat dilihat di Gambar 2. Remaja putri yang mengalami menarche cepat didominasi oleh siswi SMPN 1 Dramaga dengan asupan lemak berlebih, asupan kalsium dan protein kurang sedangkan remaja putri yang mengalami menarche lambat didominasi oleh siswi SMPN Ragunan dengan asupan kalsium kurang, asupan lemak dan protein berlebih. Remaja putri yang mengalami menarche ideal didominasi oleh siswi yang berasal baik dari SMPN Ragunan maupun SMPN 1 Dramaga dengan asupan lemak, kalsium, dan proteinnya kurang dan berlebih. 20 15 10 5 0 Kurang
Cukup Lemak
Lebih
Kurang
Cukup
Lebih
Kurang
kalsium Cepat
Cukup Protein
Ideal
Lebih
Umum
Atlet
Sekolah
Lambat
Gambar 2 Sebaran frekuensi peubah penjelas pada setiap kategori
Pohon Klasifikasi Pembentukan Pohon Klasifikasi Optimum Metode CART dengan peubah respons kategorik akan menghasilkan pohon keputusan berupa pohon klasifikasi. Pohon klasifikasi yang optimum adalah sub pohon yang memiliki nilai relatif paling kecil diantara sub pohon lainnya. Adapun yang dimaksud dengan nilai relatif adalah nilai yang dikorbankan dari proses pemangkasan suatu pohon menjadi sub pohon yang berukuran lebih kecil. Nilai relatif resubstitution didapatkan dari pengklasifikasian seluruh set data awal sedangkan nilai relatif validasi silang didapatkan dari pengklasifikasian data validasi menggunakan teknik validasi silang lipat 5. Kriteria nilai relatif validasi silang mampu memberikan hasil yang lebih optimal dibandingkan dengan kriteria nilai relatif resubstitution. Hal ini dikarenakan nilai relatif resubstitution selalu berkurang seiring dengan meningkatnya ukuran pohon, sehingga pohon optimum yang akan dipilih adalah pohon yang berukuran paling maksimal yaitu pohon yang memberikan nilai relatif paling kecil. Namun, di sisi lain pohon maksimal (Lampiran 1) akan menyebabkan nilai kompleksitas yang tinggi karena struktur data yang digambarkan cenderung kompleks. Oleh karena itu, diperlukan teknik pemangkasan untuk mendapatkan pohon yang berukuran sederhana namun memberikan hasil pengujian yang akurat, salah satunya yaitu menggunakan kriteria nilai relatif validasi silang.
7 Tabel 2 menunjukkan bahwa pohon klasifikasi dengan enam simpul terminal memiliki nilai relatif validasi silang paling kecil sehingga pohon tersebut dipilih sebagai pohon klasifikasi optimum. Struktur pohon klasifikasi optimum ini dapat dilihat pada Gambar 3. Tabel 2 Hubungan antara banyaknya simpul terminal dan nilai relatif Banyaknya simpul terminal 2 3 4 5 6 7
Nilai relatif resubstitution (π
πΌ ) 0.50 0.36 0.33 0.30 0.28 0.26
Nilai relatif validasi silang (π
πΆπ ) 0.50 0.36 0.38 0.38 0.35 0.38
Penurunan nilai impuritas atau nilai kebaikan penyekat yang digunakan dalam penelitian ini adalah indeks Gini, yaitu menentukan kemungkinan penyekatan dari semua kombinasi peubah penjelas. Penurunan impuritas juga diistilahkan sebagai improvement. Peubah penjelas yang memiliki nilai improvement paling tinggi pada suatu simpul akan dipilih sebagai penyekat simpul tersebut. Pemilihan penyekatan ini dilakukan secara terus menerus hingga mencapai simpul terminal. Peubah jenis sekolah merupakan simpul induk yang menjadi penyekat pertama, hal ini menunjukkan bahwa jenis sekolah yaitu sekolah atlet dan sekolah umum merupakan peubah penjelas yang paling dominan dalam pembentukan pohon klasifikasi. Ketepatan klasifikasi pohon optimum dapat dilihat pada Tabel 3. Pohon klasifikasi optimum yang diperoleh memiliki nilai ketepatan klasifikasi resubstitution sebesar 60%. Artinya bahwa pohon klasifikasi optimum mampu mengklasifikasikan remaja putri ke dalam kategori usia menarche (cepat, ideal, dan lambat) dengan tepat sebesar 60%. Tabel 3 Persentase ketepatan klasifikasi data Aktual
Prediksi Cepat Ideal Lambat Cepat 7 0 0 Ideal 14 13 2 Lambat 0 0 4 Ketepatan klasifikasi keseluruhan
Ketepatan klasifikasi 100.00% 44.83% 100.00% 60.00%
Keakurasian pohon tunggal CART dalam memprediksi data baru ditunjukkan melalui ketepatan klasifikasi validasi silang lipat 5. Ketepatan klasifikasi validasi ini adalah rata-rata ketepatan klasifikasi dari lima kali pengulangan prosedur validasi yaitu 75.00%, 37.50%, 50.00%, 75.00%, dan 62.50%. Oleh karena itu, ketepatan klasifikasi validasi yang didapatkan adalah 60%. Ini berarti bahwa keakurasian pohon tunggal CART dalam memprediksi data baru adalah 60%. Lima nilai ketepatan klasifikasi pada prosedur validasi tersebut berbeda-beda untuk setiap data learning yang digunakan. Hal ini menunjukkan bahwa hasil pohon tunggal CART masih belum stabil.
8 Faktor-faktor yang Memengaruhi Usia Menarche Peubah penjelas yang muncul pada pohon klasifikasi optimum (Gambar 3) merupakan peubah-peubah yang berpengaruh terhadap nilai peubah respons. Pada penelitian ini, keempat peubah penjelas yang digunakan muncul pada pohon optimum. Oleh karena itu, peubah-peubah yang memengaruhi usia menarche remaja putri di SMPN Ragunan dan SMPN 1 Dramaga berdasarkan urutan kepentingannya adalah jenis sekolah, asupan protein, asupan kalsium, dan asupan lemak (Lampiran 2). Jenis sekolah merupakan peubah yang menjadi penyekat pertama, artinya bahwa jenis sekolah yaitu sekolah atlet dan sekolah umum merupakan faktor yang paling dominan dalam pembentukan pohon klasifikasi. Kemudian untuk mengetahui karakteristik atau peubah penciri dari setiap kategori usia menarche, dapat dilihat melalui interpretasi simpul terminal yang didapatkan. Remaja putri yang mengalami menarche cepat yaitu remaja putri yang sekolah di sekolah umum dan asupan proteinnya cukup dan kurang. Remaja putri yang mengalami menarche lambat yaitu remaja putri yang sekolah di sekolah atlet, asupan kalsiumnya kurang, dan asupan lemaknya berlebih. Sementara itu, remaja putri yang mengalami menarche ideal yaitu remaja putri yang berasal dari sekolah atlet dengan asupan lemaknya kurang dan cukup, serta remaja putri yang berasal dari sekolah umum dengan asupan lemaknya kurang dan cukup.
Gambar 3 Pohon klasifikasi optimum
9 Pengaruh Batas Kategori Usia Menarche terhadap Ketepatan Klasifikasi Remaja putri yang aktualnya dikategorikan ideal namun diprediksi cepat ada sebanyak 14 orang (Tabel 3). Hal ini menyebabkan ketepatan klasifikasi keseluruhan yang didapatkan hanya 60%. Besarnya nilai ketepatan klasifikasi ini mungkin saja dipengaruhi oleh aturan pengkategorian usia menarche yang digunakan. Pengkategorian awal yang digunakan yaitu kategori cepat (9-11 tahun), ideal (12-13 tahun), dan lambat (β₯ 14 tahun). Penetapan batas usia ini mungkin saja telah mengalami pergeseran karena usia menarche di Indonesia lebih cepat 0.145 tahun tiap dekade. Oleh karena itu, pada penelitian ini dibentuk pohon klasifikasi optimum menggunakan pengkategorian baru dengan mempertimbangkan fakta tersebut. Berdasarkan pengkategorian baru ini, remaja putri yang mengalami menarche pada usia 11 tahun tidak lagi dikategorikan cepat namun dikategorikan ideal, sehingga pengkategorian baru yang digunakan yaitu cepat* (9-10 tahun), ideal* (11-13 tahun), dan lambat* (β₯ 14 tahun). Pohon klasifikasi optimum menggunakan pengkategorian baru memiliki ketepatan klasifikasi sebesar 77.50% (Tabel 4). Peubah penjelas yang paling dominan berdasarkan pengkategorian baru ini sama dengan pengkategorian awal, yaitu jenis sekolah. Selain itu, ketiga peubah penjelas lainnya yaitu asupan kalsium, lemak, dan protein juga muncul pada pohon optimum, sehingga faktorfaktor yang memengaruhi usia menarche di SMPN Ragunan dan SMPN 1 Dramaga berdasarkan pengkategorian baru sama dengan pengkategorian awal yaitu jenis sekolah, asupan kalsium, asupan lemak, dan asupan protein. Tabel 4 Persentase ketepatan klasifikasi pengkategorian baru Aktual
Prediksi Cepat* Ideal* Lambat* Cepat* 1 0 0 Ideal* 7 26 2 Lambat* 0 0 4 Ketepatan klasifikasi keseluruhan
Ketepatan klasifikasi 100.00% 74.29% 100.00% 77.50%
Meskipun pohon klasifikasi optimum menggunakan pengkategorian baru memberikan hasil yang lebih baik, data dengan pengkategorian baru ini tidak dapat digunakan untuk analisis lebih lanjut yaitu validasi silang dan bagging. Hal ini dikarenakan hanya terdapat satu observasi pada kategori usia menarche cepat*. Oleh karena itu, prosedur bagging tetap menggunakan pengkategorian awal. Namun, hasil dari pengkategorian baru ini dapat digunakan untuk menunjukkan adanya kemungkinan pergeseran usia menarche yang terjadi di SMPN Ragunan dan SMPN 1 Dramaga. Hasilnya adalah penetapan pengkategorian awal memiliki ketepatan klasifikasi yang lebih rendah dibandingkan dengan pengkategorian baru, sehingga ada kemungkinan bahwa telah terjadi pergeseran usia menarche khususnya di SMPN Ragunan dan SMPN 1 Dramaga.
10 Bootstrap Aggregating (Bagging) Prosedur bagging dapat digunakan untuk meningkatkan keakurasian pendugaan pohon tunggal CART. Nilai relatif dan ketepatan klasifikasi pada pohon tunggal optimum masing-masing adalah 0.28 dan 60.00%. Setelah dibentuk pohon agregat bagging dengan berbagai versi replikasi, nilai relatifnya menjadi lebih kecil dan ketepatan klasifikasinya menjadi lebih besar dibandingkan dengan hasil pohon tunggal CART (Tabel 5). Bagging dengan 100 replikasi merupakan bagging paling optimum karena memiliki ketepatan klasifikasi paling besar dan nilai relatif paling kecil diantara replikasi lainnya yaitu masing-masing sebesar 77.06% dan 0.18. Tabel 5 Nilai relatif dan ketepatan klasifikasi pada setiap replikasi bagging Replikasi 10 25 50 100 125
Nilai relatif 0.22 0.19 0.18 0.18 0.19
Ketepatan klasifikasi 75.00% 76.80% 76.95% 77.06% 77.00%
Gambar 4 menunjukkan skor kepentingan peubah-peubah penjelas pada pembentukan pohon agregat 100 replikasi. Sama halnya dengan pohon klasifikasi tunggal CART, pada pohon agregat 100 replikasi, jenis sekolah merupakan faktor yang paling dominan dalam memengaruhi kategori usia menarche di SMPN Ragunan dan SMPN 1 Dramaga. Beberapa aturan pengklasifikasian (rules) yang dihasilkan prosedur bagging dengan 100 replikasi dapat dilihat pada Lampiran 3.
Gambar 4 Diagram kotak-garis skor kepentingan peubah penjelas pada pohon agregat 100 replikasi Keakurasian pohon agregat dalam memprediksi data baru ditunjukkan melalui hasil validasi silang lipat 5. Prosedur validasi dilakukan terhadap pohon agregat paling optimum, yaitu pohon agregat 100 replikasi. Ketepatan klasifikasi dari setiap pengulangan validasi adalah 50.00%, 62.50%, 62.50%, 62.50%, dan 75.00%, sehingga ketepatan klasifikasi akhir validasi adalah 62.50% yang merupakan rata-rata dari kelima nilai ketepatan klasifikasi tersebut. Ketepatan klasifikasi validasi silang lipat 5 pohon agregat ini lebih besar dibandingkan dengan pohon klasifikasi tunggal CART. Oleh karena itu, pada penelitian ini pohon agregat menggunakan prosedur bagging mampu meningkatkan keakurasian pendugaan pohon tunggal CART.
11
SIMPULAN Jenis sekolah, asupan lemak, asupan kalsium, dan asupan protein merupakan peubah-peubah yang efektif dalam memprediksi kategori usia menarche remaja putri di SMPN Ragunan dan SMPN 1 Dramaga. Nilai ketepatan klasifikasi berdasarkan prosedur validasi silang lipat 5 pada pohon tunggal CART adalah 60% sedangkan pada pohon agregat dengan 100 replikasi adalah 62.50%. Hal ini menunjukkan bahwa pada penelitian ini prosedur bootstrap aggregating (bagging) mampu meningkatkan keakurasian pendugaan pohon klasifikasi tunggal CART dari 60.00% menjadi 62.50%.
DAFTAR PUSTAKA Bagga A, Kulkarni S. 2000. Age at menarche and secular trend in Maharashtrian (Indian) girls. Submitted to Acta Biologica Szegediensis: India. 44(1): 53-57. Breiman L, Friedman JH, Olshen RA, Stone CJ. 1993. Classification and Regression Trees. New York (US): Champan and Hall. Breiman L. 1996. Bagging predictors. Machine Learning. 24(1): 123-140. Hastie TJ, Tibshirani RJ, Friedman JH. 2008. The Elements of Statistical Learning: Data-mining, Inference and Prediction. Ed ke-2. New York (US): Springer-Verlag. Hendrawati, Glinka J. 2003. Age at menarche in Indonesia. Submitted to Folia Medica Indonesiana: Journal of Airlangga University. 39(1): 18-21. Safitri D, Arneliawati, Erwin. 2014. Analisis indikator gaya hidup yang berhubungan dengan usia menarche remaja putri. Jurnal Universitas Riau. 1(2): 1-8. Sofya, SNY. 2015. Hubungan aktivitas fisik dengan usia menarche pada remaja putri atlet dan non atlet [skripsi]. Bogor (ID): Institut Pertanian Bogor. Susanti AV. 2012. Faktor risiko kejadian menarche dini pada remaja di SMPN 30 Semarang. Journal of Nutrition College. 1(1): 386β407. Sutton CD. 2005. Classification and Regression Trees, bagging, and boosting. Handbook of Statistics. 24(1): 303-329.doi: 10.1016/S0169-7161(04)240111. Timofeev R. 2004. Classification and Regression Trees (CART) theory and applications [tesis]. Berlin (DE): Humboldt University.
12
DAFTAR LAMPIRAN Lampiran 1 Pohon klasifikasi maksimal CART
Lampiran 2 Skor kepentingan peubah penjelas pada pohon klasifikasi tunggal CART Peubah penjelas Sekolah Protein Kalsium Lemak
Score 100,00 89,51 78,63 73,63
||||||||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||||||||| ||||||||||||||||||||||||||||||||||||| |||||||||||||||||||||||||||||||||||
13 Lampiran 3 Aturan pengklasifikasian (rules) pohon agregat bagging dengan 100 replikasi pada pohon ke-1, 2, 3, 98, 99, dan 100 Pohon 1 if((SEKOLAH == ATLET) && KALSIUM <= 1 && LEMAK <= 2){terminalNode = 1; class = IDEAL;} if((SEKOLAH == ATLET) && KALSIUM <= 1 && LEMAK > 2){terminalNode = 2; class = LAMBAT;} if((SEKOLAH == ATLET) && KALSIUM > 1){terminalNode = 3;class = IDEAL;} if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK <= 1){terminalNode = 4; class = CEPAT;} if((SEKOLAH == UMUM) && KALSIUM <= 2 && LEMAK > 1 && LEMAK <= 2){ terminalNode = 5; class = IDEAL;} if((SEKOLAH == UMUM) && KALSIUM <= 2 && LEMAK > 2 ){terminalNode = 6; class = CEPAT;} if((SEKOLAH == UMUM ) && KALSIUM > 2){ terminalNode = 7; class = IDEAL;}
Pohon 2 if((SEKOLAH == ATLET ) && KALSIUM <= 1){terminalNode = 1;class = LAMBAT;} if((SEKOLAH == ATLET) && KALSIUM > 1){terminalNode = 2; class = IDEAL;} if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK <= 1 && PROTEIN <= 2){terminalNode = 3;class = CEPAT;} if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK <= 1 && PROTEIN > 2){ terminalNode = 4; class = IDEAL;} if((SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK > 1 && LEMAK <= 2){ terminalNode = 5; class = IDEAL;} if(( SEKOLAH == UMUM ) && KALSIUM <= 2 && LEMAK > 2){terminalNode = 6; class = CEPAT;} if(( SEKOLAH == UMUM ) && KALSIUM > 2 ){terminalNode = 7;class = IDEAL;}
Pohon 3 if((SEKOLAH if((SEKOLAH if((SEKOLAH if((SEKOLAH
== == == ==
ATLET ) && KALSIUM <= 1){terminalNode = 1;class = LAMBAT;} ATLET ) && KALSIUM > 1){terminalNode = 2;class = IDEAL;} UMUM ) && LEMAK <= 2){terminalNode = 3;class = IDEAL;} UMUM ) && LEMAK > 2){terminalNode = 4;class = CEPAT;}
....... Pohon 98 if((SEKOLAH if((SEKOLAH if((SEKOLAH CEPAT;} if((SEKOLAH if((SEKOLAH if((SEKOLAH
== ATLET ) && KALSIUM <= 2){terminalNode = 1;class = LAMBAT;} == ATLET ) && KALSIUM > 2){terminalNode = 2;class = IDEAL;} == UMUM ) && LEMAK <= 1 && PROTEIN <= 2 ){terminalNode = 3;
class =
== UMUM ) && LEMAK <= 1 && PROTEIN > 2){terminalNode = 4;class = IDEAL;} == UMUM ) && LEMAK > 1 && LEMAK <= 2){terminalNode = 5;class = IDEAL;} == UMUM ) && LEMAK > 2){terminalNode = 6;class = CEPAT;}
Pohon 99 if(LEMAK <= if((SEKOLAH LAMBAT;} if((SEKOLAH if((SEKOLAH
2){terminalNode = 1;class = IDEAL;} == ATLET ) && LEMAK > 2 && KALSIUM <= 1){terminalNode = 2;class = == ATLET ) && LEMAK > 2 && KALSIUM > 1){terminalNode = 3;class = IDEAL;} == UMUM ) && LEMAK > 2){terminalNode = 4; class = CEPAT;}
Pohon 100 if((SEKOLAH IDEAL;} if((SEKOLAH LAMBAT;} if((SEKOLAH if((SEKOLAH if((SEKOLAH
== ATLET ) && KALSIUM <= 2 && LEMAK <= 2){terminalNode = 1; class = == ATLET ) && KALSIUM <= 2 && LEMAK > 2){terminalNode = 2; class = == ATLET ) && KALSIUM > 2 ){terminalNode = 3; class = IDEAL;} == UMUM ) && LEMAK <= 2){terminalNode = 4; class = IDEAL;} == UMUM ) && LEMAK > 2){terminalNode = 5; class = CEPAT;}
14
RIWAYAT HIDUP Penulis dilahirkan di Ciamis pada tanggal 13 September 1992 dari pasangan Bapak Somad dan Ibu Sopiah. Penulis merupakan anak kedua dari tiga bersaudara. Pada tahun 2005 penulis lulus dari SD Negeri 1 Sukahurip, kemudian melanjutkan studi di MTs Negeri Pamarican hingga tahun 2008. Selanjutnya penulis menyelesaikan pendidikannya di SMA Negeri 2 Ciamis dan lulus pada tahun 2011. Pada tahun yang sama penulis diterima IPB melalui jalur SNMPTN Undangan sebagai mahasiswa Departemen Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam. Selain itu, penulis mendapatkan beasiswa Bidikmisi dari Kementrian Pendidikan dan Kebudayaan Republik Indonesia tahun 2011-2015. Selama kuliah di Departemen Statistika β FMIPA IPB, penulis aktif sebagai panitia di berbagai kegiatan kampus, diantaranya yaitu sebagai Bendahara Divisi Acara The 9th Statistika Ria, sebagai staf Quality Control Welcome Ceremony Statistics, sebagai Ketua Divisi LO Komstat Junior, sebagai Ketua Divisi Humas Muskerwil IHMSI. Selain itu, penulis juga berkesempatan menjadi Bendahara Departemen Survey and Research Himpunan Keprofesian Gamma Sigma Beta tahun 2013 dan sebagai Sekretaris Departemen Survey and Research Himpunan Keprofesian Gamma Sigma Beta tahun 2014. Pada bulan Juni sampai Agustus 2014, penulis menjalankan Praktek Lapang di PT Asuransi Jiwa Generali Indonesia sebagai staf bidang operasional.