BAB I PENDAHULUAN
1.1.
Latar Belakang Dengan semakin majunya peradaban, banyak pihak dalam berbagai bidang memerlukan suatu alat untuk memodelkan suatu data ke dalam suatu fungsi yang dapat dipergunakan untuk mengambil kesimpulan. Pemodelan data yang sering digunakan adalah pemodelan yang bertujuan untuk melihat hubungan antara beberapa variabel dan melakukan prediksi. Metode yang sering digunakan untuk memodelkan hubungan antara beberapa variabel adalah regresi. Analisis regresi merupakan suatu cara untuk memodelkan hubungan antara variabel yang dipengaruhi atau variabel respon dengan variabel yang mempengaruhi atau variabel prediktor
. Regresi
yang paling sering digunakan adalah regresi linear. Regresi linear dapat digunakan apabila asumsi linearitas terpenuhi, yaitu terdapat hubungan yang linear antara variabel respon dan prediktor. Dalam praktek, seringkali data yang ada tidak memiliki hubungan linear. Apabila data yang tidak linear tersebut dilakukan analisis regresi linear untuk melihat hubungan antara variabel respon dan prediktor, maka kesimpulan yang diperoleh akan tidak menggambarkan keadaan dari data yang sebenarnya. Analisis regresi yang memerlukan asumsi-asumsi disebut dengan analisis regresi parametrik. Asumsi yang harus dipenuhi antara lain adalah data berdistribusi tertentu dan terdapat pola tertentu pada hubungan antara variabel respon dan prediktor. Pada kenyataannya, sulit untuk menemukan data yang dapat memenuhi asumsi agar dapat dianalisis secara parametrik. Dengan kendala tersebut, maka diperkenalkan suatu analisis yang tidak
1
memerlukan asumsi seperti pada analisis regresi parametrik. Analisis yang tidak memerlukan asumsi ini disebut dengan analisis regresi nonparametrik. Analisis dapat digunakan apabila memenuhi asumsi. Sebagai contoh, untuk memodelkan data dengan satu prediktor dengan variabel respon yang berdistribusi normal dan hubungan antara variabel respon dan prediktor linear, analisisnya dengan regresi linear sederhana. Apabila data dengan lebih dari satu variabel prediktor dengan variabel respon berdistribusi normal dan memiliki hubungan linear, maka analisisnya menggunakan regresi linear berganda. Jika distribusi variabel respon tidak normal akan tetapi merupakan distribusi keluarga eksponensial dan memiliki hubungan yang linear, maka dapat digunakan generalized linear model yang diperkenalkan oleh Nelder dan Wadderburn pada 1972. Generalized linear models (GLM) merupakan perluasan dari model regresi linear dengan asumsi prediktor memiliki efek linear akan tetapi tidak mengasumsikan suatu distribusi tertentu dari respon. GLM dapat diperluas agar dapat digunakan pada kasus tidak ada hubungan linear antara variabel respon dan prediktor. Hastie dan Tibshirani (1986) memperkenalkan perluasan dari model ini yang disebut dengan generalized additive models (GAM). Generalized additive models (GAM) mengganti fungsi linear pada GLM dengan fungsi aditif. Seperti halnya GLM, distribusi respon pada GAM tidak terbatas hanya pada distribusi normal saja akan tetapi distribusi variabel respon yang termasuk dalam keluarga eksponensial dapat dianalisis dengan model ini. Model aditif sendiri merupakan perluasan dari regresi linear biasa dengan menggantikan fungsi linear dengan fungsi aditif yang tidak memiliki bentuk yang kaku, sehingga model ini dapat digunakan meskipun hubungan variabel respon dan prediktor tidak linear.
2
1.2.
Tujuan Penelitian Berdasarkan latar belakang dan rumusan permasalahan yang telah dipaparkan pada subbab 1.1., penulisan tugas akhir ini memiliki tujuan untuk mengetahui metode yang digunakan untuk menganalisis data dengan menggunakan generalized additive models, mengetahui langkah-langkah analisis menggunakan model ini, serta mengambil kesimpulan.
1.3.
Pembatasan Masalah Diperlukan pembatasan masalah agar tujuan dari penulisan ini dapat tercapai dan tidak terdapat penyimpangan dari tujuan yang telah ditetapkan. Pembatasan masalah pada tugas akhir ini meliputi penggunaan generalized additive models untuk data dengan variabel kuantitatif, estimasi model menggunakan algoritma local scoring, serta estimasi fungsi penghalus menggunakan cubic smoothing spline.
1.4.
Metode Penulisan Metode yang digunakan dalam penulisan tugas akhir ini adalah studi literatur. Literatur-literatur yang diperoleh berasal dari buku-buku, jurnal, maupun artikel-artikel yang tersedia pada situs-situs di internet yang berkaitan dengan materi tugas akhir ini.
1.5.
Tinjauan Pustaka Hastie dan Tibshirani (1986) mengadaptasikan model aditif ke dalam generalized linear models (GLM) yang diperkenalkan oleh Nelder dan Wadderburn pada 1972 yang disebut dengan generalized additive models (GAM). Model ini mengganti fungsi linear pada generalized linear model dengan fungsi aditif yang tidak spesifik dan teknik estimasi fungsi tersebut menggunakan smoothing spline dalam suatu prosedur iteratif yang disebut dengan algoritma local scoring. 3
GAM memiliki kemampuan untuk menjelaskan pengaruh dari setiap variabel prediktor terhadap variabel respon seperti halnya pada model linear. Dengan menerapkan smoothing spline dalam mengestimasi fungsi aditif dalam model ini, kecenderungan-kecenderungan dalam data seperti adanya hubungan nonlinear atau bahkan kecenderungan yang berbeda pada beberapa titik data dapat terlihat. Hal tersebut karena smoothing spline merupakan salah satu metode dalam pendekatan konsep piecewise fitting of regression equation (Takezawa, 2006).
1.6.
Sistematika Penulisan Penulisan tugas akhir ini disusun dengan sistematika sebagai berikut
BAB I . PENDAHULUAN Bab ini membahas tentang latar belakang masalah, tujuan penelitian, pembatasan masalah, metode penulisan, tinjauan pustaka, dan sistematika penulisan.
BAB II . DASAR TEORI Bab ini membahas tentang teori-teori dasar yang akan digunakan sebagai landasan dalam penulisan tugas akhir ini.
BAB III . MODEL ADITIF TERGENERALISASI Bab ini membahas tentang estimasi model generalized additive menggunakan algoritma local scoring, dengan teknik estimasi fungsi menggunakan cubic spline smoothing dan pemilihan parameter penghalus menggunakan kriteria GCV, serta melakukan prediksi menggunakan model generalized additive.
4
BAB IV . STUDI KASUS Bab ini membahas tentang aplikasi model aditif tergeneralisasi pada data pitcher yang diperoleh dari situs lib.stat.cmu.edu/datasets/baseball.data yang merupakan data dari The Statistical Graphics Section of the American Statistical Association serta perbandingan GAM dan GLM.
BAB V . PENUTUP Bab ini berisi tentang kesimpulan-kesimpulan yang diperoleh dari pembahasan sebelumnya dan saran-saran yang terkait.
5