PEMILIHAN PEUBAH BEBAS UNTUK DATA YANG MENGANDUNG PENCILAN DENGAN MENGGUNAKAN KRITERIA Cp, RCp DAN RTp
Olen: Harl11i Sugiarti
96140/STK
PROGRAM PASCASARJANA INSTITUT PERT ANIAN BOGOR
1999
RINGKASAN
HARMI SUGIARTI.
Pemilihan Peubah Bebas untuk Data yang Mengandullg Pendlan dengan Menggunakan Kriteria Cp, RCp dan RTp (di bawah bimbingan Dr.Ir. Ahmad Ansori Mattjik, M.Sc sebagai ketua dan Dr.Ir. Budi Susetyo, M.S sebagai anggota) Adanya pengamatan pencilan (outlier) yaitu pengamatan dengan sisaan yang cukup besar dalam himpunan data mempunyai pengaruh besar dalam pendugaan koefisien regresi. Penggunaan kriteria Cp dalam memilih persamaan regresi terbaik tidak memberikan rekomendasi yang konsisten tentang peubah bebas mana yang harus masuk ke dalam model. Hal ini karena statistik Cp didasarkan pada metode kuadrat terkecil yang sangat sensitif terhadap penyimpangan asumsi, khususnya adanya pencilan dalam himpunan data. Sebagai alternatif digunakan kriteria RCp dan RTp, yang didasarkan pada prosedur regresi robust dan metode yang digunakan adalah metode kuadrat terkecil dan metode robust dengan penduga-M. Data yang digunakan dalam tulisan ini merupakan data simulasi yang dibangkitkan dengan bantuan MlNITAB verSl 11.12
termasuk dengan pengolahan
datanya. Hasil analisis menunjukkan bahwa kriteria RCp dan RTp lebih konsisten dalam rnemberikan rekornendasi tentang peubah bebas mana yang harus masuk ke dalarn model dibanding kriteria Cpo Dalam hal tidak terdapat pencilan, ketiga statistik memberikan hasil yang sarna.
PEMIUHAN PEUBAH BEBAS UNTUK DATA YANG MENGANDUNG PENCILAN DENGAN MENGGUNAKAN KRITERIA Cp, RCp DAN RTp
Oleh:
Harmi Sugiarti 9614Q/STK
Tesis sebagai salah satu syarat untuk memperoleh gelar Magister Sains pada Program Studi Statistika
PROGRAM PASCASARJ ANA INSTITUT PERT ANIAN BOGOR 1999
Judul Penelitian
PEMILIHAN PEUBAH BEBAS UNTUK DATA YANG MENGANDUNG PENCILAN DENGAN MENGGUNAKAN KRITERIA Cp , R-Cp DAN R- 7P
Nama Mahasiswa
HARMI SUGIARTI
NomorPokok
96140
Program Studi
STATISTIKA
Menyetujui: I. Komisi Pembimbing,
c Dr. Ir. HA Ansori Mattj ik, M. Sc Ketua
2. Ketua Program Studi Statistika
Dr. Ir. Aunuddin
Tanggal Lulus: 5 Maret 1999
Ii
dvI '
~t
Dr. Ir. Budi Suset Anggota
1d~~tur Program
0
MS
PascasaIjana,
RIWAYAT HIDUP
Penulis lahir di Surabaya pada tanggal 11 Maret 1967, anal< pertama dari empat bersaudara keluarga Bapak Taslim dan lbu Asiyam. Pada tahun 1977 penulis menyelesaikan jenjang pendidikan Sekolah Dasar di SD Negeri Banyuurip Surabaya dan menyelesaikan pendidikan Sekolah Menengah Pertama di SMP Negeri 10 Surabaya pada tahun 1981. Jenjang pendidikan Sekolah Menengah Atas ditempuh di SMA Negeri 11 Surabaya dan lulus pada tahun 1984. Selanjutnya, penulis menyelesaikan pendidikan S-1 jurusan Statistika di Universitas Terbuka pada tahun 1989 dan terdaftar sebagai mahasiswa Program Pascasarjana Institut Pertanian Bogor pada program studi Statistika tahun 1996. Pada tahun 1991 sampai sekarang, penulis menjadi staf pengajar di jurusan Statistika Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Terbuka.
KATA PENGANTAR
Puji syukur kehadirat Tuhan YME atas berkat dan karuniaNya sehingga penuIis dapat menyelesaikan tulisan ini, yang beIjudul Pemilihan Peubah Bebas untuk Data yang
Mengandung Pencilan dengan Menggunakan Kriteria Cp, RCp dan RTp . Tulisan ini diharapkan dapat memberikan masukan tentang kriteria terbaik yang dapat digunakan untuk mernilih peubab bebas jika dalam data terdapat pengamatan pencilan. Pada kesempatan ini penulis ucapkan terima kasih kepada komisi pembimbing yakni: Bapak Dr. Ir. Ahmad Ansori Mattjik, M.Sc selaku ketua dan Bapak Dr. Ir. Budi Susetyo, MS selaku anggota, yang telah banyak membantu memberikan masukan dalam menyelesaikan tulisan ini.
Penulis ucapkan terima kasih juga kepada Bapak Dr. Ir.
Aunuddin selaku Ketua Program Studi Statistika, Program PascasaIjana Institut Pertanian Bogor atas saran dan arahannya. Penulis menyadari bahwa tulisan ini masih jauh dari sempurna, kritik dan saran bagi kesempurnaannya sangat penulis harapkan.
Bogor, Maret 1999
Penulis
DAFTARISI
Halaman KATAPENGANTAR DAFTARISI DAFTAR TABEL DAFTAR GAMBAR 1. PENDAHULUAN .............................................................................. 1 1.1. Latar Belakang ........................................................................... 1
1.2. Perumusan Masalah ..................................................................... 3
1.3. Tujuan Penelitian ........................................................................ 3 2. TlNJAUANPUSTAKA ............... '" ............ '" ........ , .,. '" ....................... 4 2.1. Pemilihan Peubah Bebas ............................................................... .4 2.2. Pengamatan Pencilan dan Berpengaruh .............................................. .4 2.3. Statistik Cp-Mallows ..................................................................... 7 2.4. Statistik RC p (Robust-Cp) ............................................................... 8 2.5. StatistikRTp(Robust-Tp) .............................................................. 13 3. METODA ............................................................... '" .................... 15 4. HASILDANPEMBAHASAN ............................................................. 16 5. KESIMPULAN DAN SARAN ............................................................. 28 DAFTAR PUSTAKA
LAMPIRAN
DAFTAR TABEL
No.
Teks
Halaman
I. Nilai statistik Cp, RC p dan RTp ............................................................. 17 2. Nilai statistik Cp , RCp dan RTp untuk kasus 1 pencilan ................................. 18 3. Nilai statistik Cp , RCp dan RTp untuk kasus 2 pencilan ................................. 20 4. Nilai statistik Cp , RCp dan RTp untuk kasus 3 pencilan ................................. 22 5. Nilai statistik Cp , RC p dan RTp untuk kasus 4 pencilan ................................ .24 6. Nilai statistik Cp , RCp dan RTp untuk kasus 5 pencilan .: ......... : ..................... 26
No.
Lampiran
Halaman
1. Data hasil simulasi ............................................................................ 31 2. Nilai hii , t i , DFFITS i dan Di ............................................................. 32 3. Nilaihii, ti ,DFFITSi danDi untukkasus 1 pencilan ................................. 33 4. Penduga koefisien regresi untuk data tanpa pencilan .................................... 34 5. Penduga koefisien regresi untuk data dengan 4 pencilan ................................ 34
DAFTAR GAMBAR
No.
Teks
Halaman
1. Fungsi Huber ............................................. """"'"'''''''''''''''''''''' ..... 11 2. Fungsi PembobotHuber "'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''' ... 11 3. Plot antara Cp , RCp dan RTp terhadap p untuk data tanpa pencilan .................. 17 4. Plot antara Cp, RCp dan RTp terhadap p untuk data dengan 1 pencilan .............. 19 5. Plot antara Cp , RCp dan RTp terhadap p untuk data dengan 2 pencilan .............. 21 6. Plot antara Cp , RCp dan RTp terhadap p untuk data dengan 3 pencilan .............. 22 7. Plot antara Cp , RCp dan RTp terhadap p untuk data dengan 4 pencilan .............. 25 8. Plot antara Cp, RC p dan RTp terhadap p untuk data dengan 5 pencilan .............. 27
No.
Lampiran
Halaman
1. Plot antara X dan Y untuk data tanpa pencilan ............................................ 35 2. Plot sisaan untuk data tanpa pencilan ."".".""""."."."."."."."."."."."." .. 35 3. Plot antara X dan Y untuk data dengan 1 pencilan ....................................... 36 4. Plot sisaan untuk data dengan 1 pencilan ............ " .................................... 36 5. Plot antara X dan Y untuk data dengan 2 pencilan "."."""".".".""""""".". 37 6. Plot sisaan untuk data dengan 2 pencilan .......... " ................ " ............. " ..... 37 7. Plot antara X dan Y untuk data dengan 3 pencilan ....................... " .............. 38 8. Plot sisaan untuk data dengan 3 pencilan ... " ............................................. 38
1. PENDAHULUAN
1.1.
Latar Belakang
Salah satu permasalahan penting dalam penerapan analisis regresi adalah memilih himpunan peubah bebas (independent variables) yang akan digunakan dalam model. Ada beberapa prosedur yang dapat digunakan dalam pemilihan peubah bebas, diantaranya adalah prosedur semua kemungkinan regresi yang memuat peubah bebas potensial dan memilih persamaan terbaik menurut kriteria Cp Mallows. Prosedur statistik ini dianggap dapat mengkompromikan dua kriteria yaitu: model yang memuat sebanyak mungkin peubah untuk mendapatkan nilai prediksi yang handal dan model yang memuat sedikit mungkin peubah untuk menghindari biaya yang tinggi (Draper & Smith, 1981). Masalah pemilihan peubah bebas sering dibahas dalam kondisi ideal. Model regresi linear Y = X /3 + E , dimana Y dan X masing-masing merupakan peubah tak bebas dan peubah bebas, diperlukan asumsi-asumsi vektor galat
E
adalah peubah acak yang
identik, bebas terhadap sesamanya dan menyebar menurut sebaran Normal (0, Icr2 ). Adanya pengamatan pencilan (outlier) dalam data, yaitu pengamatan dengan sisaan yang sangat besar dapat mengganggu terpenuhinya asumsi-asumsi tersebut. Jika pengamatan pencilan yang ada merupakan pengamatan yang berpengaruh, maka tindakan membuang atau menghilangkan pengamatan tersebut dapat mengakibatkan perubahan pada model. Dalam hal terdapat penyimpangan terhadap asumsi idealnya, khususnya jika terdapat pengamatan pencilan, permasalahannya adalah apakah penggunaan statistik Cp ini masih dapat dianggap reliabel atau konsisten dalam merekomendasikan peubahpeubah bebas yang harns dimasukkan ke dalam model, mengingat statistik ini didasarkan