1
BAB 1 PENDAHULUAN
1.1 Latar Belakang Masalah Perkembangan dunia teknologi berkembang sangat pesat di dalam kehidupan manusia. Perkembangan teknologi ini ditandai dengan ditemukannya banyak penemuan– penemuan yang dapat mempermudah dan sebagai sarana dalam memenuhi kebutuhan hidup manusia. Pada masa kini, seiring dengan berkembangnya ilmu statistik, telah banyak metode statistika yang telah diterapkan pada berbagai bidang sebagai dasar bagi pengambilan keputusan, seperti teori peluang, penganalisaan, peramalan dan lainnya. Kita dapat menggunakan berbagai metode statistik yang memungkinkan kita untuk melihat jauh diluar data yang kita kumpulkan dan masuk ke dalam wilayah pengambilan keputusan melalui penganalisaan dan peramalan. Perkembangan zaman berpengaruh juga terhadap ilmu statistik ini yang ikut maju seperti ilmu-ilmu lain, yang pada umumnya untuk menemukan metode baru untuk interpretasikan hasil dari data. Metode statistika adalah prosedur – prosedur yang digunakan dalam pengumpulan, penyajian, analisis, dan penafsiran data. Banyak analisis statistika bertujuan untuk mengetahui apakah ada hubungan antara dua atau lebih peubah. Bila hubungan demikian ini dapat dinyatakan dalam bentuk rumus matematik, maka kita akan dapat menggunakannya untuk keperluan pengambilan keputusan yang disebut peramalan(forecasting). Salah satu metode statistika yang telah diterapkan secara luas di berbagai bidang adalah model regresi linear, persamaan ini memungkinkan kita untuk meramalkan nilai-
2 nilai suatu peubah tak bebas. Dalam konteks diluar statistik, kata regresi berarti kembali pada tempat atau keadaan awal. Istilah ini dalam statistik pertama kali berasal dari pengambilan data oleh Sir Francis Galton(1822-1911) untuk membandingkan tinggi badan anak laki-laki dengan tinggi badan ayahnya. Untuk keperluan evaluasi suatu kebijaksanaan mungkin ingin diketahui besarnya efek kuantitatif dari perubahan suatu kejadian terhadap kejadiaan lainnya. Sejak regresi menjadi popular dalam berbagai area penelitian, analisis regresi telah menerapkan berbagai teknik. Telah banyak metode regresi digunakan akan tetapi hasilnya terkadang meleset untuk data set tertentu, oleh karena itu pencarian untuk metode yang terbaik adalah tujuan yang tidak pernah berakhir. Regresi dapat digunakan untuk memprediksi nilai dari variable tidak bebas dari nilai variable bebas yang diketahui. Model regresi linear sedehana dan model regresi linear berganda adalah metode statistika yang memodelkan hubungan antara dua atau lebih variable acak. Regresi linier sederhana adalah regresi yang terdiri dari hanya satu peubah
bebas. Regresi linier
berganda adalah regresi yang terdiri dari satu peubah tak bebas dan beberapa peubah bebas (lebih dari satu). Linear tidak berarti hubungan antara variable-variable dapat digambarkan secara garis lurus, akan tetapi dikarenakan hubungan variable-variabel penjelas yang diasumsikan sebagai fungsi linear dari beberapa parameter. Pada Penulisan ini model regresi yang digunakan adalah model regresi linier berganda, karena memungkinkan untuk meramalkan hubungan nilai suatu peubah tak bebas dengan dua atau lebih variabel peubah bebas, sehingga cakupannya akan lebih luas. Data dapat dikumpulkan dengan menggunakan sampling dan kemudian diolah dengan
3 menggunakan metode tertentu. Didalam data yang dikumpulkan sering kali terdapat datadata extrim(outlier), sehingga koefisien regresi menjadi tidak stabil. Model regresi linier berganda umumnya diselesaikan menggunakan metode Kuadrat Terkecil Biasa(Ordinary Least of Square) karena metode ini menghitung variabel penduga dari variabel bebas dan variabel tidak bebas, sehingga jumlah kesalahan kuadrat memiliki nilai terkecil
dan jumlah kuadrat jarak vertikal dari titik-titik
pengamatan ke garis regresi sekecil mungkin. Selain Kuadrat Terkecil Biasa, juga terdapat Kuadrat Median Terkecil(Least Median of Square) yang merupakan metode dari robust regression yang memiliki ketahanan terhadap nilai-nilai outlier, metode ini menggunakan residual untuk mendeteksi outlier. Menurut Venables dan Ripley(1999), Kuadrat Median Terkecil meminimalkan median dari kuadrat residu yang terurut yang berasal dari koefisien regresi. Penulis akan merancang suatu program aplikasi yang dapat digunakan untuk membandingkan model regresi linier berganda dengan metode Kuadrat Terkecil Biasa dan metode Kuadrat Median Terkecil, penggunaan standar error akan digunakan untuk melihat metode regresi mana yang lebih akurat.
1.2 Ruang Lingkup Dalam penulisan ini digunakan model regresi linear berganda dengan membandingkan metode Kuadrat Terkecil Biasa dan metode Kuadrat Median Terkecil dengan menggunakan R Language. Data yang digunakan adalah data yang dibangkitkan dengan R Language, data sekunder yang terdapat dalam data base R Language (data cell) dan data Hawkins(1984). Data acak dibangkitkan dengan simulasi dari R Language.
4 1.3 Rumusan Masalah Rumusan permasalah yang utama pada yang mendasari penulisan yang saya buat ini adalah : 1. Apakah metode Kuadrat Terkecil Biasa dan metode Kuadrat Median Terkecil tetap stabil terhadap munculnya outlier(pencilan). 2. Bagaimanakah perbedaan residual Kuadrat Terkecil Biasa jika dibandingkan dengan metode Kuadrat Median Terkecil? 3. Apakah estimasi koefisien regresi yang dihasilkan dengan Kuadrat Terkecil Biasa lebih baik dibandingkan dengan estimasi koefisien regresi yang dihasilkan dengan metode Kuadrat Median Terkecil?
1.4 Tujuan dan Manfaat Rancangan •
Tujuan Umum Merancang suatu program aplikasi untuk membandingkan metode yang lebih stabil terhadap nilai ekstrim(outlier) dalam penyelesaian model regresi linier berganda.
•
Tujuan Khusus Menghitung dan menganalisis residual dari regresi linear berganda dengan metode Kuadrat Terkecil Biasa yang dibandingkan dengan metode Kuadrat Median Terkecil sehingga diketahui keakuratannya.
•
Manfaat Rancangan Sistem yang akan dirancang dapat memberikan manfaat pada semua bidang dimana model persamaan regresi linier berganda digunakan, secara umum manfaatnya sebagai berikut :
5 1. Bagi peneliti : o Dapat mengetahui apakah metode Kuadrat Terkecil Biasa atau metode Kuadrat Median Terkecil yang lebih baik dalam pemodelan regresi linear berganda. o Dapat digunakan sebagai bahan acuan dalam pengembangan penelitian berikutnya mengenai metode-metode penyelesaian regresi linear berganda. 2. Bagi penulis : o Dapat menambah ilmu pengetahuan di bidang Statistika dan
Teknik
Informatika. o Memperdalam ilmu di bidang tehnik informatika dengan menggunakan bahasa pemrograman R-language.
1.5 Sistematika Penulisan Secara garis besar penulisan skripsi ini terdiri dari lima bab yaitu : BAB 1 : PENDAHULUAN Bab ini terdiri dari latar belakang masalah, perumusan masalah, ruang lingkup masalah, tujuan dan manfaat penulisan, definisi operasional dan sistematika penulisan. BAB 2 : LANDASAN TEORI Bab ini meguraikan definisi dan teori-teori umum yang relevan dan menjadi dasar dari skripsi ini.
6 BAB 3 : METODOLOGI ANALISIS Bab ini berisi tentang analisis permasalahan, tahapan analisis, teknik pengadaan data dan teknik analisis data. BAB 4 : HASIL DAN PEMBAHASAN Bab ini berisi tentang hasil dan pembahasan mengenai analisis yang dilakukan. BAB 5 : KESIMPULAN DAN SARAN Bab ini berisi simpulan dari semua hal yang telah dilakukan dalam skripsi ini dan memberikan saran-saran perbaikan yang berguna bagi penelitian selanjutnya.
1.6 Definisi Operasional Di dalam penulisan skripsi ini, terdapat beberapa istilah yang tidak umum digunakan dalam kehidupan sehari-hari, oleh karena itu perlu adanya definisi operasional untuk mempermudah pemahaman dan mengurangi kesalahan pemikiran. Istilah-istilah tersebut adalah : •
Robust regression adalah metode regresi yang memiliki ketahanan terhadap datadata ekstrim.
•
Ordinary Least Square(Kuadrat Terkecil Biasa) adalah tipe dari metode regresi yang mempunyai satu buah variabel dependen (Y) dan memiliki lebih dari satu variabel independen (X).
•
Least Median Square adalah metode regresi yang merupakan bagian dari robust regression yang meminimalkan median.
7 •
Outlier adalah data pencilan yang bersifat ekstrim.
•
Sampel adalah suatu himpunan bagian dari populasi.
•
R-Language adalah software komputasi statistik dan grafis, yang merupakan suatu software yang open source yang dapat didownload dari situs www.R-project.org.