Dasar-dasar Analisa Regresi Tjipto Juwono, Ph.D.
February 2017
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
1 / 31
Sejarah Analisa Regresi
Istilah regresi pertama kali diperkenalkan oleh Francis Galton dalam salah satu papernya. Galton menemukan bahwa walaupun ada kecenderungan bahwa anak dari orang tua yang jangkung juga jangkung, dan anak dari orang tua yang pendek juga pendek, namun tinggi rata − rata dari anak yang lahir dari orang tua dengan tinggi tertentu akan bergerak ke-arah (regress) tinggi rata-rata dari populasi 1 . 1
Francis Galton, Proceedings of Royal Society, London, vol. 40, 1886, pp. 4272.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
2 / 31
Sejarah Analisa Regresi
Temuan Galton dikonfirmasi oleh Karl Pearson. Ia mengumpulkan data tinggi badan dari ribuan keluarga 2 . Ia menemukan bahwa tinggi rata-rata anak-anak dari kelompok orang tua yang jangkung lebih pendek dari tinggi orang tua mereka. Sementara tinggi rata-rata dari anak-anak dari orang tua yang pendek lebih tinggi dari orang tua mereka. Jadi tinggi rata-rata dari anak-anak itu bergerak ke arah (regress) tinggi rata-rata dari populasi. 2
K. Pearson and A. Lee, Biometrika, vol. 2, Nov. 1903, pp. 357462.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
3 / 31
Pengertian Analisa Regresi
Analisa Regresi: Mempelajari ketergantungan satu variabel (yaitu variabel dependent) terhadap satu atau lebih variabel lainnya (yaitu variabel independence atau explanatory). Ketergantungan ini dipelajari dengan mengestimasi dan/atau memprediksi nilai mean/average dari populasi pada variabel dependent sebagai fungsi dari variabel(-variabel) independent yang diketahui, atau di-tetapkan (dalam hal sampling yang berulang).
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
4 / 31
Contoh Analisa Regresi
1
Dalam riset yang dilakukan oleh Galton (dan Pearson), ia ingin mengetahui bagaimana tinggi rata-rata anak berubah, jika tinggi orang tua (ayah) diberikan.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
5 / 31
Contoh Analisa Regresi
Gbr. 1: Hubungan antara tinggi anak dengan tinggi ayahnya TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
6 / 31
Contoh Analisa Regresi
2
Misalkan kita ingin mempelajari hubungan antara tinggi seorang anak dengan usianya.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
7 / 31
Contoh Analisa Regresi
Gbr. 2: Hubungan antara tinggi anak dengan usianya
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
8 / 31
Variabel Random vs Variabel Tetap
Variabel Random: Adalah variabel yang mempunyai distribusi probabilitas. Variabel Random disebut juga variabel stokastik. Variabel Tetap: Tidak mempunyai distribusi probabilitas.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
9 / 31
Hubungan Statistik vs Hubungan Deterministik
Hubungan deterministik: Dalam hubungan deterministik, semua variabel (baik itu dependen maupun independen) adalah variabel non-stokastik Hubungan statistik: Dalam hubungan statistik, salah satu atau lebih (atau semua) variabelnya adalah variabel stokastik.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
10 / 31
Hubungan Statistik vs Hubungan Deterministik
Contoh hubungan deterministik: Jika hambatan suatu kabel diketahui, maka untuk suatu besar tegangan antara kedua ujung kabel, hanya ada satu angka arus listrik. Hubungan antara tegangan dan arus listrik adalah hubungan yang deterministik. Contoh hubungan statistik: Untuk setiap tinggi orang tua tertentu, ada banyak kemungkinan tinggi anaknya. Tinggi anak untuk satu tinggi orang tua tertentu, merupakan suatu distribusi (Lihat Gbr. (1)). Variabel tinggi anak tersebut disebut variabel random atau stokastik.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
11 / 31
Hubungan Statistik vs Hubungan Deterministik
Perhatikan kembali Gbr. (1). Untuk setiap tinggi orang tua yang tertentu, ada banyak kemungkinan tinggi anak yang membentuk suatu distribusi. Tinggi anak merupakan variabel random atau stokastik. Ingat definisi variabel random, yaitu: variabel yang mempunyai distribusi probabilitas. Dalam pembahasan kita, variabel non-random (atau non-stokastik) disebut variabel tetap atau variabel fix (fixed variables).
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
12 / 31
Regresi vs Hubungan Sebab-Akibat
Regresi tidak berarti kausalitas Misalkan kita menganalisa hubungan antara curah hujan dengan hasil panen. Secara statistik tidak ada alasan untuk mengatakan bahwa hasil panen ditentukan oleh curah hujan. Jika kita mengatakan yang sebaliknya, yaitu bahwa curah hujan ditentukan oleh hasil panen, maka itu sah-sah saja secara statistik. Jika kita mengatakan bahwa hasil panen ditentukan oleh curah hujan (dan bukan sebaliknya) maka itu berdasarkan pertimbangan non-statistik. (Misalnya: Kita tahu bahwa kita tidak dapat mengendalikan curah hujan dengan cara mengubah-ubah hasil panen).
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
13 / 31
Regresi vs Hubungan Sebab-Akibat
Regresi tidak berarti kausalitas Hubungan statistik di dalam dirinya tidak dapat secara logis menunjukkan hubungan sebab-akibat. Untuk mengetahui hubungan sebab-akibat, seseorang harus mencarinya dari sumber di luar analisa statistik.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
14 / 31
Regresi vs Hubungan Sebab-Akibat
Dalam hal hubungan antara tinggi orang tua dengan tinggi anak, kita bisa saja membuat analisa di mana kita menetapkan tinggi anak sebagai variabel independen, dan menjadikan tinggi orang tua sebagai variabel dependen yang merupakan variabel stokastik. Pengetahuan bahwa tinggi anak dikendalikan oleh tinggi orang tua bukan berasal dari analisa statistik melainkan dari sumber lain (umpamanya biologi atau genetika).
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
15 / 31
Regresi vs Korelasi
Apa perbedaan antara Korelasi dan Regresi? Korelasi: Dalam korelasi, kita ingin mengetahui seberapa kuat hubungan linear antara dua variabel. Regresi: Dalam regresi, kita ingin mengestimasi atau memprediksi nilai rata-rata dari suatu variabel (variabel dependen) berdasarkan nilai yang ditetapkan dari variabel yang lain (variabel independen).
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
16 / 31
Regresi vs Korelasi
Apa perbedaan antara Korelasi dan Regresi? Korelasi: Hubungan antara kedua variabel bersifat simetris, kita tidak membeda-bedakan antara kedua variabel. Selain itu kedua-duanya diperlakukan sebagai variabel random (stokastik) Regresi: Hubungan antara kedua variabel bersifat a-simetris. Kita membedakan antara variabel independen dan variabel dependen. Selain itu, hanya variabel dependen yang diperlakukan sebagai variabel random (stokastik). Variabel independen diperlakukan sebagai variabel yang tetap (fixed, atau non-stokastik).
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
17 / 31
Istilah Dan Notasi
Dependent Variable
Independent variable
Explained variable
Explanatory Variable
Predictand
Predictor
Regressand
Regressor
Response
Stimulus
Endogeneous
Exogeneous
Outcome
Covariate
Controlled variable
Control variable
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
18 / 31
Akurasi Data
Seorang peneliti harus selalu ingat bahwa kualitas hasil riset sangat bergantung pada kualitas data-nya.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
19 / 31
Jenis-jenis Variabel
Skala Rasio: Ada urut-urutan, jarak antar satu variabel dengan variabel lain mempunyai makna, begitu pula rasio antar satu variabel dengan variabel lain. Skala Interval: Ada urut-urutan, jarak antar satu variabel dengan variabel lain penting, tetapi rasio tidak berarti. Skala Ordinal: Ada urut-urutan, tetapi jarak maupun rasio tidak bermakna. Memberi label pada kategori, di mana ada urut-urutan pada kategori-kategori. Kategori yang satu lebih tinggi dari yang lain. Skala Nominal: Hanya digunakan memberi label pada kategori. Tidak ada urut-urutan, jarak, atau rasio.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
20 / 31
Data
Home 1 2 3 4 5 6 7 8 9 10
Cost ($) 250 360 165 43 92 200 355 290 230 120
TJ (SU)
Temp (◦ F ) 35 29 36 60 65 30 10 7 21 55
Ins (In.) 3 4 7 6 5 5 6 10 9 2
Age (y) 6 10 3 9 6 5 7 10 11 5
Home 11 12 13 14 15 16 17 18 19 20
Dasar-dasar Analisa Regresi
Cost ($) 73 205 400 320 72 272 94 190 235 139
Temp (◦ F ) 54 48 20 39 60 20 58 40 27 30
Ins (In.) 12 5 5 4 8 5 7 8 9 7
Feb 2017
Age (y) 4 1 15 7 6 8 3 11 8 5
21 / 31
Data Yˆ = a + b1 X1 + b2 X2 + b3 X3 Yˆ : Biaya pemanasan rumah di daerah dingin (dalam $) X1 : Suhu rata-rata di luar (◦ F ) X2 : Tebal rata-rata dinding insulator (inch) X3 : Usia pemanas (Y ear)
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
22 / 31
Ringkasan Output (Excel)
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
23 / 31
Scatter Plots Scatter plot antara masing-masing variabel independen dan variabel dependen memberikan informasi awal yang berguna Dapat dilihat apakah ada korelasi negatif/positif Apakah ada korelasi yang cukup kuat
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
24 / 31
Scatter Plots
Persamaan Regresi Persamaan Regresi Yˆ = 427.194 − 4.583X1 − 14.831X2 + 6.101X3
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
(1)
26 / 31
Estimasi Misalkan diketahui: Biaya pemanasan 250$ Suhu di luar 35 ◦ F Ketebalan insulator 3 inches Usia pemanas 6 tahun Estimasi biaya pemanasan adalah: Yˆ
= 427.194 − 4.583X1 − 14.831X2 + 6.101X3 = 427.194 − 4.583(35) − 14.831(3) + 6.101(6)
(2)
= 258.90
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
27 / 31
Ringkasan Output (Excel)
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
28 / 31
Global Test Hipotesa H0 :
β2 = β3 = β4 = 0
H1 :
T idak semua βi sama dengan nol
(3)
Dari tabel ANOVA: F
M SR M SE = 21.9 =
(4)
Dari Tabel-F: F (3, 16) = 3.24 TJ (SU)
Dasar-dasar Analisa Regresi
(5) Feb 2017
29 / 31
Individual Test Temperature H0 : β 2 = 0 H1 : β2 6= 0
Insulator H0 : β 3 = 0 H1 : β3 6= 0
Usia Pemanas H0 : β 4 = 0 H1 : β4 6= 0
Menguji Koefisien Regresi Secara Individu t=
TJ (SU)
bi − 0 sbi
Dasar-dasar Analisa Regresi
(6)
Feb 2017
30 / 31
Individual Test Untuk temperature, diperoleh t = −5.937 Untuk insulator, diperoleh t = −3.119 Untuk usia pemanas, diperoleh t = 1.521 Untuk α = 0.05, tcritical = −2.120 Kesimpulan: Koefisien regresi untuk temperature dan insulator tidak sama dengan nol. tetapi untuk usia pemanas koefisien regresinya dapat nol. Lebih lanjut lagi, p − value untuk usia pemanas adalah lebih dari 0.05. Variabel usia pemanas bukanlah prediktor yang signifikan dan dapat dicoret dari analisa.
TJ (SU)
Dasar-dasar Analisa Regresi
Feb 2017
31 / 31