Pengantar Analisa Data Tjipto Juwono, Ph.D.
April 2017
TJ (SU)
Data Analysis
April 2017
1 / 44
REVIEW EKONOMETRIKA: ANALISA REGRESI BERGANDA
Data Home 1 2 3 4 5 6 7 8 9 10
Cost ($) 250 360 165 43 92 200 355 290 230 120
TJ (SU)
Temp (◦ F ) 35 29 36 60 65 30 10 7 21 55
Ins (In.) 3 4 7 6 5 5 6 10 9 2
Age (y) 6 10 3 9 6 5 7 10 11 5
Home
Data Analysis
11 12 13 14 15 16 17 18 19 20
Cost ($) 73 205 400 320 72 272 94 190 235 139
Temp (◦ F ) 54 48 20 39 60 20 58 40 27 30
Ins (In.) 12 5 5 4 8 5 7 8 9 7
April 2017
Age (y) 4 1 15 7 6 8 3 11 8 5
3 / 44
Data Yˆ = a + b1 X1 + b2 X2 + b3 X3 Yˆ : Biaya pemanasan rumah di daerah dingin (dalam $) X1 : Suhu rata-rata di luar (◦ F ) X2 : Tebal rata-rata dinding insulator (inch) X3 : Usia pemanas (Year )
TJ (SU)
Data Analysis
April 2017
4 / 44
Ringkasan Output (Excel)
TJ (SU)
Data Analysis
April 2017
5 / 44
Scatter Plots Scatter plot antara masing-masing variabel independen dan variabel dependen memberikan informasi awal yang berguna Dapat dilihat apakah ada korelasi negatif/positif Apakah ada korelasi yang cukup kuat
TJ (SU)
Data Analysis
April 2017
6 / 44
Scatter Plots
Menguji Asumsi dari Regresi Ganda Linearitas. Ada hubungan dalam bentuk garis lurus antara variabel dependen dan variabel-variabel independen. Homoskedastisitas. Variasi residual sama untuk semua Y. Normalitas. Residu mengikuti distribusi normal. Multikolinearitas. Variabel-variabel independen tidak berkorelasi satu sama lain.
TJ (SU)
Data Analysis
April 2017
8 / 44
Residuals: Linearitas dan Homoskedastisitas
TJ (SU)
Data Analysis
April 2017
9 / 44
Residuals: Linearitas Nilai residual terdistribusi secara random baik secara positip maupun negatip dalam distribusi yang kurang lebih sama. Tidak ada pola apapun dalam distribusi nilai residual
TJ (SU)
Data Analysis
April 2017
10 / 44
Residuals: Homoskedastisitas Nilai residual terdistribusi secara random baik secara positip maupun negatip dalam distribusi yang kurang lebih sama. Distribusi residual untuk nilai Y yang kecil sama dengan untuk Y yang besar.
TJ (SU)
Data Analysis
April 2017
11 / 44
Normality
TJ (SU)
Data Analysis
April 2017
12 / 44
Multikolinearitas
Temp Ins Age
Temp
Ins
-0.103 -0.486
0.064
Age
Multikolinearitas tidak mempengaruhi kemampuan persamaan regresi dalam memprediksi Namun multikolinearitas yang kuat membuat variabel independen menjadi redundant dan bertingkah laku tidak seperti yang diharapkan (umpamanya kita mengharapkan kenaikan positip satu variabel independen berpengaruh positip pada variabel dependen, tetapi itu ternyata tidak terjadi) Multikolinearitas menyebabkan kekeliruan kesimpulan dalam pengujian hipotesa TJ (SU)
Data Analysis
April 2017
13 / 44
Multikolinearitas Batas Multikolinearitas Dianggap lemah jika pada interval −0.7 ≤ r ≤ 0.7 Beberapa petunjuk adanya problem multikolinearitas: Suatu variabel independen yang penting ternyata menjadi tidak signifikan Suatu koefisien regresi yang diharapkan positip, ternyata negatip, atau kebalikannya Ketika suatu variabel independen ditambahkan, atau dihilangkan, terjadi perubahan drastis pada koefisien regresi sisanya.
TJ (SU)
Data Analysis
April 2017
14 / 44
Multikolinearitas Tes yang lebih tepat untuk multikolinearitas adalah Variance Inflation Factor 1 (1) VIF = 1 − Rj2 Rj2 dihitung dengan cara memilih salah satu variabel independen sebagai variabel dependen dan menjadikan variabel independen sisanya sebagai variabel independen. Jika diperoleh nilai VIF > 10, maka dianggap ada masalah kolinearitas dan variabel independennya harus dicoret dari analisa.
TJ (SU)
Data Analysis
April 2017
15 / 44
Persamaan Regresi Persamaan Regresi Yˆ = 427.194 − 4.583X1 − 14.831X2 + 6.101X3
TJ (SU)
Data Analysis
(2)
April 2017
16 / 44
Tabel Anova Source Regression Residual Total
df k n-(k+1) n-1
SS SSR SSE SS Total
SSR = SSE = SS Total =
TJ (SU)
MS MSR=SSR/k MSE=SSE/(n-(k+1))
F MSR/MSE
X
(Yˆ − Y¯ )2
(3)
(Y − Yˆ )2
(4)
X
(Y − Y¯ )2
(5)
X
Data Analysis
April 2017
17 / 44
Multiple Standard Error of Estimate Misalkan diketahui: Biaya pemanasan 250$ Suhu di luar 35 ◦ F Ketebalan insulator 3 inches Usia pemanas 6 tahun Estimasi biaya pemanasan adalah: Yˆ
= 427.194 − 4.583X1 − 14.831X2 + 6.101X3
= 427.194 − 4.583(35) − 14.831(3) + 6.101(6)
(6)
= 258.90
TJ (SU)
Data Analysis
April 2017
18 / 44
Multiple Standard Error of Estimate Residual (Y − Yˆ )=250 - 258.90 = -8.90 Residual ini merupakan error random untuk salah satu data Residual Kuadrat (Y − Yˆ )2 =79.21 Jika kita ulang perhitungan ini untuk 19 data lainnya, dan menjumlahkannya, maka kita memperoleh SSR pada tabel ANOVA. Dengan informasi ini kita dapat menghitung Multiple Standard Error of Estimate. syx
TJ (SU)
=
√
(7)
MSE s SSR = n − (k + 1) sP (Y − Yˆ )2 = n − (k + 1) Data Analysis
(8)
(9) April 2017
19 / 44
Coefficient of Determination Coefficient of Multiple Determination R2 =
SSR SS Total
(10)
Adjusted Coefficient of Multiple Determination 2 Radj =1−
TJ (SU)
SSE /(n − (k + 1)) SS Total/(n − 1)
Data Analysis
(11)
April 2017
20 / 44
Ringkasan Output (Excel)
TJ (SU)
Data Analysis
April 2017
21 / 44
Global Test Hipotesa H0 :
β2 = β3 = β4 = 0
H1 :
Tidak semua βi sama dengan nol
(12)
Dari tabel ANOVA: F
MSR MSE = 21.9
=
(13)
Dari Tabel-F: F (3, 16) = 3.24 TJ (SU)
Data Analysis
(14) April 2017
22 / 44
Individual Test Temperature H0 : β 2 = 0 H1 : β2 6= 0
Insulator H0 : β 3 = 0 H1 : β3 6= 0
Usia Pemanas H0 : β 4 = 0 H1 : β4 6= 0
Menguji Koefisien Regresi Secara Individu t=
TJ (SU)
bi − 0 sbi
Data Analysis
(15)
April 2017
23 / 44
Individual Test Untuk temperature, diperoleh t = −5.937 Untuk insulator, diperoleh t = −3.119
Untuk usia pemanas, diperoleh t = 1.521 Untuk α = 0.05, tcritical = −2.120 Kesimpulan: Koefisien regresi untuk temperature dan insulator tidak sama dengan nol. tetapi untuk usia pemanas koefisien regresinya dapat nol. Lebih lanjut lagi, p − value untuk usia pemanas adalah lebih dari 0.05. Variabel usia pemanas bukanlah prediktor yang signifikan dan dapat dicoret dari analisa.
TJ (SU)
Data Analysis
April 2017
24 / 44
PENGANTAR ANALISA DATA
Data: Fuel Economy
Kita akan menganalisa data tentang fuel economy dari sejumlah mobil yang diproduksi pada 1999 dan 2008. Data yang akan kita analisa ini diperoleh dari: http://fueleconomy.gov
TJ (SU)
Data Analysis
April 2017
26 / 44
Data: Fuel Economy Variabel-variabel: 1
cty,hwy: miles per gallon for city and highway driving
2
disp: engine displacement in litres
3
drv: drivetrain f,r,4
4
model
5
class
6
cyl (cylinder: 4,6,8)
7
trans: auto, manual
8
fuel: e(ethanol), d(diesel), r(regular), p(premium), c(compressed natural gas)
9
year: 1998, 2008
TJ (SU)
Data Analysis
April 2017
27 / 44
TJ (SU)
Data Analysis
April 2017
28 / 44
TJ (SU)
Data Analysis
April 2017
29 / 44
TJ (SU)
Data Analysis
April 2017
30 / 44
TJ (SU)
Data Analysis
April 2017
31 / 44
TJ (SU)
Data Analysis
April 2017
32 / 44
TJ (SU)
Data Analysis
April 2017
33 / 44
TJ (SU)
Data Analysis
April 2017
34 / 44
TJ (SU)
Data Analysis
April 2017
35 / 44
TJ (SU)
Data Analysis
April 2017
36 / 44
TJ (SU)
Data Analysis
April 2017
37 / 44
TJ (SU)
Data Analysis
April 2017
38 / 44
TJ (SU)
Data Analysis
April 2017
39 / 44
TJ (SU)
Data Analysis
April 2017
40 / 44
TJ (SU)
Data Analysis
April 2017
41 / 44
TJ (SU)
Data Analysis
April 2017
42 / 44
TJ (SU)
Data Analysis
April 2017
43 / 44
TUGAS
Download file ”MPG.xls” dari http://complexminds.net 1
Buat histogram untuk variabel cty. Jelaskan hasil yang anda peroleh.
2
Buat analisa regresi cty vs displ. Jelaskan hasil yang anda peroleh. Buat grafik cty vs displ, tambahkan regression line pada grafik anda.
TJ (SU)
Data Analysis
April 2017
44 / 44