Metode Statistika Pertemuan XII Analisis Korelasi dan Regresi
Analisis Hubungan Jenis/tipe hubungan Ukuran Keterkaitan
Pemodelan Keterkaitan Skala pengukuran variabel
Relationship vs Causal Relationship Tidak semua hubungan (relationship) berupa hubungan sebab-akibat Penentuan suatu hubungan bersifat sebab-akibat memerlukan well-argued position dari bidang ilmu terkait
Alat Analisis Keterkaitan
Ditentukan oleh: 1. Skala pengukuran data/variabel 2. Jenis hubungan antar variabel Relationship
Numerik
Kategorik
Numerik
Korelasi Pearson, Spearman
Tabel Ringkasan
Kategorik
Tabel Ringkasan
Spearman (ordinal), Chi Square
Numerik
Kategorik
Numerik
Regresi Linier
ANOVA
Kategorik
Regresi Logistik
Regresi Logistik
Causal relationship X Y
• Apa itu analisis regresi? • Apa bedanya dengan korelasi? Analisis Regresi Analisis statistika yang memanfaatkan hubungan antara dua atau lebih peubah kuantitatif sehingga salah satu peubah dapat diramalkan dari peubah lainnya. Korelasi mengukur keeratan HUBUNGAN LINEAR dari dua variabel
Korelasi
Korelasi
r=1
r=0
r=0
r=0
Korelasi
Koefisien Korelasi
tidak menggambarkan hubungan sebab akibat nilainya berkisar antara -1 dan 1 tanda (+) / (-) arah hubungan – (+) searah; – (-) beralawanan arah
Pearson’s Coef of Correlation linear relationship Spearman’n Coef of Correlation (rank correlation) trend relationship
Koefisien Korelasi Pearson (r) rxy S xy
S xy SxS y
( x x )( y
Sx
i
n 1
2 ( x x ) i
n 1
i
y)
xi yi 1 xi yi n 1 n
dan S y
2 ( y y ) i
n 1
Korelasi !!!
Analisis Regresi
Definisi Linear : linear dalam parameter Sederhana : hanya satu peubah penjelas Berganda : lebih dari satu peubah penjelas
Regresi Linear
satu Simple Linear Regression
Peubah penjelas > satu Multiple Linear Regression
linear
Hubungan parameter
non linear
Regresi non linear
ANALISIS REGRESI • Hubungan Antar Peubah: • Fungsional (deterministik) Y=f(X) ; misalnya: Y=10X • Statistik (stokastik) amatan tidak jatuh pas pada kurva Mis: IQ vs Prestasi, Berat vs Tinggi, Dosis Pupuk vs Produksi
• Model regresi linear sederhana:
Yi 0 1 X i i ; i 1,2,..., n
Regresi Makna 0 & 1 ?
0 adalah nilai Y ketika X = 0, sedangkan 1 adalah perubahan nilai Y untuk setiap perubahan 1 satuan X.
Regresi
Analisis Regresi • Pendugaan terhadap koefisien regresi: b0 penduga bagi 0 dan b1 penduga bagi 1 ( x )( y ) xy n b1 ( x)2 2 x n b0 y b1 x
Metode Kuadrat Terkecil
Bagaimana Pengujian terhadap model regresi ?? • parsial (per koefisien) uji-t • bersama uji-F (Anova) Bagaimana menilai kesesuaian model ?? R2 (Koef. Determinasi: % keragaman Y yang mampu dijelaskan oleh X)
Koefisien Determinasi JK (Re gresi) R x100% JK (Total ) b1S xy x100% S yy 2
Koefisien determinasi sebesar 80% menjelaskan bahwa sebesar 80% keragaman dari Y dapat dijelaskan oleh Xdalam hubungan linier, sisanya oleh faktor-faktor lain
catatan n Y i n Syy Yi 2 i 1 n i 1
2
X i n Sxx X i2 i 1 n i 1
n n X Y i i n i 1 Sxy X iYi i 1 n i 1 Keterangan : Syy = Jumlah Kuadrat Terkoreksi variabel Y Sxx = Jumlah Kuadrat Terkoreksi variabel X Sxy = Jumlah Kuadrat Terkoreksi variabel XY
n
2
Metoda Kuadrat Terkecil
Pendugaan parameter pada regresi didapat dengan meminimumkan jumlah kuadrat galat.
Keragaman yang dapat dijelaskan dan yang tidak dapat dijelaskan
Contoh Data Percobaan dalam bidang lingkungan Apakah semakin tua mobil semakin besar juga emisi HC yang dihasilkan? Diambil contoh 10 mobil secara acak, kemudian dicatat jarak tempuh yang sudah dijalani mobil (dalam ribu kilometer) dan diukur Emisi HC-nya (dalam ppm)
Analisis Regresi Plot antara Emisi Hc (ppm) dg Jarak Tempuh Mobil (ribu kilometer) 950
Emisi
850
750
650
550 30
40
50
60
70
Jarak
80
90
100
Analisis Regresi Contoh output regresi dengan Minitab (1) Regression Analysis
(Emisi Hc
The regression equation is Predictor Constant Jarak
Coef 381.95 5.3893
S = 42.01
Jarak Tempuh Mobil)
Emisi = 382 + 5.39 Jarak
StDev 42.40 0.6233
R-Sq = 90.3%
vs
T 9.01 8.65
P 0.000 0.000
R-Sq(adj) = 89.1%
Analysis of Variance Source Regression Error Total
DF 1 8 9
SS 131932 14118 146051
Unusual Observations Obs Jarak Emisi 8 84.0 752.0
MS 131932 1765
Fit 834.7
F 74.76
StDev Fit 18.0
P 0.000
Residual -82.7
R denotes an observation with a large standardized residual
St Resid -2.18R
Analisis Regresi Bagaimana Pengujian terhadap model regresi ?? • parsial (per koefisien) uji-t • bersama uji-F (Anova) Bagaimana menilai kesesuaian model ?? R2 Koef. Determinasi (% keragaman Y yang mampu dijelaskan oleh X)
Uji Hipotesis (Simultan) H0 : 1=0 vs H1: 10 ANOVA (Analysis of Variance) Uji F n
n
n
i 1
i 1
i 1
2 2 2 ˆ ˆ ( y y ) ( y y ) ( y y ) i i i i
JK total = JK regresi + JK galat Keragaman total = keragaman yang dapat dijelaskan oleh model + keragaman yang tidak dapat dijelaskan oleh model
Anova Sumber
db
JK
KT
F
Regresi
1
JKR
KTR
KTR/KTE
Galat
n-2
JKG
KTG
Total
n-1
JKT
F~F
(1,n-2)
Catatan JK (Regresi) b1S xy JK Total S yy JKG JK Total JK (Regresi)
JK (Regresi) KT (Regresi) db(Regresi) JKG KTG db(G)
Uji Hipotesis (parsial) H0 : 1≤0 vs H1: 1>0
atau
H0 : 1≥0 vs H1: 1<0
atau
H0 : 1=0 vs H1: 1≠0
Satu arah
dua arah
Uji Parsial Statistik uji: T b1 Sb 1 s Sb1 2 ( xi x ) s KTG
2 ˆ ( y y ) i i
n2
KTG S xx
S yy b1S xy n2
Uji Parsial (lanjutan)
Kriteria Penolakan dan Penerimaan H0 : (tergantung H1) Tolak Hipotesis Nol (H0) jika : thitung > t(, n-2) atau Tolak Hipotesis Nol (H0) jika : thitung < - t(, n-2) atau
Tolak Hipotesis Nol (H0) jika : |thitung|| > t(/2, n-2)
Diskusi (1) Berapa emisi HC yang dihasilkan jika jarak tempuh sekitar 70 ribu km? 759,3 ppm Berapa emisi HC yang dihasilkan jika jarak tempuh sekitar 110 ribu km? apakah hasil dugaan ini valid? Kenapa? 974,9 ppm
Diskusi (2)
Berapa emisi HC yang dihasilkan jika jarak tempuh sekitar 70 ribu km? Tentukan selang kepercayaan 95% bagi emisi HC jika waktu tempuhnya sekitar 70 ribu km? predictiction interval Tentukan selang kepercayaan 95% bagi rata-rata emisi HC jika waktu tempuhnya sekitar 70 ribu km? confidence interval Lebih lebar mana selang interval antara prediction intervaldengan confidence interval? Kenapa?
Fitted Line Plot Emisi = 382.0 + 5.389 Jarak 1100
Regression 95% C I 95% PI
1000
S R-Sq R-Sq(adj)
Emisi
900 800 700 600 500 400 30
40
50
60 70 Jarak
80
90
100
42.0096 90.3% 89.1%
Diskusi (3)
Tentukan formula untuk prediction interval dan confidence interval!
Keterbatasan Korelasi dan Regresi Linear
Korelasi dan Regresi Linear hanya menggambarkan hubungan yang linear Korelasi dan metode kuadrat terkecil pada regresi linear tidak resisten terhadap pencilan Prediksi di luar selang nilai X tidak diperkenankan karena kurang akurat Hubungan antara dua variabel bisa dipengaruhi oleh variabel lain di luar model
‘All models are wrong, but some are useful’ (G. E. P. Box)