4/6/2015
Pendahuluan
• Oleh : • Fauzan Amin
• Analisa regresi digunakan untuk mempelajari dan mengukur hubungan statistik yang terjadi antara dua atau lebih varibel. Dalam regresi sederhana dikaji dua variabel, sedangkan dalam regresi majemuk dikaji lebih dari dua variabel. • Dalam analisa regresi suatu persamaan regresi hendak ditentukan dan digunakan untuk menggambarkan pola atau fungsi hubungan yang terdapat antar variabel. • Variabel yang akan diestimasi nilainya disebut variabel terikat (dependent variable atau response variable) dan biasanya diplot pada sumbu tegak (sumbu-y). Sedangkan variabel bebas (independent variable atau explanatory variable) adalah variabel yang diasumsikan memberikan pengaruh terhadap variasi variabel terikat dan biasanya diplot pada sumbu datar (sumbu-x).
Senin, 06 April 2015 GDL 211 (07.30-10.50)
Pendahuluan • Analisa korelasi bertujuan untuk mengukur "seberapa kuat" atau "derajat kedekatan" suatu relasi yang terjadi antar variabel. • Analisis regresi dalam banyak hal dinilai lebih akurat dibandingkan dengan analisis korelasional. Sebab dalam analisis regresi dapat ditentukan kemiringan (slop) atau tingkat perubahan suatu variabel terhadap variabel yang lainnya.
Relasi Antar Variabel
Linier positif
Linier negatif
Relasi Antar Variabel • Langkah pertama dalam menganalisa relasi antar variabel adalah dengan membuat diagram pencar (scatter diagram) yang menggambarkan titik-titik plot dari data yang diperoleh. Diagram pencar ini berguna untuk – membantu dalam melihat apakah ada relasi yang berguna antar variabel, – membantu dalam menentukan jenis persamaan yang akan digunakan untuk menentukan hubungan tersebut.
Relasi Antar Variabel
Curvelinier positif
Curvelinier negatif
1
4/6/2015
Relasi Antar Variabel
Analisis Regresi Linear Fungsi regresi linear dapat dinyatakan dalam hubungan matematis oleh: Y A BX . Sebagai misal Y = 2 + 1,4X, secara teoritis bila X = 10, maka Y = 16. Pada kenyataannya tidak demikian, sebab yang mempengaruhi Y bukan hanya X tetapi ada faktor lain yang tidak dimasukkan dalam persamaan, faktor tersebut secara keseluruhan disebut sebagai “kesalahan” (disturbance’s error). Adanya kesalahan ini menjadikan perkiraan menjadi tidak akurat, selalu ada resiko yang disebabkan oleh adanya kesalahan. Kesalahan ini tidak dapat dihilangkan sama sekali, maka resiko ini harus diperkecil sekecil mungkin dengan memperkecil kesalahan. Dengan memperhitungkan kesalahan, regresi linear dinyatakan sebagai Y A BX .
Tak tentu
Curvelinier
REGRESI LINIER SEDERHANA UNTUK POPULASI
REGRESI LINIER SEDERHANA UNTUK SAMPEL
Garis regresi population yang merupakan garis lurus yang menggambarkan tingkat ketergantungan satu variabel terhadap variabel lainnya) Nilai Titik potong garis regresi dengan sumbu Y (intersep)
Variabel Dependen (Response)
Koefisien kemiringan (slope)
Galat
Yi X i i Variabel Independen (Predictor, explanatory)
Garis Regresi Populasi (conditional mean)
Analisis Regresi Linear penurunan parsial terhadap a dan b yang sederhana diperoleh
Garis regresi Sampel merupakan suatu nilai taksiran (estimate) estimate) dari garis regresi populasi dan merupakan nilai taksiran untuk variabel Y Koefisien kemiringan (Slope)
Titik potong (intercept) dengan sumbu Y
Yi b0 b1 X i ei Yˆ b 0 b1 X
Garis regresi sampel (Garis regresi yang diplotkan, nilai taksiran)
Analisis Regresi Linear y
yˆ a bx
2 i
Yi X X i X iYi a Y bX
i
i
i
i
n X i2 X i i i
2
y (+)
dan
y (+)
i
i
n X X i i i 2 i
y (+)
i 2
y (0) y (-)
y (+) y (0)
n X i Yi X i Yi b
Galat sampel
y (-)
y (-) y (-)
a
x
Gambar 2 Garis regresi linier pada diagram pencar
2
4/6/2015
Analisis Regresi Linear
Analisis Regresi Linear Jika berdasarkan kajian teoritis dan sifat dari fenomena yang menghubungkan x dan y dapat diasumsikan mempunyai bentuk hubungan linier, maka persamaan garis regresinya dapat ditentukan sebagai berikut.
Contoh 1 Dari suatu praktikum fisika dasar diperoleh data yang menghubungkan variabel bebas x dan variabel terikat y seperti ditunjukkan dalam tabel berikut. Uji ke1 2 3 4 5 6 7 8
x 6 9 3 8 7 5 8 10 56
Tabel perhitungan: Uji kex 1 6 2 9 3 3 4 8 5 7 6 5 7 8 8 10 56
y 30 49 18 42 39 25 41 52 296
x
Analisis Regresi Linear n xy x y
x x
2
50
8(2257) (56)(296) 1480 5,1389 288 8(428) (56)2
3
2
5
6
1
4
1
Y
5
8
8
7
11
3
10
4
8
y = 5.1389x + 1.0278
10 0 0
2
4
6
8
10
12
x
Gambar. Garis regresi untuk contoh soal 1
Penyelesaian : X Y 2 5 3 8 2 8 5 7 6 11 1 3 4 10 1 4 24 ___
2
n
30
Dengan menggunakan persamaan garis regresi yang diperoleh, maka dapat diperkirakan hasil yang akan diperoleh (nilai y) untuk suatu nilai x tertentu. Misalnya untuk x = 4 maka dapat diperkirakan bahwa y akan bernilai: yˆ a bx 1,0277 5,1389 x =1,0277 + 5,1389(4) = 21,583
X
y 296 37
20
Jadi persamaan garis regresi linier yang menggambarkan hubungan antara variabel x dan y dari data sampel pada percobaan/praktikum di atas adalah: yˆ a bx 1,0277 5,1389x
• Berikut ini data mengenai pengalaman kerja dan penjualan • X=pengalaman kerja (tahun) • Y=omzet penjualan (ribuan)
y
40
a y bx 37 (5,1389)(7) 1,0277
Contoh Soal
8
y2 900 2401 324 1764 1521 625 1681 2704 12920
60
y
n
2
x 56 7 n
x2 36 81 9 64 49 25 64 100 428
xy 180 441 54 336 273 125 328 520 2257
2. Analisis Regresi Linear
Kolom y2 ditambahkan pada tabel meskipun belum digunakan untuk perhitungan persamaan garis regresi. Nilai tersebut akan digunakan kemudian. Jadi dengan menggunakan hasil pada tabel, nilai dari konstanta a dan b dapat ditentukan: b
y 30 49 18 42 39 25 41 52 296
X
56
24 3 8
X2 4 9 4 25 36 1 16 1 96 ___
Y
Y2 25 64 64 49 121 9 100 16 448
XY 10 24 16 35 66 3 40 4 198
(8)(198) (24)(56) (8)(96) ( 24) 2 1.548 1.344 b 1, 25 768 576 a 7 1,25(3) a 3,25 b
56 7 8
• Tentukan nilai a dan b! • Buatkan persamaan regresinya! • Berapa omzet pengjualan dari seorang karyawan yg pengalaman kerjanya 3,5 tahun
3
4/6/2015
Contoh soal lagi
Koefisien Determinasi (R2) R2
((n)(XY ) (X )(Y )) 2 ( n( X 2 ) (X ) 2 (n(Y 2 ) (Y ) 2 )
R2
((8)(198) ( 24)(56)) 2 (8(96) (24) 2 (8(448) (56) 2 )
R2
(1.584 1.344) 2 (768 576) (3.584 3.136)
R2
(240) 2 (192)( 448)
• Diketahui data sebagai berikut:
57.600 0,6696 86.016
Nilai determinasi (R2) sebesar 0,6696, artinya sumbangan atau pengaruh pegalaman Kerja terhadap naik turunnya omzet penjualan adalah sebesar 66,96%. Sisanya 33,04% Disebabkan oleh faktor lain yang tidak dimasukkan dalam model.
• Tentukan konsentrasi Fe untuk sampel dengan absorbans 0.1238? Regresi Linear
Korelasi
Korelasi
• Menilai hubungan 2 variabel numerik • Contoh: 1. Apakah ada hubungan antara motivasi dengan prestasi siswa 2. Apakah ada hubungan antara income keluarga dengan IP mhs 3. Apakah ada hubungan antara umur pasien dengan lama hari rawat 4. Apakah ada hubungan antara kenaikan BBM dengan kenaikan harga bahan pokok
• Menilai kekuatan hubungan linier 2 var numerik: Pearson’s Coefisien Correlation (r) • Dari nilai r kita dapat menentukan: a. Kekuatan hubungan(0 s.d 1) b. Arah hubungan: (+/-) • Kisaran nilai r antara 0 s.d 1: 0 = Tidak ada hubungan linier 1 = Ada hubungan linier sempurna • Arah hubungan: + = Hubungan direct:semakin besar nilai X
• Diagram tebar (scatter-plot) Sumbu X Variabel Independen Sumbu Y Variabel Dependen
semakin besar nilai Y
• - = Hubungan inverse:semakin besar nilai X
Page 21
Korelasi
Analisis Korelasi
ASUMSI Pearson’s Coef. Correlation hanya valid jika asumsi berikut terpenuhi: 1. Untuk setiap nilai X, Nilai Y terdistribusi secara normal 2. Untuk setiap nilai Y, Nilai X terdistribusi secara normal 3. Perkalian antara nilai X dan Y terdistribusi secara normal (bivariate normal distr.)
semakin kecil nilai Y
Jur. Biostatistika, FKM UI, 2001
Sebelum dilakukan analisa regresi, langkah yang biasa ditempuh adalah melakukan analisa korelasi yang ditujukan untuk mengetahui erat tidaknya hubungan antar variabel. Pada analisa regresi, untuk observasi Y diasumsikan bahwa X adalah tetap konstan dari sampel ke sampel. Interpretasi koefisien korelasi untuk mengukur kuatnya hubungan antar variabel tergantung pada asumsi yang digunakan untuk X dan Y. Bila X dan Y bervariasi maka koefisien korelasi akan mengukur “covariability (kesamaan variasi)” antara X dan Y. Di dalam analisa regresi, koefisien korelasi digunakan untuk mengukur “cocok/tepat (fitness)” garis regresi sebagai pendekatan data observasi. Besarnya koefisien korelasi dinyatakan sebagai
xy cov( X , Y ) x y x y
Dalam prakteknya, tidak diketahui tetapi nilainya dapat diestimasi berdasar data sampel.
Koefisien Determinasi (r2): Melihat besarnya variasi variabel Y (dalam persen) yang dapat dijelaskan oleh variabel X. Misal r=0.8, r2=0.64. Artinya sebesar 64% variasi nilai Y dapat dijelaskan oleh variabel X
Bila r adalah penduga , dengan r dinyatakan sebagai
x y i
r
n X i Yi X i Yi
i
i
x y i
i
i
i
i
n X i2 X i i i
i
2
i
n Yi 2 Yi i i
2
Page 23
4
4/6/2015
Korelasi: Data Lay-out dan perhitungan r Subjek
X
X2
Y
Y2
X.Y
1
X1
X12
Y1
Y12
XY1
.
X.
X. 2
Y.
Y. 2
XY.
.
X.
X. 2
Y.
Y. 2
XY.
n
Xn
Xn2
Yn
Yn2
XYn
(X) = …
(X2) …
(Y)…
(Y2)…
(XY) = …
( X ).( Y ) n b X 2 Y2 2 2 ( X ) .( Y ) n n ( XY )
r
r
xy * n x y x * n x 2
2
xy * n x y
x * n x * y * n y 2
2
Page 25
2
2
Korelasi CONTOH KORELASI: Subjek
(X) Usia
(Y) Lama hari rawat
1
20
5
2
30
6
3
25
5
4
35
7
5
40
8
(X) = 150
(Y) = 31
(X2) = 4750
(Y2) = 199
r
Korelasi INTERPRETASI KOEF. KORELASI • Kekuatan hubungan: (Subjektif) r < 0.4 : Lemah 0.4< r <0.8 : Sedang r > 0.8 : Kuat • Korelasi tidak selalu berarti hubungan sebab akibat (causality) • Korelasi yang lemah tidak selalu berarti tidak adanya hubungan • Korelasi yang kuat tidak selalu berarti adanya garis lurus
X.Y
(XY) = 970
970 * 5 150 * 31
SOAL
[4750 * 5 (150) 2 ] * 199 * 5 (31) 2
0,97 Regresi Linear
TERIMA KASIH • SEMUA TUGAS DIKUMPULKAN MINGGU DEPAN HARI SENIN TGL 13 APRIL 2015 SEBAGAI PERSYARATAN UTS…MENGGUNAKAN TULISAN TANGAN DI KERTAS FOLIO BERGARIS
Regresi Linear
5