STATISTIKA
ANALISIS REGRESI DAN KORELASI LINIER SEDERHANA
2
OUTLINE LANJUTAN… • Penentuan garis duga regresi dengan
Metode OLS • konstanta a dan koefisien b
• Analisis Varians • komposisi variasi sekitar garis • r dan r2 • Standard error of estimate • Pendugaan Interval dan Pengujian • parameter (konstanta & koefisien) regresi • prediksi nilai conditional mean (E(Y/X)) & individu (Y)
3
REGRESI SEDERHANA OLS • Tujuan • Mencari garis duga yang paling representatif mewakili pola data • Melihat hubungan antara 2 variabel • Garis duga yang terbaik adalah garis duga yang error = 0 meminimumkan SSE 2 2 Min e = min (Yi Yi ) = min (Yi b0 b1 X i ) 2 i
Ordinary Least Square VS Maximum Likelihood Minimisasi Error
Maksimisasi Peluang
4
Nilai IPK dan Ujian Masuk 8 siswa Siswa Ujian masuk IPK
1 74 2.6
2 69 2.2
3 4 5 6 7 8 85 63 82 60 79 91 3.4 2.3 3.1 2.1 3.2 2.8
Nilai IPK
4 3 2 1 0 50
55
60
65
70
75
80
Nilai Ujian Masuk
85
90
95
100
5
lanjutan ? Nilai IPK
4 3 2 1 0 50
55
60
65
70
75
80
Nilai Ujian Masuk
85
90
95
100
6
Penentuan Garis Regresi
Yˆ a bX
Intercept Variabel Dependen
Variabel independen
Slope garis
Arti dr paramaeter a dan b?
7
Linier VS Non Linier • Linier & Non Linier dlm Variabel (disebut juga fungsi)
Yˆ a bX
Yˆ a bX
2
• Linier & Non Linier dlm Parameter
Yˆ a bX
2 ˆ Y ab X
Yg kita pelajari adalah linier dalam variabel & parameternya
8
Statistik VS Fungsional/Deterministik • Dlm analisa regresi hubungan scr statistik, bukan
fungsional/deterministik • Hub. Statistik variabel terikat bersifat random/stokastik (memiliki probabilitas) • Hub. Statistik ditandai dg error term (e) atau penulisan variabel terikat dg menggunakan tanda topi/cap/prime
9
Ordinary Least Square Y
Regression Plot
E[Y]=0 + 1 X Yi
}
{
Error: i
}
1 = Slope
1 0 = Intercept
X Xi
10
Ordinary Least Square 0
Y
Y
Y
0
0
0
0
X
X
X
Y
Y
Y
X
X
X
11
Ordinary Least Square: Estimasi yang BLUE Hasil estimasi OLS sering disebut dengan istilah BLUE (Best Linier Unbiased Estimator): – Best ~ Efisien, artinya hasil nilai estimasi memiliki varians error yang minimum dan tidak bias. – Linier ~ Linier dalam parameter – Unbiased ~ Tidak bias, artinya hasil nilai estimasi sesuai dengan nilai parameter. – Konsisten, artinya jika ukuran sampel ditambah tanpa batas maka hasil nilai estimasi akan mendekati parameter populasi yang sebenarnya.
12
Ordinary Least Square: Asumsi Untuk dapat menghasilkan nilai parameter yang BLUE (Best Linear Unbiased Estimator) diperlukan asumsi: – Model regresi adalah linier dalam parameter. – Error term (e) memiliki distribusi normal. – Varians error tetap/konstan (homoskedasticity) menjamin efisien (kalau minimum) & tidak bias – Tidak ada hubungan antara variabel bebas dan error term – Tidak ada korelasi serial antara error (noautocorrelation) (antar observasi)
13
Step 1 : Menentukan Variabel X dan Y • Variabel Y (Variabel Dependen) • variabel yang nilai penyelesaiannya dicari melalui model. • Nilai variabel yang ditanyakan soal • Variabel yang dipengaruhi oleh variabel lain.
14
Lanjutan • Variabel X (Variabel Independen) • variabel yang nilainya ditentukan oleh kekuatan dari luar model dan nilai-nilai variabel tersebut berasal dari data yang ada. • Variabel yang dianggap mempengaruhi variabel lain.
15
lanjutan • Contoh : C = a + bY. • C : konsumsi • Y : Pendapatan • Menurut Teori. • C : Variabel dependent • Y : Variabel independent (pngaruhnya (+))
16
lanjutan • Qd = a-bP • Qd : Quantity demand • P : harga • Menurut Teori • Qd : Variabel dependen • P : variabel independen (untuk brng normal, pengaruhnya (-))
17
Step 2 : Menghitung Slope dan Intercept
XY nXY b X nX 2
2
a Y bX
18
Kasus 1: Data Pengeluaran dan Profit (juta $) Year Expenditure Annual Profit (X) (Y) 1990 2 20 1991 3 25 1992 5 34 1993 4 30 1994 11 40 1995 5 31 sum 30 180
2
XY
X2
40 75 170 120 440 155 1000
4 9 25 16 121 25 200
19
lanjutan X X n Y
30 5 6
180 Y 30 n 6
a Y bX 30 - (2)(5) 20
XY nXY b X nX 2
2
1000 - (6) (5) (30) 200 - (6) (5)2 2
20
Lanjutan
Y 20 2 X
Persamaan Garis Duga = Persamaan regresi
21
Y
42 40 38 36 34 32 30 28 26 24 22 20 18 16
Y 20 2 X
0
1
2
3
4
5
6
X
7
8
9 10 11 12 13 14 15 16
22
Apakah Y meminimumkan error ? Year 1990 1991 1992 1993 1994 1995
Annual Profit (Y) 20 25 34 30 40 31
Y
Individual 20+2X error 24 -4 26 -1 30 4 28 2 42 -2 30 1 Total Error 0
Minimum error
23
ANALISIS VARIANS Nilai Y yang diobservasi Y
Deviasi yang tidak dapat dijelaskan (Y Yˆ )
Garis regresi Yˆ
(Y Y )
Y Deviasi yang dapat dijelaskan
(Yˆ Y ) X
24
Koefisien Determinasi r
2
_ 2 2 (Yi Y i ) (Yi Y i ) (Yi Yi ) _
2
TSS
=
RSS
1
=
RSS/TSS +
RSS/TSS = r
2
+
ESS ESS/TSS
1 Y Y Y Yˆ
2 2
Variasi Y sekitar garis regresi Yˆ
Koefisien determinasi Variasi Y sekitar Y
25
Koefisien Determinasi r r
2
Yˆ a bX
2
1 Y Y Y Yˆ
2 2
XY nXY a Y bX b X nX 2
2
[n XY ( X )( Y )]
2
r 2
[n X ( X ) ][n Y ( Y ) ] 2
2
2
2
26
Koefisien Determinasi r
2
[n XY ( X )( Y )]
2
r2
[n X 2 ( X ) 2 ][n Y 2 ( Y ) 2 ]
• Penambahan variabel bebas, tdk menurunkan
koefisien determinasi, tetapi meningkat makin mendekati 1 • Kelemahan: koef. Determinasi menyinggung variasi regresi & residual, tetapi tidak memperhitungkan derajat bebasnya penafsiran koef. determinasi sulit jika intersept-nya = 0 koef determinasi tidak harus di antara 0 & 1
27
Koefisien Korelasi (r)
r
r
2
__
br
sy sx
r
2 ( Y Y ) n 1 __
(X X ) n 1
2
28
STANDARD ERROR OF ESTIMATE • Mengukur variasi titik-titik di sekitar garis
regresi • Jika Se = 0: titik-titik tepat di garis regresi • artinya garis regresi adalah estimator yang
sempurna untuk variabel dependen. Se
e
2
n2
Derajat bebasnya n-2 krn ada 2 prmtr yg akan diduga
29
Lanjutan Se
Se
Se
2 e
n2
ˆ Y Y
2
n2
2 Y a Y b XY
n2
30
Menghitung Standar Error Year 1990 1991 1992 1993 1994 1995
Annual Profit (Y) 20 25 34 30 40 31
20+2X 24 26 30 28 42 30
Individual 2 ˆ Y Y error -4 16 -1 1 4 16 2 4 -2 4 1 2 1 Y Yˆ 42
31
lanjutan Se
Y Yˆ
n2
42 62 3.24
2
32
SEE jika terdistribusi normal Sb
Sb
Se
Sa
2 X nX 2
2 2 X . Se __
n ( X X ) 2
Se ( X ) 2 X n 2
Sa
2 2 X . Se __
n X ( X ) 2
33
Manfaat Standar error • Jika observasi terdistribusi normal disekitar garis
regresi maka: • 68% obs berada
1se
Yˆ a bX 1se • 95.5 % obs berada
2se
Yˆ a bX 2se • 99.7 % obs berada
3se
Yˆ a bX 3se
34
PENDUGAAN INTERVAL PARAMETER Parameter B
P(b t( n2, / 2) sb B b t( n2, / 2) sb ) 1 Sb
Se
2 X nX 2
35
PENDUGAAN INTERVAL PARAMETER Parameter A
P(a t( n2, / 2) sa A a t( n2, / 2) sa ) 1 Sa
2 2 X . Se __
n ( X X ) 2
36
Kasus 1 b2 s b 0.46 b t s b 2 ( 2.132)(0.46) 2.981 b t s b 2 ( 2.132)(0.46) 1.019 P (1.019 B 2.981) 90% Jika persobaan dilakukan berulang maka dalam jangka panjang B akan masuk dalam interval diatas sebanyak 90% dari keseluruha n waktu
37
PENGUJIAN PARAMETER • Dasar: apakah yg diperoleh dr pengamatan, cocok
dg yg dihipotesakan? • Asumsi normalitas, maka pengujian menggunakan distribusi t • Dapat dilakukan, untuk parameter a & b
bB t Sb
a A t Sa
38
Pengujian Parameter B (1) 1. H o : B 2.1 H1 : B 2.1 Misalkan dari data masa lalu diketahui B 2.1 2. Daerah Penolakan Tolak Ho jika t stat t (0.1/2, 4) atau t stat - t (0.1/2, 4) df n - 2 t (0.1/2, 4) 2.132
39
lanjutan 3. Menghitung t - statistik b-B t Sb 2 - 2.1 t 0.217 0.46 4. Kesimpulan Terima Ho. nilai b dan B sama yaitu 2.1 Nilai b masih sama dengan nilai masa lalu.
40
Pengujian Parameter B (2) 1. H o : B 0 H1 : B 0 2. Daerah Penolakan Tolak Ho jika t stat t (0.1/2, 4) atau t stat - t (0.1/2, 4) df n - 2 t (0.1/2, 4) 2.132
41
lanjutan 3. Menghitung t - statistik b-B t Sb 2-0 t 4.35 0.46 4. Kesimpulan Tolak Ho. b signifikan berbeda dengan nol ada korelasi antara X dan Y
42
PREDIKSI • Salah satu manfaat dr regresi masa lalu adalah
untuk peramalan/prediksi • Ada 2 prediksi: 1) prediksi nilai conditional mean E(Y/X) (rata-rata Y pada nilai X tertentu) titik pd regresi populasi => prediksi rata-rata (variasi relatif kecil) Confidence Interval 2) Prediksi nilai individu Y pd nilai X tertentu => prediksi individu (variasi relatif besar) Prediction Interval
43
Interval Prediksi Rata-rata Y E ( yn 1 X n 1 ) bo b1 X n 1
yn 1 t n 2,
1 x X 2 n n 1 se 2 n ( xi X ) i 1
44
Interval Prediksi Individu Y yn1 bo b1 X n1 e
yn 1 t n 2,
1 x X 2 1 n n 1 se 2 n ( xi X ) i 1
45
Kasus 2 Y 1.923 0.3815 X
Diambil dari 1980-2002 Y : Konsumsi X : Pendapatan
JIka X 2003 12000 maka Y2003 1.923 0.3815(1200) 6501
46
Lanjutan Individu n 22 X 10799
x
i X 34110178 Se 21789.95 2
t n 2, / 2 2.086
2 2 1 xn 1 X 1 12000 10799 1 n se 1 21789.95 n 2 n 22 ( x X ) (34110178) 2 i i 1 i 1 153.954
P(6.501 (2.086) (153.954)) Yn 1 (6.501 (2.086) (153.954)) 1 - P(6180 Yn 1 6822) 95%
47
Lanjutan Rata-rata n 22 X 10799
x
i X 34110178 Se 21789.95 2
2 1 xn 1 X n se n ( xi X ) 2 i 1
t n 2, / 2 2.086
1 12000 107992 n 21789.95 22 (34110178) 2 i 1 43.727
P(6.501 (2.086) (43.727)) Yn 1 (6.501 (2.086) (43.727)) 1 - P(6410 Yn 1 6592) 95%
48
Terima Kasih