11.-
BabXVRegresiLinierSederhana
KAT A KUNCI r2mengukurseberapabaikvariabelindependenpadaregresi liniersederhanadapatmenjelaskan perubahan variabel dependen; nilainya antara 0 (buruk) dan 1 (baik). garis regresi garis hitung pada nalaisa regresi yang digunakan untuk menguji hubungan antara dua kuantitas (variabel independen dan variabel dependen). Regresi linier sederhana suatu metodee untuk menganalisa hubungan antara satu variabel independen dan satu variabel dependen. Pada statistik seringkali kita ingin menyelidiki pertanyaan seperti: Apakah ada hubungan antara dua kuantitas? Apakah perubahan pada satu kuantitas menyebabkan perubahan pada kuantitas lain? Sebagai contoh, apakah perubahan pada suku bunga mempengaruhi permintaan perumahan? Di waktu lain kita akan mengetahui jika kita dapat menggunakan satu variabel untuk memprediksi nilai variabellain. Misalnya Anda akan memprediksi nilai konsumsi yang dibelanjakan tahun depan. Konsumsi yang dibelanjakan mungkin sulit untuk diprediksi secara langsung; akan lebih mudah memprediksi nilai pendapatan disposable tahun depan. Anda dapat menggunakan hubungan tersebut dan pengetahuan tentang pendapatan untuk memprediksi nilai konsumsi.
GARIS REGRESI Menurut ilmu ekonomi tingkat pendapatan mempengaruhi kuantitas barang tertentu yang diminta. Pada kebanyakan barang, pendapatan yang lebih tinggi akan menambah permintaan.Tetapi ada juga beberapa barang (barang inferior) yang sedikit dibeli orang walaupun pendapatan mereka bertambah. (Kemungkinan mereka membeli sesuatu yang lebih baik bila mereka mampu, misalnya hamburger merupakan barang inferior jika mereka lebih suka membeli steeks saat pendapatan mereka bertambah). Satu-satunya cara mengatakan apakah barang tertentu merupakan barang inferior adalah mengumpulkan beberapa data. Misalnya kita mempunyai pengamatan tentang pendapatan rata-rata dan penjualan pizza total selama 1 bulan di delapan buah kota:
209 -----
---
--
-
-
Pendapatan
Penjualan pizza
Kota
($. 000)
(000 buah)
1 2 3 4 5 6 7 8
5 10 20 8 4 6 12 15
27 46 73 40 30 28 46 59
Bila dihadapkan pada persoalan yang sebenamya maka akan lebih baik mempunyai pengamatanyang lebih banyak, tetapi delapansampelpengamatanini akanmenggambarkan perhitungan dengan baik. Satu cara yang baik dalam menentukan apakah ada hubungan antara pendapatan dan penjualan pizza adalah dengan menggambar. Kita akan menggambar sebuah diagram dengan sumbu horisontal adalah pendapatan dan sumbu vertikal adalah penjualan pizza, dan juga sebuah titik menandai tiap pengamatan.Tipe gambar ini dinamakan diagram penyebaran (scatter diagram, lihat gambar 15-1). Dari diagram dapat kita lihat secara bahwa ada hubungan antara pendapatan dan penjualan pizza, dan dapat kita lihat juga pendapatan yang bertambah menyebabkan penjualan pizza bertambah pula. Dengan demikian, pizza bukan barang inferior. Alat yang kita gunakan untuk mengetahui dan menjelaskan hubungan tersebut adalah analisa regresi. Pada bab ini kita akan mempelajari regresi linier sederhana yang diterapkan jika hanya ada satu variabel independen yang mempengaruhi nilai variabel dependen. Pada bab selanjutnya akan kita lihat keadaan dengan lebih dari satu variabel independen, untuk itu digunakan regresi linier berganda. Tujuan analisa regresi sederhana adalah memperkirakan pola titik-titik oleh garis lurus. Pada kasus pizza kita tidak dapat menggambar garis melewati semua titik, tetapi kita dapat menemukan garis yang mendekati (lihat gambar 15-2). Tipe garis ini disebut garis regresi. Pendapatan (x)
210
x
y
x
y
5 10 20 8
27 46 73 40
4 6 12 15
30 28 46 59
Gambar 15-1
80 L 70 60
E a OJ
::s .C'
I
50l-
c!:
30 r 20 10
I
.
...
401-
,
,
,
4
0
,
.
.. .
8
,
.
.
.
12
,
16
, 20
Pendapatan (X)
Gambar 15-2
.
80 L
70
.
I 60
E 50la 401OJ ::s
.
.C'
c!: 30 r
;-;.
20
10
I 0
. /.
,
, 4
,
, 8
,
, 12
,
, 16
,
, 20
Pendapatan (X)
Contoh, model ekonomi kadang-kadangmengasumsikan bahwa konsumsiperseorangan ditentukan oleh pendapatan disposable. Di bawah ini adalah daftar pengamatan konsumsi nasional total yang dibelanjakan dan pendapatan disposable beberapa waktu lalu:
211 - - -
--
-
Tahun
Pendapatan disposable (milyar dollar)
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983
695,3 751,8 810,3 914,5 998,3 1.096,1 1.194,4 1.314,0 1.474,0 1.650,2 1.828,9 2.047,6 2.176,5 2.335,6
Konsumsi (milyar dollar) 621,7 672,2 737,1 812,0 888.1 976,4 1.084,3 1.204,4 1.346,5 1.507,2 1.668,1 1.857,2 1.991,9 2.158,6
Kita dapat gambarakan diagram penyebaran (gambar 15-3) dan pada diagram tersebut dapat kita gambarkan garis yang tepat dengan pola titik-titik tersebut (gambar 15-4). Pada kasus lain pol a titik-titik tersebut tidak akan terlihat semua pada garis. Di bawah ini adalah data tahunan hujan tUTUndi beberapa kota di USA pada tahun 1979 dan tingkat pengangguran di tiap kota tersebut.
Kota
Negara
Mobile Phoenix San Francisco Denver Hartford Miami Atlanta Chicago Wichita Boston New York Bismarck Hoston Seattle
Alabama Arizona California Colorado Connecticut Florida Georgia Illinois Kansas Massachusetts New York North Dakota Texas Washington
212
Hujan tahunan (inchi)
Pengangguran (persen)
66,98 7,05 19,53 15,51 43,37 43,37 48,34 34,44 30,58 42,52 33,36 16,16 48,19 38,79
7,1 5,1 6,2 4,8 5,1 5,1 5,1 5,5 3,4 5,5 7,1 3,7 4,2 6,8
Gambar 15-3 2,500 2,000
. . . ..
1,500
E
0c :.::
1,000
.
..
..
..
500
0
500
1,000
1,500
2,000
2,500
Pendapatan
Gambar 15-4
2,500
500
o
500
1,000 1,500 2,000 Pendapatan
2,500
Diagram penyebaran ditunjukkan pada gambar 15-5.Kita dapat mencoba menggambar garis yang tepat dengan titik-titik ini, tetapi dapat kita lihat garis tersebut tidak mengikutipola titkk-titik dengan tepat (gambar 15-6). Tidak cukup baik hanya menemukan garis terbaik, kita juga harns menemukan cara mengukur seberapa baik garis tepat dengan titik-titik tersebut. 213 --
-
Gambar 15-5
9
. .. . . . . .
8
&
1.
bI) bI) d:
:
.
. .
2
010203040
506070
Hujan tahunan (inchi)
Gambar 15-6
9
"
C'
&
7
r
6
5
gg
d:
.
..
8
:
.
. .
2
010203040
506070
Hujan tahunan (inehi)
MENGHITUNG GARIS REGRESI Gambar 15-7 menggambarkan keadaan umum. Kita akan menggunakan x untuk mewakili variabel independen yang akan diukur sepanjang sumbu horisontal. Kita akan gunakan y untuk mewakili variabel dependen yang dependen terhadap x. Pada contoh pizza, pendapatan merupakan variabel independen dan penjualan pizzamerupakan variabel dependen. Kita akan mengukur variabel dependen sepanjang sumbu vertikal. Misalnya kita mempunyili empat pengamatan, maka diagram penyebaran mempunyai empat titik yang akan disebut (xl,yl), (x2,y2), (x3,y3), dan (x4,y4).
214
Gambar 15-7
x
Beberapa garis dapat dijelaskan dengan menetapkan dua angka: slope dan intercept vertikal. Kita gunakan gunakan m untuk mewakili slope dan b untuk mewakili intercept. Persamaan garis dapat ditulis sebagai berikut y =rnx + b Misalnya kita menebak garis regresi terbaik adalah garis sepertipada gambar 15-8.Garis ini kelihatannya merupakan pilihan yang baik, tetapi tidak tepat dengan titik-titik secara sempuma. Untuk tiap titik ada jumlah vertikal jarak antara titik dan garis yang pasti. Kita sebut jarak tersebut, error atau residual garis dibandingkan titik tersebut. Nilai error yang lebih besar menunjukkan bahwa garis tersebut buruk dalam mewakili titik-titik. Tiap titik mempunyai error sendiri (Kita sebut error 1,error2, error3, error4). Sebaiknya kita pilih garis sehingga error total sekecil mungkin. prosedur normal pada statistik adalah meminimisasi penjumlahan kuadrat semua error. Kuadrat dari error untuk titik (xl, yl) adalah (errorY 1
= [yo- (rnx. + b)]2 1
1
Kita sebut jumlah kudrat semua error, SE gari. (kependekatan dari "error kuadrat garis"). SEgaris= [y( - (rnx( + b)]2 + [Y2- (rnx2 + b)]2 + [Y3- (rnx3 + b)F + [Y4- (rnx4 + b)]2
Kita dihadapkan pada pertanyaan, apakah ada hubungan antara x dan y? Berikut adalah cara lain melihat pertanyaan ini: Apakah nilai x yang diketahui membantu Anda dalam memprediksi nilai y? Misalnya Anda menemukan ada hubungan yang sangat jelas antara x dan y yang ditunjukkan garis berikut: 215 ---
- -
-
-
y =2x + 15 Gambar 15-8
y
x
Kemudian,jika Anda mengetahui nilai x tahun depan adalah 10,Andadapat memprediksi nilai y tahun depan adalah 2 x 10 + 15 = 35. Jika tahun depan nilai x adalah 30, Anda dapat memprediksi nilai Y tahun depan adalah 75.
Pada umumnya, jika variabel x mempunyai nilai Xi'kita akan gunakan simbol yxi untuk melambangkan nilai yang diprediksi untuk nilai Xtertentu. Pada umumnya: Yxi= m Xi+ b
Catat bahwa akan ada nilai yxiyang berbeda untuk tiap nilai Xiyang berbeda (nilai prediksi y juga disebut nilai yang tepat). Kita dapat menuliskan untuk error pertama seperti berikut:
Pada umumnya kita akan menggunakan n untuk melambangkan jumlah data, sehingga kita dapat menuliskan untuk SEgaris dengan notasi penjumlahan: SE gans .
= L[ y.-(mx.+b)]2 1 I = L (Yi -
Y xY
Untuk selanjutnya pada bab ini, kita tentukan penjumlahan dari i = 1 sampai n. Untuk memudabkan, kita abaikan lambang keeil di atas dan di bawah sigma. Jika Anda lihat sigma (L) pada bab ini, ingat bahwa itu berarti Li=1. 216
_
_
..
___ ___h
Kita mempunyai n pengamatan untuk x dan y, sehingga yang hanya tidak diketahui untuk SEgarisadalah m dan b. Bagaimanapun juga kita ingin mendapatkan nilai m dan b yang akan menghasilkan pada SEgarissekecil mungkin. Ingat bahwa kita dapat memilih nilai m dan b, tetapi kita tidak dapat mengubah nilai x dan y karena telah kita dapatkan nilai-nilai ini saat kita melakukan pengamatan. hal ini membutuhkan kalkulus untuk mendapatkan nilai m dan b optimum. Hasilnya adalah m dan b harus memenuhi dua persamaan ini;
- =0
...-
"
...
+ bx - xy =0
mx + b - y m
"
X""2
dimana x merupakan nilai rata-rata x, x2merupakan nilai rata-rata x2, y adalah nilai rata-rata y, dan xy adalah nilai rata-rata x kali y. Persamaan pertama menyatakan kenyataan yang membuat banyak hal: garis terbaik melewati titik (x,y) yang berarti, titik beada pada nilai ratarata x dan y. Kini kita dapat menggunakan dua persamaan yang telah ada di atas untuk mendapatkan formula untuk slope:
- --
...
xy - x y
m=
Sekali kita mengetahui m, kita dapat menghitung b:
" - ...b = y - mx Kini kita dapat menghitung slope dan itercept untuk contoh pizza. Kita asumsikan bahwa penjualan pizza tergantung pada pendapatan, sehingga kita sebut pendapatan adalah variabel independen (x) dan penjualan pizzza adalah variabel dependen (y). Kita perlu menghitung x, y, x2 dan xy.
total rata-rata
x
Y
x2
xy
y2
5 10 20 8 4 5 12 15
27 46 73 40 30 28 46 49
25 100 400 64 16 36 144 225
135 460 1460 320 120 168 552 885
729 2116 5329 1600 900 784 2116 3481
80 10000
349 43,625
1010 126,250
4100 512,500
17055 2131,875 217
----
-
-
-
x = 10, Y=43,625, x2= 126,25dan xy = 512,5. Ingat bahwakitajuga menghitung y2 = 2131,88 karena nantinya akan berguna. Kita juga menggunakan formula untuk m dan b: 512,5 - (10 x 43,625)
...
= 2.905
m=
12,25- 102
.
b
...-
= Y - mx = 43,625 - 2,905 x 10 = 14,577
YANG HARUS DIINGA T 1.
Jika Anda mempunyai diagram penyebaran dengan nilai x sepanjang sumbu horisontal dan nilai y sepanjang sumbu vertikal, maka slope dan intercept vertikal garis yang tepat dengan titik-titik ini dapat dieari dengan formula ini:
- --
xy - x y
=
slope m
intercept
2.
.
...-
= b = Y - mx
Tanda "bar" diatas huruf melambangkan nilai rata-rata. Garis ini memperkecil penjumlahan kuadrat dari error (jarak vertikal dari tiap titik ke garis).
KETEPATAN GARIS REGRESI Seperti telah ditunjukkan di muka, slope dan intercept garis regresi tidak menjelaskan seberapa baik garis tepat dengan data. Oleh karena itu kita perlu membuat pengukuran lain untuk menyatakan seberapa baik garis tersebut tepat. Kita cendernng hanya menggunakan SEgaris,karena formula tersebut mengukur berapa banyak selisih antara titik-titik pada garis dan data sesungguhnya:
SEgans. = L. (yI. _-y Xl.)2 Jika SEgaris adalah nol, maka garis tersebut tepat dengan data secara sempuma. Jika nilai SEgaris lebih besar daripada nol, maka kita perlu sesuatu untuk membandingkan angka ini dengan yang kita katakan apakah tepat dengan garis. Kita dapat membandingkan prediksi garis regresi dengan rencana prediksi garis regresi dengan rencana prediksi sederhana: Kita dapat selalu memprediksi nilai y menjadi y. Contoh, anggap Anda ingin memprediksi turnn hujan secara total di kota Anda tabun depan. Jika Anda
218
-
.111
tidak mengetabui tentang keadaan euaea tabun depan, tetapi Anda mengetabui rata-rata turun hujan di kota Anda selarna beberapa tabun lalu, maka prediksi terbaik yaitu menebak turun hujan tabun depan akan sarna seperti rata-rata. Marilab kita bandingkan pendapat kita (menggunakan garis regresi) dengan pendapat sederhana seseorang yang selalu memprediksi nilai y akan sarna dengan y. Kita dapat menghitung error kuadrat total dari metode pendapat sederhana (sebut SErt'karena merupakan rata-rata error kuadrat total y):
[ Kita juga dapat menulis: SErt = n var (y)]. Jika y sungguh tergantung pada x, dan garis regresi menjelaskan hubungan seeara tepat, maka perbandingan tidak akan mendekati. Kita akan melakukan yang lebih baik dalam memprediksi nilai y menggunakan garis regresi daripada metode pendapat sederhana tanpa garis. Pada kasus itu, error kuadrat (SEgar) akan lebih sedikit daripada error pendapat sederhana (SErt)' Anggap y tidak benar-benar tergantung pada x. Pada kasus demikian garis regresi tidak akan membantu kita.k Reneana pendapat sederhana akan bekerja harnpir baik
dan SEgans. harnpir sebesar SEn . Oleh karena itu kita akan menielaskan Pengukuran kita ~ tentang ketepatan garis regresi sebagai berikut:
SE
r=I-~ SErt Kuantitas r2 disebut koefisien determinasi (koefisiean penentu). Pengukuran ini mempunyai dua eiri khas agar pengukuran kita eoeok atau tepat: 1. Jika SEgaris = 0, maka r = 1, dan garis tersebut tepat dengan sempuma. 2. Jika SEgariS = SErt'maka r = 0, dan garis tersebut sangat tidak tepat. Nilai
r
akan selalu berada diantara 0 dan 1. Lebih tinggi
r,
makin tepat. Berikut ini
adalab interpretasi lain: nilai r2 merupakan fraksi variasi y yang dapat dijelaskan oleh variasi x. Contoh, nilai r dari 0,75 berarti 75 persen variasi y dapat dijelaskan oleh variasi x. (Simbol r2digunakan karena merupakan kuadrat koefisien korelasi sampel antara dua variabel. Koefisien korelasi akan dibicarakan pada bagian selanjutnya). Kita dapat menghitung
nilai
r untuk
eontoh pizza dengan mendapatkan
jumlab kuadrat
semua residual. Untuk tiap nilai x dapat kita hitung nilai prediksi y dari formula ..
Y
.
Xl
.. = mx.
II
I
+b
= 2,905x.
I
+ 14,577
Kemudian kita dapat menghitung residual dengan eara mengurangi nilai y sebenamya dari nilai prediksi. Berikut ini adalab tabel hasil: 219 --
11II
Nilai sebenarnya x
Nilai prediksi y
Resideual XI Y.=mxi+b
5
10 20 8 4 6 12 15
27 46 73 40 30 28 46 59
80
349
total
Kuadrat Residual Yi- Yxi
(y.Y I YXI
29,102 43,627 72,677 37,817 26,197 32,007 49,437 58,152
-2,102 2.373 0,323 2,183 3,803 -4,007 -3,437 0,848
4,418 5.631 0,104 4,765 14,463 16,056 11,813 0,719
349
0
57,970
Tabel ini menggarnbarkan dua sifat yang menarik dari garis regresi: 1. Jumlah residual selalu nol. 2. Jumlah nilai yang diprediksi selalu sarna dengan jumlah nilai y sebenarnya. Kita dapat menghitung variance nilai y dari formula var(y(\)
= Y'-
- y2
= 2131,875 - 43,6252 = 228,734
Karena Var(y) = SEjn, dapat kita hitung: SEn= n var(y) = 8 x 228,734 = 1829,875 maka: 57,970
r = 1-
= 0,968 1829,875
Garis regresi tepat dengan data 96,8 persen dari variasi penjualan pizza dapat dijelaskan oleh variasi pendapatan. Nilai r dapat juga dihitung dari formula lain ini:
220
atau (nT xy - T xT y)2 (nT x - T xHnT y - T y) dimana T = ~x T = ~ y T = LX Y T = Lx2 dan T = L y 2. x ~, y £.." xy , x ' y
Berikut ini adalah hasil dari contoh lain: Hubungan pendapatan disposable/konsumsi = 0,930 = -29,262 = 1000
slope intercept r2
Hubungan tUfUnhujan/pengangguran slope = 0,025 intercept = 4,486 r2 = 0,141 Ingatbahwa kita tidak dapat menghitung r2jika semua nilai y sarna, karena SErt = O. Jika y selalu konstan, kita tidak memerlukan garis regresi untuk memprediksi nilainya.
YANG HARUS DIINGA T 1. Nilai r2 adalah antara 0 dan 1 yang menunjukkan apakah pengertian nilai x dapat membantu Anda atau tidak dalarn mengestimasi nilai y. 2. Nilai r2mendekati 1 menunjukkan garis regresi sangat tepat dengan titik-titik.
3. Nilai r2 dapat dihitung dari salah satu formula berikut:
atau r2
= 1 - SE
.
gans
SErt
dimana SE gans.
= L (y.1 - ..y XlY dan SErt = (y .I _ -y )2.
KORELASI Korelasi (atau koefisien korelasi) juga mengukur tingkat hubungan linier antara dua variabel. Korelasi (dilarnbangkan oleh r) selalu di antara -1 dan 1. Nilai r2 untuk regresi 221
adalah sama dengan kuadrat korelasi antara dua variabel regresi. Jika slope garis regresi positif, maka r adalah positif,jika slope negatif, maka r juga negatif. Korelasi adalah nol jika garis regresi mempunyai slope nol. Korelasi mendekati nol berarti tidak banyak hubungan tinier antara dua variabel (Hal itu mungkin dapat menjadi hubungan non linier antara dua variabel meskipun jika korelasi mendekati nol. Akan kita bicarakan kemungkinan tersebut kemudian). Nilai korelasi mendekati I dan -1 menunjukkan bahwa ada hubungan tinier antara dua variabel yang sangat kuat. Berikut ini adalah contoh koefisien korelasi. Kita mempunyai pengamatan tinggi, berat, pengalaman dan umur dari 49 pemain sepakbola. Gambar 15-9 sampai 15-11 menunjukkan diagram penyebaran yang membandingkan tinggi terhadap berat, pengalaman terhadap umur, dan berat terhadap pengalaman. Gambar 15-9
.. . .. .. .. t ... . .. . . .. . . . .. .. £1:1 .. . . .. .. . . . .. .. . . .. . . l 290 280
270
260
250
240 230
220
210
I
200 l190
180
170
160 150 5-105-11 6-0 6-1 6-2 6-3 6-4 6-5 6-6 6-7 6-8 Tmggi
Seperti yang telah kita prediksi, ada hubungan tinier yang hampir sempurna antara pengalaman dan umur, koefisien korelasi antara dua variabel tersebut adalah 0.970. Juga ada hubungan linier yang kuat antara tinggi dan berat (korelasi 0,715). Disamping itu, ada tidak ada hubungan antara berat pengalaman (korelasi 0,043) karena tidak ada alasan mengapa pemain yang lebih berpengalaman lebih berat daripada pemain yang kurang pengalaman. 222
Gambar 15-10
. . ..
34133 l-
... .... . ...
32 31 30 29 .
.. .. . ..
28
.
27
:t
... .. .. .. ... ......
241-
23:: 22
... ,
,
,
,
,
,
,
,
,
,
,
0
1
2
3
4
5
6
7
8
9
10 11
,
, 12
13
Tinggi
Gambar 15-11
. . ... . . . . . . .. ..
290 280 270 260 250
240 230 G
CQ
220 210 200 190 180 170
l
t
.
. .. . . f: . . ... : . l-
. . . ...
. .. . . . ..
..
160 150 0
1
2
3
4
5
6
7
8
9
10
11 12
13
Pengalaman
223
- -
Koefisien korelasi dapat dihitung dari formula berikut:
-
--
xy - x y
r=
=
--
xy - x y
I Var(x) Var(y) Kita dapat menghitung korelasi untuk contoh pizza:
r=
-
--
xy - x y
=
--
xy - x y
I Var(x) Var(y) 512,2 - (10 x 43,625)
r=
(126,25 - 1()2)(2131,88 - 43,6252)
= 0,984 ANAL/SA REGRESI SECARA STATISTIK Kini kita perlu membuat tes secara statistik pada hasil regresi. Untuk melakukan hal ini kita perlu membuat beberapa asumsi tentang kaidah yang berhubungan dengan x dan y. Pada model regresi standar kita asumsikan bahwa sifat hubungan yang sebenamya antara x dan y dapat dijelaskan oleh persamaan:
YI. = mx.1 + b + e.1 dimana \ adalah pengamatan ke-i untuk variabel x, yj adalah pengamatan ke-i untuk variabel y, dan ej dikenal sebagai error random. Kita asumsikan bahwa x adalah pengaruh dominan y, dan hubungannya dapat dijelaskan oleh garis lurus dengan slope many-intercept b. Sayangnya nilai m dan b tidak diketahui, tetapi seperti yang telah Anda kira, kita akan menggunakan prosedur secara statistik untuk mengestimasi nilai-nilai tersebut. Jika persamaan yang benar adalah y = mx + b, maka x hanya merupakan faktor yang mempengaruhi y. Setiap satu kenaikan atau penurunan y dapat dijelaskan oleh kenaikan atau penurunan x. Bagaimanapun juga, hampir selalu ada beberapa faktor yang mempengaruhi nilai variabel dependen. Jika garis regresi menunjukkan hubungan yang baik, faktor-faktor lain ini misterius dan tidak diketahui, yang kita sebut error random. Pada persamaan di atas e merupakan variabel random yang menunjukkan semua faktor-faktor lain ini. (Bila kita membicarakan regresi berganda, kita akan melihat bagaimana mungkin hal itu terdiri dari beberapa faktor lain ini pada model regresi; tetapi bahkan akan selalu ada beberapa residual faltor yang tidak dijelaskan yang menyusun error random). Jika kita mempunyai n pengamatan, maka akan ada n error random yang berbeda. Kita biarkan ejmenunjukkan pengaruh error random pada pengamatan pertama. Pada umumnya 224
-ej adalah variabel random yang menunjukkan pengaruh error random pada observasi ke-i. Kita mengetahui bahwa nilai yang diharapkan tiap error random adalah nol [E(e) =0] karena kenyataannya kita telah memasukkan intercept b pada persamaan. Kita biarkan Varee) sarna
dengan cr2, tetapi sayangnya kita tidak mengetahui nilai cr2 sebenarnya. Jika x merupakan prediktor y yang sangat baik, maka cr2 cendening kecil. Jika cr2 besar, maka ada faktor penting lainnya yang mempengaruhi y dan kita hendaknya mencoba memasukannya pada model. Kita juga akan mengasumsikan tiap error random mempunyai distribusi normal, yang
variance cr2 adalahsama untuktiap errorrandom,dan tiap errorrandomindependendari semua error random lain. Untuk meringkas keadaan: y=mx+b+e Di sini x diketahui dan tidak random. Kita mempunyai daftar n pengamatan untuk x.Juga y, diketahui dan random. Kita juga mempunyai n pengamatan y, dengan tiap pengamatan menjadi berpasangan dengan satu dari pengamatan x. Adanya e mempunyai arti bahwa y adalah variabel random dengan distribusi normal. E(yI.) =mx.I + b
dan
Var(y)
= cr2
Disini m dan b tidak random, tetapi nilai sebenarnya tidak diketahui; e adalah random dan tidak diketahui. Kita mengetahui bahwa E (e) =0, tetapi Varge) =a2 tidak diketahui. Kita asumsikan e mempunyai distribusi normal. Meskipun nilai sebenarnya m dan b tidak diketahui, kita daapt menghitung slope dan intercept garis regresi:
- -...
m= A
xy - x y
_ A-
b=y-mx
Kini Anda lihat mengapa kita memasukkan topi ( ). Pada kesimpulan statistik kita sering meletakkan topi di atas statistik yang dihitung yang digunakan untuk mengestimasi nilai parameter yang tidak diketahui. Garis regresi disebut garis least-squares (kuadrat terkecil), sehingga m d~ b dapat disebut estimator least-squares parameter m dan b. m dan b adalahestimator kemungkinan maximumdari m danb. Hal itu dapat ditunjukkan bahwa m berdistribusi normal denan E(m) = m dah
Var
(ill) =
225 ---
--
-
Kita dapat menuliskan ekspresi untuki m seperti berikut:
m= A
yang juga dapat ditulis 1 A
m=
I (Xi- X) Yi
Ingat bahwa Xadalah kosntan dan y adalah variabel random dengan distribusi normal. Drai ekspresi di atas dapat kita lihat bahwa m didapatkan dengan menarnbah semua variabel random dikalikan dengan konstan yang berbeda, maka kita mengetahui dari properti distribusi normal bahwa m juga akan berdistribusi normal.
KenyatannyabahwaE(m)=m adalah penting. Ini berarti I1ladalah estimator slope tak bias. Ini juga dapat ditunjukkan bahwa m adalah estimator terbaik (karena mempunyai variance yang paling kecil) antara kelas umum yang pasti dari semua estimator tak bias. Ekspresi untuk variance m mengatakan bahwa variance m lebih besar jika (J2lebihbesar. Kelihatannya beralasan, karena nilai (J2yang lebih besar berarti kita dapat mengharapkan penyebaran yang lebih pada garis regresi sebenarnya, dan kenaikan penyebaran akan membuatnya lebih sulit dalarn memaksakan nilai m yang sebenarnya. Ekspresi (xi - x)2 menunjukkan error kuadrat rata-rata x, atau dapat kita tulis. (Xi
- X)2 = n Var(x)
Dapat kita lihat, bila ada penyebaran yang lebih besar diantara nilai X,maka variance m akan lebih sedikit dan akan lebih mud'ah memaksakan nilai m sebenarnya. Gambar 15-2 menggarnbarkan dua keadaan yang berbeda. Pada tiap kasus jumlah pengarnatan adalah sarna. Pada contoh (a) tidak banyak penyebaran diantara nilai x. Pada kasus ini akan ada ketidakpastian yang lebih banyak tentang nilai slope sebenarnya daripada contoh (b). Karena m berdistribusinormaldengan rata-ratam dan variance(J2/I (Xi- x)2, kita mengetahui bahwa variabel random ini: A m-m
226
mempunyai distribusi normal standar. Oleh karena itu kita dapat menentukan confidence interval 95 persen untuk m: 1,96cr
mIJ Gambar 15-12 y
y
..... ... ..
. x
(a)
.. .. .. ... x
(b)
(a)
(b)
(lihat bab 11). Bagaimanapun juga ada satu problem nyata menghitung confidence interval dalam soal: kita tidak mengetahui nilai cr.Kita perlu cara untuk mengestimasinya. Jika kita mengetahui nilai m dan b yang sebenamya, maka akan mempunyai n pengamatan dari variabel random e: e.I =YI. - (rnx.I + b) dan seterusnya. Karena E( e) = 0, dapat kita tulis
dan kita dapat mengestimasi a2 dengan rata-rata kuadrat e. Karena kita tidak menetahui m dan b, kita dapat menggunakan residual dari perhitungan garis regresi: A
[y\
- (mx,
A
A
A
+ b)], [Y2- (mx2 + b), dst
Penjumalahan kuadrat seluruh residual dinamakan SEgarisKini kita menuju pertentangan antara kriteria yang berbeda untuk estimator. Estimator kemungkinan maksimum dari a2 sama
-
dengan SEg...Jn. Agaris terdapat estimator cr2tak bias, kita harus menggunakan SE~(n 2). (n - 20 adalah degree of freedom error kuadrat garis, karena kita mulai dengan titik-titik n tetapi kehilangan dua degree of freedom saat kita menggunakan pengamatan untuk mengestimasi nilai slope dan intercept.) Kuantitas SEgari/(n - 2) disebut rata-rata error kuadrat (MSE):
227 - - --
--
--
-
--
I!III
A
SEgans.
I (y; - Y xl
=
=
MSE=
n-2
n-2
"
I [Yi- (mx) + b)F n-2
Nilai MSE yang diharapkan adalah cr2, yang membuat menjadi estimator cr2tak bias. Kita telah menentukan bahwa variabel random ini: A
m-m
berdistribusi normal standar. Pada keadaan yang harnpir sarna paa bab II, kita menggantikan estimator untuk cr2di tempat nilai cr2yang tidak diketahui, dan kita tinggalkan dengan sesuatu yang berdistribusi 1. Pada kasus ini, variabel random A
m-m
mempunyai distribusi t dengan df n - 2. Dengan demikian confidence interval adalah
a adalah larnbant yang berasal dari Tabel A3-5 seperti Pr( -a < t < a)
= CL
dimana t adalah variabel random yang berdistribusi t dengan df n - 2 dan CL adalah confidence level. Pada contoh penjualan pizza MSE =57.97/6 =9,662 dan I (Xi - X)2 =210. Jika kita pilih confidence interval 95 persen, kita dapat lihat dari Tabel A3-5, nilai a adalah 2,447. Telah kita
dapatkan m = 2,905, sehingga confidence interval adalah 9,662 2,905 :t 2,447 210 228
yaitu dari 2,38 sampai 3,43. Kita juga dapat membuat tes hipotesa pada model. Ada satu hipotesa nol yang penting: "Nilai x tidak mempunyai hubungan terhadap nilai y". Jelasnya, jika kita pikir regresi kita baik,hendaknyakitamengumpulkanbuktisecarastatistikyangcukupagardapat membuktikan hipotesa ini salah. Dari persamaan y =mx + b + e, dapat kita lihat tidak ada hubungan antara x dan y jika nilai slope sebenarnya adalah nol. Karena (ill - m)
mempunyai distribusi t dengan df n - 2, jika m = 0 maka m
mempunyai distribusi t dengan df n - 2. Dapat kita hitung nilai statistiknya. Jika kelihatannya masuk akal menghitung nilai dari distribusi =t, maka kita akan menerima hipotesa nol; selain
itu akan kita tolak. Pada contoh penjualan pizza statistik t adalah 210
= 13,542
2.905 9,662
Untuk pengujian dua sisi pada tingkat signiflkan 5 persen, nilai kritis untuk distribusi t dengan df = 6 adalah 2,447. Karean 13,542 terletak pada daerah kritis, maka kita dapat menolak hipotesa nol yang mengatakan nilai slope sebenarnya adalah nol. YANG HARUS DIINGA T 1.
Asumsikan hubungan yang benar antara x dan y ditentukan oleh formula ini:
y=mx+b+e dimana e adalah variabel normal random dengan raa-rata 0 dan variance (12 tidak diketahui. 2.
Estimator kuadrat terkecil m dan b adalah estimator kemungkinan maksimum m dan b. dan juga merupakan estimator tak bias.
229 - --
-
--
--
- -
3. Rata-ratakuadraterror: L
[Yi -
(m Xi + b) F
MSE=
n-2 4.
adalab estimator tak bias dari nilai (J2yang tak diketabui. Untuk menguji hipotesa babwa nilai slope yang sebenarnya adalab nol, menghitung estatistiknya: .. m
Jika nilai slope sebenarnya adalab nol, maka statistik ini akan mempunyai distribusi t dengan df n - 2. MEMPREDIKSI HILAI Y EMP AT HAL PENTING TENT ANG PREDIKSI NILAI Kini akan kita bicarakan bagaimana menggunakan model regresi ootuk memprediksi nilai variabel dependen. Sebelum kita membuat prediksi dengan model regresi, kita harus tnemperhatikan beberapa hal penting.
·
·
Beberapa prediksi yang berdasarkan pada model regresi adaIab prediksi bersyarat, karena prediksi untuk variabel bergantung padanilai variabel independen. Anggap Anda telab mendapatkan hubungan regresi yang menjelaskan hubungan antara y dan Xsecara sempuma. Pada kasus tersebut Anda dapat memprediksi nilai y berikutnyajika (tetapi penjualan pizza tergantungpada pendapatan seperti yang telab diprediksi pada hubungan regresi, maka kita dapat memprediksi penjualan pizza tabun depan jika kita tabu pendapatan tabun depan. Jika kita tidak dapat memprediksi pendapatan taboo depan, maka kita tidak dapat memprediksi pendapatan tabun depan, m~a kita tidak dapat memprediksi nilai sebenarnya penjualan pizza tabun depan (meskipun mungkin masih sangat berguna mempunyai model regresi yang mengatakan berapa banyak pendapatan yang mempengaruhi pennintaan pizza). Garis regresi telab diestimasi menggunakan data lama. Garis ini tidak akan dapat memprediksi berikutnya (tabun depan) jika hubungan antara x dan y berubab. Perubaban yang tiba-tiba pada orang-orang yang lebihmenyukai pizzaakan menjatuhkankemampuan garis regresi untuk memprediksi nilai penjualan pizza berikutnya.
230
Gambar 15-13
200
200
..
.C\ 1:.~·, 10
· ·
·
20 25 (a)
10
.
20 25 (b)
\
Banyak prediksi regresi mencoba memprediksi nilai y pada situasi dimana nilai x berada diluar daerah pengamatan x sebelumnya. Prediksi ini dikenal dengan ekstrapolasi, yang kurang dapat dipercaya daripada prediksi yang berdasarkan nilai varibel independen yang berada di dalam daerah nilai pengamatan sebelumnya. Contoh, gambar (a) pada gambar 15-13menunjukkan banyaknya pengamatan penjualan pizza sebagai fungsi dari pendapatan pada susunan barn. Kelihatannya beralasan untuk menoojukkandatadengangarislurns.Anggaptaboodepankitamengharapkanpendapatan menjadi 25. Berdasarkan garis regresi, kelihatannya masuk akal memprediksi penjualan pizza tabun depan menjadi 200. Bagaimanapun juga prediksi ini adalah ekstrapolasi. Analisa regresi memberikan bukti yang baik bahwa hubungan antar pendapatan dan penjualan dapat dengan baik ditunjukkan oleh garis lurns saat pendapatan di daerah 10 sampai 20, tetapi kita tidak mempunyai cara mengetahui untuk meyakinkan apakah hubungan garis ini mempengarnhi tingkat pendapatan lain. Halini cukup memungkinkan tidak diketahui hubungan antara pendapatan dan penjualan pizza yang ditunjukkan pada gambar 15-13 (b). Kurva ini menyarankan penjualan pizza tidak terns bertambah seperti perlambahan pendapatan. Sebagai gantinya orang-orang mulai pergi ke restoran yang lebih lengkap dan membeli sedikit pizza. Kurva ini sesuai dengan nilai data asli seperti garis regresi, tetapi memprediksi nilai yang jauh berbeda untuk penjualan pizza jika pendapatan adalah 25. Sepanjang pengamatan hanya menyembunyikan pendapatan didalam daerah sempit yang ditunjukkan, kita tidak punya cara untuk membedakan antara dua situasi ini, dan ekstrapolasi berdasarkan garis regresi mungkin agak salah. Kenyataannya hubungan yang kuat antara dua variabel tidak menunjukkan aa sebab dan
akibat hubungan antara keduanya. Jika Anda mendapatkan garis regresi yang sesuai dengan hubungan antara y dan x sangat baik, maka ada empat kemungkinan: 1. Nilai y mungkin benar-benar. tergantung pada nilai x, seperti yang telah kita asumsikan. 2. Hubungan pengamatan mungkin terjadi secara lengkap oleh kemungkinan. Jika kita mempunyai banyak pengamatan, ini tidak mungkin ekstrim, tetapi kita lihat pada statistik kita tidak dapat mengubah kemungkinan kejadian yang signifIkanmungkin terjadi secara random. 231
--
-
..
3.
4.
Mungkin ada tiga variabelyang mempengaruhi x dan y. Ini penjelasankemungkinan yang paling banyak untuk situasi dimana dua variabel merupakan korelasi yang cukup cekat tetapi tidak terlihat hubungan kausal antara mereka. Contoh, banyak variabel yang tidak berhubungan cenderung bertambah karena waktu. Sebenamya mungkin ada hubungan kausal antara x dan y, tetapi mungkin y menyebabkan x. Kita boleh menentukan secara salah yang mana yang bariabel dependen dan yang mana yang independen. Contoh, kita asumsikan pendapatan yang lebih tinggi menyebabkan orang'-orang membeli pizza lebih banyak. Bagaimanapun juga, hal itu mungkin terjadi seperti ini: saat orang-orang membeli pizza lebih banyak, mereka menghasilkan pendapatan yang lebih banyak untuk semua orang yang bekerja di tempat pizza, dan ini membawa efek ganda yang menaikkan pendapatan di seluruh komunitas. Dapat juga penjualan pizza yang lebih banyak menyebabkan pendapatan yang lebih tinggi. lni adalah contoh lain. Anda mungkin telah mendapatkan hasil regresi yang kelihatannya menunjukkan tingkat advertensi yang lebih banyak menyebabkan penjualan bertambah banyak. Anggap perusahaan menempatkan biaya advertensinya pada dasar penjualan. Oleh karena itu cukup mungkin penjualan yang lebih banyak menyebabkan biaya advertensinya yang lebih banyak.
MEMPREDIKSI NILAI VARIABEL DEPENDEN Telah kita perhatikan empat hal penting dalam memprediksi nilai y. Misalnya kita telah tentukan x benar-benarmenyebabkan y, hubungan ini masih akan diterapkan selanjutnya dan dapat secara tepat dijelaskan oleh garis regresi y =2,905x+ 14,577. Jika kita mengetahui nilai pendapatan tahun depan sebesar 16, maka kita akan memprediksi nilai y tahun depan menjadi 2,905 x 16 + 14,577 = 61,06. Pertanyaan selanjutnya adalah; Seberapa tepat prediksi ini? Kita hendaknya membuat sebuah interval yang mempunyai kemungkinan 95 persen yang nilai y akan berada pada interval (x = 16). Tipe sarna dengan confidence interval untuk parameter yang tidak diketahui. Anggap untuk sementara kita mengetahui nilai m, cr,dan b sebenamya. Maka, jika x = xbaru, kita mengetahui bahwa y akan berdistribusi nonnal dengan rata-rata yxbaru =mxbaru + b dan variance cr2.Dengan demikian ada kemungkinan 95 persen nilai y akan diantara [(mxbaru+ b) - 1,96 cr] dan [(mxbaru+ b) + 1,96 cr]. Sayangnya persoalan menjadi tambah buruk karena kita tidak mengetahui nilai m b dan a yang sebenamya. Kini ada dua sumber ketidakpastian yang berkaitan dengan prediksi nilai y: kita tidak mengetahui garis regresi sebenamya, dan prediksi nilai y akan menyimpang secara random di sekitar garis. Fonnula untuk variance y yang diestimasi untuk nilai x yang ditentukan adalah: 1 +-+
Var (y) ~ MSE 232
C
n
x.
Ingat bahwa variance bertambah besar bila nilai xbarulebih jauh dari Bila xbarulebih , kita mempunyai keyakinan yang lebih besar bahwa estimasi garis regresi kita mendekati garis regresi sebenarnya. Jika estimasi kita untuk slope garis sedikit berbeda dari nilai sebenarnya, maka perbedaan ini akan menyebabkan estimasi garis regresi kita menyimpang lebih jauh dari garis sebenarnya saat kita pindah lebih jauh dari x . mendekati
x
Bila x mempunyai nilai xbaru dan kita telah menghitung Ybaru= iiixbaru +
b dan Var (y)
menggunakan di atas, maka prediksi interval untuk y adalah
dimana Pr (-a < t < a) = CL t adalah variabel random berdistribusi t dengan df n - 2 CL adalah confidence level (0,95) Berikut ini adalah beberapa perhitungan sampel:
Nilai x 2 6 10 14 18 20
Nilai prediksi y=mx+b
95 persen prediksi interval untuk y
20,39 32,01 43,63 55,25 66,87 72,68
11,29 - 28,48 23,67 - 40,34 35,56 - 51,69 49,91 - 63,58 57,77 - 75,95 63,05 - 82,30
Gambar 15-14 menunjukkan prediksi interval dibandingkan gris regresi. Anda dapat melihat bagaimana interval bertambah lebar seperti nilai x lebih juah dari x. ANAL/SA RESIDUAL Cara lain mendapatkan keterangan yang berharga tentang model regresi adalah membuat gambar residual. Untuk tiap titik-titik data (Xi'y) kita dapat menghitung residual: (residual ke-i)
= yi - yxi = yi - (mxi + b) 233
--
-
-
Marilah membuatdiagram penyebaran yang mengukurnilai x sepanjang sumbu horisontal dan residual sepanjang sumbu vertikal. Beberapa program regresi komputer secara otomatis akan menyiapkan diagram yang Anda harapkan. Pada contoh pizza kita mempunyai nil ainilai berikut:
x
Residual
5 10 20 8 4 6 12 15
-2,102 2,373 0,323 2,183 3,803 -4,007 -3,437 0,848
Gambar 15-15 menunjukkan diagram penyebaran. Gambar 15-14
y
x
234
Gambar 15-15 Residual
..
3 2
4 -11 -2
8
. 12
.
16
I I I I 20 24
I
I
I
x
.
.
:
.
-y
Jika asumsi model regresi telah ditemukan, daerah residual kelihatan seperti susunan titik-titik random. Seharusnya tidak ada sistem yang tampak jelas. Karena error pada model diasumsikan berdistribusi normal, maka ada nilai yang lebih banyak mendekati nol daripada jauh dari DOl.Secara khusus berikut ini adalah beberapa hal untuk melihat daerah residual:
·
·
Di luar kedudukan. Di luar kedudukan adalah residual yang lebih besar (atau lebih negatif) daripada yang lain. Padadiagram penyebaran yang sebenarnya, di luar kedudukan akan ditunjukkan sebagai titik yang jauh dari estimasi garis regresi. Bila Anda telah mengenali pengamatan yang mana yang berhubungan dengan titik di luar kedudukan, maka Anda seharusnya memeriksa untuk meyakinkan bahwa pengamatan itu benar. Di luar kedudukan mungkin dapat terjadikarenaAndamembuatkesaiahan yang berhubungan dengan tipografi dalam memasukkan data untuk pengamtan itu, pada kasus mana Anda dapat membenarkan kesalahan dan kembali pada regresi. Jika Anda yakin bahwa pengamatan di luar kedudukan adalah benar, maka seharusnya Anda menyelidiki apakah ada dasar khusus yang menyebabkan pengamatan yang menyimpangjauh dari yang lain. Jika Anda yakin dasar yang menyebabkan di luar kedudukan tidak ada lagi, Anda boleh mengakhiri pengamatan dan membuat regresi kembali dengan menyisakan titik-titik. Jika, di sisi lain Anda dapat mengenali penyebab di luar kedudukan dengan variabel yang seharusnya terdapat pada model, seharusnya Anda membuat model regresi berganda. (lihat bab selanjutnya). Jika Anda tidak dapat mengenali beberapa penyebab di luar kedudukan, maka Anda harus meninggalkan di luar kedudukan pada regresi dan menganggapnya sebagai error random. Error yang tidak normal. Model regresi sebenarnyadiasumsikan bahwaerror berdistribusi normal, tetapi daerah residual mungkin menunjukkan bahwa itu bukan persoalannya. Estimator kuadrat terkecil m dan b adalah estimator tak bias dari nilai m dan b sebenarnya baik error berdistribusi normal atau tidak, tetapi tes statistik yang telah kita buat semua berdasarkan asumsi error normal.
235 --
--
·
· ·
Variance yang tidak konstan. Kita sumsikan variance error yang berhubungan dengan pengamatan adalah sama. Jika diagram residual menunjukkan bahwa residual lebih besarpada satudaerahdiagram,bagaimanapunjugamungkinkeadaan initidakditemukan. Daerah residual regresi pizza menunjukkan residual tersebut cendernng lebih besar untuk nilai x yang lebih kedl, maka mungkin ada keadaan variance tidak konstan (Pengamatan selanjutnya tidak membuat kesimpulan terbatas). Teknik untuk keadaan dengan variance tak konstan di antara error adalah heteroskedastisitas. Pada keadaan variance tak konstan, kadang-kadang dimungkinkanmengubah model ke dalam model yang sama dengan variance konstan. Variabel-variabel yang terlupakan. Mungkin berharga untuk membuat daerah residual dibandingkan dengan variabel independen lain yang kelihatannya signifIkantetapi tidak tennasuk di dalam model. Jika ada hubungan antara residual dan variabel barn, Anda seharnsnya membuat model regresi berganda yang memasukkan variabel tersebut. Nonlinieritas. Jika hubungan yang sebenarnya bukan garis lurns, daerah residual biasanya akan menunjukkan keadaan ini dengan segera. Contoh, berikut ini adalah pengamatan variabel x dan y: x
y
I 2 3 4 5 6 7 8 9 10 11 12
10,000 10,800 11,664 12,597 13,605 14,693 15,869 17,138 18,509 19,990 21,589 23,316
Residual 0,786 0,386 0,050 - 0,217 - 0,409 - 0,521 - 0,546
- 0,476 - 0,305 - 0,024 0,375 0,902
Perhitungan regresi linier sederhana pada pengamatan ini memberikan slope 1,2 dan intercept 8,014 dan r 0,986. Diagram penyebaran ditunjukkan pada gambar 15-16. Daerah residual ditunjukkan pada gambar 15-17 secara jelas tidak random. Biola residual mengikuti kurva terbatas seperti ini, maka ada bukti kuat bahwa model yang utama bukan modellinier atau satu dari problem lain yang disebutkan di atas telah Ilampak. Pada kasus ini kita dapat melihat nilai nilai x yang kecil atau besar, residual selalu positif, tetapi untuk nilai x medium, residual selalu negatif. Pola ini menunjukkan hubungan antara x dan y dapat lebih baik ditunjukkan dengan kurva daripada dengan garis. 236
Kini kita akan kembali ke perhatian perubahan model dengan kurva ke model yang sama dengan garis lurns.
x
y
1 2 3 4 5 6 7 8 9 10 11 12
10,000 10,800 11,664 12,597 13,605 14,693 15,869 17,138 18,509 19,990 21,589 23,316
Gambar 15-16
y
. . . .. . .
r
t
22 24
. . .
t
18 20
14
...
12 10
I6r
. . ..
6
4 2
I 0
,
, 2
,
, 4
,
, 6
,
, 8
.
, 10
,
, 12
x
237 -
--
---
Gambar 15-17
Residual
.
.
.
.
.
2
.4
. . . .. 6
8 10 12
-1 YANG HARUS DIINGAT 1. Ada empat hal penting yang perlu diingat bila menggunakan persamaan regresi untuk memprediksi nilai variabel dependen: a. Sebelum variabel dependen dapat diprediksi, diperlukan membuat prediksi variabel independen. b. Garis regresi yang berdasarkan pada pengamatn lalu tidak akan dipercaya memprediksi masa depanjika hubungan antara variabel dependen dan independen berubah. c. Prediksi ekstrapolasi kemungkinan tidak dapat dipercaya. d. Kemungkinantidak adahubungan kausal antaradua variabel bahkanjika persamaan regresi menunjukkan ada hubungan yang kuat. 2. Jika persamaan regresi kelihatannya dapat dipercaya memprediksi masa depan, interval prediksi mungkin dibuat menunjukkan daerah nilai kemungkinan terbanyak untuk variabel dependen. 3. Analisa regresi residual cukup membantu dalam problem seperti di luar kedudukan, error tak normal, variance tak konstan, variabel yang terlupakan, dan non linieritas. TRANSFORMASIDENGANLOGARITMA Misalnya hubungan sebenarnya antara x dan y dapat ditunjukkan oleh persamaan berikut:
238
..
--- ---
-----
dimana c dan a adalah dua konstanta yang tidak diketahui. Kita tidak menggunakan regresi linier sederhana untuk mendapatkan nilai c dan a. Untuk mengatasinya, kita hams ingat sutu konsep yang disebut logaritma. Memperhatikan pertanyaan ini: Angka berapa yang akan didapatkanjika 2 kita pangkatkan 7? Berikut ini adalah tabel pangkat 2:
22=4, 27= 128,
23= 8, 28= 265,
24= 16, 29= 512
Dapat kita lihat bahwa 128 adalah hasil 2 pangkat 7. Kini kita hadapi pertanyaan yang berlawanan: 2 pangkat berapa sarna dengan 128? Hasilnya adalah logaritma 2 dari 128.Pada kasus ini kita mengetahui hasilnya adalah 7. Pada notasi logaritma ditulis log2128
=7. Kita
juga dapatmenulis log21 = 0, log22= 1,
log24= 2,
log216= 4 log232= 5,
dan seterusnya.
log28= 3,
Ada beberapa fungsi logaritma yang lain. Angka positifkecuali 1 dapat menjadi dasar fungsi logaritma. Pada umumnya, jika a adalah dasar fungsi logaritma, maka logax
= n berarti
an
=x
Dua dasar logaritma yang biasa dipakai adalah 10 dan angka khusus yaitu e, yang kira-kira sebesar 2,71828. Ekspresi logx, yang tanpa dasar khusus biasanya adalah logaritma berdasar 10, yang disebut logaritma biasa. Contoh, log 10 = 1,log 100= 2, log 1000= 3, dan seterusnya. Logaritma natural sangat penting untuk kalkulus. Logaritma sangat berguna untuk tujuan kita karena dapat memenuhi sifat-sifat ini: log(ab) log (
log an
=log a + log b :) =log a - log
b
= n log a
Sifat-sifat ini berlaku untuk dasar logaritma apapun. Contoh, jika hubungan antara y dan x ditunjukkan pada formula ini:
kita dapat letakkan logaritma di kedua sisi: log y
=log (caX) 239 - --
- ---
Menggunakan ~ifatlogaritma, dapat kita tulis: log Y
= log c + log aX = log c + x log a
Marilah membuat defmisi ini: b = log c, m = log a Maka, log y = b + mx Hal tersebut kelihatannya sangat dikenal: kita telah mengubah model kita menjadi keadaan dimana model garis regresi sesuai. Kita telah menggunakan nilai log y sebagai variabel dependen sebagai pengganti nilai y.
Y
log Y
Y
log Y
10,000 10,800 11,664 12,597 13,605 14,693
1,000 1,033 1,067 1,100 1,134 1,167
15,869 17,138 18,509 19,900 21,589 23,316
1,201 1,234 1,267 1,301 1,334 1,368
Kini kita dapat membuat perhitungan regresi linier sederhana, menggunakan x sebagai variabel independen dan log y sebagai variabel dependen. Hasilnya adalah slope
= m = 0,0334
intercept = b = 0,966
Karena model aslinya adalah y c
= 10°,966 = 9,3
dan a
= cax dengan
= 10°,0334
b
= log c dan m = log a, dapat
kita hitung
= 1,08
Maka, estimasi kita untuk model yang benar adalah y
= 9,3 x (l,08)X
Ingat bahwa kita menggunakan logaritma biasanya untuk perhitungan kita, tetapi Anda boleh menggunakan logaritma natural. Fungsi ini adalah contoh yang disebut pertambahan eksponensial karena variabel independen x muncul sebagai eksponen. 240
~
Berikut ini adalah situasi lain dimana perubahan dengan logaritma berguna. Misalnya kita tentukan kuantitas yang diminta dari suatu barang adalah sebagai berikut: Q=~.a
dimana p adalah harga barang, ~ dan a adalah parameter yang tidak diketahui. (Pada formula ini a adalah elastisitas permintaan barang. Billa formula dituliskan seperti demikian, diasumsikan elastisitasnya konstan). Sekali lagi kita perlu meletakkan logaritma di kedua sisi: log Q
=log (~.a) = log ~ - a log p
misalnyab = log ~ dan m = -a, maka log Q = b + m log p Kini kita dapat mengestimasikan b dan m dengan membuat perhitungan regresi linier sederhana menggunakan log p sebagai variabel independen dan log Q sebagai variabel dependen. YANG HARDS DIINGAT 1. Jika an = x, makalogax= n (n adalahlogaritmaberdasara dari x). 2. Logaritma khususnya berguna dengan model regresi karena dapat digunakan pada perubahan hubungan kurva menjadi hubungan garis lurus. 3. Jika hubungan x dan y adalah y =eax, maka persamaan perubahan adalah log y = loe e + x log a 4.
Jika hubungan antara x dan y adalah y =exn, maka persamaan perubahan adalah log y = log e + n log x
241 --
-
-
---
-
-
BabXVI RegresiLinierBerganda
KATAKUNCI statistik F adalah statistik yang digunakan untuk menguji hipotesa yang nilai sebenamya dari tiap koefisien pada persamaan regresi adalah O. regresi berganda adalah metode statistik untuk menganalisa hjubungan antara beberapa variabel indepdnen dan satu variabel dependen. statistik t adalah statistik yang digunakan untuk menguji hipotesa yang nilai sebenamya dari satu koefisien khusus adalah O. BEBERAPAVARIABELINDEPENDEN Pada beberapa kenyataan akan ada lebih dari satu varibel independen yang mempengaruhi variabel dependen yang Anda inginkan. Pada kasus ini kita perlu menggunakan teknik yang disebut regresi berganda. Pada bab 15 telah kita bicarakan keadaan dim ana pendapatan adalah varibel yang hanya mempengaruhi permintaan pizza. Keadaan demikian kelihatannya sangat tidak realistik. Pada teori ekonomi banyak variabel yang berbeda yang dapat mempengaruhi permintaan. Pada tambahan pendapatan, satu dari variabel yang diharap penting adalah harga barang. Kita akan menyelidiki pengaruh pendapatan dan harga pada kuantitas buku statistik yang diminta.195
CONTOH PENGGUNAAN REGRESI BERGANDA Misalnya kita mempunyai pengamatan tentang jumlah buku statistik yang terjual, harga buku tersebut, dan pendapatan perkapita di 15 kota dalam beberapa periode. Kita anggap y mewakili variabel independen dimana kuantitas buku statistik terjual. Kita mempunyai dua variabel indepdnen: Ximewakili harga dan x2 mewakili pendapatan.
242