IV. REGRESI DAN KOLERASI 1. Regresi Linier Sederhana (Simple Linear Regression) Pengertian Seorang peneliti biasanya ingin meneliti mengenai hubungan antara 2 atau lebih variabel. Dalam hubungan tersebut dibedakan 2 kelompok variabel, yaitu kelompok variabel yang disebut variabel bebas dan kelompok variabel yang dinamakan variabel ≠ bebas. Sesuatu variabel dikategorikan sebagai variabel bebas apabila variabel itu fungsinya menerangkan variabel lainnya. Atau meramalkan variabel lainnya, oleh karena itu dalam penelitian variabel bebas sering disebut prediktor. Sesuatu variabel disebut variabel ≠ bebas apabila dalam hubungannya dengan variabel lain, dia merupakan variabel yang diterangkan (diramalkan) oleh variabel lainnya, oleh karena itu variabel ≠ bebas sering disebut respons. Hubungan antara 2 variabel atau lenih secara matematis mengikuti sesuatu fungsi matematis tertentu. Dalam matematika kita mempunyai fungsi Y = ƒ (X1, X2, …., Xk). ini artinya semua perubahan yang terjadi pada Y sepenuhnya bisa diterangkan oleh variabel X1, X2, …., Xk. Fungsi yang seperti itu disebut fungsi deterministik. Dalam statistika, fungsi itu bentuknya Y = ƒ (X1, X2, …., Xk) + ε. Ini artinya bahwa perubahan-perubahan pada Y tidak 100% dijelaskan oleh X1, X2, …., Xk, tetapi masih dijelaskan lagi oleh variabel lain. Yang ≠ diperhatikan : variabel lain tersebut bersamasama dengan kekeliruan pengukuran dinyatakan oleh variabel ε. ε disebut “disturbance term” atau “random term”. Fungsi yang seperti itu disebut fungsi stokastik atau fungsi probabilistik. Apabila kita mempunyai 2 buah variabel X dan Y, X merupakan variabel bebas dan Y variabel ≠ bebas. Sedangkan fungsinya berbentuk : Y = β0 + β1 X + ε , maka fungsi tersebut namanya “Model Regresi Linier Sederhana”. Disebut linier karena baik variabel bebas maupun ≠ bebas kedua-duanya pangkatnya 1. (Definisi ini bukan merupakan definisi ketat, tetapi semata-mata hanya definisi “bebas” , sebab secara ketat linieritas dari model regresi bukan ditentukan oleh variabelnya tetapi oleh parameternya). Disebut sederhana karena
dalam model itu hanya ada sebuah variabel bebas dan sebuah variabel ≠ bebas. Model diatas adalah model hubungan Y atas X, menyatakan bentuk hubungan dalam populasi dalam sampel model tersebut ditulis Y = b0 + b1 X + ε. Dalam model populasi β0 dan β1 merupakan parameter, dalam model sampel b0 dan b1 merupakan statistik. 1.2. MENGHITUNG PERSAMAAN REGRESI LINIER SEDERHANA BERDASARKAN DATA SAMPEL Setelah peneliti mengumpulkan data, dalam arti bahwa setiap unit sampel sudah diukur 2 variabelnya yaitu X sebagai variabel bebas dan Y sebagai variabel tak bebas, maka diperoleh kumpulan data sebagai berikut : Unit 1 2 3 n
X x1 x2 x3
Y y1 y2 y3
Dari data yang ada kita gambarkan diagram pencarnya (Scatter Diagram) yang memperlihatkan hubungan antara Y atas X.
xn yn
Dari diagram pencar kita perhatikan bagaimana pola umum kasar yang diperlihatkan hubungan antara Y atas X. Secara kasar tampak bahwa titik-titik yang ada memperlihatkan pola garis lurus. Berdasarkan pola garis lurus yang diperlihatkan oleh titik-titik tersebut, maka kita punya alas an atau dasar untuk mengatakan bahwa secara matematis hubungan antara Y atas X mengikuti garis lurus. Kepada garis tersebut kita berikan persamaan regresi linier sederhana Y atas X yang bentuknya : Yˆ bo b1 X . Y adalah hasil
observasi, sedangkan yˆ adalah titik yang terletak pada garis Yˆ bo b1 X
Perbedaan (deviasi) antara titik observasi y dengan titik yˆ dilambangkan oleh e. Kalau kita perhatikan model : Yˆ bo b1 X + e Y = Yˆ +e ˆ e=Y- Y yang menjadi permasalahan sekarang, berapa harga b0 dan b1 agar supaya garis tersebut merupakan garis yang terbaik yang bisa mewakili hubungan antara titik-titik y dan x. Garis Yˆ bo b1 X akan merupakan garis lurus yang terbaik untuk titik tersebut apabila garis itu memenuhi dalil Least Squares (kuadrat terkecil). Dalil Least Squares “ Yˆ bo b1 X akan merupakan garis lurus terbaik untuk sekumpulan data tertentu, apabila garis itu memnuhi persyaratan bahwa Σ kuadrat deviasi antara titik observasi dan titik yang diperoleh melalui garis itu adalah Σ kuadrat yang minimum (terkecil).” Secara matematis, garis lurus itu akan merupakan garis lurus terbaik apabila : 2
2
e1 + e2 +
e32
+ … +
ei Yi Yˆi
en2
n
2 = minimum. Atau i 1 e i = minimum
Berdasarkan dalil Least Squares melalui manipulasi matematis yang sangat
sederhana
diperoleh
rumus
:
b1
x y i
i
x bo Y b1 X
i
2
x y i
i
n xi 2 n
Apabila b0 dan b1 dihitung melalui rumus-rumus di atas, maka secara matematis dijamin bahwa garis lurus Yˆ bo b1 X akan merupakan garis lurus terbaik untuk titik-titik tersebut. 1.3. ARTI b1 dan b0 Secara matematis, b0 disebut koefisien intersep. Yang menyatakan perpotongan garis regresi dengan sumbu Y apabila X = ø. Diterjemahkan ke dalam data koefisien intersep b0 menyatakan besarnya rata-rata Y apabila X=0.
b1 disebut koefisien Regresi Sampel, yang menyatakan besarnya perubahan rat-rata jika X berubah 1 unit. Jadi apabila kita mempunyai b1= 23,8 kg/cm maka artinya besarnya perubahan rata-rata Y = 23,8 kg setiap X berubah 1 cm. Dalam matematika : b1 = koefisian arah → menunjukkan tan θ. bo merupakan penaksir (estimator) untuk β0. β0 adalah koefisien intersep dalam populasi. b1 adalah penaksir (estimator) untuk koefisien regresi populasi β1. 1.4. MENGUJI KOEFISIEN REGRESI (B1) DAN KOEFISIEN INTERSEP (B0) BERDASARKAN b1 dan b0 Setelah kita menghitung b1 dan b0 dari data, sehingga diperoleh persamaan regresi, kita belum boleh mengambil kesimpulan sebelum kita menguji b1 dan atau b0 . 1.4.1. Menguji Koefisien Regresi Sebagai telah kita ketahui, pola pengujian mengikuti pola umum sebagai berikut : 1) Tentukan H0 dan H1 H0 : β1 = 0 atau H0 : β1 = 0 atau H0 : β1 = 0 H1 : β1 ≠ 0 H1 : β1 > 0 H1 : β1 < 0 2) Tentukan α 3) Data dikumpulkan 4) Untuk menguji koefisien regresi β1 apabila regresinya Linier Sederhana, maka statistik uji yang digunakan adalah : ν =n-2 b 0 t 1 S b1 = standard error untuk koefisien regresi b1
S b1
1 S b1 S 2 YIX 2 x i xi2 n n 1 2 2 2 S 2YIX SY b1 S X n2
S 2 YIX disebut varians untuk penyebaran titik-titik observasi sekitar garis lurusnya, jadi S 2 YIX memperlihatkan bagaimana penyebaran
titik-titik Y sekitar garisnya. Makin besar harga S 2 YIX , maka makin tersebar penuh titik itu sekitar garisnya. Makin kecil harga S 2 YIX , maka makin rapat titik-titik itu sekitar garisnya. S 2 YIX = 0 → titik-titik berada pada garis. n y i y i
2
2
2
SY
n xi xi
2
2
2
SX
nn 1
nn 1
5) Daerah dan titik kritis 6) Kesimpulan
1.4.2. Menguji Koefisien Intersep Dalam masalah regresi kita ≠ selalu harus menguji β0, tergantung kepada masalah yang dihadapi. Jika memang harus menguji β0, maka langkah kerjanya serupa dengan menguji β1, yang beda hanya statistik ujinya. Untuk menguji β0 statistik uji yang digunakan adalah :
t
b0 S b0
, ν=n–2
S b0
X2 2 1 S YIX 2 n x 2 xi i n
1.5. MENAKSIR / MEMPREDIKSI / MERAMALKAN / BATASBATAS RATA-RATA Y, UNTUK HARGA X = X0 Dalam masalah regresi kita berhadapan dengan masalah hubungan antara Y atas X. Dalam penelitian seperti ini, setelah persamaan hubungan tersebut diperoleh, peneliti bisaanya ingin meramalkan / menaksir berapa batas-batas harga rata-rata Y apabila harga X ditentukan = X0. Contoh : Apabila sekelompok orang pendapatannya Rp. 250.000/bulan. Berapa batas-batas rata-rata pengeluarannya untuk kelompok orang tersebut. → X = X0 = 250.000. Menaksir rata-rata Y tersebut digunakan rumus :
Yˆ X X 0 t (
/ 2 ,n 2 )
S YIX
2 1 n
X
2
X
xi
0
2
x i
n
2
X = X0 adalah harga Ŷ jika X0 dimasukkan ke dalam persamaan Ŷ = b0 + b1 X 1.6. MENAKSIR BATAS-BATAS HARGA Y UNTUK X = X0 Masalah ini bisa diterangkan dengan contoh sebagai berikut : Seseoang pendapatannya Rp.250.000 /bulan, berapa batasbatas pengeluaran /bulan untuk orang-orang itu. Masalah ini bisa dipercahkan dengan rumus :
Yˆ X
X
0
t (
/ 2,n 2 )
S YIX
1 2 1 n
X
2
X
xi
0
2
x i
n
2
Contoh : Seorang peneliti di bidang biologi ingin melakukan penelitian yang sifatnya exploratif, untuk memperoleh keterangan yang objektif mengenai hubungan antara berat badan atas tinggi badan. Secara biologis dugaannya adalah bahwa hubungan tersebut adalah hubungan positif linier sederhana. Untuk keperluan itu dipilih secara acak (pseudo random) sebanyak 12 orang. Orang-orang tersebut diukur masing-masing tinggi badannya dan berat badannya yang memberikan pengukuran sebagai berikut : No Tinggi badan (cm) Berat badan (kg) 1. 160 60 2. 172 65 3. 155 50 4. 162 60 5. 167 63 6. 159 54 7. 172 70 8. 181 76 9. 163 60 10. 167 64 11. 165 60 12. 155 52 Dalam penelitian ini timbul beberapa masalah : 1) Apakah ada hubungan linier, dan bagaimana persamaan matematis hubungan antara berat badan atas tinggi badan itu.
2) Berapa rata-rata berat-badan untuk kelompok orang yang tingginya 175 cm. 3) Berapa diharapkan berat badan seseorang bila tinggi badannya 125 cm. Masalah (2) dan (3) harus mempunyai derajat kepercayaan 95 %. Pemecahan masalah : Karena ada dugaan bahwa hubungan berat badan atas tinggi badan adalah positif linier sederhana, maka model regresi yang akan dipakai adalah model linier sederhana. Langkah kerja : 1) Untuk memperoleh gambaran secara kasar apakah dugaan bahwa hubungan itu linier sederhana, maka kita gambarkan diagram pencarnya yang memperlihatkan hubungan natara berat badan dan tinggi badan.
2) Berdasarkan titik yang ada pada diagram pencar, kita mempunyai gambaran kasar bahwa pola hubungan tersebut mengikuti pola garis lurus. Oleh karena itu kita mempunyai cukup alasan untuk menggunakan persamaan regresi : Ŷ = b0 + b1 X, Y = berat badan, X = tinggi badan. Dengan menggunakan dalil Least Square kita hitung b0 dan b1. xi yi xi y i n b1 xi 2 2 xi n (1978)(734) 121581 12 = 0,933403256 Kg cm 3912484 326676 12 b0 Y b1 X = 61,16666667 – (0,933403242)(164,8333333) = -92,6893006 Kg 3) Sekalipun kita sudah memperoleh b0 dan b1 kita belum boleh mengambil kesimpulan mengenai persamaan matematika antara hubungan berat badan
atas tinggi badan. Kita harus melakukan pengujian mengenai koefisien regresi terlebih dahulu. Menurut logika biologis hubungan antara tinggi badan dan berat badan adalah hubungan positif, dalam arti bahwa makin tinggi postur tubuh seseorang maka makin berat badannya. H0 : β1 = 0 H1 : β1 > 0
t
b1 S b1
S b1
, ν=n–2
S YIX
2
1
2
xi
xi n
2
1 3,584740481 635,66667 = 0,075095539
12 1 2 = 7,321615992 12 2 = 3,584740481
=
t
n 1 2 2 2 2 S YIX S y b1 S X n2
0,933403242 12,42954315 0,075095539
4) Daerah dan titik kritis
t (0,95 , 10) = 1,81 α = 0,05 1,81 12,43 Hasil hitung statistik uji di daerah kritis, pengujian significant. Isyaratnya H 0 ditolak. Menguji koefisien intercept (β0). β0 tidak selalu harus diuji, tergantung kepada masalah yang dihadapi. Dalam masalah hubungan antara berat badan atas tinggi badan, tidak perlu menguji β0. β0 → harga rata-rata Y jika X = 0, disini ≠ perlu menguji β0 karena dalam masalah ini X = tinggi badan → dan ≠ ada tinggi badan = 0 cm. → secara logic. Apabila harus menguji β0, maka statistik ujinya adalah :
t
b0 , ν=n–2 S b0
S b0
X2 2 1 S YIX 2 n x 2 xi i n
Contoh : Pengeluaran atas pendapatan. H0 : β0 = 0 H1 : β0 > 0 5) Kesimpulan : Berdasarkan hasil pengujian kita mempunyai cukup keterangan untuk mengatakan bahwa ada hubungan positif antara berat badan atas tinggi badan yang mengikuti hubungan linier dengan persamaan : Ŷ = b0 + b1 X Ŷ = -92,69 + 0,93 X → artinya, apabila tinggi badan naik 1 cm, maka berat badan pada ratanya naik 0,93 Kg 2. KORELASI Dalam masalah regresi kita bisa menjawab pertanyaan-pertanyaan : 1) Bagaimana bentuk hubungan (pola hubungan) antara Y atas X, dan bagaimana persamaan matematis untuk hubungan tersebut. 2) Berapa besar perubahan rata-rata Y apabila X berubah 1 unit. 3) Berapa batas-batas harga rata-rata Y apabila X = X0 4) Berapa batas-batas harga Y apabila X = X0 Tetapi apabila ada pertanyaan : Kalau memang ada hubungan antara Y dengan X, berapa besarnya keeratan hubungan tersebut, atau dengan perkataan lain kalau memang ada hubungan antara Y atas X berapa kekuatan X untuk bisa menerangkan Y. Pertanyaan ini tidak bisa dijawab oleh analisis regresi yang bisa menjawab pertanyaan ini adalah analisis korelasi. 2.1. KOEFISIEN KORELASI (LINIER) Definisi : Apabila antara 2 variabel Y dan X ada hubungan linier korelatif, maka eratnya hubungan tersebut diperlihatkan oleh koefisien korelasi yang didefinisikan sebagai : X i Yi X iYi n r 2 2 X i Yi 2 2 X i Yi n n koefisien korelasi ini merupakan koefisien korelasi yang dihitung dari sampel (statistik) sebagai estimator untuk koefisien korelasi dalam populasi yang dilambangkan oleh ρ (rho)
2.2. SIFAT-SIFAT KOEFISIEN KORELASI Sifat – sifat statistis koefisien kolerasi adalah : 1) Harganya terbatas yaitu -1 ≤ ρ ≤ +1 (koefisien regresi) harganya ≠ terbatas → ( - ~ < b1 = < + ~ ) ρ = ø, artinya ≠ ada hubungan linier antara X dan Y gambarnya :
Jadi, jika harga ρ makin mendekati +1, artinya hubungan yang positif itu makin erat, jika semakin mendekati -1 artinya hubungan itu makin erat juga tetapi hubungan negatif. Contoh : ρ = +0,8 Kedua ρ tersebut menunjukkan hubungan yang ρ = -0,8 sama eratnya, bedanya yang satu hubungan positif dan yang lain hubungan negatif. 2) Koefisien korelasi ρ ≠ mempunyai satuan (koefisien regresi punya satuan) Contoh : hubungan berat badan atas tinggi badan Y X Kg cm ρ ≠ punya satuan (lihat rumus korelasi) 2.3. MENGHITUNG KOEFISIEN KORELASI ρ Perhatikan contoh mengenai hubungan antara berat badan atas tinggi badan. Untuk menghitung koefisien korelasi ρ kita perlu Σxiyi, Σxi, Σyi, sehingga diperoleh : (1978)(734) 121581 12 0,969127102 3912484 (538756) 326676 45486 12 12 Jika melihat harga ρ tampaknya ada hubungan positif antara Y atas X. Tetapi kita belum boleh menarik kesimpulan sebelum melakukan pengujian terhadap ρ. 2.4. MENGUJI KOEFISISEN KORELASI ρ Lihat contoh soal hubungan berat badan atas tinggi badan. 1) H0 : ρ = 0 H1 : ρ > 0 Berdasarkan permasalahan Pemilihan ≠, >, <, jika belum tahu pilihlah ≠. 2) α = 0,05 3) Statistik uji yang digunakan untuk menguji H0 : ρ = 0
t t
n2 1 2
, ν=n–2
0,969127102 12 2
1 (0,969127102) 2 4) Daerah dan titik kritis
12,42954322
t (0,95 , 10) = 1,81
α = 0,05 1,81
12,…
Hasil hitungan uji statistik jatuh di daerah kritis. Pengujian significant H0 ditolak → H1 diterima. 5) Kesimpulan Ada hubungan positif linier antara berat badan atas tinggi badan. 2.5. BATAS-BATAS KEERATAN ρ (KOEFISIEN KORELASI) Setelah melakukan pengujian dan hasilnya significant, kita boleh menarik kesimpulan mengenai keeratan hubungan antara Y dengan X melalui aturan dari GUILFORD , aturan itu sebagai berikut : ρ : > 0 − < 0,2 atau -0,2 − < 0 → artinya hub. antara Y dengan X longgar sekali. 0,2 − < 0,4 atau -0,4 − < -0,2 → artinya hub. antara Y dengan X cukup erat. 0,4 − < 0,7 atau -0,7 − < -0,4 → artinya hub. antara Y dengan X erat. 0,7 − < 0,9 atau -0,9 − < -0,7 → artinya hub. antara Y dengan X sangat erat. 0,9 − ≤ 1 atau -1 − ≤ -0,9 → artinya hub. antara Y dengan X sangat erat sekali Contoh : Kalau kita membuat sebuah analisis langsung ke korelasi, maka setelah n2 menghitung ρ tidak perlu menguji ρ melalui t 1 2 Kalau analisisnya mulai dari regresi, dimana korelasi hanya merupakan analisis lanjutan, setelah menghitung ρ tidak perlu menguji ρ karena pada regresi kita telah menguji β1. Alasannya adalah : b n2 t 1 S b1 1 2 2.6. KOEFISIEN DETERMINASI Diatas tadi telah dikatakan bahwa memeriksa keeratan hubungan antara Y dengan X sama saja dengan menguji / memeriksa berapa kekuatan X menerangkan Y. Untuk menjawab keadaan ini dihitung koefisien determinasi yang didefinisikan : Koefisien determinasi adalah kuadrat dari koefisien korelasi . Koefisien Determinasi = ρ2.
Jadi masalah berat badan atas tinggi badan koefisien determinasinya adalah ρ 2 = (0,93920734)2 = dibulatkan kedalam 3 desimal diperoleh = 0,939 Artinya Koefisien Determinasi : Koefisien determinasi ρ2 memperlihatkan besarnya persentase perubahan pada Y yag bisa diterangkan oleh X melalui hubungan linier antara Y dengan X Jadi ρ2 = 0,939, artinya 93,9 % dari perubahan-perubahan yang terjadi pada berat badan diterangkan oleh tinggi badan melalui hubungan linier antara berat badan atas tinggi badan. sisanya 6,1 % diterangkan oleh faktor lain diluar tinggi badan (contoh : gizi, keturunan).