Korelasi Bivariat dan Regresi Linier Sederhana www.company.com
Pendahuluan • Dalam suatu observasi, kita sering kali mencatat dua atau lebih variabel dalam suatu individu, misalkan: dari 1 orang dicatat data tinggi dan berat badannya. Tinggi dan berat badan merupakan variabel. • Data yang memiliki dua variabel disebut data bivariat, data yang memiliki lebih dari dua variabel disebut data multivariat.
www.company.com
• Tujuan kita mengumpulkan data bivariat yaitu untuk menjawab: – Apakah kedua variabel tersebut terkait? – Relasi seperti apa yang diindikasikan oleh data? – Dapatkah kita mengukur kekuatan relasi antara variabel tersebut? – Dapatkah kita memprediksi nilai satu variabel menggunakan variabel yang lain?
www.company.com
Rangkuman dari data bivariat kategorik •
Data kategorik/data kualitatif: data yang biasanya bukan dalam bentuk angka.
•
Data bivariat kategorik: data kualitatif yang memiliki 2 variabel.
•
Setelah melakukan pencatatan pada data kategorik, hal yang kemudian dilakukan adalah merangkum data tersebut.
•
Rangkuman data kategorik biasanya disebut data tertabulasi atau data terklasifikasi silang. Dalam statistik disebut juga tabel kontingensi.
www.company.com
Contoh: Gender
Aktifitas Media Sosial
Jumlah
Tweeting
No Tweeting
Laki-laki
120
75
195
Perempuan
155
90
245
275
165
440
www.company.com
Diagram Scatter untuk data bivariate kuantitatif • Data kuantitatif: data dalam bentuk numerik/angka.
• Data bivariate kuantitatif: data kuantitatif yang memiliki 2 variabel. • Misalkan: kita memiliki 2 variabel, namakan variabel x dan y. Kedua variabel tersebut kita pasangkan menjadi (x,y). Jika data tercatat sebanyak n kali, maka kita memiliki n pasangan (x,y): (x1,y1), (x2,y2), …, (xn,yn)
www.company.com
• Sebanyak n pasangan (x,y) digambarkan sebagai titik di dalam diagram. • Diagram tersebut dinamakan diagram scatter atau plot scatter.
• Dengan melihat diagram scatter, relasi antara kedua variabel dapat dinilai secara visual. Singkatnya, kita dapat mengobservasi apakah titik-titik dalam plot berkumpul membentuk garis atau kurva atau tidak berpola.
www.company.com
Contoh: • Variabel x: skor GPA (Grade Point Average) • Variabel y: skor GMAT (Graduate Mangement Aptitute Test)
www.company.com
• Solusi: Dari diagram plot terlihat titik-titik membentuk pola dari barat daya ke timur laut mengindikasikan relasi yang positif antara x dan y. Demikian sehingga, seseorang yang memiliki GPA yang tinggi, juga memiliki skor GMAT yang tinggi.
www.company.com
Koefisien Korelasi •
Koefisien korelasi (dinotasikan dengan r) adalah ukuran kekuatan dari relasi linier antara variabel x dan y.
•
Sifat dari koefisien korelasi: – Nilai r berada diantara -1 dan 1: 1 r 1 – Nilai r dekat dengan 0, menunjukkan relasi yang lemah. – Nilai r dekat dengan 1 atau -1, menunjukkan relasi yang kuat. – Besarnya r mengindikasikan kekuatan relasi linier, dimana tandanya menunjukkan arah. Secara spesifik sebagai berikut:
www.company.com
• r>0 jika pola nilai (x,y) terkumpul dari kiri bawah ke kanan atas. • r<0 jika pola nilai (x,y) terkumpul dari kiri atas ke kanan bawah. • r=1 jika semua nilai (x,y) terbentang membentuk garis lurus dengan kemiringan positif (relasi positif linier sempurna) • r=-1 jika semua nilai (x,y) terbentang membentuk garis lurus dengan kemiringan negatif (relasi negatif linier sempurna)
www.company.com
Contoh:
www.company.com
Menghitung koefisien korelasi Dimana
• Rumus menghitung r:
r
Sxy x x y y
Sxy
Sxx x x
2
Sxx S yy
S yy y y
2
n xy x y
n x x n y y 2
2
2
2
• Korelasi pada populasi dinotasikan: ρ • Estimasi korelasi dinotasikan: r, disebut koefisien korelasi product-moment Pearson atau hanya koefisien korelasi.
www.company.com
Contoh: Koefisien Korelasi y 45 67 89 23 69 90 77 81 82 67 56 49 69 72 91 1027
x 10 9 6 17 7 5 4 6 4 6 12 15 10 8 3 122
xy 450 603 534 391 483 450 308 486 328 402 672 735 690 576 273 7381
y^2 2025 4489 7921 529 4761 8100 5929 6561 6724 4489 3136 2401 4761 5184 8281 75291
x^2 100 81 36 289 49 25 16 36 16 36 144 225 100 64 9 1226
y: Nilai UTS mata kuliah Statistika Komunikasi x: banyaknya update sosmed dalam 1 hari
Banyaknya Update Sosmed
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Diagram Scatter Nilai UTS Statistika Komunikasi dengan Banyaknya Update Sosmed
Nilai UTS Statistika Komunikasi
www.company.com
• Nilai koefisien korelasi product-moment Pearsonnya: r
n xy x y n x x n y y 2
2
2
2
15 7381 1027 122
15 75291 10272 15 1226 1222 0.90125
www.company.com
Latihan • Browsing data dengan 2 variabel atau buatlah data fiksi dengan 2 variabel. (Banyak data, minimal n=10) • Gambarkan diagram scatternya. • Hitung koefisien korelasinya.
www.company.com
Regresi Linier Sederhana • Setelah kita menemukan pola linier (garis) dalam diagram scatter, dan korelasi diantara dua variabel cukup kuat, kita dapat menentukan suatu persamaan yang memungkinkan kita untuk memprediksi nilai satu variabel menggunakan variabel yang lain. • Persamaan ini disebut dengan regresi linier sederhana.
www.company.com
Menentukan variabel Manakah yang menjadi X dan manakah yang menjadi Y? • Ketika kita menentukan koefisien korelasi, pilihan untuk menentukan yang manakah variabel X dan yang manakah variabel Y,tidak menjadi masalah. Akan tetapi lain halnya ketika kita ingin membuat prediksi.
• Dalam statistik: – Variabel X disebut variabel bebas /independen atau variabel penjelas. – Variabel Y disebut variabel terikat /dependen atau variabel respon
www.company.com
• Sebelum kita menentukan garis regresi, baiknya melakukan pengecekan terhadap kondisi berikut: – Diagram scatter-nya memiliki pola linier. – Koefisien korelasinya cukup kuat (diatas kurang lebih 0.60)
www.company.com
Persamaan regresi linier • Persamaan regresi linier sederhana: y 0 1x
• Estimasi koefisien beta dalam regresi linier yaitu:
yˆ b0 b1x
www.company.com
Contoh:
www.company.com
Residual • Residual adalah error yang dari pendugaan oleh persamaan regresi.
ei yi yˆ i dimana e: error y: nilai yang sebenarnya y(topi): nilai dugaan dari persamaan regresi. www.company.com
Nilai estimasi koefisien persamaan regresi • Persamaan regresi:
yˆ b0 b1x • Estimasi koefisien b0 dan b1 persamaan regresi yaitu: n xy x y b1 2 2 n x x
b0 y b1 x
www.company.com
Contoh: No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 bar
y x 45 10 67 9 89 6 23 17 69 7 90 5 77 4 81 6 82 4 67 6 56 12 49 15 69 10 72 8 91 3 1027 122 68.46667 8.133333
xy 450 603 534 391 483 450 308 486 328 402 672 735 690 576 273 7381
y^2 2025 4489 7921 529 4761 8100 5929 6561 6724 4489 3136 2401 4761 5184 8281 75291
x^2 100 81 36 289 49 25 16 36 16 36 144 225 100 64 9 1226
• y: Nilai UTS mata kuliah Statistika Komunikasi • x: banyaknya update sosmed dalam 1 hari
• Nilai koefisien:
b1
n xy x y n x x 2
2
15 7381 1027 122 15 1226 1222 4.1583 b0 68.4667 (4.1823) 8.1333 102.2875 www.company.com
• Persamaan regresinya:
yˆ 102.2875 4.1583x
yˆ 102.2875 4.1583 (12) 52.3879
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
y 45 67 89 23 69 90 77 81 82 67 56 49 69 72 91 1027
x 10 9 6 17 7 5 4 6 4 6 12 15 10 8 3 122
y(topi) 60.7045 64.8628 77.3377 31.5964 73.1794 81.496 85.6543 77.3377 85.6543 77.3377 52.3879 39.913 60.7045 69.0211 89.8126
www.company.com
Mean Squared Error • Ukuran baik atau buruknya suatu persamaan regresi, salah satunya dapat dilihat dari nilai rata-rata galat kuadratnya, yang disebut MSE (Mean Squared Error). • Semakin kecil nilai MSE-nya, maka persamaan regresi tersebut baik.
MSE
1 2 e n
No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
y 45 67 89 23 69 90 77 81 82 67 56 49 69 72 91 1027
x 10 9 6 17 7 5 4 6 4 6 12 15 10 8 3 122
y(topi) error e^2 60.7045 -15.7045 246.6313 64.8628 2.1372 4.567624 77.3377 11.6623 136.0092 31.5964 -8.5964 73.89809 73.1794 -4.1794 17.46738 81.496 8.504 72.31802 85.6543 -8.6543 74.89691 77.3377 3.6623 13.41244 85.6543 -3.6543 13.35391 77.3377 -10.3377 106.868 52.3879 3.6121 13.04727 39.913 9.087 82.57357 60.7045 8.2955 68.81532 69.0211 2.9789 8.873845 89.8126 1.1874 1.409919 MSE 62.27619
www.company.com
Latihan • Menggunakan data pada latihan sebelumnya (menghitung koefisien korelasi), tentukan persamaan regresi dari data tersebut. • Hitunglah error dan MSE-nya
www.company.com