Komputasi Statistika dengan Software R Analisis Korelasi (Sesi 13) Zulhanif
Analisis Korelasi Korelasi menyatakan keeratan hubungan antara suatu variabel dengan variabel lainnya. Korelasi dalam populasi biasa disimbolkan dengan ρ (rho) sedangkan dalam sampel disimbolkan dengan r.
Nilai Korelasi •
Nilai korelasi -1 < r < 1
•
Nilai positif menyatakan hubungan yang berbanding lurus
•
Nilai negatif menyatakan hubungan yang berbanding terbalik
•
Nilai nol (0) berarti tidak ada hubungan
•
Semakin mendekati 1 (atau -1) berarti semakin erat
Jenis Korelasi •
Korelasi sangat bergantung pada skala pengukuran yang digunakan oleh data.
•
Korelasi Pearson digunakan untuk data kontinu berskala minimal interval
•
Korelasi Spearman digunakan untuk data diskrit atau kontinu
•
Korelasi Tau Kendall digunakan untuk data berskala minimal ordinal
Korelasi dalam R •
cor(x, use=..., method=...) –
x adalah data yang akan dikorelasikan (berupa matriks atau data frame)
–
use= (optional) adalah penanganan apabila ada data hilang
–
method= (optional) menyatakan jenis korelasi yang digunakan (pearson, spearman atau kendall)
Korelasi dalam R •
cor(x, use=..., method=...) –
x adalah data yang akan dikorelasikan (berupa matriks atau data frame)
–
use= (optional) adalah penanganan apabila ada data hilang
–
method= (optional) menyatakan jenis korelasi yang digunakan (pearson, spearman atau kendall)
Jenis Korelasi Lainnya •
Polychoric digunakan apabila semua variabel berskala ordinal
•
Polyserial digunakan apabila salah satu variabel berskala ordinal sedangkan variabel lainnya berskala interval
•
Dalam R digunakan paket polychor.
Pengujian Korelasi •
Adakalanya nilai korelasi sampel perlu diuji keberartiannya
•
Pengujian koefisien korelasi dalam R menggunakan paket Hmisc dengan syntax: –
rcorr(x, type=....)
–
x adalah matrix atau data frame
–
type= hanya untuk Pearson dan Spearman
Contoh 1 Suatu studi dilakukan untuk melihat hubungan waktu bangun (X) dengan tingkat kekeliruan dalam pekerjaan (Y). Diambil sampel sebanyak 10 orang dan diukur lamanya waktu bangun dan banyaknya melakukan kesalahan, yang hasilnya sebagai berikut
Data Contoh 1 X
8 8 12 12 16 16 20 20 24 24
Y
8 6 6
10 8 14 14 12 16 12
Berapa koefisien korelasinya? n
r
(x i 1
i
x )( y i y )
n n 2 2 ( xi x ) ( y i y ) i 1 i 1
Penyelesaian •
> x <- c(8, 8, 12, 12, 16, 16, 20, 20, 24, 24)
•
> y <- c(8, 6, 6, 10, 8, 14, 14, 12, 16, 12)
•
> plot (x,y)
•
> abline(lm(y~x), col=”red”)
•
> cor(x,y, method=”pearson”)
•
> library(Hmisc)
•
> rcorr(x,y, type=”pearson”)
Pengujian Koef Korelasi
Spearman • X=c(106,86,100,101,99,103,97,113,112,110) • Y=c(7,0,27,50,28,29,20,12,6,17)
Contoh 2 Seorang peneliti ingin melihat hubungan antara tingkat pendidikan dengan status jabatan seseorang, yang hasilnya sebagai berikut: Pendidikan
2
5
1
7
9
10
3
8
Jabatan
5
7
8
1
3
6
2
4
Berapa koefisien korelasinya?
Penyelesaian •
> x <- c(2, 5, 1, 7, 9, 10, 3, 8)
•
> y <- c(5, 7, 8, 1, 3, 6, 2, 4)
•
> cor(x,y, method=”spearman”)
•
> cor(x,y, method=”kendall”)
•
> library(Hmisc)
•
> rcorr(x,y,type=”spearman”)
• x <- c(2, 5, 1, 7, 9, 10, 3, 8) • y <- c(5, 7, 8, 1, 3, 6, 2, 4) • cor(x,y, method="spearman") • cor(x,y, method="kendall") • library(Hmisc) • rcorr(x,y,type="pearson") • tsta=(−0.175757575)*(8^(0.5))/(1(−0.175757575)^2)^(0.5) • 2*pt(tsta,8)
Tugas •
Seorang peneliti tengah meneliti hubungan antara biaya yang dikeluarkan untuk iklan (x) dengan nilai penjualan (y), dikumpulkan data biaya iklan dan hasil penjualan (halaman berikut) –
Bagaimanakah tingkat hubungan antara biaya iklan dengan penjualan
–
Apakah hubungan kedua variabel tersebut nyata.
Data No
Biaya
Hasil
No
Biaya
Hasil
1
50
85
7
60
90
2
40
40
8
30
42
3
25
35
9
52
60
4
50
65
10
40
52
5
40
75
11
52
80
6
20
44
12
35
51
Analisis Regresi Analisis Regresi adalah suatu analisis yang menyatakan hubungan fungsional antara sebuah variabel tak bebas dengan satu atau lebih variabel bebas
Model Regresi Yi = β0 + β1Xi + εi
; i = 1,2, ..., n
Yi adalah variabel tak bebas Xi adalah variabel bebas β0 adalah koefisien intersep β1 adalah koefisien slope εi adalah galat
Contoh •
• •
Data berikut menggambarkan hasil pengamatan mengenai banyak orang yang datang (X) dan banyak orang yang berbelanja (Y) disebuah toko selama 30 hari. (Sudjana, 2002) Asumsi antar pengamatan saling bebas Data dapat diunduh pada e-learning statistika dengan nama file “toko.csv”
Plot Data Plot data untuk model regresi menggunakan diagram pencar (scatterplot) antara variabel bebas (X) pada sumbu horizontal dan variabel tak bebas (Y) pada sumbu vertikal.
Plot Data dalam R •
Gunakan perintah “plot” > plot(x,y, pch=20)
•
Tambahkan baris berikut untuk membuat garis regresinya
•
> abline(lm(y~x),col="red")
Plot Data
Statistik Deskriptif • • • • •
Beberapa statistik yang diperlukan dalam analisis regresi adalah Jumlah X dan Y Jumlah kuadrat X dan Y Jumlah XY Rata-rata X dan Y
Statistik Deskriptif dalam R •
•
• • •
> sum(x);sum(y) [1] 1105 [1] 1001 > sum(x^2);sum(y^2) [1] 41029 [1] 33599 > sum(x*y) [1] 37094 > mean(x);mean(y) [1] 36.83333 [1] 33.36667
• b1=(sum(X*Y)(sum(X)*sum(Y)/length(X)))/(sum(X^2)(sum(X))^2/length(X)) • b0=mean(Y)-b1*mean(X)
Taksiran Koefisien Regresi • • • •
Koefisien Regresi dapat ditaksir menggunakan rumus sehingga diperoleh nilai koefisien intersep dan arah (slope) Nilai taksiran ini dapat digunakan untuk menghitung nilai prediksi bagi Y. Koefisien intersep menyatakan nilai Y pada X = 0 (rata-rata Y) Koefisien arah (slope) menyatakan penambahan (+) atau penurunan (-) nilai Y
Menghitung Taksiran Regresi • • •
> lm(y~x, toko) Call: lm(formula = y ~ x, data = toko)
• • •
Coefficients: (Intercept) x 8.2437 0.6821
Galat Baku Penaksir •
Galat baku penaksir (standard error) adalah akar kuadrat varians sampling dari penaksir koefisien regresi
•
Galat baku ini digunakan untuk pengujian hipotesis keberartian koefisien regresi
Pengujian Koefisien Regresi •
Koefisien regresi yang sudah ditaksir perlu diuji keberartiannya
•
Untuk koefisien intersep pengujian memberikan arti apakah garis regresi melewati titik pusat (0,0)
•
Untuk koefisien arah (slope) pengujian untuk melihat apakah variabel bebas mempunyai pengaruh terhadap variabel tak bebas
Hasil Pengujian • • • • • • •
> fit<-lm(y~x, toko) > summary(fit) Call: lm(formula = y ~ x, data = toko) Residuals: Min 1Q Median 3Q Max -2.7983 -0.7303 0.2017 0.8954 2.4734
Hasil Pengujian •
Coefficients: Estimate Std. Error t value Pr(>|t|)
• •
(Intercept) 8.24368 2.62501 3.140 0.00396 **
•
x
•
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
•
Residual standard error: 1.286 on 28 degrees of freedom
•
Multiple R-squared: 0.7673,
•
F-statistic: 92.34 on 1 and 28 DF, p
0.68207 0.07098 9.609 2.30e-10 ***
Adjusted R-squared: 0.759
Analisis Varians • •
Digunakan untuk menguji independensi antara variabel bebas (X) dengan Variabel tak bebas (Y) Dari Analisis varians dapat pula dihitung koefisien determinasi yang menyatakan fit tidaknya model yang ditentukan.
Analisis Varians •
> anova(fit)
•
Analysis of Variance Table
•
Response: y Df Sum Sq
•
Mean Sq F value Pr(>F)
•
x
1 152.670 152.670
•
Res 28
•
---
•
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
46.296
92.335
2.304e-10 ***
1.653
Latihan •
Suatu telaah dilakukan untuk mengevaluasi sejauh mana pengaruh biaya yang dikeluarkan untuk iklan terhadap hasil penjualan, dikumpulkan data biaya iklan dan hasil penjualan (halaman berikut)
•
Jika diasumsikan hubungan antara biaya iklan dengan hasil penjualan dapat dinyatakan sebagai persamaan linier sederhana, dugalah persamaan garis tersebut apakah biaya iklan memberikan pengaruh yang nyata terhadap hasil penjualan