Pencilan “Pencilan adalah pengamatan yang nilai mutlak sisaannya jauh lebih besar daripada sisaan-sisaan lainnya”
Bisa jadi terletak pada tiga atau empat simpangan baku atau lebih jauh lagi dari rata-rata sisaannya.
Keberadaan pencilan harus diperiksa dengan seksama, apakah pencilan itu merupakan kesalahan dalam pencatatan amatan atau pencilan tersebut muncul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh.
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Pencilan (lanjutan) Plot antara Sisaan ei vs dugaan Yi
Plot antara Sisaan ri vs dugaan Yi
Scatterplot of Sisaan baku-2 vs dugaan-Y2
Scatterplot of sisaan2 vs dugaan-Y2
3
3
2 sisaan2
Sisaan baku-2
2
1
1
0
0
-1
-1 5
6
7
8 dugaan-Y2
9
10
5
6
7
8 dugaan-Y2
• Dugaan persamaan regresi Y = 3.00 + 0.500 X dgn R-Sq = 66.6% • Pola tebaran sisaan thdp ei dan ri sama • Ada sisaan yang nilainya sangat besar potensi sebagai pencilan Itasia & Y Angraini Dep. Statistika FMIPA-IPB
9
10
Pencilan (lanjutan)
MENDETEKSI PENCILAN
• Hitung nilai dengan
ei ri s 1 hii
hii
1 n
x i x 2 n
xk x i 1
• Jika nilai |ri|>2, amatan tsb dapat dikatakan sebagai pencilan Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Yi
2
Xi
ri
7.46
10 -0.46018
6.77
8 -0.19633
12.74
13
2.99999
7.11
9 -0.33085
7.81
11 -0.59695
8.84
14 -1.13497
6.08
6
0.07042
5.39
4
0.3807
8.15
12 -0.75518
6.42
7 -0.06974
5.73
5
0.21188
Pencilan (lanjutan) DATA LENGKAP
DATA TANPA PENCILAN Scatterplot of Y tnp pclan vs X tnp pclan 13
12
12
11
11
10
10
Y tnp pclan
Y-3
Scatterplot of Y-3 vs X-3 13
9 8
9 8
7
7
6
6 5
5 5,0
7,5
10,0
12,5
15,0
5,0
7,5
X-3
Coef 3.002 0.4997
S = 1.23631
SE Coef 1.124 0.1179
12,5
Y = 4.01 + 0.345 X
Y = 3.00 + 0.500 X Predictor Constant X
10,0 X tnp pclan
T P 2.67 0.026 4.24 0.002
R-Sq = 66.6%
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Predictor Constant X
Coef 4.00565 0.345390
S = 0.00308168
SE Coef 0.00292 0.000321
P 0.000 0.000
R-Sq = 100.0%
15,0
Pencilan (lanjutan) Plot sisaan baku (ri) vs dugaan Y Data Lengkap
Data Tanpa Pencilan
Scatterplot of sisaan2 vs dugaan-Y2
Scatterplot of s baku tnp pcl vs dugaan tnppcl 2.0
3 1.5 1.0 s baku tnp pcl
sisaan2
2
1
0.5 0.0 -0.5
0
-1.0 -1 -1.5 5
6
7
8
9
dugaan-Y2
Tebaran berpola, karena (1) ada pencilan, atau (2) model tidak pas
10
5
6
7 dugaan tnppcl
8
Tebaran tidak berpola, menyebar di sekitar nilai nol, lebar pita relatif sama
Mengeluarkan data pencilan dari analisis: • mampu memperbaiki pola tebaran sisaan yang tadinya berpola (garis lurus) • harus dilakukan dengan kehati-hatian yang tinggi. Itasia & Y Angraini Dep. Statistika FMIPA-IPB
9
Amatan Berpengaruh AMATAN BERPENGARUH : berkaitan dengan besarnya perubahan yang terjadi pada dugaan parameter regresi jika pengamatan tersebut disisihkan X1
1
1
1
1,2 1,2 1,2 1,3 1,3 1,3 1,4 1,4 1,4 1,5 1,5 1,5 1,6 1,6 1,6
4,0
Y1 2,11 1,39 0,78 2,02 2,46 3,67 2,56 1,74 1,88 5,15 2,41 2,00 3,56 3,09 0,78 4,29 3,33 3,10 15,00
Unusual Observations
Scatterplot of Y1 vs X1 16 14
Obs X1 Y1 Fit 10 1,40 5,147 2,895 15 1,50 0,776 3,345 19 4,00 15,000 14,576
12
Y1
10 8 6
SE Fit 0,244 0,243 1,009
Residual 2,252 -2,569 0,424
St Resid 2,19 R -2,50 R 1,34 X
4 2 0 1,0
1,5
2,0
2,5 X1
3,0
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
3,5
4,0
R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.
Amatan Berpengaruh (lanjutan) OUTPUT MINITAB The regression equation is
Y1 = - 3,39 + 4,49 X1
S = 1,05749 R-Sq = 88,8% R-Sq(adj) = 88,1% Analysis of Variance Source DF SS Regression 1 150,10 Residual Error 17 19,01 Total 18 169,11 Unusual Observations Obs X1 Y1 Fit 10 1,40 5,147 2,895 15 1,50 0,776 3,345 19 4,00 15,000 14,576
MS 150,10 1,12
SE Fit 0,244 0,243 1,009
F P 134,22 0,000
Residual 2,252 -2,569 0,424
St Resid 2,19 R -2,50 R 1,34 X
R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Hasil analisis regresi dari data tersebut menunjukkan bahwa ada 3 amatan yg aneh, yaitu amatan ke 10,15, dan 19. Amatan 10 dan 15 berpotensi sebagai pencilan. Amatan 19 berpotensi sebagai amatan berpengaruh Bandingkan dg data tanpa amatan 19. Apakah perubahan dugaan parameter regresi cukup nyata?
Amatan Berpengaruh (lanjutan)
Penyisihan “pengamatan berpengaruh” mengubah secara berarti dugaan persamaan regresi Analisis Regresi thdp Data Lengkap
An Regresi thdp Data Tanpa Amatan 19
The regression equation is
The regression equation is
Y1 = - 3,39 + 4,49 X1
Y1 = - 1,26 + 2,88 X1
S = 1,05749 R-Sq = 88,8% R-Sq(adj) = 88,1%
S = 1,03065 R-Sq = 25,4% R-Sq(adj) = 20,8%
Analysis of Variance Source DF SS Regression 1 150,10 Residual Error 17 19,01 Total 18 169,11
Analysis of Variance Source DF SS Regression 1 5,797 Residual Error 16 16,996 Total 17 22,793
MS 150,10 1,12
F P 134,22 0,000
Unusual Observations Obs X1 Y1 Fit SE Fit Resid St Resid 10 1,40 5,147 2,895 0,244 2,252 2,19 R 15 1,50 0,776 3,345 0,243 -2,569 -2,50 R 19 4,00 15,000 14,576 1,009 0,424 1,34 X Itasia & Y Angraini Dep. Statistika FMIPA-IPB
MS F P 5,797 5,46 0,033 1,062
Unusual Observations Obs X1 Y1 Fit SE Fit Resid St Resid 10 1,40 5,147 2,764 0,256 2,383 2,39 R 15 1,50 0,776 3,052 0,318 -2,276 -2,32 R
Amatan Berpengaruh (lanjutan) Dugaan Garis Regresi Data Lengkap
Dugaan Grs Regresi Data Tnp Amatan 19
Fitted Line Plot
Fitted Line Plot
Y1 = - 3,394 + 4,493 X1
Y1 tnp amatan 19 = - 1,265 + 2,878 X1 tnp amatan 19 16
14
14
12
12
Y1 tnp amatan 19
16
Y1
10 8 6 4
10 8 6 4
2
2
0 1,0
1,5
2,0
2,5 X1
3,0
3,5
4,0
1,0
1,5
2,0 2,5 X1 tnp amatan 19
3,0
3,5
Penyisihan AMATAN BERPENGARUH menyebabkan perubahan dugaan kemiringan garis. BERBAHAYA. Apabila pemanfaatan hasil analisis regresi bertumpu pada pemaknaan parameter Itasia & Y Angraini Dep. Statistika FMIPA-IPB
4,0
Amatan Berpengaruh (lanjutan)
Statistik Uji untuk Mendeteksi Amatan Berpengaruh Pengaruh titik data ke-i diukur dengan jarak :
ei Di 1 2 s 1 h ii
2
2
hii 1 1 hii p
Keterangan: s2 = dugaan bagi ragam Yi = KTsisaan hii = unsur diagonal ke-i matriks H = X(X’X)-1X’ Nilai Di dibandingkan dengan F (p,n-p; 1-α). Dengan n = banyaknya pengamatan dan p = banyaknya parameter Di > F (p,n-p;1-α). menandakan bahwa amatan ke-i berpengaruh. Itasia & Y Angraini Dep. Statistika FMIPA-IPB
X (i)
Y (i)
e (i)
r (i)
D (i)
1
2,11
1,01
1,00
0,30
1
1,39
0,30
0,29
0,09
1
0,78
-0,32
-0,32
-0,09
1,2
2,02
0,02
0,02
0,01
1,2
2,46
0,46
0,45
0,11
1,2
3,67
1,68
1,64
0,45
1,3
2,56
0,11
0,11
0,03
1,3
1,74
-0,71
-0,69
-0,17
1,3
1,88
-0,56
-0,55
-0,13
1,4
5,15
2,25
2,19
0,59
1,4
2,41
-0,49
-0,47
-0,11
1,4
2,00
-0,90
-0,87
-0,21
1,5
3,56
0,21
0,21
0,05
1,5
3,09
-0,26
-0,25
-0,06
1,5
0,78
-2,57
-2,50
-0,72
1,6
4,29
0,50
0,49
0,11
1,6
3,33
-0,47
-0,45
-0,11
1,6
3,10
-0,70
-0,68
-0,16
4
15,00
0,42
1,34
4,40
Itasia & Y Angraini Dep. Statistika FMIPA-IPB
Amatan Berpengaruh CONTOH PENGGUNAAN Di
(lanjutan)
Dugaan persamaan regresi DATA LENGKAP : Y1 = - 3,39 + 4,49 X1 Banyaknya parameter = 2 p = 2 Banyaknya pengamatan = 19 n = 19 Pengamatan ke -19 memiliki nilai D19 = 4,40 Dengan α = 5% Nilai tabel F(p,n-p; 1-α) = F (2,17; 0,95) = 3,59 D19 > F (2,17; 0,95) Dengan α = 5%, amatan ke 19 (terakhir) merupakan amatan berpengaruh.