12
BAB III Kajian Simulasi
BAB III KAJIAN SIMULASI
3.1 Kajian simulasi tentang efektifitas pengujian 1 outlier Kajian terhadap literatur menghasilkan kesimpulan bahwa pendeteksian outlier dengan menggunakan jarak Mahalanobis sangat efektif jika hanya ada 1 buah outlier. Pada sub-bab ini akan dikemukakan kajian simulasi untuk memperlihatkan sejauh mana kesimpulan ini cocok dengan eksperimen. Langkah – langkahnya sebagai berikut. 1
Bangkitkan data acak sebanyak n dari distribusi normal p-variat N (0, I p ) dengan n = 100 dan p = 5. Kemudian pada setiap elemen dari vektor data ke 3 yaitu x3, kita tambahkan 5. Dengan demikian, data ke 3 adalah outlier. Hasil simulasi ini disimpan data dengan label “A15”.
2
Selanjutnya terhadap setiap elemen pada vektor data ke 95 pada himpunan data A15, kita tambahkan pula 5. Hasilnya kita simpan dalam himpunan data berlabel “A25”. Jadi, A25 mengandung 2 outlier yaitu data ke 3 dan ke 95.
3
Sekarang kita buat himpunan data berlabel A35 yang diperoleh dari A25 dengan menambahkan 5 pada setiap elemen vektor data ke 40. Jadi, A35 mengandung 3 outlier yaitu pada data ke 3, ke 40 dan ke 95.
4
Lakukan langkah 1 sampai 3 di atas untuk n yang tetap tapi p = 10 dan p = 20. Kita tuliskan Axy menyatakan himpunan data yang mengandung x buah outlier dengan p = y. Contohnya, A15 menyatakan himpunan data dengan 1 buah outlier dan p = 5. A25 (2 outlier p = 5), A35 (3 outlier p = 5), A110 (1
Abdullah - 10103076
13
BAB III Kajian Simulasi
outlier p = 10), A210 (2 outlier p = 10), A310 (3 outlier p = 10), A120 (1 outlier p = 20), A220 (2 outlier p = 20) dan A320 (3 outlier p = 20).
Terhadap 9 himpunan data hasil simulasi di atas, kemudian terapkan algoritma pendeteksian outlier yang telah dikemukakan pada Bab 1. Berikut adalah 9 buah plot kuadrat jarak Mahalanobis. 70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
Gambar A15
Abdullah - 10103076
80
90
100
14
BAB III Kajian Simulasi
50 45 40 35 30 25 20 15 10 5 0
0
10
20
30
40
50
60
70
80
90
100
Gambar A25 40 35 30 25 20 15 10 5 0
0
10
20
30
40
50
60
70
Gambar A35
Abdullah - 10103076
80
90
100
15
BAB III Kajian Simulasi
70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90
100
Gambar A110 50 45 40 35 30 25 20 15 10 5 0
0
10
20
30
40
50
60
70
Gambar A210
Abdullah - 10103076
80
90
100
16
BAB III Kajian Simulasi
35
30
25
20
15
10
5
0
0
10
20
30
40
50
60
70
80
90
100
80
90
100
Gambar A310 90 80 70 60 50 40 30 20 10 0
0
10
20
30
40
50
60
70
Gambar A120
Abdullah - 10103076
17
BAB III Kajian Simulasi
70
60
50
40
30
20
10
0
0
10
20
30
40
50
60
70
80
90
100
80
90
100
Gambar A220 50 45 40 35 30 25 20 15 10 5
0
10
20
30
40
50
60
70
Gambar A320 Keterangan : Data A15, A25, A35, A110, A210 dan A310 lampiran A.
Abdullah - 10103076
tercantum
pada
BAB III Kajian Simulasi
18
Pada himpunan-himpunan data dengan p = 5, plot kuadrat jarak Mahalanobis menunjukkan bahwa kehadiran 1 dan 2 outlier masih terlihat jelas. Plot kuadrat jarak Mahalanobis untuk dua data outlier tersebut cukup jauh dari kebanyakan data yang lain. Namun, untuk data dengan 3 outlier, sulit mengidentifikasi outlier karena di sini terjadi “masking effect” yaitu ditunjukkan dengan plot kuadrat jarak mahalanobis data ke 40 (outlier) yang dekat dengan plot kuadrat jarak mahalanobis data ke 37 (bukan outlier). Untuk himpunan-himpunan data dengan p = 10, plot kuadrat jarak Mahalanobis hanya bisa mengidentifikasi 1 outlier. Kedua outlier pada A210 sulit diamati karena adanya masking effect yaitu oleh data ke 11 di mana plot kuadrat jarak Mahalanobis data ke 3 dan 95 (outlier) sudah cukup dekat dengan plot kuadrat jarak Mahalanobis data ke 11 (bukan outlier). Pada himpunan data A310 dengan 3 outlier, jarak Mahalanobis tidak mampu mengidentifikasi satu pun outlier. Gejala seperti di atas lebih tampak jelas pada himpunan data dengan p = 20. Dalam hal ini, jarak Mahalanobis hanya dapat mengidentifikasi 1 outlier saja. Untuk 2 dan 3 outlier, jarak Mahalanobis tidak mampu membedakan data outlier dan data bukan outlier. Masking effect tidak dapat dihindari. Dari eksperimen simulasi di atas dapat disimpulkan bahwa pendeteksian outlier dengan menggunakan jarak Mahalanobis hanya efektif diterapkan pada himpunan data yang mengandung 1 outlier, untuk n dan p berapapun.
Abdullah - 10103076
BAB III Kajian Simulasi 3.2
19
Kajian simulasi tentang distribusi pendekatan kuadrat jarak Mahalanobis Untuk menyelidiki distribusi pendekatan kuadrat jarak Mahalanobis, pada sub-bab ini dilakukan eksperimen simulasi dengan membangkitkan data acak tanpa outlier. Simulasi akan dilakukan dengan pertama-tama menebak bahwa kuadrat jarak Mahalanobis berdistribusi chi-square dengan parameter p. Berikut langkahlangkah simulasinya. 1. Bangkitkan data acak dari distribusi normal p-variat N (0, I p ) sebanyak n = 50 dengan p = 5. Hal ini dilakukan sebanyak 10 kali sehingga diperoleh 10 buah himpunan data. 2. Langkah 1 dilakukan untuk n dan p yang berbeda-beda yaitu (n, p) = (100, 10), (200, 20), (500, 50) dan (1000, 100). Untuk setiap pasangan (n, p) dilakukan replikasi sebanyak 10 kali. 3. Kemudian terapkan algoritma perhitungan jarak Mahalanobis pada 50 himpunan data di atas. Hasilnya diurutkan dari nilai terkecil hingga nilai terbesar. 4. Selanjutnya, hitung kuantil-kuantil distribusi chi-square dengan derajat kebebasan p. Dengan menggunakan MS Excel, perintahnya adalah sebagai berikut: = CHIINV(1-(k – 0.5)/n, p) , untuk k = 1, 2, .., n. 5. Buat diagram pencar dengan sumbu x menyatakan kuantil distribusi chi-square dan sumbu y adalah nilai kuadrat jarak Mahalanobis yang sudah diurut. Lalu buat garis regresi linier yang
Abdullah - 10103076
20
BAB III Kajian Simulasi
melewati titik (0,0) (set intercept = 0) dan tampilkan persamaan regresi beserta nilai R-square.
Keterangan: data normal N (0, I p ) dengan n = 50, p = 5 dan n = 100, p = 10 sebanyak 5 buah terlampir pada lampiran B.
Dari simulasi di atas didapat 10 buah persamaan (gradien persamaan) dan nilai R-square untuk masing-masing nilai n dan p. Berikut nilai-nilainya. 1. Untuk n = 50 , p = 5 Replikasi 1 2 3 4 5 6 7 8 9 10
Gradien R-Square 0.996 0.9697 0.9681 0.9829 0.9554 0.9637 0.9438 0.9736 0.9392 0.9407 0.9578 0.9661 0.9301 0.9428 0.9301 0.9428 0.9691 0.9669 0.9191 0.9187
2. Untuk n = 100, p = 10 Replikasi 1 2 3 4 5 6 7 8 9 10
Abdullah - 10103076
Gradien R-Square 0.9672 0.9611 0.9998 0.9768 0.9995 0.9823 0.9624 0.9473 0.9906 0.9926 0.9773 0.9803 0.9677 0.9435 0.979 0.9752 0.9826 0.985 0.9769 0.9855
BAB III Kajian Simulasi
3. Untuk n = 200, p = 20 Replikasi 1 2 3 4 5 6 7 8 9 10
Gradien R-Square 0.9903 0.9916 0.9829 0.9648 0.9887 0.9886 0.988 0.9902 0.9932 0.9948 0.9925 0.9948 0.9879 0.9863 0.9922 0.9895 0.9908 0.9903 0.9907 0.9934
4. Untuk n = 500, p = 50 Replikasi 1 2 3 4 5 6 7 8 9 10
Gradien R-Square 0.9957 0.9929 0.9972 0.9962 0.9984 0.9964 0.9948 0.9896 0.996 0.9943 0.9959 0.9927 0.9967 0.9955 0.9968 0.994 0.9975 0.9963 0.9952 0.9889
5. Untuk n = 1000, p = 100 Replikasi 1 2 3 4 5 6 7 8 9 10
Abdullah - 10103076
Gradien R-Square 0.9981 0.9963 0.9981 0.9955 0.9476 0.9933 0.9977 0.994 0.9983 0.9965 0.9987 0.9982 0.9983 0.9978 0.9979 0.9949 0.9983 0.9962 0.9982 0.9957
21
22
BAB III Kajian Simulasi
Nilai gradien persamaan dan R-Square yang mendekati 1, untuk masing-masing percobaan dengan nilai n dan p yang berbeda-beda, menunjukkan bahwa distribusi chisquare dengan derajat kebebasan p sudah cukup baik dalam mendekati distribusi kuadrat jarak Mahalanobis. Mengingat kemudahan perhitungan dengan distribusi chi-square dengan derajat kebebasan p, maka untuk selanjutnya distribusi tersebut digunakan sebagai distribusi pendekatan bagi kuadrat jarak Mahalanobis.
3.3
Kajian simulasi tentang cut-off distribusi pendekatan
Distribusi eksak kuadrat jarak Mahalanobis adalah konstanta dikalikan distribusi beta, (n − 1) 2 p (n − p − 1) d S ( xi , x) ~ Beta( , ) n 2 2 2
Sedangkan distribusi pendekatanya adalah distribusi chi-square.
d S 2 ( xi , x) ~ χ 2 p Baik distribusi eksak maupun distribusi pendekatan, kedua-duanya dapat digunakan untuk menentukan nilai cut-off. Karena distribusi eksak mengandung dua parameter n dan p sedangkan distribusi pendekatan hanya melibatkan satu parameter p, agar distribusi pendekatan efektif, maka perlu diteliti nilai-nilai n. Penggunaan distribusi pendekatan sangat menarik karena perhtungannya lebih mudah dan cepat daripada distribusi eksak. Maka dari itu, dengan menggunakan simulasi, akan dicari nilai n minimum yang menghasilkan pendekatan yang
Abdullah - 10103076
23
BAB III Kajian Simulasi
memuaskan. Simulasi dilakukan pada distribusi normal p-variat N (0, I p ) dengan suatu nilai n dan p di mana data ke n dibuat sebagai outlier.
Berikut nilai cut-off kuadrat jarak Mahalanobis hasil pendekatan dengan yang eksak untuk berbagai nilai n dan p dengan α = 2.5 %.
1. Untuk p=5 n 10 15 20 25 30 35 40 45 50 60 70 80 90 100 200 300 400 500 1000
Pendekatan 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502 12.832502
Eksak 7.462483 9.324076 10.23062 10.76528 11.1178 11.36762 11.55394 11.6982 11.81321 11.98509 12.10735 12.19879 12.26976 12.3264 12.58034 12.66458 12.70664 12.73185 12.78218
Untuk p = 5 ternyata cut-off kuadrat jarak Mahalanobisk hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak mahalanobis klasik yang eksak jika n > 15. Simulasi dengan p = 5 dan n > 15 ini masing masing dilakukan 10 kali dan dari 10 kali simulasi ini akhirnya didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak.
Abdullah - 10103076
24
BAB III Kajian Simulasi
Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 5 dengan n = 15 dan n = 16.
14
14
12
12
10
10
8
8
6
6
4
4
2
2
0
0
5
10
Gambar p5n15
15
0
0
2
4
6
8
10
Gambar p5n16
Pada Gambar p5n15 dan Gambar p5n16 terdapat garis biru dan garis hijau. Garis biru adalah cut-off dari distribusi hasil pendekatan sedangkan yang hijau adalah cutoff distribusi eksak. Pada gambar p5n15, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak, artinya untuk n = 15 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p5n16, cut-off distribusi pendekatan dan cutoff distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini berarti untuk n = 16 (n > 15), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
Abdullah - 10103076
12
14
16
25
BAB III Kajian Simulasi 2. Untuk p=10 n 15 20 25 30 35 40 45 50 60 70 80 90 100 200 300 400 500 1000
Pendekatan 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177 20.483177
Eksak 12.50125 14.71007 15.94586 16.74213 17.29942 17.71166 18.02913 18.28127 18.65639 18.92223 19.12049 19.274 19.39644 19.94314 20.12386 20.21401 20.26795 20.37569
Untuk p = 10 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 24. Simulasi dengan p = 10 dan n > 24 ini masing masing dilakukan 10 kali dan dari 10 kali. Hasil simulasi memberikan cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 10 dengan n = 24 dan n = 25.
Abdullah - 10103076
26
BAB III Kajian Simulasi
22
22
20
20
18
18
16
16
14
14
12
12
10
10
8
8
6
6
4
4
2
0
5
10
15
20
Gambar p10n24
25
2
0
5
10
15
20
Gambar p10n25
Pada Gambar p10n24, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 24, cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p10n25, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outliernya. Ini berarti, untuk n = 25 (n > 24), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
3. Untuk p=15 n 20 25 30 35 40 45 50
Pendekatan 27.488393 27.488393 27.488393 27.488393 27.488393 27.488393 27.488393
Abdullah - 10103076
Eksak 17.51058 19.87616 21.29454 22.25656 22.95601 23.4888 23.90865
25
27
BAB III Kajian Simulasi 60 70 80 90 100 200 300 400 500 1000
27.488393 27.488393 27.488393 27.488393 27.488393 27.488393 27.488393 27.488393 27.488393 27.488393
24.52879 24.96517 25.28917 25.53933 25.73831 26.62205 26.91271 27.05727 27.14383 27.31645
Untuk p = 15 cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 30. Simulasi dengan p = 10 dan n > 30, masing masing dilakukan 10 kali dan dari 10 kali simulasi tersebut didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 10 dengan n = 30 dan n = 31. 30
30
25
25
20
20
15
15
10
10
5
0
5
10
15
20
Gambar p15n30
25
30
5
0
5
10
15
20
25
Gambar p15n31
Pada Gambar p15n30, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya, untuk n = 30
Abdullah - 10103076
30
35
28
BAB III Kajian Simulasi
cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p15n31, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Jadi, untuk n = 31 (n > 30), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
4. Untuk p=20 n 25 30 35 40 45 50 60 70 80 90 100 200 300 400 500 1000
pendekatan 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607 34.169607
eksak 22.51397 24.96914 26.50429 27.58141 28.3858 29.01178 29.92569 30.56244 31.03222 31.39331 31.67966 32.94283 33.35555 33.56045 33.68287 33.9269
Untuk p = 20 cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 38. Simulasi dengan p = 20 dan n > 38 masing masing dilakukan 10 kali. Hasilnya memberikan cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 20 dengan n = 38 dan n = 39. Abdullah - 10103076
29
BAB III Kajian Simulasi
35
40
30
35
25
30
20
25
15
20
10
15
5
0
5
10
15
20
25
30
35
Gambar p20n38
40
10
0
5
10
15
20
25
30
35
gambar p20n39
Pada Gambar p20n38, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 38 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p20n39, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini berarti untuk n = 39 (n > 38), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
5. Untuk p=25 n 30 35 40 45 50 60 70 80 90 100 200
Pendekatan 40.646469 40.646469 40.646469 40.646469 40.646469 40.646469 40.646469 40.646469 40.646469 40.646469 40.646469
Abdullah - 10103076
Eksak 27.51546 30.02865 31.64506 32.8069 33.69198 34.9614 35.83321 36.4709 36.95838 37.34336 39.02795
40
30
BAB III Kajian Simulasi 300 400 500 1000
40.646469 40.646469 40.646469 40.646469
39.57409 39.84462 40.00611 40.32736
Untuk p = 25 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 44. Simulasi dengan p = 25 dan n > 44 masing masing dilakukan 10 kali dan dari 10 kali didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 25 dengan n = 44 dan n = 45.
45
45
40
40
35
35
30
30
25
25
20
20
15
15
10
0
5
10
15
20
25
Gambar p25n44
30
35
40
45
10
0
5
10
15
20
25
30
35
Gambar p25n45
Pada Gambar p25n44, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Jadi, untuk n = 44 cutoff distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p25n45, cut-off distribusi pendekatan dan cut-off distribusi
Abdullah - 10103076
40
45
31
BAB III Kajian Simulasi
eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini berarti untuk n = 45 (n > 44), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
6. Untuk p=30 n 35 40 45 50 60 70 80 90 100 200 300 400 500 1000
Pendekatan 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242 46.979242
Eksak 32.51618 35.07 36.74627 37.9731 39.68285 40.83253 41.66399 42.2949 42.79077 44.93953 45.63014 45.97127 46.17464 46.57869
Untuk p = 30 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 50. Simulasi dengan p = 30 dan n > 50 masing masing dilakukan 10 kali dan dari 10 kali diperoleh cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 30 dengan n = 50 dan n=51.
Abdullah - 10103076
32
BAB III Kajian Simulasi
50
50
45
45
40
40 35
35 30
30 25
25
20
20
15
0
5
10
15
20
25
30
35
40
45
50
0
Gambar p30n50
10
20
30
40
Gambar p30n51
Pada Gambar p30n50, cut-off distribusi eksak mendeteksi data terakhir sebagai outlier sedangkan cut-off distribusi pendekatan tidak. Jadi, untuk n = 50 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p30n50, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Artinya untuk n = 51 (n > 50), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
7. Untuk p=35 n 40 45 50 60 70
Pendekatan 53.203349 53.203349 53.203349 53.203349 53.203349
Abdullah - 10103076
Eksak 37.51655 40.10041 41.82259 44.102 45.58586
50
60
33
BAB III Kajian Simulasi 80 90 100 200 300 400 500 1000
53.203349 53.203349 53.203349 53.203349 53.203349 53.203349 53.203349 53.203349
46.64222 47.43644 48.0568 50.7144 51.56008 51.97665 52.22468 52.71664
Untuk p = 35 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 56. Simulasi dengan p = 35 dan n > 56 masing masing dilakukan 10 kali dan dari 10 kali diperoleh cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 35 dengan n = 56 dan n = 57.
55
55
50
50
45
45
40
40
35
35
30
30
25
25
20
0
10
20
30
Gambar p35n56
Abdullah - 10103076
40
50
60
20
0
10
20
30
40
Gambar p35n57
50
60
34
BAB III Kajian Simulasi
Pada Gambar p35n56, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 56 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p35n56, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Jadi, untuk n = 57 (n > 56), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
8. Untuk p=40 n 45 50 60 70 80 90 100 200 300 400 500 1000
Pendekatan 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707 59.341707
Eksak 42.51674 45.12371 48.20232 50.09997 51.42083 52.40189 53.16234 56.37626 57.38777 57.88439 58.17961 58.76429
Untuk p = 40 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 63. Simulasi dengan p = 40 dan n > 63 masing masing dilakukan 10 kali dan dari 10 kali didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 40 dengan n = 63 dan n = 64.
Abdullah - 10103076
35
BAB III Kajian Simulasi
65
60
60
55
55
50 50
45
45 40
40
35
35 30
30
25
25 20
0
10
20
30
40
50
60
Gambar p40n63
70
0
10
20
30
40
50
60
Gambar p40n64
Pada Gambar p40n63, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Jadi, untuk n = 63 cutoff distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p40n64, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Artinya untuk n = 64 (n > 63), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
9. Untuk p=45 N 50 60 70 80 90 100 200 300 400 500 1000
pendekatan 65.410159 65.410159 65.410159 65.410159 65.410159 65.410159 65.410159 65.410159 65.410159 65.410159 65.410159
Abdullah - 10103076
eksak 47.51683 51.9302 54.36539 56.004 57.20106 58.11997 61.94171 63.1295 63.7108 64.05582 64.73795
70
36
BAB III Kajian Simulasi
Untuk p = 45 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 69. Simulasi dengan p = 45 dan n > 69 masing masing dilakukan 10 kali. Hasilnya adalah cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 45 dengan n = 69 dan n = 70. 70
70
65
65
60
60
55
55
50
50
45
45
40
40
35
35
30
0
10
20
30
40
50
Gambar p45n69
60
70
30
0
10
20
30
40
50
60
Gambar p45n70
Pada Gambar p45n69, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Jadi, untuk n = 69 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p45n70, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini artinya untuk n = 70 (n > 69), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
Abdullah - 10103076
70
37
BAB III Kajian Simulasi
10. Untuk p=50 n 60 70 80 90 100 200 300 400 500 1000
Pendekatan 71.420195 71.420195 71.420195 71.420195 71.420195 71.420195 71.420195 71.420195 71.420195 71.420195
Eksak 55.15707 58.35329 60.38593 61.83665 62.93613 67.42247 68.7974 69.46775 69.86507 70.64914
Untuk p = 50 ternyata cut-off kuadrat jarak Mahalanobis hasil pendekatan sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak jika n > 75. Simulasi dengan p = 50 dan n > 75 masing masing dilakukan 10 kali. Hasilnya didapat cut-off kuadrat jarak Mahalanobis hasil pendekatan yang sama efektifnya dengan cut-off kuadrat jarak Mahalanobis yang eksak. Berikut plot kuadrat jarak Mahalanobis metode klasik dengan cut-off hasil distribusi pendekatan dan eksak untuk p = 50 dengan n = 75 dan n = 76. 75
75
70
70 65
65
60
60 55
55 50
50 45
45
40
40 35
35 30
0
10
20
30
40
Gambar p50n75
Abdullah - 10103076
50
60
70
80
0
10
20
30
40
gambar p50n76
50
60
70
80
BAB III Kajian Simulasi
38
Pada Gambar p50n75, cut-off distribusi eksak mendeteksi bahwa data terakhir adalah outlier sedangkan cut-off distribusi pendekatan tidak. Artinya untuk n = 75 cut-off distribusi pendekatan tidak sama efektifnya dengan cut-off distribusi eksak. Namun pada Gambar p50n76, cut-off distribusi pendekatan dan cut-off distribusi eksak sama-sama hanya mendeteksi data terakhir sebagai outlier. Ini artinya untuk n = 76 (n > 75), cut-off distribusi pendekatan sama efektifnya dengan cut-off distribusi eksak.
Dari nilai n minimum yang diperoleh agar cut-off distribusi hasil pendekatan dapat dipakai dan keefektifannya sama dengan cut-off distribusi eksak untuk nilai p yang berbeda-beda didapat model nilai n minimum untuk masing-masing nilai p. Berikut data nilai p dan nilai minimum nya.
p 5 10 15 20 25 30 35 40 45 50
n minimum 16 25 31 39 45 51 57 64 70 76
Dari nilai n minimum di atas akan dilakukan regresi linear dengan p sebagai prediktor (variabel bebas atau biasa disebut x) dan n minimum sebagai respon (variabel terikat atau biasa disebut y) sehingga diperoleh,
Abdullah - 10103076
39
BAB III Kajian Simulasi
n minimum 90
y = 1.3091x + 11.4 2 R = 0.9978
80 70 60 50 40 30 20 10 0 0
20
40
60
Dari hasil regresi linier diperoleh model n minimum terhadap p yaitu : Minimum n = 1.3091 * p + 11.4 dengan R-square = 0.9978, artinya kecocokan model regresi terhadap data sangat bagus karena R-square nya sudah mendekati 1. Jadi, untuk data dengan p variabel sebaiknya menggunakan cut-off kuadrat jarak Mahalanobis hasil pendekatan jika nilai n data ≥ n minimum yang didapat dari model regresi (n minimum sebagai fungsi dari p). tapi nilai n minimum dikhawatirkan hanya berlaku untuk beberapa buah data saja contohnya seperti data yang kuadrat jarak mahalanobis klasiknya diplot diatas. Untuk mengatasi masalah ini maka untuk menentukan n minimum agar efektifitas cut-off pendekatan dapat dianggap sama efektifnya dengan cut-off eksak maka harus dicari nilai n minimum untuk suatu nilai p sehingga selisih cut-off pendekatan dengan cut-off eksak tidak terlalu besar atau cukup kecil, dalam hal ini ambil selisihnya 1.
Abdullah - 10103076
40
BAB III Kajian Simulasi
Untuk p = 5, cut-off pendekatan dengan cut-off eksak mempunyai selisih sekitar 1 untuk n = 50. untuk p = 10 cut-off pendekatan dengan cut-off eksak mempunyai selisih sekitar 1 untuk n = 100. kemudian untuk p = 20 maka n = 300, untuk p = 30 maka n = 400, untuk p = 40 maka n = 500 dan untuk p = 50 maka n = 1000. berikut tabel nilai n minimum sehingga cut-off pendekatan dan cut-off eksak dapat dianggap cukup dekat/hampir berimpit sehingga untuk data N(0,Ip) seperti apapun, cut-off pendekatan sama efektifnya dengan cut-off eksak : p 5 10 20 30 40 50
n_minimum2 50 100 300 400 500 500
Dari nilai n_minimum2 untuk p=5, 10,20,30,40 dan 50 akan dilakukan regresi linier untuk mendapatkan taksiran model n_minimum2 untuk sebarang nilai p. Berikut plot n_minimum2 terhadap p beserta model regresinya: plot n_minimum2 terhadap p y = 10.822x + 28.767 2 R = 0.9273
n_minimum2
600 500 400 300 200 100 0 0
10
20
30 p
Abdullah - 10103076
40
50
60
BAB III Kajian Simulasi
41
Dari hasil regresi diperoleh model n_minimum2 = 10.822*p + 28.767 dengan R2 = 0.9273 (kecocokan model regresi dengan titik-titik yang diregresikan). Jadi, jika n lebih dari n_minimum2 untuk suatu p maka cut-off pendekatan akan sama efektifnya dengan cut-off eksak. Keterangan : data simulasi untuk p = 5 dengan n = 15 dan n = 16 serta data untuk p = 10 dengan n = 24 dan n = 25 terlampir di Lampiran C.
Abdullah - 10103076