2/2/2011
}
}
Tony Hartono Mahasiswa Magister Statistika, Fakultas MIPA, Institut Teknologi Sepuluh Nopember, Surabaya e-mail :
[email protected]
Permasalahan data hilang atau tidak lengkap (missing data) biasa ditemui di berbagai bidang Missing data merupakan hal yang tidak diinginkan oleh peneliti, karena dengan adanya missing data tersebut maka data hasil observasi tidak dapat dianalisis dengan baik.
Surabaya, 19 Januari 2011
Sejumlah penelitian untuk mengatasi missing data : } Dempster, Laird dan Rubin (1976) menerapkan suatu pendekatan umum untuk perhitungan secara iterasi dari estimasi Maximum Likelihood ketika observasi diketahui berupa data tak lengkap.
Mekanisme misssing data (Little dan Rubin , 1987)
}
}
Missing Completely at Random (MCAR)
Missing at Random (MAR)
Missingness Is NonIgnorable
}
Roth (1994) menggunakan Missing Data Techniques (MDTs) pada kasus data tak lengkap. Gary, Honaker, Joseph dan Scheve (2000) mencoba menangani perbedaan subtansial antara cara pandang ilmuwan politik dan komunitas statistik, tentang analisis data yang mengandung missing values. Grzymala dan Busse (2003) menunjukkan suatu teknik yang dapat digunakan pada incomplete data dengan menggunakan blok/kumpulan pasangan nilai suatu atribut
1
2/2/2011
}
Metode dalam menangani misssing data
} mengabaikan dan membuang missing data (Gary, Honaker, Joseph & Scheve, 2000)
}
estimasi parameter (Dempster, Laird & Rubin, 1977)
Imputasi (Myrteveit, Stensrud & Olsson, 2001)
Sedangkan metode Multiple Imputation, Maximum Likelihood dan Bayesian sangat sesuai untuk memprediksi namun pada beberapa kasus, algoritma tersebut menjadi lebih lama dalam proses perhitungannya disaat suatu prediksi harus dihitung dengan cepat secara real time
}
Beberapa contoh metode imputasi yang sering dipakai imputasi rata-rata (Mean imputation), imputasi regresi, Cold & Hot Deck imputation, Multiple Imputation (Little & Rubin, 1987) dan sebagainya. (Sarle, 1998) Metode Hot Deck kurang sesuai jika dipakai untuk memprediksi karena nilai prediksi akan tergantung pada faktor-faktor yang tak nyata seperti pada urutan dalam dataset atau pada angka pseudo-random.
Proses kluster sering kali digunakan dalam Hot Deck Imputation. Secara umum ada dua langkah dalam dalam metode Hot Deck Imputation yaitu pertama data dibagi kedalam beberapa kluster berdasar metrik persamaan tertentu dan masingmasing contoh yang mengandung missing data terhubung dalam salah satu kluster, kedua menghitung mean dari atribut dalam sebuah kluster dan kasus yang lengkap dalam kluster digunakan untuk mengisi missing values (Fujikawa dan Ho, 2002).
2
2/2/2011
(Jang, Sun & Mizutani, 1997) Algoritma kluster dapat digunakan untuk mengetahui struktur dalam data, dapat digunakan lebih lanjut dalam berbagai aplikasi, dapat diterapkan ke dalam data yang kuantitatif (numerik), kualitatif (kategorikal) atau kombinasi dari keduanya. (Zadeh, 1997) Salah satu algoritma kluster yang dikenal adalah metode Fuzzy K-means, modelnya merupakan derajat keanggotaan dimana objek tersebut lebih dekat ke sebuah kluster. Hal tersebut merupakan ide dasar dari soft computing, yang lebih menerima kekurangakuratan (imprecision), ketidakpastian (uncertainty) dan kebenaran parsial (partial truth)
}
}
missing data juga dijumpai pada Survei Tahunan Perusahaan Industri Besar Dan Sedang yang merupakan salah satu survei rutin yang dilakukan BPS Permasalahan yang sering dijumpai pada pelaksanaan survei tersebut adalah perusahaan yang nonrespon baik itu perusahaan lama ataupun perusahaan baru.
}
}
Salah satu kriteria yang digunakan dalam kluster adalah ukuran kemiripan yang dilakukan dengan menggunakan fungsi jarak. Pada umumnya banyak penelitian yang menggunakan fungsi jarak Euclidean, akan tetapi seringkali fungsi ini tidak tepat saat terjadi perbedaan skala/satuan pada data (Sharma, 1996).
Data Survei Perusahaan Industri Besar Dan Sedang Provinsi Jawa Timur Tahun 2008 tercatat ada 4.154 perusahaan yang terdiri dari 3.427 perusahaan sedang dan 727 perusahaan besar atau sekitar 82,50% perusahaan sedang dan 17,50% perusahaan besar. Dan dari data 4.154 perusahaan besar maupun sedang sebanyak 15% dari observasi tersebut terdapat missing values.
3
2/2/2011
}
}
}
}
}
}
Belum adanya toolbox MATLAB Fuzzy K-Means yang khusus digunakan untuk menangani missing data Bagaimana melakukan imputasi missing data dengan menggunakan algoritma Fuzzy K-Means pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008 Bagaimana perbandingan hasil imputasi antara metode Fuzzy K-Means imputation dengan metode imputasi lain yaitu metode K-Nearest Neighbors Imputation. Bagaimana perbandingan hasil imputasi menggunakan dua fungsi jarak pada metode Fuzzy K-means Imputation yaitu fungsi jarak Euclidean dan Manhattan
Penerapan algoritma Fuzzy K-means untuk imputasi nilai yang hilang dengan dua fungsi jarak yaitu Euclidean dan Manhattan Missing data yang diperoleh adalah dengan cara menghilangkan dengan acak beberapa nilai/field pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008
}
}
}
}
}
Membuat toolbox MATLAB Fuzzy K-Means yang dapat menangani permasalahan missing data dan bersifat user friendly. Melakukan imputasi missing data dengan menggunakan metode Fuzzy K-Means pada data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008. Membandingkan hasil imputasi antara metode Fuzzy KMeans Clustering dengan metode K-Nearest Neighbors Imputation pada Data Perusahaan Industri Besar Provinsi Jawa Timur Tahun 2008 Membandingkan hasil imputasi menggunakan dua fungsi jarak pada algoritma Fuzzy K-means imputation yaitu fungsi jarak Euclidean dan Manhattan
Laencina, Gomez, Vidal dan Verleysen, (2009) melakukan kajian dari kinerja algoritma KNN untuk melakukan imputasi missing values. Metode ini memilih K observasi yang terdekat dari serangkaian observasi dengan nilai yang telah diketahui dalam atribut untuk dilakukan imputasi sehingga akan meminimalisasi ukuran jarak. Ketika nilai tetangga K terdekat ditemukan, nilai pengganti yang disubstitusikan untuk missing values harus diestimasikan. Nilai pengganti dihitung bergantung pada tipe data, metode ini dapat digunakan untuk data kualitatif dan mean untuk data kontinu.
4
2/2/2011
FKM-2. Hitung U ( r +1) = arg min { J m (U ,v (r ) )} dengan menggunakan 1 < i < c , 1 ≤ k ≤ n maka :
Hathaway dan Bezdek (2001) mencoba mengelompokkan/clustering pada sekumpulan objek O = {o1 ,L ,on } yang dipresentasikan dengan dataset objek
numerik X = {x 1 ,L , x n } ⊂ R kedalam c kluster, 1 < c < n . Data numerik tersebut s
menggambarkan objek-objek dengan nilai spesifik untuk s variabel.
U ∈M fcn
U ik( r + 1) =
dimana
FKM-1. Tentukan m, c dan ε , dimana m > 1 , 1 < c < n dan ε > 0 . Pilih v sebuah
A
norm untuk J m , dan sebuah termination norm
⊂R , s
untuk
FKM. Kemudian saat langkah ke-r, r = 0,1,2,K
1/(1 − m ) ik
Dik = x k −v i(r )
Selanjutnya merupakan algoritma dari FKM adalah sebagai berikut: (0)
(D
)
c 1/(1− m ) ∑ Dik j =1 2
A
(2.7)
(2.8)
FKM-3. Hitung v (r +1) = arg min {J m (U (r + 1) ,v )} dengan menggunakan 1 ≤ i ≤ c dan 1 ≤ j ≤ s maka :
v
m n ( r + 1) x kj ∑ U ik v ij(r +1) = k =1n m ( r +1) ∑ U ik k =1
(
)
(
FKM-4. Bandingkan v (R +1) terhadap v (R ) menggunakan v ( R +1 ) −v ( R ) < ε . Jika
benar maka berhenti. Jika tidak, tetapkan r = r + 1 dan kembali ke FKM-2.
)
Root Mean Squared Error (RMSE) Root Mean
Squared
Error (RMSE) seringkali digunakan untuk
membandingkan nilai prediksi dengan nilai aktual/sesungguhnya dari suatu uji.
Fungsi Jarak Jarak antara centroid v i dan objek x k dalam Fuzzy K-Means dinotasikan
dengan D (v i , x k ) . Pemilihan jarak merupakan salah satu alternatif penerapan
Fuzzy K-means, contohnya jarak Generelized Lp norm yang digunakan untuk mengukur jarak antara sebuah centroid dan objek data dalam kluster, seperti dalam persamaan berikut : S
D (v i , x k ) = ( ∑| x kj −v ij |)1/ p
Metrik analisis error RMSE didefinisikan sebagai berikut :
RMSE =
n
∑| F i =1
i
− f i |2
n
(2.12)
dimana n adalah jumlah total dari nilai uji, F i adalah nilai data estimasi, dan f i adalah nilai data aktual.
(2.10)
j =1
Jarak Euclidean sebenarnya adalah jarak L2 dan jarak Manhattan adalah jarak L1 .
5
2/2/2011
}
}
Survei Tahunan Industri Besar dan Sedang Provinsi Jawa Timur Tahun 2008 informasi yang terdapat didalamnya meliputi jumlah tenaga kerja (orang), pemakaian listrik dari PLN (KWH), nilai pemakaian listrik (ribu rupiah), pemakaian listrik sendiri (KWH), listrik yang dijual (KWH). nilai bahan bakar yang digunakan (ribu rupiah), total nilai bahan baku (ribu rupiah) dan total nilai produksi yang dihasilkan (ribu rupiah).
} } } }
x1 = Jumlah tenaga kerja (orang); x2 = Nilai bahan bakar (ribu rupiah); x3 = Total nilai bahan baku (ribu rupiah) dan x4 = Total nilai produksi (ribu rupiah).
Start Data yang mengandung Missing values Tentukan m, c dan ε Hitung objek lengkap & pilih sebagai centroid pertama v (r +1) = arg min {K m (U (r +1) ,v )} v
Hitung fungsi keanggotaan
{
}
U ( r +1) = arg min K m (U ,v ( r ) ) U ∈M fc n
tidak
Bandingkan centroid (r+1) dengan centroid (r) v (r +1) −v (r ) < ε ya
Isi semua missing values c
x k j = ∑U ( x k ,v i ) ∗v ij i =1
End
6
2/2/2011
}
Tabel 4.2 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak Kluster = 2 Kluster = 3 Kluster = 4 Kluster = 5 Persentase missing Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan
Perancangan Graphical User Interfaces (GUI)
Tabel 4.3 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan data simulasi dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak. K=1 K=2 K=3 K=4 Persentase missing Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan
10%
19.465,66 19.426,48 19.606,11 19.523,12 19.670,02 19.521,65 19.747,26 19.633,98
10%
28.748,49 28.748,49 29.811,26 29.820,69 28.417,70 28.425,99
NaN
NaN
20%
19.112,96 19.154,71 19.215,70 19.017,53 19.093,26 18.907,50 19.307,92 19.156,66
20%
29.233,34 29.233,34 30.436,49 30.437,28 29.387,52 29.390,59
NaN
NaN
30%
19.201,80 19.245,06 19.510,94 19.608,55 19.640,89 19.708,03 19.860,88 19.918,01
30%
31.293,62 31.293,62 37.100,89 37.095,56 34.448,40 34.461,47
NaN
NaN
40%
18.552,92 18.551,65 18.936,57 19.060,72 19.306,38 19.537,92 19.388,57 19.531,14
40%
31.056,22 31.056,22 34.035,00 34.060,53 34.201,37 34.219,98
NaN
NaN
50%
20.141,22 20.121,23 20.674,93 20.502,14 20.958,13 20.811,14 20.993,51 20.947,00
50%
28.778,27 28.778,27 35.978,65 36.003,08 36.811,41 36.824,34
NaN
NaN
Rata-rata 29.821,99 29.821,99 33.472,46 33.483,43 32.653,28 32.664,47
NaN
NaN
Rata-rata 19.294,91 19.299,83 19.588,85 19.542,41 19.733,74 19.697,25 19.859,62 19.837,36
Sumber : data simulasi (hasil pengolahan)
Sumber : data simulasi (hasil pengolahan)
7
2/2/2011
Tabel 4.8 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Besar dengan metode Fuzzy K-Means berdasarkan banyaknya kluster dan fungsi jarak. Persentase missing
Kluster = 2 Euclidean
Kluster = 3
Manhattan
Euclidean
Persentase missing
Kluster = 4
Manhattan
Euclidean
Tabel 4.8 lanjutan
Manhattan
Kluster = 5 Euclidean
Manhattan
Kluster = 6 Euclidean
Manhattan
10%
40.448.553,89 45.817.857,25 43.059.642,86 46.271.565,12
10%
49.931.071,57 51.243.368,36 44.377.627,07 48.366.963,02
41.823.163,46
49.000.239,16
20%
41.771.446,07 60.449.501,13 38.171.123,80 105.133.279,27
20%
45.828.962,04 51.796.767,88 60.058.244,18 57.831.000,97
44.646.293,29
95.743.880,98
30%
87.203.390,91 98.962.220,20 96.365.329,61 95.350.321,96
30%
93.013.997,17 93.502.955,32 82.132.593,42 80.411.155,39
85.984.872,24
93.704.528,82
40%
93.382.633,72 139.080.279,38 85.611.483,56 106.643.687,91
40%
74.558.483,99 75.783.302,20 94.804.820,64 96.866.933,42 120.270.534,66 120.410.863,75
50%
89.127.402,09 107.191.545,29 93.424.730,01 108.262.392,71
50%
63.199.701,17 63.795.545,77 68.466.609,62 65.392.118,90
69.782.847,53
78.093.497,24
Rata-rata
70.386.685,33 90.300.280,65 71.326.461,97 92.332.249,39
Rata-rata
65.306.443,19 67.224.387,91 69.967.978,99 69.773.634,34
72.501.542,24
87.390.601,99
Sumber : Data Perusahaan Industri Besar (hasil pengolahan)
Tabel 4.9 Nilai rata-rata RMSE dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar dengan metode K-Nearest Neighbors berdasarkan banyaknya titik terdekat dan fungsi jarak. Persentase missing
K=1 Euclidean
Manhattan
K=2 Euclidean
Manhattan
K=3 Euclidean
K=4
Manhattan Euclidean Manhattan
10%
33.820.877,66 29.169.413,48 44.553.899,03 35.132.197,81 44.883.391,32 41.348.606,91
NaN
NaN
20%
50.414.057,69 50.402.712,36 42.778.766,78 42.698.353,41 45.737.757,25 46.073.421,21
NaN
NaN
30%
89.972.884,30 89.972.884,30 87.841.768,38 87.776.402,51 90.528.924,51 90.298.468,16
NaN
NaN
40%
86.407.518,66 86.407.518,66 68.946.445,32 67.024.169,10 69.422.933,24 67.435.408,44
NaN
NaN
50%
44.137.411,60 44.102.667,65 44.020.421,76 42.055.044,00 42.416.004,96 42.609.115,36
NaN
NaN
Rata-rata
60.950.549,98 60.011.039,29 57.628.260,25 54.937.233,37 58.597.802,25 57.553.004,02
NaN
NaN
Tabel 4.10
Nilai U Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak.
Kluster = 2 Kluster = 3 Kluster = 4 Persentase missing Euclidean Manhattan Euclidean Manhattan Euclidean Manhattan 10% 0,37457 0,45508 0,41481 0,37090 0,35495 0,37222 20% 0,56103 0,48068 0,45524 0,19464 0,26599 0,28562 30% 0,37329 0,20456 0,48493 0,48155 0,36669 0,28587 40% 0,73445 0,37826 0,40049 0,38176 0,43974 0,54359 50% 0,37670 0,55847 0,38370 0,58939 0,30978 0,28682 Rata-rata 0,48661 0,43653 0,37650 0,37183 0,41847 0,34321 Sumber : Data Perusahaan Industri Besar (hasil pengolahan)
8
2/2/2011
Tabel 4.10
Tabel 4.11 Nilai Centroid Error dari 5 kali percobaan menggunakan Data Perusahaan Industri Besar berdasar banyaknya kluster dan fungsi jarak.
lanjutan
Kluster = 5 Kluster = 6 Persentase missing Euclidean Manhattan Euclidean Manhattan 10% 0,24249 0,29903 0,20184 0,28516 20% 0,33481 0,29103 0,29276 0,30635 30% 0,29123 0,24613 0,30520 0,25135 40% 0,35269 0,34463 0,24006 0,28741 50% 0,23826 0,30985 0,26785 0,29874 Rata-rata 0,29189 0,29814 0,26154 0,28580
Persentase missing
Kluster = 2 Euclidean
Manhattan
Kluster = 3 Euclidean
Manhattan
Kluster = 4 Euclidean
Manhattan
10%
315.962.989,11 361.980.302,54 741.738.089,20
615.432.394,77 1.199.194.686,15 1.013.567.171,30
20%
198.796.652,67 570.313.816,51 866.803.185,79
740.559.781,63
977.874.563,14 1.297.481.799,43
30%
311.530.852,20 251.033.889,88 725.467.796,33 1.047.559.131,48
809.785.584,87 1.031.257.172,62
40%
434.139.659,38 652.580.051,86 795.874.834,27 1.275.544.344,23 1.567.220.905,25 1.438.858.878,92
50%
374.392.066,91 584.636.410,40 985.735.080,52 1.436.105.228,87 1.469.041.980,66 1.227.645.616,54
Rata-rata
326.964.444,05 484.108.894,24 823.123.797,22 1.023.040.176,20 1.204.623.544,02 1.201.762.127,76
Sumber : Data Perusahaan Industri Besar (hasil pengolahan)
}
Tabel 4.11 Lanjutan Persentase missing
Kluster = 5 Euclidean
Manhattan
Kluster = 6 Euclidean
Manhattan
10
1.164.299.546,36 1.313.182.555,01 747.623.932,08 1.126.983.043,71
20
1.084.470.380,86 1.308.798.868,00 1.478.361.053,32 1.590.169.582,78
30
1.206.688.239,91 1.555.276.834,73 1.756.650.108,30 1.559.151.766,93
40
1.390.866.526,18 1.550.809.656,72 1.413.945.699,50 1.482.492.562,39
50
1.404.179.135,63 1.699.220.254,05 1.666.696.320,25 1.448.915.399,96
Rata-rata 1.250.100.765,79 1.485.457.633,70 1.412.655.422,69 1.441.542.471,15
}
}
Metode FKMI selain untuk kluster dapat juga diterapkan untuk menangani masalah missing data. Pada hasil pengolahan dengan menggunakan data simulasi yang memiliki distribusi normal ternyata metode FKMI menghasilkan nilai ratarata RMSE yang lebih kecil jika dibandingkan dengan metode KNNI. Secara keseluruhan nilai imputasi baik menggunakan metode FKMI ataupun metode KNNI menghasilkan nilai minimum maupun maksimum yang sama dengan data simulasi asli.
9
2/2/2011
}
}
}
Sedangkan pada data Perusahaan Industri Besar hasil pengolahan menunjukan nilai rata-rata RMSE dengan menggunakan metode FKMI memiliki nilai yang lebih besar dibandingkan dengan metode KNNI, namun metode FKMI masih dapat lebih dikembangkan lebih lanjut mengingat parameter FKMI yang lebih variatif jika dibandingkan dengan metode KNNI. Fungsi jarak Euclidean secara rata-rata menghasilkan nilai error yang lebih kecil jika dibandingkan dengan fungsi jarak Manhattan baik itu nilai RMSE, Centroid Error maupun U Error. Nilai minimum dan maksimum dari Data Perusahaan Industri Besar hasil imputasi memiliki nilai yang sama baik menggunakan metode FKMI maupun metode KNNI.
}
}
}
} } }
Lebih mendalami pola ataupun mekanisme yang menyebabkan missing data. Mencoba pada data lain yang memiliki pola, mekanisme, jumlah variabel maupun observasi yang berbeda. Menggunakan fungsi jarak selain Euclidean dan Manhattan. Membandingkan dengan metode imputasi yang lain. Memperbaiki tampilan toolbox FKMI. Mencoba menggunakan paket program yang open source
10