BAB III ANALISIS DISKRIMINAN
3.1 Pengertian Analisis Diskriminan Analisis diskriminan merupakan salah satu metode yang digunakan dalam analisis multivariat dengan metode dependensi (dimana hubungan antar variabel sudah bisa dibedakan mana variabel terikat dan mana variabel bebas). Analisis diskriminan digunakan pada kasus dimana variabel bebas berupa data metrik (interval atau rasio) dan variabel terikat berupa data nonmetrik (nominal atau ordinal). Analisis diskriminan adalah salah satu metode yang dapat digunakan untuk mengetahui variabel mana yang membedakan suatu kelompok dengan kelompok lain dalam suatu populasi. Analisis diskriminan juga dapat digunakan untuk mengklasifikasikan data berdasarkan perbedaan karakterikstik data tersebut. Menurut Supranto (2004:78), teknik analisis diskriminan dibedakan menjadi dua, yaitu analisis diskriminan dua kelompok dan analisis diskriminan berganda. Untuk analisis diskriminan dua kelompok, jika variabel terikat (Y) dikelompokan menjadi dua maka diperlukan satu fungsi diskriminan. Untuk analisis diskriminan berganda, jika variabel dependen (Y) dikelompokan menjadi lebih dari dua kelompok maka diperlukan fungsi diskriminan sebanyak (k-1) untuk k kategori. Analisis diskriminan bertujuan mengklasifikasikan suatu objek kedalam kelompok yang saling lepas (mutually exclusive/disjoint) dan menyeluruh
35
(exhaustive) berdasarkan sejumlah variabel bebas dan mengelompokkan objek baru ke dalam kelompok-kelompok yang saling lepas tersebut. Selain itu, beberapa tujuan dari analisis diskriminan ini, antara lain: 1.
Menentukan apakah terdapat perbedaan yang nyata antara beberapa karakteristik yang diteliti dalam membedakan dua atau lebih kelompok.
2. Menentukan variabel bebas mana saja yang memberikan kontribusi penting (berarti) dalam membedakan nilai rata-rata diskriminan dari dua atau lebih kelompok. 3.
Mengelompokkan data kedalam dua atau lebih kelompok berdasarkan karakteristik data yang diteliti. Model analisis diskriminan berkenaan dengan kombinasi linear memiliki
bentuk sebagai berikut: ๐ = ๐0 + ๐1 ๐1 + ๐2 ๐2 + โฏ + ๐๐ ๐๐
(3.1)
Keterangan: Y = nilai (skor) diskriminan dan merupakan variabel terikat. ๐๐ = variabel (atribut) ke-k dan merupakan variabel bebas. ๐๐ = koefisien diskriminan/bobot dari variabel (atribut) ke-k. Dalam suatu populasi yang terdiri dari dua kelompok dan sejumlah observasi ni untuk setiap kelompok ke-i, ditentukan kombinasi linear dari variabel bebas yang memisahkan kedalam dua kelompok. Kombinasi linear yang dapat dibentuk dari dua kelompok ini adalah ๐1๐ = ๐โฒ ๐1๐ = ๐1 ๐1๐1 + ๐2 ๐1๐2 + โฏ + ๐๐ ๐1๐๐ ๐ = 1,2, โฆ , ๐1 , ๐2๐ = ๐โฒ ๐2๐ = ๐1 ๐2๐1 + ๐2 ๐2๐2 + โฏ + ๐๐ ๐2๐๐ ๐ = 1,2, โฆ , ๐2 ,
(3.2)
36
Dengan menggunakan persamaan ๐ =
๐ โฒ ๐ป๐
(3.3)
๐ โฒ ๐ธ๐
Di mana 2
๐ป=
๐๐ ๐ฅ๐ โ ๐ฅ ๐ฅ๐ โ ๐ฅ
โฒ
(3.4)
๐=1 2
๐
๐ธ=
๐ฅ๐๐ โ ๐ฅ๐ ๐ฅ๐๐ โ ๐ฅ๐
โฒ
(3.5)
๐=1 ๐ โ๐
dan a adalah vektor koefisien, ๐๐ adalah vektor rata-rata kelompok ke-i, dan ๐ adalah vektor rata-rata keseluruhan dan n1, n2 adalah ukuran sampel dari kelompok 1 dan 2. Dari persamaan (3.3) dapat dibentuk persamaan ๐โฒ ๐ป๐ = ๐๐โฒ ๐ธ๐ ๐โฒ ๐ป๐ โ ๐๐ธ๐ = 0
(3.6)
๐โฒ tidak dibolehkan nol karena (3.3) akan menjadi bentuk ฮป = 0/0 sehingga solusi diperoleh dari ๐ป๐ โ ๐๐ธ๐ = 0, bentuk ini dapat dinyatakan dalam ๐ธโ1 โ โ ๐๐ผ = 0
(3.7)
3.2 Analisis Diskriminan Metode Fisher Prinsip utama dari fungsi diskriminan Fisher adalah pemisahan sebuah populasi.
Fungsi
diskriminan
yang
terbentuk
dapat
digunakan
untuk
pengelompokan suatu observasi berdasarkan kelompok-kelompok tertentu. Metode Fisher ini tidak mengasumsikan data harus berdistribusi normal, tapi dalam perhitungan salah satu syarat yang harus diperhatikan adalah data yang
37
digunakan harus memiliki matriks kovarians yang sama untuk setiap kelompok populasi yang diberikan. Misalkan terdapat suatu populasi yang terdiri atas h kelompok yang masing-masing mempunyai rata-rata ยตi, i = 1, 2, โฆ, h dan matriks kovarians 1
=
2
=โฆ =
โ
= . Misalkan ๐ adalah rata-rata keseluruhan atau rata-rata
gabungan dari populasi tersebut (overall mean), dan B0 menyatakan cross product di antara kelompok: โ
๐ต0 =
๐๐ โ ๐ ๐๐ โ ๐ ๐=1
โฒ
1 di mana ๐ = โ
โ
๐๐
(3.8)
๐=1
Selanjutnya, kombinasi linear yang terbentuk untuk setiap kelompok dapat dinyatakan dalam bentuk ๐ = ๐โฒ ๐
(3.9)
Kombinasi linear ini dari tiap kelompok populasi memiliki nilai harapan sebagai berikut: ๐ธ ๐ = ๐ธ ๐โฒ ๐ = ๐โฒ ๐ธ ๐ ๐๐ = ๐โฒ ๐๐ = ๐๐๐ ,untuk kelompok ฯi
(3.10)
dan variansi ๐๐๐ ๐ = ๐๐๐ ๐โฒ ๐ = ๐โฒ ๐ถ๐๐ฃ ๐ ๐ = ๐โฒ
๐ , untuk semua populasi
(3.11)
Dari beberapa rata-rata kelompok populasi, maka dapat diperoleh rata-rata keseluruhan untuk kombinasi linear gabungan, yaitu 1 ๐๐ = โ
โ
๐=1
1 ๐๐๐ = โ
โ
๐โฒ ๐ ๐=1
๐
=
๐โฒ
1 โ
โ
๐๐ = ๐ โฒ ๐ ๐=1
3.12
38
Dalam populasi yang diteliti dapat dilakukan pengukuran keseragaman antara kelompok dari nilai relatif Y terhadap keseragaman dalam kelompok dari populasi yang diberikan tersebut dan diperoleh dengan cara: ๐๐ข๐๐๐โ ๐๐ข๐๐๐๐๐ก ๐๐๐๐๐ ๐๐๐๐ ๐๐๐ก๐ โ ๐๐๐ก๐ ๐๐๐ ๐๐๐ข๐๐ขโ๐๐ ๐๐๐๐ข๐๐๐ ๐ ๐ก๐๐โ๐๐๐๐ ๐ ๐ฃ๐๐๐๐๐๐ ๐ ๐
=
โ ๐=1
2
๐ โฒ ๐๐ โ ๐ โฒ ๐ ๐โฒ ๐
=
โ ๐=1
=
2
๐2๐
โ ๐=1
๐โฒ
๐๐๏ฟฝๆฑ โ ๐๐
๐๐ โ ๐ ๐๐ โ ๐
โฒ
๐
๐โฒ ๐
atau dapat ditulis โ ๐=1
๐๐๐ โ ๐๐ ๐๐2
2
=
๐โฒ ๐ต0 ๐ ๐โฒ ๐
(3.13)
Dalam perhitungannya besaran-besaran ฮฃ dan ยตi biasanya tidak diketahui, sehingga untuk memperolehnya ditaksir dari sampel yang berukuran ni dari kelompok populasi ฯi, i = 1, 2, โฆ, h. Vektor rata-rata yang diperoleh dari tiap sampel diperoleh melalui persamaan berikut 1 ๐ฅ๐ = ๐๐
๐๐
๐ฅ๐๐
(3.14)
๐=1
Matriks kovarians sampel dinotasikan Si, i = 1, 2, โฆ, h, dan vektor rata-rata keseluruhan sampel dapat diperoleh melalui ๐ฅ=
โ ๐=1 ๐๐ ๐ฅ๐ โ ๐=1 ๐๐
=
โ ๐=1
๐๐ ๐ =1 ๐ฅ๐๐
(3.15)
โ ๐=1 ๐๐
Dari besaran-besaran penaksir di atas, maka diperoleh B0 untuk menentukan ukuran sampel yaitu โ
๐ต0 =
๐ฅ๐ โ ๐ฅ ๐ฅ๐ โ ๐ฅ ๐=1
โฒ
(3.16)
39
Selain itu dapat ditentukan penaksir ฮฃ dari sampel, yaitu โ
๐=
โ
๐๐
๐๐ โ 1 ๐๐ = ๐=1
๐ฅ๐๐ โ ๐ฅ๐ ๐ฅ๐๐ โ ๐ฅ๐
โฒ
(3.17)
๐=1 ๐ =1
Pada penjelasan sebelumnya penaksir dari ฮฃ untuk populasi yang memiliki matriks kovarians yang sama adalah Spooled. Selanjutnya dapat dinyatakan bahwa ๐ ๐1 + ๐2 + โฏ + ๐โ โ โ = ๐๐๐๐๐๐๏ฟฝ ๆฅฒ
(3.18)
merupakan penaksir untuk ฮฃ. Dalam perhitungan untuk mencari vektor koefisien yang memaksimumkan keragaman di antara kelompok dari nilai relatif Y terhadap keragaman dalam ๐โฒ ๐ต0 ๐
kelompok, maka ditentukan vektor koefisien ๐ yang memaksimumkan
dan memaksimumkan
๐โฒ ๐๐๐๐๐๐๐ ๐
๐โฒ ๐ต0 ๐ ๐โฒ ๐๐
. Untuk mencari ๐ yang memaksimumkan kasus ini
dapat dinyatakan dalam bentuk vektor eigen ๐๐ , ๐ = 1,2, โฆ , โ yang dapat dicari dari bentuk ๐โ1 ๐ต0 . Vektor-vektor eigen ini bersesuaian dengan nilai eigen dari bentuk persamaan ๐โ1 ๐ต0 ๐ = ๐๐ yang juga dapat dituliskan dalam bentuk ๐โ1 ๐๐๐๐๐๐ ๐ต0 ๐ = ๐ ๐1 + ๐2 + โฏ + ๐โ โ โ ๐
(3.19)
3.3 Prosedur Analisis Diskriminan 3.3.1
Uji Normal Multivariat Pengujian normal multivariat dilakukan dengan mencari nilai jarak
kuadrat untuk setiap pengamatan yaitu: d 2j ๏ฝ ( X j ๏ญ X )' S ๏ญ1 ( X j ๏ญ X ) , di
40
mana Xj adalah pengamatan yang ke-j dan S-1 adalah kebalikan matriks ragam-peragam S. Kemudian d 2j diurutkan dari yang paling kecil sampai yang paling ๏ฆ j ๏ญ1 2 ๏ถ besar, selanjutnya dibuat plot d 2j dengan nilai Chi-Kuadrat ๏ฃ 2p ๏ง ๏ท ๏จ n ๏ธ
dimana j = urutan 1, 2, ..., n dan p = banyak peubah. Bila hasil plot dapat didekati dengan garis lurus, maka dapat disimpulkan bahwa peubah ganda menyebar normal. Untuk menguji normalitas dapat juga dilakukan dengan bantuan menggunakan program SPSS versi 17.0 dengan perumusan hipotesis sebagai berikut: H0
: pernyataan-pernyataan yang diteliti berdistribusi normal
H1
: pernyataan-pernyataan yang diteliti tidak berdistribusi normal
Kriteria pengujian: H0 ditolak jika nilai sig.< 0,05 atau sebaliknya.
3.3.2
Uji Kesamaan Matriks Kovarians Uji kesamaan matriks kovarians dapat dilakukan sebagai berikut:
๏ถ Perumusan hipotesis H0
: ฮฃ1 = ฮฃ2
H1
: ฮฃ1 โ ฮฃ2
๏ถ Statistik uji Statitik uji yang digunakan untuk perhitungan adalah ๐=
๐1
๐ฃ1 /2
๐2 ๐๐๐
๐ฃ2 /2
โฆ ๐๐
๐ ๐ฃ๐ ๐ /2
๐ฃ๐ /2
(3.20)
41
dengan ๐๐๐ =
๐ ๐=1 ๐ฃ๐ ๐๐ ๐ ๐ฃ ๐=1 ๐
dan ๐ฃ๐ = ๐๐ โ 1
dan M dihitung melalui pendekatan distribusi ฯ2 dan F. Pendekatan distribusi ฯ2 dihitung melalui persamaan ๐ข = โ2 1 โ ๐1 ln ๐ Berdistribusi ๐
๐21 2 ๐โ1 ๐(๐+1)
dengan ๐1 = ๐=1
1 โ ๐ฃ๐
1 ๐ ๐ฃ ๐=1 ๐
2๐2 + 3๐ โ 1 6 ๐ + 1 (๐ โ 1)
Pendekatan distribusi F dihitung bergantung pada nilai c1 dan c2 dengan ๐ โ 1 (๐ + 2) ๐2 = 6(๐ โ 1)
๐
1 โ 2 ๐ฃ ๐ ๐=1
1 ๐ ๐ฃ 2 ๐=1 ๐
Juga dengan menghitung ๐1 =
1 ๐โ1 ๐ ๐+1 , 2
๐1 =
1 โ ๐1 โ ๐1 ๐2 , ๐1
๏ฟฝ๎ 2 = ๐2 =
๐1 + 2 ๐2 โ ๐1 2
1 โ ๐1 + 2/๐2 ๐2
Jika ๐2 > ๐21 maka digunakan ๐น = โ2๐1 ln ๐ yang didekati oleh ๐น๐1,๐2 . Jika ๐2 < ๐21 maka digunakan ๐น =
2๐ 2 ๐2 ln ๐ ๐ 1 1+2๐2 ln ๐
yang didekati oleh ๐น๐1,๐2 .
๏ถ Kriteria Pengujian Tolak H0 jika sign. < 0,05 , atau terima H0 jika sign. > 0,05.
3.3.3
Uji Kesamaan Vektor Rata-rata Uji kesamaan vektor rata-rata dari kelompok-kelompok (Test of
Equality of Group Means) dapat dilakukan sebagai berikut:
42
๏ถ Pengujian Hipotesis : ๐1 = ๐2 (pernyataan-pernyataan yang diteliti tidak memiliki
H0
perbedaan antar kelompok) : ๐1
H1
โ ๐2 (pernyataan-pernyataan yang diteliti memiliki perbedaan
antar kelompok) ๏ถ Statistik Uji Statistik uji yang digunakan dalam pengujian hipotesis tersebut adalah statistik Wilkโs Lambda, yaitu: ฮ=
๐
(3.21)
๐+๐ต
dengan: ๐
๐1
๐=
๐๐๐ โ ๐ฅ๐ ๐๐๐ โ ๐ฅ๐
โฒ
๐=1 ๐ =1 ๐
๐ต=
๐๐ ๐ฅ๐ โ ๐ฅ ๐ฅ๐ โ ๐ฅ
โฒ
๐=1
๐๐๐ = pengamatan ke-j kelompok ke-i ๐ฅ๐ = vektor rata-rata kelompok ke-i ni = banyak pengamatan pada kelompok ke-i ๐ฅ = vektor rata-rata total ๏ถ Kriteria Pengujian Tolak H0 jika sign. < 0,05 , atau sebaliknya. Diharapkan dari uji ini adalah H0 ditolak.
43
3.3.4
Pembentukan Fungsi Diskriminan Fisher mengelompokkan suatu observasi berdasarkan nilai skor yang
dihitung dari suatu fungsi linear ๐ = ๐โฒ ๐ dimana ๐โฒ menyatakan vektor yang berisi koefisien-koefisien variabel bebas yang membentuk persamaan linear terhadap variabel terikat, ๐โฒ = ๐1 , ๐2 , โฆ , ๐๐ . ๐=
๐1 ๐2
Xk menyatakan matriks data pada kelompok ke-k ๐ฅ11๐ ๐ฅ12๐ ๐ฅ1๐๐ ๐ฅ21๐ ๐ฅ22๐ ๐ฅ2๐๐ ๐๐ = โฎ โฎ โฎ , ๐ = 1,2, โฆ , ๐ ; ๐ = 1,2, โฆ , ๐ ; ๐ = 1,2 ๐ฅ๐1๐ ๐ฅ๐2๐ ๐ฅ๐๐๐ xijk menyatakan observasi ke-i variabel ke-j pada kelompok ke-k. Dengan asumsi Xk~N(ยตk,ฮฃk) maka ๐=
๐ธ ๐1 ๐ธ ๐2
๐1 โฒ = ๐ dan ๐ธ๐ = ๐ธ ๐๐ โ ๐๐ ๐๐ โ ๐๐ ; ฮฃ1 = ฮฃ2 = ฮฃ 2
๐1๐ ๐๐ = โฎ ; ๐๐ adalah vektor rata-rata tiap variabel X pada kelompok ke-k ๐๐๐ ๐11 =
๐๐1๐2 =
๐12 ๐22
โฏ โฏ โฑ
๐1๐ ๐2๐ โฎ ๐๐๐
๐ฃ๐๐๐๐๐๐ ๐ฃ๐๐๐๐๐๐๐๐ ๐ ๐๐๐๐๐๐๐ ๐1 = ๐2 ๐๐๐ฃ๐๐๐๐๐๐ ๐ฃ๐๐๐๐๐๐๐ ๐1 ๐๐๐ ๐2 ๐๐๐๐๐๐๐ ๐1 โ ๐2
Fisher mentransformasikan observasi-observasi x yang multivariat menjadi observasi y yang univariat. Dari persamaan ๐ = ๐โฒ ๐ diperoleh ๐๐๐ฆ = ๐ธ ๐๐ = ๐ธ ๐โฒ ๐ = ๐โฒ ๐๐ ;
44
๐2๐ = ๐ฃ๐๐ ๐โฒ ๐ = ๐โฒฮฃ๐ ๐๐๐ฆ adalah rata-rata Y yang diperoleh dari x yang termasuk dalam kelompok ke-k, sedangkan ๐2๐ adalah varians Y dan diasumsikan sama untuk kedua kelompok. Kombinasi linear yang terbaik menurut Fisher adalah yang dapat memaksimumkan rasio antara jarak kuadrat rata-rata Y yang diperoleh dari x dari kelompok 1 dan 2 dengan varians Y, atau dirumuskan sebagai berikut: ๐1๐ โ ๐2๐ ๐๐2
2
๐โฒ ๐1 โ ๐2 ๐1 โ ๐2 โฒ๐ = ๐โฒฮฃ๐
Jika ๐1 โ ๐2 = ๐ฟ, maka persamaan di atas menjadi
(3.22) ๐โฒ ๐ฟ
2
๐โฒ ฮฃ๐
. Karena ฮฃ adalah
matriks definit positif, maka menurut teori pertidaksamaan Cauchy-Schwartz, rasio
๐โฒ ๐ฟ
2
๐โฒ ฮฃ๐
dapat dimaksimumkan jika ๐โฒ = ๐ฮฃโ1 ๐ฟ = ๐ฮฃโ1 ๐1 โ ๐2
(3.23)
Dengan memilih c = 1, menghasilkan kombinasi linear yang disebut kombinasi linear Fisher sebagai berikut: ๐ = ๐โฒ ๐ = ๐1 โ ๐2 ฮฃ โ1 ๐
(3.24)
Setelah dibentuk fungsi linearnya, maka dapat dihitung skor diskriminan untuk setiap observasi dengan mensubstitusikan nilai-nilai variabel bebasnya. Selanjutnya dilakukan pengujian signifikan dari fungsi diskriminan yang terbentuk, dengan perumusan hipotesis sebagai berikut:
45
H0
: pernyataan-pernyataan yang diteliti tidak memiliki perbedaan antar kelompok
H1
: pernyataan-pernyataan yang diteliti memiliki perbedaan antar kelompok
Kriteria pengujian: H0 ditolak jika nilai ๐โ๐๐ก๐ข๐๐ > ๐๐ก๐๐๐๐ atau sebaliknya. Kemudian dilakukan uji kekuatan hubungan fungsi diskriminan untuk melihat seberapa besar hubungan nilai diskriminan dengan kelompok.
3.3.5
Penilaian Validitas Diskriminan Bobot diskriminan diperkirakan dengan menggunakan analysis sample
dikalikan dengan nilai variabel bebas di dalam holdout sample untuk mendapatkan skor diskriminan untuk kasus yang berada dalam holdout sample. Objek atau kasus tersebut kemudian dimasukan kedalam kelompok berdasarkan pada nilai fungsi diskriminan dan aturan-aturan yang tepat. Secara teoritis terdapat dua prosedur yang dapat digunakan untuk mengevaluasi hasil pengelompokan, yaitu Actual Error Rate (AER) dan Apparent Error Rate (APER). Prosedur ini berdasarkan dari matriks konfusi. Matriks konfusi menunjukkan keanggotaan kelompok pada kenyataan melawan keanggotaan kelompok yang diprediksi. Untuk n1 observasi dari ฯ1 dan n2 observasi dari ฯ2, maka matriks konfusinya adalah Tabel 3.1 Klasifikasi Actual Group (Kelompok pada Kenyataan) dan Predicted Group (Kelompok yang Diprediksi)
Predicted Group (Kelompok yang diprediksi) ฯ1 ฯ2
46
Actual Group
ฯ1
n1C
n1M = n1 โ n1C
n1
(Kelompok pada kenyataan)
ฯ2
n2M = n2 โ n2C
n2C
n2
Dimana n1C = banyak pengamatan ๏ฐ1 yang dikelompokan secara benar sebagai ๏ฐ1 n1M = banyak pengamatan ๏ฐ1 yang salah dikelompokan sebagai ๏ฐ2 n2C = banyak pengamatan ๏ฐ2 yang dikelompokan secara benar sebagai ๏ฐ2 n2M = banyak pengamatan ๏ฐ2 yang salah dikelompokan sebagai ๏ฐ1
a. Actual Error Rate (AER) Error Rate pada Actual Error Rate (AER) merupakan proporsi salah pengelompokan pada data sampel validasi atau holdout sample. Prosedur holdout Lachenbruch dapat digunakan untuk mengetahui tingkat ketepatan pengelompokan melalui Actual Error Rate (AER), dimana taksiran dari ekspektasi Actual Error Rate (AER) adalah: ๐ธ ๐ด๐ธ๐
=
๐ ๐ป ๐=1 ๐๐๐ ๐ ๐=1 ๐๐
,
๐ = 1, 2, โฆ , ๐
(3.25)
๐ป Dimana ๐๐๐ adalah banyak observasi holdout yang salah pengelompokan
pada kelompok ke-i. Ketepatan pengelompokannya adalah 1 โ ๐ธ ๐ด๐ธ๐
b. Apparent Error Rate (APER) Error Rate pada Apparent Error Rate (APER) merupakan proporsi salah pengelompokan pada suatu training sample. APER dapat dengan mudah
47
dihitung dengan matriks konfusi. Sehingga evaluasi hasil pengelompokan menggunakan Apparent Error Rate (APER) adalah ๐ด๐๐ธ๐
=
๐ ๐=1 ๐๐๐ ๐ ๐=1 ๐๐
(3.26)
Dimana ๐๐๐ adalah banyak observasi training sample yang salah pengelompokan pada kelompok ke-i. ๐๐ adalah banyak observasi pada kelompok ke-i. Ketepatan pengelompokannya adalah 1 โ APER. Selain secara teoritis, penilaian validitas diskriminan secara praktik (dengan menggunakan SPSS 17.0) data dilakukan dengan menghitung hit ratio, yaitu rasio antara observasi yang tepat pengklasifikasiannya dengan total seluruh observasi.