BAB 2
TINJAUAN PUSTAKA
Pada Bab ini akan dipaparkan beberapa teori tentang analisis diskriminan dari berbagai sumber seperti: buku, jurnal dan prosiding. Analisis diskriminan adalah salah satu metode dependensi dari analisis multivariat. Berikut beberapa definisi dan penelitian terdahulu dari berbagai bidang dengan menggunakan analisis diskriminan.
2.1. Analisis Multivariat
Menurut Johnson dan Wichern (2007) Analisis statistika multivariat merupakan analisis statistika yang digunakanpada data yang memiliki lebih dari dua variabel secara bersamaan, denganmenggunakan teknik analisis multivariat maka dapat menganalisis pengaruh beberapavariabel terhadap variabel-variabel lainnya dalam waktu yang bersamaan. Teknikanalisis multivariat berdasarkan karakteristiknya dapat dibagi menjadi dua yaituteknik dependensi dan teknik interdependensi. Teknik dependensi merupakan teknikyang digunakan untuk melihat pengaruh atau memprediksi variabel dependenberdasarkan beberapa variabel independen yang mempengaruhi. Analisis multivariat yang termasuk teknik dependensi yaitu analisis regresi berganda, analisisdiskriminan, analisis konjoin, manova, mancova, anova, ancova, dan korelasikanonik. Teknik interdependensi merupakan teknik yang digunakan untukmengelompokkan atau mereduksi beberapa variabel menjadi variabel baru yang lebihsedikit, tetapi tidak mengurangi informasi yang terkandung dalam variabel asli.Analisis multivariat yang termasuk teknik interdependensi
adalah
analisis
klaster,penskalaan
multidimensi,
analisis
kanonikal, dan analisis faktor.Analisis multivariat menuntut uji asumsi, data yang akan dianalisis harus berasal dari populasi yang berdistribusi normal multivariat dan matrik varians kovarians antar populasi adalah sama.Menurut Johnson dan Wichern (2007) untuk menguji distribusi normal multivariat adalah dengan
Universitas Sumatera Utara
mencari nilai jarak Mahalanobis dengan Khi-kuadrat ๐๐ 2 ๐๐ ๏ฟฝ(๐๐ โ 0,5)/๐๐๏ฟฝ. Jarak Mahalanobis merupakan jarak statistik yang memperhitungkan korelasi atau kovarians antar variabel. Dengan rumus sebagai berikut: ๐ท๐ท๐๐2 = (๐ฅ๐ฅ๐๐ โ ๐ฅ๐ฅฬ
)๐ ๐ โ1 (๐ฅ๐ฅ๐๐ โ ๐ฅ๐ฅฬ
)
(2.1)
dimana;
๐๐ = 1,2,โฆ,๐๐
๐ฅ๐ฅ1 , ๐ฅ๐ฅ2 , ๐ฅ๐ฅ3 , โฆ , ๐ฅ๐ฅ๐๐ = vektor pengamatan
๐ ๐ โ1 = inverse matriks varians kovarians
Kriteria pemenuhan asumsi dilakukan secara visual yaitu jika plot membentuk garis lurus berarti data dapat didekati dengan sebaran normal.Statistika ujidiperlukan untuk menguji homogenitas matriks varians kovarians dengan hipotesis H0 : โ1 = โ2 = โฏ = โg = โ0 dan H1 : ada paling sedikit satu diantara
sepasang โ๐๐ yang tidak sama. Jika dari masing-masing populasi diambil sampel
acak berukuran n yang saling bebas maka penduga tak bias untuk โ๐๐ adalah
matriks ๐๐๐๐ sedangkan untuk โ0 penduga tak biasnya adalah S. dengan rumus sebagai berikut: ๐๐ =
1 ๐๐ โ (๐๐ ๐๐ ๐๐=1 ๐๐
โ 1)๐๐๐๐
๐๐
(2.2) ๐๐
๐๐ = โ๐๐=1(๐๐๐๐ โ 1) ln|๐๐| โ โ๐๐=1(๐๐๐๐ โ 1) ln|๐๐๐๐ | ๐ถ๐ถ โ1 = 1 โ
Daerah
(2.3)
2๐๐ 2 +3๐๐โ1 1 1 ๐๐ ๏ฟฝโ๐๐=1 (๐๐ โ1) โ โ๐๐ (๐๐ ๏ฟฝ 6(๐๐+1)(๐๐โ1) ๐๐ ๐๐=1 ๐๐ โ1)
penolakan
untuk
hipotesis
(2.4)
nol
dapat
dihampiri
dengan
2 menggunakan sebaran Khi kuadrat yaitu:๐๐๐๐ โ1 > ๐ฅ๐ฅ๐ผ๐ผ,๐๐๐๐ .Dengan bantuan program
SPSS, uji homogenitas matriks varians-kovarians dapat dilakukan dengan Uji Bo xโs M. Jik a nilai sig. > ฮฑ, mak a H0 diterima sehingga dapat disimpulkan matriks varians-kovarians dari l-populasi adalah sama atau homogen.
2.2. Analisis Diskriminan
Universitas Sumatera Utara
Analisis diskriminan pertama kali dikembangkan oleh Ronald A. Fisher pada tahun 1936 sebagai suatu teknik statistika yang diterapkan dalam bidang taksonomi.Analisis diskriminan adalah salah satu teknik yang digunakan untuk menjelaskan atau memprediksi variabel terikat berdasarkan dua atau lebih variabel bebas dengan mengklasifikasikan objek beberapa kelompok. Dengan tujuan untuk mengetahui apakah ada perbedaan yang jelas antar kelompok pada variabel dependen. Jika ada, variabel independen mana pada fungsi diskriminan yang membuat perbedaan tersebut. Pengelompokkan analisis diskriminan ini terjadi karena ada pengaruh satu atau lebih variabel lain yang merupakan variabel independen. Analisis diskriminan sangat berguna di antaranya untuk menjelaskan segmen
pelanggan,
mengidentifikasi
karakteristik
kritis
yang
mampu
membedakan keduanya dan penggolongan calon pelanggan ke dalam segmen yang sesuai. Meskipun penggunaan paling umum analisisdiskriminan adalah untuk mengklasifikasikan orang atau objek menjadi berbagai kelompok, analisis diskriminan dapat juga dipergunakan untuk menganalisis kelompok-kelompok yang diketahui untuk menentukan pengaruh relatif dari faktor-faktor tertentu sehingga dapat digunakan untuk memutuskan pengelompokkan (Rully dan Poppy, 2014). Menurut Johnson dan Wichern (2007) tujuan dari analisis diskriminan adalah untuk menggambarkan ciri-ciri suatu pengamatan dari bermacam-macam populasi yang diketahui, baik secara grafis maupun aljabar dengan membentuk fungsi diskriminan. dengan kata lain, analisis diskriminan digunakan untuk mengklasifikasikan individu ke dalam salah satu dari dua kelompok atau lebih. Analisis diskriminan bermanfaat pada situasi di mana sampel total dapat dibagi menjadi grup-grup berdasarkan karateristik variabel yang diketahui dari beberapa kasus. Tujuan utama dari analisis multipel diskriminan adalah untuk mengetahui perbedaan antar grup. Model analisis diskriminan berkenaan dengan kombinasi linier disebut juga fungsi diskriminan. Dengan fungsi diskriminan sebagai berikut: ๐๐ = ๐๐1 ๐๐1 + ๐๐2 ๐๐2 + โฆ + ๐๐๐๐ ๐๐๐๐
(2.5)
keterangan:
Universitas Sumatera Utara
๐๐= nilai (skor) diskriminan p = 1, 2, 3,..,n
๐๐๐๐ = koefisien atau timbangan diskriminan dari variabel ke-p
๐๐๐๐ = variabel independen ke-p
Menurut Supranto (2010) analisis diskriminan merupakan teknik
menganalisis data, kalau variabel tak bebas (disebut criterion) merupakan kategori (non-metrik, nominal atau ordinal, bersifat kualitatif) sedangkan variabel bebas sebagai prediktor merupakan metrik (interval atau rasio, bersifat kuantitatif). Teknik analisis diskriminan dibedakan menjadi dua yaitu analisis diskriminan dua kelompok/kategori, kalau variabel tak bebas Y dikelompokkan menjadi dua. Diperlukan satu fungsi diskriminan. Kalau variabel tak bebas dikelompokkan menjadi lebih dari dua kelompok disebut analisis diskriminan berganda (multiple discriminant analysis) diperlukan fungsi diskriminan sebanyak (k - 1) kalau memang ada k kategori. Analisis diskriminan banyak digunakan di berbagai bidang, terutama di bidangpendidikan, kesehatan, ekonomi, sosial dan lain-lain. Berikut ada beberapa penelitian dengan menggunakan analisis diskriminan. Pada bidang pendidikan, penelitian dilakukan oleh Yuli (2012) dan mengemukakan bahwa dari hasil penelitiannya tentang analisis diskriminan diketahui bahwa faktor-faktor yang menjadi pertimbangan mahasiswa dalam memilih Prodi Matematika FMIPA dan FKIP yaitu faktor kapasitas prodi dan motivasi dunia kerja yang signifikan dapat membedakan pemilihan Prodi Matematika. Dari fungsi diskriminan ini, selanjutnya dilakukan pengklasifikasian dengan mengacu pada konsep jarak bahwa pengklasifikasian suatu objek dipilih dari jarak objek pengamatan terhadap vektor rataanya yang terdekat atau terkecil pada masing-masing Prodi Matematika atau dengan mencari nilai pemisah. Dan hasil pengklasifikasian tersebut, data yang telah terklasifikasikan dengan benar sebesar 64,15% dari 85 data yang diolah telah dimasukkan pada kelompok yang sesuai dengan data semula. Marino (2014) mengemukakan bahwa penelitian yang dilakukan dalam membandingkan analisis diskriminan linier, diskriminan linier robust dan regresi
Universitas Sumatera Utara
logistik biner untuk mengelompokkan siswa SMA Negeri 1 Bangorejo ke dalam kelompok IPA/IPS. Dari hasil simulasi ditunjukkan bahwa regresi logistik biner mempunyai ketepatan klasifikasi yang paling baik sebesar 85,714%. Penelitian ini menggunakan beberapa jenis analisis diskriminan dengan membandingkan hasil terbaik dari beberapa analisis yang dilakukan. Penelitian yang telah dilakukan oleh Dewi dan Kania (2009) bahwa hasilhasil penelitian tentang Linear Discriminant Analysis (LDA) maupun Quadratic Discriminant Analysis (QDA) kebanyakan menggunakan metode Apparent Error Rate (APER) dalam mengevaluasi aturan pengelompokkan dalam analisis diskriminan. Oleh karena itu, pada penelitian ini diterapkan suatu metode yang disebut Prosedur Lanchenbruch, untuk mengatasi hal tersebut. Pada prosedur ini sampel dibagi menjadi dua bagian yaitu training sample dan validating sample.Prosedur Lachenbruch ini diterapkan pada data dua spesies lalat pengigit (biting fly) dengan genus Leptoconos, yang sama secara morfologi dan selama beberapa tahun kedua spesies ini dianggap sama. Hasil analisis QDA terhadap data ini menunjukkan bahwa kedua spesies ternyata berbeda. Setelah diterapkan prosedur Lachenbruch pada data biting fly, diperoleh hasil dengan nilai APER lebih tinggi dari nilai AER. Pada bidang komputasi penelitian dilakukan oleh Dian (2014) yang menyimpulkan bahwa permasalahan yang diangkat dalam penelitiannya adalah adanya metode klasifikasi selain metode analisis diskriminan. Penelitian ini bertujuan untuk membandingkan hasil klasifikasi antara analisis diskriminan yang merupakan metode statistika dan metode jaringan syaraf tiruan menggunakan metode Learning Vector Quantization. Klasifikasi dengan metode analisis diskriminan menggunakan fungsi diskriminan dan skor diskriminan. Sedangkan klasifikasi dengan metode Learning Vector Quantization menggunakan arsitektur jaringan optimal dengan menentukan MSE terkecil dari arsitektur jaringan yang dibentuk tanpa ada asumsi yang harus dipenuhi. Secara keseluruhan dapat disimpulkan bahwa kedua metode sama baiknya untuk klasifikasi sesuai uji t. Metode Learning Vector Quantizationbisa digunakan sebagai alternatif untuk
Universitas Sumatera Utara
klasifikasi apabila syarat kesamaan vektor rata-rata pada analisis diskriminan tidak terpenuhi. Sistem sensor robot selalu didukung oleh sistem komputer yang dikenal โvisi komputerโ. Konsep penting dalam visi komputer adalah klasifikasi objek. Dalam kajian ini, dua buah algoritma untuk klasifikasi objek akan dibandingkan yaitu metode pohon keputusan biner dan metode yang formal dengan deskiptor yang bervariasi tinggi. Dalam penelitian ini digunakan metode analisis diskriminan sebagai alternatif untuk klasifikasi objek. Metode ini dijalankan dengan fungsi diskriminan fisher untuk memisahkan objek. Dalam penelitian ini ditunjukkan bahwa analisis diskriminan dapat mengklasifikasikan objek dengan lebih baik dari pada metode pohon keputusan biner. Kelebihan ini ditunjukkan terutama pada objek yang mengalami noise (Amir, 2002).
2.3. Eigenvalue dan Eigenvector
Matriks indentitas adalah matriks diagonal di mana nilai elemen diagonal utamanya masing-masing adalah satu sedangkan nilai elemen off-diagonalnya adalah sama dengan nol. Matriks indentitas memiliki sifat seperti angka satu. Artinya, jika matriks identitas dengan matriks lain (asal dimensinya terpenuhi) maka hasil kalinya akan tetap sama dengan nilai semua matriks tersebut. Contoh matriks indentitas: 1 0 ๐ผ๐ผ = ๏ฟฝ ๏ฟฝ 0 1
1 ๐ผ๐ผ = ๏ฟฝ0 0
0 0 1 0๏ฟฝ 0 1
Jika A adalah matriks m x m, maka setiap skalar ฮป memenuhi persamaansebagai berikut: Ax = ๐๐x
(2.6)
Untuk mร1 vektor x โ 0, disebut eigenvalue dari A. Vektor x disebut eigenvektor
dari A yang berhubungan dengan eigenvalue ๐๐. Persamaan (2.11) dapat juga ditulis sebagai berikut: (A - ๐๐๐๐)x = 0
(2.7)
Universitas Sumatera Utara
Persamaan (2.12) disebut juga sistem persamaan linier homogen.Setiap nilai eigenvalue ๐๐ harus memenuhi persamaan determinan yang dikenal sebagai persamaan karakteristik A sebagai berikut: |๐ด๐ด โ ๐๐๐๐|= 0
(2.8)
Dengan contoh sebagai berikut: 3 2 3 ๐ด๐ด = ๏ฟฝ ๏ฟฝ, maka ๐ด๐ด โ ๐๐๐๐ = ๏ฟฝ 4 1 4
1 2 ๏ฟฝ โ ๐๐ ๏ฟฝ 0 1
0 3 โ ๐๐ ๏ฟฝ= ๏ฟฝ 1 4
|๐ด๐ด โ ๐๐๐๐| = (3 โ ๐๐ )(1 โ ๐๐) โ 2(4) = ๐๐2 โ 4๐๐ โ 5
2 ๏ฟฝ 1 โ ๐๐
Akar persamaan tersebut adalah ๐๐ = 5 dan ๐๐ = โ1. Untuk mendapatkan
eigenvector X terkait dengan ๐๐ = 5, mensubstitusikan nilai eigenvalue tersebut pada persamaan berikut ini:
๐ฅ๐ฅ (๐ด๐ด โ ๐๐๐๐)๐๐ = 0 atau ๏ฟฝ๏ฟฝ3 2๏ฟฝ โ 5 ๏ฟฝ1 0๏ฟฝ๏ฟฝ ๏ฟฝ๐ฅ๐ฅ1 ๏ฟฝ = ๏ฟฝ0๏ฟฝ 0 0 1 4 1 2 ๐ฅ๐ฅ 1 0 โ2 2 Atau ๏ฟฝ ๏ฟฝ ๏ฟฝ ๏ฟฝ = ๏ฟฝ ๏ฟฝ โ โ2๐ฅ๐ฅ1 + 2๐ฅ๐ฅ2 = 0 0 4 โ4 ๐ฅ๐ฅ2 4๐ฅ๐ฅ1 โ 4๐ฅ๐ฅ2
= 0
Dari persamaan baris pertama diatas telah diketahui bahwa ๐ฅ๐ฅ1 = ๐ฅ๐ฅ2 , maka
eigenvector yang terkait dengan ๐๐ = 5 adalah ๐ฅ๐ฅ1 ๐ฅ๐ฅ1 1 ๐๐ = ๏ฟฝ๐ฅ๐ฅ ๏ฟฝ = ๏ฟฝ๐ฅ๐ฅ ๏ฟฝ = ๐ฅ๐ฅ2 ๏ฟฝ ๏ฟฝ dengan nilai ๐ฅ๐ฅ2 bersifat arbitrer (atau matriks ๐ฅ๐ฅ2 sama 1 2 2 dengan matriks ๐ฅ๐ฅ1 )
Ada beberapa sifat istimewa eigenvalue dan eigenvector antara lain: 1. Jumlah eigenvalue sama dengan trace matriks yang bersangkutan. Dari contoh di atas jumlah eigenvalue adalah 5 -1 = 4 sama dengan trace matriks A = 3 + 1 =4 2. Suatu matriks ataupun transposenya memiliki eigenvalue yang sama. Artinya baik untuk matriks A di atas ataupun AT memiliki eigenvalue 5 dan -1. Maka AT = 4
3. Hasil kali eigenvalue-eigenvalue suatu matriks sama dengan determinan matriks tersebut. Hasil kali eigenvalue matriks A sama dengan 5(-1) = -5 Determinan A = 3(1) โ 2(4) = -5
Universitas Sumatera Utara
2.4. Matriks VariansKovarians
Beberapa analisis statistika multivariat seperti aanalisis diskriminan dan MANOVA membutuhkan syarat matriks varians-kovarians yang homogen. Untuk menguji syarat ini dapat dipergunakan statistik uji Box-M. Hipotesis dan statistik uji Box-M adalah (Rencher, 1995) : Ho : ฮฃ1 = ฮฃ 2 = ... = ฮฃ k H1 : โฮฃ i โ ฮฃ j untuk i โ j Statistik uji
1 ๏ฃฎ1 k 2 = โ2(1 โ c1 ) ๏ฃฏ โ vi ln S i โ ln S pool ฯ hitung 2 ๏ฃฐ 2 i =1
๏ฃน
k
โ v ๏ฃบ๏ฃป ii =1
(2.9)
i
dimana, k
S pool =
โv S i =1 k
i
โv i =1
i
(2.10) i
๏ฃฎ ๏ฃน ๏ฃฏk 1 1 ๏ฃบ๏ฃฎ 2 p 2 + 3 p โ 1 ๏ฃน ๏ฃฏ ๏ฃบ๏ฃฏ = โ c1 โ ๏ฃบ v i = ni โ 1 k ๏ฃฏ i =1 vi ๏ฃบ ๏ฃฐ 6( p + 1)(k โ 1) ๏ฃป vi ๏ฃบ โ ๏ฃฏ i =1 ๏ฃฐ ๏ฃป
(2.11)
Terima hipotesis nol yang berarti matriks varians-kovarians bersifat homogen jika 2 ฯ hitung โค ฯ 12 2
( k โ1) p ( p +1
2.5. Uji Signifikansi Dengan Wilkโs Lambda
Dengan menggunakan rumus WilkโsLambda (ฮ) sebagai berikut (Gudono, 2015): ฮ=
SS ๐๐ SS ๐๐
๐๐๐๐๐๐ = โ2๐๐=1 โ๐๐๐๐=1(๐๐๐๐.๐๐ โ ๏ฟฝ๏ฟฝ๏ฟฝ ๐๐๐๐ )2 ๏ฟฝ 2 ๐๐๐๐๐๐ = โ๐๐ ๐๐=1(๐๐๐๐ โ ๐๐ )
(2.12) (2.13) (2.14)
keterangan:
๐๐๐๐๐๐ = nilai varians dari matriks ๐๐๐๐๐๐๐๐๐๐
Universitas Sumatera Utara
๐๐๐๐๐๐ = nilai varians dari matriks ๐๐๐๐๐๐๐๐๐๐ ๐๐
๐๐
๐๐
๐๐๏ฟฝ ๐๐๏ฟฝ
= referensi grup
= jumlah sampel dalam suatu grup = jumlah semua sampel
= rata-rata X pada sebuah grup
= rata-rata keseluruhan sampel (grand-mean)
Dalam pengujian statistik semakin kecil skor tes Wilkโs ฮ, maka semakin besar probabilitas hipotesis nol akan ditolak. Skor Wilkโs ฮ dapat dikonversi menjadi
nilai F agar dapat ditafsirkan signifikansi statistiknya dengan lebih mudah menggunakan rumus (Gudono, 2015): ๐น๐น = ๏ฟฝ
1โ ฮ
keterangan:
ฮ
๏ฟฝ๏ฟฝ
๐๐ 1 +๐๐ 2 โ ๐๐โ1 ๐๐
๏ฟฝ
(2.15)
๐๐ = jumlah variabel yang sedang diuji ฮ = nilai Wilkโs Lambda
2.6. Uji Klasifikasi Fungsi Diskriminan Kriteria perbandingan teknik klasifikasi didasarkan pada kesalahan klasifikasinya yang dikenal dengan Apparent Error Rate (APER) merupakan nilai dari besar kecilnya jumlah observasi yang salah dalam pengklasifikasian berdasarkan suatu fungsi klasifikasi (Johnson dan Wichern, 2007).Adapun APER dihitung dengan terlebih dahulu membuat tabel klasifikasi sebagai berikut: Klasifikasi actual dan predicted group Predicted group
Actual group ๐๐0 ๐๐1
๐๐10
Sumber: Johnson and Wichern (2007)
๐ด๐ด๐ด๐ด๐ด๐ด๐ด๐ด =
๐๐0 ๐๐00 = ๐๐1 โ ๐๐11
๐๐1 ๐๐01 = ๐๐0 โ ๐๐00 ๐๐11
๐๐ 01 + ๐๐ 10
(2.16)
๐๐ 0 + ๐๐ 1
Sedangkan ketepatan prediksi pengelompokkan secara tepat dapat menggunakan rumus hit ratio. ๐ป๐ป๐ป๐ป๐ป๐ป ๐๐๐๐๐๐๐๐๐๐ =
๐๐ 00 + ๐๐ 11 ๐๐ 0 + ๐๐ 1
๐ฅ๐ฅ 100
(2.17)
Universitas Sumatera Utara