Pertemuan 12 & 13 ANALIS KOMPONEN UTAMA & FUNGSI DISCRIMINAN Obyektif : •Reduksi variabel •Interpretasi •Aplikasi AKU dalam Anls Regresi •Discrimination Fisher and Classification •Classification with two Multivariate Normal Population
Pengertian .
Analisis Komponen Utama (AKU) merupakan upaya mereduksi p variabel pengamatan asli (semula) menjadi k variabel baru yang saling ortogonal, dimana masing-masing k variabel baru tersebut merupakan kombinasi linier dari p variabel asal (semula). Dari segi aljabar, komponen utama, secara khusus merupakan kombinasi linier dari p variabel random Secara geometri, Kombinasi-kombinasi linier yang terbentuk merepresentasikan sistem koordinat baru melalui rotasi sistem koordinat semula dengan sebagai sumbu-sumbu koordinat. Komponen Utama hanya tergantung pada matriks Covarians ( atau matriks korelasi ) dari Tidak dibutuhkan anggapan distribusi normal multivariat. Akan tetapai komponen utama yang diturunkan dari populasi normal multivariat mempunyai banyak interpretasi yang berguna.
Misalkan vektor random
memiliki matriks Covarians
nilai-nilai eigen Pandang kombinasi-kombinasi linier dari p peubah asal ,
dengan
dengan
Proporsi konstribusi suatu komponen utama ke-i sebesar Konstribusi q komponen utama sebesar
Contoh Variabel random
mempunyai matriks varians-kovarians
Tentukan a. Ketiga Komponen utama b. Var (Y1) dan Cov(Y1,Y2) c. Proporsi varians komponen utama yang diterangkan oleh komponen utama d. Hitung
Solusi Nilai-nilai eigen dan vektor-vektor eigen (standar) dari
dimana
masing-masing
a. Ketiga komponen utma adalah
b.
Tampak bahwa variabel X3 merupakan salah satu komponen utama, sebab tidak berkorelasi dengan kedua variabel lainnya (X1 dan X2)
c.
Proporsi yang diterangkan untuk komponen utama pertama terhadap total varians populasi adalah sebesar ( 73 % dari varians populasi)
Proporsi yang diterangkan oleh dua komponen utama pertama terhadap total varians populasi adalah sebesar ( 98 % dari varians populasi)
d. Koefisien korelasi
Hal ini menunjukkan
sama pentingnya untuk komponen utama pertama
Selanjutnya,
Komponen utama ke tiga adalah unimportant
APLIKASI ANALISIS KOMPONEN UTAMA DALAM ANALISIS REGRESI Tahapan yang dilakukan dalam analisis regresi Komponen Utama adalah : •Peubah bebas asal •menghitung nilai eigen (
dibakukan dengan , vektor eigen
dan skor komponen utama
•Meregresikan peubah respon (Y) terhadap skor komponen utama yang terpilih (*)
•Mentransformasi persamaan regresi dengan peubah bebas ke peubah bebas
dengan •Mentransformasi persamaan regresi dengan peubah bebas ke peubah bebas
Varians (ragam) koefisien regresi peubah bebas X adalah
dimana
adalah varians (ragam) galat dari persamaan (*)
•Pengujian keberatian koefisien regresi, dilakukan dengan menggunakan uji t-student dengan statistic uji
KOMPONEN UTAMA YANG DIPEROLEH DARI VARIABEL TERSTANDARISASI Komponen utama dapat pula diperoleh melalui variabel terstandarisasi
Atau dalam bentu matriks
Dimana matriks diagonal Jelaslah bahwa dan
Teorema
Komponen utama ke-i dari variabel terstandarisasi
dengan
diberikan oleh
Dengan dan Dalam hal ini vektor eigen dari matriks Korelasi
adalah pasangan nilai eigen dan dengan
Contoh
(Komponen utama yang diperoleh dari matrik covarians dan matrik korelasi akan berbeda)
Diberikan matriks covariansi Tentukan
dan matriks korelasi
a. Komponen utama untuk b. Komponen utama untuk c. Proporsi variansi yang diterangkan oleh komponen utama pertama dari a) dan b) d. Hitung
Solusi Pasangan nilai eigen dan vektor eigen dari
adalah
Pasangan nilai eigen dan vektor eigen dari
adalah
a. Komponen utama dari
b. Komponen utama dari
c. Proporsi variansi yang diterangkan oleh komponen utama pertama dalam a) adalah
dalam b) adalah
d.
FUNGSI DISKRIMINAN & KLASIFIKASI
ANALISIS DISKRIMINAN DAN KLASIFIKASI Analisis diskriminan adalah teknik multivariat untuk mengelompokan individu-individu kedalam kelompok-kelompok yang saling bebas dengan tegas berdasarkan segugus peubah bebas. Analisis diskriminan juga dapat digunakan untuk mengalokasikan pengamatan baru kedalam kelompok yang telah di definisikan sebelumny. Atau dengan kata lain, analisis diskriminan adalah teknik multivariat untuk memisahkan objek-objek ke dalam himpunan yang berbeda dengan mengalokasikan objek baru kedalam himpunan-himpunan tersebut.
Tujuan Analisis diskriminan dan klasifikasi adalah • Menyatakan baik secara grafik atau aljabar objek-objek yang berbeda dari populasi yang diketahui. Akan dicari “diskriminan” yang nilainya sedemikian sehingga populasi-populasi tersebut terpisah semaksimal mungkin. • Mensortir objek kedalam 2 kelas atau lebih. Menentukan aturan yang bisa digunakan untuk mengalokasikan objek baru kedalam salah satu kelas.
Dua asumsi yang harus diperhatikan dalam analisis diskriminan adalah : Assumsi pertama, p peubah bebas menyebar mengikuti sebaran normal ganda Assumsi kedua, matriks ragam peragam berdimensi p x p dari peubah-peubah bebas dalam setiap kelompok harus sama (homogen).
KLASIFIKASI UNTUK DUA POPULASI Fungsi Diskriminan Linier Fisher Ide Fisher adalah mentransformasi pengamatan multivariat x menjadi pengamatan univariat y sedemikian sehingga y dapat diturunkan dari populasi dan populasi
yang dipisahkan sejauh mungkin
Fisher menyarankan untuk mengambil kombinasi linier dari x untuk menghasilkan y sebab merupakan fungsi sederhana yang mudah ditangani
Pembahasan Obyektif
• Memisahakan dua kelas (populasi) sejauh mungkin
dan
• Mengalokasikan objek baru kedalam salah satu kelas berdasar pengukuran pada p variabel random Misal adalah vektor mean observasi multivariat dari populasi adalah vektor mean observasi multivariat dari populasi dan matriks kovarians kedua populasi diasumsikan sama , yakni
Selanjutnya pandang kombinasi linier
dengan mean Y adalah
dan variansi Y adalah Akan dipilih kombinasi linier
dimana
yang memaksimumkan rasio
Rasio tersebut akan maksimum jika
Dengan memilih
, diperoleh kombinasi linier
Misalkan nilai tengah antar kelompok (titik tengah mean populasi univariat) adalah dan adalah nilai fungsi diskriminan untuk observasi dari
Maka aturan klasifikasi untuk observasi Alokasikan
kedalam
bila
Alokasikan
kedalam
bila
atau Alokasikan
kedalam
bila
Alokasikan
kedalam
bila
adalah :
Akan tetapi
dan
adalah parameter populasi yang pada umumnya
tidak diketahui, perlu ditaksir dari observasi sampel Misalakan dipunyai observasi variabel random multivariat
dari populasi
observasi variabel random multivariat
dari populasi
Data matriksnya berturut turut adalah
dan yang merupakan penaksir tak bias untuk
Fungsi diskriminan linier Fisher untuk sampel adalah
adalah titik tengah diantara kedua mean sampel univariat dan
Aturan klasifikasi berdasar sampel menjadi Alokasikan
kedalam
bila
Alokasikan
kedalam
bila
Contoh 1
Diberikan dua himpunan data dan
dengan
dan
Tentukan a.
Matrik varians –kovarians gabungan
b.
Fungsi diskriminan linier Fisher
c.
Allokasikan observasi
dan
dan observasi
Solusi dan
Dengan menggunakan rumus
diperoleh sehingga
a. dan b. Fungsi diskriminan linier
,
Jadi fungsi diskriminan linier adalah c.
dan diperoleh
Untuk observasi
Karena
maka objek
Dengan cara serupa, untuk observasi
Karena
dadi objek
dialokasikan pada diperoleh
dialokasikan pada
juga.
Klasifikasi untuk dua populasi normal multivariat dan adalah densitas normal multifvariat, Misalkan yang pertama dengan mean dan matriks kovariansi sedangkan yang kedua dengan mean dan matriks kovariansi Kasus spesial jika diasumsikan keduanya memiliki matriks kovariansi sama, .
untuk
Misalkan densita bersama (joint densities) dari populasi
dan
diberikan oleh
Misalakan pula parameter-parameter populasi
dan
diketahui.
Daerah dan yang meminimumkan ECM (Expected Cost of Misclassification) adalah
Teorema Populasi dengan mean
dan dan
masing-masing berdistribusi normal multivariat dan matriks kovariansi sama
Maka aturan alokasi yang meminimumkan ECM adalah bila dalam Alokasikan
Bila tidak demikian, alokasikan
kedalam
Catatan: Alokasi yang meminimumkan ECM dana Alokasi menurut Fisher sama bila
, karena
Penduga aturan yang meminimumkan ECM untuk 2 populasi normal adalah Alokasikan
dalam
Bila tidak demikian, alokasikan dimana
bila
kedalam
Normals Obligatory carriers
A pictorial representation of Fisher’s procedure for two population with p=2
A pictorial representation of Fisher’s procedure for two population with p=2
KLASIFIKASI LEBIH DARI DUA POPULASI ESTIMATED MINIMUM TPM (Total Probabbilty of Misclassification) RULE FOR EQUAL-COVARIANCE NORMAL POPULATION Allokasikan
with
dalam
bila The linier discriminant score
,
Contoh 2 Tentukan nilai/skor diskriminan linier yang didasarkan pada data populasi diasumsikan masing-masing normal bivariat dengan covarians sama. Sampel random dari ketiga populasi , vektor mean dan matriks covarians diberikan sebagai berikut dan dan dan
Dengan Dan allokasikan
Solusi
dan Selanjutnya dan
Sehingga
Dengan cara serupa diperoleh dan
sehingga
Dan
Subtitusi nilai numerik
dan
diperoleh
Karena
memiliki skor diskriminan terbesar, maka observasi dimasukkan dalam populasi