BAB II LANDASAN TEORI Pada bab ini akan dibahas tentang pengujian hipotesis, metode klasifikasi berstruktur pohon, metode-metode statistika yang menjadi dasar pada metode QUEST, dan algoritme QUEST. 2.1 Uji Hipotesis Ilmu statistika adalah ilmu yang mempelajari prosedur-prosedur yang digunakan dalam pengumpulan data, penyajian, analisis dan penafsiran data. secara umum, ilmu statistika dapat dikelompokkan menjadi dua kelompok, yaitu statistika deskriptif dan statistik inferensia. Statistika deskriptif merupakan metode-metode yang berkaitan dengan pengumpulan dan penyajian data sehingga memberikan informasi yang berguna, sedangkan statistika inferensia merupakan semua metode yang berhubungan dengan analisis sebagian data sehingga sampai pada penarikan kesimpulan mengenai keseluruhan data. Statistika inferensia dapat dilakukan dengan beberapa metode. Salah satunya adalah dengan pengujian hipotesis. Pengujian hipotesis adalah metode perumusan sejumlah kaidah yang akan menghasilkan suatu kesimpulan untuk menerima atau menolak suatu pernyataan tertentu. Langkah-langkah pengujian hipotesis dapat dibuat seperti berikut 1. Rumuskan hipotesis Hipotesis adalah pernyataan awal yang akan diuji dalam suatu pengujian hipotesis. Hipotesis awal (đť0 ) adalah hipotesis yang dirumuskan dengan harapan akan ditolak. Hipotesis alternatif (đť1 ) adalah hipotesis yang dirumuskan dengan harapan akan diterima.
2. Tetapkan taraf nyata pengujian (â) â merupakan galat pengujian dengan kesalahan jenis đź, yaitu kesalahan karena menolak hipotesis awal yang benar. 4
3. Pilih statistik yang sesuai Statistik uji adalah nilai yang diambil dari data dan digunakan sebagai dasar menerima atau menolak hipotesis awal. 4. Tentukan titik kritis Titik kritis adalah suatu nilai yang menjadi batas untuk menerima atau menolak hipotesis awal. 5. Tentukan nilai statistik uji Nilai statistik uji diambil berdasarkan data. 6. Kesimpulan Jika statistik uji berada pada daerah kritis maka hipotesis awal ditolak. Jika statistik uji berada pada daerah penerimaan maka hipotesis awal diterima. Penarikan kesimpulan juga dapat dilakukan dengan membandingkan nilai â dengan nilai p, yaitu jika p < â maka hipotesis awal ditolak dan jika p > â maka hipotesis awal diterima. 2.2 Metode Klasifikasi Berstruktur Pohon Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik kesimpulan mengenai hubungan antara suatu variabel respon dengan beberapa variabel bebas. Jika variabel respon berupa data kuantitatif maka analisis mengenai hubungan variabel bebas dan respon biasanya dilakukan melalui analisis regresi biasa. Namun, bila variabel respon merupakan data kualitatif maka analisis mengenai hubungan variabel bebas dan respon salah satunya dapat dilakukan melalui teknik klasifikasi. Metode klasifikasi berstruktur pohon merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelaskelas variabel respon kategorik, yang keanggotaannya diduga berdasarkan pengukuran terhadap satu variabel bebas atau lebih. Metode ini menghasilkan sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan dan secara berulang (rekursif) terhadap suatu himpunan data, dimana pengelompokan dan nilai-nilai variabel bebas setiap amatan pada data sampel
5
sudah diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang terbentuk. Contoh Pohon klasifikasi QUEST terdapat pada Gambar 1.
1: đ < đ
đ
2: đ ⤠đ
đ
đ
Gambar 2.1. Ilustrasi pohon klasifikasi menggunakan QUEST Gambar 1 menunjukkan ilustrasi pohon klasifikasi dengan QUEST. Misalnya, pada node 1 variabel đ < đ, maka respon termasuk kelas P (atau jika đ ⼠đ), dan jika pada node 2 variabel đ ⤠đ maka respon termasuk kelas Q; jika đ > đ, maka respon termasuk kelas R. Proses penyekatan terhadap simpul dilakukan secara berulang sampai ditemukan salah satu dari tiga hal berikut a. respon di semua simpul sudah homogen nilainya, b. tidak ada lagi variabel bebas yang bisa digunakan, c. jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan pemisahan yang tepat. Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu simpul dapat bersifat biner atau non biner. Pada penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul baru, sedangkan pada penyekatan non biner setiap simpul dapat menghasilkan lebih dari dua simpul baru. Pohon yang dibentuk dari proses penyekatan tersebut dapat berukuran sangat besar. Bila pohon berukuran besar, biasanya penduga respon cenderung lebih tepat, tapi sulit diinterpretasikan. Bila pohon kecil, pohon mudah diinterpretasi namun penduga respon cenderung tidak tepat. Pohon terbaik yaitu pohon yang memiliki keseimbangan antara ukuran pohon dan ketepatan penduga respon (Faridhan, 2003).
6
2.3 Metode QUEST QUEST merupakan salah satu metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan algoritme pemisah yang menghasilkan pohon biner yang digunakan untuk klasifikasi. Algoritme pembentukan pohon klasifikasi ini merupakan modifikasi dari analisis diskriminan kuadratik. Pada algoritme ini, proses penyekatan dapat dilakukan pada variabel tunggal (univariat). Pemilihan variabel penyekat pada QUEST menerapkan uji kebebasan chi-kuadrat untuk variabel kategorik dan uji F untuk variabel numerik. Suatu variabel dipilih sebagai variabel penyekat jika menghasilkan kelompok dengan tingkat kehomogenan variabel respon yang paling besar. Penentuan variabel penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis diskriminan kuadratik. Pemilihan variabel dan penentuan variabel penyekat dilakukan secara terpisah. Komponen dasar QUEST adalah beberapa variabel bebas yang merupakan variabel kategorik atau numerik dan variabel respon yang merupakan variabel kategorik (Hothorn, 2006). 2.3.1
Uji chi-kuadrat untuk kebebasan
Apabila antara dua variabel tidak ada hubungan, maka dapat dikatakan bahwa keduanya saling bebas. Meskipun nilai salah satu variabel untuk suatu objek diketahui, ini tidak akan membantu dalam menentukan nilai variabel yang lain untuk objek yang sama (Lestari, 2005). Uji
Chi-kuadrat
untuk
memeriksa
kebebasan
digunakan
untuk
memutuskan apakah dua variabel kategorik dalam suatu kelompok saling bebas. Uji ini memiliki asumsi-asumsi, a. Data terdiri dari sebuah sampel acak sederhana berukuran đ dari suatu populasi yang diminati. b. Hasil pengamatan dalam sampel dapat diklasifikasi secara silang (crossclasified) menurut variabel-variabel yang diamati. Pengklasifikasian silang dari data dengan variabel kategorik biasanya disajikan dalam tabel kontingensi dua arah atau lebih. Bila terdapat dua variabel kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada Tabel 2.1.
7
Tabel 2.1 Tabel Kontingensi Dua Arah Kategori variabel Kategori variabel kedua pertama
Jumlah
1
2
âŚ
đ
1
đ11
đ12
âŚ
đ1đ
đ1.
2
đ21
đ22
âŚ
đ2đ
đ2.
âŽ
âŽ
âŽ
âŽ
âŽ
đ
đđ1
đđ2
đđđ
đđ.
đ.1
đ.2
đ.đ
đ
Jumlah
âŚ
Tabel disusun dari đ baris dan đ kolom dengan đ dan đ masing-masing adalah banyaknya kategori dari variabel kategorik pertama dan kedua. Isi sel pada baris-đ (đ = 1,2, ⌠, đ) dan kolom ke-đ (đ = 1,2, ⌠, đ) adalah banyaknya pengamatan yang berasal dari kategori-đ variabel pertama dan kategori-đ variabel kedua, bisa dinotasikan dengan đđđ . Isi sel ini disebut juga frekuensi sel teramati yang biasa ditulis dengan notasi đđđ , sehingga đđđ = đđđ . Jumlah frekuensi teramati pada kategori ke-đ variabel pertama, ditulis dengan notasi đđ. , sedangkan jumlah frekuensi teramati pada kategori ke-đ variabel kedua, ditulis dengan notasi đ.đ (Praptono, 1986). Hipotesis awal (đť0 ) yang digunakan dalam uji ini adalah kedua variabel saling bebas. Hipotesis alternatif (đť1 ) pada uji ini adalah kedua variabel tidak saling bebas. Uji chi-kuadrat ini dilakukan dengan membandingkan frekuensi teramati dengan frekuensi yang diharapkan jika (đť0 ) benar. Dalam menentukan frekuensi yang diharapkan pada suatu sel digunakan hukum peluang mengenai kebebasan dua kejadian seperti dinyatakan dalam Teorema 2.1. Teorema đ. đ. (Walpole, 1992) Bila dua kejadian đ´ dan đľ bebas, maka đ(đ´ ⊠đľ) = đ(đ´)đ(đľ). Jika đ´đ adalah kejadian objek berasal dari kategori ke-đ variabel pertama dan đľđ adalah kejadian objek berasal dari kategori ke-đ variabel kedua, maka peluang kejadian
8
đ´đ dan đľđ terjadi bersama adalah
đ¸
đ(đ´đ ⊠đľđ ) = ( đđđ ), dengan đ¸đđ adalah frekuensi yang diharapkan dan n adalah banyaknya data. Jika đ´đ dan đľđ saling bebas, maka đ
đ
đ(đ´đ ⊠đľđ ) = đ(đ´đ )đ(đľđ ) = ( đđ. ) ( đ.đ) đ
đ
Dengan demikian, ( đđ. ) ( đ.đ) = đ
đ
đ¸đđ = đ ( đđ. ) ( đ.đ ) = (
đđ. đ.đ đ
đ¸đđ đ
(1)
, sehingga
)
(2)
Dari ferkuensi sel yang teramati (đđđ ) dan frekuensi sel yang diharapkan (đ¸đđ ) tersebut dapat dihitung suatu statistik uji chi-kuadrat (đ 2 ) yang mencerminkan perbedaan antara keduanya, yang dirumuskan dengan đ = âđđ=1 âđđ=1 [ 2
(đđđ âđ¸đđ )
2
đ¸đđ
(3)
]
Dalam pengambilan keputusan, đť0 ditolak pada taraf nyata â jika nilai statistik uji đ 2 hasil perhitungan lebih besar dari pada nilai đ 2 đź,đâ1,đâ1 , r adalah banyaknya baris dan c adalah banyaknya kolom.
2.3.2
Uji ANAVA đ
Uji ANAVA đš biasa digunakan untuk membandingkan rata-rata dari dua atau lebih kelompok sampel yang saling bebas. Ukuran sampel masing-masing kelompok sampel tidak harus sama, tetapi perbedaan yang besar dalam ukuran sampel dapat mempengaruhi hasil uji perbandingan rata-rata. Misalkan đđđ merupakan pengamatan ke-i dari kelompok ke-k, maka dapat disajikan struktur data seperti pada Tabel 2.2. Tabel 2.2. Tabel Struktur Data ANAVA đš Kelompok 1
2
âŚ
đĽ11
đĽ21
đĽđž1
đĽ12
đĽ22
đĽđž2
9
đž
đĽ1đ1
đĽ2đ2
đĽđžđđž
Jumlah
đ1.
đ2.
đđž.
đ..
Rata-rata
đĽĚ
1.
đĽĚ
2.
đĽĚ
đž.
đĽĚ
.
Bila đđ adalah rata-rata dari kelompok ke-k (đ = 1, 2, ⌠, đž) maka hipotesis yang digunakan dalam uji ini đť0 âś đ1 = đ2 = ⯠= đđž đť1 âś đđđ đđ â đđ Ⲡ, đ â đâ˛(đ, đ Ⲡ= 1, 2, ⌠, đž) Statistik uji yang digunakan adalah statistik uji F yang diperoleh pada Tabel 2.3. Tabel 2.3 Tabel ANAVA đš Sumber Variansi
Jumlah
Derajat
Kuadrat
Bebas
Tengah
Nilai tengah kolom
đ˝đžđž
đâ1
Sisaan
đ˝đžđ
đâđ
Total
đ˝đžđ
đâ1
đ˝đžđž đâ1 đ˝đžđ đ 22 = đâđ đ 12 =
dengan đž
đ˝đžđž = (â đ=1 đž
đž
2 đđ. đ..2 â ) đđ đ đž
2 đ..2 đđ. đ..2 2 đ˝đžđ = (â â đĽđđ â ) â (â â ) đ đđ đ đ=1 đ=1
đ=1
đ = 1, 2, ⌠, đđ , đ = 1, 2, ⌠, đž. đ : jumlah seluruh data đž : jumlah kelompok đđ : ukuran contoh kelompok ke-đ
10
đš hitung đ 12 đš= 2 đ 2
đđ. : jumlah pengamatan kelompok ke-đ đ..: jumlah pengamatan seluruh data đĽđđ : pengamatan ke-đ dari kelompok ke-đ Dalam pengambilan keputusan, đť0 ditolak pada taraf signifikan â jika nilai statistik uji đš hasil perhitungan lebih besar daripada nilai đšđź,đžâ1,đâđž . 2.3.3 Uji Levene đ Uji Levene đš digunakan untuk menguji kesamaan variansi variabel dari dua kelompok atau lebih. Hipotesis yang digunakan dalam uji ini adalah đť0 âś đ12 = đ22 = ⯠= đđ2 đť1 âś ada đđ2 â đđ2Ⲡ, đ â đâ˛(đ, đ Ⲡ= 1,2, ⌠, đž), Untuk mendapatkan statistik uji ini, data ditransformasikan dahulu menjadi simpangan baku terhadap nilai tengah data, yaitu đŚđđ = |đĽđđ â đĽĚ
đ |, dengan : đ = 1, 2, ⌠, đ. đ = 1, 2, ⌠, đž đŚđđ âś hasil transformasi data pengamatan ke-i dari kelompok ke-k đĽĚ
đ : nilai tengah sampel kelompok ke-k đĽđđ : pengamatan ke-i dari kelompok ke-k. Lakukan statistik uji ANAVA đš pada data yang telah ditransformasi untuk mendapatkan nilai statistik uji Levene đš. Dalam pengambilan keputusan, đť0 ditolak pada taraf nyata đź jika nilai statistik uji Levene đš hasil perhitungan lebih besar dari pada nilai đšđź,đžâ1,đâđž . 2.3.4 Analisis diskriminan kuadratik Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan statistik terhadap objek-objek yang telah diketahui dengan jelas dan tepat pengelompokannya.
11
Fungsi diskriminan dapat disebut dengan fungsi pembeda. Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks variansi yang sama dinamakan fungsi diskriminan linier, sedangkan fungsi yang dibangun tanpa asumsi tersebut dinamakan fungsi diskriminan kuadratik. Misalkan đĽ = (đĽ1 , đĽ2 , ⌠, đĽđ ), maka dapat disajikan struktur data seperti pada Tabel 2.4. Tabel 2.4. Tabel Struktur Data Analisis Diskriminan Kuadratik Variabel
Kelompok 1
2
âŚ
đž
đ1
đĽĚ
11
đĽĚ
12
âŚ
đĽĚ
1đž
đ1
đĽĚ
21
đĽĚ
22
âŚ
đĽĚ
1đž
âŽ
âŽ
âŽ
đ1
đĽĚ
đ1
đĽĚ
đ2
⎠âŚ
đĽĚ
đđž
Misalkan đđ (đĽ) adalah fungsi kepekatan peluang bersama dari sampel acak yang berasal dari kelompok ke-k (đ = 1, 2, ⌠, đž). Jika sampel acak pada kelompok tersebut menyebar menurut sebaran multivariat, maka 1
đđ (đĽ) = (2đ)đ/2 |ÎŁ
1/2 đ|
1
exp *â 2 (đĽ â đđ )đĄ đ´đâ1 (đĽ â đđ )+ ⌠⌠(2.6.1)
dengan đđ adalah vektor nilai tengah kelompok ke-k ÎŁđ adalah matriks variansi kelompok ke-k đ adalah banyaknya variabel, Nilai diskriminan kuadratik untuk sebuah pengamatan dengan nilai đĽ â = (đĽ1â , đĽ2â , ⌠, đĽđâ ) terhadap kelompok ke-k adalah 1
1
đđđ (đĽ â ) = â 2 ln|ÎŁđ | â 2 (đĽ â đđ )đĄ đ´đâ1 (đĽ â đđ ) + lnđđ ⌠. (2.6.2) dengan đđ adalah peluang awal dari kelompok ke-k (đ = 1, 2, ⌠, đž).
12
Apabila individu yang berasal dari kelompok k dinyatakan sebagai kelompok a, maka peluangnya dinotasikan menjadi đ(đ|đ). Kelompokkan đĽ â ke-k jika nilai kuadratik đđđ (đĽ â ) = max*đ1đ (đĽ â ), đ2đ (đĽ â ), ⌠, đđđ (đĽ â )+ (2.6.3). Dalam prakteknya, đđ dan ÎŁđ tidak diketahui, tetapi data sampel yang telah dikelompokkan secara benar tersedia untuk mengetahui taksiran đđ dan ÎŁđ . Kuantitas sampel yang relevan untuk kelompok ke-k adalah đĽĚ
đ : vektor nilai tengah sampel dari kelompok ke-k đđ : matriks variansi sampel dari kelompok ke-k đđ : ukuran sampel dari kelompok ke-k. Taksiran dari nilai diskriminan kuadratik : 1
1
đđđ (đĽ â ) = â 2 ln|đđ | â 2 (đĽ â â đĽĚ
đ )đĄ đđâ1 (đĽ â â đĽĚ
đ ) + lnđđ ⌠⌠(2.6.4). Kelompokkan đĽ â ke-k jika nilai kuadratik đđđ (đĽ â ) = max*đ1đ (đĽ â ), đ2đ (đĽ â ), ⌠, đđđ (đĽ â )+ (2.6.5). 2.4 Algoritme QUEST Loh and Shih (1997) menjelaskan algoritme pembentukan pohon pada QUEST dipisah menjadi tiga bagian, yaitu algoritme pemilihan variabel penyekat, algoritme penentuan variabel penyekat dan algoritme transformasi variabel kategorik menjadi variabel numerik. 2.4.1 Algoritme pemilihan variabel penyekat Dalam tulisan ini akan dibahas algoritme pemilihan variabel penyekat berupa satu variabel. Dalam menentukan variabel penyekat pada suatu simpul setiap variabel memiliki kesempatan untuk terpilih sebagai variabel penyekat, meskipun variabel tersebut telah terpilih sebagai variabel penyekat untuk simpul sebelumnya. Berikut ini adalah langkah-langkah pemilihan variabel penyekat : 1. Untuk setiap variabel đ :
13
a. Jika đ merupakan variabel kategorik, lakukan uji đ 2 untuk kebebasan antara variabel đ dan variabel respon đ dan hitung nilai đ dari pengujian tersebut. b. Jika đ merupakan variabel numerik, lakukan uji ANAVA đš dan hitung nilai đ dari pengujian tersebut. 2. Pilih variabel dengan nilai đ terkecil. 3. Bandingkan nilai đ terkecil dengan taraf đź/đ1 , dengan memilih taraf nyata đź = 0,05 dan đ1 adalah banyaknya variabel bebas. a. Jika nilai đ kurang dari đź/đ1, maka variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5). b. Jika nilai đ lebih dari đź/đ1, teruskan ke langkah (4). 4. Untuk setiap variabel đ yang numerik, maka hitung nilai đ dari uji Levene untuk menguji kehomogenan variansi. a. Pilih variabel dengan nilai đ terkecil. c. Bandingkan nilai đ terkecil dari uji Levene dengan taraf đź. d. Jika nilai đ kurang dari đź, maka pilih variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5). e. Jika nilai đ lebih dari đź, maka variabel tersebut tidak dipilih menjadi variabel penyekat. 5. Misalkan đ â adalah variabel penyekat yang diperoleh dari langkah (3) atau (4). a. Jika đ â merupakan variabel numerik, maka teruskan ke langkah (6). b. Jika đ â merupakan variabel kategorik, đ â ditransformasikan ke dalam variabel dummy, lalu proyeksikan ke dalam koordinat diskriminan terbesarnya 6. Lakukan analisis diskriminan kuadratik untuk menentukan variabel penyekat. 2.4.2 Algoritme penentuan variabel penyekat Misalkan variabel respon memiliki dua kategori. Misalkan pula bahwa đ â merupakan variabel yang terpilih untuk menyekat simpul đĄ.
14
1.
Didefinisikan đĽĚ
0 dan đ 02 adalah rata-rata dan variansi đ â dari pengamatan respon 0, sedangkan đĽĚ
1 dan đ 12 adalah rata-rata dan variansi đ â dari pengamatan dengan respon 1. Misalkan đ(đ|đĄ) = đđ,đĄ /đđ merupakan peluang dari masing-masing kategori variabel respon, dengan đđ,đĄ adalah jumlah data pada simpul đĄ untuk respon đ dan đđ adalah jumlah data pada simpul awal untuk respon đ.
2.
Tentukan penyelesaian persamaan đ(0|đĄ)đ 0 â1 đ (
đĽâđĽĚ
0 đ 0
) = đ(1|đĄ)đ 1 â1 đ (
đĽâđĽĚ
1 đ 1
).
Penyelesaian tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat đđĽ 2 + đđĽ + đ = 0, dengan đ = đ 02 â đ 12 đ = 2(đĽĚ
0 đ 12 â đĽĚ
1 đ 02 ) đ = (đĽĚ
1 đ 02 )2 â (đĽĚ
0 đ 12 )2 + 2đ 02 đ 12 ln { 3.
đ(0|đĄ)đ 12 } đ(1|đĄ)đ 02
Simpul disekat pada variabel đĽ â = đ, di mana đ didefinisikan sebagai berikut : a. Jika đĽĚ
0 < đĽĚ
1 , maka đ = đĽĚ
0 b. Jika đ = 0, maka đĽĚ
0 + đĽĚ
1 đ(0|đĄ) â (đĽĚ
0 â đĽĚ
1 )â1 đ 02 ln { }, đ={ 2 đ(1|đĄ) đĽĚ
0 â đĽĚ
1 } đĽĚ
0 , đĽĚ
0 = đĽĚ
1 c. Jika đ â 0, maka: 1
i.
Jika đ 2 â 4đđ < 0, maka đ = 2 (đĽĚ
0 + đĽĚ
1 )
ii.
Jika đ 2 â 4đđ ⼠0, maka : a. đ adalah akar dari
âđÂąâđ2 â4đđ 2đ
yang lebih mendekati nilai đĽĚ
0,
dengan syarat menghasilkan dua simpul tak kosong. 1
b. Untuk đ yang lain, đ = 2 (đĽĚ
0 + đĽĚ
1 ).
15
2.4.3
Algoritme transformasi variabel kategorik menjadi variabel numerik
Misalkan X adalah variabel kategorik, dengan kategori đ1 , đ2 , ⌠, đđż . Transformasi đ menjadi variabel numerik đ untuk setiap kelas đ dilakukan dengan langkah-langkah sebagai berikut : 1.
Transformasikan masing-masing nilai đĽ ke vektor dummy L dimensi đŁ = (đŁ1 , đŁ2 , ⌠, đŁđż ), Dengan đŁ1 = {
2.
1 đĽ = đ1 , đ = 1, 2, ⌠, đż 0 đĽ â đ1
Mencari nilai tengah untuk đ đŁĚ
=
âđżđ=1 đđ đŁđ
đŁĚ
(đ) =
đđĄ
âđżđ=1 đđ đŁđ đđ,đĄ
dengan đŁĚ
: rata-rata untuk semua pengamatan pada simpul đĄ
đŁĚ
(đ) : rata-rata untuk semua pengamatan pada simpul đĄ untuk kelompok ke-k đđ
: jumlah pengamatan pada simpul đĄ untuk đŁđ
đđ : jumlah pengamatan pada simpul đĄ kelompok ke-k untuk đŁđ đđĄ : jumlah pengamatan pada simpul đĄ đđ,đĄ : jumlah pengamatan pada simpul đĄ untuk kelompok ke-k. 3.
Tentukan matriks đż Ă đż berikut đŁĚ
=
âđżđ=1 đđ đŁđ
đŁĚ
(đ) =
đđĄ
âđżđ=1 đđ đŁđ đđ,đĄ
đž
đľ = â đđ,đĄ (đŁĚ
(đ) â đŁĚ
)(đŁĚ
(đ) â đŁĚ
)Ⲡđ=1 đż
đ = â đđ (đŁđ â đŁĚ
)(đŁđ â đŁĚ
)Ⲡđ=1
4.
Lakukan SVD dari đ = đđˇđâ˛, dengan đ adalah matriks orthogonal đż Ă đż, đˇ = đđđđ(đ1 , ⌠, đđż ) dengan đ1 ⼠đ2 ⼠⯠⼠đđż ⼠0. 1
5.
Tentukan đˇâ2 = đđđđ(đ1â , ⌠, đđżâ ),
16
dengan đđâ = {
đđ â1/2 jika đđ > 0 0 lainnya. 1
6.
1
Lakukan SVD dari đˇâ2 đâ˛đľđđˇâ2 , tentukan vektor eigen đ yang merupakan vektor eigen yang sama dengan nilai eigen terbesar.
7.
Tentukan koordinat diskriminan terbesar dari đŁ, yaitu 1
đ = đâ˛đˇâ2 đâ˛đŁ
17