BAB II TINJAUAN PUSTAKA
Bab ini akan membahas pengertian metode klasifikasi berstruktur pohon, konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma CHAID, keakuratan dan kesalahan dalam klasifikasi, dan perbedaan antara QUEST dan CHAID. 2.1
Metode Klasifikasi Berstruktur Pohon Metode klasifikasi berstruktur pohon merupakan metode statistika yang
digunakan untuk memperkirakan keanggotaan amatan yang diduga dari pengukuran satu variabel prediktor atau lebih dalam kelas variabel respon kategorik. Metode ini menghasilkan pohon klasifikasi yang dibentuk melalui penyekatan secara berulang. Metode klasifikasi berstruktur pohon digunakan sebagai alternatif apabila beberapa asumsi pada metode parametrik tidak terpenuhi. Metode ini juga memiliki beberapa kelebihan antara lain mudah untuk diinterpretasikan karena tampilan berupa diagram pohon, lebih fleksibel serta mampu memeriksa pengaruh variabel prediktor satu per satu (Lewis, 2000). 2.2
Konsep-Konsep Dasar pada QUEST dan CHAID Konsep-konsep statistika yang menjadi dasar pada metode QUEST yaitu uji
khi-kuadrat, uji ANOVA F, uji Levene, dan analisis diskriminan kuadtratik. Metode CHAID menggunakan uji khi-kuadrat dan uji koreksi Bonferroni.
6
7
2.2.1 Uji khi-kuadrat (𝝌𝟐 ) Uji khi-kuadrat (𝜒 2 ) pada dasarnya menyangkut pembuatan tabulasi silang yang digunakan untuk mengetahui hubungan antara dua variabel kategorik. Hubungan yang didapatkan tersebut digunakan untuk mengontrol susunan dari pohon klasifikasi. Misalkan suatu variabel pertama memiliki 𝑟 kategori dan variabel kedua memiliki 𝑘 kategori maka 𝑂𝑖𝑗 adalah pengamatan pada variabel pertama di level 𝑖 dan variabel kedua di level 𝑗, secara umum tabel disajikan sebagai berikut. Tabel 2.1 Struktur Data Uji Khi-kuadrat Variabel 1 / Variabel 2
1
2
…
𝑘
Total
1
𝑂11
𝑂12
…
𝑂1𝑘
𝑛1.
2
𝑛21
𝑛22
…
𝑂2𝑘
𝑛2.
⋮
⋮
⋮
⋮
⋮
⋮
𝑟
𝑂𝑟1
𝑂𝑟2
…
𝑂𝑟𝑘
𝑛𝑟.
𝑛.1 𝑛.2 Sumber: Usman dan Setiady (2006)
…
𝑛.𝑘
𝑛
Total
Hipotesis pada pengujian khi-kuadrat adalah: 𝐻0 : Kedua variabel saling bebas 𝐻1 : Kedua variabel tidak saling bebas Sedangkan statistik ujinya adalah: 𝜒2 =
𝑟 𝑖=1
2
(𝑂𝑖𝑗 −𝐸𝑖𝑗 ) 𝑐 𝑗 =1 𝐸 𝑖𝑗
dengan 𝐸𝑖𝑗 =
𝑛 𝑖. 𝑛 .𝑗 𝑛
(2.1)
dengan 𝐸𝑖𝑗 menyatakan nilai harapan pengamatan pada baris ke-𝑖 dan kolom ke-𝑗, 𝑛𝑖. menyatakan total banyaknya pengamatan pada baris ke-𝑖, 𝑛.𝑗 menyatakan total
8
banyaknya pengamatan pada baris ke-𝑗, dan 𝑛 menyatakan total banyaknya responden. Keputusan yang diambil dari uji khi-kuadrat ini adalah 𝐻0 ditolak jika nilai 𝜒 2 𝑖𝑡 > 𝜒 2 𝑡𝑎𝑏𝑒𝑙 atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼. 2.2.2 Uji ANOVA F Uji ANOVA F digunakan untuk menguji perbedaan rata-rata dari beberapa kelompok sampel yang saling bebas. Bila 𝜇𝑘 adalah rata-rata dari kelompok ke-k (k = 1, 2, …, K), maka hipotesis yang digunakan adalah: H0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝐾 (tidak ada perbedaan rata-rata antarkelompok) H1: Minimal ada satu 𝜇𝑘 yang berbeda Uji yang digunakan adalah uji F yang diperoleh dengan membentuk tabel ANOVA F seperti tabel di bawah ini: Tabel 2.2 ANOVA F Sumber keragaman Jumlah kuadrat (JK) (SK) Rata-rata Kolom (K)
2
JKK=
𝐾 𝑋𝑘. 𝑘=1 𝑛 𝑘
−
𝑋..2 𝑁
Derajat bebas (db)
Kuadrat tengah (KT)
K-1
KTK= 𝐾−1
F hitung
𝐽𝐾𝐾
𝐹= Galat (G) Total
JKG= JKT-JKK
JKT= Sumber: Riduwan (2010)
𝐾 𝑘=1
𝑛𝑘 2 𝑖=1 𝑥𝑘𝑖
N-K −
𝑋..2 𝑁
𝐽𝐾𝐺
KTK KTG
KTG=𝑁−𝐾
N-1
dengan i=1,2,…,nk , k=1,2,…,K. xki menyatakan pengamatan ke-i dari kelompok ke-k, 𝑁 menyatakan jumlah seluruh data, 𝐾 menyatakan jumlah kelompok, 𝑛𝑘
9
menyatakan ukuran data kelompok ke-k, 𝑋𝑘 menyatakan jumlah pengamatan kelompok ke-k, dan 𝑋.. menyatakan jumlah pengamatan seluruh data. Keputusan yang diambil dari uji ANOVA F adalah 𝐻0 ditolak jika nilai 𝐹𝑖𝑡 > 𝐹𝑡𝑎𝑏𝑒𝑙 atau 𝑝_𝑣𝑎𝑙𝑢𝑒 < 𝛼. 2.2.3 Uji Levene F Uji Levene F digunakan untuk menguji kesamaan ragam variabel dari beberapa kelompok. Bila σ𝑘 adalah simpangan baku populasi dari kelompok kek, maka hipotesis yang digunakan adalah: H0: 𝜎12 = 𝜎22 = ⋯ = 𝜎𝐾2 , (data homogen) H1: Minimal ada satu 𝜎𝑘2 yang heterogen
Uji levene F: 𝑤 =
2 (𝑁−𝐾) 𝐾 𝑘 =1 𝑁 𝑘 (𝑦 𝑘. −𝑦 .. )
𝑛𝑘 2 𝐾−1 𝐾 𝑘=1 𝑖=1 (𝑦 𝑘𝑖 −𝑦 𝑘. )
(2.2)
dengan, 𝑦𝑘𝑖 = 𝑥𝑘𝑖 − 𝑥𝑘 , 𝑥𝑘 menyatakan rata-rata dari kelompok ke-k, 𝑦𝑘. menyatakan rata-rata kelompok dari yi, dan
𝑦.. menyatakan rata-rata
menyeluruh dari yki. Keputusan yang diambil dari uji Levene F adalah 𝐻0 ditolak jika nilai 𝐹𝑖𝑡 > 𝐹𝑡𝑎𝑏𝑒𝑙 atau 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 𝛼.
10
2.2.4 Analisis Diskriminan Kuadratik Analisis diskriminan merupakan teknik menganalisis data, dimana variabel respon merupakan variabel kategorik sedangkan variabel prediktor merupakan variabel numerik (Supranto, 2010). Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks ragam peragam yang sama disebut fungsi diskriminan linear, sedangkan fungsi yang dibangun tanpa asumsi tersebut disebut fungsi diskriminan kuadratik. Jika fk(x) adalah fungsi kepekatan peluang bersama dari sampel acak yang berasal dari kelompok ke-k dan menyebar mengikuti sebaran normal multivariat, maka menurut Johnson dan Winchern dalam Kurniasari dkk (2014) didapat:
𝑓𝑘 𝑥 =
1 𝑝
(2𝜋)
2
1
1
| 𝑘|
2
𝑒𝑥𝑝 − 2 (𝑥 − 𝜇𝑘 )𝑡
−1 𝑘 (𝑥
− 𝜇𝑘 ) , 𝑘 = 1,2, … , 𝐾
(2.3)
dengan, 𝜇𝑘 menyatakan vektor rata-rata kelompok ke-k, ∑k menyatakan matriks ragam peragam kelompok ke-k, dan p menyatakan banyaknya variabel. Skor diskriminan kuadratik untuk sebuah pengamat dengan nilai 𝑥 = 𝑥1 , 𝑥2 , … 𝑥𝑝 terhadap kelompok ke-k dan 𝑝𝑘 menyatakan peluang awal dari kelompok ke-k: 1
𝑑𝑘𝑄 𝑥 = − 2 𝑙𝑛|
1
𝑘
| − 2 (𝑥 − 𝜇𝑘 )𝑡
−1 𝑘 (𝑥
− 𝜇𝑘 ) + 𝑙𝑛 𝑝𝑘
(2.4)
Apabila 𝜇𝑘 dan ∑k tidak diketahui, maka harus dicari taksiran dari 𝜇𝑘 dan ∑k dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar. Taksiran dari skor diskriminan kuadratik menjadi:
11
1
1
𝑑𝑘𝑄 𝑥 = − 2 𝑙𝑛 𝑠𝑘 − 2 (𝑥 − 𝑥𝑘 )𝑡 𝑠𝑘−1 (𝑥 − 𝑥𝑘 ) + 𝑙𝑛 𝑝𝑘
(2.5)
dengan 𝑠𝑘 menyatakan matriks peragam sampel dari kelompok ke-k dan 𝑥𝑘 menyatakan vektor rata-rata sampel dari kelompok ke-k (Jin dan An dalam Kurniasari dkk, 2014). 2.2.5 Koreksi Bonferroni (Bonferroni Correction) Jika tidak ada pengurangan dari tabel kontingensi asal pada algoritma CHAID, maka statistik uji khi-kuadrat dapat digunakan untuk uji signifikansi. Apabila terjadi pengurangan tabel kontingensi, yaitu dari 𝑐 kategori menjadi 𝑟 kategori (𝑟 < 𝑐), maka nilai khi-kuadrat tersebut dikalikan dengan pengganda Bonferroni sesuai dengan jenis variabelnya. Menurut Gallagher (2000) pengali Bonferroni untuk masing-masing jenis variabel-variabel prediktor adalah sebagai berikut:
1. Variabel prediktor monotonik
:𝑀=
2. Variabel prediktor bebas
:𝑀=
3. Variabel prediktor mengambang : 𝑀 =
𝑐−1 𝑟−1 𝑟−1 𝑖=0
−1
(2.6) 𝑐 𝑖 𝑟 −𝑖 𝑖! 𝑟−𝑖 !
𝑐−2 𝑐−2 +𝑟 𝑟−2 𝑟−1
(2.7) (2.8)
dengan 𝑐 menyatakan banyaknya kategori variabel prediktor asal, 𝑟 menyatakan banyaknya kategori variabel prediktor setelah penggabungan.
12
2.3
Metode QUEST (Quick, Unbiased, Efficient Statistical Trees) QUEST
merupakan
pengembangan
dari
FACT
(Factor
Analysis
Classification Trees) yang memiliki kecepatan komputasi yang tinggi (Loh dan Shih, 1997) dan suatu metode pohon klasifikasi yang menghasilkan pohon biner. QUEST merupakan modifikasi dari analisis diskriminan kuadratik. Analisis diskriminan kuadratik diterapkan pada proses penentuan simpul penyekat. Apabila variabel penyekat yang dipilih adalah variabel kategorik, maka dilakukan transformasi ke variabel numerik dan selanjutnya diterapkan analisis diskriminan kudratik. Komponen dasar QUEST terdiri dari beberapa variabel prediktor kategorik atau numerik dan variabel respon yang merupakan variabel kategorik. 2.3.1 Algoritma QUEST Menurut Loh dan Shih (1997), algoritma QUEST dibagi menjadi tiga bagian yaitu, algoritma pemilihan variabel penyekat, algoritma penentuan simpul penyekat, dan algoritma penghentian pembentukan pohon. 1. Algoritma Pemilihan Variabel Penyekat Langkah-langkah algoritma pemilihan variabel penyekat adalah sebagai berikut (Loh dan Shih, 1997): a. Untuk setiap variabel prediktor numerik, lakukan uji ANOVA F dan hitung nilai p-value berdasarkan statistika uji F. Untuk setiap variabel prediktor kategorik, lakukan uji khi-kuadrat dan hitung nilai p-value berdasarkan statistika uji khi-kuadrat. b. Pilih variabel prediktor yang memiliki nilai p-value terkecil.
13
c. Bandingkan nilai p-value terkecil dengan 𝛼/𝑀1 , dengan taraf nyata α dan 𝑀1 adalah banyaknya variabel prediktor. i. Jika nilai p-value kurang dari 𝛼/𝑀1 , maka pilih variabel yang besesuaian sebagai variabel penyekat dan teruskan ke langkah (e). ii. Jika nilai p-value lebih dari α/M1, maka teruskan ke langkah (d). d. Untuk setiap variabel prediktor X yang numerik, maka: i. Hitung nilai p-value dari uji Levene untuk menguji kehomogenan ragam. ii. Pilih variabel prediktor yang memilik nilai p-value terkecil. iii. Bandingkan
nilai
p-value
dari
uji
Levene
tersebut
dengan
taraf 𝛼 (𝑀 + 𝑀 ), dengan 𝑀2 adalah banyaknya variabel prediktor 1 2 numerik. iv. Jika p-value kurang dari 𝛼 (𝑀 + 𝑀 ), maka pilih variabel yang bersesuaian 1 2 sebagai variabel penyekat dan teruskan ke langkah (e). v. Jika p-value lebih dari 𝛼 (𝑀 + 𝑀 ), maka variabel tersebut tidak dipilih 1 2 menjadi variabel penyekat. e. Misalkan X* adalah variabel penyekat yang diperoleh pada langkah (c) atau (d), maka langkah selanjutnya menentukan simpul penyekat. 2. Algoritma Penentuan Simpul Penyekat Setelah terpilih variabel penyekat, langkah selanjutnya adalah menentukan simpul penyekat. Algoritma penentuan simpul penyekat dijelaskan sebagai berikut:
14
a. Variabel Prediktor Kategorik Apabila X* yang terpilih berupa kategorik dan terdiri lebih dari dua kategori, maka QUEST akan mentransformasi ke dalam variabel numerik yang dilambangkan dengan ξ. Selanjutnya QUEST menggunakan algoritma pemilihan simpul penyekat untuk variabel prediktor numerik pada ξ untuk menentukan simpul penyekat. Misalkan X* adalah variabel prediktor kategorik, dengan kategori b1, b2, …, bL. X* akan ditransformasi menjadi variabel numerik ξ untuk setiap kelas X* dengan langkah-langkah sebagai berikut (Loh dan Shih, 1997): 1. Transformasi setiap nilai x dari X* ke dalam vektor dummy L dimensi 𝑣 = (𝑣1 , 𝑣2 , … , 𝑣𝐿 ) dengan 𝑣𝑙 =
1, 𝑥 = 𝑏𝑙 , 𝑙 = 1,2, … , 𝐿 0, 𝑥 ≠ 𝑏𝑙
2. Cari rata-rata untuk X* 𝑣=
𝐿 𝑙=1 𝑓 𝑙 𝑣𝑙
𝑣 (𝑘) =
𝑁𝑡 𝐿 𝑙=1 𝑛 𝑙 𝑣𝑙
𝑁𝑘,𝑡
(2.9) (2.10)
dengan, 𝑣𝑙 menyatakan pengamatan ke-l, 𝑣 menyatakan rata-rata untuk semua pengamatan pada simpul t, 𝑣 (𝑘) menyatakan rata-rata untuk semua pengamatan pada simpul t untuk kelompok ke-k, 𝑓𝑙 menyatakan jumlah pengamatan pada simpul t untuk 𝑣𝑙 , 𝑛𝑙 menyatakan jumlah pengamatan pada simpul t kelompok ke-k untuk 𝑣𝑙 , 𝑁𝑡 menyatakan jumlah pengamatan pada simpul t, dan 𝑁𝑘,𝑡 menyatakan jumlah pengamatan pada simpul t kelompok ke-k.
15
3. Tentukan matriks L x L berikut: 𝐵= 𝑇=
𝐾 𝑘=1 𝑁𝑘,𝑡 𝐿 𝑙=1 𝑓𝑙
𝑣
𝑘
− 𝑣 (𝑣
𝑘
− 𝑣) ′
(2.11)
𝑣𝑙 − 𝑣 𝑣𝑙 − 𝑣 ′
(2.12)
4. Lakukan SVD (singular value decomposition) pada T untuk memperoleh T=QDQ’, dimana Q adalah matriks orthogonal L x L, D = diag(d1,d2…,dL) dengan d≥,d2≥…≥dL≥0. Misalkan D-1/2=diag(d1*,d2*,…,dL*), dengan 𝑑𝑙∗ =
−1/2
𝑑𝑙
0
, 𝑗𝑖𝑘𝑎 𝑑𝑙 > 0 , 𝑙𝑎𝑖𝑛𝑛𝑦𝑎 1
5. Lakukan SVD pada 𝐷−
1 2 𝑄′𝐵𝑄𝐷 − 2
untuk memperoleh vektor eigen a yang
berhubungan dengan nilai eigen yang terbesar. 1
6. Tentukan koordinat diskriminan terbesar dari v, yaitu ξ = 𝑎′𝐷−
2 𝑄′𝑣
(2.13)
b. Variabel Prediktor Numerik Misalkan variabel respon terdiri dari dua kategori dan variabel prediktor X* yang terpilih berupa variabel numerik. Langkah penentuan variabel prediktor penyekat sebagai berikut (Loh dan Shih, 1997): 1. Definisikan 𝑥𝐴 dan 𝑠𝐴2 adalah rata-rata dan ragam X* dari pengamatan variabel respon A, sedangkan 𝑥𝐵 dan 𝑠𝐵2 adalah rata-rata dan ragam X* dari pengamatan variabel respon B. Misalkan 𝑃 𝑗 𝑡 =
𝑁𝑗 .𝑡
𝑁𝑗 merupakan peluang dari masing-
masing kategori variabel respon, dengan Nj,t adalah jumlah data pada simpul t untuk respon j dan Nj adalah jumlah data pada simpul awal untuk respon j. 2. Berikan log pada kedua ruas persamaan: 𝑃 𝐴 𝑡 𝑠𝐴−1 𝜑
𝑥−𝑥 𝐴 𝑠𝐴
= 𝑃(𝐵|𝑡)𝑠𝐵−1 𝜑
𝑥−𝑥 𝐵 𝑠𝐵
(2.14)
16
untuk memperoleh persamaan kuadrat 𝑎𝑥 2 + 𝑏𝑥 + 𝑐 = 0, dengan: 𝑎 = 𝑠𝐴2 − 𝑠𝐵2
(2.15)
𝑏 = 2(𝑥𝐴 𝑠𝐵2 − 𝑥𝐵 𝑠𝐴2 )
(2.16)
𝑐 = (𝑥𝐵 𝑠𝐴 )2 − (𝑥𝐴 𝑠𝐵 )2 + 2𝑠𝐴2 𝑠𝐵2 𝑙𝑜𝑔
𝑃(𝐴|𝑡)𝑠𝐵
(2.17)
𝑃(𝐵|𝑡)𝑠𝐴
3. Sebuah simpul disekat pada X*= d, dimana d didefinisikan sebagai berikut: a. Jika 𝑥𝐴 < 𝑥𝐵 , maka d =𝑥𝐴 (𝑥 𝐴 +𝑥 𝐵 )
b. Jika a = 0, maka 𝑑 =
2
− (𝑥
𝑠𝐴2 𝐴 +𝑥 𝐵 )
log
𝑃(𝐴|𝑡) 𝑃(𝐵|𝑡)
𝑥𝐴
, 𝑥𝐴 ≠ 𝑥𝐵
(2.18)
, 𝑥𝐴 = 𝑥𝐵
c. Jika a≠0, maka: i. Jika b2-4ac<0, maka 𝑑 = ii. Jika b2-4ac≥0, maka 𝑑 =
(𝑥 𝐴 +𝑥 𝐵 ) 2 −𝑏± 𝑏 2 −4𝑎𝑐 2𝑎
(2.19) (2.20)
dimana d adalah akar dari persamaan (2.20) yang lebih mendekati nilai 𝑥𝐴 , dengan syarat menghasilkan dua simpul tak kosong. 3. Algoritma Penghentian Pembentukan Pohon Proses pemilihan simpul secara rekursif akan terhenti apabila salah satu dari aturan penghentian tercapai. Ada empat aturan penghentian pembentukan pohon yaitu: a. Jika simpul penyekat menjadi murni yaitu apabila semua kasus masuk ke dalam salah satu kategori variabel respon. b. Jika semua kasus yang terdapat di dalam simpul memiliki nilai-nilai identik untuk tiap variabel prediktor.
17
c. Jika kedalaman pohon sudah mencapai kedalaman pohon maksimum yang ditetapkan. d. Jika banyaknya kasus yang masuk ke dalam simpul sudah mencapai jumlah minimum yang ditetapkan. 2.3.2 Pohon Klasifikasi QUEST QUEST menerapkan modifikasi analisis diskriminan kuadratik rekursif untuk mendapatkan simpul penyekat. Pada saat pembentukan pohon, QUEST menyeleksi variabel serta memilih simpul penyekat secara terpisah.
t1 t3
t2 t4
t6
t5 t8
t10
t9
t12
t7
t11
t13
Gambar 2.1 Diagram Pohon dalam Analisis QUEST Pada Gambar 2.1, struktur pohon QUEST memiliki satu simpul akar yang dinyatakan dengan 𝑡1 yang mengandung semua gugus (simpul) data. Pertamapertama, 𝑡1 disekat menjadi dua anak simpul kemudian diperiksa kembali secara terpisah dan dibagi lagi, demikian seterusnya sampai tercapai kriteria berhenti anak simpul yang tidak dapat disekat lagi yang disebut simpul akhir. Simpul akhir dilambangkan dengan kotak yaitu pada 𝑡4 , 𝑡6 , 𝑡8 , 𝑡10 , 𝑡11 , 𝑡12 , dan 𝑡13 . Simpul
18
dalam adalah simpul yang bisa disekat menjadi simpul anak, karena masih bisa disekat simpul ini dilambangkan dengan lingkaran yaitu pada 𝑡2 , 𝑡3 , 𝑡5 , 𝑡7 , dan 𝑡9 . 2.4
Metode CHAID (Chi-Squared Automatic Interaction Detection) CHAID merupakan bagian dari teknik terdahulu yang dikenal dengan AID
(Automatic Interaction Detection) yang digunakan untuk variabel respon kategorik dan suatu metode pohon klasifikasi yang menghasilkan pohon non biner (Kass, 1980). Didalam Kunto dan Hasana (2006), metode CHAID akan membagi data ke dalam kelompok–kelompok melalui beberapa tahapan. Tahapan pertama adalah membagi data menjadi beberapa kelompok berdasarkan satu variabel prediktor yang pengaruhnya paling signifikan terhadap variabel respon. Variabel prediktor yang signifikan ditentukan dengan khi-kuadrat. Setelah mendapatkan pembagian kelompok–kelompok tersebut, periksa kelompok-kelompok tersebut secara terpisah untuk membagi lagi menjadi beberapa kelompok yang lebih kecil berdasarkan variabel prediktor yang lain. Hal tersebut dilakukan sampai tidak ditemukan lagi variabel–variabel prediktor yang signifikan secara statistik. Pembangunan CHAID akan dihentikan ketika tidak ada lagi nilai khi-kuadrat yang signifikan dari variabel prediktor terhadap variabel responnya (Wilkinson, 1992). 2.4.1 Variabel CHAID Menurut Gallagher (2000), CHAID akan membedakan variabel-variabel prediktor kategorik menjadi tiga bentuk yang berbeda, yaitu:
19
1. Monotonik, yaitu variabel prediktor yang kategorinya dapat dikombinasikan atau digabungkan oleh CHAID hanya jika keduanya berdekatan satu sama lain, yaitu variabel-variabel yang kategorinya mengikuti urutan aslinya (data ordinal). 2. Bebas, yaitu variabel prediktor yang kategorinya dapat dikombinasikan atau digabungkan ketika keduanya berdekatan atau tidak satu sama lain (data nominal). 3. Mengambang, yaitu variabel prediktor yang kategori didalamnya dapat diperlakukan seperti monotonik kecuali untuk kategori yang missing value, yang dapat berkombinasi dengan kategori manapun. 2.4.2 Algoritma CHAID Menurut Kass (1980) algoritma CHAID secara lengkap yaitu sebagai berikut: 1. Untuk setiap variabel prediktor, buat tabulasi silang kategori-kategori variabel prediktor dengan kategori-kategori variabel respon. 2. Untuk setiap tabulasi silang yang diperoleh (susun subtabel yang berukuran 2 × 𝑑 yang mungkin, 𝑑 adalah banyaknya kategori variabel respon) cari pasangan kategori variabel prediktor yang memiliki angka uji paling kecil. Jika angka uji tidak mencapai nilai kritis, gabungkan kedua kategori tersebut menjadi satu kategori campuran. Ulangi langkah ini sampai angka uji kategori campuran melampaui nilai kritis. 3. Untuk setiap kategori gabungan yang terbentuk dari 3 atau lebih kategori asal, temukan pemisahan biner yang memiliki angka uji yang paling besar
20
(pemisahan berdasarkan tipe variabel prediktor). Jika angka uji ini lebih besar dari nilai kritis, buatlah pemisahan tersebut dan kembali ke langkah 2 di atas. 4. Untuk setiap tabulasi silang variabel prediktor yang telah digabungkan secara optimal, pilih yang memiliki angka uji paling besar. Jika angka uji ini lebih besar dari nilai kritis, bagilah data menurut kategori–kategori yang telah digabungkan dari variabel prediktor yang telah dipilih. Pada tahap ini apabila terjadi pengurangan tabel kontingensi dari tabel asal maka gunakan uji koreksi Bonferoni dan jika tidak maka lakukan uji khi-kuadrat untuk uji signifikansi. 5. Untuk setiap pembagian data yang belum dianalisis, kembali ke langkah 1. 2.4.3 Pohon Klasifikasi CHAID Menurut Myers dalam Kunto dan Hasana (2006), diagram pohon CHAID mengikuti aturan “dari atas ke bawah” (Top-down stopping rule), diagram pohon disusun mulai dari kelompok induk, berlanjut di bawahnya sub kelompok yang berturut-turut dari hasil pembagian kelompok induk berdasarkan kriteria tertentu. Setiap simpul akan berisi keseluruhan sampel dan frekuensi absolut 𝑛𝑖 untuk tiap kategori yang disusun di atasnya. Pada pohon klasifikasi CHAID terdapat istilah kedalaman yang berarti banyaknya tingkatan simpul-simpul sub kelompok sampai ke bawah pada simpul sub kelompok yang terakhir. Pada kedalaman pertama, sampel dibagi oleh 𝑋1 sebagai variabel prediktor terbaik untuk variabel respon berdasarkan uji khi-kuadrat. Tiap simpul berisi informasi tentang frekuensi variabel 𝑌, sebagai variabel respon, yang merupakan bagian dari sub kelompok yang dihasilkan berdasarkan kategori yang disebutkan (𝑋1 ). Pada kedalaman ke-2 (simpul 𝑋2 dan 𝑋3 ) merupakan pembagian dari 𝑋1 (untuk simpul
21
ke-1 dan ke-3). Dengan cara yang sama, sampel selanjutnya dibagi oleh variabel prediktor yang lain, yaitu 𝑋2 dan 𝑋3 , dan selanjutnya menjadi sub kelompok pada simpul ke-4, 5, 6, dan 7. Secara umum diagram pohon dari CHAID adalah sebagai berikut (Lehmann dan Eherler, 2001): Y ny = 1 ny = 2 ny = 3
X1 1
3 2
ny = 1, x1 = 1
ny = 1, x1 = 2
ny = 1, x1 = 3
ny = 2, x1 = 1
ny = 2, x1 = 2
ny = 2, x1 = 3
ny = 3, x1 = 1
ny = 3, x1 = 2
ny = 3, x1 = 3
X2 4
X3 5
6
7
ny = 1, x1 = 1, x2 = 1
ny = 1, x1 = 1, x2 = 2
ny = 1, x1 = 3, x3 = 1
ny = 1, x1 = 3, x3 = 2
ny = 2, x1 = 1, x2 = 1
ny = 2, x1 = 1, x2 = 2
ny = 2, x1 = 3, x3 = 1
ny = 2, x1 = 3, x3 = 2
ny = 3, x1 = 1, x2 = 1
ny = 3, x1 = 1, x2 = 2
ny = 3, x1 = 3, x3 = 1
ny = 3, x1 = 3, x3 = 2
Gambar 2.2 Diagram Pohon dalam Analisis CHAID
2.5
Keakuratan dan Kesalahan Klasifikasi Persentase keakuratan klasifikasi (corret classification) dihitung untuk
menaksir keakuratan klasifikasi secara keseluruhan, yaitu keakuratan klasifikasi dalam memprediksi kejadian secara keseluruhan yang dinyatakan sebagai nilai amatan yang secara tepat dapat diprediksi oleh model yaitu
𝑎+𝑑 𝑛
× 100%,
seperti diuraikan dalam Tabel 2.3. Selain keakuratan klasifikasi, bisa juga diketahui besarnya kesalahan klasifikasi (misclassification rate). Prediksi rata-rata kesalahan dapat diperoleh
22
dengan cara penggantian kembali (Abdelrahman & Hady, 2010). Hasil persentase kesalahan klasifikasi penggantian kembali disebut rata-rata kesalahan yang nampak yaitu
𝑏+𝑐 𝑛
× 100% seperti diuraikan dalam Tabel 2.3.
Keakuratan dan kesalahan klasifikasi dapat diketahui dengan tabel klasifikasi sebagai berikut: Tabel 2.3 Hasil Klasifikasi Amatan Prediksi 0 1 1 𝑎 0 Total Kesalahan
2.6
Total
Keakuratan
𝑏
𝑎 + 𝑏 = 𝑛1
𝑐
𝑑
(𝑐 + 𝑑) = 𝑛0
𝑎 + 𝑐 = 𝑛1
𝑏 + 𝑑 = 𝑛0
(𝑎 + 𝑏 + 𝑐 + 𝑑) = 𝑛
𝑐 𝑛1
𝑏 𝑛0
(𝑏 + 𝑐) 𝑛
𝑎 𝑛1 𝑑 𝑛0 (𝑎 + 𝑑) 𝑛
Perbedaan Metode QUEST dan CHAID Metode QUEST dan CHAID memiliki perbedaan dalam proses
pembentukan pohon klasifikasi. QUEST menentukan penyekatan berdasarkan analisis diskriminan kuadratik dan hanya membentuk dua cabang untuk setiap pemisahannya. Sedangkan CHAID menentukan penyekatan berdasarkan uji khikuadrat dan membentuk dua atau lebih cabang untuk setiap pemisahannya. Pembentukan pohon CHAID akan berhenti ketika tidak ada lagi nilai khi-kuadrat yang signifikan dari variabel prediktor terhadap variabel respon. Berbeda dengan CHAID, QUEST akan berhenti ketika salah satu dari aturan penghentian tercapai atau sampai simpul tidak bisa disekat lagi dengan aturan penghentian pembentukan pohon.
23
Tabel 2.4 Ciri Metode QUEST dan CHAID Ciri QUEST Tipe variabel respon Kategorik Tipe variabel prediktor Kategorik, numerik Jumlah cabang pohon 2 Penentuan simpul penyekat Diskriminan kuadratik
CHAID Kategorik Kategorik ≥2 Uji khi-kuadrat