BAB II LANDASAN TEORI
2.1 Tinjauan Pustaka 2.1.1
Klasifikasi
Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang belum diketahui labelnya (Permana, 2011). Model ini sendiri bisa berupa aturan “jika-maka” maupun pohon keputusan. Pohon klasifikasi merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan sampel dalam kelas-kelas variabel dependen kategorik. Keanggotaan ini diduga dari pengukuran sampel pada satu variabel independen atau lebih. Pohon dibentuk melalui penyekatan data secara berulang (rekursif), dimana kelas dan nilai-nilai variabel penjelas setiap sampel pada data tersebut sudah diketahui. Setiap sekatan data dinyatakan sebagai node (simpul) dalam pohon yang terbentuk. Salah satu keuntungan penggunaan metode klasifikasi berstruktur. Metode ini dapat mengungkapkan hubungan sederhana antara beberapa variabel pada data yang tidak diketahui bagaimana hubungan antara variabelnya, yang mungkin tak terdeteksi oleh teknik analisis lainnya.
2.1.2 Metode CHAID Metode
Chi-squared
Automatic
Interaction
Detection
(CHAID)
merupakan teknik yang awalnya dikenal sebagai Automatic Interaction Detection (AID) (Kass, 1980). Secara umum, metode CHAID mempelajari hubungan antara variabel
dependen
dengan
beberapa
variabel
independen
kemudian
mengklasifikasi sampel berdasarkan hubungan tersebut. CHAID merupakan sebuah metode untuk mengklasifikasikan data kategori dengan tujuan untuk membagi rangkaian data menjadi subgrup-subgrup berdasarkan pada variabel dependennya (Lehmann dan Eherler, 2001). Hasil dari
4
5
pengklasifikasian dalam CHAID akan ditampilkan dalam sebuah diagram pohon. CHAID tidak disarankan untuk data berukuran kecil. Untuk mendukung keakuratan hasil yang diperoleh, CHAID membutuhkan ukuran data yang besar. Berikut diberikan algoritme CHAID (Permana, 2011). 1. Penggabungan (Merging) Tahap pertama dalam algoritme CHAID adalah penggabungan (merging). Pada tahap ini akan diperiksa signifikansi dari masing-masing kategori variabel independen terhadap variabel dependen. Tahap penggabungan untuk setiap variabel independen dalam menggabungkan kategori-kategori yang tidak signifikan adalah 1) membuat tabel kontingensi dua arah untuk masing-masing variabel independen dengan variabel dependennya, 2) menghitung uji chi-square untuk setiap pasang kategori yang dapat dipilih untuk digabung menjadi satu, untuk menguji kebebasannya dalam sebuah sub tabel kontingensi
yang dibentuk oleh
sepasang kategori tersebut dengan variabel dependennya yang mempunyai sebanyak kategori. Langkah uji chi-square adalah, i.
menuliskan hipotesis (Variabel
dan variabel
independen atau
tidak terdapat hubungan antara variabel dan variabel ). (Variabel
dan variabel
dependen atau
terdapat hubungan antara variabel
dan
variabel ). ii.
menentukan mencari nilai
iii.
, (
)(
)
dari tabel chi-square,
menentukan daerah penolakan, yaitu nilai p
(
,
iv.
menghitung statistik uji
v.
mengambil kesimpulan
∑
(
)
,
)(
)
atau
6
a. bila
masuk daerah penolakan, maka
b. bila
ditolak,
tidak masuk dalam daerah penolakan, maka
diterima, 3) untuk masing-masing nilai chi-square berpasangan, hitung nilai p berpasangan bersamaan. Pasangan-pasangan yang tidak signifikan, gabungkan sebuah pasangan kategori yang paling mirip (yaitu pasangan yang mempunyai nilai chi-square berpasangan terkecil dengan nilai p terbesar) menjadi sebuah kategori tunggal, dan kemudian dilanjutkan ke langkah nomor 4), 4) memeriksa kembali signifikansi kategori baru setelah digabung dengan kategori lainnya dalam variabel independen. Jika masih ada pasangan yang belum signifikan, ulangi langkah 3). Jika semua sudah signifikan, lanjutkan langkah berikutnya, 5) menghitung nilai p terkoreksi Bonferroni didasarkan pada tabel yang telah digabung. 2. Pemisahan (Splitting) Tahap splitting memilih variabel independen mana yang akan digunakan sebagai split node (pemisah node) yang terbaik. Pemilihan dikerjakan dengan membandingkan nilai p (dari tahap merging) pada setiap variabel independen. Langkah splitting yaitu, 1) memilih variabel independen yang memiliki nilai p terkecil (paling signifikan) yang akan digunakan sebagai split node, 2) jika nilai p kurang dari atau sama dengan tingkat signifikansi alpha, split node menggunakan variabel independen ini. Jika tidak ada variabel independen dengan nilai p yang signifikan, tidak dilakukan split dan node ditentukan sebagai terminal node (node akhir). 3. Penghentian (Stopping) Mengulangi langkah penggabungan untuk sub kelompok berikutnya. Tahap stopping dilakukan jika proses pertumbuhan pohon harus dihentikan sesuai dengan peraturan pemberhentianya itu,
7
1) tidak ada lagi variabel independen yang signifikan menunjukkan perbedaan terhadap variabel dependen, 2) jika pohon yang terbentuk mencapai batas maksimum pohon dari spesifikasi, maka proses pertumbuhan akan berhenti.
2.1.3 Metode Exhaustive CHAID Exhaustive CHAID merupakan modifikasi algoritme CHAID (Faridhan, 2003). Metode ini merupakan pengembangan atas metode CHAID. Metode Exhaustive CHAID menjelaskan prosedur penyekatan dengan cara melihat seluruh kemungkinan penggabungan dari pasangan kategori secara bertahap hingga tersisa dua kategori. Algoritme Exhaustive CHAID sama dengan algoritme CHAID yang terdiri dari tiga tahap, yaitu tahap penggabungan (merging), pemisahan (splitting), dan penghentian (stopping). Akan tetapi algoritme Exhaustive CHAID melakukan penggabungan lebih menyeluruh. Metode Exhaustive CHAID membutuhkan waktu komputasi yang lebih lama daripada CHAID.
2.1.4
Variabel-variabel dalam metode CHAID dan Exhaustive CHAID
Variabel dependen dan independen dalam metode CHAID dan Exhaustive CHAID adalah variabel kategorik. Pada metode CHAID dan Exhaustive CHAID variabel independen kategorik dibedakan menjadi tiga jenis, a. variabel monotonik, merupakan variabel independen yang kategori di dalamnya dapat dikombinasikan atau digabungkan hanya jika keduanya berdekatan satu sama lain atau mengikuti urutan aslinya (data ordinal). Contohnya: usia, pendapatan, b. variabel bebas, merupakan variabel independen yang kategori di dalamnya dapat dikombinasikan atau digabungkan ketika keduanya berdekatan ataupun tidak (data nominal). Contohnya: pekerjaan, area geografis, c. variabel mengambang (floating), merupakan variabel independen yang kategori di dalamnya dapat diperlakukan seperti monotonik kecuali untuk
8
kategori yang missing value, yang dapat berkombinasi dengan kategori manapun.
2.1.5 Uji
Uji Independensi
(Chi-square)
pertama kali dikembangkan oleh Karl Pearson. Uji
antara lain
dapat digunakan untuk mengetahui hubungan antara dua variabel tertentu (untuk uji independensi), dimana variabel yang dimaksud mempunyai skala pengukuran nominal. Jika tidak terdapat hubungan antara variabel-variabel tersebut, bisa dikatakan variabel-variabel tersebut bersifat independen atau saling bebas. Misalkan terdapat n observasi yang diklasifikasikan menjadi dua variabel kategorik. Variabel pertama dengan c kategori ditempatkan sebagai kolom dan variabel kedua dengan r kategori ditempatkan sebagai baris sehingga terbentuk sebuah tabel kontingensi
seperti pada Tabel 2.1.
Tabel 2.1. Kontingensi Variabel 1
1
2
3
Variabel 2 1 2 3
Jumlah kolom
Keterangan: : banyaknya observasi pada baris ke-r dan kolom ke-c : banyaknya observasi pada baris ke-r : banyaknya observasi pada baris ke-c : banyaknya seluruh observasi
Jumlah baris
9
Misalkan peluang kejadian
dan
, maka peluang kejadian untuk setiap
adalah dan
dengan dapat dilihat pada Tabel
2.2. Tabel 2.2. Peluang kejadian Kejadian 2
Jumlah
Kejadian 1
Jumlah Keterangan: : Peluang kejadian
dan
: Peluang total pada baris ke-i : Peluang total pada kolom ke-j Nilai harapan untuk masing-masing sel pada Tabel 2.2. adalah dan Statistik uji yang digunakan, ∑ Ststistik uji
(
)
dan
berdistribusi chi-square dengan derajat bebas (
Berikut adalah langkah-langkah dalam uji independensi, i.
Menuliskan hipotesis (kedua variabel independen).
)(
).
10
(kedua variabel tidak independen). ii.
Menentukan .
iii.
Menentukan daerah penolakan, yaitu
iv.
Menghitung statistik uji
v.
Mengambil kesimpulan
∑
(
( )
)(
).
.
a. Bila
masuk daerah penolakan, maka
b. Bila
tidak masuk dalam daerah penolakan, maka
2.1.6
)(
ditolak. diterima.
Koreksi Bonferroni
Koreksi Bonferroni adalah suatu proses yang digunakan ketika beberapa uji statistik untuk independensi dilakukan secara bersamaan (Kunto Hasana, 2006). Koreksi Bonferroni biasanya digunakan dalam perbandingan ganda. Jika terdapat variabel independen dengan c kategori dan dikurangi menjadi r kategori pada langkah penggabungan, maka perkalian Bonferroni adalah banyaknya cara yang mungkin yang mana c kategori dapat digabungkan menjadi r kategori. Dengan demikian nilai p dari uji chi-square untuk independensi yang baru merupakan perkaliannya dengan pengali Bonferroni sesuai dengan jenis variabelnya. Jika nilai p koreksi Bonferroni lebih besar dai 1,0 maka akan dibulatkan ke bawah menjadi 1. Gallagher (2000) memberikan pengali Bonferroni untuk masing-masing jenis variabel independen seperti berikut, 1. untuk variabel independen monotonik, pengali Bonferroninya (M) (
).
(2.1)
2. untuk variabel independen bebas, pengali Bonferroninya (M) ∑
(
)
(
) (
)
.
(2.2)
3. untuk variabel independen mengambang (floating), pengali Bonferroninya (M) ( dengan
)
(
).
(2.3)
11
: jumlah kategori asal variabel independen awal, : jumlah kategori variabel independen setelah penggabungan.
2.2
Kerangka Pemikiran
Berdasarkan tinjauan pustaka yang telah diuraikan, dapat disusun kerangka pemikiran dalam pembahasan penelitian ini. Klasifikasi merupakan proses untuk mengelompokkan suatu data menjadi kelompok-kelompok yang lebih kecil. Salah satu metode dalam teknik klasifikasi yang digunakan dalam penelitian ini yaitu metode CHAID dan Exhaustive CHAID. Data yang digunakan dalam penelitian ini yaitu data alumni mahasiswa FMIPA UNS. Variabel dependen yang digunakan adalah masa studi, dengan kategori variabel tepat waktu dan tidak tepat waktu. Sedangkan variabel independen yang digunakan yaitu jenis kelamin, asal daerah, program studi, dan IPK semester pertama. Kemudian data diolah dengan menggunakan metode CHAID dan Exhaustive CHAID. Setelah itu diambil kesimpulan dari pengolahan data tersebut.