BAB I PENDAHULUAN
1.1
Latar Belakang dan Perumusan Masalah Dunia semakin berkembang dengan pesat. Perkembangan itu terjadi di
berbagai bidang, baik di bidang perindustrian, perbankan maupun di bidang kesehatan. Perkembangan yang pesat ini tak lepas dari bermunculannya informasi-informasi yang dihasilkan. Informasi yang dihasilkan tidak hanya dalam hitungan jari, tetapi banyak sekali informasi yang dihasilkan. Hal ini bagus untuk menambah pengetahuan kita tentang apa yang terjadi pada bidang tersebut, tetapi akan menjadi sebuah tantangan bagi para orang awam untuk mengambil pengetahuan apa yang sebenarnya terdapat didalam informasi tersebut. Statistika menawarkan sebuah alat bantu untuk mengambarkan pola apa yang terdapat dalam kumpulan data yang berjumlah banyak. Analisis kelompok adalah salah satu alat yang ditawarkan oleh statistika multivariat utuk menganalisis struktur dari suatu kumpulan data dan mengklasifikasikan data ke dalam beberapa kelompok. Hubungan antar anggota dalam suatu kelompok sangat kuat, tetapi lemah hubungannya dengan anggota dari kelompok yang lain. Hubungan antar anggota kelompok diukur oleh suatu fungsi jarak antara kedua data. Telah banyak metode yang digunakan untuk melakukan analisis kelompok, salah satu yang populer adalah K-Means cluster, metode ini diusulkan oleh MacQueen (1967). Metode K-Means cluster ini digunakan untuk menganalisis data yang bersifat kontinu. Data dapat dibagi menjadi 4 berdasarkan skalanya, yaitu: data nominal, data ordinal, data interval dan data rasio. Data nominal dan data ordinal dapat dikatakan sebagai data kategorik, data interval dan data rasio dapat dikatakan sebagai data kontinu. Pada aplikasi ilmu statistika, tidak semua data di dunia ini berskala interval ataupun rasio, sudah pasti ada data yang berskala nominal ataupun ordinal. Contohnya adalah data tentang pengklasikifasian hewan ataupun tumbuhan. Suatu hewan dikelompokan dari banyaknya kaki, cara reproduksi dan
1
2
berbagai macam kategori lainnya. Begitupula tumbuhan, dikelompokan dari bentuk akarnya, bentuk kayunya dan kategori-kategori lainnya. Kesukaran yang akan dihadapi jika berhadapan dengan data kategorik yang berjumlah banyak ialah terjadinya kesalahan pada ruang metrik Euclidean yang dimana data diposisikan dalam koordinat terukur. Masalah ini menyebabkan penggunaan jarak Euclidean yang biasanya digunakan untuk data kontinu pada analisis kelompok tidak aplikatif lagi. Ralambondrainy (1995) melakukan analisis K-Means cluster untuk data kategorik dengan memperkenalkan skema pengkodean numerik pada data kategorik yang disebut dummy variable. Untuk contoh, kode biner 0 dan 1 digunakan untuk mewakili jenis kelamin. Kesalahan yang akan terjadi adalah jarak yang dihasilkan akan berbeda ketika digunakan kode yang lain. Secara jelasnya, nilai rata–rata yang digunakan dalam algoritma untuk merepresentasikan pusat kelompok tidak berarti. Pemilihan kode yang sembarangpun akan berakibat fatal dalam perhitungan jarak antar data kategorik. Untuk memperluas algoritma K-Means cluster, khususnya untuk memperluas analisis kelompok pada data kategorik. Huang (1998) mengajukan algortima yang diperbaharui, yaitu K-Modes algorithm. Pada algoritma ini digunakan modus sebagai pengganti dari mean untuk merepresentasikan pusat data. Algoritma ini bersifat iteratif, yaitu dengan cara memperbaharui keanggotaan dari setiap data dan modus dari kelompok pada tiap iterasi, kode yang digunakan dapat diserahkan kepada pembuat kode. Cheeseman dan Stutz (1995) mengajukan algoritma yang berbasiskan model, algoritma ini berbeda dengan algoritma K-Modes yang berbasiskan jarak, algoritma ini disebut dengan algoritma Autoclass. Algoritma Autoclass ini menggunakan prosedur pemilihan model Bayesian untuk menentukan rangkaian partisi yang paling mungkin pada kumpulan data yang diberikan. Penulis akan mengulas tentang analisis kelompok menggunakan algoritma vektor Hamming distance (HD). Analisis kelompok ini dilakukan berdasar pada fungsi jarak Hamming yang diajukan oleh Hamming (1950) pada coding theory. Hamming
distance
digunakan
untuk
membentuk
vektor
jarak
yang
3
merepresentasikan distribusi frekuensi suatu data dari titik yang berada pada Hamming metric space. Hamming distance ini menjadi suatu alat yang bagus untuk mengukur kesamaan ataupun ketidaksamaan antara 2 objek. Hamming distance sudah sangat terkenal dalam coding theory. Aplikasi Hamming distance digunakan untuk mengukur error yang terjadi pada pengiriman pesan. Perbedaan yang sangat terlihat pada algoritma vektor Hamming distance dengan algoritma yang lain adalah penggunaan distribusi frekuensi dari Hamming distance untuk mencari pola kelompok dan juga penggunaan uji chi-square yang telah dimodifikasi untuk menganalisis pusat kelompok. Algoritma ini secara beruntun melakukan ekstraksi kelompok dari data yang diberikan. Pada tiap iterasinya, algoritma ini berusaha untuk mengidentifikasi satu buah kelompok. Data yang masuk dalam kelompok akan dikeluarkan dari algortima pada iterasi selanjutnya. Algoritma ini akan diulang hingga tidak ada lagi kelompok yang signifikan dalam data yang tersisa. Zhang et al. (2006) memperlihatkan bahwa performa dari algoritma vektor Hamming distance lebih bagus dibandingkan algoritma K-Modes dan Autoclass pada beberapa kasus. Adapun kriteria-kriteria yang digunakan untuk mengukur performa dari suatu analisis kelompok, kriteria tersebut adalah classifitaction rate (CR) dan informastion Gain (IG). Performa yang baik dari algoritma vektor Hamming distance merupakan salah satu motivasi penulis untuk mengulasnya.
1.2
Tujuan Penelitian Tujuan yang ingin dicapai dalam penulisan tugas akhir ini adalah : 1. Menerapkan Hamming distance untuk membentuk vektor jarak yang berguna untuk menganalisis pola kelompok. 2. Membentuk kelompok yang bersesuaian dengan data dengan tingkat performa yang tinggi. 3. Mengenalkan dan memahami analisis kelompok, khususnya pada data kategorik, agar kedepannya terdapat penelitian dengan metode yang lain.
4
1.3
Manfaat Penelitian Penulisan tugas akhir ini diharapakan bisa memberikan manfaat
diantaranya : 1. Memperluas ilmu statistika, khususnya di bidang statistika multivariat. 2. Dapat memperoleh jumlah kelompok yang tepat dan dengan performa yang tinggi. 3. Dapat mempelajari metode alternatif dari metode sebelumnya (Kmodes dan Autoclass) dalam melakukan analisis kelompok pada data kategorik. 4. Menambah wacana ilmu pengetahuan yang selanjutnya dapat dikembangkan ke tingkat yang lebih lanjut, khususnya pada analisis kelompok untuk data kategorik.
1.4
Pembatasan Masalah Banyaknya kondisi yang memungkinkan untuk dilakukannya analisis
kelompok, maka penulis akan melakukan pembatasan masalah agar penelitian ini lebih terfokus. Pada penelitian ini penulis akan melakukan analisis kelompok hanya dengan data yang berjenis kategorik, lebih tepatnya penulis akan menggunakan data nominal dalam penelitian ini. Fungsi jarak yang digunakan dalam mengukur jarak antara data adalah Hamming distance. Berbeda dengan analisis kelompok pada data yang bersifat kontinu yang biasanya menggunakan jarak Euclidian sebagai fungsi jarak antar data. Penekanan pada penggunaan algoritma vektor Hamming distance adalah pada penggunaan statistik uji chisquare yang telah dimodifikasi, dimana statistik uji ini melibatkan vektor Hamming distance dan vektor uniform Hamming distance untuk mendapatkan pola kelompok yang tersembunyi dalam data serta pusat dari kelompok tersebut.
1.5
Metode Penulisan Metode penulisan yang digunakan penulis adalah studi literatur yang
diperoleh dari perpustakaan, jurnal-jurnal ilmiah dan sumber-sumber lain yang diperoleh dari internet. Penulis dalam menyelesaikan penelitian ini menggunakan
5
bantuan software Matlab 8.1.0.604. Data yang diambil merupakan data sekunder dari internet yang dapat dipertanggungjawabkan.
1.6
Tinjauan Pustaka Analisis kelompok mengalami perkembangan yang sangat pesat dalam
memperbaiki metode yang telah diajukan, khususnya untuk analisis kelompok pada data yang bersifat kategorik. Dalam penulisan ini penulis akan terlebih dahulu menjelaskan secara luas apa itu analisis kelompok beserta teori teori pendukungnya, dilanjutkan dengan pembahasan algoritma vektor Hamming distance dan penggunaannya dalam mencari pola kelompok. Penulis menggunakan beberapa sumber pustaka yang membahas mengenai coding theory sebagai dasar dalam algoritma vektor Hamming distance. Salah satunya diambil dari buku Gilbert dan Nicholson (2004) yang membahas tentang coding theory, didalamnya dibahas pula Hamming distance secara lengkap. Salah satu sumber pustaka yang digunakan untuk membahas analisis kelompok diambil dari buku Johnson dan Wichern (2001) yang berisi tentang hal mendasar mengenai analisis kelompok dan juga berbagai macam analisis kelompok. Selain itu juga penulis mengambil beberapa sumber dari jurnal. Huang (1998) pada jurnalnya yang berjudul “Extensions to the K-Means Algorithm for Clustering Large Data Sets with Categorical Values” membahas pengelompokan data kategorik dengan menggunakan metode K-Modes, metode ini merupakan perluasan dari metode K-Means dengan mengganti modus sebagai pusat dari kelompok. Cheeseman dan Stutz (1995) dalam artikelnya yang berjudul “Bayesian Classification (Autoclass): Theory and Result” memperkenalkan metode pengklasifikasian data berbasis pada model. Zhang et al. (2006) dalam jurnalnya yang berjudul “Clustering Categorical Data Based on Distance Vector” mereka mengajukan algoritma vektor Hamming distance. Pada jurnalnya tersebut dijelaskan secara rinci dasar dari Hamming distance sebagai fungsi jarak pada coding theory dan mereka mengaitkan Hamming distance tersebut untuk digunakan sebagai analisis kelompok untuk data yang bersifat kategorik. Penulis juga mendapatkan informasi
6
tambahan dari situs-situs di internet mengenai teori-teori pendukung metode Hamming distance sebagai fungsi jarak bagi data kategorik pengganti dari fungsi jarak yang biasa digunakan pada data yang bersifat kontinu.
1.7
Sistematika Penulisan Tugas akhir ini disusun dengan sistematika penulisan sebagai berikut : BAB I
PENDAHULUAN Pada bab ini berisi latar belakang, perumusan masalah, tujuan penelitian, manfaat penelitian, pembatasan masalah, metode penelitian, tinjauan pustaka dan sistematika penulisan yang memberikan arahan pada penulis agar dapat berfokus dengan materi yang akan dibahas.
BAB II
LANDASAN TEORI Pada bab ini akan dibahas tentang teori-teori umum yang digunakan dalam melakukan analisis kelompok, serta hal-hal mendasar yang akan digunakan untuk melakukan pembahasan lebih lanjut.
BAB III MENGELOMPOKAN BERDASARKAN
DATA
ALGORTIMA
VEKTOR
KATEGORIK HAMMING
DISTANCE Pada bab ini akan dibahas secara lengkap bagaimanakah algoritma dari analisis kelompok dengan menggunakan fungsi jarak Hamming distance dijalankan sesuai dengan teori dasar. BAB IV KLASIFIKASI HEWAN BERDASARKAN MORFOLOGI DAN KARAKTERISTIK UMUM Pada bab ini akan dibahas sebuah contoh kasus analisis kelompok dengan menggunakan algoritma vektor Hamming distance. Penulis dibantu dengan software Matlab versi 8.1.0.604 dalam mengerjakan studi kasus.
7
BAB V
KESIMPULAN Pada bab ini berisikan kesimpulan, pemecahan maslah dan saran sebagai akibat dari kekurangan dan penelitian yang telah dilakukan oleh penulis.