BAB 1
PENDAHULUAN 1.1. Pendahuluan Mesin hitung bernama Komputer sejak satu dekade ini telah tumbuh dan berkembang dengan pesat. Perkembangan ini meliputi sisi teknologi, kapasitas media penyimpanan, dan sebagainya, dan juga fungsinya. Selain itu harganya semakin lama semakin terjangkau, sehingga komputer tidak lagi hanya digunakan oleh perusahaan-perusahaan besar. Banyak perusahaan kecil atau kantor kecil telah dilengkapi dengan komputer. Begitu juga dengan penggunaan perseorangan. Adapun fungsi komputer telah bergeser dari sekedar mesin hitung berskala besar menjadi mesin serba bisa, mulai dari pengolahan kata, gambar, film, suara, jaringan, internet, dan games. Salah satu fungsi yang cukup sering digunakan dalam perusahaan adalah pengolahan data perusahaan untuk dijadikan suatu informasi yang berguna dan bernilai. Sistem ini disebut Sistem Informasi. SI biasanya digunakan untuk menghasilkan informasi-informasi yang bersifat manajerial dan terstruktur yang biasanya dimanfaatkan oleh sekelompok orang pada tingkatan tertentu dalam menjalankan perusahaan. Dengan berkembangnya kapasitas dan kompleksitas suatu perusahaan, maka memungkinkan terjadinya berbagai masalah yang sifatnya semi terstruktur. Sehubungan dengan masalah tersebut maka dari SI yang ada dikembangkanlah suatu konsep basis data baru yang disebut dengan Data Warehouse (gudang data), yang menyediakan data pendukung keputusan bagi end user untuk mengambil keputusan atas permasalahan yang dihadapi oleh perusahaan.1 Dewasa ini, sejalan dengan perkembangan teknologi informasi, maka semakin banyak perusahaan yang mempercayakan pengambilan keputusan dengan sistem yang berbasis komputer, yaitu Data Mining Modeling.
2
Dengan
mempercayakan keakuratan dari Data Mining Modeling untuk mengolah Data 1
Poe Vidette, Klauer Patricia dan Brobst Stephen, Building A Data WareHouse for Decision Support Second Edition. New Jersey : Prentice Hall Publishers, 2000, Hal : 18 2 Mehmed Kantardzic, Data Mining : Concepts, Models, Methods, and Algorithms. New Jersey : John Wiley & Sons, 2003, Hal : 1
1
Warehouse, maka dapat membantu perusahaan menghindari resiko-resiko yang merugikan. Diharapkan dengan diterapkannya pengolahan data yang berukuran relatif besar (Data Warehouse) menggunakan model mining pada kasus-kasus tertentu, mampu menjadi standar yang tepat dalam menganalisis kelompok-kelompok data yang berhubungan berdasarkan keadaan alami datanya, sehingga dapat menjadi representasi yang tepat secara metodologi di kemudian hari.
1.2. Latar Belakang Masalah Analisis suatu kelompok data yang berjumlah banyak atau berukuran besar bila dilakukan secara manual (dalam arti tidak ada program bantu) hal ini sangat sulit dilakukan, juga ketepatan dan keakuratan hasil analisis masih diragukan. Selain itu, proses secara manual tentunya akan menggunakan tenaga yang banyak dan waktu yang cukup lama, sehingga bagi perusahaan tentunya ini akan menjadi beban tersendiri. Instansi pendidikan adalah salah satu instansi yang memungkinkan memiliki data yang besar untuk dilakukan analisis. Salah satu analisis yang mungkin dilakukan adalah hubungan nilai tes masuk terhadap nilai akademik mahasiswa. Hal tersebut berkaitan erat dengan kualitas pendidikan yang dipergunakan oleh instansi tersebut, yang secara tidak langsung akan mempengaruhi sumber daya manusia yang dihasilkan olehnya. Sehingga juga akan mempengaruhi nilai akademik seorang mahasiswa. Universitas Kristen Duta Wacana, selaku salah satu instansi pendidikan di Jogjakarta, selama ini dalam mengadakan analisis masih menggunakan metode yang berlainan untuk tiap tahunnya. Hal ini akan mengakibatkan hasil analisis yang ada menjadi kurang tepat dalam memprediksi perkiraan yang ada. Untuk melakukan analisis yang lebih tepat, harus dipilih metode yang benar-benar teruji. Untuk itu, metode data mining diharapkan mampu menyelesaikan masalah tersebut. Metode data mining pada dasarnya merupakan metode pencarian pola data tersembunyi dari sebuah basis data yang besar. Pada metode clustering, proses
2
analisis dilihat dari pengelompokan spontan yang terjadi berdasarkan keadaan masing-masing data tanpa terlebih dahulu diberikan kelas-kelasnya. Metode clustering sendiri sebenarnya ada beberapa, diantaranya metode K-Medoid Clustering, metode K-Means Partitional Clustering dan metode Fuzzy C-Means Clustering. Permasalahannya adalah metode mana yang lebih sesuai digunakan pada kasus hubungan nilai tes penerimaan mahasiswa dengan nilai akademik mahasiswa, sehingga nantinya mampu menjadi standar yang tepat dalam menganalisis kelompok data yang berhubungan berdasarkan keadaan alami datanya, sehingga dapat menjadi representasi yang tepat secara metodologi di kemudian hari.
1.3. Rumusan Masalah Berdasarkan permasalahan di atas, maka diperlukan suatu sistem pendukung (program bantu) untuk mempermudah dalam menganalisis dan membandingkan metode mana yang lebih baik, sehingga program dengan metode yang lebih baik dapat digunakan untuk membuat keputusan yang diambil menjadi lebih mudah. Dalam hal ini, metode yang digunakan dalam pembuatan program bantu tersebut adalah metode K-Means Partitional Clustering dan metode Fuzzy C-Means Clustering, yang kemudian hasil yang diperoleh dari kedua metode tersebut akan diperbandingkan. Secara garis besar, sistem ini memiliki rumusan masalah sebagai berikut : 1. Penerapan metode Fuzzy C-Means Clustering dan metode K-Means Clustering sebagai metode cluster data mining. 2. Membuktikan bahwa algoritma Fuzzy C-Means Clustering dan K-Means Clustering mampu memperlihatkan pengelompokan data yang terjadi berdasarkan keadaan alami data tanpa pendefinisian kelas data terlebih dahulu. 3. Membandingkan algoritma Fuzzy C-Means Clustering dengan algoritma K-Means Clustering untuk melihat hasil yang mana lebih baik, perbandingan dilihat dari kecepatan, jumlah iterasi, dan batas error.
3
1.4. Batasan Masalah Pada permasalahan ini, pembuatan sistem mempunyai batasan-batasan sebagai berikut : 1. Sistem menggunakan metode Fuzzy C-Means Clustering dan metode KMeans Clustering untuk menangani data nilai tes potensial penerimaan mahasiswa teknik informatika UKDW angkatan 1998 hingga angkatan 2000 ( masing-masing 4 semester awal), dan dilihat korelasi/hubungannya terhadap hasil nilai akademik. 2. Sistem menggunakan tampilan secara grafik (visual) sebagai gambaran proses clustering, dan teks dari hasil clustering tersebut sesuai dengan parameter inputan user, dimana parameter pembanding antara dua metode tersebut antara lain kecepatan, jumlah iterasi, dan batas error.
1.5. Gambaran Kerja Sistem (Input, Proses, Output )
Clustering dengan metode Fuzzy C-Means Proses Pembandingan
Clustering dengan metode K-Means
Data Mart Hasil Tes PMB dan Nilai IPA/IPS
Data Mart Nilai Akademik Mahasiswa
D a t a C l e a n i n g
Interface
ANALISIS DATA MINING Visualisasi Hasil Clustering dan Perbandingan
Input : y Parameter X; y Parameter Y; y B a nya k kelompok (k)
Gambar 1.1 Gambaran Kerja Sistem
Pada Gambar 1.1, proses yang dilakukan adalah data mentah yang diperoleh, yaitu data hasil tes penerimaan mahasiswa teknik informatika angkatan 1998-2000 dan data nilai akademik mahasiswa, akan dianalisis dengan terlebih
4
dahulu melalui tahap preprocessing, dalam hal ini adalah data cleaning. Kemudian dengan inputan dari pengguna, maka data yang telah dibersihkan akan dianalisis dengan menggunakan metode K-Means dan Fuzzy C-Means. Hasil yang didapat kemudian divisualisasikan dan dibandingkan. Keluaran dari program selain visualisasi adalah resume hasil perbandingan, dan beberapa laporan lainnya.
1.6. Tujuan Penelitian Penelitian dan pembuatan sistem ini dilakukan dengan tujuan : 1. Sebagai syarat kelulusan pada program studi Teknik Informatika UKDW. 2. Menerapkan metode penggalian data (data mining) dari sebuah gudang data (data warehouse) untuk memperoleh pengetahuan yang tersembunyi di dalamnya dengan menggunakan kasus nyata. 3. Membantu pihak instansi pendidikan, dalam hal ini program studi teknik informatika, untuk melakukan suatu analisis pengelompokan data nilai akademik mahasiswa yang dihubungkan dengan data nilai tes penerimaan mahasiswa baru.
1.7. Spesifikasi Sistem Sistem yang dibuat diharapkan mampu melakukan proses perhitungan yang iteratif dan mampu menampilkan output secara visual dari hasil analisis. Dari output yang ada, hasilnya diperbandingkan. Pada permasalahan ini kasus yang dipakai adalah data nilai tes masuk mahasiswa angkatan 1998 - 2000 dan data nilai akademik mahasiswa Teknik Informatika dari mahasiswa 1998 – 2000 ( diambil nilai 4 (empat) semester awal). Adapun pembuatan sistem mempunyai spesifikasi sebagai berikut: a. Sistem menggunakan metode k-Means Partitional Clustering dan metode Fuzzy C-Means Clustering untuk menangani clustering data. b. Sistem mempunyai 3 buah variabel input (untuk masing-masing metode), yaitu : bahan analisis yang terdiri atas persentase kemampuan nilai akademik mahasiswa sebagai komponen sumbu X grafik clustering, nilai
5
tes potensi akademik mahasiswa sebagai komponen sumbu Y grafik clustering dan banyak cluster yang diinginkan. c. Sistem mampu menampilkan tampilan visualisasi berupa grafik dan teks dari hasil clustering tersebut yang sesuai dengan parameter inputan pengguna. d. Sistem mampu menampilkan detail data nilai tes potensial akademik dan data nilai akademik mahasiswa untuk setiap anggota cluster.
Sistem yang dibuat menggunakan spesifikasi software dan hardware sebagai berikut: 1. Penggunaan Hardware : a. 1 (satu) unit PC IBM dengan prosesor AMD® Athlon® XP 1700+; b. DDR RAM PC2700 256 MB; c. Monitor SVGA 14 inci; d. Hard Disk Quantum® 5400 rpm 30 GB. 2. Penggunaan Software : a. Microsoft® Windows® XP Profesional Edition; b. Microsoft® Excel 2003; c. Microsoft® Visual Basic® 6.0 Enterprise Edition; d. Microsoft® SQL Server® 2000 Profesional Edition e. Microsoft® Visual FoxPro® 6.0 f. Dan beberapa software pendukung lainnya.
Sementara itu kebutuhan Brainware dalam sistem ini adalah : 1. Pengguna yang mampu untuk melakukan analisis data terutama analisis data mining dengan metode clustering (dosen, praktisi), 2. Programmer untuk membuat, memperbaiki, dan mengembangkan sistem yang dibuat dan menguasai programming dengan Microsoft® Visual Basic® 6 dan Microsoft® SQLServer® 2000, dan
6
3. Pengguna yang membutuhkan aplikasi ini, mengerti menggunakan komputer,
memahami
penyebaran
data,
dan
mengerti/memahami
mengenai data warehousing, data mining, dan clustering.
Sistem ini tidak dianjurkan untuk digunakan oleh pengguna komputer biasa, karena kekomplekan sistem akan membuat bingung pengguna yang tidak memahami tentang penyebaran data, data warehousing, data mining, dan clustering.
1.8. Metodologi Penelitian Metode yang digunakan dalam Tugas Akhir ini antara lain : 1. Penelitian pustaka -
Dilakukan dengan studi pustaka/literatur dengan menggunakan buku-buku yang mendukung proses pelaksanaan Tugas Akhir.
-
Mencari informasi melalui internet untuk membantu membangun sistem.
2. Penelitian lapangan -
Melakukan pengumpulan data melalui wawancara dengan pihak universitas untuk memperoleh keterangan dan data yang dibutuhkan untuk mendukung penyelesaian Tugas Akhir.
-
Pengamatan dan studi tentang kebutuhan-kebutuhan yang mendasar untuk pembangunan sistem.
1.9. Sistematika Penulisan Sistematika penulisan yang dipergunakan pada tugas akhir ini disesuaikan dengan ketentuan yang telah diatur pada tata cara penulisan tugas akhir program studi teknik informatika Universitas Kristen Duta Wacana. Pada bab kesatu, yakni pendahuluan berisikan latar belakang permasalahan, rumusan masalah, tujuan penulisan, spesifikasi program dan sistematika penulisan.
7
Mengenai teori-teori yang mendasari program secara teoritis dapat dilihat pada bab kedua yang berjudul landasan teori. Sedangkan pada bab ketiga yang berjudul analisis dan perancangan sistem, akan dijelaskan mengenai rancangan sistem yang dibuat baik desain basis data secara dimensional maupun kerangka tampilan program didalam pola sistem masukan dan keluaran. Hasil akhir dari analisis dan perancangan sistem akhirnya akan diimplementasikan dalam bentuk program. Sistem yang sudah jadi berikut penjelasan form-form yang digunakan didalamnya dapat dilihat pada bab keempat, yang berjudul implementasi sistem. Bab kelima yang berjudul kesimpulan dan saran, berisikan kesimpulan dari proses pembuatan sistem berikut hasil yang dicapai yang nantinya akan berguna sebagai saran pengembangan selanjutnya dari program ini.
1.10. Jadwal Kegiatan Tugas Akhir Jadwal penyelesaian Tugas Akhir ini akan dipaparkan seperti tabel di bawah ini. Tugas Akhir dimulai pada minggu pertama bulan Februari 2004 sampai akhir bulan Februari 2005. Gambar 1.2 di bawah ini menunjukkan jadwal kegiatan mulai dari penyerahan proposal hingga presentasi akhir.
Gambar 1.2. Jadwal Kegiatan
8