Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015 28
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about/index Email :
[email protected]
Visualisasi Pengembangan Judul Proyek Akhir di Politeknik Caltex Riau Arif Rahmat Saputra1, Indah Lestari2 dan Muhammad Ihsan Zul3 1Program
Studi Sistem Informasi, Politeknik Caltex Riau, email:
[email protected] Studi Sistem Informasi, Politeknik Caltex Riau, email:
[email protected] 3Program Studi Teknik Informatika, Politeknik Caltex Riau, email:
[email protected] 2Program
Abstrak Pengetahuan tentang tren topik Proyek Akhir (PA) mahasiswa di perguruan tinggi maupun pada program studi tertentu dapat dimanfaatkan dalam perancangan atau sebagai referensi dalam penelitian yang akan dibangun selanjutnya. Data judul-judul PA yang ada dapat digunakan untuk mengetahui tren topik PA pada tahun tertentu. Pada proyek akhir ini dikembangkan suatu sistem menggunakan metode Text Mining dan algoritma K-Means Clustering untuk dapat mengelompokkan data judul Proyek Akhir mahasiswa yang tersimpan pada database perpustakaan Politeknik Caltex Riau. Data hasil penerapan Text Mining dan algoritma K-Means terhadap judul PA tamatan tahun ajaran 2010-2014 Jurusan Komputer di uji untuk mendapatkan nilai k terbaik menggunakan perhitungan Davies-Bouldin Index. Hasil pengujian tersebut menunjukkan k=8 merupakan nilai k yang paling sesuai untuk diterapkan pada sistem ini. Proyek akhir ini berhasil memvisualisasikan kelompok topik PA yang paling populer pada tahun tertentu menggunakan teknik visualisasi Bar Chart, Pie Chart, dan Tag Cloud. Setiap teknik visualisasi yang digunakan berfungsi untuk mempermudah pengguna dalam memahami informasi yang disampaikan, sehingga dapat memudahkan pengguna dalam proses menganalisa topik maupun judul PA yang dapat dikembangkan lebih lanjut. Kata kunci: Judul Proyek Akhir, Text Mining, K-Means, Bar Chart, Pie Chart, Tag Cloud
Abstract Knowledge of trending topics from final project (PA) in universities or in any particular courses can be used in designing or as a reference of future research. The existing final project titles can be used to determine the trending topic in a specific year. In this final project, a system using Text Mining and K-Means clustering algorithm is proposed to classify the final project title on database of Politeknik Caltex Riau library. The result data of implementing text mining and K-Means algorithm of final project title in computer department that graduated in 2010 to 2014 is tested to find the best K-value using Davies-Bouldin Index. Based on that calculation k=8 is the most suitable value to be used in this system. This final project has successfully classify and visualize the most popular topics in a specific year using Bar Chart, Pie Chart, and the Tag Cloud. Each visualization techniques are used to make user being easier
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015
29
to understand the information that shown on sistem, So it will ease the user to analyze the topics and the title for the research that can be developed furthermore. Keywords: Final Project Title, Text Mining, K-Means, Davies-Bouldin Index, Bar Chart, Pie Chart, Tag Cloud
1. Pendahuluan Pengetahuan tentang tren topik Proyek Akhir (PA) mahasiswa di perguruan tinggi, maupun pada program studi tertentu dapat dimanfaatkan dalam perancangan maupun sebagai referensi dalam penelitian yang akan dibangun selanjutnya. Perkembangan teknologi media penyimpanan digital yang semakin pesat telah mendorong peningkatan jumlah dokumen elektronik yang tersimpan dalam database perpustakaan di Politeknik Caltex Riau. Berbagai karya ilmiah dari mahasiswa seperti Proyek Akhir (PA), laporan kerja praktek dan lain sebagainya telah tersedia dalam versi digital. Namun, pada umumnya fenomena ini tidak disertai dengan pertumbuhan jumlah informasi atau pengetahuan yang dapat disarikan dari dokumen-dokumen elektronik tersebut Gupta [1]. Metode text mining merupakan pengembangan dari metode data mining yang diterapkan untuk menemukan pengetahuan baru dari sekumpulan dokumen. Algoritma yang diterapkan pada metode text mining dapat digunakan untuk mengenali data yang sifatnya semi terstruktur seperti judul PA, abstrak, maupun isi dari dokumen Gupta dan Lehal [2]. Beberapa aplikasi maupun sistem informasi berbasis text mining telah diterapkan untuk meningkatkan proses dokumen pencarian berbasis teks budhi dkk [3]. Namun belum banyak aplikasi atau sistem informasi yang dikembangkan untuk tujuan analisis, sehingga sulit untuk mengetahui kelompok topik penelitian populer maupun kecenderungan minat penelitian mahasiswa dalam periode tahun tertentu. Melalui penelitian ini dikembangkan suatu aplikasi menggunakan metode teks mining dan algoritma k-means
untuk dapat mengelompokkan data judul Proyek Akhir mahasiswa yang tersimpan pada database perpustakaan Politeknik Caltex Riau. Judul PA digunakan sebagai sumber data dalam penerapan metode text mining dan k-means clustering, sehingga diperoleh kelompok topik judul PA. Informasi yang didapatkan dari hasil penerapan metode text mining dan algoritma k-means clustering tersebut akan ditampilkan menggunakan teknik visualisasi data. Informasi tersebut dapat digunakan untuk pengembangan lebih lanjut. Teknik visualisasi data Bar Chart, Pie Chart dan Tag Cloud. Teknik visualisasi data digunakan karena pengguna akan lebih mudah untuk memahami konsep dari data yang ditampilkan Bagya [4].
1.1
Batasan Maslah
Adapun batasan masalah pada pembuatan proyek akhir ini antara lain: 1. Data yang digunakan pada aplikasi ini adalah data PA mahasiswa PCR jurusan komputer yang diperoleh dari perpustakaan PCR tamatan tahun 2010-2014 berupa file bertipe .xls. 2. Setiap kata hasil preprocessing data judul PA akan dikelompokkan berdasarkan kategori kata yang memiliki kemiripan makna kata secara manual. 3. Penamaan kelompok judul PA hasil Clustering K-Means mengikuti label kategori kata yang paling dominan dengan membandingkan banyaknya anggota pada setiap kategori kata. 4. Aplikasi ini dibangun berbasis web, dengan menggunakan
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015 bahasa pemrograman php, dan MySQL sebagai database.
2. Landasan Teori 2.1
1.2
Tujuan
Tujuan pada penelitian ini adalah “Membangun sebuah aplikasi yang dapat mengelompokkan data hasil pengolahan text mining dan clustering k-means dan mengetahui kelompok cluster yang memiliki anggota terbanyak kemudian memvisualisasikan data tersebut menggunakan beberapa teknik visualisasi data”, tujuan lain dari penelitian ini adalah: 1. Mengetahui kelompok topik judul PA yang paling populer pada tahun tertentu. 2. Mengimplementasikan metode text mining untuk mengolah data PA menjadi data yang dapat digunakan pada aplikasi ini. 3. Mengimplementasikan algoritma k-means clustering untuk mengelompokkan judul PA. 4. Memvisualisasikan data hasil penerapan metode text mining dan algoritma k-means clustering pada judul PA
1.3
Manfaat
Manfaat dari pembuatan proyek akhir ini adalah menjadi salah satu alternatif dalam menganalisa tren topik judul PA pada tahun tertentu yang dapat digunakan sebagai referensi dalam pengembangan proyek akhir lebih lanjut, dengan cara menganalisa data hasil visualisasi yang ditampilkan pada sistem dan dapat membantu mencari informasi rinci mengenai data judul PA berdasarkan inputan pengguna.
30
Text Mining
Kunaifi [5] mendefenisikan bahwa Text Mining adalah suatu proses yang bertujuan untuk menemukan informasi atau tren terbaru yang sebelumnya tidak terungkap, dengan memproses dan menganalisa data dalam jumlah besar. Dalam menganalisa sebagian atau keseluruhan unstructured text, text mining mencoba untuk mengasosiasikan satu bagian teks dengan yang lainnya berdasarkan aturan-aturan tertentu. Text mining merupakan variasi dari data mining yang berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang berjumlah besar. Beberapa tahapan proses pokok dalam text mining, yaitu pemrosesan awal teks (text preprocessing), transformasi teks (text transformation) atau (feature generation), pemilihan fitur (feature selection), dan penemuan pola text atau datamining (pattern discovery).
2.2
K-Means Clustering
K-means clustering merupakan salah satu metode data clustering nonhirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster. Data-data yang memiliki karakteristik yang sama dikelompokan dalam satu cluster dan data yang memiliki karakteristik yang berbeda dikelompokan dengan cluster yang lain sehingga data yang berada dalam satu cluster memiliki tingkat variasi yang kecil. Agusta [6]. langkah-langkah dari metode KMeans adalah sebagai berikut : 1. Tentukan nilai k sebagai jumlah cluster yang ingin dibentuk. 2. Tentukan k centroid (titik pusat cluster) awal secara acak. 3. Hitung jarak setiap data ke masingmasing centroid menggunakan rumus korelasi antar dua objek ( Euclidean Distance ).
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015
Keterangan: D(i,j) = Jarak data i ke pusat cluster j Xki = Data ke i pada data atribut ke k Xkj = Data ke j pada data atribut ke k 4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya. 5. Tentukan posisi centroid baru ( Ck ) dengan cara menghitung nilai ratarata dari data yang ada pada centroid yang sama. ….............................. (2) Keterangan: nk = jumlah dokumen dalam cluster k di = dokumen dalam cluster k 6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama. 2.3
31
Selain SSW, juga terdapat metrik separasi antara dua cluster (misalnya cluster i dan j). Metrik tersebut dikenal dengan Sum of Square Between cluster (SSB). Adapaun persamaan untuk menghitung SSB antara cluster i dan j adalah sebagai berikut: .......................................(4) Keterangan: yi = nilai centroid cluster i, yj = nilai centroid cluster j. Kemudian didefinisikan juga Ri,j sebagai rasio perbandingan antara cluster ke-i dan cluster ke-j. Nilainya didapatkan dari komponen kohesi dan separasi. Cluster yang baik akan memiliki kohesi yang kecil dan separasi yang besar. Ri,j dapat dihitung dengan Persamaan(2.5) berikut: Ri,j= ...........................................(5) Untuk nilai DBI didapatkan dari Persamaan (6) berikut: .........................(6) Keterangan: K = banyaknya cluster yang digunakan.
Validasi Cluster
Davies-Bouldin Index (DBI) merupakan salah satu untuk mengukur validitas cluster pada pengelompokkan berbasis partisi yang didasarkan pada nilai kohesi dan separasi Prasetyo [7]. Untuk menghitung DBI, terdapat beberapa elemen, yakni yakni Sum of Square Within cluster, Sum of Square Between cluster, dan rasio. Sum of Square Within cluster (SSW) merupakan metrik kohesi dalam sebuah cluster ke-i. Persamaan untuk menghitung SSW adalah sebagai berikut: ……...................(3) Keterangan: ni = jumlah data yang berada pada cluster ke-i yi = centroid cluster ke-i d( )= jarak dengan perhitungan Euclidean Distance.
Perhitungan DBI dilakukan terhadap beberapa nilai k yang diujikan. Nilai DBI yang terkecil menunjukkan bahwa K dengan nilai DBI tersebut merupakan jumlah k yang paling cocok untuk proses clustering data menggunakan algoritma K-Means.
2.4
Visualisasi
Visualisasi adalah semacam narasi yang memberikan jawaban yang jelas untuk pertanyaan menggunakan penjelasan yang sederhana Fry [8]. Teknik visualisasi adalah konversi data ke dalam format visual atau tabel sehingga karakteristik dari data dan relasi di antara item data atau atribut dapat dianalisis dan dilaporkan. Teknik visualisasi data digunakan pada aplikasi ini adalah:
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
yang
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015 1.
Bar Chart Bar Chart atau diagram batang adalah jenis grafik yang digunakan untuk menampilkan dan membandingkan jumlah, frekuensi atau melihat perubahan antar waktu untuk kategori data yang berbeda. 2. Pie Chart Pie Chart atau diagram lingkaran dapat digunakan untuk menunjukkan perbandingan (rasio) nilai data tertentu terhadap semua data. Diagram lingkaran adalah bentuk penyajian data statistika dalam bentuk lingkaran yang dibagi menjadi beberapa juring (luas daerah) lingkaran. 3. Tag Cloud Tag cloud atau word cloud adalah teknik visualisasi statistik yang berupa penanda berbentuk kata yang mewakili data yang telah digenerate. Dalam tag cloud, besaran nilai dari suatu tag ditunjukkan dengan perbedaan ukuran font atau warna pada label kata.
3. Metodologi Penelitian 3.1
32
masuk kedalam kategori kata yang telah ditentukan (feature selection), data ini akan ditransformasikan kedalam distribusi tabel. Data hasil transformasi ini yang akan diolah dalam penemuan pattern discovery menggunakan algoritma K-Means clustering. Sehingga menghasilkan kelompok topik judul PA yang siap untuk divisualisasikan.
Gambar 1. Tahapan Umum Proses Visualisasi Topik Judul PA
3.2Analisis Pembentukan Kategori Kata Setiap kata yang telah melewati proses preprocessing akan di analisa dengan cara memilah kata-kata yang memiliki kemiripan makna, kemudian mengelompokkan kata tersebut menjadi beberapa kelompok. Dari 417 data PA yang telah melalui proses preprocessing terbentuklah 19 kelompok kategori kata. Berikut merupakan cuplikan data hasil pembentukan kategori kata:
Analisis Tahapan Umum VisualisasiPengembangan Judul PA di PCR
Tahapan visualisasi pengembangan judul PA diawali dengan melakukan import terhadap sumber data yang berupa file data PA yang berekstensi .xls yang didapatkan dari perpustakaan Politeknik Caltex Riau kedalam database. Kemudian dilanjutkan dengan tahapan text mining yang terdiri dari beberapa proses preprocessing yaitu case folding, tokenizing, filtering, dan stemming. Tahapan case folding dilakukan untuk mengubah semua huruf pada judul PA menjadi huruf kecil (lower case). Sedangkan tahapan tokenizing bertujuan untuk mengekstraksi kalimat pada judul menjadi kumpulan kata. Selanjutnya tahapan filtering dan stemming dilakukan untuk mereduksi dimensi kata yang dengan mengubah kata menjadi kata dasar (root). Hasil penerapan preprocessing tersebut dianalisis untuk mendapatkan kategori kata. Kemudian Setiap kata pada judul akan
Gambar 2 Cuplikan Data Hasil Pembentukan Kategori Kata
3.3 Usecase Diagram Use case diagram merupakan perancangan yang menjelaskan aktor-aktor yang berperan dalam aplikasi dan kegiatan apa saja yang bisa dilakukannya. Berikut ini merupakan Use case diagram dari aplikasi yang akan dibangun:
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015
33
aplikasi yang dibuat. K dengan nilai DBI terkecil merupakan jumlah cluster yang tepat digunakan pada aplikasi ini. Percobaan dilakukan sebanyak 4 kali dengan menggunakan sembarang nilai k dan didapatlah hasil sebagai berikut:
Tabel 2 Hasil Pengujian DBI
4.3 Gambar 3 Use Case Diagram Aplikasi
4. Hasil dan Pembasan 4.1
Tampilan hasil visualisasi Data Nilai K yang didapat melalui perhitungan DBI kemudian digunakan dalam perhitungan K-Means aplikasi ini. Berikut adalah tampilan visualisasi data yang didapatkan setelah melalui perhitungan kmeans clustering.
Pengujian Hasil Stemming Proses Text Preprocessing
Pengujian ini dilakukan untuk melihat apakah proses stemming yang diterapkan pada sistem berjalan dengan benar. Proses stemming yang digunakan adalah Porter Stemmer untuk Bahasa Indonesia. Tabel 1 Cuplikan Hasil Pengujian Stemming Gambar 4 Visualisasi Bar Chart
Gambar 5 Visualisasi Pie Chart
4.2
Pengujian nilai K dengan daviesbouldin index(DBI) Data yang di uji merupakan data hasil pengolahan k-means judul PA, menggunakan sembarang nilai K pada Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015
34
dapat dianalisa oleh pengguna sehingga pengguna dapat menentukan judul atau kategori judul seperti apa yang dapat dikembangkan lebih lanjut. 5. 5.1 Gambar 6 Visualisasi Tag Cloud
4.4
Pembahasan
Dari pengujian hasil stemming pada proses text preprocessing judul PA dapat disimpulkan bahwa algoritma porter stemmer pada bahasa Indonesia sesuai untuk digunakan dalam proses pencarian kata dasar untuk digunakan pada aplikasi ini. Dari 38 rule yang terdapat pada algoritma porter stemmer pada bahasa indonesia. Terdapat 33 rule yang berhasil diujikan dalam melakukan stemming terhadap data judul proyek akhir dan terdapat 5 rule yang tidak dapat diuji pada sistem ini. Hal tersebut disebabkan karena terdapat beberapa aturan stemming yang tidak memenuhi antara rule yang ada pada porter stemmer dengan data judul proyek akhir yang digunakan pada sistem ini. Kata-kata yang terdapat pada judul PA umumnya menggunakan kata baku sehingga hanya sedikit kata yang memiliki imbuhan pada setiap judul PA. Hasil pengujian DBI pada tabel 2 menunjukkan dengan jumlah data judul yang diolah sebanyak 417 dan dilakukan 4 kali percobaan, didapatkan hasil k=8 dengan nilai DBI 1,4608 merupakan nilai K terbaik untuk diimplementasikan dalam aplikasi ini. Penamaan kelompok hasil clustering dilakukan berdasarkan data label kategori kelompok topik yang paling dominan pada setiap cluster. Dari visualisasi data yang ditampilkan aplikasi ini menunjukkan bahwa aplikasi yang dirancang telah berhasil mengimplementasikan metode text mining dan algoritma k-means clustering dengan baik dan benar. Informasi dari visualisasi data yang disajikan tersebut
Kesimpulan dan Saran Kesimpulan
Dari hasil penelitian ini dapat disimpulkan bahwa: 1. Penerapan metode Text Mining menggunakan algoritma K-Means Clustering berhasil diterapkan pada sistem ini. Hal ini dibuktikan dengan kesesuaian judul proyek akhir terhadap topik yang ada. 2. Pengujian stemming menggunakan aturan porter stemmer pada judul proyek akhir berhasil dilakukan. Hal ini dibuktikan dengan persentase akurasi sebesar 86.84%. 3. Pencarian nilai K terbaik menggunakan perhitungan daviesbouldin Index dengan melakukan 4 kali percobaan terhadap 417 judul PA, menghasilkan k=8 dengan nilai DBI terkecil yaitu 1,4608 merupakan jumlah cluster yang paling sesuai untuk digunakan pada sistem ini. 4. Visualisasi menggunakan bar chart dan pie chart dapat memberikan informasi tentang kelompok cluster judul PA yang menjadi tren pada tahun tertentu dan mengetahui sebaran data pada setiap kelompok cluster. 5. Visualisasi menggunakan tag cloud dapat memberikan informasi tentang kelompok kata yang paling sering digunakan dalam pembuatan judul proyek akhir.
5.2
Saran Adapun saran yang dapat diberikan
adalah:
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.
Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun 2015 1. Sistem ini dapat dikembangkan dengan membandingkan beberapa algoritma untuk menentukan algoritma terbaik yang akan diimplementasikan pada sistem. Sehingga hasil penentuan kategori kata akan lebih akurat.
[7]
[8] 2. Sistem ini dapat dikembangkan dengan menambahkan fitur sistem pengambilan keputusan untuk menentukan kelompok cluster mana yang dapat dikembangkan dalam penelitian lebih lanjut, sehingga pengguna tidak perlu lagi menganalisa sendiri data hasil visualisasi tersebut
35 Algoritma K-means. Surabaya: Politeknik Elektronika Negri Surabaya Prasetyo, Eko (2014). Data Mining Mengolah Data Menjadi Informasi Menggunakan Matlab, Yogyakarta: Penerbit Andi Fry, Ben. (2008). Visualizing Data. USA: O.Reilly Media.
Daftar Pustaka [1]
Gupta, N. (2011). Text Mining for Information Retreival. Ph.D. thesis, Jaypee Institute of Information Technology University, India. [2] Gupta, V., Lehal, G.S. (2009). A Survey of Text Mining Techniques and Application. Journal of Emerging Technologies in Web Intelligence. [3] Budhi, Gregorius S., Gunawan, Ibnu., & Yuwono, Ferry. (2006). Algortima Porter Stemmer For Bahasa Indonesia Untuk PreProcessing Text Mining Berbasis Metode Market Basket Analysis. PAKAR Jurnal Teknologi Informasi Dan Bisnis 7 (3). [4] Bagya, Aldian., Hasan, Adi C., dan Sentosa, Surya. (2010). Perancangan Aplikai Visualisasi Data Untuk Implementasi Open Source. Tugas Akhir Program Sarjana S1 Universitas Bina Nusantara. Jakarta [5]
[6]
Agusta, Y. (2007). K-Means Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika (3). Kunaifi, Aang (2009). Klasifikasi Email Berbahasa Indonesia Menggunakan Text Mining Dan
Visualisasi Pengembangan Judul Proyek Akhir Di Politeknik Caltex Riau Arif Rahmat Saputra, Indah Lestari Dan Muhammad Ihsan Zul.