Data Penulis: Dosen STEKOM Iwan Koerniawan, M.Th., M.Si Julitta Dewayani, S.S., M.M. Kustiyono, S.Kom, M.Kom Mokhamad Iklil Mustofa, S.Kom Rusito, S.Kom, M.Kom
Unang Achlison, S.T, M.Kom Sulartopo, S.Pd, M.Kom Zaenal Mustofa, S.Kom
Program Studi Komputerisasi Akuntansi Program Studi Desain Grafis Program Studi Manajemen Informatika Program Studi Sistem Komputer Program Studi Sistem Komputer Program Studi Teknik Elektronika Program Studi Sistem Komputer Program Studi Sistem Komputer
Sistem Informasi Analisis Status Gizi Balita Berbasis Client Server Berdasarkan Standar Baku WHO-NCHS Dwi Anggraeni, Iwan Koerniawan
1–6
Rancangan Bangun Sistem Informasi Penjualan dengan Konsep Business to Consumer pada PT. Cipta Bina Sejati Semarang
Alumnus STEKOM Dwi Anggraeni, S.Kom Siti Jumaroh, S.Kom Siti Maftukhah, S.Kom A.Sulthoni, S.Kom
Siti Jumaroh, Julitta Dewayani
Program Studi Sistem Komputer Program Studi Sistem Komputer Program Studi Sistem Komputer Program Studi Sistem Komputer
7 – 12
Penerapan Aplikasi Sistem Informasi Social Network sebagai Media Komunikasi dan Promosi pada SMP Muhammadiyah Salatiga Kustiyono
13 – 19
Implementasi Squid Proxy untuk Mengontrol Penggunaan Internet di Magistra Utama Semarang Mokhamad Iklil Mustofa
20 – 31
Sistem Pendukung Keputusan Pemilihan Alat Kontrasepsi Berbasis WEB Menggunakan Metode Simple Additive Weighting Siti Maftukhah, Rusito
32 - 41
Sistem Informasi E-Commerce Pemasaran Hasil Pertanian Desa Kluwan Berbasis WEB A.Sulthoni, Unang Achlison
42 – 48
Pengkategorian Topik Skripsi dengan Metode NBC Jurnal E-BISNIS diterbitkan oleh Sekolah Tinggi Elektronika dan Komputer (STEKOM). Jurnal E-BISNIS sebagai sarana komunikasi dan penyebarluasan hasil penelitian, pemikiran serta pengabdian pada masyarakat
Sulartopo
49 - 53
Sistem Informasi Penjualan pada Toko Komputer Maju Jaya Berbasis WEB Zaenal Mustofa
54 - 63
JURNAL ILMIAH EKONOMI DAN BISNIS Penanggung Jawab : Ketua Sekolah Tinggi Elektronika dan Komputer Pemimpin Redaksi : Unang Achlison, S.T, M.Kom Mitra Bestari : Prof. YL Sukestiyarno M.S, Ph.D (Universitas Negeri Semarang) Sekretaris Redaksi : Maya Utami Dewi, S.Kom, M.Kom Dewan Redaksi : Dr. Ir. Agus Wibowo, M.Kom, M.Si, M.M Budi Hartono, S.Kom, M.Kom Iman Saufik Suasana, S.Kom, M.Kom Sulartopo, S.Pd. M.Kom Sumaryanto, S.Kom, M.Kom Desain Grafis : Mars Caroline Wibowo, S.T, M.Mm.Tech Setyo Adi Nugroho, S.E, M.Kom Alamat Redaksi : Lembaga Penelitian dan Pengabdian Masyarakat Sekolah Tinggi Elektronika dan Komputer Jl. Majapahit No. 605 Semarang Telp. 024-6723456 E-mail :
[email protected]
KATA PENGANTAR Puji syukur ke hadirat Tuhan Yang Maha Esa dengan terbitnya Jurnal E-BISNIS (Ekonomi dan Bisnis) Edisi April 2015, Volume 8 Nomor 1 Tahun 2015 dengan artikelartikel yang selalu mengikuti perkembangan Ilmu Pengetahuan dan Teknologi dalam bidang Ekonomi dan Komputer Bisnis. Semua artikel yang dimuat pada Jurnal Ekonomi dan Bisnis (E-BISNIS) ini telah ditelaah oleh Dewan Redaksi yang mempunyai kompetensi di bidang Ekonomi dan Komputer Bisnis. Pada edisi ini kami menyajikan beberapa topik menarik tentang penerapan aplikasi Sistem Informasi yaitu: “Sistem Informasi Analisis Status Gizi Balita Berbasis Client Server Berdasarkan Standar Baku WHO-NCHS”, serta “Penerapan Aplikasi Sistem Informasi Social Network sebagai Media Komunikasi dan Promosi pada SMP Muhammadiyah Salatiga” dan “Implementasi Squid Proxy untuk Mengontrol Penggunaan Internet di Magistra Utama Semarang”. Topik selanjutnya adalah makalah tentang penerapan Ekonomi dan Komputer Bisnis dalam aplikasi Sistem Informasi yaitu: “Rancangan Bangun Sistem Informasi Penjualan dengan Konsep Business to Consumer pada PT. Cipta Bina Sejati Semarang”, selanjutnya “Sistem Informasi E-Commerce Pemasaran Hasil Pertanian Desa Kluwan Berbasis WEB” dan “Sistem Informasi Penjualan pada Toko Komputer Maju Jaya Berbasis WEB”. Topik penutup kami menyajikan makalah tentang penerapan Ekonomi dan Komputer Bisnis dalam aplikasi Sistem Pendukung Keputusan yaitu: “Sistem Pendukung Keputusan Pemilihan Alat Kontrasepsi Berbasis WEB Menggunakan Metode Simple Additive Weighting”, serta “Pengkategorian Topik Skripsi dengan Metode NBC”. Terima kasih yang mendalam disampaikan kepada penulis makalah yang telah berkontribusi pada penerbitan Jurnal E-BISNIS edisi kali ini. Dengan rendah hati dan segala hormat, mengundang Dosen dan rekan sejawat peneliti dalam bidang Ekonomi dan Komputer Bisnis untuk mengirimkan naskah, review, gagasan dan opini untuk disajikan pada Jurnal Ekonomi dan Bisnis (E-BISNIS) ini. Sebagai akhir kata, saran dan kritik terhadap Jurnal Ekonomi dan Bisnis (E-BISNIS) yang membangun sangat diharapkan. Selamat membaca.
Semarang, April 2015
Pemimpin Redaksi
i
Vol.8 No.1 April 2015
JURNAL ILMIAH EKONOMI DAN BISNIS
DAFTAR ISI
Kata Pengantar ....................................................................................................................... i Daftar Isi .............................................................................................................................. ii 1. Sistem Informasi Analisis Status Gizi Balita Berbasis Client Server Berdasarkan Standar Baku WHO-NCHS (Dwi Anggraeni, Iwan Koerniawan) ................................. 1 2. Rancangan Bangun Sistem Informasi Penjualan dengan Konsep Business to Consumer pada PT. Cipta Bina Sejati Semarang (Siti Jumaroh, Julitta Dewayani) ........................ 7 3. Penerapan Aplikasi Sistem Informasi Social Network sebagai Media Komunikasi dan Promosi pada SMP Muhammadiyah Salatiga (Kustiyono) ........................................... 13 4. Implementasi Squid Proxy untuk Mengontrol Penggunaan Internet di Magistra Utama Semarang (Mokhamad Iklil Mustofa) ........................................................................... 20 5. Sistem Pendukung Keputusan Pemilihan Alat Kontrasepsi Berbasis WEB Menggunakan Metode Simple Additive Weighting (Siti Maftukhah, Rusito) ............... 32 6. Sistem Informasi E-Commerce Pemasaran Hasil Pertanian Desa Kluwan Berbasis WEB (A.Sulthoni, Unang Achlison) ....................................................................................... 42 7. Pengkategorian Topik Skripsi dengan Metode NBC (Sulartopo) ................................ 49 8. Sistem Informasi Penjualan pada Toko Komputer Maju Jaya Berbasis WEB (Zaenal Mustofa) ........................................................................................................... 54
ii
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC (Sulartopo)
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC SULARTOPO Sekolah Tinggi Elektronika dan Komputer Jl. Majapahit 605 & 304 Semarang Indonesia E-mail :
[email protected]
Abstract This study was conducted to clarify how to manage categorization thesis to facilitate the search of information in the form of topics that describe the subject in general. In this regard, an important issue that can be raised is how to shape the management of the manual categorization thesis automated way using a categorization system. The purpose of this research is to design a thesis topic categorization system using Naive Bayes classifier (NBC). In this study, the system has a two-stage process, the first phase of training that the categorization of the thesis is already known category, and the second phase of testing that thesis categorization of unknown category. Results of the thesis topic categorization system after testing showed that the process of testing the thesis-thesis which has not been categorized will get the appropriate category. Keywords: Naïve Bayes Classifier (NBC), text mining, categorization thesis topic
Intisari Penelitian ini dilakukan untuk memperjelas cara mengelola pengkategorian skripsi untuk mempermudah pencarian informasi berupa topik yang menggambarkan pokok pembahasan secara umum. Berkaitan dengan hal tersebut, isu penting yang dapat dimunculkan adalah bagaimana bentuk pengelolaan pengkategorian skripsi cara manual menjadi otomatis dengan menggunakan sistem pengkategorian. Tujuan penelitian ini adalah merancang sistem pengkategorian topik skripsi dengan menggunakan metode Naive Bayes Classifier (NBC). Dalam penelitian ini sistem mempunyai dua tahapan proses, pertama tahap training yaitu pengkategorian terhadap skripsi yang sudah diketahui kategorinya, dan kedua tahap testing yaitu kategorisasi skripsi yang belum diketahui kategorinya. Hasil dari sistem pengkategorian topik skripsi menunjukkan bahwa setelah dilakukan pengujian proses testing maka skripsi-skripsi yang belum berkategori akan mendapatkan kategori yang sesuai. Kata Kunci : Naïve Bayes Classifier (NBC), text mining, pengkategorian topik skripsi. .
ini masih dilakukan secara manual, artinya dalam mengkategorikan skripsi sesuai topik petugas harus terlebih dahulu mengetahui isi dari skripsi yang akan dikategorikan secara kesuluruhan, untuk selanjutnya dimasukkan ke dalam kategori yang tepat. Hal ini sangat merepotkan bagi para petugas apabila jumlah skripsi yang ingin dikategorikan berjumlah banyak. Sehingga perlu adanya sistem yang dapat mengkategorikan skripsi secara otomatis sesuai dengan topik-topik skripsi yang ada sehingga bisa membantu para petugas dalam mengkategorikan skripsi. Oleh karena itu, akan dirancang sistem pengkategorian topik skripsi dengan
A. PENDAHULUAN Kebutuhan mahasiswa terhadap informasi dalam bentuk skripsi (tugas akhir) semakin meningkat, sehingga pengelompokan / pengkategorian skripsi dibutuhkan untuk mempermudah pencarian informasi. lnformasi penting dari skripsi berupa topik yang menggambarkan pokok pembahasan secara umum. Pemberian label topik diharapkan membantu mahasiswa dalam memahami isi skripsi, tanpa harus membaca secara keseluruhan. Dalam kenyataannya, pengkategorian skripsi ke dalam topik-topik tertentu untuk saat
49
Vol. 8 No.1 – EBISNIS, April 2015
a. Text Preprocessing Tahap proses awal terhadap teks untuk mempersiapkan teks menjadi data yang akan diolah lebih lanjut. Sekumpulan karakter yang bersambungan (teks) harus dipecahpecah menjadi unsur yang lebih berarti. Hal ini dapat dilakukan dalam beberapa tingkatan yang berbeda. Suatu dokumen dapat dipecah menjadi bab, sub-bab, paragraf, kalimat, kata dan bahkan suku kata atau fonem. Parsing/tokenizing adalah proses memecah teks menjadi kalimat dan kata/token (Feldman, R. & Sanger, J.,2007). Fitur ini terdiri dari tipe kapitalisasi, keberadaan digit, tanda baca, karakter spesial dan lain sebagainya. Hasil keluaran dari proses tokenizing akan dipergunakan sebagai masukan dalam tahap transformasi teks. b. Text Transformation Tahapan yang dipergunakan untuk mengubah kata-kata ke dalam bentuk dasar, sekaligus untuk mengurangi jumlah kata-kata tersebut. Pendekatan yang dapat dilakukan yaitu dengan stemming dan penghapusan stopwords. Teknik untuk meningkatkan performa, yaitu dengan cara menemukan variasi token dari token pencarian yang dimasukkan. Stemming dapat dilakukan pada saat indexing atau pencarian (Frakes, W. B. & Baeza, R., 1992). Keuntungan stemming saat indexing adalah efisiensi dan kompresi file. Stoplist berisi kumpulan kata yang 'tidak relevan', tetapi seringkali muncul dalam sebuah dokumen. Dengan kata lain, stoplist berisi sekumpulan stopwords (Han, J. & Kamber, M.,2001). Stopwords removal adalah proses menghilangkan kata yang 'tidak relevan' dari sebuah dokumen teks dengan cara membandingkannya dengan stoplist yang ada. c. Feature Selection Walaupun teks sudah melalui tahapan transformasi teks, tetapi tidak semua kata yang tersisa menggambarkan isi dari dokumen. Tahap seleksi fitur (feature selection) bertujuan mengurangi
menggunakan metode Naive Bayes Classifier (NBC). Diharapkan dengan dukungan dari metode tersebut, sistem dapat membantu petugas dalam melakukan pengkategorian skripsi dengan lebih cepat dan efisien. Berikut adalah beberapa batasan masalah dari sistem yang dibuat. Skripsi bersumber dari program studi Desain Grafis pada perpustakaan STEKOM, yang dikategorikan dalam 4 kategori topik skripsi, yaitu : iklan cetak, iklan elektronik, desain web, dan pembelajaran. Bentuk masukan sistem berupa file skripsi berformat doc / pdf. Bentuk keluaran sistem adalah label berupa topik berdasarkan hasil kategori. B. DASAR TEORI 1. Text Mining Menurut Feldman, R. dan Sanger, J., "text mining adalah sebuah proses pengetahuan intensif dimana pengguna berinteraksi dan bekerja dengan sekumpulan dokumen dengan menggunakan beberapa alat analisis" (2007). Text mining mencoba untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari suatu pola menarik. Sumber data berupa sekumpulan dokumen dan pola menarik yang tidak ditemukan dalam bentuk database record, tetapi dalam data teks yang tidak terstruktur. Tahapan proses text mining dibagi menjadi empat tahap utama, seperti pada gambar dibawah ini. Masukan awal dari proses adalah berupa suatu data teks dan akan menghasilkan keluaran berupa pola sebagai hasil tafsiran.
Gambar 1 : Tahapan text mining
50
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC (Sulartopo)
dimensi dari suatu kumpulan teks. Dengan kata lain, menghapus kata-kata yang dianggap tidak penting atau tidak menggambarkan isi dokumen berdasarkan frekuensi kemunculan kata tersebut. d. Pattern Discovery Tahapan penemuan pola adalah tahap terpenting dari keseluruhan proses text mining. Merupakan penemuan pola atau pengetahuan dari keseluruhan teks. e. Information Retrieval Menurut Han, J. dan Kamber, M., information retrieval (IR) adalah pengorganisasian dan penemuan informasi dari sejumlah besar dokumen berbasis teks (2001). Information retrieval merupakan bidang yang berkembang secara paralel dengan sistem basis data selama beberapa tahun. Sistem basis data lebih fokus pada query dan proses transaksional dari struktur data. Sedangkan dalam sistem information retrieval ditemukan dokumen yang tidak terstruktur, pencarian berdasarkan kata kunci dan tingkat kesamaan.
tuple dari kata-kata dalam dokumen, yaitu
, yang frekuensi kemunculannya diasumsikan sebagai variable random dengan distribusi probabilitas Bernoulli (McCallum and Nigam, 1998). Selanjutnya klasifikasi dokumen adalah mencari nilai maksimum dari : (1) 𝑉𝑀𝐴𝑃 = argmax 𝑃 𝑣𝑗 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑣𝑗 ∈𝑉
Teorema Bayes menyatakan tentang probabilitas bersyarat menyatakan : 𝑃 𝐵𝐴 =
𝑃 𝐴𝐵 𝑃 𝐵 𝑃 𝐴
(2)
Dengan menerapkan teorema Bayes persamaan (1) dapat ditulis : 𝑉𝑀𝐴𝑃
(3 )
𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑣𝑗 𝑃 𝑣𝑗 = argmax 𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑣𝑗 ∈𝑉
Karena nilai 𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 untuk semua vj besarnya sama maka nilainya dapat diabaikan, sehingga persamaan (3) menjadi :
2. Metode Naïve Bayes Classifier Metode NBC menempuh dua tahap dalam proses klasifikasi teks, yaitu tahap pelatihan dan tahap klasifikasi. Pada tahap pelatihan dilakukan proses analisis terhadap sampel dokumen berupa pemilihan vocabulary, yaitu kata yang mungkin muncul dalam koleksi dokumen sampel yang sedapat mungkin dapat menjadi representasi dokumen. Selanjutnya adalah penentuan probabilitas prior bagi tiap kategori berdasarkan sampel dokumen. Pada tahap klasifikasi ditentukan nilai kategori dari suatu dokumen berdasarkan term yang muncul dalam dokumen yang diklasifikasi. Lebih kongkritnya jika diasumsikan dimiliki koleksi dokumen D={di |i=1,2,…|D|} = {d1,d2,…,d|D|} dan koleksi kategori V = {vj|j=1,2,…|V|} = {v1,v2,…,v|V|}. Klasifikasi NBC dilakukan dengan cara mencari probabilitas P(V=vj | D=di), yaitu probabilitas category vj jika diketahui dokumen di. Dokumen di dipandang sebagai
𝑉𝑀𝐴𝑃 = argmax 𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑣𝑗 𝑃 𝑣𝑗
(4)
𝑣𝑗 ∈𝑉
Dengan mengasumsikan bahwa setiap kata dalam < 𝑎1 , 𝑎2 , … , 𝑎𝑛 > adalah independent, maka𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑣𝑗 dalam persamaan (4) dapat ditulis sebagai : (5)
𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 𝑣𝑗 =
𝑃 𝑎1 𝑣𝑗 𝑖
Sehingga persamaan (4) dapat ditulis : 𝑉𝑀𝐴𝑃
(6)
= argmax 𝑃 𝑣𝑗 𝑣𝑗 ∈𝑉
𝑃 𝑎1 𝑣𝑗 𝑖
Nilai P(𝑣𝑗 ) ditentukan pada saat pelatihan, yang nilainya didekati dengan :
51
Vol. 8 No.1 – EBISNIS, April 2015
𝑃 𝑣𝑗
𝑑𝑜𝑐𝑗 = 𝑐𝑜𝑛𝑡𝑜ℎ
paling tepat (Feldman, R. & Sanger, J., 2007). Dalam penelitian ini yang menjadi data uji adalah dokumen skripsi. Ada dua tahap pada klasifikasi dokumen. Tahap pertama adalah pelatihan terhadap dokumen yang sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses kategorisasi dokumen yang belum diketahui kategorinya. Dalam algoritma naïve bayes classifier setiap dokumen direpresentasikan dengan pasangan atribut “x1, x2, x3,...xn” dimana x1 adalah kata pertama, x2 adalah kata kedua dan seterusnya. Sedangkan V adalah himpunan kategori skripsi. Pada saat kategorisasi algoritma akan mencari probabilitas tertinggi dari semua kategori dokumen yang diujikan (VMAP).
(7)
dimana 𝑑𝑜𝑐𝑗 adalah banyaknya dokumen yang memiliki kategori j dalam pelatihan, sedangkan 𝑐𝑜𝑛𝑡𝑜ℎ banyaknya dokumen dalam contoh yang digunakan untuk pelatihan. Untuk nilai 𝑃 𝑤𝑘 𝑣𝑗 , yaitu probabilitas kata 𝑤𝑘 dalam kategori j ditentukan dengan : 𝑃 𝑤𝑘 𝑣𝑗 =
(8)
𝑛𝑘 ÷ 1 𝑛 ÷ 𝑣𝑜𝑐𝑎𝑏𝑢𝑙𝑎𝑟𝑦
Dimana nk adalah frekuensi munculnya kata wk dalam dokumen yang ber kategori 𝑣𝑗 , sedangkan nilain adalah banyaknya seluruh kata dalam dokumen berkategori 𝑣𝑗 dan 𝑣𝑜𝑐𝑎𝑏𝑢𝑙𝑎𝑟𝑦 adalah banyaknya kata dalam contoh pelatihan
D. HASIL DAN PEMBAHASAN Dalam penelitian ini sistem mempunyai 2 tahapan proses yaitu tahapan pertama adalah tahap training yaitu tahap pengkategorian terhadap skripsi yang sudah diketahui kategorinya. Judul skripsi yang digunakan untuk proses training dapat dilihat pada gambar di bawah ini (Gambar 2). Pada pengujian tahap testing hal-hal yang dilakukan adalah dengan melakukan kategorisasi skripsi yang belum diketahui kategorinya. Skripsi yang dijadikan pengujian tahap testing berjumlah 20 skripsi untuk masing-masing kategori. Setelah melakukan pengujian proses testing maka skripsi-skripsi yang belum berkategori akan mendapatkan kategori yang sesuai. Skripsiskripsi hasil pengujian proses testing dapat dilihat pada gambar di bawah ini (Gambar 3).
C. DESAIN PENELITIAN
Metode penelitian yang diterapkan dalam penelitian ini adalah sebagai berikut: 1. Pengumpulan Data Data yang digunakan pada penelitian ini berupa database skripsi mahasiswa, data tersebut berjumlah 100 data judul skripsi mahasiswa program studi Desain Grafis dan dibagi menjadi 4 kategori topik skripsi, yaitu : iklan cetak, iklan elektronik, desain web, dan pembelajaran. Dimana masing-masing kategori berjumlah 25 data judul skripsi. Dari 100 data tersebut 80 data dijadikan sebagai data training dan 20 data dijadikan sebagai data testing. 2. Text Mining Text mining merupakan variasi dari data mining yang berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang berjumlah besar (Feldman, R. & Sanger, J., 2007). 3. Algoritma NBC Disini algoritma digunakan untuk mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori yang
52
PENGKATEGORIAN TOPIK SKRIPSI DENGAN METODE NBC (Sulartopo)
DAFTAR PUSTAKA Feldman, R. & Sanger, J. (2007). The Text Mining Handbook. New York: Cambridge UniversityPress. Frakes, W. B. & Baeza, R. (1992). lnformation Retrieval Data Structure and A/gorifhms. NewJersey: Prentice-Hall. Han, J. & Kamber, M. (2001). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann. McCallum, A. and Nigam, K., (1998), A comparison of event models for Naive Bayes text classification, di:http://citeseerx.ist.psu.edu/viewdoc/summary?doi =10.1.1.46.1529
Gambar 2 : Kategori Hasil Training
Gambar 3 : Kategori Hasil Pengujian Testing E. SIMPULAN Hasil dari sistem pengkategorian topik skripsi menunjukkan bahwa setelah dilakukan pengujian proses testing maka skripsi-skripsi yang belum berkategori akan mendapatkan kategori yang sesuai.
53