perpustakaan.uns.ac.id
digilib.uns.ac.id
CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELFORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Vera Suryaningsih
Sari Widya Sihwi
Meiyanto Eko Sulistyo
Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta
Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta
Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta
[email protected]
[email protected]
[email protected]
ABSTRAK Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi. Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma Self-Organizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TFIDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja.
Kata kunci : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-Organizing Map
1.
PENDAHULUAN
Fakultas Pertanian Universitas Sebelas Maret (UNS) telah menghasilkan banyak penelitian, khususnya penelitian berupa skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan dalam bentuk dokumen pdf maupun database. Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas. Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen - dokumen skripsi yang adacommit di UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan
ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan mining terhadap kumpulan dokumen skripsi tersebut. Text mining merupakan variasi dari data mining dimana data yang diolah berupa teks. Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya text mining didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut, akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya. Salah satu bentuk dari text mining adalah clustering. Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Oleh karena itu, clustering dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa cluster. Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan yang tinggi, begitu pula sebaliknya. Ada beberapa algoritma dalam clustering, salah satunya adalah algoritma Self-Organizing Map. Self-Organizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode pembelajaran pada SOM adalah unsupervised learning, dimana tidak ada target kelas yang ditetapkan untuk setiap inputan. Penelitian terkait dengan clustering dokumen maupun clustering dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen dan kawan-kawan [3] yang membandingkan algoritma SOM dengan algoritma K-Means dalam kasus clustering dokumen. Pada penelitian tersebut teridentifikasi bahwa secara keseluruhan kinerja algoritma SOM lebih bagus dari pada algoritma K-Means untuk kasus clustering dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan f-meansure yang stabil selama dua puluh kali percobaan. Sedangkan K-Means tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada K-Means juga berbeda setiap kali to user percobaan. dilakukan Ambarwati serta Edi Winarko [9] juga pernah melakukan penelitian dengan judul “Pengelompokan Berita Indonesia 1
perpustakaan.uns.ac.id Berdasarkan Histogram Kata Menggunakan Self-Organizing Map”. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses clustering memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi. Berdasarkan penelitian-penelitian tersebut, penulis akan mencoba menerapkan metode text mining menggunakan algoritma SOM untuk clustering dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses clustering. Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan bahan evaluasi bagi pihak fakultas Pertanian UNS.
2. DASAR TEORI 2.1 Text Mining Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Permasalahan yang dihadapi pada saat melakukan proses text mining adalah jumlah data yang besar, dimensi yang tinggi, dan terdapat banyak term yang tidak penting [5]. Pada text mining, data yang digunakan umumnya unstructure data, atau minimal semistructure data [9]. Hal ini menyebabkan struktur teks yang tidak jelas, serta bahasa yang berbeda. Oleh karena itu perlu dilakukan tahap text preprocessing untuk mempersiapkan teks menjadi data yang dapat diolah lebih lanjut.
2.2 Text Preprocessing Text Preprocessing adalah tahap mengubah suatu dokumen ke dalam format yang sesuai agar dapat diproses oleh algoritma clustering [4]. Berikut ini tahapan pada text preprocessing [5]: 1. Case Floding, merupakan proses mengubah semua huruf yang ada pada dokumen menjadi huruf kecil. Serta menghilangkan karakter selain huruf „a‟ sampai „z‟. 2. Tokenizing, merupakan tahap penguraian string teks menjadi term atau kata. 3. Filtering, merupakan tahap pengambilan kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). 4. Stemming, merupakan tahap pengubahan suatu kata menjadi akar katanya dengan menghilangkan imbuhan awalan atau akhiran dari tiap kata hasil filtering.
digilib.uns.ac.id pentingnya suatu term [6]. Perhitungan TF-IDF adalah perkalian antara TF dan IDF. Berikut ini merupaka rumus dari TF- IDF [1] : W (i, j) = tfi,j * (log
...................................(1)
Keterangan : W (i, j) = bobot suatu term i terhadap dokumen j tfij = frekuensi kata i pada dokumen j N = jumlah keseluruhan dokumen DF (i) = jumlah dokumen yang mengandung term i
2.4 DF Feature Selection Feature selection merupakan langkah memilih beberapa fitur (misalnya kata-kata atau istilah) yang akan digunakan ketika melakukan klasifikasi maupun clustering [10] . Fitur yang terpilih dapat digunakan untuk mewakili semua fitur yang ada pada dokumen. Permasalahan mendasar pada clustering maupun klasifikasi dokumen adalah tingginya dimensi data, sehingga perlu dilakukan feature selection untuk mengurangi dimensi tersebut [5]. Salah satu metode pada feature selection yang banyak digunakan adalah DF (Document Frequency) [10] DF (Document Frequency) adalah jumlah dokumen yang mengandung suatu term tertentu [10]. Jika nilai DF berada diatas atau dibawah nilai threshold yang telah ditentukan, maka term tersebut akan dibuang [5]. Asumsi bahwa term yang muncul dalam sedikit dokumen menunjukkan bahwa term tersebut tidak memiliki pengaruh yang besar dalam proses clustering dokumen. Sedangkan jika term t muncul dalam banyak dokumen, maka tingkat kepentingan term tersebut menjadi kecil karena term yang banyak muncul di berbagai dokumen dapat dianggap sebagai term umum (common term). Sebagai contoh term “database” mungkin cenderung kurang penting jika terdapat di banyak dokumen pada kumpulan jurnal yang membahas tentang sistem database.
2.5 Min Max Normalization Normalisasi dapat meningkatkan akurasi dan efisiensi algoritma data mining yang melibatkan pengukuran jarak [6]. Salah satu metode normalisasi data adalah Min Max Normalization. Min Max Normalizatio melakukan transformasi linear pada data asli [6]. Misalkan minA dan maxA adalah nilai minimum dan maksimum dari sebuah atribut, Min Max Normalization memetakan sebuah nilai v dari A menjadi v‟ dalam range nilai minimal dan maksimal yang baru, new_minA dan new_maxA [6]. Berikut ini merupakan rumus Min-max Normalization [6]: v’ =
(new_maxA – new_minA)+new_minA...........(2)
2.3 TF-IDF TF-IDF berasal dari kata Term Frequency (TF) dan Inverse Document Frequency (IDF). Term Frequency (TF) merupakan frekuensi kemunculan term dalam sebuah dokumen [6]. Semakin sering suatu term muncul dalam dokumen tertentu, maka nilai tf-nya akan lebih tinggi dibandingkan term yang commit jarang muncul dalam dokumen tersebut. Sedangkan Inverse Dokumen Frequency (IDF) didefinisikan sebagai tingkat
2.6 Clustering Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. to user Data yang berada dalam satu cluster memiliki nilai kemiripan yang tinggi, sedangkan data yang berada pada cluster lain 2
perpustakaan.uns.ac.id
digilib.uns.ac.id 𝜆 = jumlah iterasi / radius map ................................(6)
memiliki tingkat kemiripan yang rendah dengan data tersebut [2].
Persamaan 3a Bobot baru pada neuron wij (t+1) = wij (t) + Θ(t)L(t) ( xj – wij (t)) ..................(7)
2.7 Self-Organizing Map (SOM) Self-Organizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Pada SOM, suatu lapisan yang berisi neuron-neuron akan menyusun dirinya sendiri berdasarkan input nilai tertentu dalam suatu cluster [2]. Selama proses penyusunan tersebut, cluster yang memiliki jarak paling dekat akan terpilih menjadi pemenang [2]. Neuron yang menjadi pemenang akan memperbaiki nilai bobotnya beserta neruonneuron tetangganya [2]. Arsitektur SOM dapat dilihat pada Gambar.1.
Persamaan 3b Learning rate L(t) = L0
......................................................(8)
Persamaan 3c Distance of BMU Θ (t) =
................................(9)
merupakan jarak antara neuron dengan neuron pemenang yang dapat dicari dengan rumus : = |rc - ri|2 (c,i) = ( rc(x) - ri(x)) 2 + ( rc(y) - ri(y)) 2 ............(10) 2 Jika (c,i) ≤ σ(t) , berarti bahwa neuron i berada pada radius BMU, maka bobot pada neuron tersebut diperbaharui. Untuk menginisialisasi bobot pada setiap cluster,
digunakan rumus midpoint (Demuth and Beale). Berikui ini merupakan rumus midpoint (Demuth and Beale) : Wij =
Penjelasan simbol : t = iterasi saat ini Θ = distance of BMU L = learning rate w = bobot pada setiap node x = vektor inputan n = dimensi data T = jumlah iterasi σ = radius 𝜆 = time constan rc(x) = letak neuron pemenang pada sumbu x ri(x) = letak neuron i pada sumbu x rc(y) = letak neuron pemenang pada sumbu y ri(y) = letak neuron i pada sumbu y MinPi = nilai terkecil pada variabel input ke i
Gambar 1. Arsitektur SOM [8]. 1.
2. 3.
4.
5.
6.
Berikut ini merupakan algoritma dari SOM [7]: Inisialisasi jumlah cluster (width x height), jumlah iterasi, learning rate, radius ketetanggaan, dan bobot pada setiap neuron (random dengan nilai kecil). Memilih salah satu vektor input dan disajikan ke jaringan. Setiap neuron pada jaringan diuji untuk menghitung bobot neuron mana yang paling mirip dengan vektor input. Neuron pemenang sering disebut dengan Best Matching Unit (BMU) (Persamaan 1). Menghitung radius ketetanggan dari BMU. Dimulai dengan nilai yang besar kemudian berkurang setiap kali iterasi (Persamaan 2a, 2b). Setiap neuron yang berada pada radius BMU disesuaikan agar mereka lebih mirip dengan vektor input (Persamaan 3a,3b). Semakin dekat neuron dengan BMU, maka semakin bobot itu diubah (Persamaan 3c). Ulangi langkah 2 unuk N iterasi.
..................................................... (11)
MaxPi = nilai terbesar pada variabel input ke 3.
3. Metodologi Penelitian
Persamaan yang digunakan dalam algoritma adalah sebagai berikut: Persamaan 1 Menghitung BMU DistFromInput2
......................(3)
Persamaan 2a Radius Ketetanggaan σ(t) = σ0
.......................................................(4)
Untuk menentukan σ0 dapat dicari dengan rumus : σ0 = max(width, height) / 2......................................(5) commit
to user
Gambar 3. Metodologi Penelitian
Persamaan 2b Time Constant 3
perpustakaan.uns.ac.id
digilib.uns.ac.id
3.1 Studi Literatur Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnal-jurnal penelitian, serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini.
3.2 Pengumpulan Data Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun pembuatan 2008 sampai 2013. Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS. Data yang akan digunakan untuk masukan pada proses clustering adalah bagian abstrak dokumen yang berbahasa Indonesia saja. Sebelum dilakukan proses clustering, dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap (tidak ada tahun pembuatan, prodi, atau abstrak) akan dihapus. Selanjutnya, data akan disimpan ke dalam database menggunakan MySQL database.
3.3 Penerapan Metode Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil clustering dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan menggunakan bahasa pemrograman PHP. 3.3.1 Tahap Text Preprocessing Tahapan text preprocessing meliputi casse folding, tokenizing, filtering, stemming, serta filtering hasil stemming. Case Folding Input : abstrak dokumen Output : abstrak dengan huruf kecil semua dan hanya ada karakter huruf „a‟ sampai „z‟ Tokenizing Input : hasil case folding Output : kata-kata yang telah terurai
3.3.3
Tahap Clustering Setelah dilakukan pembobotan TF-IDF, tahap selanjutnya yaitu melakukan proses clustering dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TF-IDF digunakan sebagai input-an. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran (learning rate), radius ketetanggan, serta width dan heighnya. Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x j (Wij), dimana i adalah jumlah term yang telah dihilangkan duplikasinya dan j adalah jumlah cluster (perkalian dari widht dan height). Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini adalah masing-masing dokumen akan masuk kedalam cluster tertentu dimana satu dokumen hanya akan masuk ke dalam satu cluster.
3.4 Tahap Analisis Pada tahap ini akan dilakukan analisis terhadap hasil clustering dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya. Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil clustering. Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan hasil clustering setiap prodi pertahunnya.
3.5 Tahap Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara bertanya secara langsung kepada Pembantu Dekan 1 (PD 1) fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas.
Filtering Input : hasil tokenizing Output : kata-kata yang bukan termasuk stoplist Stemming Input : hasil filtering Output : kata dasar menggunakan kamus kata dasar dan algoritma Nazief dan Adriani
4 PEMBAHASAN 4.1 Deskripsi Data
Filtering hasil Stemming Input : hasil stemming Output : kata-kata yang bukan termasuk stoplist
Gambar 4. Proses Text Preprocessing
3.3.2 Tahap Pembobotan TF-IDF Tahap pembobotan TF-IDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan term t dalam sebuah dokumen d pada hasil filtering hasil stemming. Kemudian dicari nilai DF yaitu banyaknya dokumen yang mengandung term t. Lalu dilakukan feature selection pada term tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana hasil DF akan dijadikan sebagai input-an. Barulah didapatkan bobot TF-IDF dengan mengalikan hasil TF dengan IDF. Setelah bobot TF-IDF didapat, kemudian dilakukan normalisasi Min Max.
commit
Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008 sampai 2013. Bagian dokumen yang digunakan dalam melakukan clustering adalah bagian abstrak. Setelah dilakukan to user terhadap 1.385 dokumen yang terkumpul, didapat pemilahan 1.291 dokumen yang siap dilakukan proses selanjutnya.
4
perpustakaan.uns.ac.id
digilib.uns.ac.id
Kemudian data disimpan ke dalam database menggunakan MySQL database.
4.2 Text Preprocessing Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lain-lain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta membuang karakter selain huruf „a‟ sampai „z‟. Setelah melalui proses case folding, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja. Selanjutnya dilakukan proses filtering dengan membuang kata-kata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords. Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief & Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses filtering, tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword. Hal ini disebabkan keterbatasan kamus pada stopword. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh.
Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filtering-stemming. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filtering-stemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat.
4.3 Proses TF-IDF Hasil dari text preprocessing diubah ke dalam bentuk vektor m x n, dimana m adalah jumlah term dan n adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap term/kata tersebut. Proses pembobotan kata/term weigthing berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan term frequency – inverse document frequency (TF-IDF). Tabel 1 merupakan sampel dokumen yang telah melalui proses text preprocessing. D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan seterusnya. Tabel 1. Contoh dokumen untuk perhitungan TF-IDF Dok
Key1
Key 2
Key 3
Key 4
Key 5
D1 D2 D3 D4
tani tani padi tanam
tindak sayur komoditas karet
agroindustri komoditas pokok komoditas
basis sayur produksi kebun
agraris kebun tanam ekspor
Key 6 padi padi hujan
Langkah pertama pada proses pembobotan TF-IDF adalah menghitung nilai TF dengan cara menghitung kemunculan term pada dokumen tertentu. Langkah kedua menghitung nilai Document Frequency-nya (DF) yaitu jumlah dokumen yang mengandung term tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2. Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection Term tani tindak agroindustri basis agraris sayur komoditas padi pokok produksi
commit Gambar 5 Proses text preprocessing
D1 1 1 1 1 1 2 0 1 0 0
D2 1 0 0 0 0 0 1 0 0 0
D3 0 0 0 0 0 0 1 2 1 1
D4 0 0 0 0 0 0 1 0 0 0
DF 2 1 1 1 1 1 3 2 1 1
Lalu term yang sudah dicari nilai DF-nya diseleksi berdasarkan nilai threshold. Jika nilai DF berada di bawah min threshold atau di atas max threshold yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya diberikan min threshold yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3 kolom DF. Berdasarkan hasil seleksi kata dengan feature selection DF,user terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang to dibuang antara lain tindak, agroindustri, basis, agraris, sayur, pokok, produksi, karet, ekspor, dan hujan. Untuk kasus feature 5
perpustakaan.uns.ac.id selection pada dokumen skripsi fakultas Pertanian UNS menggunakan min threshold 6 dan max threshold 300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas 300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya 7.902 kata menjadi 1.413 kata. Pengurangan kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya. Langkah ketiga yaitu perhitungan IDF menggunakan , dimana N adalah jumlah keseluruhan rumus : (log dokumen dan adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan pembobotan adalah perhitungan TF-IDF dengan cara mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TF-IDF. Tabel 3 Hasil perhitungan TF, DF, IDF, dan TF-IDF
Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4 Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization
digilib.uns.ac.id Lampiran Tabel 1 merupakan perkiraan tema pada setiap cluster. Sel yang diberi warna hitam merupakan cluster yang tidak diisi oleh dokumen. Berdasarkan Lampiran Tabel 1 terlihat bahwa terdapat beberapa cluster yang memiliki kecenderungan tema umum yang sama. Selain itu, cluster yang memiliki kecenderungan tema umum yang sama adalah cluster yang berada saling berdekatan. Hal ini disebabkan karena pada algoritma SOM, bobot yang diperbaharui adalah neuron pemenang serta neuron yang terletak didekat neuron pemenang. Oleh karena itu, cluster yang saling berdekatan memiliki kecenderungan tema yang mirip. Sebagai contoh pada tema pupuk, berada pada cluster 1, 2, 10, 11, 12, dan 19 yang letaknya saling berdekatan. Selain itu, terlihat bahwa letak cluster C3 berada didekat cluster C2, C11, serta C12 dimana pada cluster tersebut terdapat beberapa dokumen yang juga membahas mengenai pupuk. Disamping itu, ada juga beberapa cluster yang memiliki tema kurang sama antara satu dokumen dengan dokumen lain, seperti pada cluster C14, C23, C34, C42, C43, C44, C51, C53 dan C60. Hal ini dimungkinkan karena bagian dokumen yang diolah hanya bagian abstrak saja, sehingga kurang dapat merepresentasikan isi keseluruhan dokumen. Analisis kedua yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering antar prodi. Tabel 6 merupakan distribusi frekuensi cluster pada tiap prodi. Pada baris pertama A adalah prodi Agribisnis, B adalah prodi Agroteknologi, C adalah prodi Ilmu dan Teknologi Pangan (ITP), dan D adalah prodi Peternakan. Tabel 6 Distribusi Frekuensi Cluster per Prodi
4.4 Proses Clustering Setelah dilakukan pembobotan TF-IDF terhadap term, tahap selanjutnya yaitu melakukan proses clustering. Langkah pertama yaitu menentukan jumlah iterasi, learning rate, radius ketetanggan, width dan height (cluster = width x height). Pada penelitian ini ditetapkan jumlah iterasi sebesar 1000, learningrate 0.1, serta width dan heigh 9x9. Pemilihan jumlah cluster, learningrate serta width dan height sudah melalui beberapa kali percobaan. Kemudian sistem secara otomatis akan membuat bobot secara dengan algoritma Midpoint dengan dimensi m x n, dimana m adalah jumlah cluster dan n adalah jumlah term. Setelah itu dilakukan proses clustering SOM dengan cara seperti pada dasar teori.
4.5 Analisis Hasil Clustering Setelah dilakukan clustering, dokumen yang memiliki banyak kemiripan keyword akan mengelompok menjadi satu. Setelah itu, dilakukan analisis perkiraan tema pada setiap cluster.Gambar 4.11 merupakan contoh tampilan hasil pada cluster C1 yang berisi cluster, id dokumen, judul, prodi, tahun, serta 10 top keyword. Pada cluster C1, kebanyakan dokumen membahas mengenai pupuk yang berfokus pada pengaruh pupuk terhadap ketersediaan maupun serapan suatu unsur. Hasil commit perkiraan tema dapat dilihat pada Lampiran Tabel 1.
CLUSTER C1 C2 C3 C4 C5 C7 C9 C10 C11 C12 C13 C14 C15 C17 C18 C19 C20 C21 C22 C23 C24 C25 C26 C27 C29 C30 C31 C32 C33 C34 C35 C36 C37 C38 C39 C40 C41 C42
to user
A
B 15 15 16 10 23
21 18
-
-
16 20 10 19 2 11 18 10
-
-
16 10 21 7 18 8
6 6 3 1 20 10 26 30 7 3
15 2 24 7
3 10 26 14 18 1 23 3 5 1
1 14 7
C -
D 1 2 1
1 6 4
-
Jumlah 15 15 16 10 23 21 18 16 20 10 19 2 11 18 10 16 16 27 10 19 8 20 10 27 30 7 18 2 27 17 26 14 20 1 25 4 25 12
6
perpustakaan.uns.ac.id
digilib.uns.ac.id
Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan) CLUSTER C43 C44 C45 C46 C47 C48 C49 C50 C51 C52 C53 C54 C55 C56 C57 C58 C59 C60 C61 C62 C63 C64 C65 C66 C67 C68 C69 C70 C71 C72 C73 C74 C75 C76 C77 C78 C79 C80 C81 Jumlah
A 13 30 26 3 2 2
B 35 4 -
1 5 8 20 3 -
-
7 7 7 16 -
3
C 9 1
2 3 5 11 7 -
1
-
1 1 -
18 18 1 3 3 29 507
-
4 7
2 -
1 11 2 12 9 2 3 -
13 19 10
1 10 23
D -
18 3 21 7 2 10 1 10 13 8 15
6 11 11 2 -
18 15 18 16 5 2 1
25 14 397
160
227
Jumlah 57 35 26 4 11 6 17 12 28 21 27 20 21 3 21 7 19 19 22 10 25 10 13 8 15 10 20 11 20 18 18 15 18 16 5 28 18 3 29 1291
prodi. Atau bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Tabel 7 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis CLUSTER C1 C2 C3 C4 C5 C7 C9 C10 C11 C12 C13 C14 C15 C17 C18 C19 C20 C21 C22 C23 C24 C25 C26 C27 C29 C30 C31 C32 C33 C34 C35 C36 C37 C38 C39 C40 C41 C42 C43 C44 C45 C46 C47 C48 C49 C50 C51 C52 C53 C54 C55 C56 C57 C58 C59 C60 C61 C62 C63 C64 C65 C66 C67 C68 C69 C70 C71 C72 C73 C74 C75 C76 C77 C78 C79 C80 C81 Jumlah Rata-rata
‘08
‘09
‘10
‘11
‘12
‘13
3
3
4
8 6
1 4
2 8
1 1
6
3
4 3
2
7 1
2
1
1
2 3 4 1
2 6 2 3 1 2 1
4 3
2 1
2 1 2 4 5
3 3 1 3 1
1 2 4 1
2 2
1 1
2 1 4 1 4 2 1
8 3 9 5
2 1 5 7
2
1
1 9 7 6
4 7
2 2 1
7
4
3
2 1 2 11 1
1 1 2 5
3
1
2
4 1 2
1 2 2 8
2 7 3
5 8 2 1
3 7 6 1
1 1
1
1
Jumlah 0 0 0 0 0 21 18 0 0 0 0 0 0 18 10 0 6 6 3 1 0 20 10 26 30 7 3 0 3 10 26 14 18 1 23 3 5 1 13 30 26 3 0 2 2 0 1 5 8 20 3 0 0 0 3 0 1 10 23 0 0 0 0 0 2 0 18 18 0 0 0 0 0 1 3 3 29
Berdasarkan Tabel 6, dapat dilihat bahwa ada beberapa 1 cluster yang pernah dilakukan penelitian skripsi oleh beberapa 1 1 1 2 1 1 3 3 maupun semua prodi. Hal ini dimungkinkan tema pada cluster 2 1 7 4 2 4 tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa 1 2 maupun semua prodi. Sebagai contoh pada cluster C20 yang pernah dilakukan penelitian skripsi oleh enam mahasiswa prodi 1 1 1 Agribisnis dan 16 mahasiswa prodi Agroteknologi dengan tema 1 umum mengenai pupuk. Pada prodi Agribisnis membahas 2 2 2 3 1 mengenai analisis faktor produksi luas lahan, benih, pupuk, dan 1 2 10 3 4 3 tenaga kerja, sedangkan pada prodi Agroteknologi membahas mengenai pengaruh pemberian pupuk terhadap tanaman. Dimungkinkan tema pada cluster tersebut berpotensi untuk 1 1 dilakukan kolaborasi antara prodi Agribisnis dan prodi Agroteknologi. Contoh lain yaitu pada cluster C59 dengan tema 2 4 4 1 5 2 1 5 6 3 3 “pemanfaatan ekstrak jahe maupun agribisnis jahe”, dimana semua prodi pernah melakukan penelitian skripsi dengan mengambil tema pada cluster tersebut. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi 1 dengan semua prodi. 1 1 1 1 1 1 Disamping itu, ada juga cluster yang hanya pernah 1 2 6 5 10 5 52 62 107 106 85 95 507 dilakukan penelitian oleh satu prodi tertentu. Sebagai contoh 2 2 4 3 3 3 pada cluster C1 sampai C5 yang sebagian besar membahas mengenai pupuk dan hanya pernah dilakukan penelitian skripsi commit to user Analisis ketiga yaitu analisis mengenai pola yang oleh mahasiswa pada jurursan Agribisnis. Dimungkinkan tema terbentuk pada pemetaan distribusi frekuensi hasil clustering pada cluster tersebut tidak bisa dilakukan kolaborasi antar setiap prodi pertahunnya. Tabel 7 merupakan pemetaan 7
perpustakaan.uns.ac.id
digilib.uns.ac.id
distribusi frekuensi cluster pertahun pada prodi Agribisnis. Bagian tabel yang ditandai dengan warna abu, menunjukkan bahwa pada sel tersebut memiliki jumlah dokumen diatas ratarata. Rata-rata pertahun dapat dilihat pada tabel baris terakhir. Hasil rata-rata berupa bilangan bulat karena menyatakan jumlah dokumen. Pada kasus ini rata-rata dihitung dengan rumus:
Pada Tabel 7, terlihat bahwa sel yang memiliki jumlah dokumen diatas rata-rata menyebar di beberapa cluster di tiap tahunnya. Artinya bahwa tema skripsi yang banyak diambil oleh mahasiswa prodi Agribisnis di tiap tahunnya memang tidak hanya berfokus pada suatu tema tertentu. Tema yang lumayan diminati di tiap tahunnya yaitu pada cluster C29, C35, C39, C44, C45, dan C81 dimana pada cluster tersebut diminati oleh mahasiswa selama empat tahun dengan tahun yang berbeda. Apabila Tabel 7 disinkronkan dengan Lampiran Tabel 1 maka akan terlihat bahwa tema yang ada di jurusan Agribisnis memang beragam. Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi CLUSTER C1 C2 C3 C4 C5 C7 C9 C10 C11 C12 C13 C14 C15 C17 C18 C19 C20 C21 C22 C23 C24 C25 C26 C27 C29 C30 C31 C32 C33 C34 C35 C36 C37 C38 C39 C40 C41 C42 C43 C44 C45 C46 C47 C48 C49 C50 C51 C52 C53 C54 C55 C56 C57
‘08 1 4 3 4
3 2 1 5
‘09 2 2 2 1
1 1 1 4 1 2
6 1
4
2 1 1
1 1 8 2
4 3
‘10 1 4 2 8
‘11 10 1 5 3 3
‘12 3 2 6 1 6
1 3 2 5
8 5 1 5
3 8 1 2 1
‘13 2 1 1 1
3 3 2
4
2 1 2 1 4 2
6 1 3 1 2 1
4 1 11 3 3
4 1 4
3 1 6 1
3
8
4 1
1
1
3 2 13
3 4 9
2
2
6
3
8
1 3 2 1
1 1 2
3 1 2
2 1
1
3
3 1
8
1 2 2 4
3 3
Jumlah 15 15 16 10 23 0 0 16 20 10 19 2 11 0 0 16 10 21 7 18 8 0 0 0 0 0 15 2 24 7 0 0 0 0 1 0 14 7 35 4 0 0 0 0 0 7 7 7 16 0 0 0 0
Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi (Lanjutan) CLUSTER C58 C59 C60 C61 C62 C63 C64 C65 C66 C67 C68 C69 C70 C71 C72 C73 C74 C75 C76 C77 C78 C79 C80 C81 Jumlah Rata-rata
2008
2009
2010
2011
2012
2013
1 1 1
2 3
3
58 3
39 2
2 1
72 3
84 3
91 4
53 3
Jumlah 0 1 0 1 0 1 0 0 0 0 4 7 0 0 0 0 0 0 0 0 0 0 0 0 397
Tabel 8 merupakan representasi hasil clustering pertahun pada prodi Agroteknologi. Bagian tabel yang ditandai dengan warna abu-abu, menunjukkan jumlah dokumen yang berada diatas rata-rata. Nilai rata-rata dihitung seperti pada penjelasan sebelumnya. Berdasarkan Table 8, sel yang memiliki jumlah dokumen diatas rata-rata menyebar di tiap tahunnya. Namun apabila disinkronkan dengan Lampiran Tabel 1 mengenai analisis perkiraan tema, sebagian besar tema yang diambil pada prodi Agroteknologi adalah mengenai pupuk. Hal ini berarti tema yang banyak diambil oleh mahasiswa prodi Agroteknologi di tiap tahunnya adalah kajian mengenai pupuk. Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP CLUSTER C1 C2 C3 C4 C5 C7 C9 C10 C11 C12 C13 C14 C15 C17 C18 C19 C20 C21 C22 C23 C24 C25 C26 C27 C29 C30 C31 C32 C33 C34 C35 C36 C37 C38 C39 C40 C41
‘08
‘09
‘10
‘11
‘12
1
2
1
2
commit to user 1
‘13
Jumlah 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 6
8
perpustakaan.uns.ac.id
digilib.uns.ac.id
Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP CLUSTER C42 C43 C44 C45 C46 C47 C48 C49 C50 C51 C52 C53 C54 C55 C56 C57 C58 C59 C63 C64 C65 C66 C67 C68 C69 C70 C71 C72 C73 C74 C75 C76 C77 C78 C79 C80 C81 Jumlah Rata-rata
‘08 2 3
‘09 1 1 1
‘10 1 5
1
2
2 1 1 2
1
3
4
1 1 1
‘12
1 1 3 1
3
4 5 7
1 3
‘11
‘13
1 1 2
4 1
2
4
2 4 1
2 1
8 6
18 1
15 2
5 4
55 4
1 2
27 2
9 1
18 2
27 3
Jumlah 4 9 1 0 0 0 2 3 5 11 7 0 0 0 0 0 0 13 0 0 0 0 0 6 11 11 2 0 0 0 0 0 0 25 14 0 0 160 2,077922
Tabel 9 merupakan representasi hasil clustering pertahun pada prodi Ilmu dan Teknologi Pangan (ITP). Pada tabel tersebut, cluster yang lumayan diminati tiap tahunnya adalah cluster C78 dengan tema mengenai tepung yang berfokus pada kajian karakteristik fiiskokimia tepung maupun pemanfaatan tepung. Pada Tabel 9 sel yang memiliki jumlah diatas rata-rata memang hanya dibeberapa cluster saja. Hal ini dimungkinkan karena dokumen skripsi yang ada diprodi ITP masih lumayan sedikit dibandingkan dengan prodi lainnya. Tabel 10 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan CLUSTER C1 C2 C3 C4 C5 C7 C9 C10 C11 C12 C13 C14 C15 C17 C18 C19 C26 C27 C29 C30 C31 C32 C33 C34 C20 C21 C22
‘08
‘09
‘10
‘11
‘12
‘13
1
Jumlah 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan (Lanjutan) CLUSTER C23 C24 C25 C35 C36 C37 C38 C39 C40 C41 C42 C43 C44 C45 C46 C47 C48 C49 C50 C51 C52 C53 C54 C55 C56 C57 C58 C59 C60 C61 C62 C63 C64 C65 C66 C67 C68 C69 C70 C71 C72 C73 C74 C75 C76 C77 C78 C79 C80 C81 Jumlah Rata-rata
‘08
‘09
‘10
‘11
‘12
‘13
2 1
2
4 6
3 2 3
1 1
1
1
2
7 2
2 3
1 2 3 1
1
2 1 6
1
10
4
3
5 2 1
3 4 1
6
2
1 2
1
1
4
40 3
30 2
2 1 8 3 4 3
1 1 1 4
2 7 8 4 4
6 4 5 6 1
4 2 1
2 1 2
9 3 3 6
1 1 2
2 1
51 4
31 3
50 4
25 2
Jumlah 0 0 0 0 0 2 0 1 0 0 0 0 0 0 1 11 2 12 0 9 2 3 0 18 3 21 7 2 0 10 0 1 10 13 8 15 0 0 0 0 0 18 15 18 16 5 2 1 0 0 227
Tabel 10 merupakan representasi hasil clustering pertahun pada prodi Peternakan. Berdasarkan tabel tersebut, terlihat bahwa cluster yang memiliki sel dengan jumlah dokumen diatas ratarata di tiap tahunnya terletak dibeberapa cluster. Namun apabila dilihat lagi pada Tabel 4.6 mengenai perkiraan tema, terdapat 13 cluster yang membahas mengenai tema umum ransum dengan berbagai objek maupun perlakuan. Hal ini menunjukkan bahwa tema yang banyak diambil oleh mahasiswa prodi Peternakan di tiap tahunnya adalah mengenai ransum.
4.6 Validasi
commit
Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini dilakukan dengan cara bertanya secara langsung kepada Prof. Dr Samanhudi, SP, Msi selaku Pembantu Dekan 1 fakultas Pertanian UNS. Beliau menyatakan bahwa hasil analisis penelitian ini sesuai dengan kondisi sebenarnya. Untuk tema pada prodi Agribisnis memiliki to user penyebaran tren tema yang bervariasi karena lingkup bidang kajiannya memang cukup luas. Sedangkan pada prodi 9
perpustakaan.uns.ac.id Agroteknologi , prodi ITP serta prodi Peternakan kurang bervariasi karena lingkup bidang kajiannya lebih sempit. Beliau juga menyampaikan bahwa hasil penelitian ini dapat dijadikan sebagai dasar pengembangan penelitian di prodi Agroteknologi, ITP serta Peternakan agar kedepannya dapat lebih bervariasi lagi.
digilib.uns.ac.id
[5]
[6]
5 PENUTUP 5.1 Kesimpulan Berdasarkan hasil penelitian, dapat disimpulkan bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi.. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Prodi Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil tiap tahunnya hanya di bebetapa cluster. Pada prodi Agroteknologi, tema yang paling banyak diambil adalah tentang pupuk. Pada prodi Peternakan banyak mengambil tema mengenai ransum. Sedangkan pada prodi Ilmu dan Teknologi Pangan tema yang banyak diambil adalah mengenai kajian karakteristik atau pemanfaatan tepung, kajian karakteristik fisikokimia dan sensoris.
[7] [8]
[9]
Nasional Teknologi Informasi & Komunikasi Terapan, Isbn 979-26-0255-0 Langgeni, D. P., Baizal, ZK. and Firdaus, A.W. 2010. Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar Nasional Informatika 2010 (semnasIF 2010) ISSN: 19792328. Yogyakarta Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman Guthikonda, S. M. 2005. “Kohonen Self-Organizing Maps”, shyamguth ATgmail.com Wittenberg University Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava Media. Lyonnais, H. 2013.Aplikasi Algoritma Atringmatching pada Analisa Teks (Test Analysis) untuk Decision Support System.
5.2 Saran Pada penelitian ini, terdapat beberapa cluster yang memiliki tema sama, atau terdapat beberapa cluster yang memiliki tema yang tidak terdefinisi (tema kurang sama antara satu dokumen dengan dokumen lain). Hal ini dimungkinkan karena pemilihan jumlah cluster yang kurang optimal. Oleh karena itu, dapat ditambahkan suatu metode yang dapat menentukan jumlah optimal cluster-nya. Atau dimungkinkan karena bagian dokumen yang dilakukan proses clustering hanya pada bagian abstrak saja, dimana abstrak hanya merupakan gambaran kecil dari penelitian.Oleh karena itu untuk penelitian yang akan datang bisa menambahkan bagian dokumen lainnya, seperti BAB I.
6
DAFTAR PUSTAKA
[1] Feldman, R. & Sanger, J. 2007. The Text Mining Handbook. New York: Cambridge University Press. [2] Prasetyo, E. 2012. DATA MINING : Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta : ANDI [3] Chen, Y., Qin, B., Liu, T., Liu, Y., Li, S. 2010. The Comparison of SOM and K-means for Text Clustering. Computer and Information Science. Vol. 3, No. 2 [4] Affandy & Supriyanto, C. 2011. Kombinasi Teknik Chi Square Dan Singular Value Decomposition Untuk commit Reduksi Fitur Pada Pengelompokan Dokumen. Seminar
to user
10
perpustakaan.uns.ac.id
digilib.uns.ac.id
LAMPIRAN Tabel 1 Perkiraan tema pada setiap cluster C1 – C81 (1)
(2)
Pupuk
Pupuk
(10) Pupuk
(19) Pupuk
(11) Pupuk (20) Pupuk, dalam hal analisis faktor produksi maupun pengaruh pupuk terhadap tanaman
28
(29) Analisis usahatani
(37) Analisis pemasaran
(38) analisis sikap atau perilaku konsumen
(46) Sapi
(55) Sapi (64) Pengaruh berbagai perlakuan ransum terhadap performa hewan
(47) Ransum (56) Pengaruh penggunaan pakan suplemen terhadap keseimbangan nitrogen sapi (65) Pengaruh berbagai perlakuan ransum terhadap performa hewan
(73) Ransum
(74) Ransum
(3) Pengaruh media, nutrisi, pupuk pada tanaman
(12) Pupuk
(21) Bawang (30) Analisis keterpaduan pasar (39) analisis sikap atau perilaku konsumen
(4) Pengaruh media, nutrisi, pupuk pada tanaman, tunas (13) Pengaruh berbagai perlakuan terhadap tanaman
(22) pembudidayaan bunga
(31) Tumpangsari (40) analisis sikap atau perilaku konsumen
(5) Konsentrasi IBA, tunas, kalus
6
(14) -
(15) Seresah, nitrifikasi
(23) (32) Identifikasi morfologi tanaman
(66) Ransum
(67) Ransum
(41) Buah (50) Pengaruh pemberian ekstrak dalam berbagai hal (59) Jahe, mengenai pemanfaatan ekstrak jahe maupun agribisnis jahe (68) Temulawak, mengenai Pemanfaatan temulawak
(75) Ransum
(76) Ransum
(77) Ransum
(48) Daging
(49) Telur
(57) Ransum
(58) Pengaruh Suplementasi Betain dalam Ransum
(7) Analisis peran atau strategi komoditi pertanian
(9)
8
Analisis ketahanan pangan rumah tangga
16
(17) Persepsi petani
(18) Analisis kebutuhan rumah tangga
(24) Padi, terutama pada keragaman genotipe dan fenotipe
(25) Sikap petani, formal
(26) Evaluasi petani
(33) Kajian mengenai lahan maupun tanah
(34) -
(35) Penyuluhan petani
(42) -
(43) -
(44) -
(27) Analisis petani dalam adopsi inovasi budidaya tanaman, maupun teknologi pertanian (36) Partisipasi petani maupun masyarakat dalam berbagai kegiatan (45) Analisis kinerja, pengembangan, serta peranan sektor pertanian
(51) -
(52) Sebagian besar membahas mengenai beras
(53) -
(54) Analisis penawaran/ permintaan, analisis komparatif usaha
(60) -
(61) Susu, yoghurt
(69) Ubi, mengenai pemanfaatan dan pengolahan (78) Tepung, kajian karakteristik fiiskokimia tepung, pemanfaatan tepung
(70) Perlakuan terhadap bumbu masak (79) Tempe, mengenai karakteristik fisikokimia serta pengolahan
(62) Analisis kinerja keuangan KUD (71) Analisis Pengendalian Persediaan Bahan Baku (80) Strategi pengembangan industri tempe
(63) Analisis usaha industri (72) Pengembangan agroindustri, analisis Break Even Point (81) Strategi pengembangan agroindustri
commit to user
11