BAB I PENDAHULUAN
1.1 Latar Belakang Perkembangan teknologi internet bagi organisasi penyedia berita mempunyai dampak positif, yaitu munculnya situs-situs microbloging yang dimanfaatkan secara optimal pada kegiatan jurnalisme.Pemanfaatan Twitter oleh organisasi penyedia berita dalam penyampaian penggalan-penggalan global berita terbarunya melalui media jejaring sosial sepertiTwitter, dirasakan mampu menyebarkan informasi secara cepat kepada khalayak umum dibandingkan melalui media cetak dan website standar yang telah dimilikinya bahkan media elektronik seperti televisi. Keuntungan lain pemanfaatan Twitter bagi organisasi penyedia berita, adalah semakin banyak follower pada akun Twitter yang dimilikinya, maka organisasi ini diyakini akan memainkan peran sentral dalam menyebarkan informasi. Karakteristik utama Twitter sebagai situs microbloging dapat diketahui pada jumlah huruf yang terbatas maksimal 140 karakter pada setiap konten status, mengindikasikan frekuensi penambahan konten pada situs ini tinggi karena mampu dilakukan dalam hitungan detik. Keterbatasan jumlah karakter yang ada, mampu disiasati oleh organisasi penyedia berita dalam menyebarkan informasi terbarunya ke khalayak umum dengan cara memilih kata-kata global terbaiknya sebagai penggalan berita terbaru, bahkan konten berisi tambahan link penunjuk halaman web pemuat berita secara lengkap. Banyaknya jumlah tweet perhari pada akun Twitter milik organisasi penyedia berita, dapat menambah panjang halaman web. Salah satu pemecahan permasalahan ini adalah dengan cara melakukan pengelompokkan terhadap konten tweet yang ada. Kedinamisan konten tweet berita yang disebarkan di Twitter dikaitkan dengan proses pengelompokkan, maka mengharuskan penggunaan sistem pengelompokkan yang tepat, yaitu pengklasteran (Clustering).
1
2
Berdasarkan penelitian yang dilakukan oleh Zamir dan Etzioni (1998), algoritma yang digunakan untuk melakukan pengklastran dokumenweb kali pertama adalah Suffix Tree Clustering (STC),algoritma klasterisasi ini memiliki waktu linear dalam mengelompokkan dokumen hasil pencarian ke dalam bentuk group-group atau klaster berdasarkan kata atau frase yang terdapat di dalam dokumen yang ada. Kemudian OsiĆski dan Weiss (2004), mengembangkan Open Source Framework dengan nama Carrot2. Kesuksesan dan popularitas aplikasi Carrot2 adalah mengorganisir hasil dari pencaraian di internet agar lebih mudah dalam menjelajah dalam bentuk pengelompokkan secara tematik hasil pencarian pada saat menggunakan browser internet, yang dikenal dengan proses klasterisasi. Algoritma yang digunakan dalam proses pengelompokkan ini, diantaranya adalah menggunakan algoritma Suffix Tree Clustering. Selanjutnya, penelitian yang telah dilakukan oleh Arifin dkk. (2008), dengan menggunakan Algoritma Suffix Tree Clustering dalam pengelompokkan berita dalam Bahasa Indonesia, memiliki tingkat precision yang sangat tinggi, yaitu 80%. Hal ini dikarenakan dalam Algoritma ini, menggunkaan phrase sebagai dasar pembentukan cluster. Tetapi, kinerja algoritma STC yang dikembangkan oleh Carrot2 masih memiliki kekurangan. Hasil proses pengklasteran dengan algoritma ini, sering dijumpai hasil pengklasteran dengan dokumen anggota klaster other topics dalam jumlah banyak dibandingkan dengan klaster yang ada. Dengan memperhatikan kata-kata yang membentuk dokumen teks anggota klaster Other Topics, terdapat kemiripan dengan kata-kata teks pada klaster-klaster yang ada.Sehingga memungkinkan dokumen teks anggota klaster Other Topics untuk dipindahkan ke salah satu dari klaster-klaster yang ada berdasarkan kemiripan yang dimiliki oleh dokumen teks tersebut. Mengacu pada konsep yang dibahas oleh Liao (2002), untuk mengatasi permasalahan ini perlu adanya proses klasifikasi dokumen teks Twitter, yang berada di klaster Other Topics. Hal utama yang dilakukan adalah menghitung kemiripan dokumen anggota klaster Other Topics dengan dokumen anggota klaster yang ada, sehingga dokumen tersebut dapat diklasifikasikan ke dalam klaster tertentu. Perhitungan kemiripan antar dokumen dengan fungsi cosine similarity berdasarkan frekuensi term dan frekuensi dokumen yang ada, sesuai dengan konsep algoritma Vector Space
2
3
Model(VSM). Hasil dari perhitungan ini, kemudian digunakan oleh metode Nearest Neighbor untuk menentukan klaster dengan jumlah anggota terbanyak yang memiliki kemiripan. Klaster tersebut merupakan klaster baru bagi dokumen teks anggota Other Topics yang akan dipindahkan. Dengan demikian anggota klaster Other Topics akan berkurang bahkan habis sehingga klaster ini pun dapat dihilangkan.
1.2 Perumusan Masalah Berdasarkan pada uraian latar belakang, maka rumusan masalah pada penelitian ini adalah bagaimana memindahkan dokumen teks anggota klaster Other Topics yang terbentuk oleh algoritma Suffix Tree Clustering (STC) dengan memperhatikan kemiripan dokumen yang ada, menggunakan metode Nearest Neighbor (NN).
1.3 Tujuan Penelitian Tujuan dari penelitian ini adalah 1. Mengelompokkan teks berita yang terdapat pada Twitter. 2. Melakukan proses stemming pada teks Twitter berita berbahasa Indonesia dengan menggunakan algoritma Porter Stemmer. 3. Melakukan pengklasteran konten tweet berita dengan menggunakan algoritma Suffix Tree Clustering (STC) 4. Melakukan pengklasifikasian konten tweet berita yang berada pada klaster Other Topics ke dalam klaster yang terbentuk oleh algoritma STC pada Carrot2 framework, dengan menggunakan metode Nearest Neigbor (NN).
1.4 Batasan Masalah Batasan masalah dalam penelitian ini, antara lain: 1. Dokumen teks berasal dari kumpulan tweet informasi berita yang terdapat pada akun Twitter dalam format data Java Script Object Notation (JSON) 2. Pengambilan teks tweet informasi berita pada Twitter dengan menggunakan pustaka LinqToTwitter 3. Proses clustering dengan menggunakan metode Suffix Tree Clustering (STC) dengan memanfaatkan pustaka milik Carrot2
3
4
4. Proses klasifikasi konten tweet berita yang berada pada klaster Other Topics ke dalam klaster yang terbentuk oleh algoritma STC, dengan menggunakan metode Nearest Neighbor (NN)
1.5 Manfaat Penelitian Manfaat dari penelitian ini adalah 1. Pengelompokkan teks tweet pada Twitter sebagai media penyebar berita, untuk memudahkan pembaca dalam membaca konten teks tweet berita yang saling berkaitan secara tematik. 2. Penggunaan metode Nearest Neighbor pada proses klasifikasi anggota klaster Other Topics hasil algoritma STC, berdasarkan pada kemiripan dokumen. Sehingga dapat megoptimalkan jumlah anggota klaster yang ada.
1.6 Metode Penelitian Metode yang digunakan pada penelitian ini meliputi: 1. Objek penelitian Pengelompokkan teks secara tematik pada status tweet atau retweet berita pada twitter yang didapat dari akun atau dengan kata kunci tertentu, menggunakan algoritma suffix tree clustering (STC) dalam proses klasterisasi, sedangkan klasifikasi
anggota klaster other topics hasil dari algoritma STC agar
terklasifikasi ke klaster lainnya menggunakan algoritma Nearest Neighbor. 2. Data yang diperlukan a. Data primer Praproses mendapatkan inputan data berupa teks yang berasal dari teks tweet dan retweet penggalan berita pada status di Twitter. Proses pengambilan data ini menggunakan pustaka LinqtoTwitter. Data status ini berisi konten teks, waktu penebitan teks, screen name dan image profile pengguna. b. Data sekunder Algoritma Suffix Tree Clustering memproses masukan teks tweet dari Twitter dan menghasilkan nama-nama klaster beserta nama-nama dokumen yang menjadi anggotanya. Salah satu klaster berlabel Other Topics, dengan
4
5
metode Nearest Neighbor anggota klaster ini akan diubah ke klaster yang ada. 3. Teknik pengumpulan data a. Observasi Penelitian ini menitikberatkan pada proses pengubahan status keanggotaan anggota Other Topics yang dihasilkan oleh algoritma Suffix Tree Clustering menggunakan metode Nearest Neighbor. Dokumen teks berita ini berasal dari teks tweet pada Twitter. b. Studi Pustaka Mempelajari hasil penelitian sebelumnya yang melibatkan algoritma Suffix Tree Clustering dan Nearest Neighbor dalam pengelompokkan teks. c. Metode pengembangan sistem 1) Pengambilan dokumen teks tweet atau retweet menggunakan pustaka LinqtoTwitter untuk mendapatkan teks, image profile url, dan waktu serta user screen name. 2) Pra-proses, meliputi penghapusan stopword, tokenizing dan stemming pada Bahasa Indonesia 3) Pembentukan klaster menggunakan pustaka Carrot2 dengan algortima Suffix Tree Clustering (STC). 4) Pengklasifikasian anggota klaster Other Topics hasil dari proses algoritma STC, menggunakan metode Nearest Neighbor (NN) 5) Proses perhitungan kemiripan antar dokumen teks, menggunakan fungsi cosine similarity 6) Visualisasi hasil pengklasteran dan klasifikasi, ditampilkan dalam aplikasi bebasis web dan konsul (console)
1.7 Sistematika Penulisan BAB I
PENDAHULUAN Paparan mengenai hal yang menjadi motivasi utama dalam melakukan penelitian pada Algoritma Suffix Tree Clustering (STC) dan Nearest Neighbor. Penelitian ini bermaksud untuk melakukan proses klasifikasi
5
6
pada dokumen teks hasil proses dari algoritma Suffix Tree Clustering (STC). Ruang lingkup penelitian ini, dibatasi pada pengolahan data teks berita yang diambil dari Twitter berdasarkan pada nama akun atau kata kunci dalam pencarian teks tweet maupun retweet.
BAB II
TINJAUAN PUSTAKA Tinjauan pustaka membahas keterkaitan penelitian-penelitian yang berhubungan dengan proses pengelompokkan hasil pencarian dokumen dan konstribusi yang ada dalam peningkatan kinerja algoritma pengelompokkan dokumen teks. Tinjauan pustaka ini memuat uraian sistematis tentang informasi hasil penelitian yang berkaitan dengan algoritma pengelompokkan dokumen teks yang disajikan dalam pustaka dan menghubungkannya dengan masalah penelitian yang sedang diteliti, yaitu proses pengklasteran pada dokumen teks dengan algoritma Suffix Tree Clustering (STC) dan pengklasifikasian teks dengan metode Nearest Neighbor.
BAB III
LANDASAN TEORI Memuat teori dasar yang diperlukan untuk pembahasan pada tahap analisis, perancangan, implementasi, dan pengujian sistem. Teori dasar yang ada meliputi; teori tentang praproses dokumen teks Bahasa Indonesia, metode pengklasteran dengan algoritma Suffix Tree Clustering (STC) dan metode klasifikasi dengan menggunakan algoritma Nearest Neighbor.
BAB IV
ANALISIS DAN RANCANGAN SISTEM Memaparkan data, alat, kebutuhan sistem, deskripsi, ruang lingkup, pemodelan proses dan data, arsitektur sistem, alur kerja sistem, perancangan antar muka sistem, perancangan algoritma pada modulmodul, dan perancangan basisdata.
6
7
BAB V
IMPLEMENTASI Memuat implementasi arsitektur sistem dan modul-modul, algoritma Suffix Tree Clustering (STC) dan algoritma Nearest Neighbor.
BAB VI
HASIL PENELITIAN DAN PEMBAHASAN Memberikan informasi tentang hasil pengolahan dokumen teks berita pada Twitter. Proses pengolahan dokumen teks meliputi praposes yang terdiri dari proses penghapusan stopword dan stoplist serta proses stemming pada Bahasa Indonesia. Proses pengklasteran dokumen teks dengan menggunakan algoritma Suffix Tree Clustering dan proses klasifikasi dengan menggunakan algoritma Nearest Neighbor. Sedangkan pengujian hasil klasifikasi dilakukan dengan cara mencocokkan hasil klasifikasi yang dihasilkan oleh sistem dengan hasil klasifikasi yang dilakukan secara manual.
BAB VII KESIMPULAN DAN SARAN Memberikan kesimpulan penelitian yang dilakukan oleh peneliti dan memberikan saran untuk mendukung keberlanjutan penelitian di bidang pengelompokkan dokumen teks, yang terdiri dari proses pengklasteran dan klasifikasi hasil pencarian.
7