BIAStatistics (2015) Vol. 9, No. 2, hal. 22-27
PENGGUNAAN PROBABILISTIC LATENT SEMANTIC ANALYSIS (PLSA) PADA PENGELOMPOKAN DATA TEKS 1
Zulhanif, 2Anindya Apriliyanti Pravitasari Departemen Statistika, FMIPA Universitas Padjadjaran 1
[email protected],
[email protected]
1,2
ABSTRAK Probabilistic Latent Semantic Analysis( PLSA ) adalah sebuah algoritma yang diterapkan untuk memperkirakan makna sekumpulan teks menjadi suatu cluster atau kelompok (kategori) tertentu sehingga mempermudah para analis untuk menarik suatu kesimpulan dari pengelompokkan yang terbentuk. Secara umum metode PLSA menggabungkan teori klasik tentang vector space model, Singular Value Decomposition (SVD) serta model variabel latent, yang diformulasikan kedalam suatu bentuk model peluang dengan tujuan untuk mendapatkan suatu kelompok (latent) dari sekumpulan teks (bag of words). Aplikasi PLSA ini dapat diterapkan dalam analisis sentiment pada pasar saham, analisis kemiripan dokumen untuk mendeteksi plagiarism, analisis trending topik pada media sosial, analisis pertanyaan terbuka pada penelitian kualitatif serta aplikasi lain yang melibatkan sejumlah teks. Kata Kunci: LSA, Text Mining, SVD, PLSA
1.
PENDAHULUAN
Latent Semantic Analysis( LSA ) metode yang dipatenkan pada tahun 1988 (US Patent 4,839,853) oleh Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum dan Lynn Streeter. Dalam konteks aplikasinya ke pencarian informasi, metode LSA ini juga disebut sebagai Laten Semantic Indexing (LSI). LSA dapat ditafsirkan sebagai cara yang cepat dan praktis untuk mendapatkan perkiraan perkiraan substitutability kontekstual penggunaan kata-kata dalam segmen teks yang besar yang belum ditentukan makna kesamaan antara kata-kata dan segmen teks yang mungkin mencerminkan suatu hubungan tertentu. Sebagai metode praktis untuk mengkarakterisasi arti dari kata, LSA menghasilkan ukuran hubungan katakata, bagian kata dan bagian-bagian yang berkorelasi dengan beberapa fenomena kognitif manusia yang melibatkan asosiasi atau kesamaan semantik. Konsekuensi praktis dari metode LSA ini, memungkinkan kita untuk sangat mendekati penilaian manusia untuk menilai kesamaan makna antara kata dan secara objektif memprediksi konsekuensi dari keseluruhan kata berdasarkan kesamaan antara bagian-bagian kata serta perkiraan yang kata yang sering muncul. Permasalahan yang timbul dalam penggunaan metode LSA ini adalah adanya faktor polysemi dalam pengelompokkan kata (Hofmann, 2001). Permasalahan polysemi pada kata dapat diatasi dengan mengunakan varian dari LSA yang dikenal sebagai Probabilistic Latent Semantic Analysis (PLSA). Latent class Metode PLSA pada dasarnya merupakan model campuran dari model latent class dengan kata lain model latent class untuk data teks, PLSA sendiri merupakan salah satu model based clustering yang bertujuan untuk membentuk cluster berdasarkan model peluang statistik, berbeda dengan metode cluster yang konvensional metode ini dapat dievaluasi berdasarkan ukuran statistik tertentu. Keutamaan metode PLSA sendiri dapat mereduksi dimensi matriks term yang terbentuk dari sekekumpulan teks yang direpresentasikan dalam sebuah variabel latent, sehingga ukuran dimensi matriks kemunculan term pada metode LSA dapat direduksi (Hofmann, 1999).
22
2.
METODOLOGI
Ukuran similaritas antara dokumen atau sekumpulan teks dihitung berdasarkan frekuensi kemunculan dari suatu konteks/tem, jika jumlah kemunculan term/konteks sama antara dua dokumen atau sekumpulan teks maka dikatakan kedua dolumen/sekumpulan teks tersebut memiliki kesamaan, walaupun pada dasarnya arti dari sebuah konteks dapat diekspresikan dalam bentuk berbeda atau bentuk konteks/term yang sama dapat direpresentasikan dalam arti yang berbeda. Metode analisis untuk sekumpulan teks yang cukup besar seperti pada studi kasus analisis keluhan pelanggan PT Kereta Api Indonesia (Hutomo dan Zulhanif, 2013) menggunakan metode Latent semantic analysis dalam mengidentifikasikan makna dari sekumpulan teksnya. Metode latent semantic analysis (LSA) menggunakan analisis statistik dan teori aljabar linear untuk mencari suatu latent semantic space dalam sekumpulan teks (corpus), disamping itu LSA dapat merepsentasikan suatu dokumen dan term/konteks dalam suatu vector spacel dengan jumlah dimensi yang lebih sedikit, karena dengan jumlah dimensi yang besar pada analisis teks akan menyebabkan kesulitan dalam membuat kategorisasi (cluster) teks (Dumais, 1995), pada prakteknya proses pereduksian dimensi dalam suatu vector space menggunakan prinsip Singular Value Decomposition (SVD) (Dumais, 1998). Metode SVD sendiri merupakan metode pendekomposisian dari suatu matriks, dimana matriks yang didekomposisikan dapat dinyatakan dalam perkalian tiga buah mariks sbb:
X = UV t
(1)
dimana X : matriks yang didekomposisi
U : matriks ortogonal U (matriks vektor singular kiri)
Σ : matriks diagonal Σ (matriks nilai singular)
V t : transpose matriks ortogonal V Sedangkan bentuk kesamaan antara dokumen/konteks dapat diukur dengan menghitung indeks similaritasnya (cosine similarity) dengan rumusan sbb: Similarity Value (SV)= Cos =
AB A B
(2)
dimana
A B A
: vektor dokumen A : veltor dokumen B : panjang vektor dokumen A
B
: panjang vektor dikumen B
Kesamaan atau (similarity) dari suatu dokumen yang mengandung polysemies atau synonymies tidak dapat secara efisien diukur melalui kesamaan kata dan hal ini merupakan hal yang umum yang terjadi pada analisis text dan information retrieval. Salah satu metode untuk mengatasi hal ini dapat menggunakan metode probabilistic latent semantic (PLSA). PLSA sendiri merupakan suatu model statistik dengan nama lainnnya adalah aspect model (Hofmann, Puzicha, & Jordan, 1999). Aspect model sendiri diusulkan oleh Saul and Peveira (1997) dalam konteks pemodelan bahasa, dengan menggunakan model markov. Aspect model merupakan model variabel latent dari data co-occurrence term yang diasosiasikan terhadap unobserved class variabel
Biastatistics Vol 9, No.2, September 2015
23
zk z1 ,..., zk . Pada PLSA P(di ) didefinisikan sebagai peluang suatu term terdapat pada dokumen d i . Sedangkan P(wj | zk ) didefinisikan suatu peluang bersyarat spesifik term w j terhadap suatu class zk dan P( zk | di ) merupakan peluang bersyarat latent variabel z k terhadap dokumen d i . Menggunakan definisi tersebut diatas algortima metode PLSA dibangun berdasarkan skema sbb: 1.
Pilih dokumen d i dengan peluang P(di )
2.
Pilih laten class z k dengan peluang P( zk | di )
3.
Bangkitkan term w j dengan peluang P(w j | zk )
Tujuan dari algoritma di atas adalah untuk mendapatkan distribusi peluang bersama (d i , w j ) yang diformulasikan pada persamaan sbb: K
P(d i , w j ) P(d i ) P( w j | d i ), P( w j | d i ) P( w j | z k ) P( z k | d i )
(3)
k 1
Bentuk persamaman (3) dapat diselesaikan dengan menggunakan EM algorithm untuk mendapatkan sejumlah class (cluster) zk z1 ,..., zk dari sekumpulan term teks yang di analisis. 3.
HASIL DAN PEMBAHASAN
Pada penelitian ini akan dipergunakan survey kinerja dosen pada semester ganjil 2012-2013 yang terdiri atas 613 sampel responden mahasiswa yang menjawab kuesioner evaluasi kinerja dosen Departemen Statistika FMIPA UNPAD. Setelah dilakukan preprocessing data teks, didapat matriks TermDocumentMatrix dengan frekuensi kemunculan terms nya dapat dilihat pada Gambar 1 sbb:
Gambar 1. Pareto Term Kemunculan term-term yang sering muncul juga dapat dilihat dari gambar wordcloud pada Gambar 2 sbb:
24
Biastatistics Vol 9, No.2, September 2015
Gambar 2. Wordcloud Term Proses selanjutnya adalah dengan melakukan mengklasteran teks dari hasil tweet dengan menngunakan metode PLSA. Peneliti menetapkan jumlah klaster awal sebanyak 3. Hasil analisis dengan menggunakan software R didapat bahwa proses pengklasteran dengan metode penaksiran EM konvergen pada iterasi ke-15 dengan nilai log likelihood pada iterasi ke-15 adalah -2351.149 Bentuk visualisasi kluster dari term yang terbentuk dapat digambarkan dalam gambar 3 sbb:
Gambar 3. Cluster dari term Terlihat pada gambar 3. di atas bahwa sekumpulan term terkonsentrasi pada 3 kluster dengan peluang setiap term masuk kedalam kluster digambarkan pada Gambar 4. Sedangkan keanggotaan untuk masing-masing dosen pengampu dalam klsuter dapat digambarkan pada gambar 5.
Biastatistics Vol 9, No.2, September 2015
25
Gambar 4. Peluang Keanggotann Term dalam Kluster
Gambar 5. Keanggotaan Kluster terhadap dosen pengampu Dari gambar 5 di atas dapat simpulkan bahwa mayoritas dosen berada dikluster 3 (78%), kluster 2 (22%) dan kluster 1 (19%). 4.
KESIMPULAN
Metode pengklasteran PLSA mengelompokkan data survei kinerja dosen pada pertanyaan terbuka “Aspek Positif Pengajaran” menghasilkan 3 buah klaster, dengan ukuran kluster terbesar ada pada kelompok kluster 3 sebesar 78%. Metode PLSA yang diimplementasikan pada R masih terbatas dalam hal jumlah dimensi dari term yang terbentuk serta keterbatasan proses steaming term yang memerlukan database kata dasar dalam bahasa Indonesia. Sehingga hal ini menjadi saran bagi peneliti lainnya untuk dapat mengimplementasikan metode ini dalam bahasa Indonesia harus memiliki database kata dasar bahasa Indonesia yang cukup memadai. 5.
DAFTAR PUSTAKA
Anglin, J. M. (1970)
The growth of word meaning.
Cambridge, MA.: MIT Press.
Anglin, J. M., Alexander, T. M., & Johnson, C. J. (1996). Word learning and the growth of potentially knowable vocabulary. Submitted for publication.
26
Biastatistics Vol 9, No.2, September 2015
Dumais, S. T. (1994). Latent semantic indexing (LSI) and TREC-2. In D. Harman (Ed.), The Second Text Retrieval Conference (TREC2) (National Institute of Standards and Technology Special Publication 500-215, pp. 105-116). Dumais, S. T. & Nielsen, J. (1992). Automating the assignment of submitted manuscripts to reviewers. In N. Belkin, P. Ingwesen, & A. M. Pejtersen (Eds.) Proceedings of the Fifteenth Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, Association for Computing Machinery. Hutomo, A. & Zulhanif. 2013. Analisis Keluhan Penumpang PT. Kereta Api Indonesia (Persero) Menggunakan LSA dan Analisis Korespondensi. Univesitas Padjadjaran. Hofmann. T. 1999, Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99). Hofmann, T., Puzicha, J., & Jordan, M. I. (1999). Unsupervised learning from dyadic data. In Advances in Neural Information Processing Systems, Vol. 11, MIT Press Saul, L. & Pereira, F. (1997). Aggregate and mixed & order Markov models for statistical language processing. In Proceedings of the 2nd International Conference on Empirical Methods in Natural Language Processing, pp. 81-89
Biastatistics Vol 9, No.2, September 2015
27