OPEN ACCESS Ind. Symposium on Computing Sept 2016. pp. 197-206
ISSN 2460-3295
doi:10.21108/indosc.2016.141
socj.telkomuniversity.ac.id/indosc
Analisis dan Klasisifikasi Opini pada Review Product Menggunakan Metode Semi-Supervised Annisa Imadi Puti #1, Warih Maharani *2, Moch. Arif Bijaksana #3 1,2,3 Prodi S1 Teknik Informatika, Fakultas Informatika, Universitas Telkom Jl. Telekomunisai No.01, Terusan Buah Batu, Bandung, Jawa Barat, Indonesia
[email protected],
[email protected],
[email protected]
Abstract Product review is an important information for consumers and produsers. For consumers, they use product review as a reference before they make a decision. There are a lot of review product and it makes the important thing in that review can’t be discovered easily in short time. So, to overcome this problem we need a system which can indentify features’ review and classify these to positive polarity or negative polarity automatically. This project will be analyze how to classify a product review. The research starts by analyze feature extraction using type dependency parser, noun phrase parser identification and AER method. The feature extraction will be identify its polarity by semisupervised method. This method build a graph from positive and negative lexicon words and develop their synonym. Keywords: product review, type dependency parser, noun phrase parser, semi-supervised, graph
Abstrak Review produk merupakan informasi penting bagi konsumen dan produsen. Bagi konsumen, review sering dijadikan sebagai referensi dan acuan untuk mengambil keputusan. Jumlah review produk yang banyak membuat isi review tidak dapat disimpulkan dengan cepat dan tepat. Untuk mengatasi masalah tersebut, diperlukan suatu sistem yang secara otomatis dapat mengidentifikasi fitur-fitur dan review dan mengklasifikasikannya ke dalam polaritas positif atau negatif. Penilitian tugas akhir ini dilakukan untuk menganalisis klasifikasi dari review produk. Sebelum memasuki analisis klasifikasi, penelitian dimulai dari proses ekstraksi fitur menggunakan metode type dependency parser, identifikasi noun phrase parser dan AER. Fitur hasil ekstraksi kemudian dilihat polaritas opininya menggunakan metode semi-supervised dengan melakukan pembangunan graph berbasis lexicon berisi kata-kata opini positif-negatif yang dikembangkan sinonimnya. Kata Kunci: review produk, type dependency parser, noun phrase parser, semi-supervised, graph
I.
PENDAHULUAN
Review sebuah produk merupakan informasi penting bagi konsumen dan produsen. Konsumen akan melihat review produk sebagai bahan pertimbangan sebelum memutuskan untuk menggunakan produk tersebut. Sedangkan bagi produsen, review produk menampung feedback dari konsumen dan dapan digunakan sebagai acuan untuk pengembangan produk selanjutnya [1]. Namun, jumlah review produk yang banyak membuat konsumen dan produsen kesulitan mengambil kesimpulan secara cepat dan tepat. Untuk mengatasi hal tersebut dibuatlah sebuah sistem yang akan otomatis mengidentifikasi aspek dan opini dari review produk tersebut. Metode yang digunakan untuk proses mengidentifikasi aspek dan opini diantaranya adalah rules based, POS tagging, sequence labelling, type dependence parser dan lexicon. Metode rules based mempunyai kelemahan pada hasil rules yang diambil. Semua struktur kata yang masuk ke dalam rules akan terambil sehingga akurasi ekstraksi aspek dan opini tidak akan optimal. Pada penelitian tugas akhir ini metode ektraksi
Received on August 2016. Accepted on Sept 2016
Annisa Imadi Puti et.al. Analisis dan Klasisifikasi Opini pada ...
198
yang digunakan adalah type dependency parser dan identifikasi noun phrase. Metode ini dipilih karena dapat mengidentifikasi aspek sekaligus opini yang akan digunakan pada proses klasifikasi. Proses ekstraksi nantinya juga menggunakan fungsi POS tagging untuk mengenali jenis kata yang dihasilkan dari rules pada type dependency parser dan identifikasi noun phrase. POS tagging yang digunakan adalah Standford Part-ofSpeech Tagger dengan level akurasi mencapai 97.3% [2]. Pada proses type dependency parser, parser akan memecah string menjadi contituents atau frase dan dibentuk dependency tree yang berisi head dan dependent. Pasangan head dan dependent dihubungkan melalui simpul yang menyatakan dependent sebagai modifier dan head sebagai bagian yang berperan lebih besar dalam menentukan behavior pasangan [3]. Opini dari hasil ekstraksi review produk akan diklasifikasikan menjadi opini positif atau opini negatif. Teknik klasifikasi opini diantaranya menggunakan pendekatan supervised, semi-supervised dan unsupervised. Penelitian tugas akhir ini memilih teknik klasifikasi dengan pendekatan semi-supervised. Semi-supervised menggunakan data dengan label positif dan negatif untuk data training. Proses klasifikasi dilakukan dengan mencari sinonim data training pada wordnet. Sinonim ini nantinya mempunyai nilai polaritas yang sama dengan data training dan akan dikembangkan untuk membentuk daftar kata opini. Daftar opini akan digunakan sebagai acuan klasifikasi pada opini hasil ekstraksi. II. LANDASAN TEORI A. Data Mining Data mining digambarkan sebagai natural evolution dari teknologi informasi dan dapat melakukan klasifikasi secara otomatis, peringkasan, menentukan karakteristik dan deteksi anomali pada data. Data mentah yang belum diolah didiskripsikan sebagai “data rich but poor situatiom”. Data mining berfungsi melakukan penggalian data untuk mengambil pattern penting dalam data. Proses mining diibaratkan sebagai penambangan emas di dalam pasir dan batu. Data mining sendiri merupakan salah satu rangkaian proses KDD (Knowledge Discovery from Data) yang mampu mengekstraksi pola dari database berskala besar [4]. B. Text Mining Text mining adalah teknologi yang digunakan untuk menganalisis data tidak terstruktur yang berbentuk teks. Terdapat dua jenis metode yang digunakan dalam analisis text mining, yaitu: preprocessing dan intregatrion dari data tidak terstruktur dan analisis statistical terhadap preprocessing data untuk mengekstraksi konten yang terkandung dalam teks. Analisis text mining menggunakan teknik unsupervised learning. Teknik ini akan membangkitkan rules dari struktur kata dalam teks dan menggali informasi menarik yang terdapat di dalam data [5]. C. Opinion Mining Opinion mining adalah analisis yang dilakukan terhadap opini atau pendapat terhadap objek tertentu. Opinion mining bertujuan untuk menglasifikasikan pendapat apakah masuk ke dalam pendapat positif atau negatif berdasarkan ekspresi yang dituangkan dalam pendapatnya. Klasifikasi opini digambarkan dalam bentuk regrasi dan ranking [6]. Klasifikasi pada opinion mining diawali dengan mengekstraksi kata-kata opini dalam teks dan mencari polaritasnya. Proses klasifikasi dapat dibagi menjadi tiga pendekatan, yaitu: Related category: evaluasi berdarkan kategori dan alasan mengenai fitur produk yang direview. Rating interface: klasifikasi berdasarkan sudut pandang author. Klasifikasi ini cenderung lebih sulit karena opini tidak mutlak dan dituliskan dalam skala angka (ordinal). Aggrement: pendekatan klasifikasi dengan meningkatkan label data pada agreement task.
Ind. Symposium on Computing
Sept 2016
199
D. Lemmatization Lemmarization adalah salah satu teknik normalisasi dimana setiap kata akan diubah ke bentuk aslinya berdasarkan arti kata tersebut. Lemmatization akan memberikan kemudahan dalam proses analisis kata dan pencarian kata menggunakan short-query [7]. Pada lemmatization mungkin terjadi pemisahan komponen kata dan pemanggilan semua kombinasi komponen kata sesuai dengan indeks database. E. Stopword Stopword adalah daftar kata-kata yang dianggap tidak penting dan tidak mempresentasikan isi teks. Proses stopword akan menghilangkan kata-kata sesuai dengan lexicon acuan. Stopword dapat mengurangi sampai 50% space and time yang diperlukan dalam eksekusi sistem [8]. Pada penelitian kali ini stopword digunakan sebagai metode preprocessing. Berikut beberapa kata-kata stopword bahasa Inggris adalah am, is, are, you, I, they, their. F.
Standford Part-of-Speech Tagger
Stanford Part-of-Speech Tagger merupakan library pemrograman yang dapat menentukan label dari sebuah kata. Stanford POS tangger mengembangkan fungsi POS tangging dalam beberapa bahasa. Contoh label kata dalam bahasa inggris adalah NN sebagai noun, JJ sebagai adjective, VB sebagi verb, RB sebagai adverb dan lain-lain [2]. G. Dependency Parser Dependency parser merupakan proses parsing pada natural language dan mengubahnya menjadi bentuk dependency tree. Natural languange akan dipecah menjadi frase-frase. Kemudian frase akan dipecah lagi menjadi lebih kecil sebagai kata-kata invidu yang disebut constituency grammar dan dependency grammar. Kata dalam dependecy tree akan saling terhubung melalui sebuah link yang menyatakan head dan dependent. Dependent berfungsi sebagai modifier dan head berfungsi sebagai bagian yang mempunyai role lebih besar dalam mempengaruhi behavior pasangan kata tersebut [3]. Tag pada dependency parser menunjukkan arti hubungan dari dua kata dalam sebuah kalimat. Berikut daftar tag dan penjelasannya dalam dependency parser yang digunakan dalam penelitian [10]: a) amod: adjectival modifier Adjectival modifier adalah frase adjective yang berfungsi untuk memodifikasi arti dari noun phrase. Contohnya pada kalimat “Sam eats red meat” menghasilkan “amod(meat, red)”. b) nsubj: nominal subject Nominal subject adalah noun phrase yang bersifat sintatis sebagai subjek. Keterhubungan nsubj tidak selalu antara noun dengan verb, tetapi memungkinkan juga keterhubungan noun dengan noun atau adjective. Contohnya pada kalimat “The baby is cute” mengasilkan “nsubj(cute, baby)”. c) dobj: direct object Direct object adalah noun phrase yang berfungsi sebagai objek dari verb. Contohnya pada kalimat “She gave me a raise” menghasilkan “dobj(gave, raise)”. H. AER ( Aspect Extraction based on Recommendation) AER merupakan metode ektraksi untuk menyempurnakan proses ekstraksi menggunakan metode yang berbasis pada dependency [11]. AER mengatasi kekurangan dari metode sebelumnya dan menggunakan hasil ekstraksi metode tersebut untuk proses learning dan menyimpannya sebagai knowledge. AER membutuhkan corpus sebagai knowledge dan target dataset untuk dilakukan ekstraksi di dalamnya. AER akan mencari nilai rekomendasi terbesar dari fitur yang sudah terekstrak dengan fitur pada corpus acuan. Secara garis besar algoritma AER digambarkan sebagai berikut:
Annisa Imadi Puti et.al. Analisis dan Klasisifikasi Opini pada ...
200
Target dataset Dt, high precision aspect extraction rules R-, high recall aspect ectraction Rules R+ Output: Extracted aspect set A 1: T- DPextract(Dt, R-); 2: T+ Dpextract(Dt, R+); 3: T T+ - T-; 4: Ts Sim-reccom(T-, T); 5: A T- union Ts Input:
Gambar 1: Algoritma AER
Pada AER rekomendasi dihasilkan berdasarkan algoritma Sim-recomm. Setiap aspek t1 pada T(daftar aspek hasil ekstraksi dari metode type dependency parser) akan dicari nilai similaritynya dengan setiap term t2 pada T-(daftar aspek corpus). Nilai similarity tertinggi dari t1 dengan T - akan disimpan dan t1 akan dijadikan sebagai aspek yang direkomendasikan sebagai fitur. Output dari Sim-recomm adalah rekomendasi fitur dengan nilai simmilarity tertinggi dengan fitur pada corpus. Algoritma Sim-recomm digambarkan sebagai berikut: Input: Aspect set T- and T Output: Recommended aspect Ts 1: for (each aspect t in T) do 2: if (Sim(t, T-) is the highest number) then 3: Ts Ts union {t}; 4: end if; 5: end for.
Gambar 2: Algoritma Sim-Recomm
I.
Wordnet
Wordnet adalah daftar referensi kata yang dibangun berdasarkan inspirasi lexical memory pada manusia [12]. Wordnet dapat disebut sebagai lexicon yang berdasarkan prinsip prikolinguistik (psycholinguistic principles) dan dapat menampilkan semua daftar kata yang berhubungan. Hal yang membedakan wordnet dengan lexicon standar adalah wordnet menggunakan lima kategori lexicon yaitu: nouns, verb, adjectives, adverb dan function words. Wordnet dapat digunakan untuk mencari relasi synonymy, antonymy, hyponymy, meronymy dan morphological relations. III. METODE PENELITIAN A.
Gambaran Umum Sistem
Sistem yang akan dibangun dalam penelitian tugas akhir adalah sistem yang dapat mengklasifikasi sebuah review produk. Sistem akan mengekstraksi fitur review produk dan mengklasifikasikan opini fitur ke dalam kelas positif dan negatif. Klasifikasi opini nantinya akan dibangun menjadi ringkasan dari review produk. Sistem dibagi menjadi tiga bagian, yaitu: preprocessing data, ekstraksi fitur dan opini serta klasifikasi opini. Gambaran umum dari sistem digambarkan dalam flowchart berikut:
Gambar 3: Gambaran Umum Sistem
Ind. Symposium on Computing
B.
Sept 2016
201
Ekstraksi Fitur dengan Type Dependency Parser
Type dependency parser merupakan metode ekstraksi dengan mengambil type dependency dari kalimat berdasarkan rules dependency relation. Alur proses metode type dependency parser dijelaskan sebagai berikut: Proses ekstraksi dimulai dengan membaca data hasil preprocessing kemudian dilakukan proses parsing menggunakan library Standford Parser. Proses ini akan mengeluarkan hubungan pada struktur kata di dalam kalimat. Hasil dari proses parser dari masukan hasil preprocessing “picture absolute amazing camera capture minute detail” adalah “[seeds(SEEDS-0, picture-1), amod(camera-4, absolute-2), amod(camera-4, amazing-3), dobj(picture-1, camera-4), nummod(detail-7, capture-5), compound(detail-7, minute-6), nsubj(picture-1, detail-7)]”. Hasil ini nantinya akan dimasukkan ke dalam rules dependency relation Rules dependency relation merupakan rules untuk mengecek hasil parser dan mengambil pasangan fitur dan opini hasil ekstraksi. Berikut tabel ruless dependency relation: Tabel 1: Rules Dependency Relation
Rules NN – amod – JJ NN – nsubj – JJ NN – nsubj – VB – dobj – NN VB – advmod – RB
Fitur NN NN NN pertama VB
Opini JJ JJ NN terakhir RB
Hasil dari parser akan dilakukan POS Tag menggunakan library Standford POS Tagger untuk mengetahui tag setiap kata. Hasil parser dengan tag kemudian akan dicocokkan dengan ruless dependency relation. Output dari pencocokan rules akan disimpan sebagai kandidar fitur dan opini. Output parser “[seeds(SEEDS-0, picture-1), amod(camera-4, absolute-2), amod(camera-4, amazing3), dobj(picture-1, camera-4), nummod(detail-7, capture-5), compound(detail-7, minute-6), nsubj(picture-1, detail-7)]” akan dilakukan proses POS Tagging dan dicocokkan dengan rules menghasilkan pasangan fitur dan opini sebagai berikut: Tabel 2: Pasangan Fitur dan Opini Hasil Ekstraksi
Pasangan sesuai rules camera_NN – amod – absolute_JJ camera_NN – amod – amazing_JJ
Fitur Camera Camera
Opini Absolute Amazing
Pada contoh pertama di atas proses ekstraksi fitur dan opini berdasarkan relasi amod dengan headnya adalah camera (noun) dan dependencenya adalah absolute (adjective). Pasangan fitur dan opini ini sesuai dengan rules dependency pertama NN – amod – JJ sehingga akan disimpan sebagai pasangan fitur dan opini hasil ekstraksi dari metode type dependency parser. Proses ekstraksi dengan metode type dependency parser juga diuji menggunakan tambahan rules. Rules ditambahkan dengan tujuan untuk menjangkau lebih banyak pasangan fitur dan opini. Berikut tabel dari tambahan rules: Tabel 3: Rules Tambahan
Rules Tambahan Fitur Opini JJ – compound – NN NN JJ JJ/RB – dobj – NN NN JJ/RB Rules tersebut ditambahkan untuk mengambil kata benda dan kata sifat yang mempunyai relasi compound dan dobj.
Annisa Imadi Puti et.al. Analisis dan Klasisifikasi Opini pada ...
C.
202
Ekstraksi Fitur dengan Identifikasi Noun Phrase Parser
Noun phrase parser merupakan metode ekstraksi dengan mengambil semua noun phrase yang dihasilkan dari structure tree pada proses parsing kalimat hasil preprocessing. Alur proses noun phrase parser dijelaskan sebagai berikut: Proses ekstraksi dimulai dengan membaca data hasil preprocessing. Data akan dimasukkan ke dalam proses parsing menggunakan library Standford Parser. Proses parsing akan menghasilkan structure tree yang menggambarkan struktur dan keterhubungan kata dalam kalimat. Hasil keluaran structure tree dari kalimat hasil preprocessing “macro mode exceptional picture clear take picture len unbelievably close subject” ditunjukkan pada gambar 3-6. (SEEDS (S (NP (NP (JJ macro) (NN mode) (JJ exceptional) (NN picture)) (ADJP (JJ clear))) (VP (VBP take) (S (NP (NN picture) (NN len)) (ADJP (RB unbelievably) (RB close) (JJ subject))))))
Proses selanjutnya adalah pengambilan noun phrase dari structure tree yang dilahsilkan. Noun phrase yang diambil hanyalah noun phrase dengan panjang frase kurang dari atau sama dengan dua kata. Panjang ini dipilih setelah melakukan analisis label fitur pada dataset yang secara umum hanya mempunyai panjang fitur satu atau dua kata. Noun phrase diambil dengan melihat tag NP pada structure tree. Setiap noun phrase yang dihasilkan merupakan prediksi fitur dari metode noun phrase parser. Dari structure tree yang dihasilkan prediksi fitur berupa “picture len”. D.
Ekstraksi Fitur dengan AER (Aspect Extraction based on Recommendation)
AER merupakan metode ektraksi tambahan dimana AER akan menambahkan fitur berdasarkan rekomendasi yang mengacu pada corpus dan daftar fitur hasil ekstraksi yang telah dilakukan sebelumnya. Pada penelitian kali ini corpus yang digunakan adalah dataset electronic review dan daftar fitur dari hasil ekstraksi menggunakan metode type dependency parser. Alur proses AER digambarkan sebagai berikut: Proses pertama dimulai dari membaca corpus. Corpus ini merupakan dataset electronic review yang nantinya akan digunakan sebagai acuan pembandingan pada proses rekomendasi. Corpus kemudian diekstraksi menggunakan metode type dependency parser dan hasil fitur ekstraksinya disimpan sebagai fitur corpus. Proses berikutnya adalah membaca daftar fitur hasil dari metode type dependency parser yang telah dilakukan selanjutnya. Daftar fitur ini akan dibandingkan dengan daftar fitur corpus untuk menghasilkan fiturfitur yang direkomendasikan menggunakan metode AER. AER merupakan metode untuk mencari nilai rekomendasi terbesar dari fitur yang sudah terekstrak dengan fitur pada corpus acuan. rekomendasi fitur dari AER dihasilkan dari algoritma Sim-recomm. Pada penelitian kali ini nilai simmilarity menggunakan perhitungan path distance dalam wordnet. Path distance dipilih karena nilai yang dihasilkan diambil berdasarkan jarak terpendek antara hirarki “is-a” dalam wordnet. Output dari Sim-recomm adalah rekomendasi fitur dengan nilai simmilarity tertinggi dengan fitur pada corpus. Pada penelitian Sim-recomm menghasilkan rekomendasi fitur picture (t1 dalam T) mempunyai nilai similarity tertinggi dengan photo (t2 dalam T-), berdasarkan nilai ini maka picture akan disimpan sebagai fitur hasil ekstraksi. Contoh lainnya adalah rekomendasi fitur photograph dari corpus photo. Hasil rekomendasi dari AER kemudian disimpan sebagai fitur hasil ekstraksi. E.
Klasifikasi Opini
Klasifikasi opini berfungsi untuk memberikan nilai polaritas setiap opini hasil ekstraksi dan mengklasifikasikannya ke dalam kelas positif dan negatif. Klasifikasi opini terdiri dari dua tahapan proses yaitu pembangunan graph untuk mencari dan menentukan polaritas sinonim opini berdasarkan seeds berupa lexicon
Ind. Symposium on Computing
Sept 2016
203
kata-kata opini positif-negatif dan penentuan polaritas opini hasil ekstraksi berdasarkan polaritas opini pada graph. Tahapan klasifikasi opini akan dijelaskan sebagai berikut: a) Proses klasifikasi dimulai dengan pembangunan graph untuk memberikan polaritas sinonim dari seeds lexicon kata-kata opini positif-negatif kemudian memvisualisasikannya. Pembangunan graph terdiri dari pencarian sinonim, seleksi sinonim dan penentuan polaritas sinonim. Setiap seeds akan dicari sinonimnya menggunakan fungsi synset pada wordnet. Sinonim yang disimpan hanyalah sinonim seeds berupa adjective dan adverb. Pengecekan ini dilakukan menggunakan Standford POS Tagger dimana hanya kata dengan tag JJ dan RB yang diambil. Pada proses pembangunan synset memungkinkan munculnya sinonim yang terhubung pada lebih dari satu seeds acuan. Seeds awal yang digunakan adalah seed A yang berisi 10 seeds positif dan 10 seeds negatif [14] dengan tingkat pencarian synset sebanyak dua, empat dan enam level synset, tetapi sinonim opini yang dihasilkan dari seeds awal ini belum bisa menjangkau semua opini yang muncul dari hasil ekstraksi. Untuk menangani kekurangan tersebut, seed A diganti dengan seed B yang berupa lexicon kata-kata sifat yang dibangun oleh Bing Liu. Lexicon ini terdiri dari 2002 kata sifat positif dan 4780 kata sifat negatif. Seed B nantinya akan disimpan dalam array dan digunakan sebagai acuan polaritas sinonim yang dihasilkan. Polaritas seeds diberikan sesuai dengan nilai polaritas pada seeds acuan. Sedangkan untuk setiap node yang dibangun dari hasil pencarian sinonim seeds akan diberikan nilai flag postif dan negatif untuk menentukan polaritas sinonim. Pemberian flag berfungsi untuk mencegah keambiguan polaritas kata yang terhubung dengan sinonim postitif dan negatif. Flag akan diaktifkan sesuai dengan seeds dimana sinonim tersebut dibangun. Contohnya untuk seeds great (polaritas +, flag 1 0) menghasilkan sinonim huge, maka flag postif pada huge akan diaktifkan. Begitu juga untuk setiap sinonim dari seeds negatif akan mengaktifkan flag negatif. Kata yang mempunyai nilai flag 1 1 berarti terhubung dengan sinonim positif dan negatif sehingga polaritasnya belum bisa ditentukan sehingga polaritasnya null. Hasil dari pembangunan graph berupa pasangan opini dengan polaritasnya. Berikut nilai flag dan polaritasnya: Tabel 4: Tabel Nilai Flag Setiap Polaritas
Polaritas Flag Positif Flag Negatif + 1 0 0 1 null 1 1 Hasil dari pembangunan sinonim seeds akan disimpan sebagai daftar pasangan opini-polaritas dan divisualisasikan dalam bentuk graph. Graph mempunyai dua warna berbeda dimana hijau mempresentasikan kata dengan polaritas positif dan warna merah mempresentasikan kata dengan polaritas negatif. Berikut gambar-gambar yang akan memaparkan hasil pembangunan graph menggunakan seed A dan seed B dengan kedalaman level synset yang berbeda-beda.
Gambar 4: Visualisasi Graph dari Seed A
Gambar 5: Visualisasi Graph dari Seed B
Annisa Imadi Puti et.al. Analisis dan Klasisifikasi Opini pada ...
204
IV. HASIL A. Perbandingan Ekstraksi Fitur Menggunakan Metode Type Dependency Parser, Noun Phrase Parser dan Kombinasi Union Kedua Metode Berikut hasil perbandingan nilai precision dan recall dari proses ekstraksi fitur menggunakan metode type dependency parser, noun phrase parser dan kombinasi union ketiganya:
Gambar 6: Precision dan Recall Ekstraksi Fitur dari Perbandingan Pertama
Performasi ekstraksi terbaik ditunjukkan oleh metode type dependency parser dimana metode ini akan akan melakukan ekstraksi dengan hati-hati dan hanya mengambil fitur sesuai dengan rules sehingga jumlah fitur yang terekstraksi terbatas dan mencegah turunnya nilai evaluasi untuk kalimat-kalimat yang tidak mempunyai fitur eksplisit. B. Perbandingan Ekstraksi Fitur dengan Menambahkan Rules pada Metode Type Dependency Parser Berikut hasil perbandingan nilai precision dan recall dari proses ekstraksi dengan menambahkan rules pada metode type dependency parser:
Gambar 7: Precision dan Recall Ekstraksi Fitur dari Perbandingan Kedua
Penurunan nilai evaluasi ini menunjukkan bahwa penambahan rules idak selalu menaikkan performasi sitstem, pada penelitian penambahan rules mengakibatkan turunnya nilai evaluasi sistem. Penurunan ini disebabkan oleh penambahan rules tidak sesuai dengan karakteristik dataset yang digunakan. Rules tambahan mengakibatkan jumlah fitur yang diprediksi meningkat, ini juga meningkatkan kesalahan prediksi fitur yang dihasilkan. C. Perbandingan Pengaruh AER terhadap Fitur Hasil Ekstraksi dari Metode Type Dependency Parser Berikut hasil perbandingan nilai precision dan recall dari proses ekstraksi dengan menambahkan metode AER pada fitur hasil ekstraksi dari metode type dependency parser:
Ind. Symposium on Computing
Sept 2016
205
Gambar 8: Precision dan Recall Ekstraksi Fitur dari Perbandingan Ketiga
Peningkatan nilai evaluasi dari metode AER dibanding metode type dependency parser karena pada AER mempunyai knowledge dari corpus, kemudian knowledge ini digunakan sebagai acuan pembanding untuk list fitur dari hasil ekstraksi metode type dependency parser. AER akan merekomendasikan fitur dengan nilai simmilarity tertinggi, ini menyebabkan fitur yang dihasilkan lebih sedikit dan tingkat kesalahan prediksi fitur menurun. D. Perbandingan Polaritas Opini Menggunakan Dua Seeds yang Berbeda Berikut hasil perbandingan nilai akurasi dari proses klasifikasi opini hasil ekstraksi dengan menggunakan dua seeds yang berbeda:
Gambar 9: Perbandingan Akurasi dengan Dua Seeds Berbeda
Pembangunan graph dengan seeds yang berbeda menunjukkan bahwa semakin banyak seeds yang digunakan dalam pembangunan graph klasifikasi, maka akan meningkatkan nilai evaluasi akurasi yang dihasilkan. Tetapi, dari pengujian dan analisis yang dilakukan juga menunjukkan bahwa kedalaman pencarian sinonim tidak selalu meningkatkan nilai evaluasi klasifikasi. Ini disebabkan semakin dalam tingkat pencarian sinonim maka tingkat keterhubungan suatu kata opini pada seed positif sekaligus terhubung dengan seed negatif juga meningkat. Jika suatu kata opini terhubung pada dua seeds yang berbeda polaritas, kata tersebut akan diisi dengan polaritas null dan ini akan menurunkan nilai evaluasi akurasi pada klasifikasi. V. KESIMPULAN DAN SARAN Berdasarkan hasil pengujian dan analisis yang telah dilakukan sebelumnya, maka dapat diambil kesimpulan sebagai berikut: a) b) c)
Ekstraksi fitur menggunakan metode type dependency parser hanya menghasilkan fitur terekstrak yang sesuai dengan rules, ini menurunkan tingkat kesalahan dalam identifikasi fitur. Penambahan rules pada metode type type dependency parser tidak selalu meningkatkan nilai evaluasi. Ekstraksi fitur menggunakan metode AER yang mengacu pada hasil ekstraksi dari metode type dependency parser terbukti meningkatkan nilai evaluasi karena AER hanya merekomendasikan fitur dengan nilai simmilarity tertinggi.
Annisa Imadi Puti et.al. Analisis dan Klasisifikasi Opini pada ...
d) e)
206
Jumlah seeds yang digunakan dalam pembangunan graph berbanding lurus dengan nilai akurasi yang akan dihasilkan. Kedalaman level synset dari pencarian sinonim seeds tidak selalu berbanding lurus dengan kenaikan nilai akurasi setiap levelnya.
Saran yang diperlukan dari penelitian tugas akhir ini untuk pembangunan penelitian selanjutnya adalah menambahkan proses ekstraksi fitur implisit menggunkan metode: a) b) c)
conference resolution, co-accurence association, LDA (Linier Discriminant Analysis). REFERENSI
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17]
Duy Khang Ly, Kazunari Sugiyama, Ziheng Lin, and Min-Yen Kan, "Product Review Summarizaton based on Facet Identification and Sentence Clustering," p. 1, 2010. Christopler D. Manning, "Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics?," pp. 1-2, 2011. Michael A. Covington, "Fundamental Algorithm for Dependency Parsing," pp. 1-3, 2001. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techique Second Edition. San Fransisco: Morgan Kaufmann Publishers, 2006. Louise Francis, "Text Mining Handbook," Casualty Acturial Society E-Forum, 2010. Bo Pang and Lillian Lee, "Opinion Mining and Sentiment Analysis," Foundation and Trends in Information Retrival, vol. 2, pp. 1-135, 2008. Toumo Korenius, Jorma Laurikkala, Kalervo Jarvelin, and Martti Juhola, "Stemming and Lematization in the Clusterinf of Finish Text Documents". Antoine Blanchard, "Understanding and Customizing Stopword Lists for Enhanced Patent Mapping," 2007. Joakim Nivre and Sandra Kubler, "Dependency Parsing Tutorial at COLING-ACL," 2006. Marie-Catherine de Marneffe and Christopher D. Manning, "Standford Typed Dependencies Manual," September 2008. Qian Liu, Bing Liu, Yuanlin Zhang, Doo Soon Kim, and Zhiqiang Gao, "Improving Opinion Aspect Extraction Using Semantic Simmilarity and Aspect Association". George A. Miller, Richard Beckwith, Christiane Fellbaum, Derek Gross, and Katherine Miller, "Intorduction to WordNet: An On-Line Lexical Database," August 1993. Minqing Hu and Bing Liu, "Mining and Summarizing Customer Review," 2004. Samaneh Moghaddam and Fred Popowich, "Opinion Polarity Identification Through Adjectives," 2010. Suke Li and Yanbing Jiang, "Semi-supervised Sentiment Classification using Rangking Opinion Words," International of Database Theory and Application, vol. 6, pp. 51-62, 2013. M. Rushdi Saleh, M.T Martin Valdivia, and A. Montejo Raez, "Experiments with SVM to classify opinions in different domains," Expert System with Applications, pp. 14799-14804, 2011. Vimala Balakrishnan and Ethel Lloyd-Yemoh, "Stemming and Lemmatization: A Comparison of Retrival Perfomances," Lecture Notes in Software Engineering, vol. 2, pp. 264-266, August 2014.