Penentuan Entitas Lingkup Kepercayaan Profil Pengguna Pada Bio Twitter Titin Pramiyati 1), Ayu Purwarianti 2), Iping Supriana 3) 1,2,3
Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jl. Ganeca 10, Bandung E-mail :
[email protected] 1),
[email protected] 2),
[email protected] 3)
ABSTRAK Sejak teknologi web dimanfaatkan untuk mendapatkan informasi, maka kualitas informasi dan persoalan tentang kepercayaan informasi dan sumber informasi (trust issue) menjadi penting, dan menjadi motivasi pengembangan sistem untuk menentukan nilai kepercayaan sumber informasi. Penentuan tingkat kepercayaan sumber informasi ini diharapkan dapat digunakan untuk menentukan kepercayaan informasi yang dibuat oleh sumber informasi tersebut. Sehingga dengan adanya cara penentuan kepercayaan informasi ini dapat membangun teknologi informasi yang mandiri untuk membangun bangsa dalam pemanfaatan informasi secara benar dan bijak. Kepercayaan seseorang kepada orang lain, dapat disebabkan karena sebelumnya telah terjadi kerjasama, konflik, dan komunikasi. Ketersediaaan informasi terkait dengan seseorang yang tidak pernah dikenali sebelumnya, dapat juga digunakan dalam menentukan tingkat kepercayaan. Lingkup kepercayaan atau trust scope dapat digunakan untuk menentukan tingkat kepercayaan seseorang, karena trust scope dapat menangkap konteks, kegiatan, fungsi atau domain dari hubungan kepercayaan yang terjadi. Kepercayaan yang diberikan berdasarkan trust scope, penilaiannya dilakukan didasarkan pada pengetahuan atau referral trust dan kemampuan dalam menyelesaikan pekerjaan tertentu atau functional trust. User profile yang tersedia pada layanan internet seperti media sosial, dapat digunakan untuk mendapatkan informasi sesuai dengan lingkup kepercayaan, karena pada user profile biasanya tersedia informasi yang berkaitan dengan pengetahuan, keahlian, kompetensi, profesi bahkan informasi akademik yang dapat digunakan untuk menentukan lingkup kepercayaan. Menggunakan data profil pengguna yang terdapat pada Bio Twitter, paper ini akan membahas penentuan entitas menggunakan data profil pengguna Bio Twitter yang sesuai dengan lingkup kepercayaan, yaitu entitas Pendidikan, Tempat Pendidikan, Pekerjaan, Tempat Bekerja, Profesi, Jabatan, Minat dan Komunitas. Penentuan entitas lingkup kepercayaan ini menggunakan proses pengenalan entitas Named Entity Recognition (NER) dan perangkat lunak pengenalan entitas dalam bahasa Indonesia. Proses pengenalan entitas ini menggunakan aturan (rule) yang dibentuk untuk mengenali setiap isi dalam Bio Twitter sebagai entitas lingkup kepercayaan. Pembentukan aturan ini dikarenakan data yang terdapat pada Bio Twitter tidak memiliki format penulisan yang baku. Proses pengenalan entitas diawali dengan pengumpulan data Bio Twitter untuk dijadikan korpus, lalu dilakukan ujicoba pengenalan dengan menggunakan perangkat pengenalan entitas berbahasa Indonesia untuk mendeteksi kegagalan proses pengenalan dan sebabnya, selanjutnya dilakukan proses formalisasi data, pembuatan aturan (rule) yang digunakan untuk mengenali setiap entitas lingkup kepercayaan, dan terakhir ujicoba. Prosentase keberhasilan ujicoba penenalan entitas yang dilakukan terhadap beberapa akun pengguna media sosial Twitter adalah 50-100 % berhasil dikenali sebagai entitas lingkup kepercayaan. Katakunci: Tingkat Kepercayaan Sumber Informasi, Lingkup Kepercayaan (trust scope), User Profile, Bio Twitter, Named Entity Recognition PENDAHULUAN Kualitas informasi, kepercayaan informasi dan kepercayaan sumber informasi menjadi persoalan penting sejak teknologi web dimanfaatkan untuk mendapatkan informasi. Kualitas informasi juga menjadi perhatian penting bagi DoD-USA, hal ini terlihat dengan dituangkan pernyataan bahwa informasi yang kuat adalah informasi yang terpercaya dalam strategi pertahanannya (Department of Defense-USA n.d.). Kebutuhan atas informasi yang dapat dipercaya menjadi motivasi pengembangan sistem untuk menentukan nilai kepercayaan informasi dan sumber informasi, sehingga pengguna informasi dapat menentukan informasi yang patut untuk dipercaya dan informasi yang diabaikan (Gil and Ratnakar 2002), dan mendapatkan kebenaran isi informasi (Javanmardi and Lopes 2007). Informasi yang dipercaya dapat diperoleh berdasarkan pada kepercayaan yang dimiliki oleh sumber informasi
(Gil and Ratnakar 2002), reputasi sumber informasi (Javanmardi and Lopes 2007), dan kepercayaan yang diberikan oleh entiti dengan memperhatikan tingkat kepercayaan (trust level) yang dimiliki oleh entiti tersebut (Tundjungsari dkk., 2010). Berbagai model kepercayaan telah banyak dibangun untuk menentukan tingkat kepercayaan, diantaranya model kepercayaan untuk menilai kepercayaan pengguna terhadap aplikasi (Matysiewicz, 2009), penilaian kepercayaan pada lingkungan multi-agent system (Anders dkk., 2011) yang menggunakan experience dan trust context sebagai dasar dalam menentukan nilai kepercayaan. Terdapat dua jenis penilaian kepercayaan yaitu direct trust (kepercayaan langsung) dan recommended trust (Singh and Sinha 2009), direct trust adalah penilaian kepercayaan berdasarkan pada interaksi langsung yang terjadi. Penilaian kepercayaan langsung, dapat ditentukan
R1.2-1
berdasarkan feedback yang diberikan oleh entiti atau pengguna lain saat terjadi interaksi (Gil and Ratnakar 2002), berdasarkan pada kekerapan interaksi yang terjadi (Anders dkk., 2011), dan juga dapat ditentukan berdasarkan pada konteks (Singh and Sinha 2009) dan trust scope (Thirunarayan et al. 2010). Pengetahuan dan kemampuan dalam menyelesaikan tugas tertentu atau trust scope digunakan oleh Thirunarayan (Thirunarayan dkk., 2010), dapat digunakan dalam menentukan tingkat kepercayaan seseorang, untuk menilai kepercayaan sumber informasi. Trust scope adalah nilai kepercayaan yang diberikan sesuai dengan fungsi, konteks sumber informasi dan dibedakan menjadi referral trust dan functional trust. Referral trust adalah lingkup kepercayaan yang didasarkan pada pengetahuan , sedangkan functional trust adalah kepercayaan yang didasarkan pada kemampuan dalam melakukan dan menyelesaikan pekerjaan. Salah satu properti yang digunakan pada model kepercayaan yang diusulkan oleh Kyounghee Jung adalah properti interaction significance based on knowledge. Properti ini digunakan untuk mendapatkan nilai kepercayaan perorangan (personal trust), yaitu penilaian yang diberikan oleh pengguna layanan berdasarkan pada pengetahuan yang dimiliki oleh pengguna, karena perbedaan pengetahuan akan memberikan nilai yang berbeda untuk tiap pengguna (Jung and Lee 2009). S.Ibotombi Singh dan Smriti K. Sinha (Singh and Sinha 2009) menyatakan bahwa kepercayaan dapat dibangun berdasarkan pada context-sensitive, transferable, dynamic dan history-based. Penggunaan context-sensitive dalam membangun kepercayaan dapat menjadikan suatu agent dipercaya pada satu konteks, dan tidak dipercaya pada konteks lain. Berdasarkan pada hasil penentuan atribut lingkup kepercayaan yang menggunakan user profile pada media sosial, diperoleh 8 atribut yang dapat mewakili referral trust dan functional trust (Pramiyati, Supriana, and Purwarianti 2015a), serta keberhasilan pengenalan entitas Person, Organization, Position, dan Location dengan menggunakan korpus BioTwitter (Pramiyati, Supriana, and Purwarianti 2015b), maka paper ini akan membahas penentuan entitas lingkup kepercayaan dengan menggunakan proses pengenalan entitas (Named Entity Recognition) pada korpus BioTwitter. Named Entity Recognition (NER) memiliki peran penting pada area aplikasi Natural Language Processing (NLP) yang banyak tersedia, seperti ekstraksi informasi, retrieval information, tanya-jawab dan peringkasan otomatis. Ciri utama dari tugas NER adalah melakukan identifikasi dan membuat tag context pada kata-kata yang tersedia berdasarkan pada kemungkinan kombinasi atas kata-kata tersebut, seperti penentuan panjang minimal kata word yang akan diidentifikasi sebagai nama entiti, kata awal, dan sebagainya (Ekbal, Saha, and Singh 2012). Named entity seperti Person, Organization, dan Location dalam proses identifikasi akan membutuhkan ciri (feature) yang merefleksikan properti dari sebuah nama entiti, seperti tipe, kemunculan dan berbagai ukuran umum, baik untuk skala dokumen maupun korpus. Salah satu contoh penggunaan feature dalam penentuan nama entiti adalah
feature kemunculan sebuah kata pada urutan pertama (first sentence occurence), karena urutan kemunculan kata dapat menentukan tingkat kepentingan dari kata tersebut (Wang and Feng 2007). Penelitian yang dilakukan Khodra dan Purwarianti (2013) menggunakan vektor fitur untuk model klasifikasi dan untuk tiap token pada proses ekstraksi informasi dari transaksi online di Twitter. Vektor fitur yang digunakan pada model klasifikasi menggunakan kategori yang dibangun dengan berdasarkan notasi BIO (Begin In Other)-<jenis informasi>, sedangkan vektor fitur untuk tiap token didefinisikan berdasarkan atribut leksikal token tersebut dan tetangganya (Khodra and Ayu 2013). Notasi BIO juga digunakan pada sistem NER dengan kerangka kerja CRF (Conditional Random Field), untuk memberikan tag yang sudah dikenali pada setiap karakter atau kata bahasa China yang terdapat pada dokumen input untuk mengidentifikasi nama entiti (Wu et al. 2012). Metoda NER diklasifikasikan ke dalam tiga kategori, yaitu rule-based method, statistical-based method, dan rule-statistical combined method. Rule-based method menggunakan aturan yang dibuat, dan mengidentifikasi nama entiti yang berbeda dengan cara mencocokan kata dengan aturan yang telah ditentukan. Statistical-based method menggunakan korpus yang dianotasi untuk menentukan peluang sebuah kata sebagai nama entiti, jika nilai peluang sebuah kata lebih besar dari nilai threshold yang ditentukan, maka kata tersebut akan diidentifikasi sebagai nama entiti. Rule-statistical combined method, adalah metoda yang mengkombinasikan antara kedua metoda rule-based dan statistical-based, seperti penggunaan rule-conditional random field (CRF) combined method (Su et al. 2012). Prosentase keberhasilan proses pengenalan entitas menggunakan data pada korpus BioTwitter adalah 50-100 % berhasil dikenali sebagai entitas lingkup kepercayaan. METODOLOGI Penentuan entitas lingkup kepercayaan dilakukan dalam 3 tahap, yaitu tahap analisis, pembentukan aturan (rule) untuk pengenalan entitas dan pengenalan entitas. Tahap tersebut dapat dilihat pada Gambar 1. Tahap analisis dilakukan untuk kebutuhan pembuatan korpus yang akan diproses pada tahap pengenalan entitas. Analisa yang dilakukan berkaitan dengan format penulisan dan isi pada Bio Twitter yang tidak terstruktur, yang memungkinkan timbulnya kegagalan proses. Mencari dan mempelajari format penulisan profil yang digunakan oleh pemilik akun Twitter serta merumuskan kemungkinan format penulisan lain yang digunakan mungkin digunakan, merupakan salah satu kegiatan analisis.
R1.2-2
Gambar 2. Proses Pengenalan Entitas
Gambar 1. Tahap Penentuan Entitas Lingkup Kepercayaan Format penulisan yang dianalisis hanya data yang berkaitan dengan entitas lingkup kepercayaan, sedang data yang lain diabaikan. Hasil yang diperoleh dari tahap analisis kemudian digunakan untuk membentuk aturan yang digunakan dalam proses pengenalan entitas. Aturan yang dibuat terdiri dari kontekstual, yaitu kumpulan kata yang digunakan dalam setiap entitas, penggunakan huruf kapital dan non kapital dalam format penulisan, dan tipe data yang dievaluasi. Pembentukan aturan ini menggunakan format yang sesuai dengan perangkat pengenalan entitas IndonesiaNETagger untuk Bahasa Indonesia: cont={contekstual};type=WORD|NUMBER;morph= TitleCase|UpperCase|Mixcase;pos=Noun|NN>ne=jenis informasi
(1)
Pembentukan aturan ini meliputi semua entitas lingkup kepercayaan terdiri dari 8 atribut, yaitu Pendidikan, Tempat Pendidikan, Pekerjaan, Tempat Bekerja, Profesi, Jabatan/Posisi, Minat, dan Komunitas. Hasil dari tahap ini diperoleh 7 aturan untuk entitas pendidikan, 5 aturan untuk entitas tempat pendidikan, 5 aturan untuk entitas pekerjaan, 5 aturan untuk entitas tempat bekerja, 2 aturan untuk entitas profesi, 4 aturan untuk entitas jabatan/posisi, 3 aturan untuk entitas minat, dan 3 aturan untuk entitas komunitas. Selanjutnya dilakukan proses pengenalan entitas menggunakan korpus BioTwitter, Gambar 2. menampilkan proses pengenalan yang dilakukan.
Proses pengenalan dilakukan mengambil data profil pengguna Twitter, kemudian disimpan sebagai data teks (BioTwitter.txt), untuk selanjutnya diformalisasi untuk mendapatkan bentuk isi file yang dapat diproses. Formalisasi data dilakukan dengan cara menghilangkan beberapa format yang tidak dapat dieksekusi oleh IndonesiaNETagger, diantaranya: 1. Kata yang terdapat huruf kapital yang diapit oleh huruf non kapital, seperti PressCode 2. Penggunaan double hyphen (--) atau dash (–), slash (/), hashtag (#), dan pipe (|). 3. Penggunaan karakter @ yang diikuti dengan kata, seperti @tangandiatas 4. Kata yang mengandung angka setelah huruf, seperti S2, S3 5. Penulisan URL (http://SekolahMonyet.com) Setelah dilakukan proses formalisasi, selanjutnya korpus BioTwitter.txt diproses, dan hasil proses pengenalan disimpan ke bentuk teks file, dibedakan berdasarkan entitas lingkup kepercayaan yang berhasil dikenali untuk setiap pemilik akun. HASIL Atribut lingkup kepercayaan dibedakan menjadi beberapa jenis informasi yaitu informasi Pendidikan (JP), Tempat Pendidikan (NP), Pekerjaan (JK), Tempat Bekerja (NK), Profesi (JO), Jabatan/Posisi (JB), Minat (JI), dan Komunitas (JG). Jenis informasi inilah yang akan dikenali sebagai entitas lingkup kepercayaan. Hasil analisis terhadap format penulisan dan isi yang digunakan oleh pemilik akun dalam menuliskan profil entitas lingkup kepercayaan, sebagai contoh untuk entitas pendidikan adalah sebagai berikut: 1. Dokter, Pengacara, Penerbang, Bidan 2. Spesialis Anak, Dokter Jantung 3. SE, ST, MT, MKOM 4. Sarjana, Doktor, Profesor 5. Informatika, Elektro, Akuntansi, Manajemen Berdasarkan pada hasil analisis terhadap isi dan format penulisan data Bio, menghasilkan beberapa karakteristik dari masing-masing jenis informasi. Sebagai contoh untuk informasi Pendidikan (JP) diperoleh karakteristik sebagai berikut:
R1.2-3
1. Merupakan entiti OTHER 2. Merupakan jenjang pendidikan (JJ) Rule : W X1|X2|X3 X S 3. Merupakan Keahlian (EX) 4. Bidang Pendidikan (BP) 5. Kemunculan sebagai kata tunggal 6. Kemunculan dapat merupakan kombinasi antara jenjang dan bidang keahlian 7. Kata atau Noun phrase ditulis dengan menggunakan kapital pada setiap awal kata Pengenalan data yang terdapat dalam korpus BioTwitter sebagai entitas lingkup kepercayaan dilakukan dengan berbasiskan pada aturan. Berikut ini adalah contoh aturan yang digunakan untuk mengenali informasi Pendidikan (NP), dengan bentuk penulisan kata tunggal, dan merupakan keahlian seperti kata ―Dokter‖ atau ―Pengacara‖.
Gambar 3. Korpus Bio Twitter
Korpus yang telah diformalisasi kemudian di proses, hasil pengenalan disimpan dalam bentuk file teks seperti terlihat pada Gambar 4.,
cont=JPPRE|JPSUF;morph= TitleCase|UpperCase|Mixcase>ne=PENDIDIKAN .............. (2) cont=JPPRE;type+1=WORD;morph+1=TitleCase|UpperCase|Mixcase;p os+1=Noun|NN>ne= PENDIDIKAN ;ne+1=PENDIDIKAN ............. (3)
Beberapa kontekstual digunakan untuk mendukung proses pengenalan dengan menggunakan aturan yang telah dibuat, Tabel 1., berikut ini adalah beberapa contoh kontekstual untuk mengenali entitas. Tabel 1. Contoh Kontekstual Entitas Kontekstual Isi JPSUF
{Informatika, Hukum,...}
Sejarah,
Keuangan,
OPRE
{ Asoasiasi, Badan, Balai, Bank, Biro, CV, Departemen, Dewan, Fakultas, Federasi, Institusi, Institut, Kabinet }
JISUF
{Kopi, Musik, Lingkungan, Alam, Keroncong,..}
Sepeda,
Korpus yang digunakan pada proses pengenalan entitas lingkup kepercayaan ini dibuat dengan menggunakan data Bio beberapa akun Twitter yang telah diformalisasi, seperti terlihat pada Gambar 3.
Gambar 4. Hasil Proses Pengenalan
Hasil pengenalan dari isi Bio Twitter milik akun @RamliRizal, yang digunakan sebagai sumber data (sumber: Twitter, diakses 2-11 Februari 2014) Berdasarkan sumber data dan tabel hasil proses pengenalan, terdapat 25% kesalahan pengenalan, 25% tidak dapat mengenali, dan 50% dikenali dengan benar. Jumlah 25% tidak ada informasi pada Bio Twitter sebagai entitas Komunitas dan Minat, hal ini dikarenakan tidak tersedianya informasi pada Bio Twitter yang dikenali sebagai entitas Komunitas dan Minat. Sedangkan 25% kesalahan yang terjadi disebabkan karena seharusnya Keuangan dan Program Magister tidak dikenali sebagai entitas Pendidikan dan Tempat Pendidikan. Kesalahan yang terjadi pada pengenalan entitas pendidikan dikarenakan kontektual JPSUF yang digunakan pada beberapa aturan, menggunakan kontekstual ini sebagai kata tunggal bukan menjadi bagian dari sebuah phrase. Untuk mengatasi kesalahan ini, ketiga aturan perlu dilakukan kaji ulang. Pengenalan entitas berikutnya menggunakan Bio Twitter milik akun @Ryamizard_R (sumber: Twitter,
R1.2-4
diakses 2-11 Februari 2014), diperoleh hasil pengenalan dengan benar sebesar 100%. Profil pengguna dari BioTwitter untuk akun ini, dikenali sesuai dengan entitasnya, hanya saja informasi Angkatan Darat yang terdapat pada BioTwitter tidak dikenali sebagai Tempat Bekerja, hal ini dikarenakan pada kontekstual OPRE yang digunakan oleh aturan yang dibuat, tidak dilengkapi dengan data matra pada lingkup organisasi militer. Pengenalan entitas dengan menggunakan Bio Twitter milik akun @ridwankamil (sumber: Twitter, diakses 211 Februari 2014) sebagai sumber data, hasil pengenalan menunjukkan keberhasilan sebesar 100%, karena semua entitas dikenali dengan benar, hanya saja kata Arsitektur dan ITB tidak dapat dikenali sebagai entitas Pendidikan dan Tempat Bekerja. Hal ini dikarenakan pada kontekstual JPSUF kata Arsitektur belum dimasukkan sebagai anggota himpunan kontekstual. KESIMPULAN Profil pengguna media sosial Twitter yang terdapat pada Bio Twitter dapat dikenali sebagai entitas lingkup kepercayaan dengan prosentase kebenaran sebesar 50100%. Kesalahan dan kegagalan dalam pengenalan entitas yang terjadi disebabkan karena kata yang disediakan pada setiap kontekstual masih belum lengkap. Hasil dari proses pengenalan entitas ini akan digunakan untuk menentukan kompetensi seseorang di bidang politik, hukum, Ekonomi, sosial dan teknologi. DAFTAR PUSTAKA Boughton, J.M., 2002. The Bretton Woods proposal: an in depth look. Political Science Quarterly, 42 (6), pp.564-78. Anders, Gerrit, Jan-philipp Steghöfer, Florian Siefert, and Wolfgang Reif., 2011. ―Patterns to Measure and Utilize Trust in Multi-Agent Systems.‖ Fifth IEEE Conference on Self-Adaptive and Self-Organizing Systems Workshops. Department of Defense-USA. ―Department of Defense Information Management & Information Technology Strategic Plan 2008-2009.‖ Ekbal, Asif, Sriparna Saha, and Dhirendra Singh., 2012. ―Ensemble Based Active Annotation for Named Entity Recognition.‖ : 331–34. Gil, Yolanda, and Varun Ratnakar., 2002. ―Trusting Information Sources One Citizen at a Time.‖ Proceeding of the First International Semantic Web Conference (ISWC). Javanmardi, Sara, and Cristina Videira Lopes., 2007. ―Modeling Trust in Collaborative Information Systems.‖ Evolution. Jung, Kyounghee, and Younghee Lee., 2009. ―Autonomic Trust Extraction for Trustworthy Service Discovery in Urban Computing.‖ 2009 Eighth IEEE International
Conference on Dependable, Autonomic and Secure Computing 978-0-7695: 502–7. http://ieeexplore.ieee.org/lpdocs/epic03/wrapper.htm?arnu mber=5380413 (December 9, 2012). Khodra, Masayu Leylia, and Purwarianti Ayu., 2013. ―Ekstraksi Informasi Transaksi Online Pada Twitter.‖ Cybermatika 1(1). Matysiewicz, Justyna., 2009. ―Consumer Trust Challenge for E-Healthcare.‖ Management: 337–42.
–
Pramiyati, Titin, Iping Supriana, and Ayu Purwarianti. 2015a. ―Determining Trust Scope Attributes Using Goodness of Fit Test : A Survey.‖ Telkomnika 13(2): 654– 60. ———., 2015b. ―Pengenalan Entitas User Profile Pada Twitter Entity Recognition of User Profile on Twitter.‖ INKOM 8(2): 101–8. Singh, S Ibotombi, and Smriti K Sinha., 2009. ―A New Trust Model Based on Social Characteristics and Reputation Mechanisms Using Best Local Prediction Selection Approach.‖ International Conference on New Trends in Information and Service Science. Su, Xing, Songhai Mo, Hui Wang, and Xin Zhang., 2012. ―Discovering Significant Persons , Locations and Organizations through Named Entity Ranking.‖ : 328–31. Thirunarayan, Krishnaprasad, Pramod Anantharam, Cory A Henson, and Amit P Sheth., 2010. ―Some Trust Issues in Social Networks and Sensor Networks.‖ IEEE 978-14244: 573–80. Tundjungsari, Vitri, Jazi Eko Istiyanto, Edi Winarko, and Retantyo Wardoyo., 2010. ―A Reputation Based Trust Model to Seek Judgment in Participatory Group Decision Making.‖ International Conference on Distributed Framework for Multimedia Applications. Wang, Su-fen, and Jun-kang Feng., 2007. ―A FRAMEWORK FOR ANALYZING THE ‗ INFORMATION BEARING CAPABILITY ‘ OF AN INFORMATION SYSTEM.‖ Machine Learning (August): 19–22. Wu, Xixin et al. 2012. ―ADAPTIVE NAMED ENTITY RECOGNITION BASED ON CONDITIONAL RANDOM FIELDS WITH AUTOMATIC UPDATED DYNAMIC GAZETTEERS Tsinghua National Laboratory for Information Science and Technology ( TNList ).‖ : 363–67.
R1.2-5