Prediksi Kepribadian Big 5 Pengguna Twitter dengan Support Vector Regression Agnes Theresia Damanik
Masayu Leylia Khodra
Institut Teknologi Bandung
Institut Teknologi Bandung
[email protected]
[email protected]
ABSTRAK Informasi biografi dan tweets dari pengguna Twitter dapat dimanfaatkan untuk menggambarkan kepribadian Big 5, yang terdiri dari openness, conscientiousness, extraversion, agreeableness, dan neuroticism. Makalah ini membahas penggunaan infomasi pengguna Twitter untuk membentuk suatu model pembelajaran prediksi kepribadian Big 5. Fitur yang digunakan sebagai eksperimen terdiri dari dua fitur utama, yaitu fitur perilaku sosial dan linguistik. Fitur linguistik yang digunakan terbagi atas 2 bagian besar, yaitu fitur kategori kata dari kamus yang dibangun secara manual dan fitur yang diekstrak langsung dari data pada Twitter. Dari eksperimen dan pengujian yang dilakukan dengan metode Support Vector Regression (SVR), didapatkan bahwa secara keseluruhan model pembelajaran yang paling baik dalam memprediksi kepribadian pengguna Twitter adalah model yang menggunakan gabungan fitur perilaku sosial dan linguistik bigram. Model tersebut menghasilkan nilai Mean Absolute Error (MAE) terkecil 0.2739, sedangkan nilai Pearsoncorrelation terbesar 0.8559 didapatkan untuk kepribadian Extraversion.
Kata Kunci fitur perilaku sosial, fitur linguistik, kepribadian Big 5, SVR, twitter.
1. PENDAHULUAN Kepribadian Big 5 merupakan salah satu metode yang dikenal dalam dunia psikologi untuk menginterpretasi kepribadian seseorang, terutama untuk menemukan hubungan kepribadian dengan lingkungan pekerjaan. Kepribadian Big 5 terdiri dari openness (O), conscientiousness (C), extraversion (E), agreeableness (A), dan neuroticism (N) (Costa dkk, 1991). Kepribadian O memiliki imajinasi yang aktif, kepekaan terhadap estetika, kepedulian terhadap perasaan pribadi, ketertarikan terhadap perbedaan, keingintahuan intelektual, dan kebebasan berpendapat. Kepribadian C berhubungan erat dengan mengendalikan impulse, pengendalian diri demi perencanaan yang matang, pengaturan, dan pengerjaan tugas-tugas. Kepribadian E percayadiri, aktif, cerewet, optimis, serta menyukai kesenangan dan selalu merasa ceria secara alami. Kepribadian A mengutamakan orang lain, simpatik terhadap orang lain, dan suka menolong. Kepribadian N cenderung mengalami perasaanperasaan negatif seperti ketakutan, kesedihan, rasa canggung, kemarahan, rasa bersalah, dan rasa benci atau jijik. Pengukuran kepribadian Big 5 dapat dilakukan dengan menggunakan berbagai metode. Salah satu metodenya adalah metode BFI (John et al, 1991) berupa kuesioner berisi 44 pertanyaan berisi sifat-sifat berbentuk skala dari paling tidak setuju sampai paling setuju dengan setiap sifat menggambarkan setiap kepribadian Big 5. Jawaban kuesioner dikalkukasi dengan rumus sesuai dengan metode yang dipilih. Cara ini memiliki kekurangan, yaitu dibutuhkannya partisipasi aktif dari orang yang
14
hendak diprediksi kepribadiannya untuk menjawab pertanyaanpertanyaan kuesioner dan orang sering tidak mengetahui kecenderungan sifatnya sehingga menyebabkan hasil prediksi kurang valid. Kepribadian berhubungan dan mempengaruhi beberapa aspek dari linguistik. Prediksi berdasarkan linguistik dilakukan dengan menganalisis pemilihan kata-kata dan letak kata-kata tersebut di dalam kategori yang ditentukan sesuai dengan bahasa yang digunakan. Analisis linguistik telah dilakukan terhadap esai bebas, alamat email, profil Facebook, blog, penggunaan bahasa seharihari, pesan singkat, dll. Para psikolog telah mendokumentasikan keberadaan hubungan kepribadian-linguistik dengan menemukan korelasi berbagai variabel linguistik dengan kepribadian. Beberapa perusahaan, khususnya perusahaan industri menengah ke atas, telah menggunakan media sosial untuk mempertimbangkan penerimaan pegawai baru, selain hasil tes psikologi formal yang selalu dilakukan (CareerBuilder, 2012). Berdasarkan hal ini, kepribadian seseorang dapat diprediksi berdasarkan informasi pada akun media sosialnya, seperti Facebook atau Twitter. Gosling (2007) menemukan bahwa profil Facebook memberikan nilai yang konsisten terhadap kepribadian Big 5 terutama untuk E dan O. Makalah ini bertujuan untuk membangun model prediksi kepribadian Big 5 dari pengguna twitter dengan menggunakan Support Vector Regression (SVR). Saat ini belum ada penelitian yang memprediksi kepribadian Big 5 untuk pengguna Twitter. Pada makalah ini dilakukan analisis terhadap perilaku sosial pengguna Twitter dan penggunaan linguistik ketika menuliskan tweet dan biografinya untuk menemukan fitur-fitur yang paling sesuai membentuk model pembelajaran memprediksi kepribadian pengguna. Untuk menemukan fitur dari penggunaan linguistiknya, penelitian ini menggunakan dua pendekatan yang selama ini dilakukan secara terpisah dalam penelitian lain. Pendekatan pertama adalah closed-vocabulary, yaitu menggunakan kamus kata dan pendekatan kedua adalah open-vocabulary, yaitu mengekstrak fitur dari data yang digunakan. Model pembelajaran akan dibentuk menggunakan masing-masing fitur dan pada akhirnya seluruh fitur akan digabung. Pada bagian berikutnya akan dibahas tentang kajian yang dilakukan terhadap penelitian terkait linguistik dan Twitter terhadap kepribadian Big 5. Bagian berikutnya membahas tentang sistem prediksi kepribadian yang dibangun. Bagian 4 membahas eksperimen yang dilakukan, selanjutnya bagian berikutnya memberikan kesimpulan dan saran yang didapatkan dari penelitian yang dilakukan.
2. KAJIAN TERKAIT Model kepribadian Big 5 Goldberg (1981) terbukti mempengaruhi tingkah laku seseorang pada lingkungannya, seperti mempengaruhi keahlian berdagang seorang sales (Furnham dkk., 1999), kemampuan dan motivasi akademis (Furnham & Mitchell,
Agnes Theresia Damanik, Masayu Leylia Khodra
1991; Komarraju & Karau, 2005), kemampuan memimpin (Hogan dkk., 1994), dan mempengaruhi kinerja pekerjaan (Furnham dkk., 1999). Salah satu pengukuran Big 5 yang paling sederhana adalah pengukuran BFI (John dkk, 1991). BFI merupakan kuesioner berisi 44 pertanyaan yang mengandung sifat-sifat yang menggambarkan kepribadian Big 5. Kepribadian Big 5 adalah berikut (Costa dkk, 1991). Openness (O)
Conscientiousness (C)
O adalah imajinasi yang aktif, kepekaan terhadap estetika, kepedulian terhadap perasaan pribadi, ketertarikan terhadap perbedaan, keingintahuan intelektual, dan kebebasan berpendapat. C berhubungan erat dengan pengendalian diri demi perencanaan yang matang, pengaturan, dan pengerjaan tugas-tugas. Biasanya C berhubungan dengan prestasi dalam bidang akademik dan karier.
Extraversion (E)
E adalah sosialis yaitu menyukai perkumpulan dan berkumpul. E percaya diri, aktif, cerewet, optimis.
Agreeableness (A)
A adalah tendensi untuk berinteraksi. Kepribadian A mengutamakan orang lain, simpatik terhadap orang lain, dan suka menolong.
Neuroticism (N)
N cenderung mengalami perasaan-perasaan negatif seperti ketakutan, kesedihan, rasa canggung, kemarahan, rasa bersalah, dan rasa benci atau jijik. Kepribadian N bernilai rendah menandakan emosi yang stabil, tenang.
2.1 Kepribadian Berdasarkan Linguistik Pennebaker dan King (1999) melakukan analisis terhadap esai yang ditulis oleh sejumlah mahasiswa dan membandingkan hasil yang didapatkan dengan hasil kuesioner yang diisi mahasiswamahasiswa tersebut sebelumnya. Penelitian ini memanfaatkan kakas LIWC untuk penghitungan kategori kata. Hasil yang didapat adalah bahwa N sering menggunakan kata ganti orang pertama tunggal dan kata bermakna negatif dibandingkan dengan kata bermakna positif. A lebih sering menggunakan kata bermakna positif dibandingkan dengan kata bermakna negatif dan sedikit menggunakan articles. Sedikit dari C ditemukan menggunakan kata negasi, kata bermakna negatif, dan kata diskrepansi (contoh: seharusnya, seandainya). O ditemukan menulis kalimat yang panjang dan kalimat yang mengekspresikan tentatif (contoh: mungkin). Sedikit dari O menggunakan kata ganti orang pertama tunggal dan bentuk present tense. Nowson (2006) melakukan analisis linguistik terhadap blog dan menemukan hubungan linguistik dan kepribadian Big 5. E sering menggunakan kata-kata di kategori social process, dan human serta jarang menggunakan kata-kata di kategori occupation, achievement, discrepancy, school, dan TV. A cenderung menulis kalimat yang terdiri dari 6 kata atau lebih dan sering menggunakan articles serta jarang menggunakan kata discrepancy dan negation. Sedikit dari C yang menggunakan kata-kata di kategori death. N menggunakan kata-kata di kategori discrepancy, work, anciety, future tense verb, eating, dan physical state serta jarang menggunakan kata-kata di kategori human. Dan O menggunakan kalimat berjumlah 6 kata atau lebih, kata-kata di
kategori positive emotion, grooming, inclusive, dan preposition seta jarang menggunakan kata-kata di kategori school dan occupation. Watson & Clark (1992) menemukan E dan C berhubungan erat dengan emosi positif, N berkorelasi positif dengan emosi negatif, dan A berkorelasi negatif dengan emosi negatif. Mehl (2006) menemukan bahwa O sering menggunakan kalimat yang membuka wawasan dan A berkorelasi negatif dengan penggunaan kata-kata umpatan/caci maki (swear words). Penelitian di atas menggunakan kamus kategori-kata yang bernama Linguistic Inquiry and Word Count (LIWC). Schwartz (2013) menggunakan pendekatan data-driven atau dikenal sebagai pendekatan open-vocabulary untuk melakukan analisis linguistik dan menemukan bahwa E menggunakan n-gram bermakna sosial (‘love you’, ‘party’, ‘boys’, ‘ladies’) dan N menggunakan ‘depression’, ‘sick of’, ‘I hate’. Iacobelli (2011) menggunakan pendekatan open-vocabulary dan menemukan bahwa E menggunakan kata sumpah serapah yang kasar (‘you f**ck’, ‘b**ch I’,’ was f**k’), lokasi (‘i’m at’), dan kata bermakna sosial dan positif (‘dance i’, ‘a club’, ‘fun anyway’). A menggunakan kata sumpah serapah yang lebih halus daripada E (‘like s**t’, ‘the hell’) dan kata bermakna positif (‘even better’, ‘of beauty’). Dan C menggunakan kata-kata yang mencerminkan perencanaan, prestasi, dan evaluasi diri (‘to study’, ‘on track’, ‘succeed in’)
2.1.1 Pendekatan Closed-Vocabulary Pendekatan closed-vocabulary adalah metode yang umum digunakan dalam menganalisis hubungan antara bahasa dan variabel-variabel psikologi. Pendekatan closed-vocabulary bergantung pada penghitungan kata di dalam suatu kategori tertentu. Pengelompokan kata tersebut dilakukan oleh beberapa pakar. LIWC (Linguistic Inquiry and Word Count) adalah kakas yang dikembangkan Pennebaker sejak tahun 2007 yang berfungsi sebagai program penghitung kata otomatis berdasarkan kategorinya. LIWC memiliki 64 kategori teks. Versi terakhir dari LIWC adalah LIWC2007 dan telah melalui tahapan yang berlangsung bertahun-tahun karena domain kategori-kata dianggap semakin berkembang seiring dengan bertambahnya waktu. Tahapan yang dilakukan untuk membangun kamus LIWC dibagi menjadi 4 langkah yaitu koleksi kata, fase peratingan oleh pakar, evaluasi psikometrika, serta perubahan dan ekspansi. Tabel 1 menampilkan seluruh fitur LIWC2007 serta korelasinya terhadap linguistik berdasarkan penelitian Yarkoni (2010) yang menggunakan analisis LIWC terhadap penggunaan kata para blogger (ns = not significant pada p<.05).
2.1.2 Pendekatan Open-Vocabulary Pendekatan open-vocabulary merupakan kebalikan dari pendekatan closed-vocabulary. Perbedaan yang paling jelas adalah pendekatan open-vocabulary tidak membutuhkan kamus kata dan pengelompokan kosakata ke dalam kategori tertentu. Pada pendekatan open-vocabulary, data melakukan eksplorasi sendiri terhadap penggunaan kata untuk menemukan hubungan antar kata dengan kepribadian. Hasil yang didapatkan dari pendekatan open-vocabulary adalah pengetahuan baru mengenai kaitan bahasa dan kepribadian, contoh pada penelitian yang dilakukan Schwartz (2013) ditemukan bahwa orang yang memiliki kepribadian N paling rendah sering menggunakan kata bertemakan olahraga.
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3
15
Tabel 1. Kategori LIWC dan nilai korelasi Yarkoni (2010) LIWC Category Total function words Total pronouns Personal pronouns 1st person singular 1st person plural 2nd person 3rd person singular 3rd person plural 3rd person overall Impersonal pronouns Articles Common verbs Auxiliary verbs Past tense Present tense Future tense Adverbs Prepositions Conjunctions Negations Quantifiers Numbers Swear words Social Processes Family Friends Humans Affective Processes Positive Emotions Negative Emotions Anxiety Anger Sadness Cognitive Processes Insight Causation Discrepancy Tentative Certainty Inhibition Inclusive Exclusive Perceptual Processes Seeing Hearing Feeling Biological Processes Body Health Sexuality Ingestion Relativity Motion Space Time Work Achievement Leisure Home Money Religion Death Assent Nonfluencies Fillers
E ρ ns ns 0.11 0.16 ns ns ns ns ns ns ns -0.12 ns 0.15 0.09 0.15 0.13 0.09 0.1 ns ns ns ns ns ns -0.09 ns -0.11 0.1 -0.13 0.09 ns 0.09 ns 0.12 ns 0.14 0.1 0.17 ns ns -0.08 -0.09 0.08 ns ns 0.11 ns ns -
A ρ 0.11 ns 0.18 ns ns ns 0.1 ns ns ns ns 0.11 -0.21 0.13 0.19 0.11 ns ns 0.18 -0.15 ns -0.23 ns ns ns -0.11 ns ns ns ns 0.18 ns ns 0.09 ns 0.1 0.09 0.09 0.08 0.16 0.12 ns ns 0.15 0.19 -0.11 ns -0.13 ns -
C ρ ns ns ns ns ns 0.09 ns ns ns ns -0.17 ns -0.14 ns ns ns -0.12 ns ns -0.18 ns -0.19 -0.11 -0.11 ns -0.12 -0.13 -0.1 -0.1 ns ns -0.16 -0.1 ns -0.12 ns ns ns ns ns 0.09 ns 0.14 ns ns ns ns -0.12 -0.09 -
N ρ ns 0.12 ns -0.15 ns -0.11 ns ns ns ns 0.11 ns 0.11 ns ns -0.08 ns ns ns 0.16 0.17 0.13 0.1 0.13 ns 0.11 0.13 0.12 0.13 0.09 ns 0.1 ns ns ns 0.1 ns ns ns -0.09 ns ns ns ns ns ns ns ns ns -
O ρ -0.21 -0.16 -0.1 -0.12 ns 0.2 -0.16 -0.16 ns 0.17 -0.13 -0.08 ns -0.14 -0.17 ns -0.09 -0.12 -0.15 ns ns ns ns -0.09 ns ns -0.12 ns ns ns 0.11 ns -0.11 ns -0.08 ns -0.09 -0.04 ns -0.11 -0.22 ns ns -0.17 -0.2 ns ns 0.15 -0.11 -
Dengan demikian pengetahuan baru yang didapatkan adalah olahraga dapat menjadikan keadaan emosional seseorang lebih stabil. Ilustrasi mengenai hal tersebut dapat dilihat pada Gambar II.2. Karakteristik dari pendekatan open-vocabulary adalah sebagai berikut. 1.
16
Kata-kata tidak dibatasi pada kata yang berada di dalam daftar kata tertentu. Fitur linguistik seperti kata dan frasa ditentukan secara otomatis dari data yang digunakan. Hal ini menyebabkan jumlah data latih yang diperlukan harus sangat banyak. 2.
Discriminating
Langsung menemukan fitur linguistik utama, yaitu kata dan frasa yang mencerminkan kepribadian. 3.
Sederhana
Pembentukan fitur dilakukan dengan cara yang sederhana yaitu fitur ngram. Langkah-langkah yang dilakukan dalam melakukan pendekatan open-vocabulary adalah melakukan ekstraksi fitur linguistik dilanjutkan dengan melakukan seleksi fitur. Ekstraksi fitur linguistik dilakukan dengan cara memecah kalimat ke dalam beberapa kata dan frasa (sekuens dari dua hingga tiga kata) dengan menggunakan n-gram dengan maksimal n=3. Iacobelli (2011) mendapatkan hasil yang terbaik dengan bigram sedangkan Schwartz menggunakan n=1 sampai n=3. Ketika melakukan ekstraksi kata dan frasa, kata dan frasa diberi bobot dengan pembobotan TF*IDF. Seleksi fitur bertujuan untuk menjelaskan data dengan cara yang lebih sederhana karena fitur yang redundant dibuang, mengurangi collinearity yang disebabkan oleh terlalu banyaknya variabel yang melakukan pekerjaan yang sama, dan menghemat waktu dalam pembentukan model pembelajaran
2.2 Kepribadian Berdasarkan Perilaku Sosial Perilaku sosial mendefinisikan kepribadian melalui frekuensi penggunaan media sosial dan tingkat keaktifan antar pengguna (Golbeck dkk, 2011). Fitur yang menunjukkan tingkat perilaku sosial pengguna Twitter berdasarkan penelitian yang dilakukan Golbeck (2011) adalah sebagai berikut. Follower:
Follower adalah pengguna Twitter lain yang mengikuti pengguna yang diacu. Follower dapat melihat tweet pengguna yang diacu pada halaman muka akun Twitter mereka.
Friend:
Friend adalah pengguna yang diacu menjadi follower dari pengguna lain.
Jumlah mention:
Mention yang ditandai dengan ‘@username’ menunjukkan tingkat interaksi pengguna Twitter dengan pengguna lain.
Jumlah hashtag:
Hashtag menunjukkan keterlibatan pengguna dengan isu/topik yang sedang dibahas. Hashtag ditandai dengan karakter ‘#’.
Jumlah reply:
Reply adalah mention dari pengguna lain kepada pengguna Twitter yang diacu.
Jumlah URL:
URL adalah tautan berupa informasi website/blog yang dicantumkan pengguna.
Jumlah kata dalam tweet:
Tweet adalah tulisan yang terdiri dari kumpulan kata dengan panjang maksimal 140 karakter. Jumlah kata dalam tweet adalah total kata yang menyusun tweet itu.
Dalam penelitian Golbeck (2012) ditemukan bahwa kepribadian N berkorelasi positif dengan standar deviasi dari panjang teks yang tinggi. Kepribadian E ditemukan berkorelasi positif dengan
Kamus kata yang tidak terbatas
Agnes Theresia Damanik, Masayu Leylia Khodra
teks yang panjang dan kepribadian A berkorelasi positif dengan topik baru dan keseringan dalam melakukan reply. Selain delapan komponen di atas, terdapat komponen dari Twitter yang dapat dijadikan pertimbangan dalam melakukan analisis pemilihan fitur yang menunjukkan tingkat keaktifan perilaku sosial pengguna Twitter sebagai berikut. Favourites:
Favourites adalah tweet pengguna lain yang difavoritkan oleh pengguna yang diacu.
Retweeted:
Retweeted adalah jumlah pengguna lain melakukan retweet terhadap tweet yang ditulis sendiri oleh pengguna yang diacu.
Retweet:
Retweet yang ditandai dengan ‘RT’ menunjukkan pengguna yang diacu mengulangi tweet pengguna lain.
2.3 Support Vector Regression (Svr) Model pembentuk kepribadian yang dibangun menggunakan regresi adalah model yang sangat akurat (Mairesse, 2007). Tujuan utama dari persoalan regresi adalah menunjukkan hubungan antara dua variabel. Variabel yang satu, sebagai predictor, digunakan untuk memprediksi nilai variabel yang lainnya, sebagai response. Meskipun hasil prediksi variabel response dari variabel predictor tidak selalu sempurna, response yang dihasilkan akan lebih akurat apabila melihat hubungan antara kedua variabel dibandingkan dengan tanpa menggunakan variabel predictor. Sehingga dapat dituliskan untuk x sebagai predictor dan y sebagai response: Untuk himpunan
{
}
Inti dari metode Support Vector (SV) adalah memetakan data pembelajaran yang tidak linier ke dalam feature space (dot product space) F melalui Φ (non-linear map), dan membangun sebuah pemisah (separating hyperlane) di dalam dimensi yang lebih tinggi tersebut. Keadaan ini menciptakan sebuah pembatas nonlinier pada input space. Untuk menghitung separating hyperplane tanpa secara eksplisit memasukkan Φ ke dalam F, kita menggunakan fungsi kernel k.
(
) )
(
)}
( ( )
;
( ))
Dalam menyelesaikan permasalahan regresi, algoritma SVR akan membangun sebuah fungsi linier di dalam feature space sehingga nilai dari data pembelajaran berada pada rentang . Dengan menggunakan persamaan suku dua (quadratic) sebagai kernel, permasalahan prediksi regresi dirumuskan sebagai berikut, ( )
∑
Penggunaan kernel menjadi salah satu keunggulan SVR karena kesulitan dalam menggunakan fungsi linier pada feature space berdimensi lebih tinggi dapat dihindari (Vapnik, 1999). Performansi SVR ditentukan juga oleh pengaturan metaparameter dari parameter C, ԑ, dan kernelnya, sama seperti persoalan klasifikasi menggunakan metode SV.
2.4 Sistem Prediksi Kepribadian Sistem yang dibangun terdiri dari tiga bagian, yaitu crawler, predictor, dan interface. Keterhubungan antara ketiga bagian diacu pada Gambar 1. Crawler adalah bagian yang berfungsi sebagai pengumpul data Twitter. Crawler memanfaatkan Twitter API untuk mengumpulkan data. Predictor adalah bagian yang berfungsi sebagai penginterpretasi kepribadian Big 5 pengguna. Interface adalah bagian yang berfungsi sebagai presentasi hasil kepribadian Big 5 dan penggunaan Twitter pengguna. Selain itu, interface juga menampilkan kamus kategori yang digunakan untuk pendekatan closed-vocabulary dan pengguna sistem dapat menambahkan atau membuang kata di dalam kamus tersebut.
{ }.
Model regresi menunjukkan hubungan sebab akibat antara x dan y, x dapat digunakan untuk memprediksi y dan y dapat digunakan untuk memprediksi x. Sehingga untuk sepasang variabel terjadi dua kemungkinan regresi (Lavine, 2013). Hubungan sebab akibat kedua variabel dapat diukur dengan menghitung keeratan hubungan keduanya atau korelasi. Korelasi juga menunjukkan seberapa baik predictor menentukan nilai response.
Untuk data pembelajaran {(
otomatis dengan kita menentukan batas atas dari nilai data pembelajaran yang diperbolehkan di luar rentang dimulai dari prediksi regresi.
(
)
Pada rumusan tersebut, kita dapat memilih apakah menentukan nilai secara spesifik terlebih dahulu atau nilai dihitung secara
Gambar 1. Sistem prediksi kepribadian Big 5 pengguna Twitter Berdasarkan studi terhadap kajian terkait, makalah ini menggunakan dua fitur utama, yaitu fitur linguistik dan fitur perilaku sosial. Berdasarkan metode linguistik yang dijelaskan pada bagian kajian terkait, maka fitur linguistik dibedakan menjadi dua bagian besar, yaitu fitur linguistik closed-vocabulary dan fitur linguistik open-vocabulary. Penentuan fitur linguistik closed-vocabulary dengan cara mengambil kategori kata LIWC yang menunjukkan nilai korelasi paling signifikan terhadap setiap kepribadian Big 5. Nilai korelasi yang paling signifikan dibatasi untuk kategori yang memperoleh korelasi lebih besar dari 0.1. Hal ini dilakukan dengan tujuan mengambil beberapa kategori yang paling dapat membedakan kepribadian saja dengan harapan hasil yang diperoleh tidak akan berbeda jauh dengan hasil yang diperoleh ketika menggunakan seluruh kategori LIWC. Selain itu hal ini dilakukan karena penentuan kosakata tidak akan melibatkan pakar di bidang bahasa, dengan demikian menentukan kosakata untuk beberapa kategori kata yang paling signifikan dirasa lebih mudah dibandingkan menentukan kosakata untuk seluruh kategori LIWC. Nilai korelasi yang digunakan diperoleh dari penelitian yang dilakukan terhadap blog sesuai dengan yang diacu pada Subbab 2.1.1. Alasan menggunakan nilai korelasi tersebut adalah karena penelitian tersebut juga dilakukan memanfaatkan LIWC.
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3
17
Pada kepribadian C, kategori yang memberikan nilai korelasi di atas 0.1 hanya satu kategori sementara kepribadian lainnya dapat memperoleh empat hingga lima kategori kata. Oleh karena itu, agar tidak terlalu sulit dibedakan dari kepribadian lainnya, pada kepribadian C batas nilai korelasi diturunkan menjadi 0.09 sehingga dengan demikian didapatkan tiga kategori kata yang dapat membedakan kepribadian C dengan kepribadian lainnya. Tabel 2 menampilkan 20 kategori yang didapatkan. Kosakata yang dimasukkan ke dalam kategori kata yang ditentukan ditentukan tanpa melibatkan pakar di bidang bahasa. Apabila melibatkan pakar bidang bahasa dalam pembangunan kamus maka kamus yang dihasilkan lebih baik dan terpercaya. Hal tersebut tidak dapat digunakan karena kekurangan sumber daya manusia. Untuk menutupi kekurangan tersebut, kosakata yang dimasukkan ke dalam kamus berasal dari contoh kata yang diberikan pada situs resmi LIWC, situs bertemakan linguistik, dan definisinya dalam bahasa Indonesia dan bahasa Inggris. Bahasa Inggris turut disertakan karena pengguna menulis tweet dalam bahasa Indonesia dan bahasa Inggris. Selain kategori LIWC tersebut, terdapat fitur yang tidak tercakup di dalam kategori LIWC. Tabel 3 merangkum fitur-fitur tersebut. Mengacu pada Subbab 2.1.2, penentuan fitur linguistik untuk metode open-vocabulary dilakukan dengan ekstraksi fitur, yaitu dengan cara memecah isi tweet ke dalam beberapa kata dan frasa (dibatasi menjadi sekuens dari dua kata) dengan menggunakan ngram dengan n dari 1 sampai 2. Selanjutnya seleksi fitur dilakukan terhadap hasil ekstraksi yang didapatkan. Penentuan fitur perilaku sosial dilakukan dengan menganalisis fitur yang diacu pada Subbab 2.2. Tabel 4 menampilkan keseluruhan fitur.
Pengumpulan data dilakukan dengan dua tahapan. Data yang didapat di tahap pertama digunakan sebagai pelabelan untuk data yang dikumpulkan pada tahap kedua dan selanjutnya digunakan sebagai data pembelajaran.
Tabel 2. Kategori LIWC yang memberikan signifikan pada nilai korelasi ρ di atas 0.1
C
E
A
N
18
Kategori LIWC prepositions death articles inclusive achievement time articles 2nd person social processes friends sexual biological processes 1st person plural family positive emotion inclusive home negative emotions anxiety anger discrepancy certainty
Data pada tahap kedua didapatkan dari isi Twitter dari pengisi kuesioner sebelumnya. Tweet pengguna yang diambil adalah 200 tweet terbaru termasuk mention, retweet, dan reply. Sebanyak 10 data kuesioner dipisahkan dari data keseluruhan untuk digunakan dalam pengujian terhadap model pembelajaran yang terbentuk melalui eksperimen.
Tabel 3 Fitur linguistik closed-vocabulary Fitur bio_length
numbers long_word positiv_emoticon negative_emoticon
Keterangan Fitur biografi. Menjelaskan jumlah kata yang digunakan pengguna untuk membentuk biografi Fitur tweet. Menjelaskan jumlah angka dalam tweet Fitur tweet. Menjelaskan jumlah kata yang diperpanjang Fitur tweet. Menjelaskan jumlah emoticon bermakna positif, contoh: ^^,:),:-) Fitur tweet. Menjelaskan jumlah emoticon bermakna negatif, contoh: vv,:(,:-(
Tabel 4 Fitur perilaku sosial
2.5 Pengumpulan Data
Big 5 O
Data tahap pertama didapatkan dari pengisian kuesioner BFI seperti yang dijelaskan pada bagian Kajian Terkait. Sebanyak 119 pengguna Twitter yang secara sukarela mengisi kuesioner memiliki latar belakang mahasiswa dan sarjana muda yang berada pada kisaran usia 19 hingga 25 tahun. Hal tersebut terjadi karena penyebaran kuesioner dilakukan oleh orang yang telah mengisi kuesioner sebelumnya sehingga persebaran usia dan latar belakangnya tidak terlalu luas.
Korelasi (ρ) 0.17 0.15 0.2 0.11 0.14 0.09 0.09 0.16 0.15 0.15 0.17 0.14 0.18 0.19 0.18 0.18 0.19 0.16 0.17 0.13 0.13 0.13
Contoh kata dengan, di atas bunuh, makam sang, si, para dan, juga, semua rencana, tugas jam, menit, detik sang, kaum, umat anda, kamu, kau manusia, public pacar, rival hasrat, cinta, suka perut, sakit, makan kami, kita, us ibu, daging, pulang semangat, keren dan, juga, semua privasi, tenang bosan, kasar galau, pucat, panik cuek, frustrasi andai, kalau, dong yakin, pasti, pernah
Fitur Follower Friend Favourites Retweeted Retweet Not_Retweet URL Hashtag Mention Length
Keterangan Follower Friend Favourites Jumlah status yang di-retweet pengguna lain Fraksi tweet berupa retweet Fraksi tweet bukan retweet Rata-rata jumlah URL di dalam tweet Rata-rata jumlah hashtag dalam tweet Rata-rata jumlah mention dalam tweet Rata-rata panjang tweet
Tujuan pengambilan data kuesioner adalah menggunakan hasilnya sebagai pelabelan data pembelajaran. Pada awalnya terdapat dua pertimbangan cara pelabelan data pembelajaran, yaitu menggunakan hasil kuesioner dan menggunakan hasil interpretasi kepribadian oleh psikolog. Cara pertama memiliki beberapa kekurangan, yaitu pengisi kuesioner bisa berbohong, tidak memahami maksud pertanyaan, dan tidak mengenali kepribadiannya. Cara kedua adalah cara yang lebih baik daripada yang pertama karena melibatkan pakar namun cara kedua tidak dapat digunakan pada penelitian ini karena tidak tersedianya sumber daya manusia yang mencukupi dengan jumlah data. Pengujian terhadap model pembelajaran dilakukan dengan menggunakan 10 data yang dipisahkan dari keseluruhan data yang digunakan dalam pembelajaran. Hasil perhitungan kepribadian Big 5 versi BFI dari kesepuluh data pengujian ditampilkan pada Tabel 5. Rangkuman hasil perhitungan kuesioner BFI dirumuskan dalam bentuk hasil interpretasi yang diberikan oleh pakar psikolog
Agnes Theresia Damanik, Masayu Leylia Khodra
agar dapat lebih mudah dibandingkan. Perbandingan rangkuman dari hasil penghitungan kuesioner data pengujian dengan hasil interpretasi yang diberikan oleh pakar psikolog terhadap data Twitter pengguna yang akan digunakan sebagai pembelajaran, yaitu jumlah follower, friend, favourites, retweeted, biografi, dan isi dari 200 tweet ditampilkan pada Tabel 6. Menurut Tabel 6, psikolog menginterpretasikan kepribadian seseorang sebagai nilai yang paling dominan diantara kelima variabel kepribadian yang ada. Dengan merangkum hasil kuesioner ke dalam bentuk interpretasi psikolog maka ditemukan bahwa tiga dari sepuluh data memenuhi interpretasi psikolog, yaitu data ke-2, ke-5, dan ke-9. Selain itu ada dua data lain yang memenuhi sebagian interpretasi psikolog, yaitu data ke-1 dan ke3. Dikatakan memenuhi sebagian interpretasi psikolog adalah karena sebenarnya psikolog menemukan dua kepribadian dominan dari data tersebut namun kedua kepribadian tersebut hanya memenuhi satu kepribadian diantara dua kepribadian dominan yang ditemukan apabila merumuskan hasil kuesioner BFI berdasarkan dua kepribadian yang memperoleh nilai paling tinggi. Perbandingan tersebut menunjukkan bahwa mungkin model pembelajaran yang dibentuk akan berbeda apabila seluruh data pembelajaran murni dilabeli dengan hasil interpretasi pakar. Model pembelajaran tersebut mungkin akan menunjukkan hasil yang lebih baik. Selain itu interpretasi dari psikolog pada Tabel 6. memberikan wawasan bahwa dunia psikologi memandang kepribadian seseorang dapat didefinisikan sebagai satu atau dua kepribadian yang paling dominan saja. Hal ini menunjukkan bahwa nilai riil setiap kepribadian tidak terlalu penting. Yang terpenting adalah perbandingan nilai yang diperoleh antar kelima kepribadian tersebut.
Tabel 5. Hasil kuesioner data pengujian beserta rangkuman hasil Data 1 2 3 4 5 6 7 8 9 10
Hasil perhitungan BFI O C E 3.6 3.77 3.5 3.5 2.77 3.75 2.9 2.66 3.62 3.6 3.44 3.37 4.6 3.33 3.5 4.1 3.33 4.5 3.7 3 2.62 3.5 4 4.12 3.6 3.11 3 3.2 2.55 3.37
Pelabelan A 3.88 3.44 2.66 4.33 3.44 4.33 3.33 3.88 3.33 4.11
N 3 3.12 3.6 1.75 2.75 3.75 3.5 1.25 3 2.62
Dominan A dan C Dominan E Dominan E dan N Dominan A Dominan O Dominan E Dominan O Dominan C dan E Dominan O Dominan A
Tabel 6. Perbandingan rangkuman hasil kuesioner data pengujian dengan interpretasi psikolog Data
Rangkuman pelabelan
Interpretasi psikolog (terhadap data Twitter)
1 2 3 4 5 6 7 8 9
Dominan A dan C Dominan E Dominan E dan N Dominan A Dominan O Dominan E Dominan O Dominan C dan E Dominan O
Dominan C dan E Dominan E Dominan A dan N Dominan E Dominan O Dominan O Dominan E Dominan C dan E Dominan O
10
Dominan A
Dominan O
2.6 Praproses Data Praproses bertujuan untuk mengubah data tweet mentah ke dalam bentuk yang lebih sederhana sehingga dapat diekstraksi fiturfiturnya. Praproses yang dilakukan terhadap isi tweet adalah sebagai berikut.
Menghapus retweet. Retweet adalah tweet pengguna lain yang dikutip oleh pengguna. Hal tersebut menyebabkan isi retweet tidak dapat menunjukkan kepribadian pengguna secara langsung. Retweet dihilangkan dari tweet agar tweet berisikan opini pengguna saja. Penghitungan penggunaan retweet tetap dihitung meskipun kontennya dibuang.
Menghapus mention
Menghapus hashtag
Menghapus URL
Casefolding Mengubah seluruh huruf dalam tweet menjadi huruf kecil
Mengganti seluruh angka dengan common token ‘numbers’
Mengganti seluruh ekspresi tawa dengan common token ‘laughter’
Menghapus karakter khusus (contoh: !$*&^)(-_=-‘:)
Bagian biografi pengguna bisa berisi dan kosong. Oleh karena itu, bagian biografi diwakili oleh panjangnya saja, yaitu jumlah kata pembentuk biografi.
3. EKSPERIMEN Eksperimen dilakukan dengan memisahkan dataset yang sudah diberi label menjadi dua bagian. Bagian pertama data digunakan sebagai data pembelajaran untuk membentuk model pembelajaran dan bagian kedua data digunakan sebagai pengujian model pembelajaran yang telah terbentuk. Eksperimen dilakukan menggunakan kakas Weka yang menyediakan algoritma Support Vector Regression (SVR). Kemudian model pembelajaran yang sudah dibentuk dievaluasi dengan skema 10 fold cross validation, ukuran kinerja model pembelajaran ditentukan melalui pengukuran Mean Absolute Error (MAE) dan Pearson-correlation r yang tersedia pada Weka. Eksperimen terdiri dari tiga tahapan besar, yaitu eksperimen menggunakan fitur perilaku sosial, eksperimen menggunakan fitur linguistik, dan eksperimen menggunakan gabungan fitur. Eksperimen mengunakan fitur linguistik dibagi menjadi dua bagian, yaitu eksperimen menggunakan metode closedvocabulary dan eksperimen menggunakan metode openvocabulary. Eksperimen menggunakan gabungan fitur juga dibagi menjadi dua bagian, yaitu eksperimen menggunakan gabungan fitur dengan metode closed-vocabulary dan eksperimen menggunakan gabungan fitur dengan metode open-vocabulary. Berdasarkan hasil eksperimen, seringkali hasil kepribadian yang ditunjukkan pada pengujian tidak memberikan hasil yang sesuai dengan eksperimen. Hal ini dapat disebabkan oleh dua hal, yaitu kemungkinan pengguna tidak mengisi kuesioner yang digunakan sebagai pelabelan dengan baik dan kata-kata di dalam kamus tidak tepat mewakili kategorinya atau jumlah kata masih kurang. Selain
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3
19
itu hasil yang diperoleh pada eksperimen menggunakan fitur linguistik unigram dan pada eksperimen menggunakan gabungan fitur unigram adalah sama, yaitu menunjukkan bahwa korelasi kedua fitur tersebut paling positif untuk kepribadian A. Hal yang sama juga terjadi pada eksperimen menggunakan fitur linguistik bigram dan gabungan fitur bigram, yaitu memperoleh korelasi paling positif untuk kepribadian E. Kedua hal ini bukanlah hal yang aneh karena hasil seleksi fitur pada pembentukan model pembelajarannya adalah mirip. Perbedaan hanya terletak pada gabungan fitur, yaitu terdapat satu fitur dari fitur perilaku sosial yang turut membentuk model pembelajarannya.
linguistik lebih berguna untuk memprediksi atau mengenali kepribadian Big 5 pengguna. Satu hal lagi yang perlu diperhatikan, terutama ketika membandingkan hasil pengujian model pembelajaran dengan pelabelan data pengujian, bahwa pelabelan data dilakukan tanpa melibatkan pakar dan pengambilan data untuk pelabelan tidak dilakukan secara kolektif. Hal-hal ini menyebabkan pelabelan mungkin tidak valid untuk beberapa data dan valid untuk beberapa data. Selain itu, hal ini juga mempersulit penentuan model pembelajaran yang terbaik apabila didasarkan pada hasil pengujian.
Dari hasil seleksi fitur linguistik open-vocabulary ditemukan bahwa jumlah favourites mempengaruhi kepribadian O, rata-rata penggunaan retweet mempengaruhi kepribadian C, dan jumlah friend mempengaruhi kepribadian A, hal ini sesuai dengan definisi dan hasil analisis kepribadian A. Fitur perilaku sosial yang lolos seleksi fitur adalah jumlah favourites, fraksi retweet, dan jumlah friend. Selain fitur-fitur tersebut, fitur perilaku sosial tidak digunakan untuk memprediksi kepribadian pada model pembelajaran gabungan fitur. Dengan demikian berdasarkan data yang digunakan pada penelitian ini dapat disimpulkan bahwa fitur
4. HASIL DAN PEMBAHASAN Melalui eksperimen didapatkan model pembelajaran menggunakan fitur perilaku sosial (PS), model fitur linguistik closed-vocabulary (LC), model fitur linguistik open-vocabulary unigram (LOuni) dan bigram (LObi), model gabungan fitur closed-vocabulary (GC), dan model gabungan fitur openvocabulary unigram (GOuni) dan bigram (GObi). Tabel 7 menampilkan hasil dari eksperimen.
Tabel 7. Hasil eksperimen terhadap kombinasi fitur serta perolehan eror (MAE) dan korelasi (r) No 1 2 3 4 5 6 7
Model
O
PS LC LOuni LObi GC GOuni GObi
r 0.1172 0.0622 0.6892 0.6959 0.2419 0.6982 0.7365
C MAE 0.4245 0.4637 0.3104 0.308 0.4107 0.3061 0.2998
r 0.0439 -0.1164 0.8078 0.7649 0.0033 0.8078 0.8026
E MAE 0.5387 0.5586 0.2822 0.3092 0.5565 0.2822 0.2971
Berdasarkan hasil eksperimen yang diperoleh, dari seluruh model yang dibangun kepribadian O memiliki korelasi paling positif dengan model GObi. Kepribadian C memiliki korelasi paling positif dengan model GOuni. Kepribadian E memiliki korelasi paling positif dengan model GObi. Kepribadian A memiliki korelasi paling positif dengan model LObi. Yang terakhir kepribadian N memiliki korelasi paling positif dengan model GObi. Secara keseluruhan semua model yang memiliki korelasi positif dengan setiap kepribadian adalah model yang dibangun dengan pendekatan open-vocabulary dibandingkan pendekatan closedvocabulary dengan nilai korelasi yang berbeda sangat jauh. Penelitian sebelumnya memang telah menunjukkan bahwa pendekatan open-vocabulary menunjukkan hasil yang lebih memuaskan dibandingkan dengan pendekatan closed-vocabulary, namun bukan berarti pendekatan closed-vocabulary akan menghasilkan hasil yang sangat jelek. Hasil yang tidak cukup baik dari eksperimen ini mungkin disebabkan kurangnya kata-kata di dalam kamus kategori yang dibangun. Tabel 8 menampilkan perbandingan antara rangkuman pelabelan dan hasil pengujian yang diperoleh menggunakan model Gobi. Kepribadian A yang ditunjukkan oleh hasil pengujian memiliki jumlah friend yang tergolong tinggi berdasarkan pada data pembelajaran, yaitu berkisar pada 300-400 orang.
20
A
r 0.0852 -0.0849 0.7153 0.8559 -0.0326 0.7153 0.8559
MAE 0.5323 0.5847 0.3681 0.2739 0.575 0.3681 0.2739
N
r 0.2776 -0.1449 0.819 0.8351 0.0465 0.819 0.8329
MAE 0.3833 0.4616 0.2269 0.223 0.4246 0.2269 0.2275
r 0.1994 0.0396 0.7221 0.7455 0.1587 0. 7221 0.7455
MAE 0.5365 0.6113 0.3605 0.3748 0.5724 0.3605 0.3748
Tweet pengguna 1, yang mendapatkan hasil pengujian dominan kepribadian A, bernuansa positif ditunjukkan dengan banyaknya penggunaan token laughter. Contoh tweet pengguna 1 misalnya adalah ‘haha apeu banget, masak puding busa tapi penampilannya kayak brownies bakar amanda HAHAHAHA’,’ indah banget pagi ini. cerah, sejuk, tenang, ada suara burung2’.
Tabel 8. Hasil pengujian model pembelajaran menggunakan gabungan fitur bigram Data 1 2 3 4 5 6 7 8 9 10
Pelabelan A E E A O E O E O A
Hasil pengujian A A O A A A E E O O
Pada tweet pengguna 3, yang mendapatkan hasil pengujian berupa dominan kepribadian O, banyak ditemukan token numbers dan URL yang dianalisis sebagai sarana untuk memberikan informasi tambahan pada pengguna lain yang membaca tweet-nya. Beberapa contoh tweet dari pengguna 3 adalah ‘My Wet n Wild Megalast Matte Lipstick in "Just Peachy". Gw beli harga 58rb di
Agnes Theresia Damanik, Masayu Leylia Khodra
Tokopedia, nama tokonya… http://t.co/w62f77ZFQF’,’ "You can't lose what you never had." Yes, I agree. It'd (perhaps) better to be just friends with someone you… — https://t.co/yfZCC0aK3Y’, dan ‘I use Pure Skin facial wash! Mau harga lebih murah??? #oriflame #oriflamemurah… http://t.co/hZBAvgx5MX’. Pengguna 7 memperoleh hasil pengujian berupa dominan kepribadian E. Tweet pengguna menunjukkan sifat ekstraversi yang berfokus pada dunia luar dan pengalaman diri sendiri. Beberapa contoh tweet-nya adalah ‘baru sadar hari ini ada UN! semangat buat semuanya, sukses yaaak semoga bs ngerjain dengan baik :")’,’ dan baru menyadari kalau pipi saya terlalu tembem belakangan ini T_T’, dan ‘aku kangen donut yg biasa mama masak sore2’.
5. KESIMPULAN DAN SARAN Berdasarkan analisis, implementasi, eksperimen, dan pengujian yang telah dilakukan, kesimpulan yang dapat ditarik adalah secara keseluruhan untuk dataset eksperimen penelitian ini, kepribadian Big 5 pengguna Twitter dapat diprediksi dengan baik menggunakan model gabungan fitur perilaku sosial dan fitur linguistik dengan metode open-vocabulary bigram. Selain itu dapat disimpulkan pula bahwa fitur linguistik lebih dapat mengenali kepribadian pengguna dibandingkan dengan fitur perilaku sosial. Perlu diingat bahwa hasil prediksi bergantung pada eksperimen yang dilakukan sehingga penelitian lain yang sejenis dapat menghasilkan hasil akhir yang berbeda sesuai dengan parameter eksperimen yang digunakan. Saran untuk pengembangan penelitian ini di kemudian hari adalah bahwa untuk menggunakan metode closed-vocabulary, pembangunan kamus kata perlu melibatkan pakar di bidang linguistik, khususnya bahasa Indonesia dan bahasa Inggris. Selain itu waktu pembangunannya dapat diperpanjang sehingga lebih banyak kosakata yang dicakup. Selain itu saran untuk mendapatkan pelabelan data yang lebih baik adalah pengumpulan data kuesioner yang digunakan sebagai pelabelan sebaiknya dilakukan secara kolektif di bawah arahan pakar.
6. REFERENSI Atkinson, Rita, L., Richard C. Atkinson, Edward E. Smith, Daryl J. Bem, & Susan Nolen-Hoeksema. (2000). Hilgard's Introduction to Psychology (13th ed.). Orlando, Florida: Harcourt College Publishers. p. 437. Costa, P.T.,Jr., & McCrae, R.R. (1992). Revised NEO Personality Inventory (NEO-PI-R) and NEO Five-Factor Inventory (NEOFFI) manual. Odessa, FL: Psychological Assessment Resources. Furnham, A., Jackson, C. J., & Miller, T. (1999). Personality, Learning Style and Work Performance. Personality and Individual Differences, 27, 1113-1122. Furnham, A., & Mitchell, J. (1991). Personality, Needs, social skills and academic achieve-ment: A longitudinal study. Personality and Individual Differences, 12, 1067–1073. Golbeck, Jennifer., Cristina Robles, & Karen Turner. (2011). Predicting Personality with Social Media. CHI 2011, May 7-12, 2011, Vancouver, BC, Canada. Goldberg, L. R. (1981). Language and Individual Differences: The Search for Universals in Personality Lexicons. In L. Wheeler
(Ed.), Review of Personality and Social Psychology: Vol.2 (pp. 141-165). Beverly Hills, CA: Sage. Gosling, S.D. (2007). Personality Impressions based on Facebook Profiles. Hearst, Marti A. (1998). Trends and Controversies Support Vector Machines. IEEE Intelligent Systems. Hogan, R., Curphy, G. J., & Hogan, J. (1994). What we know about leadership: Effectiveness and personality. American Psychologist, 49 (6), 493–504. http://www.careerbuilder.co.id diakses tanggal 12 November pukul 03.26 WIB. Iacobelli, F., Gill, AJ., Nowson, S., Oberlander, J. (2011). Large scale personality classification of bloggers. Affective Computing and Intelligent Interaction. John, O. P., Donahue, E. M., & Kentle, R. L. (1991). The Big Five Inventory--Versions 4a and 54. Berkeley, CA: University of California, Berkeley, Institute of Personality and Social Research. Komarraju, M., & Karau, S. J. (2005). The relationship between the Big Five personality traits and academic motivation. Personality and Individual Differences, 39, 557–567. Mairesse, François., Marilyn A. Walker, Matthias R. Mehl, & Roger K. Moore. (2007). Using Linguistic Cues for the Automatic Recognition of Personality in Conversation and Text. Journal of Artificial Intelligence Research, 30, 457-500 Mehl, M. R., Gosling, S. D., & Pennebaker, J. W. (2006). Personality in its natural habitat: Manifestations and implicit folk theories of personality in daily life. Journal of Personality and Social Psychology, 90, 862–877. Newman, M. L., Pennebaker, J. W., Berry, D. S., & Richards, J. M. (2003). Lying words: Predicting deception from linguistic style. Personality and Social Psychology Bulletin, 29, 665–675 Pennebaker, J. W., & King, L. A. (1999). Linguistic styles: Language use as an individual difference. Journal of Personality and Social Psychology, 77, 1296–1312. Riggio, R. E., Salinas, C., & Tucker, J. (1988). Personality and deception ability. Personality and Individual Differences, 9 (1), 189–191. Smith, B. L., Brown, B. L., Strong, W. J., & Rencher, A. C. (1975). Effects of speech rate on personality perception. Language and Speech, 18, 145–152. Schacter, Gilbert, Wegner. (2011). Psychology (2nd ed.). Worth. pp. 474–475. Scherer, K. R. (2003). Vocal communication of emotion: A review of research paradigms. Speech Communication, 40 (1-2), 227–256. Schwartz, HA., Eichstaedt, JC., Kern, ML., Dziurzynski, L., Ramones, SM. (2013). Personality, Gender, and Age in the Language of Social Media: The Open-Vocabulary Approach. PLoS ONE 8(9): e73791. doi:10.1371/journal.pone.0073791 Wald, Randall., Taghi Khoshgoftaar, & Chris Sumner. (2012). Machine Prediction of Personality from Facebook Profiles. IRI, page 109-115. IEEE. Watson, D., & Clark, L. A. (1992). On traits and temperament: General and specific factors of emotional experience and their relation to the five factor model. Journal of Personality, 60 (2), 441–76.
Jurnal Cybermatika | Vol. 3 No. 1 | Juni 2015 | Artikel 3
21
Yarkoni, Tal. (2010). Personality in 100.000 Words: A large scale analysis of personality and word use among bloggers. J Res Pers, 2010 June 1; 44(3), 363-373. Yu, Sheng. & Subhash Kak. (2012). A Survey of Prediction Using Social Media. CoRR abs/1203.1647.
22
Agnes Theresia Damanik, Masayu Leylia Khodra