LAPORAN TAHAP 1 Eksplorasi Algoritma UPND dan Supervisi Jenis Kueri
PENGHIMPUNAN DATA MELALUI MEDIA SOSIAL SECARA OTOMATIS UNTUK MENDUKUNG TRACER STUDY VIrtual ALumni TracER (VILTER)
Tim Peneliti Ketua Dr. Hapnes Toba, M.Sc. (710004 / 04-2610-7602) Anggota 1. Maresha Caroline Wijanto, S.Kom., M.T. (720302 / 04-0911-8802) 2. Oscar Karnalim, S.T., M.T. (720309 / 04-0708-8802)
Fakultas Teknologi Informasi Universitas Kristen Maranatha Bandung Juni 2015
DAFTAR ISI
DAFTAR ISI ..............................................................................................................................3 ABSTRAK..................................................................................................................................4 BAB I PENDAHULUAN ...........................................................................................................5 BAB II TINJAUAN PUSTAKA .................................................................................................7 1. Media Sosial dan Ektraksi Informasi ................................................................................7 2. Teknik Scraping untuk Ekstraksi Informasi ......................................................................8 3. Algoritma Unsupervised Person Name Disambiguation (UPND) .....................................9 4. Zipf's Law ...................................................................................................................... 11 BAB III METODE PENELITIAN ............................................................................................ 14 1. Metodologi Umum ......................................................................................................... 14 2. Data Penelitian ............................................................................................................... 15 3. Proses-proses pada Tahap Pertama Penelitian ................................................................. 16 3.1. Pembersihan Data ....................................................................................................... 17 4. Metodologi Pengujian dan Evaluasi ................................................................................ 22 BAB IV HASIL DAN ANALISIS ............................................................................................ 24 1. Korelasi Jumlah Halaman Temu Balik dan Kluster ......................................................... 24 2. Pengaruh Kelengkapan Nama Terhadap Hasil Temu Balik ............................................. 26 3. Pengaruh Kluster Terhadap Basis Data Alumni .............................................................. 26 4. Identifikasi Halaman Media Sosial ................................................................................. 27 5. Seleksi Fitur Dengan Zipf's Law ..................................................................................... 28 BAB V KESIMPULAN & KEBERLANJUTAN ...................................................................... 29 DAFTAR PUSTAKA ............................................................................................................... 31 LAMPIRAN ............................................................................................................................. 34
3
ABSTRAK Dalam laporan penelitian tahap pertama ini dilaporkan langkah awal pemanfaatan algoritma klusterisasi Unsupervised Person Name Disambiguation (UPND) untuk data alumni. Pemilihan algoritma UPND didasari pada asumsi bahwa untuk sebuah nama orang dapat dihasilkan banyak halaman web hasil temu balik yang dapat mengacu pada orang yang berbeda-beda. Algoritma UPND mencoba untuk membentuk kluster-kluster yang berisi halaman web untuk sebuah orang yang sama. Hasil penelitian tahap pertama menunjukkan bahwa algoritma UPND perlu dikombinasikan dengan konfigurasi kueri yang sesuai agar dapat lebih memberikan hasil yang lebih relevan. Selain itu berhasil teridentifikasi pula bahwa sebagian besar alumni telah tergabung dengan media sosial LinkedIn yang merupakan salah satu situs yang berisi informasi penting tentang kegiatan profesional seseorang. Kata kunci: unsupervised person name disambiguation, unsupervised clustering, temu balik informasi, data alumni, web page scraping.
4
BAB I PENDAHULUAN Dalam laporan penelitian tahap pertama ini dilaporkan langkah awal pemanfaatan algoritma klusterisasi Unsupervised Person Name Disambiguation (UPND) untuk data alumni. Pemilihan algoritma UPND didasari pada asumsi bahwa untuk sebuah nama orang dapat dihasilkan banyak halaman web hasil temu balik yang dapat mengacu pada orang yang berbeda-beda. Algoritma UPND mencoba untuk membentuk kluster-kluster yang berisi halaman web untuk sebuah orang yang sama. Selain melakukan ujicoba algoritma UPND, dalam tahap pertama ini diujicobakan pula tujuh macam jenis kueri yang bertujuan untuk mencari komposisi terbaik yang cocok untuk melakukan temu balik alumni. Salah satu karakteristik yang menjadi ciri khas data alumni yang dimiliki Universitas Kristen Maranatha (UKM) adalah nama-nama alumni didominasi oleh nama-nama yang tidak popular atau terkadang terlalu umum. Oleh sebab itu diperlukan adanya semacam supervisi kueri yang mengarahkan pada nama yang dimaksud. Sebagai contoh untuk nama-nama dengan hanya nama depan, seperti: Alexander, Melisa, dsb. Nama-nama ini sangat umum, dan akan memberikan arti bagi UKM jika memberikan tambahan nama jurusan, dan/atau nama universitas. Ketujuh macam jenis kueri tersebut adalah: nama, nama+jurusan_indo, nama+jurusan_inggris,
nama+universitas_indo,
nama+universitas_inggris,
nama+jurusan_
indo+universitas_indo, nama+jurusan_inggris+universitas_inggris. Diharapkan bahwa algoritma UPND dan kombinasi salah satu kueri tersebut di atas dapat memberikan hasil yang positif bagi temu balik alumni UKM. Laporan tahap pertama akan dibagi ke dalam beberapa pokok pembahasan sebagai berikut: dalam Bab II akan dipaparkan secara lebih detail mengenai algoritma UPND sebagai inti dari eksplorasi yang dilakukan dalam tahap pertama ini. Bab III berisi detail metodologi dan pemrosesan yang dilakukan dalam tahap persiapan sampai dengan evaluasi riset tahap pertama ini. Bab IV memberikan hasil dan analisis mengenai pencapaian algoritma UPND dan komposisi kueri yang diujicobakan. Bab V berisi pemaparan evaluasi tentang potensi dan komposisi yang diharapkan memberikan hasil positif bagi UKM, serta usulan perjalanan penelitian di tahaptahap berikutnya.
5
Secara garis besar, perumusan masalah tidak berbeda dengan yang diusulkan dalam proposal, yaitu: bagaimana mengolah informasi dari media sosial sehingga dapat dimanfaatkan untuk meningkatkan kekinian dan kelengkapan basis data alumni dalam kegiatan tracer study secara otomatis?. Namun untuk dapat lebih memfokuskan pada penelitian tahap pertama ini, maka disusunlah rumusan masalah sebagai berikut: bagaimana konfigurasi kueri dalam algoritma UPND sehingga dapat dimanfaatkan dalam temu balik alumni?
6
BAB II TINJAUAN PUSTAKA Dalam bab ini disampaikan tinjauan pustaka berkaitan dengan penelitian tahap pertama. 1. Media Sosial dan Ektraksi Informasi Bagi masyarakat di kota-kota besar ketersediaan informasi sudah menjadi semacam kebutuhan. Hampir setiap penduduk memiliki akses ke Internet, baik itu melalui jaringan yang tersambung pada organisasi ataupun secara mandiri melalui telepon pintar. Lebih jauh lagi, untuk mempermudah kontak dan hubungan antar orang yang satu dengan lainnya, hampir semua pengguna Internet tersebut, juga terkoneksi dengan satu atau lebih media sosial, seperti: Facebook, Twitter, Instagram, LinkedIn atau lainnya (Papacharissi, 2009). Dapat dibayangkan bahwa terdapat begitu banyak informasi yang tersedia melalui media sosial, baik itu berupa data personal ataupun relasi antar pengguna. Namun, memang perlu diperhatikan bahwa tidak semua informasi yang tersedia dari media sosial memiliki validitas tinggi, dalam hal ini perlu dikembangkan algoritma yang dapat menentukan kualitas dan validitas data tersebut (Toba et al., 2014), terutama jika informasi berasal dari media sosial yang bersifat general, seperti Facebook atau Twitter. Namun, untuk media sosial yang lebih terpercaya karena bersifat khusus, seperti LinkedIn yang ditujukan untuk para profesional, informasi seorang pengguna akan lebih terpercaya (Case et al., 2013). Penggunaan media sosial untuk berbagi ide, cerita dan keluhan mulai bertumbuh menjadi tren pada awal dekade tahun 2000, dan diprediksi akan terus bertumbuh seiring dengan semakin mudahnya akses Internet (Papadopoulos et al., 2012; Tang & Liu, 2010). Berbagai pendekatan telah diteliti dalam riset-riset terkini yang hasilnya memberikan keeratan relasi (konektivitas) antara satu pengguna dengan lainnya. Deteksi relasi antara pengguna, komunitas dan analisis aktivitas dapat dimanfaatkan untuk memprediksi pola tingkah laku dalam bersosialisasi di dunia maya (Aiello et al., 2012). Melalui prediksi pola akan dapat dipelajari kecenderungan pengguna dalam merespons ajakan yang disampaikan melalui media sosial, baik itu dari pihak inisiator atau rekan-rekan dalam lingkaran relasinya. Prediksi pola dalam media sosial dalam riset-riset terkini pada umumnya menggunakan pendekatan yang biasa digunakan dalam pembelajaran mesin, misalnya melalui metode klasifikasi (Pampapathi et al., 2005), pembentukan kluster 7
(Berendsen et al., 2012), rekayasa struktur data tekstual (Pampapathi et al., 2006), dan topic model (Zhao et al., 2011). Riset media sosial yang juga sedang menjadi tren saat ini adalah bagaimana membedakan kemiripan atau kesamaan nama, misalnya untuk nama orang (Berendsen et al., 2012; Delgado et al., 2014), organisasi atau korporasi (Zhang et al., 2012). Hal ini sekaligus menunjukkan pula potensi pentingnya informasi dari media sosial untuk verifikasi suatu entitas. Salah satu tantangan besar, selain masalah validitas data, yang harus ditangani dalam ekstraksi informasi melalui media sosial adalah struktur halaman situs web yang sangat berbeda antara satu media dengan lainnya, namun hal ini dapat ditangani melalui teknik scraping untuk ekstraksi informasi dari berbagai struktur halaman situs web (Karnalim & Mandala, 2013). 2. Teknik Scraping untuk Ekstraksi Informasi Data tekstual merupakan salah satu media informasi yang cukup banyak dipakai sebagai data penelitian. Informasi terkait event, entitas, ataupun keterkaitan dengan informasi lain merupakan beberapa informasi yang cukup sering diekstraksi dari data tekstual. Ekstraksi informasi data tekstual sering digunakan pada mesin temu balik, perangkat untuk menampilkan berita, ataupun kamus (Berry, 2004). Pada konteks mesin temu balik, ekstraksi informasi umumnya dilakukan oleh web crawler dimana komponen ini berfungsi untuk mencari dan mengekstrak informasi dari berbagai kumpulan situs (Kobayashi & Takeda, 2000). Salah satu jenis dari web crawler adalah web scraper yang berfokus pada pencarian informasi spesifik dan menggunakan informasi terkait untuk kepentingan lain (Adams & McCrindle, 2008). Secara khusus, teknik web scraping bertugas melakukan ekstraksi informasi dari kumpulan situs secara otomatis untuk menggantikan peran manusia (Schrenk, 2012). Melalui pemanfaatan pemrosesan teks dan temu balik informasi, hasil web scraping dipakai untuk mengubah kumpulan informasi tak terstruktur sekumpulan informasi terstruktur. Mekanisme penarikan informasi dari kumpulan situs dalam konteks web scraping sangatlah bervariasi (Koolen & Kamps, 2011). Salah satunya adalah teknik text grepping, untuk ekstraksi informasi yang memenuhi pola tertentu (pada umumnya direpresentasikan dalam ekspresi regular). Mekanisme pencarian berbasis pola juga dapat diterapkan dalam penguraian
8
Document Object Model (DOM) dan halaman Hyper Text Markup Language (HTML) melalui sedikit modifikasi. Salah satu perangkat yang menggunakan teknik scraping adalah Google Scraper 1. Modul yang dibangun dalam bahasa Python ini dapat dimanfaatkan untuk mengambil hasil pencarian dari situs-situs mesin temu balik ternama seperti Google, Yandex, dan Bing, untuk membentuk ad-hoc search, yaitu proses temu balik dari berbagai mesin dengan berbagai kueri melalui satu antarmuka (Bron et al., 2013; Neumayer et al. 2012). Potensi perangkat seperti Google Scraper di atas dapat digunakan sebagai bagian dari modul lainm, mengingat modul ini dapat dijalankan dan diakses melalui instruksi sistem operasi, sehingga tidak tergantung pada jenis komputer. Selain itu, beberapa parameter pencarian seperti jumlah halaman pencarian, jumlah hasil terambil per halaman, mesin temu balik yang digunakan, dan jumlah thread juga dapat dipresentasikan. Kumpulan kueri dan hasil pencarian dapat dialihkan pada berkas untuk diproses/dianalisis lebih lanjut. Kueri dapat diterima dalam format teks multi-baris dengan satu baris merepresentasikan satu kueri. Hasil pencarian dapat dikonversi kedalam berkas berformat baku seperti Comma Separated Value (CSV) atau JavaScript Object Notation (JSON), yang pada akhirnya disimpan ke dalam basis data terstruktur. 3. Algoritma Unsupervised Person Name Disambiguation (UPND) Penyelesaian ambiguitas dari nama orang pada hasil pencarian website merupakan tantangan tersendiri dalam bidang ilmu Natural Language Processing (NLP) dan Information Retrieval (IR). Berdasarkan hasil pencarian website untuk nama tertentu, diperlukan adanya pengelompokkan (meng-cluster) halaman-halaman tersebut sesuai dengan setiap individu yang dianggap berbeda dari nama tersebut. Metode UPND yang ditawarkan pada penelitian Delgado et al. (2014) dibagi menjadi 2 tugas besar, yaitu: web page representation (Feature Selection dan Weighting Functions) dan web page grouping (Similarity Functions). Selain itu, penelitian tersebut juga mengusulkan metode untuk menangani halaman web dari media sosial. Metode lain yang sudah ada, seperti dalam Barendsen et al. (2012), membutuhkan data training yang besar sangat untuk penyelesaian ambiguitas ini, tapi metode UPND ini menggunakan metode unsupervised yang
1
https://github.com/NikolaiT/GoogleScraper
9
tidak membutuhkan data training. Metode-metode yang diusulkan dalam Delgado et al. (2014) mencakup pada hal-hal berikut ini: a.
Feature Selection Tujuannya adalah untuk mengekstraksi informasi yang relevan dalam penentuan individu. i.
Capitalized n-grams (disarankan n=3 sampai 4)
ii.
Ketika dua halaman web memiliki capitalized n-grams yang sama, semakin tinggi nilai n, semakin besar kemungkinan dua halaman web tersebut mengacu ke orang yang sama
b.
Weighting Functions Menggunakan tiga jenis weighting functions, yaitu: term frequency (TF), z-score, dan term frequency - inverted document frequency (TF-IDF). Disarankan untuk menggunakan TFIDF.
c.
Similarity Functions Menggunakan dua jenis similarity measures, Jaccard coefficient, Cosine distance. Disarankan untuk menggunakan cosine distance.
d.
Algoritma UPND Konsep dasarnya adalah menetapkan cluster Ci untuk setiap dokumen halaman web Wi. Nilai r2 dan r1 menjadi cakupan dari nilai n untuk n-grams. Untuk menentukan dua halaman web
mengacu ke orang yang sama menggunakan nilai threshold γ, dimana semakin banyak ngrams yang ada di dua halaman web tersebut, maka semakin kecil nilai threshold-nya.
Kompleksitas algoritma ini adalah O(N2), dimana N adalah jumlah halaman web yang ada. e.
Social UPND Dalam pencarian nama orang di search engine, terdapat beberapa halaman web yang berasal dari beberapa web media sosial, seperti Twitter, Facebook, dan LinkedIn. Berendsen et al. (2012) mengusulkan metode “one-in-one” untuk menangani halaman web media sosial, yaitu dengan membuat sebuah cluster untuk setiap halaman web media sosial. Tetapi kekurangannya adalah apabila ada satu orang mempunyai akun di beberapa media sosial yang berbeda tetap akan dianggap berbeda cluster. Dalam Delgado et al. (2014) diusulkan SUPND (Social UPND). Algoritma ini menerapkan UPND dengan batasan dua halaman web yang berasal dari halaman web media sosial yang sama tidak dapat dibandingkan.
10
Karena biasanya ketika hasil pencarian dari search engine berasal dari halaman web media sosial yang sama, pada umumnya akan mengacu pada orang yang berbeda. Algorithm 1 UPND( W, r1, r2) Require: Set of web pages that shared a person name W= {W1, W2, ..., WN}, r1, r2 ≥ 1 such that r2 ≥ r1 Ensure: Set of clusters C = {C1, C2, ..., Cl} 1: for n = 1 to N do 2: Ci = {Wi} 3: end for 4: C = {C1, C2, ..., CN}. 5: for n = r1 to r2 do 6: setNGrams(n, W). 7: for i = 1 to N do 8: for j = i + 1 to N do 9: if Sim( , ) ≥ γ ( , ) then 10: Ci = Ci ∪ Cj 11: C = C \{Cj} 12: end if 13: end for 14: end for 15: end for 16: return C Listing 1. Algoritma Unsupervised Person Name Disambiguation (UPND)
Algoritma UPND pada Listing 1, tidak membutuhkan data training untuk menghitung threshold dalam menentukan jumlah individu yang berbagi nama yang sama, atau apakah dua halaman web merujuk pada individu yang sama atau tidak. Threshold tersebut dihitung dengan memperhitungkan selisih n-gram dengan n-gram yang berisisan antara dua halaman web, sebagaimana diberikan dalam formula (1). ... (1) 4. Zipf's Law Zipf’s Law merupakan sebuah hukum tentang distribusi frekuensi kata-kata dalam sebuah bahasa atau dalam koleksi yang cukup besar sehingga merupakan perwakilan dari bahasa (Adamic, 2011; Baek et al., 2011). Penggambaran dari Zipf’s Law adalah misal dalam sebuah koleksi data, terdapat V kata unik. Setiap kata dalam koleksi tersebut dihitung jumlah kemunculannya freq(word). Lalu kata-kata tersebut diurutkan dari yang jumlah kemunculannya paling banyak.
Ranking kata digambarkan sebagai r, dan Prob(r) merupakan probabilitas dari kata pada
11
ranking r. Dalam Zipf’s Law yang penting adalah ranking dan jumlah kemunculannya, bukan nama katanya. Prob(r) =
... (2)
freq(r) / N
dimana: freq(r) = jumlah kemunculan kata pada ranking r di data koleksi N = jumlah keseluruhan kata di data koleksi
Maka Zipf’s Law akan bernilai: r * Prob(r) = A
... (3)
dimana: A adalah konstanta yang harus ditentukan dari data, biasanya A = 0.1.
Zipf’s Law bukan hukum yang selalu tepat, tetapi didasarkan pada asumsi statistik, sehingga nilainya tidak selalu pasti tetapi merupakan rata-rata (untuk sebagian besar kata-kata). Zipf’s Law bisa ditulis juga menjadi: r * freq(r) = A * N. Untuk menunjukkan Zipf’s Law bernilai tetap, harus menghitung freq(r), lalu menghitung r * freq(r) dan lihat apakah nilai r * freq(r) adalah nilai yang konstan. Nilai tersebut tidak harus selalu tepat sama, tapi secara
umum harus memiliki nilai yang berdekatan.
Gambar 1. Kurva Zipf’s Law (http://www.geoffkirby.co.uk/ZIPFSLAW.pdf)
Cara paling sederhana menampilkan Zipf’s Law adalah dengan menggambarkan datanya. Jangan cuma sekedar melihat data dengan jumlah kemunculan paling banyak dan paling sedikit saja karena disana ditemukan eror yang lebih besar, seperti terlihat pada Error! Reference source not found.. Dibanding menggambarkan nilai r dan freq(r), lebih baik menggunakan log(r) pada sumbu-x and log(freq(r)) pada sumbu-y. Apabila Zipf’s Law bernilai tetap, seharusnya terlihat garis dengan slope -1 (artinya apabila A adalah titik dimana garis bersilangan dengan sumbu-x dan B adalah titik dimana garis bersilangan dengan sumbu-y dan O adalah titik asal 12
koordinat maka OA = OB). Cara lain juga bisa menggunakan log(r) pada sumbu-x and log(Prob(r)) pada sumbu-y. Zipf's Law dapat dimanfaatkan untuk melakukan seleksi fitur
dengan mengambil batasan nilai ranking kata pada titik yang menuju konstanta A pada formula (3) sebagaimana disampaikan dalam Adamic & Huberman (2002).
13
BAB III METODE PENELITIAN Dalam bab ini dijelaskan metodologi dan proses kerja yang telah dilakukan dalam penelitian tahap pertama. 1. Metodologi Umum Sesuai dengan garis besar penelitian yang direncanakan pada proposal, penelitian terbagi ke dalam tiga tahapan besar. Gambar 2 memberikan ilustrasi pentahapan penelitian tersebut.
Gambar 2. Metodologi Penelitian
Tahap pertama adalah tahap penghimpunan dan pencocokan nama dalam media sosial, meliputi kegiatan sebagai berikut: 1. Melakukan ekstraksi nama-nama alumni, sesuai dengan data tracer study yang telah dilakukan, dan terdapat dalam basis data iluni. 2. Melakukan feeding ke dalam mesin temu balik di Internet untuk ad-hoc search, menggunakan mesin temu balik Google. 3. Melakukan variasi kueri dengan menggunakan term pencarian dengan frasa seperti: “Universitas Kristen Maranatha” dan “Maranatha Christian University”, dan kombinasi kueri lainnya. Hasil temu balik yang diharapkan berupa: kluster yang berisi nama mahasiswa yang diperoleh dan media sosial yang diikutinya. 4. Membersihkan hasil temu balik dengan teknik scraping, kemudian melalui algoritma untuk membedakan nama divalidasikanlah nama-nama agar bersesuaian dengan yang ada di dalam basis data alumni 14
Dalam akhir tahap pertama ini yang diharapkan adalah ditemukannya informasi ‘permukaan’ dari nama-nama yang berhasil dibedakan, dan menjaring koneksi setiap nama dari beberapa media sosial popular. Sasaran media sosial yang diharapkan adalah: Facebook, Twitter, Instagram dan LinkedIn2. Secara teknis implementasi metodologi dalam Gambar 2 dapat diuraikan ke dalam produk perangkat lunak sebagaimana diberikan dalam Gambar 3. Tujuan akhir yang diharapkan adalah adanya sebuah sistem berbasis web yang memberikan: jenis profesi yang dikerjakan seorang alumni, keterkaitan sebuah nama alumni dalam jejaring media sosial, dan data-data penting terkait nama tersebut yang didapatkan melalui jejaring media sosial.
Gambar 3. Rencana Implementasi Sesuai Metodologi Pada Gambar 1.
2. Data Penelitian Untuk penelitian tahap pertama ini, data diambil dari tracer study terakhir (tahun 2013) yang telah tervalidasi, yaitu data-data yang telah dievaluasi dan merupakan hasil respons dari alumni. Terdapat 119 data nama alumni yang digunakan. Nama-nama ini akan dilengkapi dengan kueri tersupervisi sebagaimana disampaikan pada Bab I.
2
Meskipun target utama adalah LinkedIn, tidak tertutup kemungkinan untuk memanfaatkan Facebook pula.
15
3. Proses-proses pada Tahap Pertama Penelitian Pencarian informasi terkait seseorang dapat dilakukan dengan pemanfaatan mesin temu balik layaknya Google, Yahoo, dan Bing. Kemudahan penarikan informasi dari mesin temu balik tersebut menjadi landasan utama penggunaan mesin temu balik dalam metodologi ini. Pada mesin temu balik, pengguna hanya perlu memberikan kueri berupa nama dan beberapa informasi sekunder untuk mendapatkan kumpulan situs yang berisi informasi mengenai orang yang dicari. Hasil mesin temu balik akan ditampilkan terurut berdasarkan relevansi dimana setiap hasil pencarian pasti memiliki judul situs, snippet, nilai ranking, dan tautan situs. Penggunaan mesin temu balik tersebut diadaptasi dalam metodologi penelitian ini, dimana sistem akan meminta masukan sebuah nama dan beberapa informasi sekunder mengenai nama tersebut. Perbedaan utama antara sistem ini dengan mesin temu balik pada umumnya terletak pada hasil sistem dimana sistem tidak akan menampilkan kumpulan situs melainkan kumpulan entitas informasi relevan yang sudah disaring. Kumpulan entitas informasi relevan tersebut diharapkan mampu berperan sebagai informasi tambahan terkait nama yang diberikan sebagai kueri. Permasalahan utama yang sering muncul dalam pencarian informasi menggunakan mesin temu balik adalah ambiguasi nama dan validitas data. Ambiguasi nama terjadi ketika nama yang diberikan sebagai kueri terlalu umum dan pendek (misal Alexander). Kueri dengan nama yang terlalu umum dan pendek akan menghasilkan kumpulan situs terhadap beberapa orang dengan nama sama (misal dua “Alexander” dengan no KTP berbeda) atau lebih detail (misal “Alexander”, “Alexander Rudy”, dan “Yosua Alexander”). Permasalahan validitas data muncul ketika situs-situs hasil pencarian merupakan situs-situs tidak populer atau tidak sah sehingga data tersebut tidak dapat dipastikan kebenarannya. Ambiguasi nama ditangani dengan membentuk kumpulan cluster lalu memilih cluster mana yang paling relevan terhadap kueri yang diberikan. Kumpulan cluster tersebut dibentuk dengan menggunakan algoritma UPND, dimana setiap halaman situs akan dianggap sebagai satu dokumen dan kata-kata dalam kumpulan situs dianggap sebagai dimensinya. Algoritma UPND merupakan metoda agglomerative clustering dimana setiap dokumen akan dianggap sebagai satu cluster dan beberapa cluster akan digabungkan menjadi satu cluster jika nilai kesamaan clustercluster tersebut melebihi treshold tertentu. Pemilihan cluster yang paling relevan akan dilakukan
16
dengan menggunakan metoda heuristik yang diperoleh berdasarkan hasil pengujian data tracer study (pengujian terhadap set data pertama). Permasalahan validitas data ditangani dengan menyaring hasil pencarian terbatas pada situs-situs media sosial dan situs-situs dengan domain terpercaya (seperti .org, .edu, .go.id). Informasi dari situs-situs sosial media nantinya akan ditarik dengan mengintegrasikan akun media sosial terlebih dahulu mengingat sebagian besar situs sosial media merupakan deep web (tahap kedua penelitian). Tahapan-tahapan dari pencarian informasi terkait seseorang dapat dilihat pada Gambar 4, dimana penelitian ini terfokus pada data alumni. Metodologi penelitian ini terbagi menjadi tujuh tahapan utama yaitu pembersihan data, pengambilan data dari mesin temu balik, transformasi teks, pembobotan term, seleksi fitur, clustering, dan pemilihan cluster paling relevan. Metodologi penelitian ini juga akan dilengkapi dengan pengujian untuk menentukan fitur-fitur terbaik dan evaluasi untuk menentukan nilai kinerja sistem.
Gambar 4. Tahapan dalam Pencarian Informasi terkait Seseorang
3.1. Pembersihan Data Data yang digunakan pada penelitian ini terdiri dari dua bagian yaitu data tracer study dan data alumni fakultas Teknologi Informasi pada Universitas Kristen Maranatha. Kedua set data ini berisi beberapa informasi umum mengenai alumnus Universitas Kristen Maranatha seperti nama lengkap, jurusan, alamat rumah, alamat e-mail, dan nomor telepon. Informasi terkait nama lengkap dan jurusan akan dijadikan masukan pada sistem. Gelar pada nama lengkap dan strata (D3, S1, dan S2) pada nama jurusan akan dibuang. Selain nama 17
jurusan dalam bahasa Indonesia, sistem juga akan menyertakan nama jurusan dalam bahasa inggris, nama universitas dalam bahasa Indonesia, dan nama universitas dalam bahasa inggris sebagai informasi tambahan pendamping kueri (Nama jurusan dalam bahasa Inggris didasarkan dari situs maranatha.edu). Nama jurusan dalam bahasa Indonesia dan Inggris sedikit diubah guna mengeneralisasi kata jurusan tersebut (misal “sastra inggris” akan diubah menjadi “inggris”).
3.2. Pengambilan Data dari Mesin Temu Balik Pengambilan data dari mesin temu balik dilakukan dengan menggunakan kakas GoogleScraper dimana kakas ini dapat mengambil hasil pencarian dari mesin temu balik seperti Google, Yahoo, dan Bing lalu menyimpan hasilnya dalam berkas comma separated value (CSV). Kakas GoogleScraper dibangun dalam bahasa Python dan dapat dijalankan melalui command prompt. Kakas ini digabungkan dalam aplikasi penelitian ini dengan menjalankan command prompt secara otomatis. Google dipilih sebagai mesin temu balik untuk pencarian data pada penelitian ini karena nilai relevansi Google cukup sesuai dengan nilai relevansi manusia (didasarkan pada algoritma PageRank). Sistem akan memberikan kueri berupa nama dan beberapa informasi tambahan pada GoogleScraper dan akan menghasilkan beberapa berkas CSV (jumlah berkas CSV bergantung pada jumlah kueri yang diberikan). Pada penelitian ini, pencarian data seseorang difokuskan pada data alumni sehingga informasi tambahan terbatas pada nama jurusan dan nama universitas dalam bahasa Indonesia dan bahasa Inggris. Nama lengkap dan nama universitas akan diapit dengan kutip dua pada kueri untuk menyaring hasil pencarian (kutip dua menyatakan bahwa hasil pencarian akan difokuskan pada situs yang mengandung kumpulan kata dalam kutip dua secara terurut, dianggap sebagai frasa). Nama jurusan tidak diapit kutip dua agar hasil pencarian lebih condong ke arah bidang pekerjaan yang relevan dengan jurusan tersebut. Contoh pembentukan kueri dapat dilihat pada Gambar 5 dimana nama lengkap yang digunakan pada pencarian adalah "Maresha Caroline Wijanto" dari "S1 Teknik Informatika" di "Universitas Kristen Maranatha". Nama lengkap tersebut dikombinasikan dengan nama jurusan dan nama universitas sehingga menghasilkan tujuh kueri berbeda. Dampak dari setiap jenis kueri nantinya akan dibandingkan pada tahap pengujian.
18
Setiap kueri yang dimasukkan akan menghasilkan satu berkas CSV sehingga satu nama mahasiswa akan menghasilkan tujuh berkas CSV jika didasarkan pada kueri Gambar 5. Jumlah maksimum hasil pencarian yang diambil untuk setiap kueri adalah 100 (10 halaman temu balik) dimana sebagian besar kueri menghasilkan jumlah yang lebih sedikit akibat penggunaan kutip dua pada kueri (untuk mengerucutkan pencarian). Kumpulan hasil pencarian pada setiap berkas CSV akan disaring kembali dimana hasil pencarian yang akan disertakan pada tahap berikutnya hanyalah hasil pencarian yang memenuhi kriteria validitas situs. Suatu situs dikatakan valid jika situs tersebut adalah situs media sosial atau situs dengan domain terpercaya. Daftar situs media sosial diperoleh dari alexa.com dan domain terpercaya dibatasi pada domain edukasi, organisasi, dan pemerintahan. Setiap halaman situs dari tautan situs yang diperoleh akan diambil dan disimpan untuk proses transformasi teks. Ranking hasil pencarian juga akan disertakan untuk proses pembobotan kata dalam seleksi fitur (dengan pembobotan TF-IDF).
Gambar 5. Contoh Pembentukan Kueri
3.3. Transformasi Teks Transformasi teks dilakukan dengan membuang semua tag HTML dari halaman situs, mengasumsikan semua karakter non-alphanumerik sebagai pemisah antar kata, dan mengubah semua karakter menjadi karakter non-kapital. Beberapa contoh transformasi teks antara lain : a. “oscar.karnalim MARANATHA” menjadi “oscar”, “karnalim”, dan “maranatha” 19
b. “1+1=2 ++5++” menjadi “1”, “1”, “2”, dan “5” c. “
[email protected]” menjadi “oscar”, “karnalim”, “mail”, dan “com” Metoda pemisahan dengan karakter non-alphanumerik secara tidak langsung akan memisahkan e-mail dan mempersulit pengenalan e-mail. Permasalahan ini ditangani dengan melakukan tokenisasi khusus untuk e-mail. Tokenisasi dilakukan dengan menggunakan ekspresi regular “\\b[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,4}\\b” dengan case insensitive.
3.4. Pembobotan Term Pembobotan term dilakukan dengan dua metoda yaitu word counting dan tf-idf. Setiap metoda akan memperhitungkan kata dalam representasi unigram, bigram, dan trigram. N-gram terbatas hingga trigram mengingat sebagian besar entitas nama terdiri atas maksimum tiga kata. Word counting dilakukan dengan cara menghitung jumlah kemunculan kata secara unigram, bigram, dan trigram. Ranking hasil pencarian akan diikutsertakan dalam perhitungan bobot term. Rumus pembobotan word counting dengan relevansi dapat dilihat pada formula (4).
W(d,t) = Wo(d,t)*(100-rank(d))
... (4)
Dimana: d merupakan identitas dokumen dan t merupakan term yang akan dihitung bobotnya. W(d,t) merupakan bobot term t pada dokumen d dimana Wo(d,t) merupakan jumlah kemunculan term t pada dokumen d dan rank(d) merupakan ranking dokumen d hasil dari mesin temu balik. Perkalian melibatkan operator – dan nilai 100 agar term pada dokumen dengan ranking awal memiliki nilai bobot lebih tinggi dari term pada dokumen dengan ranking akhir (ranking terurut secara menaik dimana 1 merepresentasikan ranking teratas). Nilai 100 dipilih mengingat jumlah maksimum hasil pencarian adalah 100. Tf-idf dilakukan dengan memberi bobot pada setiap term dengan menerapkan pembobotan tf-idf. Pembobotan dilakukan terpisah per kategori n-gram dan pembobotan akan mengikutsertakan unsur relevansi dari mesin temu balik. Rumus pembobotan tf-idf dengan relevansi dapat dilihat pada formula (5).
Tf-Idf(d,t) = Tf-Idfo(d,t)*(100-rank(d))
20
... (5)
Dimana: d merupakan identitas dokumen dan t merupakan term yang akan dihitung bobotnya. Tf-Idf(d,t) merupakan bobot akhir tf-idf term t pada dokumen d dengan melibatkan relevansi sedangkan Tf-Idfo(d,t) merupakan bobot awal tf-idf term t pada dokumen d tanpa melibatkan relevansi. rank(d) merupakan ranking dokumen d hasil dari mesin temu balik. Perkalian melibatkan operator – dan nilai 100 agar term pada dokumen dengan ranking awal memiliki nilai bobot lebih tinggi dari term pada dokumen dengan ranking akhir (ranking terurut secara menaik dimana 1 merepresentasikan ranking teratas). Nilai 100 dipilih mengingat jumlah maksimum hasil pencarian adalah 100.
3.5. Seleksi Fitur Seleksi fitur dilakukan dengan cara memilih top-n fitur dengan bobot tertinggi. Bobot dihitung dengan menggunakan word counting ataupun tf-idf yang sudah melibatkan unsur relevansi hasil mesin temu balik. Hasil seleksi fitur akan dijadikan kandidat sumbu dimensi dalam algoritma unsupervised person name disambiguator (UPND). Nilai n untuk top-n setiap kategori dapat bervariasi (misal n pada unigram 100 dan n pada bigram 20). Nilai n pada top-n akan dipilih berdasarkan nilai konstanta Zipf's Law sebagaimana diberikan dalam formula (3).
3.6. Algoritma Clustering UPND Setiap halaman situs hasil pencarian akan direpresentasikan menjadi sebuah dokumen dalam proses clustering. Proses clustering akan menggunakan kumpulan term hasil seleksi fitur pada tahap sebelumnya dimana setiap dokumen akan dikonversi menjadi sebuah vektor pada bidang berdimensi n. Nilai vektor setiap dokumen ditentukan dari nilai bobot setiap term sumbu dalam dokumen tersebut. Pembobotan dapat dilakukan dengan word counting ataupun tf-idf dengan relevansi. Algoritma UPND memiliki dua parameter yang dapat dimodifikasi yaitu nilai n-gram awal dan akhir. Nilai n-gram awal dan akhir yang digunakan pada penelitian ini adalah 3 dan 4 mengingat kombinasi nilai tersebut adalah kombinasi nilai terbaik untuk algoritma ini (Delgado et al., 2014). Masukan algoritma UPND pada penelitian ini terbagi menjadi dua kategori yaitu kumpulan halaman biasa dan kumpulan halaman situs media sosial. Hasil dari kedua set data 21
tersebut nantinya akan dibandingkan pada tahap pengujian untuk mengetahui dampak situs media sosial dan situs biasa terhadap pencarian informasi seseorang. Namun dalam laporan tahap pertama ini fokus evaluasi diberikan pada kumpulan halaman biasa, mengingat perlunya mekanisme login (deep web searching) untuk mengambil data dari situs media sosial.
3.7. Penentuan Cluster Paling Relevan Cluster-cluster yang telah terbentuk melalui UPND akan digunakan sebagai masukan pada tahap ini. Pada tahap ini akan diterapkan suatu metoda heuristik guna menentukan cluster yang paling relevan terhadap kueri. Metoda heuristik tersebut akan ditentukan setelah pengujian terhadap set data pertama (data alumnus tracer study) selesai. Salah satu metoda simpel yang akan dicobakan adalah dengan memilih cluster yang berbau akademis sebagai cluster paling relevan mengingat data yang digunakan pada penelitian kali ini adalah data alumnus UKM. 4. Metodologi Pengujian dan Evaluasi Data yang digunakan pada penelitian ini terdiri dari dua bagian yaitu data tracer study dan data alumni fakultas Teknologi Informasi pada Universitas Kristen Maranatha. Pengujian terdiri dari beberapa tahap dimana sebagian tahap saling berkorelasi satu sama lain. Dalam tahap pertama ini pengujian hanya dilakukan untuk data tracer study terakhir sebagaimana dibahas dalam III.2 di atas, dan sampai dengan langkah pengujian kedua sebagaimana dibahas di bawah ini. Adapun langkah-langkah lengkap yang diberikan di bawah ini bertujuan untuk memberikan gambaran hasil akhir yang diharapkan dapat selesai sampai tahap ketiga penelitian. Langkah-langkah lengkap tersebut mencakup pada butir-butir: 1. Pengujian pertama dilakukan dengan menggunakan metoda heuristik yang akan digunakan. Pengujian dilakukan dengan menggunakan himpunan data tracer study pada sistem yang menggunakan semua jenis kueri, pembobotan term menggunakan tf-idf dan mengambil top20 dari setiap kategori n-gram sebagai sumbu UPND. Hasil cluster sistem tersebut nantinya akan dibandingkan dengan data alumnus selain nama lengkap dan nama jurusan (misalnya data alamat dan email). Setiap data alumnus selain nama lengkap dan nama jurusan akan dicari dalam sebuah cluster dengan metoda longest common sequence. Misalkan data yang ingin dicari adalah "Maresha Caroline Wijanto" dan pada cluster X hanya ditemukan n-gram
22
"Maresha Caroline", maka nilai skor cluster X untuk kolom tersebut adalah 2/3 (66%). Hasil dari pengujian pertama ini akan digunakan untuk menentukan metoda heuristik penentuan cluster terbaik. 2. Pengujian kedua dilakukan untuk menguji dampak setiap kueri. Pengujian dilakukan dengan cara menilai akurasi clustering terhadap setiap jenis kueri secara terpisah dan membandingkan hasilnya satu sama lain. Penilaian dampak setiap kueri dilakukan dengan metoda yang sama pada pengujian pertama (menggunakan longest common sequence). 3. Pengujian ketiga dilakukan dengan cara mencari semua e-mail yang muncul dalam setiap cluster hasil UPND pengujian pertama. Pengujian kedua ini dilakukan untuk mengetahui seberapa banyak informasi e-mail bisa diperoleh dengan metoda ini. Penilaian terhadap validitas email dilakukan dengan manual judgement, misalnya melalui pengiriman survei atau pengamatan. 4. Pengujian keempat dilakukan untuk menguji dampak word counting dan tf-idf. Hasil eksperimen dari word counting dan tf-idf akan dibandingkan dengan menggunakan metoda yang sama pada pengujian pertama, misalnya untuk mengidentifikasi jenis profesi. 5. Pengujian kelima dilakukan untuk memilih nilai n terbaik pada top-n dimana nilai n yang akan diujikan disesuaikan dengan pembentukan konstanta Zipf's Law pada formula (3). Setiap variasi nilai akan dicobakan untuk setiap kategori n-gram dan metoda penilaian serupa dengan metoda pengujian butir pertama di atas. 6. Pengujian keenam dilakukan untuk membandingkan hasil dari set data alumnus yang mengenal teknologi informasi dan alumnus pada umumnya. Set data alumnus yang mengenal teknologi informasi diwakilkan dengan set data alumnus fakultas Teknologi Informasi dan set data alumnus pada umumnya diwakilkan dengan set data tracer study. Proses akan dijalankan terhadap fitur-fitur terbaik yang telah dihasilkan dari pengujian pertama hingga kelima. 7. Pengujian ketujuh dilakukan untuk memvalidasi informasi yang telah diperoleh dari sistem. Pengujian dilakukan dengan survei terhadap para alumnus terkait berapa persen data dari cluster relevan yang sesuai dengan mereka. Survei dilakukan dengan cara menghubungi para alumnus menggunakan e-mail ataupun media sosial yang didapatkan dari tahap kedua penelitian (deep web searching).
23
BAB IV HASIL DAN ANALISIS Dalam bab ini disampaikan hasil-hasil yang telah diperoleh dalam eksperimen selama tahap pertama penelitian dan ulasan terhadap hasil tersebut. Konfigurasi eksperimen yang dijalankan adalah: 1. Menggunakan temu balik berbasis frasa (dengan tanda kutip pada kueri); 2. Menggunakan semua 3-gram dan 4-gram pada halaman web yang diperoleh mesin temu balik; 3. Menggunakan kueri yang spesifik dengan tidak mencampurkan keseluruhan kueri hasil temu balik; 4. Memisahkan halaman-halaman media sosial ke dalam satu kluster terpisah (kluster-kluster yang terbentuk ini akan digunakan dalam penelitian tahap kedua, yaitu deep web searching). Berikut adalah hasil-hasil yang diperoleh dalam eksperimen selama tahap pertama penelitian: 1. Korelasi Jumlah Halaman Temu Balik dan Kluster Dalam bagian metodologi penelitian telah disebutkan bahwa untuk setiap kueri yang dimasukkan ke dalam mesin temu balik diharapkan memberikan hasil maksimal, yaitu 100 halaman unik. Namun pada kenyataannya dari semua kueri yang telah diujicobakan tidak ada yang memberikan hasil maksimal (hasil paling banyak 99 halaman untuk nama David Simon). Hal ini memberikan suatu indikasi bahwa nama-nama alumni UKM adalah orang-orang "biasa" yang memerlukan penangan khusus untuk ditelusuri melalui Internet. Tabel 1 memberikan gambaran terhadap hasil temu balik untuk setiap kueri dan jumlah kluster yang dihasilkan dari hasil temu balik terhadap 119 data tracer study. Secara intuitif diharapkan bahwa untuk setiap kueri didapatkan jumlah kluster yang seminimal mungkin karena secara konseptual algoritma UPND berusaha untuk mengelompokkan nama-nama unik atau konten halaman web tertentu ke dalam kluster yang terpisah. Dalam Tabel 1 juga diberikan nilai korelasi Pearson yang menggambarkan seberapa kuat relasi antara jumlah halaman dengan jumlah kluster yang dihasilkan untuk setiap supervisi kueri. Semakin besar nilai korelasi menunjukkan semakin besar pengaruh halaman temu balik terhadap pembentukan kluster.
24
Selain dalam bentuk tabel, relasi antara jumlah halaman dan jumlah kluster juga ditunjukkan dalam bentuk grafik yang dipresentasikan dalam Gambar 6. Terlihat dalam Gambar 6 bahwa ada empat bentuk kueri yang memiliki korelasi baik antara jumlah halaman dan jumlah kluster, yaitu: nama+univ_indo+jur_indo, nama+univ_indo, nama+univ_inggris+jur_inggris, dan nama+univ_inggris. Rata-rata Max Min Rata-rata Max halaman halaman halaman clusters clusters Nama + Univ indo + jur indo 5.27 68 0 1.81 26 Nama + Jurusan Indo 11.86 94 0 4.81 71 Nama + Univ Indo 6.66 60 0 2.23 34 Nama + Jurusan Inggris 15.85 97 0 5.34 56 Nama + Univ inggris + Jur Inggris 7.07 94 0 1.92 22 Nama + Univ Inggris 7.42 71 0 2.82 65 Nama 21.37 99 0 4.29 37 KUERI (119 alumni per kueri)
Min clusters 0 0 0 0 0 0 0
Korelasi Pearson 0.87 0.82 0.82 0.73 0.69 0.67 0.27
Tabel 1. Korelasi Jumlah Halaman dan Kluster Untuk Setiap Supervisi Kueri
Gambar 6. Korelasi Pearson untuk Jumlah Rata-rata dan Kluster
Temuan dalam Tabel 1 dan Gambar 6 hendak mengindikasikan bahwa untuk menghasilkan jumlah kluster yang disinyalir sesuai dengan kebutuhan penemuan nama alumni (rata-rata sekitar dua sampai tiga kluster untuk setiap nama), diperlukan adanya kombinasi dengan nama universitas, baik dalam bahasa Inggris ataupun Indonesia. Di samping itu, pemberian nama jurusan saja dalam kueri tidak memberikan hasil kluster yang dianggap pas, yaitu terlalu banyak kluster (rata-rata di atas empat kluster). Semakin banyak kluster dapat menyebabkan kerancuan hasil, karena bisa terdiri dari banyak nama-nama lain, selain individu yang dicari atau konten halaman yang terlalu beragam, sehingga tidak memfokuskan pada karakteristik individu yang dicari. 25
2. Pengaruh Kelengkapan Nama Terhadap Hasil Temu Balik Menarik pula untuk diteliti bagaimana pengaruh kelengkapan nama seorang alumni terhadap hasil temu balik. Sebuah nama pada umumnya terdiri atas beberapa kata, namun terkadang ada individu-individu tertentu yang hanya memiliki satu kata saja. Dalam Tabel 2 diberikan gambaran tentang pengaruh tersebut melalui evaluasi yang dilakukan sebagaimana dijelaskan pada bagian III.4 butir pertama, terhadap beberapa field dalam data tracer study. Field Basis Data Kelengkapan nama Tempat lahir Alamat e-mail Tanggal lahir Tahun masuk Alamat rumah/kontak Propinsi Asal SMU Alamat kantor
Rata-rata Akurasi LCS Nama Panjang Nama Pendek 68.31 84.59 25.58 26.01 28.91 23.65 22.45 22.68 22.98 21.91 16.15 18.62 21.94 15.77 22.72 12.58 16.14 11.90
Tabel 2. Pengaruh Panjang dan Pendeknya Nama dalam Kluster Hasil Temu Balik Untuk Semua Supervisi Kueri
Berdasarkan pada data tracer study yang digunakan, terdapat 10 nama (dari 119) yang hanya terdiri satu kata (nama pendek). Ditinjau dari konten halaman web yang ditemukan (kecuali untuk kelengkapan nama), secara umum akurasi LCS untuk setiap field menunjukkan keunggulan jika nama lengkap yang menjadi bagian kueri. Namun demikian hal ini tidak berarti bahwa jika hanya ada satu kata dalam sebuah nama, informasi tidak akan diperoleh. Kombinasi nama alumni beserta jurusan dan nama universitas memberikan pengaruh yang signifikan sebagaimana diuraikan sebelumnya dalam IV.1. Sebagai temuan dapat disampaikan pula bahwa selain mengkombinasikan dengan nama universitas dan jurusan, hasil dalam Tabel 2 menunjukkan bahwa asal SMU, tempat lahir dan alamat e-mail, sangat berpotensi untuk memperkaya hasil temu balik. 3. Pengaruh Kluster Terhadap Basis Data Alumni Dalam Tabel 3 diberikan gambaran mengenai pengaruh hasil kluster terhadap data yang telah ada di dalam tracer study. Evaluasi ini ingin menunjukkan seberapa jauh informasi "permukaan" dari mesin temu balik berhasil ditangkap kembali di dalam kluster-kluster yang terbentuk. Hasil
26
dalam Tabel 3 diurutkan berdasarkan akurasi e-mail. Hal ini dilakukan karena untuk melakukan tracer study alamat email sangat diperlukan sebagai media komunikasi. KUERI (119 alumni per kueri)
Kelengkapan Nama Nama 84.59 Nama + Univ Inggris 59.52 Nama + Jurusan Inggris 76.00 Nama + Univ indo + jur indo 65.52 Nama + Univ inggris + Jur Inggris 60.53 Nama + Univ Indo 69.47 Nama + Jurusan Indo 74.23
Asal SMU 18.64 23.52 17.67 21.98 25.74 19.37 20.47
Propinsi 14.66 25.68 10.95 34.91 32.40 22.50 21.86
Tempat Tanggal Alamat Alamat rumah / lahir lahir kantor kontak 17.17 20.78 20.54 14.75 34.52 24.03 16.68 16.57 15.99 21.93 12.46 16.62 39.87 24.71 16.29 19.11 43.81 24.96 18.45 16.88 37.29 23.69 12.04 16.88 22.25 21.70 13.23 17.18
Tahun Alamat emasuk mail 13.14 30.78 33.12 29.27 19.90 28.28 36.64 27.67 37.23 27.37 19.41 26.34 19.02 24.45
Average 26.12 29.21 24.42 31.85 31.93 27.44 26.04
Tabel 3. Pengaruh Kluster Terhadap Basis Data (Diurutkan Berdasarkan Akurasi E-mail)
Menarik untuk disimak bahwa akurasi e-mail hanya dengan nama saja ternyata mampu melampaui kombinasi kueri lain-lainnya. Namun demikian, jika ingin mendapatkan konteks informasi yang lebih menyeluruh, maka dari hasil dalam Tabel 3 diperlukan adanya kombinasi nama individu, nama universitas dan nama jurusan, baik dalam bahasa Indonesia maupun Inggris. Perlu diperhatikan pula dari hasil dalam Tabel 3, bahwa sebagian besar informasi didominasi oleh halaman-halaman berbasis bahasa Inggris. Hal ini terlihat dari nilai rata-rata akurasi LCS tertinggi yang dihasilkan dari kombinasi kueri untuk nama universitas dan jurusan dalam bahasa Inggris. 4. Identifikasi Halaman Media Sosial Dalam bagian ini disampaikan komposisi media sosial yang teridentifikasi dalam kluster-kluster yang terbentuk berdasarkan tautan yang didapatkan dari mesin temu balik. Tabel 4 menunjukkan jumlah total tautan media sosial atau blog3 dari setiap kluster yang disinyalir merupakan akun dari alumni UKM dalam data tracer study sesuai dengan supervisi kueri yang dilakukan atau disebut oleh individu lain. KUERI (119 alumni per kueri) LinkedIn Facebook WordPress Pinterest Tumblr Nama 167 210 47 41 6 Nama + Jurusan Indo 85 106 48 3 5 Nama + Jurusan Inggris 328 126 17 11 3 Nama + Univ Indo 223 74 23 0 1 Nama + Univ indo + jur indo 75 26 24 0 0 Nama + Univ Inggris 140 105 11 0 1 Nama + Univ inggris + Jur Inggris 162 68 7 0 0 Total 1180 715 177 55 16
Tabel 4. Sebaran Sosial Media Pada Tautan di Dalam Kluster 3
Sesuai dengan definisi sosial media dari alexa.com (http://www.alexa.com/topsites/category/Computers/Internet/On_the_Web/Online_Communities/Social_ Networking)
27
Dari hasil yang didapatkan dalam Tabel 4, terlihat bahwa untuk para alumni yang ditelusuri dalam data tracer study, ternyata didominasi oleh sosial media LinkedIn. Hal ini mengindikasikan bahwa sebagian besar alumni sudah memiliki akun LinkedIn yang memang merupakan salah satu situs yang banyak digunakan oleh para profesional untuk "mempromosikan" diri. Hal ini mengindikasikan tingkat kesadaran para alumni untuk menggunakan situs seperti LinkedIn untuk dapat berkomunikasi dengan para profesional lainnya dalam bidang kerjanya. Tautan berikutnya yang teridentifikasi adalah Facebook, sebagai suatu media untuk melakukan percakapan, pengiriman pesan, ataupun status. Situs sosial media lainnya seperti Pinterest, Wordpress ataupun Tumblr hanya digunakan segelintir alumni saja. Menarik untuk disimak bahwa situs Twitter tidak teridentifikasi, salah satu penyebabnya dimungkinkan karena Twitter lebih bersifat pesan-pesan singkat, dari kicauan-kicauan informal. Selain itu, mungkin saja banyak juga individu yang menyamarkan dirinya agar tidak teridentifikasi secara jelas oleh pihak lain. 5. Seleksi Fitur Dengan Zipf's Law Dalam bagian ini disinggung mengenai sebuah upaya untuk jumlah kata pada saat proses temu balik dilakukan yang diperoleh dari konstanta Zipf's Law. Tujuan dari pembatasan ini adalah untuk mengurangi kompleksitas pada saat algoritma UPND dioperasikan. KUERI (119 alumni per kueri) #Kata Konstanta Zipf Ranking Kata Nama 241,116 0.12 520 Nama + Jurusan Indo 303,055 0.14 189 Nama + Jurusan Inggris 278,324 0.13 795 Nama + Univ Indo 195,710 0.13 428 Nama + Univ indo + jur indo 220,877 0.13 618 Nama + Univ Inggris 831,720 0.11 2633 Nama + Univ inggris + Jur Inggris 722,647 0.10 401 Total 2,793,449 0.12 797.71
Tabel 5. Konstanta Zipf's Dalam Data Tracer Study
Pada Tabel 5, terlihat bahwa secara rata-rata konstanta Zipf terbentuk pada kisaran nilai 0.12, dengan jumlah ranking kata yang harus ditelusuri secara rata-rata sekitar 800 kata. Hal ini menunjukkan bahwa untuk setiap kueri, terdapat 800 kata yang dianggap merepresentasikan karakteristik untuk kueri tersebut. Kata-kata inilah yang nantinya akan dapat berperan dalam menentukan ditemukan atau tidaknya individu yang dicari. 28
BAB V KESIMPULAN & KEBERLANJUTAN Berdasarkan hasil penelitian tahap pertama telah dicapai: 1. Konfigurasi nama dan supervisi kueri, yaitu: nama alumni dikombinasikan dengan nama universitas dan jurusan, tanpa perlu memperhatikan bahasa Indonesia atau Inggris. 2. Penggunaan nama lengkap di dalam kueri memberikan potensi yang lebih besar untuk dapat menghasilkan kluster temu balik yang relevan. 3. Selain kombinasi dengan nama universitas dan jurusan, pemanfaatan informasi dasar, seperti: alamat e-mail, nama SMU dan tempat lahir, memberikan potensi besar untuk menghasilkan kluster temu balik yang relevan. 4. Meskipun kueri diberikan di dalam bahasa Indonesia, ternyata hasil temu balik banyak pula memberikan halaman-halaman berbahasa Inggris dan berisi informasi yang diperlukan. 5. Para alumni yang ditelusuri dari data tracer study, mayoritas memiliki akun LinkedIn sebagai salah satu situs yang berisi data diri yang "bersih" tentang seseorang, dan pada umumnya berisi pula informasi-informasi penting seperti alamat e-mail alternatif atau nomor telepon.
Dalam bab ini disampaikan pula beberapa usaha yang masih perlu dilakukan pada tahapan penelitian berikutnya untuk mencapai tujuan akhir, yaitu menghasilkan sistem Virtual Alumni Tracer, sebagaimana digambarkan dalam Gambar 3, sebagai berikut: 1. Memanfaatkan pembentukan kluster UPND dari penelitian tahap pertama ini untuk memprediksi jenis profesi / pekerjaan dalam sebuah kluster. Prediksi ini mungkin dapat berperan untuk memvalidasi relevansi sebuah kluster apakah berisi individu yang dicari. Hal ini akan menjadi bagian penelitian tahap kedua. Teknik yang diusulkan adalah dengan memanfaatkan statistik kata dan proyeksinya dalam deskripsi pekerjaan di Wikipedia, serta mengkombinasikan dengan identifikasi kelas kata atau similarity relatedness antar kata. 2. Melakukan eksplorasi application programming interface (API) dari media sosial yang telah teridentifikasi sebagai mayoritas dalam tahap penelitian pertama ini, yaitu: LinkedIn dan Facebook. Situs media sosial diharapkan dapat dimanfaatkan untuk dapat menyebarkan survei secara lebih interaktif dengan para alumni. Hal ini akan menjadi bagian penelitian tahap kedua. 29
3. Membandingkan pemanfaatan media online antara mahasiswa lulusan teknologi informasi (IT) dengan non-IT. Tujuannya adalah agar dapat mengetahui pola pemakaian teknologi, dan apakah berpengaruh dalam pelaksanaan survei online. Hal ini akan menjadi bagian penelitian tahap ketiga. 4. Merancang dan membuat prototipe sistem yang dilengkapi dengan visualisasi kaitan kata pembentuk profesi, serta relasi antar nama alumni dalam sebuah media sosial. Hal ini akan menjadi bagian penelitian tahap ketiga. 5. Melakukan survei online yang dapat berinteraksi dengan sistem yang dikembangkan pada butir keempat di atas. Hal ini akan menjadi bagian penelitian tahap ketiga.
30
DAFTAR PUSTAKA Adamic, L.A. "Complex systems: Unzipping Zipf's law." Nature 474.7350 (2011): 164-165. Adamic, L.A. & Huberman, B.A. "Zipf’s law and the Internet." Glottometrics 3.1 (2002): 143150. Adams, A. A., & McCrindle, R. (2008). Pandora's box: social and professional issues of the information age. John Wiley & Sons.
Aiello, L. M., Barrat, A., Schifanella, R., Cattuto, C., Markines, B., & Menczer, F. (2012). Friendship prediction and homophily in social media. ACM Transactions on the Web (TWEB), 6(2), 9.
Baek, S. K., Bernhardsson, S., & Minnhagen, P. "Zipf's law unzipped." New Journal of Physics 13.4 (2011): 043004. Berendsen, R., Kovachev, B., Nastou, E. P., de Rijke, M., & Weerkamp, W. (2012). Result disambiguation in web people search. In Advances in Information Retrieval (pp. 146-157). Springer Berlin Heidelberg.
Berry, M. W. (2004). Survey of text mining. Computing Reviews, 45(9), 548.
Bron, M., Balog, K., & De Rijke, M. (2013). Example based entity search in the web of data. In Advances in Information Retrieval (pp. 392-403). Springer Berlin Heidelberg.
Case, T., Gardiner, A., Rutner, P., & Dyer, J. (2013). A linkedin analysis of career paths of information systems alumni. Journal of the Southern Association for Information Systems, 1(1).
Delgado, A. D., Martınez, R., Fresno, V., & Montalvo, S. (2014). A Data Driven Approach for Person Name Disambiguation in Web Search Results. In COLING, 2014.
31
Karnalim, O. & Mandala, R. (2014). Java Archives Search Engine using Byte Code as Information Source. (2014, November). In International Conference of Data and Software Engineering (ICODSE), 2014 Bandung Institute of Technology, Bandung. Indonesia.
Kobayashi, M., & Takeda, K. (2000). Information retrieval on the web. ACM Computing Surveys (CSUR), 32(2), 144-173.
Koolen, M., & Kamps, J. (2011). Are semantically related links more effective for retrieval?. In Advances in Information Retrieval (pp. 92-103). Springer Berlin Heidelberg.
Neumayer, R., Balog, K., & Nørvåg, K. (2012). On the modeling of entities for ad-hoc entity search in the web of data. In Advances in Information Retrieval (pp. 133-145). Springer Berlin Heidelberg.
Pampapathi, R., Mirkin, B., & Levene, M. (2005). A review of the technologies and methods in profiling and profile classification. EPALS Technical Report.
Pampapathi, R., Mirkin, B., & Levene, M. (2006). A suffix tree approach to anti-spam email filtering. Machine Learning, 65(1), 309-338.
Papacharissi, Z. (2009). The virtual geographies of social networks: a comparative analysis of Facebook, LinkedIn and ASmallWorld. New media & Society, 11(1-2), 199-220.
Papadopoulos, S., Kompatsiaris, Y., Vakali, A., & Spyridonos, P. (2012). Community detection in social media. Data Mining and Knowledge Discovery,24(3), 515-554.
Schrenk, M. (2012). Webbots, spiders, and screen scrapers: a guide to developing Internet agents with PHP/CURL. No Starch Press.
Tang, L., & Liu, H. (2010). Community detection and mining in social media. Synthesis Lectures on Data Mining and Knowledge Discovery, 2(1), 1-137. 32
Toba, H., Ming, Z. Y., Adriani, M., & Chua, T. S. (2014). Discovering high quality answers in community question answering archives using a hierarchy of classifiers. Information Sciences, 261, 101-115.
Zhang, S., Wu, J., Zheng, D., Meng, Y., & Yu, H. (2012, November). An adaptive method for organization name disambiguation with feature reinforcing. In Proceedings of the 26th Pacific Asia Conference on Language, Information, and Computation (pp. 237-245).
Zhao, W. X., Jiang, J., Weng, J., He, J., Lim, E. P., Yan, H., & Li, X. (2011). Comparing twitter and traditional media using topic models. In Advances in Information Retrieval (pp. 338-349). Springer Berlin Heidelberg.
33
LAMPIRAN A. Contoh Aplikasi UPND dan Supervisi Kueri
Gambar 7. Contoh Form Untuk Temu Balik Alumni
34
B. Contoh Hasil Kluster Untuk Contoh Pada Lampiran A. [Hasil dari Algoritma UPND Maresha Caroline: 12 cluster(s)]
### Cluster 1 ### 1. http://www.slideshare.net/msyani/setisi2015mewati-150409224945conversiongate01-46885473 ### Cluster 2 ### 1. http://forlap.dikti.go.id/dosen/detail/NTREMkMzMTItQTBEQi00OEFELUJCNDAtMEQwN0Y3RUZDNUFB/0 2. http://forlap.dikti.go.id/dosen/detail/NTREMkMzMTItQTBEQi00OEFELUJCNDAtMEQwN0Y3RUZDNUFB/0 ### Cluster 3 ### 1.
http://majour.maranatha.edu/index.php/jurnal-
informatika/search/authors/view?firstName=Maresha&middleName=Caroline&lastName=Wijanto&affiliation=Universitas%20 Kristen%20Maranatha&country=ID ### Cluster 4 ### 1. http://www.maranatha.edu/fakultas/teknologi-informasi/s1-teknik-informatika ### Cluster 5 ### 1. http://alumni.maranatha.edu/organization ### Cluster 6 ### 1. http://www.itmaranatha.org/fakultas/struktur_organisasi_fakultas.php 2. http://www.itmaranatha.org/fakultas/struktur_organisasi_fakultas.php ### Cluster 7 ### 1. http://if.itmaranatha.org/index.php/pengumuman-jurusan/497-pendaftaran-asisten-dosen-maresha-caroline 2. http://if.itmaranatha.org/index.php/pengumuman-jurusan/497-pendaftaran-asisten-dosen-maresha-caroline ### Cluster 8 ### 1. https://id.foursquare.com/_maresha ### Cluster 9 ### 1. http://ink361.com/app/users/ig-43581166/_maresha/photos ### Cluster 10 ### 1. https://www.facebook.com/MCU.ITFaculty/posts/618827978198772 ### Cluster 11 ### 1. https://trello.com/mareshacaroline 2. https://trello.com/c/FFVNSvJB/22-slide-kp-bagi-mahasiswa-kp-if 3. https://trello.com/c/sg23tkEJ/25-tanggal-penting-bagi-mahasiswa-kp-if 4. https://trello.com/c/nkvl9k9m/9-email-dosen 5. https://trello.com/mareshacaroline ### Cluster 12 (Social Media Cluster) ### 1. https://twitter.com/_maresha 2. https://id.linkedin.com/pub/maresha-caroline-wijanto/ab/9b2/995 3. https://id.linkedin.com/pub/maresha-caroline-wijanto/ab/9b2/995 4. https://id.linkedin.com/pub/maresha-caroline-wijanto/ab/9b2/995
35