Pembangunan Infrastruktur Data Semantik di Lingkungan Universitas Indonesia Proyek Mahasiswa Fakultas Ilmu Komputer Universitas Indonesia
Ananda Budi Prasetya
Jan Peter Alexander
Rudi Airlangga
Fariz Darari
(
[email protected])
(
[email protected])
(
[email protected])
(
[email protected])
1. Latar Belakang Perkembangan Internet dewasa ini sangat pesat. Dengan munculnya berbagai jaringan murah, orang-orang bisa terhubung ke dalam Internet. Fenomena ledakan penggunaan Internet ini dipengaruhi oleh sebuah gejala yang disebut dengan crowd sourcing. Crowd sourcing adalah sebuah fenomena pembuatan situs yang mengizinkan pengunjungnya mengisi konten di dalam situs tersebut. Ada yang menyediakan jasa album foto semacam Picasa. Ada yang menyediakan jasa menulis jurnal pribadi atau yang lebih dikenal dengan blog. Ada juga yang menyediakan layanan berkomunikasi yang dinamakan forum. Semua situs tersebut memberikan sebuah fenomena baru: orang memberikan identitasnya melalui Internet. Puncak dari fenomena ini adalah jejaring sosial. Jejaring sosial adalah sebuah situs yang memberikan kesempatan kepada pengunjungnya untuk membentuk jaring pertemanan. Contoh dari situs jejaring sosial adalah MySpace, Facebook, dan Friendster. Setiap data yang dibuat oleh pengunjung situs crowd sourcing umumnya, kalau tidak semua, memiliki personalitas di dalamnya. Apalagi situs jejaring sosial. Situs ini memberikan identitas digital bagi para pengunjungnya. Setiap orang yang terdaftar dapat memberikan profilnya dan menggunakan profil tersebut untuk berkomunikasi dengan yang lain. Sayangnya, perkembangan situs-situs pertemanan/jejaring sosial ini menimbulkan fragmentasi. Setiap situs memiliki pasarnya sendiri dan memberikan akses terbatas kepada kompetitornya. Tidak adanya standarisasi yang kuat menyebabkan data yang berkembang juga tidak kompatibel satu sama lain. Padahal, isinya kurang lebih sama. Isu ini telah ada sejak lama dalam visi Sir Tim Berners-Lee, pendiri World Wide Web (WWW/Web) alias Internet yang dikenal sekarang. Berners-Lee dalam [TIM] mengatakan bahwa di masa mendatang Internet menjadi koneksi personal dengan personal. Data-data yang ada tidak lagi terfragmentasi, melainkan terintegrasi dan memiliki interopabilitas tinggi. Lebih lanjut lagi, Web yang divisikan tersebut tidak lagi untuk manusia, tetapi juga dapat dikonsumsi oleh mesin.
Web menjadi sumber informasi dan pengetahuan yang dapat ditambang dan diproses lebih lanjut. Hal ini dapat dilakukan karena data yang terintegrasi tersebut telah dapat dimaknai. Pemberian data ontologi kepada data Web membuat data tersebut dapat dibentuk semantiknya. Dengan semantik yang terbukti, Web menjadi sebuah repositori pengetahuan yang dapat dipercaya (Web of Trust). Bingkai bangun yang dibentuk ini dinamakan Semantic Web.
Untuk dapat universal, teknologi yang digunakan dalam Web menggunakan standar terbuka. Standar yang dipakai ditetapkan oleh konsorsium Web (W3C). Standar ini menggunakan RDF sebagai dasar pembungkus data. RDF merupakan teknologi yang berbasiskan XML. Semua standar ini dapat diakses pada situs W3C sehingga membuka peluang untuk semua organisasi yang tertarik untuk bergabung. Web yang terbuka bagi semua orang membuat peluang yang menarik: Web tidak lagi menjadi sebuah kumpulan situs-situs, melainkan sebuah tambang pengetahuan yang siap dipakai. Dengan kemampuan semantik, Web dapat ditemukan kembali (re-discovered) dengan pengetahuan-pengetahuan yang diperkaya. Henry Story dari Sun Microsystem dalam [HEN] menyatakan konsep Secure Distributed Open Social Network, yang memberikan penjelasan bahwa saat ini berbagai situs jejaring sosial yang ada di Web memiliki basis data masing-masing dan informasi yang terdapat di dalamnya terfragmentasi. Informasi yang terdapat dalam basis data yang berbeda-beda tersebut tidak terhubung satu sama lain, misalkan satu orang pengguna memiliki banyak akun jejaring sosial di dalam Web. Apabila dia memperbaharui data personal di salah satu situs jejaring sosial, maka dia juga harus memperbaharui data personal dia pada situs jejaring sosial lainnya. Hal ini agar informasi mengenai data personalnya termutakhir pada seluruh situs jejaring sosial yang dia miliki. Melakukan tindakan yang berulang-ulang, yakni data yang diisi pada banyak situs
jejaring sosial yang dimiliki kurang lebih sama dianggap sebagai suatu tindakan yang redundant. Hal ini sebenarnya tidak perlu apa bila situs-situs tersebut saling berbagi. Henry dalam [HEN] membuat suatu gagasan “Mengapa tidak dibentuk suatu basis data yang menggunakan Internet sebagai media penyimpanan data? Dimana kita membutuhkan suatu standar terbuka dalam menyatakan data tersebut agar setiap data yang dideskripsikan memiliki standar yang sama”. Konsep itu disebut Open Social Networks. Universitas Indonesia (UI), sebagai salah satu institusi pendidikan yang terbesar di Indonesia, sudah memiliki banyak infrastruktur yang mendukung terciptanya komunitas daring. Selain itu, seluruh sivitas akademika di UI memiliki akun yang masing-masing merupakan identitas mereka masing-masing di dalam jaringan UI. Hal ini membuat UI menjadi sebuah laboratorium yang potensial. UI memiliki beberapa sistem informasi yang memiliki prinsip jejaring sosial. Sistem-sistem tersebut bertujuan untuk mendukung seluruh kegiatan sosial di UI, mulai dari sistem informasi laboratorium, sistem informasi kepakaran, forum mahasiswa, blog mahasiswa, situs jejaring sosial UI, dan masih banyak yang lainnya. Dengan adanya sistem informasi tersebut, seluruh data dan informasi mengenai kegiatan sosial tersebut disimpan di dalam pusat data yang dikelola oleh Pusat Pelayanan Sistem Informasi UI (PPSI UI). Sama seperti keadaan Web saat ini, semua data dalam sistem-sistem informasi tersebut terfragmentasi. Data-data yang tersebar tersebut tidak memiliki ontologi. Sehingga, datadata tersebut hanya merupakan data dan sulit untuk dapat dimengerti lebih lanjut tanpa supervisi manusia. Oleh sebab itu, diperlukan langkah-langkah lebih lanjut agar data-data yang dipublikasikan oleh UI sesuai dengan visi Web di masa mendatang. 2. Tujuan Tujuan utama dari proyek ini adalah menyediakan roadmap bagi penelitian Semantic Web di Universitas Indonesia (UI) yang juga dapat memperkaya pengetahuan nasional. Hal ini dapat diwujudkan dengan membuat sistem yang memiliki fungsional; 1) mengagregasi informasi dari sistem-sistem eksternal; 2) memrosesnya menjadi data ontologi; 3) menyediakan akses untuk data ontologi tersebut untuk diproses secara internal atau oleh pihak ketiga yang tertarik; dan, 4) menyediakan pengetahuan yang komprehensif mengenai implementasi semantik. Sebagai langkah awal, tujuan dari proyek ini adalah untuk membentuk basis data pengetahuan di lingkungan Universitas Indonesia dengan cara yang efektif dan efisien serta mengintegrasikannya dengan berbagai sistem jejaring sosial luar yang diikuti oleh sivitas akademika UI. Tujuan jangka panjang dari proyek ini adalah untuk mengembangkan basis data pengetahuan UI ke tahap selanjutnya dan memanfaatkan data tersebut dalam pembentukan sistem informasi berdasarkan filosofi Semantic Web, contoh: 1. Untuk membuat sistem pencarian sosial di Universitas Indonesia, sehingga seluruh pihak baik dalam maupun luar dapat mencari informasi yang tepat dari Universitas Indonesia
2. Untuk membuat sistem pencarian ahli pada lingkungan Universitas Indonesia 3. Untuk membuat sistem pencarian jurnal atau paper yang dipublikasikan di Universitas Indonesia 4. Untuk membuat sistem pencarian kerja pada lingkungan Universitas Indonesia 5. Untuk membuka peluang penelitian infrastruktur data pengetahuan, misalnya NoSQL, Komputasi Grid, dan lain sebagainya 3. Permasalahan Dalam menjalankan proyek ini, tim pengembang menemukan beberapa masalah terkait penyebaran data yang tersimpan di UI, privasi data yang terdapat di UI, dan cara yang efektif dalam pembentukan basis data pengetahuan UI. Data informasi sosial yang tersimpan pada Universitas Indonesia sangat besar, akan tetapi data-data tersebut terpisah satu sama lain dan tidak terhubung sama sekali. Sehingga informasi yang tersimpan di dalam masing-masing sistem tersebut hanya dapat digunakan melalui sistem itu saja. Masalah privasi data juga menjadi pemikiran dalam menjalankan proyek ini, karena tidak seluruhnya sivitas akademika UI yang ingin memberikan data pribadi mereka. Sehingga, tim pengembang tidak bisa dengan bebas mengambil seluruh data sivitas akademika dari basis data masing-masing sistem informasi yang menyimpan data tersebut. Tim pengembang harus dapat menemukan cara lain agar seluruh sivitas akademika UI mau memberikan data mereka dengan sukarela dan tidak keberatan jika data mereka digunakan untuk hal yang lebih baik sehingga tim pengembang dapat mengembangkan basis data ilmu pengetahuan di UI dengan efektif dan efisien. 4. Solusi Salah satu solusi yang dapat dilakukan dalam proses awal pembentukan basis data pengetahuan pada Universitas Indonesia adalah dengan membuat suatu sistem informasi yang dapat menampung data dari seluruh sivitas akademika UI. Metode yang digunakan adalah Crowd Sourcing, yakni seluruh data yang terkumpul adalah hasil dari input data yang dilakukan oleh masing-masing elemen sivitas akademika UI. Dengan memanfaatkan beberapa infrastruktur penyimpanan data identitas daring untuk setiap sivitas akademika UI, yaitu LDAP directory, tim pengembang dapat membuat sistem semacam dashboard yang muncul saat pertama kali pengguna login ke dalam jaringan UI. Sehingga data sosial di Universitas Indonesia dapat dikumpulkan dengan menggunakan cara Crowd Sourcing. Sistem tersebut terdiri dari beberapa komponen, yaitu: 1. Sistem antar muka (Dashboard) Dashboard tersebut digunakan sebagai pengumpul seluruh informasi dari jejaring sosial luar yang dapat diintegrasikan menjadi satu. Sehingga pengguna tertarik menggunakannya dan mengisi data pribadi mereka secara sukarela dan menggunakan sistem tersebut. Tujuan akhirnya adalah data yang telah dimasukkan masing-masing pengguna tersebut akan digunakan sebagai dasar dalam pembentukan basis data pengetahuan Universitas Indonesia. 2. Sistem utama (Main System) Sistem yang berfungsi sebagai komponen utama, berada di belakang layar dashboard. Menangkap input data dari dashboard dan memasukkannya ke dalam
basis data pengetahuan yang tersedia. Sistem utama juga berfungsi untuk menjaga hak akses terhadap data semantik dari pengguna. Selain itu sistem utama juga berfungsi untuk menyediakan layanan Web yang dapat digunakan apabila data semantik dari pengguna akan digunakan dalam sistem yang lain. 3. Basis data pengetahuan (Knowledge Database) Basis data pengetahuan, seperti yang telah dijelaskan pada bagian awal, dibangun dengan menggunakan Semantic Web. Dimana data yang diisi pada aplikasi dashboard tersebut akan disimpan dalam bentuk N-Triples, N-Quads, ataupun dalam bentuk RDF/XML. Data tersebut akan disimpan di dalam basis data triplestores yang dikhususkan untuk penyimpanan data semantik seperti Virtuoso1 dan Open Sesame2. 4. Layanan Web (Web Service) Layanan Web adalah layanan yang diberikan oleh sistem utama. Dengan menggunakan layanan Web, sistem/server lain yang ingin menggunakan data semantik sosial dari basis data pengetahuan UI dapat diatur hak akses nya terhadap data tersebut.
Dengan memanfaatkan Semantic Web, seluruh data tersebut sepenuhnya akan dimiliki dan diatur oleh masing-masing sivitas akademika UI. Dimana tidak ada sistem yang sepenuhnya memilki data tersebut, seperti basis data konvensional (DBMS) yang menyimpan data tersebut dalam sistemnya sendiri, sehingga dapat terjadi fragmentasi data antar sistem yang berbeda. 4.1 Gambaran dari Basis Data Pengetahuan Universitas Indonesia Berikut adalah gambaran dari basis data pengetahuan yang akan dikembangkan pada proyek ini. 1 2
http://ods.openlinksw.com/wiki/ODS/ http://www.openrdf.org/
4.2 Prasyarat Perangkat Lunak yang Akan Dibangun Untuk membangun sistem ini, ada tiga hal yang memerlukan: 1. Proses pembangunan dokumentasi (Building the Documentation). Setiap pengetahuan yang didapat dalam pembuatan sistem terdokumentasi dalam WIKI. Diharapkan dokumentasi ini akan berkembang lebih lanjut dan dapat diperlengkapi. Tujuannya agar orang lain dapat menggunakannya juga dan memberikan kontribusi kepada dokumentasi WIKI tersebut. 2. Dapat dikembangkan dan dapat digunakan kembali (Extensible & Reusable). Setiap komponen dalam arsitektur diharapkan memiliki alur yang generik sehingga dapat dikembangkan untuk kebutuhan yang lain. Arsitektur ini diharapkan memiliki sifat bongkar pasang (pluggable). 3. Terbuka untuk perubahan (Compability). Arsitektur yang dibuat dapat diubah dan disesuaikan dengan kondisi yang ada tanpa mengurangi fungsi utama dari sistem yang telah ada sebelumnya. Hal ini diperlukan agar orang lain dapat bereksperimen dengan menggunakan keseluruhan sistem yang dikembangkan dalam proyek ini.
4.3 Membangun Ontologi Data (Roadmap) Menurut Harry Halpin dalam [HAR], dunia telah sampai implementasi pembentukan aturanaturan semantik. Dalam presentasinya, Halpin menyebutkan bahwa saat ini dunia telah memiliki banyak sekali aturan-aturan ontologi yang beririsan. Untuk itu, diperlukan simplifikasi dan pemilihan-pemilihan aturan yang banyak diadopsi oleh organisasi/pihak lain yang berkecimpung di dalam dunia semantik. Untuk itu, tim pengembang melakukan langkah-langkah sebagai berikut dalam membangun ontologi data semantik sosial UI: 1. Identifikasi kosakata dan sumber data Proses identifikasi kosakata adalah proses untuk memilih kosakata (vocabulary) yang dapat digunakan dalam pembuatan dokumen semantik. Selanjutnya yang harus dilakukan adalah mengidentifikasi sistem eksterna (pihak ketiga) yang datanya dapat digunakan sebagai sumber data dalam pembuatan basis data pengetahuan di Universitas Indonesia. 2. Pembuatan infrastruktur basis data pengetahuan Proses yang dilakukan dalam pembuatan basis data pengetahuan. Hal yang pertama kali harus dilakukan adalah menentukan infrastruktur dasar (kerangka kerja, penyimpanan,dll.) yang akan digunakan sebagai dasar dalam pembentukan basis data pengetahuan dari Universitas Indonesia. 3. Pembuatan adapter data Proses ini adalah proses untuk mengumpulkan data-data yang terpisah ke dalam satu agregator. Membuat adapter untuk mengumpulkan data dari pihak ketiga. Biasanya, situs pertemanan menyediakan konektor berbasis Web Service. Adapter dibuat agar bisa mengakses konektor tersebut dan mengubah data menjadi data yang dapat diagregasi. 4. Pembuatan Dashboard Dashboard digunakan sebagai antar muka yang digunakan oleh pengguna untuk memasukkan sumber data, selain itu dashboard juga berfungsi sebagai antar muka yang dapat menampilkan hasil agregasi data yang telah dilakukan oleh pengguna tersebut. 5. Pengembangan layanan web Proses pengembangan sistem yang dapat mengatur proses konversi data beserta hak akses dari data-data yang terdapat di dalam basis data pengetahuan 6. Membangun aturan inferensi Proses pengembangan sistem yang dapat memanfaatkan data yang tersimpan di dalam basis data pengetahuan dan membuat aturan-aturan inferensi. Diharapkan sistem ini menjadi proof of concepts. 7. Integrasi dengan sistem lain Mencoba untuk mengimplementasi Open Data Link, sehingga Universitas Indonesia bisa terhubung dengan organisasi lain yang juga memiliki Open Data Link.
4.4 Jadwal Pengerjaan Berikut adalah perkiraan jadwal pengerjaan yang akan dilakukan dalam proyek ini. Mengingat keterbatasan waktu yang disediakan, maka tim pengembang membatasi pengerjaan dari proyek ini. Pekerjaan / Bulan
Bulan - 1
Bulan - 2
Bulan - 3
Bulan - 4
Bulan - 5
Identifikasi Kosakata dan Sumber Data Pembuatan infrastruktur basis data pengetahuan Pembuatan adapter data Pembuatan Dashboard Pengembangan layanan web WIKI dan dokumentasi 4.5 Perkiraan Pengeluaran Biaya Berikut ini adalah perkiraan pengeluaran biaya yang dibutuhkan dalam pelaksanaan pengembangan proyek ini. Pengeluaran
Biaya
Gaji 1 orang full timer per bulan @ 2.500.000
12.500.000,-
Gaji 3 orang part timer per bulan @ 1.200.000
18.000.000,-
Biaya Pengumpulan Data
1.000.000,-
Peralatan ATK
1.000.000,-
Infrastruktur fisik (server + storage)
16.000.000,-
● Intel LGA 1155 - i7 2600K ● Mb intel 1155 - Asus P8P67 Pro ● Memory DDR3 -Corsair CMZ8GX3M2A1600C8 (2x4Gb) (i5,i7,Core 2/1155) 16GB ● HardDisk WDC SATA II Green 2 TB 64Mb ● VGA HIS HD 4650 512Mb 128Bit DDR2 ● PSU Seasonic 750W SS-750JS-BE 80 Plus Wire ● Cooler NOCTUA NH-C14P 1366, 1156, LGA775, AM2+/3 Fan 14Cm
Biaya tak terduga Total Pengeluaran
1.500.000,50.000.000,-
5. Anggota Tim Pembimbing/Penasihat Proyek Pemimpin Proyek Tim Pengembang
Hisar Maruli Manurung
[email protected]
Ananda Budi Prasetya Ananda Budi Prasetya Jan Peter Alexander Rudi Airlangga Fariz Darari
[email protected] [email protected] [email protected] [email protected] [email protected]
6. Referensi [TIM] Sir Tim Berners-Lee. Future of the Web http://dig.csail.mit.edu/2007/03/01-ushousefuture-of-the-web.html [PIC] Cody Burleson. Introduction to the Semantic Web Vision and Technologies - Part 2 Foundations. http://www.semanticfocus.com/blog/entry/title/introduction-to-the-semanticweb-vision-and-technologies-part-2-foundations/ [HAR] Harry Halpin. A Functional Philosophy of the Web. http://www.ibiblio.org/hhalpin/homepage/presentations/phd/#%284%29 [HEN] Henry Story. Secure Distributed Social Networks - Sun Microsystem http://blogs.sun.com/bblfish