LAPORAN KEMAJUAN PENELITIAN KERJASAMA ANTAR PERGURUAN TINGGI (PEKERTI)
PENGEMBANGAN CAPTURE & SHARING MANAJEMEN PENGETAHUAN BERBASIS WEB MINING DAN WEB SERVICE UNTUK MENDUKUNG SISTEM INOVASI DAERAH Tahun ke 1 dari rencana 2 tahun Oleh: TPP Fahri Firdausillah, MCS
NIDN: 0605078601
Erwin Yudi Hidayat, MCS
NIDN: 0605078501
Khafiizh Hastuti, M.Kom
NIDN: 0604097902 TPM
Azhari SN, Drs., MT., Dr
NIDN: 0020096204
UNIVERSITAS DIAN NUSWANTORO JUNI 2015
i
RINGKASAN Pemerintah telah berupaya untuk meningkatkan daya saing produk unggulan daerah dengan Sistem Inovasi Daerah (SIDA) yang didukung oleh empat pilar utama, yaitu perusahaan, lembaga pendidikan, lembaga teknologi, dan pembuat kebijakan. Keempat pilar ini terhubung melalui media manajemen pengetahuan yang berbentuk suatu portal inovasi. Portal inovasi yang saat ini berkembang masih direpresentasikan dalam bentuk HTML dan proses pengambilan (capture) informasi masih mengandalkan konstribusi pengguna yang akan berakibat pada sulitnya melakukan rekayasa informasi, misalnya pemetaan masalah pengembangan pemasaran produk dan penentuan solusinya. Pengelolaan manajemen pengetahuan dalam melakukan capture informasi perlu dilakukan secara otomatis guna meningkatkan kuantitas informasi dan pengetahuan, serta kualitas inovasi yang dihasilkan. Untuk mencapai hal ini, ada beberapa tahap yang dilakukan. Penetapan suatu kebijakan atau regulasi SIDA merupakan langkah awal yang perlu dilakukan terlebih dahulu untuk mengetahui dan menetapkan standar dalam pengelolaan SIDA. Pengembangan perangkat lunak manajemen pengetahuan yang dapat diakses secara terbuka oleh stakeholder mampu mendukung peningkatan pengelolaan manfaat SIDA. Perangkat lunak yang akan dikembangkan meliputi aplikasi SIDA berbasis web (web application) menggunakan scripting PHP. Aplikasi berbasis web akan dikembangkan menjadi aplikasi berbasis layanan (web service) menggunakan XML dan JSON dengan tujuan agar antar perangkat lunak yang mengakses web SIDA dapat saling berkomunikasi. Pengembangan aplikasi berbasis web dan layanan akan digunakan sebagai dasar pembuatan repositori pengetahuan (knowledge repository) untuk menyimpan data-data maupun informasi yang akan diolah menjadi pengetahuan. Aplikasi web SIDA yang dikembangkan memungkinkan terjadinya komunikasi dan pertukaran informasi antara UMKM, akademik, dan user secara umum. Aplikasi web SIDA dapat digunakan oleh pengelola UMKM untuk bertanya tentang masalah yang dihadapi, sehingga nantinya pihak akademik atau user umum dapat membantu UMKM untuk menjawab pertanyaan yang diberikan ataupun membuat artikel yang berkaitan dengan masalah yang dihadapi UMKM. Pihak akademik dan user umum juga bisa berbagai informasi mengenai pelatihan yang dapat meningkatkan skill dan kemampuan pengelolaan UMKM.
iii
PRAKATA Laporan kemajuan penelitian dengan judul "PENGEMBANGAN CAPTURE & SHARING MANAJEMEN PENGETAHUAN BERBASIS WEB MINING DAN WEB SERVICE UNTUK MENDUKUNG SISTEM INOVASI DAERAH" telah dikerjakan dari bulan Februari 2014 hingga bulan Juni 2014. Penelitian ini dilatar belakangi dengan melihat grafik pertumbuhan UMKM yang semakin meningkat. Meningkatnya grafik jumlah UMKM akan selalu diiringi dengan munculnya masalah-masalah yang akan dihadapi oleh pengelola UMKM. Masalah-masalah ini bisa menjadi penghambat UMKM untuk berkembang. Sebenarnya Pemerintah telah memiliki portal Sistem Inovasi Daerah (SIDA), namun masih belum optimal untuk digunakan.
Penelitian ini akan mencoba untuk menggabungkan Aplikasi web untuk SIDA dengan konsep capture and sharing Knowledge Management dan memanfaatkan web service dan web mining. Diharapkan dengan adanya website ini maka antar UMKM bisa melakukan berbagi masalah dan solusi dan peran serta akademik dan masyarakat umum untuk berbagi ide dalam menyelesaikan masalah UMKM.
Ucapan terimakasih Tim peneliti haturkan pada tim peneliti mitra dari Universitas Gadjah Mada. Terimakasih juga kami sampaikan pada Rektor Universitas Dian Nuswantoro, Dekan Fakultas Ilmu Komputer, LPPM Universitas Dian Nuswantoro serta semua pihak yang telah membantu terlaksananya penelitian ini.
Semarang, 25 Juni 2014
Tim Peneliti 1. Fahri Firdausillah 2. Erwin Yudi Hidayat 3. Khafiizh Hastuti
iv
DAFTAR ISI RINGKASAN .................................................................................................................................... III PRAKATA ......................................................................................................................................... IV DAFTAR ISI .......................................................................................................................................V BAB 1. PENDAHULUAN ................................................................................................................. 1 1.1 LINGKUP PENELITIAN .......................................................................................................................... 1 1.2 HUBUNGAN PENELITIAN YANG DIUSULKAN DENGAN ROADMAP PENELITIAN TPP ..................... 2 1.3 ORISINALITAS DAN KONTRIBUSI TERHADAP ILMU PENGETAHUAN ............................................... 4 1.4 PENDEKATAN KRITIS YANG DIGUNAKAN ........................................................................................... 5 BAB 2. STUDI PUSTAKA ................................................................................................................ 6 2.1 PENELITIAN TERKAIT .......................................................................................................................... 6 2.2 KNOWLEDGE MANAGEMENT............................................................................................................... 8 2.3 LAYANAN WEB SEBAGAI INFRASTRUKTUR INOVASI.......................................................................... 9 BAB 3. TUJUAN DAN MANFAAT PENELITIAN ..................................................................... 10 3.1 TUJUAN ............................................................................................................................................... 10 3.2 MANFAAT ........................................................................................................................................... 11 BAB 4. METODE PENELITIAN .................................................................................................. 11 BAB 5. HASIL YANG DICAPAI ................................................................................................... 13 5.1 TARGET DAN CAPAIAN PENELITIAN ................................................................................................ 13 BAB 6. RENCANA TAHAPAN BERIKUTNYA ......................................................................... 14 DAFTAR PUSTAKA ...................................................................................................................... 15 LAMPIRAN – 1 ............................................................................................................................... 18 LAMPIRAN – 2 ............................................................................................................................... 20 LAMPIRAN – 3 ............................................................................................................................... 22
v
BAB 1. PENDAHULUAN 1.1
Lingkup Penelitian Sistem inovasi daerah (SIDA) merupakan salah satu program utama pemerintah yang
bertujuan untuk meningkatkan daya saing produk unggulan daerah berbasis inovasi (Aldianto, Agustini, & Bayuningrat, 2011). Dalam prakteknya terdapat empat stakeholder yang menjadi pilar utama untuk menyukseskan SIDA, yaitu perusahaan sebagai tempat produksi, lembaga pendidikan sebagai pelaksana riset dan pelatihan, lembaga teknologi sebagai penyedia alat bantu, dan framework condition yaitu pemerintah tingkat daerah dan tingkat nasional yang merumuskan kebijakan (Noviandi, et al., 2012).
Gambar 1.1 Pilar kesuksesan SIDA (Noviandi, et al., 2012)
Keempat pilar yang ditunjukkan pada gambar 1.1 dapat berkolaborasi dengan optimal jika dihubungan dengan media informasi dan komunikasi yang baik, menggunakan portal pengetahuan yang interaktif dan terintegrasi (Noviandi, et al., 2012). Sebagai contoh setiap pengusaha akan menginformasikan kondisi dunia industri yang ada saat ini beserta permasalahannya, lembaga pendidikan melakukan riset untuk menyelesaikan permasalahan yang dihadapi perusahaan dan bekerja sama dengan lembaga teknologi untuk menghasilkan peralatan tepat guna untuk permasalahan tersebut. Beberapa media manajemen pengetahuan telah dibuat untuk menghubungkan keempat stakeholder sistem inovasi dalam bentuk portal inovasi seperti sidajateng.com dan piumkm.co.id. Namun ada dua kekurangan pada media tersebut, yaitu hanya menggunakan
1
representasi informasi dengan HTML yang hanya dapat diakses oleh perambah web dan proses capture informasi masih manual yaitu hanya mengandalkan kontribusi pengguna.
Representasi informasi dalam bentuk HTML saja akan mempersulit stakeholder untuk merekayasa informasi dalam bentuk lain (Guo-xin & Xiao-qin, 2008). Contoh rekayasa informasi yang mungkin diterapkan pada manajemen pengetahuan sistem inovasi adalah pemetaan permasalahan pada satu industri dengan solusi yang telah diterapkan pada industri yang lain. Contohnya adalah produk unggulan batik Pekalongan memiliki masalah dalam pemasaran, sedangkan di Jepara permasalahan pemasaran tersebut sudah ditemukan solusinya dan mungkin untuk diterapkan untuk permasalahan di Pekalongan. Sayangnya dengan kondisi portal inovasi saat ini, untuk melakukan rekayasa tersebut stakeholder harus melakukan kerja tambahan yang tidak mudah yaitu merubah format data yang ada ke format yang sesuai (Guo-xin & Xiao-qin, 2008). Proses capture informasi secara otomatis dapat meningkatkan kuantitas informasi dan pengetahuan yang tersedia dan selanjutnya dapat meningkatkan kualitas dari inovasi yang dihasilkan dari manajemen pengetahuan tersebut. Untuk memberikan solusi pada permasalahan manajemen pengetahuan sistem inovasi tersebut, penelitian ini memanfaatkan teknologi layanan web (web service) yang memungkinkan representasi informasi ke dalam format umum yang dapat diakses oleh mesin / perangkat lunak lain dan dapat saling bertukar informasi. Selain itu, dalam penelitian ini juga akan dikembangkan engine web miner yang mampu mengekstrak informasi penting dari website yang relevan dan menyimpannya ke dalam repositori untuk dapat dimanfaatkan sebagai tambahan pengetahuan. 1.2
Hubungan Penelitian yang Diusulkan dengan Roadmap Penelitian TPP Pada tahun 2013 Lembaga Penelitian dan Pengabdian Masyarakat Universitas Dian
Nuswantoro (LPPM UDINUS) menerbitkan rencana induk penelitian yang digunakan untuk menentukan arah penelitian yang akan dikerjakan oleh UDINUS dari tahun 2013 hingga tahun 2016 (UDINUS, 2013), salah satu topik unggulan adalah Teknologi Informasi dan 2
Komunikasi (TIK) untuk pemerintahan dengan roadmap sebagaimana ditampilkan pada gambar 1.2.
Gambar 1.2 Roadmap penelitian UDINUS
Sesuai roadmap yang ditunjukkan gambar 1.2, penelitian ini berkontribusi dalam pembuatan implementasi model berbasis web dan layanan web, yang menggarisbawahi permasalahan kecenderungan sistem e-Gov yang tertutup serta rendahnya interoperabilitas antar sistem. Sistem capture and sharing pada knowledge management yang dibangun pada penelitian ini memungkinkan komponen sistem lain (di luar sistem yang dibangun) untuk berinteraksi secara tidak langsung dengan menggunakan suatu aturan tertentu yang direpresentasikan dengan syntax XML atau JSON. Penerapan model layanan web pada sistem yang dibangun, dapat memberikan keleluasaan pada keempat pilar utama SIDA untuk mengakses dan memodifikasi pengetahuan secara lebih cepat dan lebih fleksibel. Desain pengaksesan manajemen pengetahuan yang fleksibel akan meningkatkan usability dan reusability pengetahuan yang berujung pada penemuan inovasi secara lebih mudah. Meski demikian, penelitian ini hanya menitikberatkan pada rekayasa teknologi layanan web untuk capture and sharing pengetahuan sebagai fondasi awal pengelolaan pengetahuan lebih lanjut. Potensi topik penelitian yang akan dilaksanakan sebagai lanjutan dari penelitian ini antara lain implementasi sistem pendukung keputusan dan sistem pakar pada repositori pengetahuan, optimasi basis data repositori pengetahuan, pengukuran manfaat manajemen pengetahuan dalam SIDA, dan penerapan web ontologi untuk meningkatkan knowledge 3
awareness. 1.3
Orisinalitas dan Kontribusi Terhadap Ilmu Pengetahuan Salah satu penelitian yang terkait dengan dengan pengembangan manajemen
pengetahuan untuk SIDA adalah (Teknologi, 2011). Dalam laporan penelitian tersebut telah dijelaskan model penggunaan manajemen pengetahuan untuk menguatkan sistem inovasi daerah, serta implementasi model tersebut dalam perangkat lunak berbasis web. Sayangnya pada penelitian tersebut hanya ada satu cara untuk menangkap dan dan berbagi pengetahuan, yaitu dengan melalui portal GIN yang merupakan aplikasi berbasis web. Stakeholder atau komponen pendukung SIDA hanya dapat mengakses informasi yang disediakan pada portal GIN dengan menggunakan perambah. Mereka tidak dapat mengotomatisasi pengolahan informasi yang didapat pada portal GIN dan juga tidak dapat memformat informasi yang disediakan ke dalam bentuk lain. Sebagai pengembangan dari portal GIN, BPPT juga telah meluncurkan pi-umkm.com yang mengijinkan pengunjung untuk menambahkan konten ke dalam portal tersebut, namun dalam portal tersebut juga belum tersedia fitur layanan web yang mengijinkan akses data portal secara fleksibel melalui antarmuka yang independen terhadap bahasa pemrograman seperti XML dan JSON. Beberapa perangkat lunak portal inovasi yang telah dilengkapi dengan fitur layanan web juga telah dikembangkan oleh pemerintah daerah seperti pada sidajateng.com. Namun sayangnya portal ini dikelola secara tertutup oleh tim pengembang, pengunjung tidak dapat berkontribusi secara langsung dalam penambahan kontennya, sehingga informasi yang disajikan juga sangat terbatas. Perangkat lunak manajemen pengetahuan yang dikembangkan pada penelitian ini memiliki kelebihan dibandingkan dengan beberapa sistem yang telah disebutkan sebelumnya dalam hal adaptasi konten (capture) secara otomatis dari website yang relevan dengan menggunakan web mining. Selain itu perangkat lunak yang dikembangkan juga dilengkapi layanan web dengan antarmuka XML atau JSON yang memungkinkan stakeholder mengakses repositori pengetahuan dan saling bertukar informasi dengan menggunakan 4
perangkat lunak buatan mereka sendiri. 1.4
Pendekatan Kritis yang Digunakan Secara umum perangkat lunak manajemen pengetahuan yang dikembangkan memiliki
empat komponen penting sebagaimana ditunjukkan pada gambar 1.3. Lebih detail tentang komponen yang ditunjukkan, pendekatan kritis dan konseptual yang akan digunakan dalam pelaksanaan penelitian adalah mencakup:
Gambar 1.3 Rancangan penelitian
1. Repositori pengetahuan untuk menyimpan data-data maupun informasi yang akan diolah menjadi pengetahuan. Data yang disimpan dalam repositori dapat berupa artikel, gambar, statistik, fakta, hasil publikasi, dan lain-lain. Data tersebut disimpan dalam basis data relasional seperti MySQL atau PostgreSQL untuk memudahkan manajemen. 2. Aplikasi web yang memungkinkan pengguna untuk mengakses (menginput dan menampilkan) data dan informasi secara langsung melalui perambah web. Aplikasi 5
web ini akan dikembangkan menggunakan bahasa pemrograman scripting PHP dan data yang akan disajikan adalah data yang tersimpan pada repositori pengetahuan. 3. StakeHolder Sistem Inovasi Daerah merupakan pengguna yang akan berperan aktif berkontribusi memperbaharui konten, baik melalui applikasi berbasis web maupun melalui layanan web. 4. Komponen
layanan
web
memungkinkan
perangkat
lunak
yang
dibangun
berkomunikasi dengan perangkat lunak lain dengan menggunakan antar muka XML atau JSON yang bersifat independen terhadap bahasa pemrograman. 5. Web Miner berfungsi untuk meng-capture data dari website yang relevan secara otomatis kemudian mengkategorikan hasil capture ke dalam beberapa kelompok dan menyimpannya pada repository pengetahuan agar dapat digunakan kembali. Pendekatan kritis tersebut akan menjamin keberhasilan pengembangan Capture & Sharing Manajemen Pengetahuan untuk mendukung Sistem Inovasi Daerah.
BAB 2. STUDI PUSTAKA 2.1 Penelitian Terkait Ruh dari sebuah sistem inovasi adalah adanya sinergi antaraktor dalam menggerakkan inovasi yang kooperatif, untuk membentuk jaringan inovasi. Infrastruktur jaringan inovasi daerah yang cukup penting adalah teknologi ICT. Pemanfaatan ICT dalam membangun keterkaitan dan aliran pengetahuan antar aktor kunci pengembangan inovasi daerah sangat menentukan kecepatan dalam memperbaharui kebijakan maupun strategi pembangunan pada berbagai level. Salah satu infrastruktur jaringan inovasi yang sangat membantu pengelolaan pengetahuan di daerah adalah e-development di kabupaten Tegal, Jawa Tengah. Survei pengukuran pengembangan e- development menunjukkan angka yang cukup tinggi untuk keseluruhan elemen e-development, terutama penilaian terhadap elemen e-leadership dan kelembagaan. Hal ini menunjukkan bahwa peran pimpinan daerah untuk mengembangkan pemanfaatan ICT cukup signifikan. Selain itu, pembangunan infrastruktur untuk menunjang pemanfaatan TIK bagi fungsi pelayanan masyarakat dibangun sebagai prioritas utama 6
(Noviandi, et al., 2012). Korea adalah salah satu negara yang memperkenalkan sistem politik daerah pada tahun 1995. Kejadian ini berimbas pada munculnya kesadaran terhadap pentingnya sistem inovasi daerah. Mulai saat itu, pemerintah daerah dan pemerintah pusat Korea berupaya keras untuk mengembangkan ekonomi daerah yang menitikberatkan pada inovasi teknologi dan pemanfaatan ICT (Chung, 2002). Malaysia’s Multimedia Super Corridor (MSC) adalah sebuah sistem inovasi yang dirancang untuk membantu proses transisi bangsa Malaysia menjadi masyarakat yang berpijak pada informasi, yang fokusnya adalah sektor ekonomi berbasis pengetahuan. Multimedia Super Corridor memastikan setiap stakeholder dapat berperan sesuai fungsinya. Salah satunya bertanggung jawab terhadap pengembangan infrastruktur ICT dan aplikasi, mulai dari manajemen proyek, merancang arsitektur perangkat keras, serta mengembangkan perangkat lunak yang relevan (Mohan, Omar, & Ab. Aziz, 2002). Klaster industri memainkan peran penting dalam pengembangan ekonomi daerah, ekonomi global, dan kompetisi antarperusahaan. Inovasi dalam dunia ICT merupakan faktor penggerak utama dalam menentukan keberhasilan ekonomi di masa depan (Wang, 2008). Banyak perusahaan besar di China masih tergolong rendah dalam penguasaan ICT. Untuk mengatasi masalah ini, perusahaan-perusahaan tersebut berkolaborasi dengan beberapa institusi riset dan perguruan tinggi, yang memiliki tingkat pemanfaatan teknologi yang lebih menjanjikan. Tujuannya adalah untuk mencapai penguasaan inovasi teknologi yang kompetitif. Analisis menujukkan bahwa perusahaan yang bekerjasama dengan lembaga tersebut mampu berkompetisi secara global dengan penguasaan ICT yang meyakinkan (Kazuyuki, 2005). Pembukaan sekolah-sekolah serta universitas baru pada periode 19852000 di Italia turut mempengaruhi inovasi regional (Cowan & Zinovyeva, 2013). Penelitian terkini menyatakan bahwa Bangalore telah menjadi satu dari klaster dalam bidang ICT yang dominan, di luar negara anggota OECD. Bahkan, Bangalore telah menjelma menjadi klaster terbesar, dengan pertumbuhan yang begitu cepat dalam sektor perangkat lunak di luar Amerika, meski dukungan dari pemerintah daerah dan pusat sangat kecil. Kuncinya terletak pada koordinasi antara institusi pendidikan berkualitas dengan perusahaan 7
kecil hingga nasional, sebagai landasan lahirnya sistem inoasi daerah (Chaminade & Vang, 2008). 2.2 Knowledge Management Pada dasarnya, manajemen pengetahuan adalah bidang kajian yang muncul sebagai area penelitian dalam bidang industri dan akademik, meliputi ilmu kognitif, sosiologi, manajemen, rekayasa pengetahuan, kecerdasan buatan, hingga sektor ekonomi. Manajemen pengetahuan mendapatkan respon yang signifikan dari banyak organisasi, untuk mengembangkan pengetahuan baik di dalam maupun eksternal organisasi, seperti pemegang saham dan pelanggan. Knowledge Management adalah bagian
dari upaya membangun inovasi untuk
peningkatan daya saing. Inti dari knowledge management ada tiga, yaitu sumber daya manusia, teknologi, budaya pembelajaran/berbagi pengetahuan Penelitian menunjukkan bahwa banyak organisasi mengembangkan sistem informasi yang dirancang khusus untuk mempermudah proses sharing dan integrasi pengetahuan. Kunci utama dalam manajemen pengetahuan terdiri dari dua pendekatan. Pertama, ruang lingkup manajemen pengetahuan lebih dari sekadar teknologi untuk memfasilitasi sharing dan integrasi pengetahuan. Para peneliti menyatakan bahwa selain teknologi, orang-orang dan budaya di tempat kerja merupakan faktor pendorong yang akhirnya menentukan keberhasilan atau kegagalan pengembangan manajemen pengetahuan. Kedua, titik fokus yang sematamata menekankan pada segi teknologi, menyebabkan inisiasi dan pengembangan manajemen pengetahuan terhambat (Rubenstein-Montano, Liebowitz, Buchwalter, McCaw, Newman, & Rebeck, 2001). Beberapa framework manajemen pengetahuan telah dikembangkan, baik dalam bidang akademik, industri, maupun komunitas profesional. Framework manajemen pengetahuan dapat dikelompokkan menjadi tiga kategori: prescriptive, descriptive, dan gabungan precsriptive-descriptive (Alavi & Leidner, 1999). Prescriptive framework bekerja dengan memberikan arahan jenis prosedur manajemen pengetahuan, tanpa memberikan rincian spesifik bagaimana prosedur tersebut harus dicapai. Misalnya, prescriptive framework ini memberikan masukan mengenai metodologi apa yang tepat untuk manajemen 8
pengetahuan, tanpa menjelaskan tindakan apa yang harus dilakukan untuk mengembangkan metodologi tersebut. Di sisi lain, descriptive framework merupakan kerangka yang menggolongkan
dan
mendeskripsikan
manajemen
pengetahuan.
Framework
ini
mengidentifikasi atribut manajemen pengetahuan yang penting, yang dapat digunakan untuk menentukan gagal atau berhasilnya gagasan awal manajemen pengetahuan. Sedangkan gabungan prescriptive-descriptive framework merupakan kerangka yang mengombinasikan dua framework sebelumnya. 2.3 Layanan web sebagai Infrastruktur Inovasi Pemerintah dari banyak negara menyadari bahwa infrastruktur sebuah web dan jaringan merupakan piranti penting dalam proses pengembangan dan promosi sektor inovatif, baik pada tingkat daerah, nasional, maupun global. Pertanyaan bagi negara berkembang seperti Indonesia adalah, bagaimana cara membangun infrastruktur yang mendukung proses inovasi tersebut. Salah satu solusinya adalah dengan mengadopsi dan mengadaptasi infrastruktur yang dimiliki oleh negara maju. Seperti FinnONTO, proyek nasional untuk mengembangkan jaringan semantik negara Finlandia (Hyvonen, et al., 2007), dan Theseus, sebuah metode dalam dunia internet untuk pencarian, mendapatkan, serta memproses pengetahuan (The THESEUS Research Program New Technologies for the Internet of Services, 2011). Theseus ini dikembangkan oleh pemerintah Jerman untuk meningkatkan kemampuan persaingan negara tersebut dan Uni Eropa, sebagai pemimpin dalam pusat informasi dan teknologi komunikasi. Selain berfokus pada materi, internet adalah komponen kritis yang memiliki peran dominan dalam infrastruktur proses inovasi. Contoh sukses dari kasus ini adalah Singapura, yang membuat proyek kerjasama dengan Cisco Company untuk mendirikan Singapore Science Park. Contoh lain terdapat di Hong Kong, dengan megaproyek yang dikenal sebagai Hong Kong Science & Technology Park dan Cyberport (Liana, Evgeny, & Ivan, 2012). Internet menyediakan sumber daya yang diperlukan sebuah, yang berfokus pada berbagai sektor melalui sebuah portal. South-Korean Innopolis Daedeok (Oh, Kim, & Jeong, 2005) merupakan portal milik negara Korea sebagai klaster inovasi global dalam lingkup informasi, nano dan bioteknologi, teknologi ruang angkasa dan energi, dan robotika. 9
Implementasi sukses dari infrastruktur berbentuk web ini ditunjukkan oleh Technopark Stavanger, sebuah sumber daya yang sangat diperlukan oleh perusahaan asing yang ingin berinvestasi di negeri kincir angin Belanda. Technopark Stavanger ini dijadikan sebagai platform strategis untuk menguasai pasar Eropa (Liana, Evgeny, & Ivan, 2012). Sebagian besar teknologi yang dipakai dalam infrastruktur web regional di atas menggunakan web 2.0, yang berisi basis data, layanan, informasi dalam bentuk peta dan lini masa, atau sumber-sumber informasi. Sistem Inovasi daerah yang menggunakan web 2.0 ini juga terdapat di Rhineland-Palatinate, Jerman, dengan nama WirtschaftsForum Neuwied e.V., yang terdiri dari sekitar 100 UMKM dengan jumlah pekerja hingga 8.000 (Lindermann, Valcárcel, Schaarschmidt, & von Kortzfleisch, 2009).
BAB 3. TUJUAN DAN MANFAAT PENELITIAN 3.1 Tujuan Penelitian ini bertujuan untuk mengembangkan perangkat lunak manajemen pengetahuan untuk Sistem Inovasi Daerah yang dapat diakses secara terbuka (fleksibel) oleh perangkat lunak lain, serta memanfaatkan web mining untuk menyimpan informasi secara otomatis dari website yang relevan. Tujuan tersebut akan dicapai dalam dua tahap dengan rincian sebagai berikut: 1. Tahun Pertama : Mengembangkan dan menguji coba perangkat lunak Capture and Sharing majemen pengetahuan dengan menggunakan fitur layanan web yang memungkinkan stakeholder mengakses informasi dan data pada repositori pengetahuan secara otomatis menggunakan perangkat lunak tertentu.
2. Tahun Kedua : Mengembangkan dan menguji web mining untuk repositori pengetahuan yang memungkinkan perangkat lunak manajemen pengetahuan yang dikembangkan mengambil data dan informasi dari website yang relevan secara otomatis tanpa harus diunggah secara manual.
10
3.2 Manfaat Berdasarkan tujuan yang telah ditetapkan, maka akan ada beberapa manfaat yang bisa diambil dari pengembangan perangkat lunak manajemen pengetahuan untuk Sistem Inovasi Daerah ini. Manfaat-manfaat yang dapat dirasakan antara lain: 1. Tahun Pertama : Kemudahan akses dan pertukaran informasi yang didapatkan oleh stakeholder SIDA melalui aplikasi berbasis web SIDA dan repository pengetahuan
2. Tahun Kedua : Kemudahan melakukan pengambilan data dan informasi dari website yang relevan serta dapat melakukan ekstraksi pengetahuan secara otomatis Selain luaran berupa perangkat lunak, penelitian ini juga menargetkan penulisan makalah ilmiah yang berhubungan dengan manajemen pengetahuan untuk sistem inovasi daerah, layanan web untuk sistem pemerintahan, HAKI, dan web mining untuk manajemen pengetahuan. Makalah tersebut akan dipublikasikan pada International journal dan conference. BAB 4. METODE PENELITIAN Penelitian ini bertujuan untuk mengembangkan perangkat lunak manajemen pengetahuan untuk Sistem Inovasi Daerah yang dapat diakses secara terbuka (fleksibel) oleh perangkat lunak lain, serta memanfaatkan web mining untuk menyimpan informasi secara otomatis dari website yang relevan. Tahapan yang akan dilakukan dalam rangka pencapaian tujuan penelitian dapat dilihat di tabel 3.1.
11
Tabel 3.1 Metode Penelitian Thn 2
Tahap Web crawling
Web Scrapping
Text mining
Web content mining
Langkah - Mengembangkan agent untuk melakukan crawl pada website - Membuat parser untuk mengekstrak data dari website - Mengembangkan engine untuk mengambil bagian konten dari sebuah website - Menyimpan hasil scrapping pada basis data untuk persiapan proses selanjutnya - Text gathering - Text pre-processing - Data analysis - Visualization - Evaluation -
Collect Parse Analyze Produce
12
Indikator Mencari dan mengumpulkan isi website
Hasil Crawler agent
Meng-capture bagian konten pada website dan menyingkirkan bagian lain yang tidak relevan
Scrapping engine
Melakukan klasifikasi isi website, sehingga memudahkan pencarian data berdasarkan kategori
Klasifikasi konten
- Mengambil dan mengumpulkan data dari website yang relevan secara otomatis - mengkategorikan hasil kumpulan website ke dalam beberapa kelompok - Menyimpan dalam bentuk repository pengetahuan untuk digunakan kembali
Knowledge information management support
BAB 5. HASIL YANG DICAPAI 5.1 Target dan Capaian Penelitian No 1.
Jenis Kegiatan
3.
4.
4.
Realisasi Capaian Keterangan
Web Crawling Mengembangkan agent untuk melakukan crawl pada website Membuat parser untuk mengekstrak data dari website
2.
Output
Web Scrapping Mengembangkan engine untuk mengambil bagian konten dari sebuah website Menyimpan hasil scrapping pada basis data untuk persiapan proses selanjutnya Text mining Text gathering Text pre-processing Data analysis Visualization Evaluation Web content mining Collect Parse Analyze Produce
Aplikasi Crawler Agent
Modul Scrapping engine
Modul Klasifikasi konten
Knowledge information management support
Laporan dan publikasi Laporan Kemajuan
Laporan Akhir
International conference
Laporan
Publikasi 13
100 %
100 %
Screenshoot crawler dapat dilihat di lampiran 1 Screenshoot scrapper dapat dilihat di lampiran 1
70% 50% 50% 0% 0%
Text mining masih tahap persiapan algoritma
20 % 0% 0% 0%
Baru dapat mengumpulkan saja, belum biasa yang lain
100 %
Laporan kemajuan sudah selesai dilaksanakan Laporan akhir masih belum selesai dikerjakan
50 %
80 %
International Journal HAKI
60 % 60 %
HAKI
Proses pengajuan HAKI masih sampai pada tahap pembuatan draf pengajuan
BAB 6. RENCANA TAHAPAN BERIKUTNYA Penelitian ini masih memiliki beberapa aktivitas dan capaian luaran yang belum terlaksana. Berikut merupakan aktivitas yang akan dilaksanakan berikutnya untuk mencapai luaran yang diharapkan:
No 1.
2.
3.
Jenis Kegiatan Text mining Text gathering Text pre-processing Data analysis Visualization Evaluation Web content mining Collect Parse Analyze Produce
Output
Modul Klasifikasi konten
Knowledge information management support
Laporan dan publikasi Laporan Kemajuan
Realisasi Capaian Keterangan 70% 50% 50% 0% 0%
Text mining akan segera diuji coba dan digunakan
20 % 0% 0% 0%
Web mining menunggu implementasi
100 %
Laporan kemajuan sudah selesai dilaksanakan Laporan akhir akan dibuat setelah
Laporan Laporan Akhir
50 %
14
International conference
Publikasi
International Journal
4.
HAKI
80 %
60 %
HAKI
60 %
menyelesaikan penelitian Internatioal conference akan dibuat setelah mendapatkan hasil test web mining International journal akan dibuat setelah berhasil integrase komponen Proses pengajuan HAKI masih sampai pada tahap pembuatan draf pengajuan
DAFTAR PUSTAKA The THESEUS Research Program New Technologies for the Internet of Services. (2011). Berlin: Federal Ministry of Economics and Technology. Alavi, M., & Leidner, D. E. (1999). Knowledge management systems: issues, challenges, and benefits. Communications of the AIS. Aldianto, L., Agustini, E. S., & Bayuningrat, R. H. (2011). Innovation in Indonesia: The Types, the Necessary Factors, and the National Innovation System. IEEE Journal. Chaminade, C., & Vang, J. (2008). Globalisation of knowledge production and regional innovation policy: Supporting specialized hubs in the Bangalore software industry. Research Policy 37, 1684–1696. Chung, S. (2002). Building a national innovation system through regional innovation. Technovation 22, 485–491. 15
Cowan, R., & Zinovyeva, N. (2013). University effects on regional innovation. Research Policy 42, 788– 800. Guo-xin, L., & Xiao-qin, G. (2008). Information Integration System of Enterprise Distribution Innovation Based on Web Services. IEEE Journal. Hyvonen, E., Viljanen, K., Makela, E., Kauppinen, T., Ruotsalo, T., Valkeapaa, O., et al. (2007). Elements of a National Semantic Web Infrastructure — Case Study Finland on the Semantic Web. Proceedings of the First International Semantic Computing Conference (IEEE ICSC 2007) (hal. 216-223). IEEE. Kazuyuki, M. (2005). China's Innovation System Reform and Growing Industry and Science Linkages. RIETI Discussion Paper Series 05-E-011. Liana, K., Evgeny, G., & Ivan, K. (2012). Creating a Web Infrastructure of the Regional Innovation Ecosystem in the Triple Helix Model in Russia. Procedia-Social and Behavioral Sciences, 72-79. Lindermann, N., Valcárcel, S., Schaarschmidt, M., & von Kortzfleisch, H. (2009). SME 2.0: Roadmap towards Web 2.0-Based Open Innovation in SME-Networks--A Case Study Based Research Framework. Dalam Information Systems--Creativity and Innovation in Small and Medium-Sized Enterprises (hal. 28-41). Springer. Mohan, A. V., Omar, A. A., & Ab. Aziz, K. (2002). Malaysia’s Multimedia Super Corridor Cluster: Communication Linkages Among Stakeholders in a National System of Innovation. IEEE TRANSACTIONS ON PROFESSIONAL COMMUNICATION, VOL. 45, NO. 4,, 265-275. Noviandi, N., Suharso, P., Suripto, Anis, N. H., Setianingrum, E., Saparudin, et al. (2012). Manajemen Pengetahuan untuk Penguatan Sistem Inovasi Daerah Konsep dan Aplikasi. Jakarta: BPPT Press. Oh, D.-S., Kim, K.-B., & Jeong, S.-Y. (2005). Eco-industrial park design: a Daedeok Technovalley case study. Habitat International, 269-284. Rubenstein-Montano, B., Liebowitz, J., Buchwalter, J., McCaw, D., Newman, B., & Rebeck, K. (2001). A systems thinking framework for knowledge management. Decision support systems, 5-16. 16
Teknologi, P. P. (2011). Manajemen Pengetahuan untuk Penguatan Sistem Inovasi Daerah Konsep dan Aplikasi. Jakarta: Badan Pengkajian dan Penerapan Teknologi. UDINUS, L. (2013). Rencana Induk Penelitian Universitas Dian Nuswantoro Semarang. Semarang: Universitas Dian Nuswantoro. Wang, X. (2008). The Research of Technological Innovation System for Industry Clusters. International Seminar on Future Information Technology and Management Engineering, 2008. FITME'08 (hal. 376-379). IEEE.
17
LAMPIRAN – 1 SCREEN SHOOT WEB CRAWLER DAN SCRAPPER
18
19
LAMPIRAN – 2 DRAF PUBLIKASI
20
Web Content Mining and Document Clustering and Summarization of Unstructured Data Erwin Yudi Hidayat1, Fahri Firdausillah1, Ika Novita Dewi1, Khafiizh Hastuti1, Azhari SN2 1 Faculty of Computer Science, Universitas Dian Nuswantoro, Semarang, Indonesia Department of Computer Science and Electronics, Gadjah Mada University, Yogyakarta, Indonesia
[email protected],
[email protected],
[email protected],
[email protected],
[email protected] 2
Abstract—With the research in information Retrieval and phenomenal growth of the web, today’s websites have become a key communication and information medium for various organizations. It also offers an unprecedented opportunity and challenges to data mining. Various techniques are available to extract useful data from the web. It is very important for the users to utilize this information effectively which helps them to understand the structure of information on the web more deeply and precisely. This paper conducts a survey of how web content mining has a relation to document clustering and document summarization Keywords: web content mining, document clustering, summarization
I.
INTRODUCTION
Due to the rapid growth of the Web, sites appear and disappear, content is modified and it becomes impossible to master their organization. The nature of the environment itself imposes some disadvantages: Internet is a network of worldwide level, constantly changing and non-structured [1]. The Web is the largest data source in the world. Web mining aims to extract and mine useful knowledge from the Web. It is a multi- disciplinary field involving data mining, machine learning, natural language processing, statistics, databases, information retrieval, and multimedia, The Web offers an unprecedented opportunity and challenge to data mining [2]: The amount of information on the Web is huge, and easily accessible. The coverage of Web information is very wide and diverse. One can find information about almost anything. Information/data of almost all types exist on the Web, e.g., structured tables, texts, and multimedia data. Much of the Web information is semi-structured due to the nested structure of HTML code. Much of the Web information is linked. There are hyperlinks among pages within a site, and across different sites. Much of the Web information is redundant. The same piece of information or its variants may appear in many pages.
These characteristics present both challenges and opportunities for mining and discovery of information and knowledge from the Web. II.
WEB MINING
The web is a medium for accessing a great variety of information stored in different parts of the world with tremendous growth of amount of data or information available today. Large amount of text documents, multimedia files, images and other forms of data in structured, semi structured and unstructured form were available in the web. As time passed by the complexity of web increased due to enormously large amount of data. Such as increased difficulty of finding relevant information, extracting potentially useful knowledge and learning about consumers or individual users. It is very important for the users to utilize this information effectively which helps them to understand the structure of information on the web more deeply and precisely [2]. The discovery of usage patterns by applying data mining have been explored in many studies. However, the discovery of such patterns by itself is not sufficient to understand the users’ underlying interest. Extraction of data according to users need became a tedious task. When the data to be analyzed is in large quantities, then it is hard to find out the relevant data [3]. Most of the web users could encounter the following problems while interaction with the web are Finding Appropriate Information, Creation of New Knowledge from the Web, Personalizing Data’s, Analyzing Individual User Preferences [4]. As a result mining became an essential technique to extract valuable information from internet. And this technique was named as web mining. Web mining refers to the overall process of discovering potentially useful and previously unknown information or knowledge from the web data [3]. Several other techniques like information retrieval, information extraction and machine learning have been used in the past to discover the new knowledge from the huge amount of data available in the web. Web mining is now a part of Information retrieval system and Information Extraction system. Information retrieval helps in preprocessing phase before web mining. It also helps in indexing which further helps in retrieval. Machine learning is
not related to web mining directly but it supports web mining because it improves text classification process better than traditional Information Retrieval process [3]. Web mining helps to understand customer behavior, helps to evaluate the performance of a web site and the research done in web content mining indirectly helps to boost business. Web mining can be divided into three categories depending on the type of data as Web Structure, Web Content and Web Usage Mining [5]. Web Structure relies on previous usage patterns, Web Content relies on degree of shared content, and Web Usage Mining relies on intermemory associative link structures. Web content mining extracts information from different web sites for its access and knowledge discovery and extract information from web page content, such as data can be image, audio, text and video. One of the challenges in Web content is to extract useful information from the pages. This research used unstructured text data in the form of text document. Unstructured text data consist of Summarization, and Document Clustering [4]. III.
DOCUMENT CLUSTERING AND SUMMARIZATION
Document clustering and document summarization are two fundamental tools for understanding document data and have attracted much attention in recent years [6]. Given a collection of documents, document clustering aims to partition them into different groups called clusters; so that the documents in the same group are similar to each other, while the documents in different clusters are dissimilar. Multi document summarization, the process of generating a summary by reducing documents in size while retaining the main characteristics of the original documents, is another effective tool for understanding documents. Both of the document clustering and summarization techniques contribute to retrieving useful and meaningful information from documents, and they have a wide range of applications in information management and retrieval. For example, document clustering provides an efficient method for organizing and presenting Web search results, and the summarization used in snippet generation on the Web can assist users in further exploration. A. Documents Clustering Document clustering has been widely studied. Clustering is an important technique in organizing and categorizing web scale documents. Clustering is a data mining technique that organizes data into classes of natural groupings, where the class labels are not previously known. A good clustering algorithm will produce clusters with high intra-cluster similarity and low inter-cluster similarity. The main challenges faced in clustering the billions of documents available on the web are the processing power required and the sheer size of the datasets available. Traditional clustering techniques such as hierarchical and partitioning methods have been used in clustering documents [6]. Nayak [7] presents a clustering and labeling solution where the Wikipedia is clustered and hundreds of millions of web documents in ClueWeb12 are mapped on to those clusters. This solution is based on the assumption that the
Wikipedia contains such a wide range of diverse topics that it represents a small scale web. This research found that it was possible to perform the web scale document clustering and labeling process on one desktop computer under a couple of days for the Wikipedia clustering solution containing about 1000 clusters. It takes longer to execute a solution with finer granularity clusters such as 10,000 or 50,000. These results were evaluated using a set of external data. Document clustering using NMF and fuzzy relation is presented in [8]. The proposed method can improve the quality of document clustering because the clustered documents by using fuzzy relation values between semantic features and terms to distinguish well dissimilar documents in clusters, the selected cluster label terms by using semantic features based on NMF, which is used in document clustering, can represent an inherent structure of document set better. The experimental results demonstrate that the proposed method achieves better performance than other document clustering methods. In [9], a document clustering method is improved by using automated machine translation. With the development of statistical machine translation, the authors have ready-touse tools that can translate documents from one language to many other languages. These translations provide different yet correlated views of the same set of documents. This gives rise to an intriguing question: can we use the extra information to achieve a better clustering of the documents? Some recent work on multi-view clustering provided positive answers to this question. In this work, authors propose an alternative approach to address this problem using the constrained clustering framework. Unlike traditional MustLink and Cannot-Link constraints, the constraints generated from machine translation are dense yet noisy. The authors show how to incorporate this type of constraints by presenting two algorithms, one parametric and one nonparametric. Those algorithms are easy to implement, efficient, and can consistently improve the clustering of real data, namely the Reuters RCV1/RCV2 Multilingual Dataset. In contrast to existing multi-view clustering algorithms, the presented technique does not need the compatibility or the conditional independence assumption, nor does it involve subtle. Ideally, document clustering methods should produce clusters that are semantically relevant and readily understandable as collections of documents belonging to particular contexts or topics. However, existing popular document clustering methods often ignore term-document corpus-based semantics while relying upon generic measures of similarity. In [10], document clustering framework based on discrimination information maximization (DCIM) is presented. The DCIM is an algorithmic framework for partitional clustering of documents that maximizes the sum of the discrimination information provided by documents. CDIM exploits the semantic that term discrimination information provides better understanding of contextual topics than term-to-term relatedness to yield clusters that are describable by their highly discriminating terms. The authors evaluate the proposed clustering algorithm using well-known discrimination/semantic measures including Relative Risk
(RR), Measurement of Discrimination Information (MDI), Domain Relevance (DR), and Domain Consensus (DC) on twelve data sets to prove that CDIM produces high-quality clusters comparable to the best methods. The understandability and efficiency of CDIM, suggesting its suitability for practical document clustering are also illustrated in the paper. A comprehensive and effective framework for document clustering evaluation and understanding using information visualization, called DClusterE is presented. DClusterE integrates cluster validation with user interactions and offers rich visualization tools for users to examine document clustering results from multiple perspectives. In particular, through informative views including force-directed layout view, matrix view, and cluster view, DClusterE provides not only different aspects of document inter/intra-clustering structures, but also the corresponding relationship between clustering results and the ground truth. Additionally, DClusterE supports general user interactions such as zoom in/out, browsing, and interactive access of the documents at different levels. Two new techniques are proposed to implement DClusterE: (1) a novel multiplicative update algorithm (MUA) for matrix reordering to generate narrowbanded (or clustered) nonzero patterns from documents. Combined with coarse seriation, MUA is able to provide better visualization of the cluster structures. (2) a Mallowsdistance-based algorithm for establishing the relationship between the clustering results and the ground truth, which serves as the basis for coloring schemes. Experiments and user studies are conducted to demonstrate the effectiveness and efficiency of DClusterE. Appears in [11], a novel document clustering technique – Document Clustering with Universum is presented, which utilizes the Universum examples to improve the clustering performance. The intuition is that the Universum examples can serve as supervised information and help improve the performance of clustering, since they are known not belonging to any meaningful concepts/clusters in the target domain. In particular, a maximum margin clustering method is proposed to model both target examples and Universum examples for clustering. An extensive set of experiments is conducted to demonstrate the effectiveness and efficiency of the proposed algorithm. B. Documents Summarization There are two advantages obtained by utilizing the mutual influence of document clustering and summarization: (1) a better document clustering method with more meaningful interpretation; and (2) an effective document summarization method with guidance from document clustering [12]. Document summarization can be performed in several different ways, and query-based multi-document summarization by clustering of documents [13] is one of them. This method implements a more efficient and integrated Information Retrieval system with three different phases by an extractive based query oriented multidocument summarization. The three phases include Retrieval phase, Clustering phase and Summarization phase. The
methods used in these phases are all unsupervised methods and do not require any training data. In the Retrieval phase, a keyword matching links the user query and with the document collection using cosine similarity as the similarity measure. This means that the top-scored relevant documents are retrieved. In the Clustering phase, the retrieved documents are clustered into different topic groups based on the score obtained in the first phase. The actual summary is formed in the Summarization phase. The sentences in each of these clusters are ranked using the ranking method, TextRank. The authors use sentence level extraction approach for the summarization that extracts top ranked sentences from each of the clusters and form the summary. Unsupervised document summarization from data reconstruction perspective named Document Summarization based on Data Reconstruction (DSDR) [14] is an approach that generates a summary which consist of those sentences that can best reconstruct the original document. To model the relationship among sentences, firstly the linear reconstruction which approximates the document by linear combinations of the selected sentences is introduced. Then extend it into the non-negative reconstruction which allows only additive, not subtractive, linear combinations. In order to handle the nonlinear cases and respect the geometrical structure of sentence space, linear reconstruction in the manifold adaptive kernel space which incorporates the manifold structure by using graph Laplacian is extended. Extensive experiments on summarization benchmark data sets demonstrate that the proposed framework outperform state of the art. There is a novel summarizer, called Yago-based Summarizer proposed by [15], that relies on an ontologybased evaluation and selection of the document sentences. To capture the actual meaning and context of the document sentences and generate sound document summaries, an established entity recognition and disambiguation step based on the Yago ontology is integrated into the summarization process. The experimental results, which were achieved on the DUC’04 benchmark collections, demonstrate the effectiveness of the proposed approach compared to a large number of competitors as well as the qualitative soundness of the generated summaries. Research by [16] aims to produce high quality multi document news summaries by taking into account the generic components of a news story within a specific domain. An effective method, named Genetic-Case Base Reasoning, to identify cross-document relations from unannotated texts is presented. Following that, the authors propose a new sentence scoring model based on fuzzy reasoning over the identified cross-document relations. The experimental findings show that the proposed approach performed better than the conventional graph based and cluster based approach. An optimization-based model for generic document summarization is proposed by [17]. The model generates a summary by extracting salient sentences from documents. This approach uses the sentence-to-document collection, the summary-to-document collection and the sentence-tosentence relations to select salient sentences from given
document collection and reduce redundancy in the summary. To solve the optimization problem has been created an improved differential evolution algorithm. The algorithm can adjust crossover rate adaptively according to the fitness of individuals. We implemented the proposed model on multidocument summarization task. Experiments have been performed on DUC2002 and DUC2004 data sets. The experimental results provide strong evidence that the proposed optimization-based approach is a viable method for document summarization. With the rapid growth of information on the Internet and electronic government recently, automatic multi-document summarization has become an important task. Multidocument summarization is an optimization problem requiring simultaneous optimization of more than one objective function. In [18], when building summaries from multiple documents, the authors attempt to balance two objectives, content coverage and redundancy. The goal is to investigate three fundamental aspects of the problem, i.e. designing an optimization model, solving the optimization problem and finding the solution to the best summary. Multidocument summarization as a Quadratic Boolean Programing (QBP) problem is modelled, where the objective function is a weighted combination of the content coverage and redundancy objectives. The objective function measures the possible summaries based on the identified salient sentences and overlap information between selected sentences. An innovative aspect of the model lies in its ability to remove redundancy while selecting representative sentences. The QBP problem has been solved by using a binary differential evolution algorithm. Evaluation of the model has been performed on the DUC2002, DUC2004 and DUC2006 data sets. Evaluation has been applied into the model automatically using ROUGE toolkit and reported the significance of the results through 95% confidence intervals. The experimental results show that the optimization-based approach for document summarization is truly a promising research direction. IV.
UNSTRUCTURED WEB DOCUMENT
Unstructured Web text offers a number of advantages over previously used text collections: Redundancy. Facts seldom mentioned in a news corpus may be mentioned often on the Web. Multiple paraphrases. Facts that are often mentioned on the Web are more likely to appear in a variety of formulations (or paraphrases). Easy-to-understand language. Since facts are likely to be repeatedly paraphrased, some paraphrases will be easier to understand than others. Previously used text corpora tended to consist of newspaper articles whose language is more formal and contains complicated linguistic and syntactic constructions; retrieving information from such articles requires relatively sophisticated methods, whereas Web text is more likely to contain simpler constructions that can be handled using a less complicated linguistic processing machinery.
Broad coverage. The Web contains many types of useful information: product, restaurant and hotel reviews, how-to sites with large quantities of commonsense information, newspaper articles and so on. The variety of the information available on the Web supports many new types of applications (e.g., recommender and trend detection systems, integrated AI applications such as activity recognition and state estimation systems, and more). Search Engines. Search engines offer an easy way to navigate Web text, retrieve information and collect counts for strings of interest. V.
CONCLUSION
Web mining is a rapid growing research area. Web content mining is related but different from data mining and text mining. Web data are mainly semi-structured and/or unstructured. Web content mining requires creative applications of data mining and/or text mining techniques and also its own unique approaches. Due to the heterogeneity and the lack of structure of Web data, automated discovery of targeted or unexpected knowledge information still present many challenging research problems. For effective multi-document summarization, it is important to reduce redundant information in the summaries and extract sentences which are common to given documents REFERENCES A. Herrouz, C. Khentout, and M. Djoudi, “Overview of Web Content Mining Tools,” Int. J. Eng. Sci., vol. 2, no. 6, 2013. [2] K. Pol, S. Patankar, N. Patil, and C. Das, “A Survey on Web Content Mining and Extraction of Structured and Semistructured Data,” in 1st International Conference on Emerging Trends in Engineering and Technology, 2008, pp. 543–546. [3] F. Johnson and S. Kumar Gupta, “Web Content Mining Techniques: A Survey,” Int. J. Comput. Appl., vol. 47, no. 11, pp. 44–50, 2012. [4] R. Malarvizhi and K. Saraswathi, “Web Content Mining Techniques Tools & Algorithms – A Comprehensive Study,” Int. J. Comput. Trends Technol., vol. 4, no. 8, pp. 2940–2945, 2013. [5] H. S. Husin, J. A. Thom, and X. Zhang, “News recommendation based on Web usage and Web content mining,” in 2013 IEEE 29th International Conference on Data Engineering Workshops (ICDEW), 2013, pp. 326–329. [6] Y. Zhang and T. Li, “DClusterE: A Framework for Evaluating and Understanding Document Clustering Using Visualization,” ACM Trans. Intell. Syst. Technol., vol. 3, no. 2, pp. 1–24, 2012. [7] R. Nayak, R. Mills, and C. De-vries, “Clustering and Labeling a Web Scale Document Collection using Wikipedia clusters,” in Proceedings of the 5th International Workshop on Web-scale Knowledge Representation Retrieval & Reasoning, 2014, pp. 23–30. [8] S. Park, D. U. An, and H. Yoo, “Document clustering using NMF and fuzzy relation,” Proc. 5th Int. Confernece Ubiquitous Inf. Manag. Commun. - ICUIMC ’11, p. 1, 2011. [9] X. Wang, “Improving Document Clustering Using Automated Machine Translation,” in Proceedings of the 21st ACM international conference on Information and knowledge management, 2012, pp. 645–653. [10] M. Tahir, A. Karim, J. Kim, and M. Jeon, “CDIM : Document Clustering by Discrimination Information Maximization,” Inf. Sci. (Ny)., vol. 316, pp. 87–106, 2015. [11] D. Zhang, J. Wang, and L. Si, “Document clustering with universum,” Proc. 34th Int. ACM SIGIR …, pp. 873–882, 2011. [1]
[12] D. Wang, S. Zhu, T. Li, Y. Chi, and Y. Gong, “Integrating Document Clustering and Multidocument Summarization,” ACM Trans. Knowl. Discov. Data, vol. 5, no. 3, pp. 1–26, 2011. [13] G. K. R. Naveen and P. Nedungadi, “Query-based Multi-Document Summarization by Clustering of Documents Categories and Subject Descriptors,” in Proceedings of the 2014 International Conference on Interdisciplinary Advances in Applied Computing, 2014. [14] Z. He, C. Chen, J. Bu, C. Wang, L. Zhang, D. Cai, and X. He, “Unsupervised document summarization from data reconstruction perspective,” Neurocomputing, vol. 157, pp. 356–366, 2015. [15] E. Baralis, L. Cagliero, S. Jabeen, A. Fiori, and S. Shah, “Multidocument summarization based on the Yago ontology,” Expert Syst. Appl., vol. 40, no. 17, pp. 6976–6984, 2013.
[16] Y. J. Kumar, N. Salim, A. Abuobieda, and A. T. Albaham, “Multi document summarization based on news components using fuzzy cross-document relations,” Appl. Soft Comput., vol. 21, pp. 265–279, 2014. [17] R. M. Alguliev, R. M. Aliguliyev, and N. R. Isazade, “Multiple documents summarization based on evolutionary optimization algorithm,” Expert Syst. Appl., vol. 40, no. 5, pp. 1675–1689, 2013. [18] R. M. Alguliev, R. M. Aliguliyev, and M. S. Hajirahimova, “GenDocSum + MCLR: Generic document summarization based on maximum coverage and less redundancy,” Expert Syst. Appl., vol. 39, no. 16, pp. 12460–12473, 2012.
Int. J. , Vol. x, No. x, xxxx
1
Architecture for Crowd Source Based Knowledge Management System to Support Innovation on SME Fahri Firdausillah1, Erwin Hidayat2, Khafiizh Hastuti3, Azhari SN4 4
1, 2, 3 Faculty of Computer Science, Dian Nuswantoro University, Semarang Faculty of Mathematic and Natural Science, Gajah Mada University, Yogyakarta
Abstract In this study developed the Open Knowledge Management that can be used Small Medium Enterprise for information and innovation, as well as exchanging knowledge with other SME to create regional innovation system. The goal of the development of the system is to provide solutions to the SME with limited resources to conduct research and innovation. The system developed consists of a knowledge repository for storing documents and discussion, engine crawlers to obtain additional information from the Internet, and also for the automation engine cluster grouping knowledge into relevant categories. This paper describes the architecture used and discuss how these components can collaborate to facilitate SME develop innovative products. Introduction The majority existing advancement in brokering administrations need aid fundamentally pointed In bigger organizations, however, little Also medium ventures (SMEs) the table respectable possibility to crowd-sourcing action since they need aid regularly the advancement What's more vocation engines in society; they are normally that's only the tip of the iceberg deft and responsive of the benefits of the business nature's domain over the bigger organizations. SMEs need thick, as different tests Also needs with bigger associations since they have fewer resources, that's only the tip of the iceberg set information Also ability base, also adolescent administration hones. Consequently, improvement brokering for SMEs oblige impressively more help over to bigger associations. Innovation in SME Given the importance of innovation and new product development for company survival it is not surprising that many companies desperately seek to improve their innovation performance. Especially small and medium sized enterprises (SMEs) encounter difficulties in their NPD process due to a lack of financial resources and a lack of manpower. For efficiency matters these companies need to focus on their core competences. This focus on core competences inherently means that SMEs cannot do everything themselves and therefore they need to cooperate in new product development. By using inter-organizational relationships the “burden” of innovation can be shared between several organizations.
Copyright © 200x Inderscience Enterprises Ltd.
Fahri Firdausillah, Erwin Hidayat, Khafizh Hastuti, Azhari SN The big firms usually have massive R&D budgets that fund hundreds or even thousands of people to peer into the future, to do the science and technology work to develop new products and services, and to think through the critical details around innovation and strategy. Their staff and consultants have MBAs and economics degrees that trained them to think about the future and come up with lots of new ideas. But who do Joś or Jane have to support their innovation and strategy initiatives? Open Innovation The concept of open innovation has recently gained widespread attention. It is particularly relevant now because many firms are required to implement open innovation, despite the difficulties associated with managing these activities. After providing a definition of open innovation delimiting it from open source, an overview of prior research is given, which identifies the following important topics of earlier open innovation research: technology transactions, user innovation, business models, and innovation markets. In light of current controversial debates about the value of the open innovation framework, we evaluate the literature and assess whether open innovation is a sustainable trend rather than a management fashion. While open source initiatives appear in many forms, there are two primary types: open source software and open source content. Open source software development is based on a collaborative effort where software is created by a community of volunteers or members of organizations who support the open source software movement. Software projects have ‘‘owners’’ who initiate projects and have the right to redistribute modified versions of the software. The projects’ development process often involves a review system that is similar in nature to the peer-review system common in academia: people share their knowledge and skills, the software they write undergoes peer-review by the owners of the open source software project, and if deemed good enough it is accepted and its contributors gain credit for it. Thus, contributors need to have a reasonable level of expertise and to have this expertise made public in order for them to make a creditable contribution. The concept of open innovation highlights three issues that may allow for important contributions of open innovation research. First, the open innovation literature advances prior research by explicitly integrating inward and outward knowledge transfer. Many firms rely on both inbound and outbound open innovation simultaneously. In addition, some open innovation activities specifically include both processes. Examples are crosslicensing agreements, in which firms transfer some of their own technology to get access to external knowledge. In addition, the open innovation literature has addressed the possibility of maintaining knowledge outside a firm’s boundaries. This comprehensive perspective on critical knowledge management processes is essential because of potential interdependencies. For instance, an active acquisition of external technology may limit a firm’s opportunities to commercialize its own knowledge. Second, open innovation research points to the simultaneous internal and external organization of critical knowledge-management processes. Accordingly, it helps overcome
Architecture for Crowd Source Based Knowledge Management System to Support Innovation on SME prior research, which often assumed “either-or” decisions about whether to perform specific knowledge management tasks internally or externally. One example in knowledge exploration is make-or-buy decisions: While firms may decide to internally generate or externally source one particular technology, a firm-level perspective usually points to simultaneous internal and external knowledge exploration. The fact that it is often hardly possible to generate all relevant knowledge internally demonstrates the complementary character of the internal and external organization of knowledge management processes. Third, the open innovation framework helps integrate technology management research with the innovation management literature. In particular, open innovation directly links concepts from technology management (e.g., external technology acquisition) to new product development. In the past, the new product development literature has often focused on activities inside the firm. In contrast, earlier technology management research often examined specific technology management processes (e.g., R&D) and technological change without directly relating the analyses to a firm’s innovation processes.
Image 1. Streams of Open Innovations
Crowd source for Open Innovation Howe chronicled the rise of what he identified as a countercurrent to the outsourcing of problem solving to firms in India and China. That countercurrent tapped into the untapped wisdom and talents of people in many places, including the United States. Howe’s article told the stories of four kinds of problems addressed by different individuals and groups in response to a range of problems or opportunities put forth by or on behalf of end users, and christened it crowdsourcing, literally finding what you need not internally or from traditional vendors, but from people loosely affiliated through the Internet. In their evaluation of research on crowdsourcing, distinguished crowdsourcing from open innovation generally and open source code development more specifically by noting that crowdsourcing was not ‘‘open,’’ but instead relied on individual and independent work. They also presented it is different than outsourcing because of the lack of control over the crowd on the part of the issuer of the challenge. They define crowdsourcing as a ‘‘collective intelligence system’’ characterized by three components: an organization that directly benefits from the work of the crowd, the crowd itself, and finally a platform able to link the two together and to provide a host for the activity throughout its lifecycle.
Fahri Firdausillah, Erwin Hidayat, Khafizh Hastuti, Azhari SN Though a clear fan of crowdsourcing, also cautions that it requires a robust, motivated, active crowd, a lot of transparency on the part of the sponsor, and that it can be manipulated and gamed easily due to the ease of access and the anonymity afforded to participants. Though useful, he suggests that crowdsourcing should not be used as a replacement for other forms of engagement or innovation, particularly on the part of government, noting that representation cannot be assured, the activity can be easily coopted by elites having better access, and that it favors the organization at the expense of the laborer. Crowd Source Contributor Motivations Overall, a large variety of motivations has been indicated. An important distinction, as well as in review of the research on open source motivations, is between intrinsic and extrinsic motivations. This distinction reiterates earlier formulations in the study of motivation, such as self-determination theory. Extrinsic motivations are instrumental in nature and represent cases with a focus on extrinsic rewards, where the expected benefits of contributing are believed to exceed the contribution’s costs. These include, for example, improvement of programming skills, creation of required, yet otherwise unavailable, code, and the enhancement of professional status. Intrinsic motivations, on the other hand, tend to be terminal in that they emphasize inherent satisfactions rather than their separable consequence. They include motivations such as altruism, fun, reciprocity, intellectual stimulations, and a sense of obligation to contribute. The first, and most instrumental in nature, involves individuals’ desire to establish their reputation and to gain approval from others in the field. This motivation is considered extrinsic because of its instrumental value in enhancing contributors’ job prospects. The second motivation involves a desire for self-development through learning from others in the field, receiving feedback, and enhancing one’s abilities and skills While Lakhani and Wolf (2005) consider the learning motivation to be extrinsic because of its instrumental value (e.g., the prospect of getting a good job), this motivation is also related to what is termed in other works as flow, and is driven by internal needs for growth and selfactualization, which are end-goals of themselves. The third, and least instrumental, motivation involves altruism, or the desire to help others in the community. The emphasis here is on the direct satisfaction and on the internal sense of obligation that drives behaviour. Design and Architecture of Knowledge Management for SME The system consists of several parts mainly on the web apps components. The component holds all the content.
Architecture for Crowd Source Based Knowledge Management System to Support Innovation on SME
Image 2. Architecture of Crowd Source Based Knowledge Management
Conclusion and Future Works References 1. Bücheler, T., & Sieg, J. H. (2011). Understanding science 2.0: crowdsourcing and open innovation in the scientific method. Procedia Computer Science, 7, 327-329. 2. Oreg, S., & Nov, O. (2008). Exploring motivations for contributing to open source initiatives: The roles of contribution context and personal values. Computers in human behavior, 24(5), 2055-2073. 3. Su, C. J., & Chiang, C. Y. (2012). Enabling successful Collaboration 2.0: A RESTbased Web Service and Web 2.0 technology oriented information platform for collaborative product development. Computers in Industry, 63(9), 948-959. 4. Lichtenthaler, U. (2011). Open innovation: Past research, current debates, and future directions. The Academy of Management Perspectives, 25(1), 75-93. 5. Ramos, I., de Souza, L. A., Mourão, L., Adams, C., & Silva, C. (2012). CROWDSOURCING INNOVATION: a proposal for a brokering architecture focused in the innovation needs of SMEs. CONNEXIO-ISSN 2236-8760, 2(1), 9-28.
LAMPIRAN – 3 DRAF PATEN
22
Deskripsi SISTEM INOVASI DAERAH BERBASIS WEB SERVICE DAN WEB MINING UNTUK PENGEMBANGAN CAPTURE & SHARING MANAJEMEN PENGETAHUAN
Bidang Teknik Invensi Penemuan ini berhubungan dengan penerapan web service dan web mining untuk merepresentasikan proses capture dan sharing manajemen pengetahuan dalam Sistem Inovasi Daerah. Latar Belakang Invensi Sistem inovasi daerah (SIDA) merupakan salah satu program utama pemerintah yang bertujuan untuk meningkatkan daya saing produk unggulan daerah berbasis inovasi (Aldianto, Agustini, & Bayuningrat, 2011). Dalam prakteknya terdapat empat stakeholder yang menjadi pilar utama untuk menyukseskan SIDA, yaitu perusahaan sebagai tempat produksi, lembaga pendidikan sebagai pelaksana riset dan pelatihan, lembaga teknologi sebagai penyedia alat bantu, dan framework condition yaitu pemerintah tingkat daerah dan tingkat nasional yang merumuskan kebijakan (Noviandi, et al., 2012). Beberapa media manajemen pengetahuan telah dibuat untuk menghubungkan keempat stakeholder sistem inovasi dalam bentuk portal inovasi seperti sidajateng.com dan piumkm.co.id. Namun ada dua kekurangan pada media tersebut, yaitu hanya menggunakan representasi informasi dengan HTML yang hanya dapat diakses oleh perambah web dan proses capture informasi masih manual yaitu hanya mengandalkan kontribusi pengguna. Representasi informasi dalam bentuk HTML saja akan mempersulit stakeholder untuk merekayasa informasi dalam bentuk lain (Guo-xin & Xiao-qin, 2008). Contoh rekayasa informasi yang mungkin diterapkan pada manajemen pengetahuan sistem inovasi adalah pemetaan permasalahan pada satu industri dengan solusi yang telah diterapkan pada industri yang lain. Contohnya adalah produk unggulan batik Pekalongan memiliki masalah dalam pemasaran, sedangkan di Jepara permasalahan pemasaran tersebut sudah
23
ditemukan solusinya dan mungkin untuk diterapkan untuk permasalahan di Pekalongan. Sayangnya dengan kondisi portal inovasi saat ini, untuk melakukan rekayasa tersebut stakeholder harus melakukan kerja tambahan yang tidak mudah yaitu merubah format data yang ada ke format yang sesuai (Guo-xin & Xiao-qin, 2008). Proses capture informasi secara otomatis dapat meningkatkan kuantitas informasi dan pengetahuan yang tersedia dan selanjutnya dapat meningkatkan kualitas dari inovasi yang dihasilkan dari manajemen pengetahuan tersebut. Untuk memberikan solusi pada permasalahan manajemen pengetahuan sistem inovasi tersebut, maka diperlukan memanfaatkan teknologi layanan web (web service) yang memungkinkan representasi informasi ke dalam format umum yang dapat diakses oleh mesin / perangkat lunak lain dan dapat saling bertukar informasi. Selain itu, dalam penelitian ini juga akan dikembangkan engine web miner yang mampu mengekstrak informasi penting dari website yang relevan dan menyimpannya ke dalam repositori untuk dapat dimanfaatkan sebagai tambahan pengetahuan. Ringkasan Invensi Pengembangan perangkat lunak berbasis web Sistem Inovasi Daerah perlu dikembangkan dengan menerapkan konsep manajemen pengetahuan yang dapat diakses secara terbuka oleh stakeholder sehingga mampu mendukung peningkatan pengelolaan manfaat Sistem Inovasi Daerah. Pengelolaan manajemen pengetahuan dalam melakukan capture informasi perlu dilakukan secara otomatis guna meningkatkan kuantitas informasi dan pengetahuan, serta kualitas inovasi yang dihasilkan. Aplikasi Sistem Inovasi Daerah berbasis web akan dikembangkan menjadi aplikasi berbasis layanan (web service) menggunakan XML dan JSON dengan tujuan agar antar perangkat lunak yang mengakses web Sistem Inovasi Daerah dapat saling berkomunikasi. Pengembangan aplikasi berbasis web dan layanan akan digunakan sebagai dasar pembuatan repositori pengetahuan (knowledge repository) untuk menyimpan data-data maupun informasi yang akan diolah menjadi pengetahuan. Repositori pengetahuan akan dimanfaatkan sebagai basis dalam peningkatan capture informasi dengan menerapkan konsep web mining.
24
Uraian Singkat Gambar 1. Gambar 1 adalah desain Sistem Inovasi Daerah berbasis web service dan web mining, yang meluputi: a. Repositori pengetahuan untuk menyimpan data-data maupun informasi yang akan diolah menjadi pengetahuan. Data yang disimpan dalam repositori dapat berupa artikel, gambar, statistik, fakta, hasil publikasi, dan lain-lain. Data tersebut disimpan dalam basis data relasional seperti MySQL atau PostgreSQL untuk memudahkan manajemen. b. Aplikasi web yang memungkinkan pengguna untuk mengakses (menginput dan menampilkan) data dan informasi secara langsung melalui perambah web. Aplikasi web ini akan dikembangkan menggunakan bahasa pemrograman scripting PHP dan data yang akan disajikan adalah data yang tersimpan pada repositori pengetahuan. c. StakeHolder Sistem Inovasi Daerah merupakan pengguna yang akan berperan aktif berkontribusi memperbaharui konten, baik melalui applikasi berbasis web maupun melalui layanan web. d. Komponen layanan web memungkinkan perangkat lunak yang dibangun berkomunikasi dengan perangkat lunak lain dengan menggunakan antar muka XML atau JSON yang bersifat independen terhadap bahasa pemrograman. e. Web Miner berfungsi untuk meng-capture data dari website yang relevan secara otomatis kemudian mengkategorikan hasil capture ke dalam beberapa kelompok dan menyimpannya pada repository pengetahuan agar dapat digunakan kembali. 2. Gambar 2 adalah gambaran umum layanan website Sistem Inovasi Daerah. Dalam desain layanan yang akan disediakan ini menggambarkan menu dan layananlayanan yang tersedia dalam website Sistem Inovasi Daerah. 3. Gambar 3 adalah use case diagram yang menggambarkan aktivitas dan interaksi user (pengguna) dengan website Sistem Inovasi Daerah. Uraian Lengkap Invensi Klaim
25
Abstrak SISTEM INOVIAS DAERAH BERBASIS WEB SERVICE DAN WEB MINING UNTUK PENGEMBANGAN CAPTURE & SHARING MANAJEMEN PENGETAHUAN Pemerintah telah berupaya untuk meningkatkan daya saing produk unggulan daerah dengan Sistem Inovasi Daerah (SIDA) yang didukung oleh empat pilar utama, yaitu perusahaan, lembaga pendidikan, lembaga teknologi, dan pembuat kebijakan. Keempat pilar ini terhubung melalui media manajemen pengetahuan yang berbentuk suatu portal inovasi. Portal inovasi yang saat ini berkembang masih direpresentasikan dalam bentuk HTML dan proses pengambilan (capture) informasi masih mengandalkan konstribusi pengguna yang akan berakibat pada sulitnya melakukan rekayasa informasi, misalnya pemetaan masalah pengembangan pemasaran produk dan penentuan solusinya. Pengembangan perangkat lunak berbasis web Sistem Inovasi Daerah perlu dikembangkan dengan menerapkan konsep manajemen pengetahuan yang dapat diakses secara terbuka oleh stakeholder sehingga mampu mendukung peningkatan pengelolaan manfaat Sistem Inovasi Daerah. Pengelolaan manajemen pengetahuan dalam melakukan capture informasi perlu dilakukan secara otomatis guna meningkatkan kuantitas informasi dan pengetahuan, serta kualitas inovasi yang dihasilkan. Aplikasi Sistem Inovasi Daerah berbasis web akan dikembangkan menjadi aplikasi berbasis layanan (web service) menggunakan XML dan JSON dengan tujuan agar antar perangkat lunak yang mengakses web Sistem Inovasi Daerah dapat saling berkomunikasi. Pengembangan aplikasi berbasis web dan layanan akan digunakan sebagai dasar pembuatan repositori pengetahuan (knowledge repository) untuk menyimpan data-data maupun informasi yang akan diolah menjadi pengetahuan. Repositori pengetahuan akan dimanfaatkan sebagai basis dalam peningkatan capture informasi dengan menerapkan konsep web mining.
27
Gambar
Gambar 1 Sistem Inovasi Daerah berbasis web service dan web mining
28
Gambar 2 Gambaran umum layanan website SIDA
29
Gambar 3 Use case diagram SIDA
30