DATA WAREHOUSE INISIATIF DI UNIVERSITAS SUMATERA UTARA
Opim Salim Sitompul,
[email protected] Pusat Sistem Informasi USU Jl. Universitas No 9 Kampus USU Medan Telp. 061-8213793, Fax.: 061-8223572 ABSTRAK Data warehouse adalah sistem repositori data yang semakin populer bagi sebuah instansi. Data warehouse umumnya didukung oleh sebuah model data konseptual yang disebut model multidimensi yang dapat digunakan untuk melihat data dari dimensi yang berbeda-beda untuk keperluan analisis dan pelaporan. Untuk mendukung pengambilan keputusan dalam proses pengelolaan perguruan tinggi di Universitas Sumatera Utara (USU), pembangunan sebuah sistem data warehouse menjadi sangat penting karena dalam sistem ini terkumpul berbagai data yang diperlukan baik berupa data sejarah maupun data saat ini. Dengan tersedianya data yang lengkap, para pengambil keputusan dapat melakukan berbagai analisis dan memberikan laporan yang akurat mengenai keadaan universitas yang mereka kelola. Dalam makalah ini, kami mengajukan sebuah metodologi desain untuk perancangan data warehouse konseptual yang disebut metodologi berorientasi-transformasi, yang mentransformasi model ER (Entity-Relationship) menjadi model multidimensi berdasarkan sekumpulan aturan transformasi dan analisis. Untuk mengimplementasikan metodologi yang dikemukakan tersebut, telah dibangun sebuah prototipe knowledge-based tool yang disebut DWDesigner. Pembangunan prototipe sistem ini dimaksudkan sebagai langkah inisiatif awal dalam rangka pembangunan data warehouse di USU. Kata kunci: data warehouse desain, model multidimensi, sistem basis pengetahuan
1.
PENDAHULUAN
Data warehouse adalah sebuah teknologi yang memungkinkan data dapat diakses dengan mudah dan efisien untuk mendukung pengambilan keputusan. Di lingkungan universitas, teknologi ini dapat digunakan untuk menunjang terselenggaranya kegiatan belajar mengajar dan pengelolaan administrasi universitas. Pengelolaan sistem informasi yang baik dapat mendukung kegiatan belajar mengajar dengan cara memelihara ketersediaan data dan penyediaan informasi yang diperlukan oleh para pengambil keputusan di perguruan tinggi. Sebagai sebuah instansi yang berkecimpung dalam dunia akademik, sebuah perguruan tinggi hendaklah memiliki sebuah sistem data warehouse yang mampu memenuhi kebutuhan para pengambil keputusan yang berkaitan dengan kelangsungan kegiatan akademik dan administrasi di lingkungan universitas. Untuk mendukung berjalannya sistem informasi dengan baik, mulai tahun 1995 USU telah membangun sebuah sistem jaringan terpadu yang menghubungkan 10 fakultas dan beberapa unit penunjang administrasi lainnya. Sistem jaringan
terpada USU dibangun dengan menggunakan kabel serat optik sebagai tulang punggung jaringan. Berbagai sistem aplikasi yang dibangun untuk keperluan akademik dan administrasi telah diterapkan dengan memanfaatkan sistem jaringan terpadu tersebut. Sejalan dengan penyelenggaraan sistem akademik dan administrasi ini, data transaksi yang dihasilkan hari demi hari semakin bertambah besar. Pada gilirannya, pihak pengambil keputusan di USU akhirnya menyadari bahwa mereka memerlukan sebuah alat yang dapat membantu mereka dalam melakukan analisis data dan membantu mereka dalam pembuatan laporan. Dalam makalah ini, kami mengajukan sebuah metodologi desain untuk perancangan data warehouse konseptual yang disebut metodologi berorientasi-transformasi, yang mentransformasi model ER (Entity-Relationship) menjadi model multidimensi berdasarkan pada sederetan aturan transformasi dan analisis. Metodologi berorientasitransformasi dimaksud menterjemahkan model ER ke dalam sebuah bahasa spesifikasi dan kemudian mengubahnya menjadi model domain masalah awal. Sekumpulan aturan sintesis dan diagnosis kemudian
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
212
secara bertahap mengubah model domain masalah tersebut menjadi model multidimensi. Untuk mengimplementasikan metodologi yang dikemukakan tersebut, telah dibangun sebuah prototipe alat berbasis-pengetahuan yang disebut DWDesigner. Model multidimensi yang dihasilkan oleh DWDesigner sebagai output disajikan dalam bentuk grafik untuk mendukung visualisasi yang lebih baik. Pembangunan prototipe sistem ini dimaksudkan sebagai langkah inisiatif awal dalam rangka pembangunan data warehouse di USU.
teknik dan algoritma yang berbeda-beda. Tujuan pendekatan ini adalah untuk memformulasikan sebuah metodologi untuk mengembangkan perancangan data warehouse konseptual. Komunitas penelitian database telah memulai kerja-kerja riset dalam konteks ini sejak akhir tahun 1990an dengan penelitian oleh [4]. Penelitian berikutnya dilakukan oleh [5], [6], [7], [8], dan [9].
2.
Pendekatan berorientasi-transformasi yang digunakan pada penelitian ini secara progresif mentransformasi sebuah model ER menjadi model multidimensi dalam lima tahapan. Untuk setiap tahapan akan ada berbagai atruran transformasi yang diterapkan pada input untuk memperoleh output yang diinginkan. Sebagian aturan transformasi tersebut ada dalam bentuk aturan sintaks, sedangkan yang lainnya dapat berbentuk aturan sintesis dan diagnosis (Gambar 1).
PERANCANGAN DATA WAREHOUSE KONSEPTUAL
Perancangan data warehouse konseptual adalah sebuah proses untuk membangun model data warehouse yang disajikan dalam bentuk model multidimensi. Penelitian-penelitian mengenai perancangan data warehouse konseptual telah mulai memperoleh lebih banyak perhatian dari komunitas database sejak akhir tahun 1990an dengan sasaran untuk membangun sebuah skema konseptual yang dapat dimengerti baik oleh pengguna maupun sistem analis sekaligus memberikan basis untuk tahapantahapan proses perancangan selanjutnya. Salah satu pendekatan utama yang diambil oleh komunitas riset untuk pembangunan model ini adalah berdasarkan model ER yang diperluas atau yang ditransformasi ke dalam model multidimensi. Penelitian dalam bidang ini kemudian meluas ke pembangunan perancangan konseptual otomatis yang menuju ke pembangunan case tool untuk perancangan data warehouse. Beberapa penelitian telah dilaksanakan untuk pengembangan metodologi perancangan model data warehouse konseptual berdasarkan model ER. Secara umum, metodologi yang digunakan dapat diklasifikasikan ke dalam dua kategori berdasarkan pendekatan perancangannya, yakni perluasan ER dan transformasi ER. Pendekatan perluasan ER menggunakan model ER sebagai input dan memperluasnya dengan komponen-kompnen tambahan sedemikian hingga model tersebut dapat dipetakan ke model multidimensi. Beberapa penelitian yang menggunakan pendekatan ini antara lain Multidimensional Entity Relationship (ME/R) [1], Structured Entity Relationship Model (SERM) [2], dan Event-Entity-Relationship model (EVER) [3]. Pendekatan transformasi ER juga menggunakan model ER sebagai input, tetapi tidak dengan memperluas konstruksi ER melainkan mentransformasi model ER itu secara berangsurangsur menjadi model multidimensi menggunakan
3.
PENDEKATAN BERORIENTASITRANSFORMASI
GAMBAR 1. PENDEKATAN BERORIENTASITRANSFORMASI
Gambar 1 memperlihatkan kelima tahapan proses transformasi tersebut, yang terdiri dari: penerjemahan model ER menjadi model bahasa spesifikasi, transformasi model bahasa spesifikasi menjadi model domain masalah, ekspansi model domain masalah, transformasi model domain masalah menjadi model multidimensi, dan perbaikan model multidimensi. Tahap pertama dilakukan dengan bantuan satu set aturan sintaks. Tahap kedua dan seterusnya berinteraksi dengan sebuah basis pengetahuan yang berfungsi sebagai tempat penyimpanan fakta. Interaksi diantara tahapan-tahapan itu dan basis pengetahuan dikendalikan oleh sekumpulan aturan sintesis dan diagnosis, yang tersimpan di dalam
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
213
sebuah tempat penyimpanan aturan. Aturan-aturan ini berfungsi untuk mempertahankan integritas basis pengetahuan dengan cara menyelesaikan ketidak konsistenan yang disebabkan oleh tahapan-tahapan yang berinteraksi. Agar sistem memahami sifat-sifat dan kandungan semantik dari model ER sebelum pemrosesan, model ER yang disajikan dalam bentuk diagram ER, diterjemahkan ke dalam bentuk yang dapat dibaca program. Untuk ini kami mengajukan sebuah model bahasa spesifikasi dan parser sederhana untuk membantu transformasi. Dalam proses transformasi, tiap entiti dalam model ER dipetakan ke sebuah struktur kelas di dalam model bahasa spesifikasi dimana nama entiti menjadi nama kelas dan sifat-sifat entiti sebagai sifat-sifat kelas. Sebagai contoh, jika sebuah entiti Student memiliki sifat-sifat berikut: sebuah atribut Class, sebuah subklas GRAD_STUDENT, dan satu himpunan relationship, maka model bahasa spesifikasinya akan berupa: CLASS "STUDENT" ATTRIBUTE (("Class": Integer)) IDENTIFIER NIL SUBCLASS ("GRAD_STUDENT") AGGREGATION NIL RELATIONSHIP (("Minor" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\ ("Major" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\ ("Registered" "CURRENT_SECTION" "(("Count": Integer))" "(1 n)" "(1 m)")\ ("Transcript" "SECTION" "(("Grade": Float))" "(1 n)" "(1 m)")) End-Class
Selain dari ketiga buah sifat seperti dinyatakan di atas, model ini juga mencatat sifat-sifat lain seperti identifier dan agrregation, yang dalam hal ini diberi harga NIL karena entiti Student tidak memiliki sifat ini. Dengan menggunakan model ini, pengguna dapat memberikan jenis data tiap atribut, misalnya atribut Class pada contoh di atas diberi jenis data integer. Bagian relationship pada model bahasa spesifikasi di atas terdiri dari lima bagian: nama relationship, entiti yang berpartisipasi, atribut relationship, dan kendala pertama dan kedua relationship dalam format (min, max). Model bahasa spesifikasi yang diformulasikan di atas kemudian ditransformasi menjadi model domain masalah awal. Sistem yang digunakan mengikuti pendekatan berbasis pengetahuan untuk menyimpan model domain masalah tersebut dimana setiap fakta yang merepresentasikan domain masalah dituliskan dalam bentuk triplet (Property Entity Value). Dengan menggunakan representasi ini, domain
masalah awal yang dibuat dari entiti Student di atas dapat dijabarkan sebagai berikut: (Has-Attribute “STUDENT” ((“Class”: Integer))) (Has-Subclass “STUDENT” (“GRAD_STUDENT”)) (Has-Relationship “STUDENT” ((“Minor”, “DEPARTMENT” “NIL” “(1 1)” “(1 n)”) (“Major”, “DEPARTMENT” “NIL” “(1 1)” “(1 n)”) (“Registered”, “CURRENT_SECTION” “((“Count”: Integer))” “(1 n)” “(1 m)”) (“Transcript”, “SECTION” “((“Grade”: Float))” “(1 n)” “(1 m)”))
Pada tahapan berikutnya, domain masalah awal tersebut diekspansi lebih lanjut menggunakan satu set aturan sintesis dan diagnosis. Akhirnya, dalam dua tahapan terakhir, diperoleh model multidimensi dan perbaikan yang diinginkan dapat dilakukan untuk memenuhi keperluan user yang spesifik.
4.
PROTOTIPE KNOWLEDGE-BASED TOOL
Sebuah prototipe knowledge-based tool yang disebut DWDesigner telah dikembangkan untuk mengimplementaskan pendekatan berorientasitransformasi sebagaimana dijelaskan pada bagian sebelumnya. Alat ini dikembangkan menggunakan pendekatan modular yang memungkinkan pembangunan alat tersebut dilakukan dengan cara evolusioner dalam hal mana versi terakhir dari prototipe sistem dikembangkan berdasarkan perbaikan dan peningkatan dari versi-versi sebelumnya. Versi terakhir DWDesigner yang telah dikembangkan belum mengimplementasikan keseluruhan perancangan data warehouse secara lengkap yang meliputi tahapan perancangan logikal dan tahapan perancangan fisikal. Akan tetapi, dalam mengimplementasikan tahapan konseptual data warehouse, DWDesigner telah menunjukkan output yang konsisten. Arsitektur DWDesigner terdiri dari tiga lapisan, yakni antarmuka pengguna, mesin inferensi dan knowledge base seperti terlihat dalam Gambar 2. Antarmuka pengguna memfasilitasi interaksi dengan pengguna, yaitu pengguna akhir dan knowledge engineer. Antarmuka ini memberikan cara yang mudah bagi pengguna akhir untuk melaksanakan tugas-tugas perancangan yang diinginkannya dengan memanfaatkan antarmuka pengguna grafis dari bahasa pemrograman visual. Sementara itu, knowledge engineer adalah orang yang bertanggung jawab untuk menambahkan pengetahuan ke dalam knowledge base sistem.
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
214
kebutuhan yang spesifik. Untuk itu, sebagai sampel diambil model ER dari domain universitas untuk input data pada DWDesigner seperti ditunjukkan pada Gambar 3.
GAMBAR 2. ARSITEKTUR DWDESIGNER
Mesin inferensi bertindak sebagai penyedia mekanisme inferensi dan kontrol bagi keseluruhan sistem untuk menghasilkan output yang diinginkan. Mekanisme inferensi menggunakan satu set aturan sintesis dan diagnosis serta fakta-fakta yang tersimpan di dalam knowledge base dalam proses pengambilan keputusan. Sebaliknya, mekasnisme kontrol bertanggungjawab untuk melancarkan proses transformasi seperti memulai prosedur inferensi, memilih aturan yang digunakan apabila ada lebih dari satu aturan yang sesuai, dan melaksanakan pencarian penyelesaian. Knowledge base adalah lapisan terbawah dari arsitektur sistem yang berinteraksi secara langsung dengan memori sistem komputer dan mesin inferensi. Dua komponen knowledge base, yakni rules base dan facts base adalah inti dari sistem knowledge base dan menempati bagian terbesar dari Gambar 2. Bagian facts base memperlihatkan bagaimana representasi sementara dan representasi akhir pengetahuan tersimpan dalam memori. Sementara bagian rules base memperlihatkan bagaimana aturan-aturan transformasi yang berlainan tersebar dalam berbagai modul dan menunjukkan pula bagaimana aturanaturan dalam asing-masing modul dan facts base ber interaksi secara langsung.
5.
PROSES TRANSFORMASI
Dalam bagian ini, akan diperlihatkan hasil yang diperoleh dari pengujian prototipe sistem dan menjabarkan ketelitiannya dalam menghasilkan output pada setiap tahapan proses transformasi hingga diperolehnya model multidimensi dan kemudian diperlihatkan pula bagaimana pengguna dapat memperbaiki model itu untuk memenuhi
GAMBAR 3. SAMPEL DOMAIN UNIVERSITAS
Untuk mendemonstrasikan bagaimana alat tersebut menghasilkan output dari input yang diberikan, kita akan melihat hasil setiap tahapan perancangan dengan memilih entiti Student dari ER diagram dalam Gambar 3 sebagai contoh. Pada tahap pertama pengguna menterjemahkan model ER kedalam modeI bahasa spesifikasi, contoh untuk entiti Student diperlihatkan seperti berikut ini: CLASS "STUDENT" ATTRIBUTE (("Class": Integer)) IDENTIFIER NIL SUBCLASS ("GRAD_STUDENT") AGGREGATION NIL RELATIONSHIP (("Minor" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\ ("Major" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\ ("Registered" "CURRENT_SECTION" "(("Count": Integer))" "(1 n)" "(1 m)")\ ("Transcript" "SECTION" "(("Grade": Float))" "(1 n)" "(1 m)")) End-Class
Pada tahap kedua alat itu menghasilkan sebuah daftar entiti, yang mencatat masing-masing nama entiti dan sifat-sifatnya, dan menyimpan daftar entiti tersebut sebagai output sementara dalam bentuk file teks. Bagian file yang memuat entiti Student diperlihatkan seperti berikut: Entity Name: "STUDENT" Attribute(s): Class: Integer Identifier(s): NIL Subclass(es): (“GRAD_STUDENT”) Aggregation(s): NIL Relationship(s): ("Minor" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\ ("Major" "DEPARTMENT" "NIL" "(1 1)" "(1 n)")\ ("Registered" "CURRENT_SECTION" "(("Count": Integer))" "(1 n)" "(1 m)")\ ("Transcript" "SECTION" "(("Grade": Float))" "(1 n)" "(1 m)"))
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
215
Selanjutnya pada tahap ketiga, alat tersebut melakukan sederetan langkah pembuatan model domain masalah awal, dengan mengekspansi model melalui penurunan lebih banyak fakta dari subclass dan superclass, membuat entiti baru, mewariskan sifat-sifat baru, membuat daftar objek, dan menyimpan deskripsi objek ke dalam file output sementara. Pada tahap keempat alat tersebut menghasilkan sebuah daftar fakta yang memuat kandidat skema fakta model multidimensi dari masing-masing entiti dan menyimpannya sebagai output. Akhirnya, pada tahap terakhir, pengguna dapat meperbaiki skema fakta yang dihasilkan. Perbaikan ini perlu karena jika tidak dilakukan, alat itu hanya menghasilkan model multidimensi berdasarkan pada sifat-sifat entiti yang tersedia dari model ER yang dijadikan sumber perancangan. Sebagai contoh, pengguna mungkin menginginkan skema fakta itu diukur berdasarkan jumlah mahasiswa sehingga dapat diketahui menurut jenis kelamin, kota, peovinsi dan negara asal, serta departemen dan fakultas untuk interval waktu bulanan, semester dan tahunan. Model multidimensi untuk skema fakta Student sebelum dan sesudah perbaikan diperlihatkan dalam Gambar 4.
Class menjadi Number_Of_Student. Memperbaiki dimensi temporal dengan memodifikasi Bdate menjadi Month Semester Year, mengubah hirarki dimensi dengan cara membuang Name, dan Ssn, mengagregasi Address menjadi City, State, dan Country serta memangkas dan mengagregasi hirarki dimensi Dname dan ColName. Untuk menambah visualitas output, model multidimensi yang dihasilkan ditampilkan dalam bentuk grafik seperti terlihat pada Gambar 5.
GAMBAR 5. MODEL MULTIDIMENSI STUDENT
6.
KESIMPULAN
Dalam makalah ini telah diperlihatkan proses perancangan data warehouse konseptual secara otomatis menggunakan satu prototipe knowledge base tool. Dengan menggunakan alat ini pengguna dari pihak universitas dapat memulai langkah awal analisis dan pelaporan mengenai proses belajar mengajar dan pengelolaan administrasi universitas. Inisiatif pengembangan data warehouse ini dapat dilanjutkan dengan melengkapi sistem yang dibangun ini dengan tahapan-tahapan lanjut perancangan data warehouse, yakni tahapan perancangan logikal dan tahapan perancangan fisikal.
7.
GAMBAR 4. SKEMA FAKTA SEBELUM DAN SESUDAH PERBAIKAN
Untuk memperoleh model multidimensi yang diinginkan, pengguna melakukan perbaikan berikut, yaitu mengubah pengukuran dengan memodifikasi
REFERENSI
[1] C. Sapia, M. Blaschka, G. Höfling, & H. Dinter, “Extending the E/R model for the multidimensional paradigm”. In: Kambayashi, Y., Lee, D.K., Lim, E.P., Mohania, M.K. & Masunaga, Y. (Eds.). Advances in Database Technology. Proc. of the 1st Int. Workshop on Data Warehouse and Data Mining (DWDM'98), LNCS 1552, pp. 105-116, 1998.
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
216
[2] M. Boehnlein, & A. Ulbrich-vom Ende, “Deriving initial data warehouse structures from the conceptual data models of the underlying operational information systems”. Proc. of the ACM 2nd Int. Workshop on Data warehousing and OLAP (DOLAP’99), pp. 15–21, 1999. [3] L. Bækgaard, “Event-entity-relationship modeling in data warehouse environments”. Proc. of the ACM 2nd Int. Workshop on Data warehousing and OLAP (DOLAP’99), pp. 9 – 14, 1999. [4] M. Golfarelli, D. Maio, & S. Rizzi, “Conceptual design of data warehouses from E/R schemes”, Proc. of 31st Hawaii International Conference on System Sciences, pp. 334-343, 1998. [5] L. Cabibbo, & R. Torlone, “A logical approach to multidimensional databases”. Proc. of 6th Int. Conf. on Extending Database Technology (EDBT'98), pp. 253-269, 1998. [6] N. Tryfona, F. Busborg, & J.G.B. Christiansen, “starER: a conceptual model for data warehouse design”. Proc. of the ACM 2nd Int. Workshop on Data Warehousing and OLAP, pp. 3-8, 1999. [7] B. Hüsemann, J. Lechtenbörger, & G. Vossen, “Conceptual data warehouse design”, Proc. of the International Workshop on Design and Management of Data Warehouse (DMDW ‘2000), pp. 6-1 – 6-11, 2000. [8] D. Moody, & M.A.R. Kortink, “From enterprise models to dimensional models: a methodology for data warehouse and data mart design”. Proc. of Int. Workshop on Design and Management of Data Warehouses (DMDW’2000), pp. 5-1 – 5-12, 2000. [9] C. Phipps, & K.C. Davis, “Automating data warehouse conceptual schema design and evaluation”. Proc. of the 4th Int. Workshop on Design and Management of Data Warehouses 2002 (DMDW'2002), pp. 23-32, 2002.
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
217
[
Prosiding Konferensi Nasional Teknologi Informasi & Komunikasi untuk Indonesia 3-4 Mei 2006, Aula Barat & Timur Institut Teknologi Bandung
218