PEMBANGUNAN DATA WAREHOUSE DAN APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO (STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG G64101047
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2007
ABSTRAK ABI HERLAMBANG. Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB). Dibimbing oleh IMAS SUKAESIH SITANGGANG dan HARI AGUNG ADRIANTO. Panitia Penerimaan Mahasiswa Baru (PPMB) IPB menerima mahasiswa baru. Data penerimaan tersebut menumpuk setiap tahunnya, dan menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Teknologi data warehouse dan On-Line Analytical Processing (OLAP) dapat mengelola tumpukan data tersebut dan mempresentasikannya untuk membantu proses pengambilan keputusan. Tujuan penelitian ini adalah membangun data warehouse dan operasi-operasi OLAP, serta membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Data yang digunakan adalah data PPMB IPB dan IPK TPB IPB tahun masuk 2000 sampai 2004. Data warehouse membentuk skema galaksi dengan dua kubus data, yaitu kubus data Pelamar dengan tujuh dimensi dan Mahasiswa dengan enam dimensi. Data dari data warehouse dianalisis dengan operasi-operasi OLAP. Aplikasi OLAP dibangun dengan bahasa pemrograman PHP, OLAP server Palo, dan pembangkit grafik JpGraph. Fasilitas yang dimiliki aplikasi adalah menu OLAP, penyaringan dimensi, visualisasi crosstab dan grafik, dan disain cetakan. Aplikasi ini berbasis web dan dilengkapi dengan versi portable. Aplikasi OLAP menggunakan kubus data Palo sehingga akses data menjadi lebih cepat. Hasil ekplorasi data PPMB IPB melalui aplikasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik dengan crosstab dan grafik dinamis. Analisis data PPMB menghasilkan beberapa informasi konklusif, misal: bahwa pelamar USMI paling banyak berasal dari Jawa dan Sumatera; dan mayoritas pelamar USMI memilih fakultas FAPERTA, FMIPA, dan FATETA. Kata kunci: data warehouse, OLAP, data multidimensi, kubus data.
PEMBANGUNAN DATA WAREHOUSE DAN APLIKASI OLAP BERBASIS WEB MENGGUNAKAN PALO (STUDI KASUS: DATA PPMB IPB)
ABI HERLAMBANG G64101047
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2007
Judul
: Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB) Nama : Abi Herlambang NRP : G64101047
Menyetujui: Pembimbing I,
Pembimbing II,
Imas S. Sitanggang, S.Si, M.Kom. NIP 132206235
Hari Agung Adrianto, S.Kom, M.Si. NIP 132311918
Mengetahui: Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Prof. Dr. Ir. Yonny Koesmaryono, M.S. NIP 131473999
Tanggal Lulus:
PRAKATA
Puji syukur Penulis panjatkan ke hadirat Allah SWT atas segala curahan rahmat dan karuniaNya sehingga skripsi ini dapat diselesaikan. Skripsi ini merupakan hasil penelitian yang dilakukan dari Desember 2006 sampai Mei 2007 dengan bidang kajian Pembangunan Data Warehouse dan Aplikasi OLAP Berbasis Web Menggunakan Palo (Studi Kasus: Data PPMB IPB). Penulis mengucapkan terima kasih kepada Ibu Imas S. Sitanggang, S.Si, M.Kom selaku pembimbing I yang telah memberi saran, masukan, dan ide-ide kepada Penulis dalam menyusun skripsi ini. Terima kasih juga Penulis ucapkan kepada Bapak Hari Agung Adrianto, S.Kom, M.Si selaku pembimbing II yang telah memberi saran dan masukan kepada Penulis. Ucapan terima kasih juga kepada Ibu Shelvie Nidya Neyman, S.Kom, M.Si selaku penguji yang telah membantu Penulis. Penulis juga mengucapkan terima kasih kepada: 1 Ibu dan Bapak yang selalu memberikan doa, nasihat, dukungan, semangat, dan kasih sayang yang luar biasa kepada Penulis sehingga Penulis dapat menyelesaikan tugas akhir ini. Kak Yuyun, Kak Yuli, Kak Indah, Kak Rani, Kak Putri, Sunan, Pramu, dan Sisi yang tidak pernah bosan memberikan perhatian dan dukungan setiap saat dibutuhkan. 2 Kang Asep dan Bang Tomo yang menjadi tempat bertukar pikiran di tengah-tengah kesibukan Penulis mengerjakan tugas dan pekerjaan. 3 Erwin yang memberikan motivasi kepada Penulis untuk memulai mengerjakan tugas akhir. 4 Liesca, Rosy, Robi, Khamam, Didik, Nawi, dan Ifnu, teman-teman mahasiswa kadaluarsa di Lab.02 yang menemani Penulis selama mengerjakan tugas akhir. 5 Nando dan Ucup yang membantu Penulis menghilangkan rasa suntuk selama di IPB. 6 Aditama, Wulan, Bejo, May, Sue, dan Meilani, teman milis sekoetoe_98 yang memberikan semangat kepada Penulis untuk menyelesaikan tugas akhir. 7 Kawan-kawan Ilkom angkatan 38 yang telah banyak membantu Penulis selama menjalani waktu di IPB. 8 Departemen Ilmu Komputer, staf, dan dosen yang telah banyak membantu baik selama penelitian maupun pada masa perkuliahan. Kepada semua pihak lainnya yang telah memberikan kontribusi yang besar selama pengerjaan penelitian ini yang tidak dapat disebutkan satu-persatu, Penulis ucapkan terima kasih banyak. Semoga penelitian ini dapat memberikan manfaat.
Bogor, Mei 2007
Abi Herlambang
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 28 Desember 1982 dari ayah Edi Sunaryo Yatim dan ibu Rojenah. Penulis merupakan anak keenam dari sembilan bersaudara. Tahun 2001 Penulis lulus dari SMU Negeri 99 Jakarta dan pada tahun yang sama lulus seleksi masuk IPB melalui jalur Ujian Masuk Perguruan Tinggi Negeri. Penulis memilih Program Studi Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam IPB. Tahun 2005 bulan Januari sampai Maret, Penulis melakukan kegiatan praktik lapang di PT Bank Bukopin Kantor Pusat, terlibat dalam tim pembangunan sistem inventaris untuk kantor cabang syariah. Pada Maret 2005 sampai Mei 2005, Penulis membangun aplikasi pencatatan dan validasi transaksi keuangan untuk back office Departemen Telex Bank Bukopin Cabang Melawai Syariah. Di akhir tahun 2005 selama satu bulan, Penulis mengembangkan disain laporan aplikasi Courier Information System untuk Hansha Logistic. Tahun 2006 dari April sampai September, Penulis bersama tim dari PT Fajar Buana Pratama membangun Sistem Informasi Diklat Pusbang Aparatur KP untuk Pusat Pelatihan Badan Pengembangan SDM Departemen Kelautan dan Perikanan RI.
DAFTAR ISI Halaman DAFTAR TABEL .......................................................................................................................... vii DAFTAR GAMBAR...................................................................................................................... vii DAFTAR LAMPIRAN.................................................................................................................. viii PENDAHULUAN Latar Belakang ............................................................................................................................. 1 Tujuan .......................................................................................................................................... 1 Ruang Lingkup............................................................................................................................. 1 Manfaat ........................................................................................................................................ 1 TINJAUAN PUSTAKA Data Preprocessing...................................................................................................................... 1 Data Warehouse........................................................................................................................... 3 Model Data Multidimensi ............................................................................................................ 4 On-Line Analytical Processing (OLAP) ...................................................................................... 5 Arsitektur Three-Tier Data Warehouse ....................................................................................... 6 METODE PENELITIAN Analisis ........................................................................................................................................ 6 Data Preprocessing...................................................................................................................... 6 Aplikasi OLAP............................................................................................................................. 7 Lingkungan Pengembangan ......................................................................................................... 7 HASIL DAN PEMBAHASAN Analisis Data................................................................................................................................ 8 Integrasi dan Reduksi Data .......................................................................................................... 9 Pembersihan Data ........................................................................................................................ 9 Transformasi Data...................................................................................................................... 10 Pemuatan Data ........................................................................................................................... 10 Gambaran Umum Aplikasi ........................................................................................................ 11 Kelebihan dan Kekurangan Sistem ............................................................................................ 12 Presentasi Hasil.......................................................................................................................... 13 KESIMPULAN DAN SARAN Kesimpulan ................................................................................................................................ 15 Saran .......................................................................................................................................... 16 DAFTAR PUSTAKA ..................................................................................................................... 17 LAMPIRAN ................................................................................................................................... 18
vi
DAFTAR TABEL Halaman 1 Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi.................................. 9 2 Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi............................. 9 3 Nama dan deskripsi dimensi dari kubus data Pelamar .............................................................. 10 4 Nama dan deskripsi dimensi dari kubus data Mahasiswa ......................................................... 11
DAFTAR GAMBAR Halaman 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) ............................................ 4 2 Skema bintang (Han & Kamber 2001)........................................................................................ 4 3 Skema snowflake (Han & Kamber 2001).................................................................................... 5 4 Skema galaksi (Han & Kamber 2001) ........................................................................................ 5 5 Arsitektur three-tier data warehousing (Han & Kamber 2001).................................................. 6 6 Skema galaksi data warehouse pelamar dan mahasiswa ............................................................ 8 7 Arsitektur data warehousing dan aplikasi OLAP ..................................................................... 11 8 Contoh tampilan aplikasi OLAP ............................................................................................... 12 9 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ....................... 13 10 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk ....................... 13 11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar ........................................... 14 12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk ....................................................................................... 15 13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer....... 15 14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB.................................................................................. 15
vii
DAFTAR LAMPIRAN Halaman 1 Daftar file data sumber .............................................................................................................. 19 2 Rincian proses pembersihan data .............................................................................................. 19 3 Data tabel dimensi data warehouse........................................................................................... 21 4 Grafik ukuran Jumlah Pelamar USMI dan dimensi Studi Pilihan1 tingkat Fakultas ................ 23 5 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Sumatera dan Jawa .................................................................................... 24 6 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Nusa Tenggara, Kalimantan, Sulawesi, Irian, dan Luar Negeri ................ 24 7 Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar USMI, dimensi Studi Putusan1, dan dimensi Asal.................................................................... 25 8 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk 10 program studi dengan rataan IPK TPB terbesar, dan dimensi Waktu tingkat Tahun Masuk........................................ 25 9 Grafik ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer....... 26 10 Grafik ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB.................................................................................. 26
viii
1
PENDAHULUAN Latar Belakang Teknologi basis data saat ini berkembang sangat pesat. Data disimpan dalam basis data, diolah kemudian disajikan sebagai informasi yang bernilai bagi pengguna. Penyimpanan data secara rutin dan terakumulasi dari waktu ke waktu akan menyebabkan terjadinya penumpukan data. Saat ini dari sisi perangkat keras media penyimpanan tidak menjadi masalah karena telah tersedia media yang mempunyai kapasitas hingga ukuran Terabyte. Namun penumpukan data tersebut menjadi masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik. Kondisi ini dikenal dengan istilah “rich of data but poor of information”. Teknologi data warehouse dan On-Line Analytical Processing (OLAP) adalah satu solusi dari masalah penumpukan data yang kurang dimanfaatkan dengan baik. Teknologi tersebut dapat mengelola tumpukan data, dan mempresentasikannya untuk membantu proses pengambilan keputusan. Dengan bantuan aplikasi OLAP, pimpinan dari suatu organisasi dapat menganalisis sejumlah besar data yang dimiliki oleh organisasi tersebut. Hasil analisis dapat berupa pola, tren, dan kondisi tertentu yang dilakukan pada waktu nyata dengan tanggapan yang cepat terhadap pertanyaan yang diajukan hingga membantu dalam proses pengambilan keputusan. Setiap tahun Institut Pertanian Bogor (IPB) menerima mahasiswa baru melalui satu proses seleksi. Data dari proses seleksi itu disimpan dalam basis data dan menumpuk tiap tahunnya. Informasi tersembunyi yang terkandung dalam basis data tersebut perlu dieksplorasi dan divisualisasikan ke dalam bentuk yang menarik. Dalam penelitian ini dibangun sebuah data warehouse dan sebuah aplikasi OLAP untuk data Panitia Penerimaan Mahasiswa Baru (PPMB) IPB dengan menggunakan Palo sebagai OLAP server. Data tersebut meliputi data pelamar melalui jalur USMI dan data mahasiswa dari PPMB serta data IPK mahasiswa Tingkat Persiapan Bersama (TPB) IPB tahun masuk 2000 sampai 2004. Beberapa informasi yang dapat diperoleh dari aplikasi ini antara lain: Pola sebaran pilihan pelamar (calon mahasiswa) jalur USMI terhadap fakultas dilihat dari asal pulau pelamar.
Jumlah pelamar yang program studi pilihan pertamanya ada di fakultas FMIPA tapi diterima di program studi selain fakultas FMIPA. Tren perkembangan indeks prestasi mahasiswa di TPB dari program studiprogram studi yang bersaing dengan program studi ilmu komputer. Tren perkembangan indeks prestasi TPB program studi ilmu komputer yang menurun pada mahasiswa tahun masuk 2003. Informasi lainnya dapat diperoleh dengan memilih ukuran dan dimensi tertentu yang tersedia dalam aplikasi. Tujuan Tujuan dari penelitian ini adalah: 1. Membangun data warehouse dan operasioperasi OLAP untuk data PPMB IPB dan data IPK TPB IPB. 2. Membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP. Ruang Lingkup Ruang lingkup penelitian dibatasi pada pembuatan data warehouse, implementasi operasi OLAP, dan presentasi informasi yang dapat diungkap dengan membangun aplikasi pendukung. Data yang digunakan adalah data pelamar jalur USMI dan data mahasiswa dari PPMB IPB serta data IPK mahasiswa TPB IPB tahun masuk 2000 sampai 2004. Manfaat Penelitian ini diharapkan bermanfaat bagi pihak-pihak yang memerlukan informasi konklusif, cepat, dan menarik dari agregat pelamar yang ikut seleksi penerimaan masuk jalur USMI dan informasi seputar agregat mahasiswa IPB sehingga dapat membantu dalam proses pengambilan keputusan.
TINJAUAN PUSTAKA Data Preprocessing Hal yang lumrah terjadi pada basis data adalah data tidak lengkap (tidak ada atau kurang isi pada atributnya, atau hanya berisi data agregat), mengandung noise (terdapat error, atau berisi nilai yang tidak semestinya), dan tidak konsisten. Pemrosesan data dengan teknik data preprocessing dapat memperbaiki kualitas data, dengan demikian membantu memperbaiki akurasi dan efisiensi proses
2
pengolahan data selanjutnya (Han & Kamber 2001). Tahapan data preprocessing adalah (Han & Kamber 2001): 1. Pembersihan data (cleaning) Pada proses pembersihan data kotor dihilangkan dan diperbaiki. Pembersihan dilakukan dengan mengisi nilai yang kosong, mengurangi noise dan memperbaiki ketidakkonsistenan dalam data. Permasalahan data kotor dan cara membersihkannya yaitu: Nilai yang kosong (hilang) Untuk mengatasi nilai yang kosong dalam data dapat dilakukan penghapusan tuple, mengganti nilainya secara manual, isi dengan konstanta global seperti ’tidak tahu’ atau ’∞’, menggunakan nilai rata-rata dari atribut yang kosong, isi dengan nilai rata-rata dari kelas yang sama, dan isi nilai yang mungkin melalui metode regresi, induksi pohon keputusan dan lain sebagainya. Nilai mengandung noise Data dengan nilai yang mengandung noise dapat diganti dengan nilai hasil perhitungan dengan metode binning (mengelompokkan nilai), metode regresi, atau dengan cara pengklusteran. Data tidak konsisten Data tidak konsisten diperbaiki dengan menyeragamkan data dengan menggunakan referensi eksternal. 2. Integrasi data Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data. Proses integrasi mungkin akan menimbulkan beberapa masalah seperti masalah identifikasi entitas misalnya pada entitas yang sama terdapat nama yang berbeda. Redundancy juga menjadi salah satu masalah, terdapat lebih dari satu tuple untuk satu data unik. Masalah lainnya yang timbul adalah konflik nilai data, disebabkan oleh perbedaan representasi nilai, misal pada satu data menggunakan satuan kilogram sedang pada data lain menggunakan satuan ton.
3. Transformasi data (transformation) Tahap transformasi data dilakukan agar data tetap konsisten dan dapat digunakan untuk proses selanjutnya dengan mengubah ke dalam bentuk yang tepat. Data dari bermacam sumber diberi format dan nama yang umum. Transformasi yang paling penting adalah transformasi nama agar tidak ada nama atribut yang sama atau atribut yang sama memiliki nama yang berbeda pada basis data yang berbeda. Transformasi berikut:
data
mencakup
hal
Smoothing Dilakukan untuk menghilangkan noise dari data. Tekniknya meliputi binning, regresi, dan pengklusteran. Agregasi Peringkasan dan agregasi diterapkan pada data. Misalnya data penjualan harian bisa diagregasi menjadi data penjualan bulanan. Generalisasi Data tingkat rendah digantikan dengan tingkat yang lebih tinggi menggunakan konsep hirarki. Misal kategori jalan bisa digeneralisasikan menjadi kategori tingkat lebih tinggi yaitu kota atau negara. Normalisasi Atribut data dibuat skala dengan range yang lebih kecil. Konstruksi atribut Atribut baru dibuat dan ditambah dari atribut-atribut yang ada untuk membantu proses pengolahan data selanjutnya. 4. Reduksi data Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Strategi mereduksi data meliputi: Agregasi kubus data Operasi agregasi diterapkan pada data dalam konstruksi kubus data.
3
Reduksi dimensi Penghilangan atribut atau dimensi yang tidak relevan, relevansinya tidak kuat, atau redundan. Kompresi data Mereduksi ukuran data dengan mekanisme encoding. Numerosity reduction Data diganti atau diestimasikan dengan alternatifnya. Diskretisasi hirarki
dan
generasi
konsep
Nilai-nilai data tingkat rendah diganti dengan tingkat konseptual yang lebih tinggi. Diskretisasi merupakan bentuk dari numerosity reduction yang berguna untuk generasi otomatis dari konsep hirarki. Dijelaskan oleh Han & Kamber (2001) bahwa tahapan data preprocessing tidak terpisah sendiri-sendiri (not mutually exclusive). Mungkin saja saat proses pembersihan dilakukan, proses transformasi juga dilakukan di dalamnya. Data Warehouse Data warehouse menyediakan arsitektur dan alat bantu bagi pimpinan organisasi untuk mengorganisasikan secara sistematis, dipahami, dan digunakan data tersebut untuk membuat keputusan (Han & Kamber 2001). Data warehouse adalah sekumpulan data berorientasi subjek, terintegrasi, time-variant, dan non-volatile yang mendukung manajemen dalam proses pembuatan keputusan (Inmon 1996). Penjelasan rinci dari pengertian data warehouse adalah (Han & Kamber 2001): Berorientasi subjek Data warehouse disusun berdasarkan subjek yang utama, seperti pelanggan, produk atau penjualan. Data warehouse menyediakan tampilan yang sederhana dan ringkas dengan menghilangkan data yang tidak berguna dalam proses membuat keputusan. Terintegrasi Data warehouse biasanya dibangun dengan mengintegrasikan berbagai sumber data, seperti basis data relasional, flat file, dan data transaksi on-line. Teknik
pembersihan dan integrasi data diterapkan untuk memastikan data tetap konsisten. Time-variant Data disimpan untuk menyediakan informasi berdasarkan perspektif waktu. Non-volatile Data warehouse adalah tempat penyimpanan data yang terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data. Data warehouse merupakan ruang penyimpanan (atau arsip) informasi yang dikumpulkan dari berbagai sumber, disimpan dengan sebuah skema terintegrasi pada satu tempat. Data/infomasi tersebut tersimpan dalam jangka waktu yang lama, sehingga memungkinkan pengguna mengakses data historis. Data warehouse menyediakan satu tampilan data terkonsolidasi, sehingga menciptakan query untuk proses pengambilan keputusan menjadi lebih mudah. Dengan mengakses informasi dari data warehouse, proses traksaksi online tidak terganggu oleh beban kerja proses pengambilan keputusan (Silberschatz et al 2006). Keuntungan yang didapat jika menggunakan data warehouse antara lain (Connolly & Begg 2002): Menghasilkan keuntungan yang kompetitif dengan cara memperbolehkan pembuat keputusan mengakses data yang dapat memunculkan informasi yang sebelumnya tidak ada, tidak diketahui, dan tidak digunakan. Meningkatkan produktivitas para pembuat keputusan dengan cara menciptakan basis data terintegrasi yang terdiri dari data historis yang konsisten dan berorientasi subjek. Data warehousing adalah suatu infrastruktur perangkat lunak yang mendukung aplikasi OLAP dengan menyediakan sebuah koleksi alat bantu yang (i) mengumpulkan data dari sekumpulan sumber-sumber heterogen terdistribusi, (ii) membersihkan dan mengintegrasikan data tersebut ke dalam representasi yang seragam (iii) mengagregasi dan mengorganisasi data tersebut ke dalam struktur multidimensional yang tepat untuk pengambilan keputusan, dan (iv) memperbaharuinya secara periodik untuk menjaga agar data mutakhir dan akurat (Bouzeghoub & Kedad 2000).
4
Model Data Multidimensi Pembuatan data warehouse didasarkan pada model data multidimensi. Model ini menampilkan data dalam bentuk kubus. Model data multidimensi terdiri dari dimensi (dimensions) dan fakta (facts) (Han & Kamber 2001). Dimensi adalah perspektif atau entitas penting yang dimiliki oleh organisasi. Setiap dimensi mungkin memiliki satu tabel yang berasosiasi dengannya yang disebut dengan tabel dimensi yang mendeskripsikan dimensi itu sendiri. Dimensi akan berubah jika analisis kebutuhan pengguna berubah. Dimensi mendefinisikan label yang membentuk isi laporan. Tabel dimensi berukuran lebih kecil daripada tabel fakta dan berisi data tidak numerik. Pada data warehouse, kubus data merupakan kubus dengan n-dimensi (Han & Kamber 2001). Fakta adalah ukuran-ukuran numerik, merupakan kuantitas yang akan dianalisis hubungan antar dimensinya. Tabel fakta berisi nama-nama fakta (ukuran) dan key dari tabeltabel dimensi yang berelasi dengan tabel fakta itu. Data fakta diekstrak dari berbagai sumber. Data fakta cenderung stabil dan tidak berubah seiring waktu. Tabel fakta berukuran besar, memiliki jumlah baris sesuai dengan jumlah kombinasi nilai dimensi yang mungkin dan jumlah kolom sesuai dengan jumlah dimensi yang direpresentasikan (Han & Kamber 2001).
cuboid (Han & Kamber 2001). Contoh kubus data dengan tiga dimensi ada pada Gambar 1. Kubus data tersebut memiliki dimensi time, item, dan location, ukuran yang ditampilkan adalah dollar_sold (dalam ribuan). Skema basis data berisi kumpulan entitas dan hubungan antarentitas. Sebuah data warehouse memerlukan skema yang ringkas dan berorientasi subjek yang dapat digunakan dalam analisis data on-line. Tipe-tipe skema model data multidimensi adalah (Han & Kamber 2001): Skema bintang (star schema) Skema bintang adalah skema data warehouse yang paling sederhana. Skema ini disebut skema bintang karena hubungan antara tabel dimensi dan tabel fakta menyerupai bintang, dimana satu tabel fakta dihubungkan dengan beberapa tabel dimensi. Titik tengah skema bintang adalah satu tabel fakta besar dan sudutsudutnya adalah tabel-tabel dimensi. Bentuk skema bintang dapat dilihat pada Gambar 2. Keuntungan yang didapat jika menggunakan skema ini adalah peningkatan kinerja data warehouse, pemrosesan query yang lebih efisien, dan waktu respon yang cepat.
Gambar 2 Skema bintang Kamber 2001)
(Han
&
Skema snowflake (snowflake schema)
Gambar 1 Representasi kubus data dengan 3 dimensi (Han & Kamber 2001) Kubus data disebut juga cuboid, berasal dari banyak dimensi. Potongan cuboid yang lebih kecil dapat dibuat dengan mengambil sebagian dimensi dari sebuah cuboid besar. Potongan cuboid memiliki tingkat yang lebih tinggi (besar nilainya) dari cuboid asalnya, cuboid dengan tingkat terendah disebut base
Skema snowflake adalah variasi dari skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan. Bentuk skema snowflake dapat dilihat pada Gambar 3 (halaman 5). Keuntungan yang didapat dengan menggunakan skema ini adalah penghematan memory, tapi waktu yang dibutuhkan untuk pemrosesan query menjadi lebih lama.
5
keputusan. OLAP tool sangat berguna untuk proses data mining, OLAP dapat menjadi bagian dari data mining tetapi keduanya tidak bersifat substitusi (Kantardzic 2003). Tipe-tipe operasi OLAP antara lain (Han & Kamber 2001): Roll-up
Gambar 3 Skema snowflake (Han & Kamber 2001) Skema galaksi (fact constellation) Pada skema galaksi, beberapa tabel fakta berbagi tabel dimensi. Bentuk skema galaksi dapat dilihat pada Gambar 4. Keuntungan menggunakan skema ini adalah menghemat memory dan mengurangi kesalahan yang mungkin terjadi.
Operasi ini melakukan agregasi pada kubus data dengan cara menaikkan tingkat suatu hirarki konsep atau mengurangi dimensi. Misalkan pada kubus data dari kelompok kota di-roll up menjadi kelompok propinsi atau negara. Contoh lainnya kubus data menampilkan agregasi total penjualan berdasarkan lokasi dan waktu, roll up mereduksi dimensi dapat dilakukan dengan menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi menghilangkan waktu sehingga hanya menampilkan agregasi total penjualan berdasarkan lokasi. Drill-down Drill-down adalah kebalikan dari rollup. Operasi ini mempresentasikan data menjadi lebih detil. Drill-down dilakukan dengan cara menurunkan tingkat suatu hirarki konsep atau menambahkan dimensi. Misalkan dari kelompok tahun didrill down menjadi kelompok triwulan, bulan, atau hari.
Gambar 4 Skema galaksi Kamber 2001)
(Han
&
On-Line Analytical Processing (OLAP) On-Line Analytical Processing (OLAP) terdiri dari seperangkat tool untuk membantu proses analisis dan perbandingan data dalam basis data. Kegunaan utama OLAP tool adalah kemampuan interaktifnya untuk membantu pimpinan organisasi melihat data dari berbagai perspektif (Post 2005). Tool dan metoda OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data, dan didukung dengan representasi grafik yang dinamis. Dalam tampilan tersebut dimensi-dimensi data berbeda menunjukkan karakteristik bisnis yang berbeda pula. OLAP tool sangat membantu untuk melihat data dimensional dari berbagai sudut pandang. OLAP tool tidak belajar dan tidak menciptakan pengetahuan baru dari data dengan sendirinya, tetapi merupakan alat bantu visualisasi khusus untuk membantu end-user menarik kesimpulan dan
Slice dan dice Operasi slice melakukan pemilihan satu dimensi dari kubus data sehingga menghasilkan bagian kubus (subcube). Operasi dice menghasilkan bagian kubus (subcube) dengan melakukan pemilihan dua atau lebih dimensi. Pivot (rotate) Pivot adalah operasi visualisasi dengan memutar koordinat data pada tampilan yang bertujuan untuk menyediakan presentasi alternatif dari data. Satu kategori dari OLAP yang mulai muncul pada tahun 1997 adalah Web-based OLAP (WOLAP). Dengan produk ini pengguna web browser atau komputer dalam jaringan dapat mengakses dan menganalisis data dalam data warehouse. WOLAP dapat diterapkan dalam internet atau intranet, namun banyak organisasi lebih memilih intranet karena alasan keamanan dan kerahasiaan data. WOLAP dapat digunakan selama klien memiliki perangkat lunak web
6
yang diperlukan dan terhubung dengan jaringan komputer yang benar. Teknologi ini juga mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna (Mallach 2000). Arsitektur Three-Tier Data Warehouse Data warehouse sering kali mengadopsi arsitektur three-tier, seperti dipresentasikan pada Gambar 5. Lapisan-lapisan arsitektur data warehousing tersebut adalah (Han & Kamber 2001): 1. Lapis bawah (bottom tier) Pada lapis bawah adalah server data warehouse yang biasanya sebuah sistem basis data relasional. Pada lapis ini data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi. Data disimpan sebagai data warehouse.
METODE PENELITIAN Analisis Data dikumpulkan dan dianalisis nilai dan atributnya untuk mendapatkan atribut-atribut yang tepat untuk membuat data warehouse. Dari hasil analisis ini ditentukan fakta dan dimensi dan dibuat skema model data multidimensi, kemudian melalui proses data preprocessing dibuat data warehouse-nya. Aplikasi OLAP dibangun menggunakan Palo PHP API (Application Program Interface) dan terhubung ke OLAP server Palo yang melakukan fungsi agregasi dan terdapat kubus data di dalamnya. Palo merupakan basis data berbasis sel yang multidimensional, hirarkis, dan berbasis memori. Query dalam Palo menghasilkan satu nilai sel tunggal, bukan baris data seperti basis data relasional. Palo merupakan OLAP multidimensional, menyimpan data dalam kubus data. Dengan dimensi yang hirarkis, kubus data Palo mampu melakukan agregasi multidimensional. Palo berbasis memori yang berimplikasi pada kecepatan. Akses data berbasis sel dilakukan pada waktu nyata (www.palo.net 2006). Palo menyediakan Palo Excel Add-In yang terintegrasi dengan Microsoft Office Excel. Palo Excel Add-In memiliki fasilitas untuk menampilkan data dari kubus data Palo, membentuk struktur kubus data Palo, dan memuat data dari sumber eksternal ke kubus data Palo.
Gambar 5 Arsitektur three-tier data warehousing (Han & Kamber 2001) 2. Lapis tengah (middle tier) Lapis tengah adalah OLAP server yang biasanya diimplementasikan dengan OLAP Relasional (ROLAP) atau OLAP Multidimensional (MOLAP). 3. Lapis atas (top tier) Pada lapis atas adalah lapisan front-end client, berisi query dan perangkat pelaporan, perangkat analisis, dan/atau perangkat data mining (seperti: analisis tren, prediksi, dan lainnya).
Aplikasi OLAP dibangun untuk mempresentasikan hasil operasi-operasi OLAP. Kelebihan aplikasi ini dibanding Palo Excel Add-In adalah berbasis web, terdapat operasi roll-up dan drill-down dalam tabel, dan grafik dinamis. Pengguna dapat mengevaluasi pola dengan menentukan kubus, ukuran, dimensi-dimensi, dan elemen-elemen dimensi, kemudian aplikasi akan memvisualisasikan ke bentuk yang mudah dipahami. Data Preprocessing Data dari berbagai sumber dikumpulkan dan dilakukan data preprocessing. Tahapan data preprocessing dalam penelitian ini adalah: 1. Integrasi dan reduksi Dilakukan penggabungan data dari berbagai sumber ke satu basis data. Data
7
direduksi dengan membuang atribut yang tidak menarik dan tidak relevan. 2. Pembersihan Data dibersihkan untuk memperbaiki data yang kosong, mengandung noise, dan tidak konsisten. Pada tahapan ini juga terdapat transformasi untuk menjaga konsistensi data. 3. Transformasi Tranformasi ke bentuk data yang tepat agar dapat digunakan untuk proses selanjutnya. Di dalamnya meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi. Akhir dari tahapan transformasi ini adalah terbentuknya sebuah data warehouse. Dalam penelitian ini, modul program untuk membantu pemrosesan data dibuat dengan bahasa pemrograman PHP. Modul ini terdiri dari modul transfer.php dan clean.php. Modul-modul tersebut menggunakan library ADOdb sebagai jembatan untuk mengakses basis data. Modul transfer.php dibuat karena keterbatasan fasilitas konversi dalam DBMS MsSQL Server 2000, yaitu beberapa tipe data dari data sumber tidak dapat dipetakan ke tipe data MsSQL. Modul transfer.php memiliki fungsi untuk mengkonversi data dari basis data Foxpro ke DBMS MsSQL, dan memuat data dari tabel atau view SQL ke tabel baru. Modul clean.php memiliki fungsi untuk membersihkan data. Aplikasi OLAP Langkah awal pembangunan aplikasi adalah membentuk struktur kubus data dalam OLAP server Palo. Pembentukan struktur kubus data dilakukan di Palo Excel Add-In. Namun untuk mempercepat proses pembentukan ini, dibuat suatu modul program dengan nama palo_modeller.php. Modul ini menggunakan library ADOdb sebagai jembatan ke basis data. Modul palo_modeller.php memiliki fungsi untuk memetakan dimensi dan elemen-elemennya dari tabel dimensi data warehouse menjadi dimensi kubus data Palo. Struktur kubus data yang sudah terbentuk kemudian diisi dengan data dari data warehouse melalui fasilitas Data Import di Palo Excel Add-In. Selanjutnya dilakukan perancangan aplikasi yang terdiri dari rancangan antarmuka, fungsi, class, dan modul. Antarmuka terdiri dari dua rancangan tampilan, yaitu untuk tampilan screen dengan
resolusi 1024 × 768 pixel dan untuk tampilan hasil cetakan. Fungsi aplikasi dirancang untuk operasi-operasi OLAP dan visualisasi hasil operasi OLAP dengan crosstab dan grafik. Implementasi aplikasi menggunakan bahasa pemrograman PHP, Palo PHP API, library JpGraph, dan JavaScript. Tampilan aplikasi menggunakan kode HTML (HyperText Markup Language) dan CSS (Cascade Style Sheets). Nama dan fungsi dari class dan modul utama dalam aplikasi OLAP adalah: app: merupakan class menjalankan aplikasi.
induk
yang
content: mengatur isi dari aplikasi. olap_function: menjalankan operasioperasi OLAP. Class ini merupakan hasil modifikasi dari modul program palo_demo.php yang terdapat dalam Palo SDK (Software Development Kit) 1.0c. Dalam modul palo_demo.php terdapat fungsi untuk membentuk struktur data crosstab dan fungsi operasi roll-up dan drill-down. Palo_demo.php dimodifikasi dengan mengubah pemrogramannya dari prosedural menjadi berorientasi objek, dan ditambah fungsi operasi slice dan dice. olap_render: menampilkan aplikasi dalam sintaksis HTML. olap_graph_generator: menggambar grafik hasil operasi OLAP. Class ini menggunakan library JpGraph untuk menghasilkan grafik. Lingkungan Pengembangan Aplikasi dibangun dengan menggunakan perangkat sebagai berikut: Perangkat keras berupa komputer personal dengan spesifikasi: Prosesor Intel Pentium 4 CPU 1.7 GHz Memori 512 MB DDR RAM Harddisk 120 GB Monitor 15” dengan resolusi 1024 × 768 Mouse dan Keyboard Perangkat lunak: Sistem Operasi Microsoft Windows XP Professional SP2 Microsoft SQL Server 2000 (perangkat lunak bantu untuk pemrosesan data dan pembuatan skema data warehouse)
8
Palo Server 1.0c (berfungsi sebagai OLAP server yang melakukan fungsi agregasi dan tempat penyimpanan struktur dan data kubus data multidimensi) Palo Excel Add-In 1.0c (tempat pembuatan/pemodelan struktur kubus data dan proses pemuatan data dari data warehouse ke kubus data) Web Server Apache 2.0.52 Bahasa pemrograman PHP 5.1.6 ADOdb 4.68 library for PHP (digunakan dalam tahapan data preprocessing dan menghubungkan basis data MsSQL dan ODBC Foxpro dengan modul program) JpGraph 1.20 (library menghasilkan grafik)
PHP
untuk
Maguma Studio Free 1.3.3 (IDE PHP) Web browser Mozilla Firefox 2.0 dan Microsoft Internet Explorer 6.
HASIL DAN PEMBAHASAN Analisis Data Dari data sumber diperoleh 14 tabel dengan format Foxpro (.dbf) dan 5 tabel dengan format Excel (.xls). Analisis dilakukan terhadap data sumber tersebut untuk mendapatkan atribut-atribut yang tepat untuk data warehouse. Daftar file data sumber ada pada Lampiran 1. Pada studi kasus data pelamar PPMB, semua tuple dan atribut dalam tabel data pelamar terpilih telah tercakup dalam tabel
Asal PK
data pelamar, sehingga tabel data pelamar terpilih (terpilih00, terpilih01, terpilih02, terpilih03, dan terpilih04) tidak diikutsertakan dalam tabel fakta. Tabel data jumlah pelamar yang datang (dataptd2) dibuang karena sama dengan data pelamar yang sudah diagregasi. Tabel data pelamar yang dipanggil tahun 2005 (sla05ipb) juga dibuang karena datanya tidak lengkap, data yang tersedia hanya untuk tahun 2005. Pemilihan atribut diprioritaskan berdasarkan ketentuan-ketentuan, yaitu: 1. Atribut menarik untuk dianalisis, 2. Atribut berkaitan dengan atribut atau tabel data yang lain, 3. Kombinasi nilai yang mungkin muncul tidak didominasi oleh satu nilai dan tidak terlalu banyak nilai bedanya, 4. Nilai null tidak melebihi 10%, dan 5. Pertimbangan kinerja mengurangi atribut.
sistem
dengan
Dari atribut-atribut yang dipilih kemudian ditentukan atribut-atribut yang dapat dijadikan ukuran dan dimensi. Hasil analisis data ditentukan empat fakta dalam dua tabel fakta dan sepuluh dimensi. Fakta terdiri dari ukuran jumlah pelamar USMI (dalam tabel fakta Pelamar), rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa (dalam tabel fakta Mahasiswa). Selanjutnya dibuat skema model data multidimensi data warehouse. Skema data warehouse yang dibangun dapat dilihat pada Gambar 6.
Waktu
id_asal
PK
propinsi pulau
id_waktu
Jalur PK
tahun_masuk Pelamar
Mahasiswa
id_jalur jalur
Listrik PK
id_listrik listrik
BiayaHidup PK
id_biaya biaya_hidup
FK1 FK2 FK3 FK4 FK5 FK6 FK7 FK8 FK9
id_waktu id_asal id_kel studi_pilihan1 studi_pilihan2 studi_putusan id_listrik id_biaya id_kategori jumlah_pelamar_usmi
JenisKelamin PK
id_kel lelaki_perempuan
FK1 FK2 FK3 FK4 FK5 FK6 FK7
id_waktu id_jalur id_kel pendidikan_ayah pendidikan_ibu id_pek id_studi rataan_pendapatan_ayah rataan_ipk_tpb jumlah_mhs
Studi PK
id_studi
KategoriSLA PK
id_kategori kategori_sla
program_studi departemen fakultas
Gambar 6 Skema galaksi data warehouse pelamar dan mahasiswa
Pendidikan PK
id_pend pendidikan
PekerjaanAyah PK
id_pek pekerjaan_ayah
9
Integrasi dan Reduksi Data Integrasi data dilakukan bersamaan dengan reduksi data. Integrasi dan reduksi data ini dilakukan pada awal proses data preprocessing untuk menyamakan format basis data dan menyusutkan volume sehingga memudahkan proses-proses selanjutnya. Data diproses menjadi dua bagian besar yaitu data untuk tabel fakta Pelamar dan tabel fakta Mahasiswa. Integrasi diawali dengan konversi seluruh data sumber (.dbf dan .xls) menjadi satu basis data dengan format Microsoft SQL Server (.mdf). Integrasi selanjutnya menggabungkan tabel-tabel menjadi satu tabel besar untuk dijadikan tabel fakta. Tabel-tabel yang akan digabungkan diidentifikasi nama atribut dan tipe datanya, kemudian dibuatkan tabel baru dengan nama atribut sesuai dengan hasil identifikasi. Penggabungan itu adalah menggabungkan tabel data pelamar (cal00ipb, cal01ipb, cal02ipb, cal03ipb, dan cal04ipb) dengan tabel data penilaian asal SMA (perak2). Penggabungan yang kedua adalah menggabungkan tabel data mahasiswa (pl_ilkom) dengan data IPK TPB mahasiswa (ipk00, ipk01, ipk02, ipk03, ipk04). Reduksi data dilakukan dengan membuang atribut-atribut yang tidak terpilih berdasarkan hasil analisis data. Nilai-nilai atribut yang redundan dalam tabel-tabel sumber tidak disertakan dalam proses selanjutnya (dibuang). Proses integrasi dan reduksi data membentuk tabel baru. Tabel tersebut adalah tabel pre_pelamar yang terdiri dari sepuluh atribut dan 44224 tuple. Tabel baru yang kedua adalah tabel pre_mahasiswa yang terdiri dari sembilan atribut dan 14055 tuple. Nama dan deskripsi atribut dari tabel-tabel tersebut dapat dilihat pada Tabel 1 dan Tabel 2. Tabel 1
Nama dan deskripsi atribut tabel pre_pelamar hasil integrasi dan reduksi
Nama Atribut tahunmasuk nosla nrp jeniskel pilihan1
Deskripsi Tahun calon mahasiswa melamar Nomor kode asal SMU pelamar NRP pelamar yang diterima Kode jenis kelamin Kode program studi pilihan pertama
Nama Atribut pilihan2 putusan1 listrik biayahidup kategori
Tabel 2
Nama dan deskripsi atribut tabel pre_mahasiswa hasil integrasi dan reduksi
Nama Atribut tahunmasuk jalur jeniskel pendayah pendibu pekerjayah nrp pendapatan IPK
Deskripsi Kode program studi pilihan kedua Kode program studi pelamar yang diterima Kode daya listrik rumah orangtua/wali Perkiraan biaya hidup bulanan yang akan diperoleh pelamar Kategori penilaian IPB terhadap asal SMU pelamar
Deskripsi Tahun mahasiswa masuk IPB Kode jalur masuk mahasiswa Kode jenis kelamin Kode pendidikan terakhir ayah Kode pendidikan terakhir ibu Kode pekerjaan ayah NRP mahasiswa Pendapatan ayah bulanan saat mahasiswa masuk IPK TPB mahasiswa
Pembersihan Data Pada proses pembersihan data dilakukan identifikasi terhadap data yang kosong (null), mengandung noise, dan tidak konsisten karena proses pengentrian data sumber maupun akibat proses integrasi data. Noise pada atribut pendapatan di tabel pre_mahasiswa di-update dengan nilai pendapatan rata-rata orangtua berdasarkan kelas pekerjaan ayah. Sedangkan nilai kosong dan noise pada atribut IPK di-update menjadi nilai rata-rata IPK dari seluruh mahasiswa. Pada proses pembersihan juga diselingi proses transformasi untuk membersihkan data yang tidak konsisten. Transformasi yang banyak terjadi di tabel pre_pelamar dan pre_mahasiswa adalah transformasi kode program studi lama menjadi kode program studi baru. Setelah proses pembersihan, tabel pre_mahasiswa berkurang lima tuple karena adanya penghapusan tuple menjadi 14045 tuple. Sedangkan pada tabel pre_pelamar tetap 44224 tuple. Rincian proses pembersihan data ada pada Lampiran 2.
10
Transformasi Data Tranformasi data ke bentuk yang tepat dengan berpedoman pada skema data warehouse yang telah dibuat. Proses transformasi ini meliputi penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi. Atribut-atribut dari tabel hasil pembersihan diubah namanya sesuai dengan nama-nama yang ada di skema. Data untuk atribut kode asal SMU pelamar (nosla) dari tabel pre_pelamar digeneralisasi dengan mengubah nilainya menjadi kode asal dengan mengambil dua digit awal dari nosla yang merepresentasikan asal propinsi pelamar. Atribut nrp dihilangkan karena mendeskripsikan hal yang sama dengan atribut putusan1, keduanya secara tidak langsung menjelaskan program studi bagi pelamar yang diterima. Data untuk atribut nomor mahasiswa (nrp) tabel pre_mahasiswa digeneralisasi menjadi kode program studi dengan mengambil empat digit awal dari nrp. Data untuk atribut pendapatan dibulatkan ke ribuan. Hasil transformasi ini dimasukkan ke dalam tabel baru, tabel pre_pelamar menjadi tabel pre2_pelamar dan tabel pre_mahasiswa menjadi tabel pre2_mahasiswa. Langkah selanjutnya adalah menentukan nilai agregasi atribut-atribut yang menjadi ukuran. Data tabel pre2_pelamar ditentukan nilai agregasinya untuk mendapatkan ukuran jumlah pelamar dengan cara menghitung jumlah pelamar dikelompokkan berdasarkan atribut-atribut yang ada. Atribut baru dikonstruksi untuk menampung ukuran jumlah pelamar hasil agregasi. Begitu juga data tabel pre2_mahasiswa ditentukan nilai agregasinya untuk mendapatkan ukuran rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa. OLAP server Palo belum mendukung fungsi agregasi rataan. Oleh sebab itu nilai agregasi rataan ditentukan dengan menentukan nilai total dari ukuran, kemudian aplikasi membaginya dengan ukuran jumlah, hasilnya adalah rataan dari ukuran tersebut. Untuk data atribut pendapatan dan IPK dari tabel Tabel 3
pre2_mahasiswa ditentukan nilai totalnya dan dihitung ukuran jumlah mahasiswa, dikelompokkan berdasarkan atribut-atribut non-ukuran. Atribut baru dikonstruksi untuk ukuran jumlah mahasiswa. Hasil dari transformasi dengan operasi agregasi ini dipindahkan ke tabel baru yang merupakan tabel fakta data warehouse sesungguhnya. Tabel-tabel baru tersebut adalah tabel dw_pelamar yang terdiri dari sembilan atribut dimensi dan satu atribut ukuran, dan dw_mahasiswa yang terdiri dari tujuh atribut dimensi dan tiga atribut ukuran. Tahapan pemrosesan data yang terakhir adalah transformasi dengan mengkonstruksi tabel-tabel dimensi. Kesepuluh tabel dimensi itu dibuat dengan nama dw_asal, dw_listrik, dw_biayahidup, dw_kategorisla, dw_waktu, dw_jeniskelamin, dw_studi, dw_jalur, dw_pendidikan, dan dw_pekerjaanayah. Tabel dimensi Asal (dw_asal) dibuat dari generalisasi kode asal SMU, dua digit awal kode asal SMU menjelaskan asal propinsi dan digit pertama menjelaskan asal pulau. Tabel dimensi Studi (dw_studi) dibuat dari generalisasi kode NRP atau dari kode program studi, di dalamnya menjelaskan program studi, departemen, dan fakultas dari mahasiswa bersangkutan. Data dalam tabel dimensi data warehouse dapat dilihat pada Lampiran 3. Pemuatan Data Setelah data warehouse selesai dibuat, langkah selanjutnya adalah pemuatan data (loading) dari data warehouse ke kubus data OLAP server. Sebelum pemuatan data dilakukan, skema data warehouse dimodelkan dalam OLAP server Palo, proses ini menentukan dimensi-dimensi, elemen-elemen dari dimensi, ukuran-ukuran, dan kubus data. Kubus data yang dibuat diberi nama Pelamar untuk tabel fakta dw_pelamar dan Mahasiswa untuk tabel fakta dw_mahasiswa. Ukuran pada struktur Palo dimasukkan dalam struktur dimensi. Selanjutnya data dimuat menggunakan fasilitas Data Import dari Excel Add-In Palo. Nama dan deskripsi dimensi dari kubus data dapat dilihat pada Tabel 3 dan Tabel 4 (halaman 11).
Nama dan deskripsi dimensi dari kubus data Pelamar
Nama Dimensi Waktu Asal Jenis Kelamin Studi Pilihan1
Deskripsi Tahun melamar USMI (2000, 2001, 2002, 2003, dan 2004) Asal propinsi dan pulau pelamar (Jawa Barat, DKI Jakarta, Sumatera, dsb.) Keterangan jenis kelamin pelamar (Perempuan dan Lelaki) Program studi, departemen, dan fakultas pilihan pertama pelamar
11
Nama Dimensi Studi Pilihan2 Studi Putusan Listrik Biaya Hidup Kategori SLA Ukuran Pelamar Tabel 4
Deskripsi Program studi, departemen, dan fakultas pilihan kedua pelamar Program studi, departemen, dan fakultas pelamar yang diterima Keterangan daya listrik rumah orangtua/wali (450 Watt, 900 Watt, dsb.) Keterangan perkiraan biaya hidup bulanan (< 100 Ribu, 100 – 200 Ribu, dsb.) Kategori asal SMU pelamar (A+, A, A-, B+, dsb.) Berisi nama-nama ukuran (Jumlah Pelamar USMI)
Nama dan deskripsi dimensi dari kubus data Mahasiswa
Nama Dimensi Waktu Jalur Jenis Kelamin Pendidikan Ayah Pendidikan Ibu Pekerjaan Ayah Program Studi Ukuran Mahasiswa
Deskripsi Tahun masuk mahasiswa (2000, 2001, 2002, 2003, dan 2004) Jalur masuk mahasiswa (USMI, UMPTN, dsb.) Keterangan jenis kelamin mahasiswa (Perempuan dan Lelaki) Keterangan pendidikan terakhir ayah Keterangan pendidikan terakhir ibu Keterangan jenis pekerjaan ayah (PNS, Wiraswasta, dsb.) Program studi, departemen, dan fakultas mahasiswa Berisi nama-nama ukuran (Rataan Pendapatan Ayah, Rataan IPK TPB, dan Jumlah Mahasiswa)
Data Sumber ADOdb XLS
MsSQL Server
JpGraph Apache PHP web server
Laptop
Data Preprocessing DBF
Line Plot Presentasi OLAP tool
DBF Palo API
Data Warehouse
Grafik Analisa
Workstation DBF
Palo Excel Add-In Palo OLAP server Lapis bawah: Data Warehouse DBMS
Lapis tengah: Web server OLAP server
Crosstab Lapis atas: Web browser
Gambar 7 Arsitektur data warehousing dan aplikasi OLAP Gambaran Umum Aplikasi Arsitektur penelitian ini mengadopsi arsitektur three-tier. Pada lapisan bawah adalah pemrosesan data dan pembuatan skema data warehouse dengan DBMS Microsoft SQL Server 2000. Pembentukan dan pemuatan kubus data menggunakan Palo Excel Add-In. Di lapisan tengah aplikasi OLAP yang dibuat dengan bahasa pemrograman PHP berjalan pada web server Apache. Pada lapisan ini terdapat OLAP server Palo yang menyimpan data dalam kubus data. Web server mengakses kubus data Palo server melalui Palo PHP API. Modul program untuk membantu pemrosesan data dan pembentukan kubus data menggunakan library ADOdb
sebagai jembatan ke basis data. Aplikasi OLAP menggunakan library JpGraph untuk membangkitkan grafik. Di lapisan atas visualisasi dari aplikasi OLAP dilakukan oleh web browser. Di lapisan ini pengguna dapat melakukan pencarian data, mengevaluasi pola, dan mendapatkan representasi informasi dalam bentuk yang mudah dipahami yaitu crosstab dan grafik. Arsitektur three-tier data warehousing penelitian ini dapat dilihat pada Gambar 7. Aplikasi OLAP menyediakan fasilitasfasilitas berikut : 1. Menu OLAP, dimana pengguna dapat menentukan kubus data, ukuran, dan
12
dimensi-dimensi yang akan ditampilkan untuk dianalisis. 2. Filter dimensi, fungsi ini dapat menyaring dimensi yang ditampilkan pada x-axis dan y-axis untuk menampilkan elemen-elemen tertentu dari dimensi. Dimensi lainnya dapat dipilih satu elemen dari tiap-tiap dimensi. 3. Visualisasi Crosstab dan Graph, dimana data hasil operasi OLAP yang dilakukan pengguna dapat ditampilkan ke dalam bentuk tabel (crosstab) dan/atau grafik. Grafik yang ditampilkan berupa bar plot atau line plot. 4. Disain cetakan, dengan fitur ini aplikasi membuang tampilan yang tidak perlu pada hasil cetakan. Aplikasi hanya mencetak judul, crosstab dan/atau grafik, sedangkan menu OLAP tidak ikut tercetak. Hasil visualisasi dapat dicetak melalui fasilitas Print pada web browser. Tampilan aplikasi OLAP dapat dilihat pada Gambar 8. Kelebihan dan Kekurangan Sistem Aplikasi OLAP yang dibangun memiliki beberapa kelebihan, yaitu: 1. Aplikasi OLAP berbasis web, dapat diterapkan dalam internet atau intranet. Teknologi web ini mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna.
Gambar 8 Contoh tampilan aplikasi OLAP
2. Aplikasi OLAP dilengkapi dengan versi portable. Versi portable ini ditujukan untuk komputer stand-alone dan dijalankan dalam media hard-disk atau flash-disk sehingga tidak memerlukan instalasi dan konfigurasi web server dan OLAP server. Pada versi ini, web server Apache dan OLAP server Palo dijalankan sebagai console bukan sebagai service. Aplikasi portable sukses berjalan dalam sistem operasi Windows XP, namun belum diuji pada sistem operasi lain. 3. Aplikasi yang dibangun dan perangkat lunak bantu yang digunakan berbasis open source dan freeware, sehingga memudahkan pengembangan aplikasi selanjutnya. 4. Aplikasi OLAP dirancang agar dapat digunakan untuk bermacam data warehouse, bukan hanya data warehouse data PPMB IPB. Untuk menggunakan data warehouse lain, beberapa file konfigurasi harus dikonfigurasi ulang. Terdapat beberapa kekurangan utama pada aplikasi, yaitu: 1. Tidak ada fasilitas untuk memodelkan struktur kubus data dan memuat data baru ke dalam kubus data. 2. Crosstab hanya dapat menampilkan satu dimensi untuk setiap axis-nya.
13
3. Tidak ada fungsi untuk melakukan operasi pivot. Saat ini untuk melakukan operasi pivot pengguna harus menukarkan axis dimensi dan menentukan kembali elemenelemennya. 4. Saat ini visualisasi grafik hanya menampilkan tipe bar plot dan line plot. Tidak ada tipe grafik pie dan lainnya. Presentasi Hasil Eksplorasi data dilakukan peneliti melalui aplikasi OLAP untuk menghasilkan beberapa informasi. Sebagai contoh untuk mencari pola sebaran pilihan fakultas pelamar jalur USMI berdasarkan asal pulau. Pada Lampiran 4, hasil grafik menunjukkan urutan mayoritas sebaran studi pilihan pertama pelamar dari keseluruhan asal pulau adalah fakultas FAPERTA, FMIPA, dan FATETA. Pola yang sama ditunjukkan pada Lampiran 5, untuk asal pulau dari Sumatera dan Jawa. Sedangkan presentasi grafik dengan asal pulau lainnya menunjukkan pola yang berbeda, dapat dilihat pada Lampiran 6. Untuk asal pulau Nusa Tenggara mayoritas pilihannya adalah FMIPA, FAPERTA, dan FPIK. Untuk pulau Kalimantan adalah FAPERTA, FATETA, dan FMIPA. Untuk pulau Sulawesi adalah
FAPERTA, FATETA, FMIPA, dan FPIK. Untuk pulau Irian mayoritas pilihan fakultas adalah FMIPA dan FAPERTA. Sedangkan untuk luar negeri lebih banyak memilih fakultas FMIPA. Tampilan crosstab untuk dimensi Asal tingkat Pulau dan dimensi Studi Pilihan1 tingkat Fakultas pada Lampiran 7. Dari hasil eksplorasi data sebelumnya yang menghasilkan fakultas pilihan mayoritas (FAPERTA, FMIPA, dan FATETA), analisis dilakukan lebih lanjut untuk melihat tren pilihan fakultas tiap tahun. Hasil presentasi tren pilihan tersebut dapat dilihat pada Gambar 9 dalam bentuk crosstab, dan Gambar 10 dalam bentuk grafik.
Gambar 9 Crosstab ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk Fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk
Gambar 10 Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 untuk fakultas FAPERTA, FATETA, dan FMIPA, dan dimensi Waktu tingkat Tahun Masuk
14
Dilihat dari dimensi Waktu, pada tahun 2000, fakultas FMIPA dipilih oleh 1800 pelamar, hampir sama dengan FATETA dengan 1777 pelamar, sedangkan FAPERTA jauh di atas dengan 2714 siswa/siswi SMU memilihnya. Pada tahun setelah 2000 pilihan pelamar terhadap FAPERTA cenderung menurun, sedangkan FMIPA meningkat, dan FATETA cenderung stabil. Di tahun 2003 FMIPA mengalahkan FAPERTA sebagai fakultas dengan pemilih terbanyak. Pada tahun 2004 fakultas FMIPA masih menjadi fakultas pilihan terbanyak di IPB dengan 2261 pelamar, sementara FAPERTA 2129 pelamar dan FATETA 1639 pelamar. Eksplorasi data melalui aplikasi OLAP lainnya adalah menganalisis tren perkembangan indeks prestasi mahasiswa di TPB dari program studi-program studi yang bersaing dengan program studi Ilmu Komputer. Untuk mencari program studi yang bersaing dengan Ilmu Komputer, data rataan IPK TPB setiap program studi disortir. Sepuluh program studi dengan rataan IPK mahasiswa TPB terbesar tahun masuk 2000 sampai 2004 dapat dilihat pada Gambar 11.
Gambar 11 Crosstab sepuluh program studi dengan rataan IPK TPB terbesar Program studi Ilmu Komputer di urutan 6 dan 7 sama dengan Matematika dengan rataan IPK 2,79. Bersaing dengan Teknologi Industri Pertanian di urutan 4 (2,97), Gizi Masyarakat ke-5 (2,81), Teknik Pertanian ke-8 (2,78), Program studi Hasil Perikanan dan Biokimia
di urutan 9 dan 10 dengan rataan IPK TPB sama (2,77). Mahasiswa Ilmu Komputer tahun masuk 2000 memiliki rataan IPK TPB dengan peringkat 5 besar (2,80) namun tahun masuk 2004 turun satu peringkat ke urutan 6 (2,84). Hal ini bukan disebabkan merosotnya rataan IPK pada tahun tersebut tetapi karena program studi Gizi Masyarakat berhasil mengangkat rataan indeks prestasinya menjadi 2,86 dan melewati rataan IPK Ilmu Komputer. Grafik garis tren rataan IPK TPB sepuluh program studi terbesar tahun masuk 2000 sampai 2004 ditunjukkan dalam Lampiran 8. Tren perkembangan indeks prestasi TPB program studi Ilmu Komputer menurun pada mahasiswa tahun masuk 2003, hal ini menjadi bahan pencarian informasi selanjutnya. Tren tersebut dapat dilihat dalam grafik pada Gambar 12 (halaman 15). Pada tahun masuk 2001 IPK TPB rata-rata mahasiswa Ilmu Komputer adalah 2,80, pada 2001 IPK 2,82, pada 2002 IPK 2,81, pada 2003 menurun drastis menjadi 2,67, pada 2004 naik kembali ke IPK 2,84. Peneliti selanjutnya mencari lebih jauh faktor apa yang mempengaruhi penurunan IPK tersebut dengan mengevaluasi dimensi Jalur dan Jenis Kelamin. Dengan pilihan dimensi Program Studi elemen Ilmu Komputer, elemen-elemen dimensi Waktu, dan elemen-elemen dimensi Jalur, didapat hasil rataan IPK mahasiswa TPB Ilmu Komputer tahun masuk 2003 jalur USMI adalah 2,81, sedangkan jalur UMPTN/SPMB adalah 2,45. Hasil tersebut dapat dilihat dalam crosstab pada Gambar 13 (halaman 15), dan dalam grafik pada Lampiran 9. Karena IPK yang kecil ada pada mahasiswa jalur UMPTN/SMPB, selanjutnya dipilih dimensi Jalur elemen UMPTN/SPMB dengan tambahan elemen-elemen jenis kelamin. Hasil pilihan tersebut sebagai berikut: rataan IPK TPB mahasiswa Ilmu Komputer tahun masuk 2003 jalur UMPTN/SPMB jenis kelamin perempuan adalah IPK 2,96, sedangkan IPK TPB lelakinya 2,35. Rataan IPK tersebut dapat dilihat dalam crosstab pada Gambar 14 (halaman 15), dan grafik pada Lampiran 10.
15
Gambar 12 Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Waktu tingkat Tahun Masuk
KESIMPULAN DAN SARAN Kesimpulan
Gambar 13 Crosstab ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer
Penelitian ini menghasilkan data warehouse data PPMB yang terdiri dari dua kubus data. Kubus data yang pertama adalah Pelamar, berisi nilai-nilai agregasi siswa/siswi SMU yang melamar ke IPB melalui jalur USMI. Kubus data yang kedua adalah Mahasiswa, berisi nilai-nilai agregasi mahasiswa IPB. Aplikasi OLAP mengakses data dari OLAP server Palo. Data tersebut tersimpan dalam kubus data sehingga pengguna dapat menganalisis data multidimensional dan mendapatkan informasi dengan cepat untuk membantu proses pengambilan keputusan.
Gambar 14 Crosstab ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB
Aplikasi OLAP yang dibangun dapat digunakan untuk operasi-operasi OLAP seperti roll-up, drill-down, slice, dice, dan pivot. Aplikasi ini menyediakan fasilitas menu untuk memilih kubus data, ukuran, dan dimensi dari data warehouse data PPMB. Dimensi yang dipilih dapat disaring untuk menentukan elemen-elemen yang diinginkan. Hasil operasi OLAP divisualisasikan dalam bentuk crosstab dan grafik yang dinamis.
16
Aplikasi OLAP memudahkan pengguna untuk mengekplorasi data PPMB IPB, tanpa harus memasukan query-query SQL yang rumit. Hasil ekplorasi disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik.
baru selain bar plot dan line plot. Library JpGraph versi 1.20 dapat membangkitkan grafik dengan tipe bar, line, error, scatter, field, box and stock charts, radar, pie, polar, dan gantt chart.
Berdasarkan contoh presentasi informasi yang dihasilkan dapat dinyatakan bahwa jumlah pelamar jalur USMI didominasi oleh pelamar dari pulau Jawa dan Sumatera, dan mayoritas pelamar memilih fakultas FAPERTA, FMIPA, dan FATETA. Dapat dinyatakan juga bahwa fakultas FMIPA menjadi fakultas di IPB yang favorit berdasarkan pilihan siswa/siswi SMU, selain itu juga FMIPA mengalami perkembangan yang baik dengan jumlah pelamar terbanyak di tahun 2003 dan 2004 melebihi FAPERTA, dan jauh meninggalkan FATETA dan fakultas-fakultas lainnya.
4. Aplikasi OLAP dikembangkan dengan menambah fasilitas login. Dengan fasilitas tersebut hak akses pengguna diatur sehingga aplikasi hanya diakses oleh pihak-pihak yang berkepentingan dan kerahasiaan data terjaga.
Dari hasil contoh presentasi juga dapat dinyatakan bahwa antara tahun masuk 2000 sampai 2004 telah terjadi penurunan rataan IPK TPB yang mencolok pada mahasiswa Ilmu Komputer tahun masuk 2003. Penurunan tersebut dipengaruhi oleh mahasiswa Ilmu Komputer tahun masuk 2003 dari jalur UMPTN/SPMB dan jenis kelamin laki-laki. Saran Saran untuk penelitian data warehousing dan OLAP selanjutnya adalah: 1. Dibangun modul program baru atau dikembangkan modul yang ada untuk melengkapi aplikasi OLAP. Modul yang ada terdiri dari transfer.php dan clean.php untuk tahapan data preprocessing, dan palo_modeller.php untuk memodelkan struktur kubus data di dalam Palo. Selain itu perlu dibangun modul program untuk pemasukan data baru. Modul-modul tersebut nantinya diintegrasikan ke dalam aplikasi OLAP. 2. Dikembangkan operasi-operasi OLAP dalam aplikasi. Untuk operasi slice dan dice disempurnakan, sehingga setiap axis dari crosstab dapat diisi dengan dua atau lebih dimensi. Untuk operasi pivot dibuatkan fasilitas khusus, sehingga pengguna cukup menekan satu tombol/link untuk melakukan operasi ini. 3. Dikembangkan visualisasi hasil operasi OLAP dalam aplikasi. Pada crosstab dapat ditambah fungsi pengurutan untuk mengurutkan data. Grafik dalam aplikasi OLAP dapat ditambah dengan tipe grafik
5. Dikembangkan aplikasi dengan menggunakan Palo versi terbaru. Saat penelitian ini dilakukan Palo versi 1.5 sedang dikembangkan. Rilis akhir dari Palo versi 1.5 ini lebih baik kinerja dan stabilitasnya, dan memiliki fitur-fitur baru.
17
DAFTAR PUSTAKA Bouzeghoub M & Kedad Z. 2000. A QualityBased Framework for Physical Data Warehouse Design. Laboratoire PRiSM, Université de Versailles. Versailles Cedex, France. Connolly T & Begg C. 2002. Database Systems: A Practical Approach to Design, Implementation, and Management. USA: Addison Wesley. Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon Fraser University. USA: Morgan Kaufman. Inmon WH. 1996. Building the Data warehouse. New York, USA: John Wiley & Sons. Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan Algorithms. New Jersey, USA: A John Wiley & Sons. Mallach EG. 2000. Decision Support and Data Warehouse Systems, International Edition. Singapore: McGraw-Hill. Post GV. 2005. Database Management Systems: Designing and Building Business Applications. Ed ke-3. New York, USA: McGraw Hill. Silberschatz A, Korth HF, & Sudarshan S. 2006. Database System Concepts. Ed ke-5. Singapore: McGraw-Hill.
LAMPIRAN
19
Lampiran 1
Daftar file data sumber
Nama file
Jumlah kolom 116 128 129 128 133 22 127 141 131 28 18 9 57 88 3
cal00ipb.dbf cal01ipb.dbf cal02ipb.dbf cal03ipb.dbf cal04ipb.dbf terpilih00.dbf terpilih01.dbf terpilih02.dbf terpilih03.dbf terpilih04.dbf perak2.dbf dataptd2.dbf sla05ipb.dbf pl_ilkom.dbf ipk 00-04.xls Lampiran 2
Jumlah baris 8456 9280 9362 8887 8201 2221 2212 2220 2287 2370 4221 8258 1593 14055 13870
Keterangan Data pelamar (USMI) tahun 2000 Data pelamar (USMI) tahun 2001 Data pelamar (USMI) tahun 2002 Data pelamar (USMI) tahun 2003 Data pelamar (USMI) tahun 2004 Data pelamar yang terpilih / diterima (USMI) tahun 2000 Data pelamar yang terpilih / diterima (USMI) tahun 2001 Data pelamar yang terpilih / diterima (USMI) tahun 2002 Data pelamar yang terpilih / diterima (USMI) tahun 2003 Data pelamar yang terpilih / diterima (USMI) tahun 2004 Data penilaian asal SMA tahun 2000 - 2004 Data jumlah pelamar yang datang dan nem per asal SMA tahun 2000 - 2004 Data pelamar yang dipanggil (USMI) tahun 2005 Data mahasiswa yang masuk (USMI & SPMB) tahun 2000 - 2004 Data IPK TPB mahasiswa tahun 2000 - 2004 (terdiri dari 5 sheet)
Rincian proses pembersihan data
a. Pembersihan tabel pre_pelamar Atribut
Jumlah tuple kosong
Jumlah tuple mengandung noise
Jumlah tuple tidak konsisten
Keterangan
tahunmasuk
0
0
0
nosla nrp
0 a) 32917
0 b) 1
0 c) 2219
jeniskel pilhan1
0 a) 90
0 0
0 b) 17713 c) 26421
pilihan2
a) 1107
0
b) 17397 c) 25720
sudah bersih, ditentukan dari asal tabel (cal00ipb → 2000, cal01ipb → 2001, dst) sudah bersih b) nrp kurang 1 digit → C0440047 c) 4 digit awal masih kode ps lama pada tahun 2000 sudah bersih b) masih kode ps lama pada tahun 2000 dan 2001 c) kode ps kurang 1 digit pada tahun 2002, 2003, dan 2004 b) masih kode ps lama c) kode ps kurang 1 digit
putusan1
a) 270 b) 32662
0
c) 4407 d) 6885
a) nrp ada tetapi putusan1 tidak ada pada tahun 2000 c) masih kode ps lama d) kode ps kurang 1 digit
Aksi
a) update jadi 0 (tidak diterima) b) update jadi C04400047 c) update jadi kodepsbaru a) update jadi 0 (tidak memilih) b) dan c) transformasi jadi kodepsbaru a) update jadi 0 (tidak memilih) b) dan c) transformasi jadi kodepsbaru a) isi dengan 4 digit nrp b) update jadi 0 (tidak diterima) c) dan d) transformasi jadi kodepsbaru
20
Lampiran 2
lanjutan
Atribut
Jumlah tuple mengandung noise 317
Jumlah tuple tidak konsisten 0
Keterangan
Aksi
listrik
Jumlah tuple kosong 0
atribut bernilai 0
biayahidup
0
519
0
atribut bernilai 0
kategori
8632
0
0
direpresentasikan sebagai pelamar tidak mengisi keterangan listrik direpresentasikan sebagai pelamar tidak mengisi keterangan biaya hidup update jadi 0 (tidak terkategori)
b. Pembersihan tabel pre_mahasiswa Atribut
Jumlah tuple kosong
Jumlah tuple mengandung noise
Jumlah tuple tidak konsisten
Keterangan
tahunmasuk jalur jeniskel pendayah
0 0 0 0
0 0 0 145
0 0 0 0
sudah bersih sudah bersih sudah bersih atribut bernilai 0
pendibu
0
157
0
atribut bernilai 0
pekerjayah
0
606
0
atribut bernilai 0
nrp
0
0
a) 20 b) 2916
pendapatan
0
a) 1 b) 144
0
a) terdapat 10 pasang tuple redundan b) 4 digit awal masih kode ps lama pada tahun 2000 a) pendapatan = 4 b) atribut bernilai 0
IPK
a) 185
b) 119
0
b) atribut bernilai 0
Aksi
direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ayah direpresentasikan sebagai mahasiswa tidak mengisi keterangan pendidikan ibu direpresentasikan sebagai mahasiswa tidak mengisi keterangan pekerjaan ayah a) hapus tuple redundannya b) update jadi kodepsbaru a) dan b) update jadi nilai rataan pendapatan orangtua berdasarkan kelas pekerjayah a) dan b) update jadi nilai rataan IPK dari seluruh mahasiswa
21
Lampiran 3
Data tabel dimensi data warehouse
a. Data tabel dw_asal (dimensi Asal) id_asal 11 12 13 14 15 16 17 18 31 32 33 34 35 51 52 53 61 62 63 64 71 72 73 74 81 82 99
propinsi Nangroe Aceh Darussalam Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung DKI Jakarta Jawa Barat Jawa Tengah DI Yogyakarta Jawa Timur Bali Nusa Tenggara Barat Nusa Tenggara Timur Kalimantan Barat Kalimantan Tengah Kalimantan Selatan Kalimantan Timur Sulawesi Utara Sulawesi Tengah Sulawesi Selatan Sulawesi Tenggara Maluku Papua Luar Negeri
pulau Sumatera Sumatera Sumatera Sumatera Sumatera Sumatera Sumatera Sumatera Jawa Jawa Jawa Jawa Jawa Nusa Tenggara Nusa Tenggara Nusa Tenggara Kalimantan Kalimantan Kalimantan Kalimantan Sulawesi Sulawesi Sulawesi Sulawesi Irian Irian Luar Negeri
b. Data tabel dw_biayahidup (dimensi Biaya Hidup) id_biaya 0 1 2 3 4 5 6
biaya_hidup Tidak Tahu < 100 Ribu 100 - 200 Ribu 200 - 300 Ribu 300 - 400 Ribu 400 - 500 Ribu > 500 Ribu
c. Data tabel dw_jalur (dimensi Jalur) id_jalur 1 2 3 6
Jalur USMI UMPTN/SPMB PIN Beasiswa/BUD
d. Data tabel dw_jeniskelamin (dimensi Jenis Kelamin) id_kel 0 1
lelaki_perempuan Perempuan Lelaki
e. Data tabel dw_kategorisla (dimensi Kategori SLA) id_kategori 0 A+ A AB+ B BC+ C CD
kategori_sla Tidak Tahu A+ A AB+ B BC+ C CD
f. Data tabel dw_listrik (dimensi Listrik) id_listrik 0 1 2 3 4 5 6
listrik Tidak Tahu Tidak Ada 450 Watt 900 Watt 1300 Watt 2200 Watt > 2200 Watt
22
Lampiran 3
lanjutan
g. Data tabel dw_studi (dimensi Program Studi) id_studi 0 A141 A142 A143 A241 A341 A342 A343 A344 A441 A541 B041 C141 C241 C341 C441 C541 C641 D141 D142 D241 D341 E141 E142 E241 E341 F141 F241 F341 G141 G241 G341 G441 G442 G541 G641 G741 H141 H241
program_studi 0 A11. Manajemen Agribisnis A12. Kombang Masyarakat A13. Ekonomi Pertanian & SD A21. Ilmu Tanah A31. Agronomi A32. Arsitektur Lansekap A33. Hortikultura A34. Pem. Tanaman & Tek. Benih A41. Hama & Penyakit Tumbuhan A51. Gizi Masy. & SD Keluarga B01. Kedokteran Hewan C11. Budidaya Perairan C21. Manajemen SD Perairan C31. Tek. Hasil Perikanan C41. Sosek Perikanan C51. Pemanfaatan SD Perikanan C61. Ilmu & Tek. Kelautan D11. Tek. Prod. Ternak D12. Tek. Hasil Ternak D21. Ilmu Nutrisi & Mak. Ternak D31. Sosek Peternakan E11. Manajemen Hutan E12. Budidaya Hutan E21. Tek. Hasil Hutan E31. Konservasi SD Hutan F11. Teknik Pertanian F21. Tek. Pangan F31. Tek. Industri Pertanian G11. Statistika G21. Meteorologi G31. Biologi G41. Biokimia G42. Kimia G51. Matematika G61. Ilmu Komputer G71. Fisika H11. Ekonomi Pembangunan H21. Manajemen
departemen 0 Sosek Pertanian Sosek Pertanian Sosek Pertanian Tanah Budidaya Pertanian Budidaya Pertanian Budidaya Pertanian Budidaya Pertanian Hama & Penyakit Tumbuhan Gizi Masy. & SD Keluarga Kedokteran Hewan Budidaya Perairan Manajemen SD Perairan Tek. Hasil Perikanan Sosek Perikanan Pemanfaatan SD Perikanan Ilmu Kelautan Ilmu Produksi Ternak Ilmu Produksi Ternak Ilmu Nutrisi & Mak. Ternak Sosek Peternakan Manajemen Hutan Manajemen Hutan Tek. Hasil Hutan Konservasi SD Hutan Teknik Pertanian Tek. Pangan & Gizi Tek. Industri Pertanian Statistika Geofisika & Meteorologi Biologi Kimia Kimia Matematika Ilmu Komputer Fisika Ekonomi Pembangunan Manajemen
fakultas 0 FAPERTA FAPERTA FAPERTA FAPERTA FAPERTA FAPERTA FAPERTA FAPERTA FAPERTA FAPERTA FKH FPIK FPIK FPIK FPIK FPIK FPIK FAPET FAPET FAPET FAPET FAHUTAN FAHUTAN FAHUTAN FAHUTAN FATETA FATETA FATETA FMIPA FMIPA FMIPA FMIPA FMIPA FMIPA FMIPA FMIPA FEM FEM
23
Lampiran 3
lanjutan
h. Data tabel dw_pekerjaanayah (dimensi Pekerjaan Ayah) id_pek 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Pekerjaan_ayah Tidak Tahu PNS TNI/POLRI Pensiunan PNS Wiraswasta Veteran Purnawirawan Eksekutif Profesional Pegawai Swasta Pegawai BUMN Rohaniawan Petani Nelayan dan lainnya
Lampiran 4
i. Data tabel dw_pendidikan (dimensi Pendidikan) id_pend 0 1 2 3 4 5 6 7 8 9
pendidikan P0 P1 P2 P3 P4 P5 P6 P7 P8 P9
j. Data tabel dw_waktu (dimensi Waktu) id_waktu 2000 2001 2002 2003 2004
tahun 2000 2001 2002 2003 2004
Grafik ukuran Jumlah Pelamar USMI dan dimensi Studi Pilihan1 tingkat Fakultas
24
Lampiran 5
Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Sumatera dan Jawa
Lampiran 6
Grafik ukuran Jumlah Pelamar USMI, dimensi Studi Pilihan1 tingkat Fakultas, dan dimensi Asal untuk Nusa Tenggara, Kalimantan, Sulawesi, Irian, dan Luar Negeri
25
Lampiran 7
Crosstab dengan operasi OLAP drill-down sampai tingkat dua, ukuran Jumlah Pelamar USMI, dimensi Studi Putusan1, dan dimensi Asal
Lampiran 8
Grafik ukuran Rataan IPK TPB, dimensi Program Studi untuk 10 program studi dengan rataan IPK TPB terbesar, dan dimensi Waktu tingkat Tahun Masuk
26
Lampiran 9
Grafik ukuran Rataan IPK TPB, dimensi Jalur untuk USMI dan UMPTN/SPMB, dimensi Waktu tingkat Tahun Masuk, dan dimensi Program Studi untuk Ilmu Komputer
Lampiran 10 Grafik ukuran Rataan IPK TPB, dimensi Jenis Kelamin untuk Perempuan dan Lelaki, dimensi Waktu tingkat Tahun Masuk, dimensi Program Studi untuk Ilmu Komputer, dan dimensi Jalur untuk UMPTN/SPMB