OPENING DATA FOR BETTER EDUCATION
Linking Freedom of Information and Open Data for Greater Transparency and Participation in Banda Aceh
Full Report
18 December 2014
A project of World Wide Web Foundation and Kinerja funded by the USAID, implemented by the Open Data Lab Jakarta
J A K A R TA
Opening Data for Better Education
TABLE OF CONTENTS 1. Introduction
2.
3.
03
1.1.
Background of the Activities
04
1.2.
Coverage of this Report
06
Project Accomplishments
07
Component 1. Defining Priority Information and Data Needs
07
Component 2. Support to Banda Aceh City Government
10
Component 3. Capacitating CSOs in Open Data Usage
13
Lessons Learned
15
4. Annexes
19
Annex 1: Activity Pictures
19
Annex 2: About the Open Data Lab Jakarta and the
22
World Wide Web Foundation Annex 3: Modul Pelatihan Data Terbuka
Attached
Annex 4: Modul Pelatihan Keterampilan
Attached
Mengolah Data
3
Opening Data for Better Education
1. INTRODUCTION With funding support from the United States Agency for International Development through RTI International, the Web Foundation’s Open Data Lab in Jakarta implemented the ‘Linking Freedom of Information and Open Data for Greater Transparency and Participation in Banda Aceh’ Project (hereinafter the OD and FOI – Banda Aceh Project).
The project was implemented from 01 November – 15 December 2014 in Banda Aceh, Indonesia in partnership with GeRAK Aceh and the city government of Banda Aceh.
The project intended to achieve the following objectives:
• Assess the data needs of civil society organizations (CSOs) and their constituents to match with information disclosure practices of the city government;
• Support the city government in understanding the key priority information and data needs of CSOs and their constituents;
• Increase the capacity of CSOs to understand, use, and translate government data into actionable information for the use of citizens and disseminate these for wider impact.
4
Opening Data for Better Education
1. INTRODUCTION
1.1 BACKGROUND OF THE ACTIVITIES
Three (3) workshops were conducted in the course of this project, each with a distinctive set of outputs to achieve the objectives mentioned above. A summary of the workshop specifications is presented below:
Component
Activities
Specific Outputs
Component 1: Defining Priority Data and Information Needs
1 day workshop with CSOs to define priority information and data needs
List of at least ten (10) priority data needs in the education sector that CSOs identify as critical
Component 2: Support to the Banda Aceh City Government
1 day workshop on the fundamentals of open data with selected officials of the city administration of Banda Aceh
List of meaningful data the city government of Banda Aceh is committed to disclose based on the list of priority needs
Technical support to the concerned agency from the Open Data Lab Jakarta technical team to identify, assess, clean and publish datasets in open format
Meaningful data that the city government is committed to sharing is published online
2-3 days capacity building workshop on ‘working with open data for impact’: selected intermediary groups underwent training on working with open data, i.e. reading, analysing data and communicating the results
CSOs are able to produce outputs from open data to serve their constituents for a chosen purpose (e.g. advocacy, research, information dessimination, etc.)
Component 3: Capacitating CSOs on Open Data Usage
5
Opening Data for Better Education
1. INTRODUCTION 1.2 COVERAGE OF THIS REPORT
This document reports on the accomplishments of the project from the time it started in November 2014 to the final workshop in December 2014.
6
Opening Data for Better Education
2. PROJECT ACCOMPLISHMENTS COMPONENT 1. DEFINING PRIORITY INFORMATION AND DATA NEEDS
Activity Workshop for civil society groups to define and prioritize data information needs.
Outputs Output 1.1. A total of 24 (18 male, 6 female) participants coming from 19 organizations learned about Freedom of Information (FOI) and open data.
19 organizations were represented in the workshop. The graph below shows the distribution of these organizations in terms of size:
56%
Small organizations
39%
Moderate organizations Large organizations
6%
6
Opening Data for Better Education
2. PROJECT ACCOMPLISHMENTS COMPONENT 1. DEFINING PRIORITY INFORMATION AND DATA NEEDS
The following sectors were represented:
Sector
Count
Education
15
Health
11
Budget
11
Environment
7
Tourism
4
Agriculture
4
Women Empowerment
2
Extractives
1
Transparency / Anti-corruption
1
Note that while majority of the organizations work primarily in the education sector, there was a high degree of interest on open data from other sectors. One (1) of the major questions in the first CSO workshop was the question of why the project only focused on education when open data is also relevant in other sectors such as budget, health, and the environment. The team informed the participants that as a pilot project and with limited time and resources, the project wants to build a proof of concept in one of the sectors that Kinerja works on - education. 7
Opening Data for Better Education
2. PROJECT ACCOMPLISHMENTS COMPONENT 1. DEFINING PRIORITY INFORMATION AND DATA NEEDS
Immediate Outcomes for Output 1.1 Participants increased their knowledge on FOI and open data as evidenced by the results of the review workshop conducted in the project workshop for CSOs in component 3.
Output 1.2. A total of nine (9) priority data needs were identified by the CSO participants that they wanted the city government to proactively disclose. The list below shows the priority data needs of CSOs within education: 1. School performance/achievement (test results, competition, acceptance rates in the next level) 2. School facilities 3. Teacher (number, qualification, background, certification, status, title) 4. School profile (management, regulation, workplan, curriculum) 5. Students (number of male and female students, teacher to student ratio) 6. Library (collection, number of collections, visits) 7. Non-teaching staff (number, status, qualification) 8. Budget (budget plan, expenditure, list of scholarship grantees) 9. Sources of funding
Immediate Outcomes for Output 1.2 CSOs were able to define what sorts of data and information mattered to them and their constituents.
9
Opening Data for Better Education
2. PROJECT ACCOMPLISHMENTS
COMPONENT 2. SUPPORT TO BANDA ACEH CITY GOVERNMENT
Activity Workshop with Banda Aceh city government on proactive disclosure and FOI.
Outputs Output 2.1. A total of 40 civil servants (21 male, 19 female) from the city government of Banda Aceh participated in the workshop on FOI and proactive disclosure. The offices represented were the following: 1. Education 2. Planning 3. Information commission 4. Finance and asset management 5. Health and sanitation 6. Sharia court 7. Public relations 8. Transportation 9. Local police 10. Social welfare and labour
Immediate Outcomes for Output 2.1 The officials became committed to publish open datasets. The city government even wanted to extend training support to other departments.
10
Opening Data for Better Education
2. PROJECT ACCOMPLISHMENTS
COMPONENT 2. SUPPORT TO BANDA ACEH CITY GOVERNMENT
Output 2.2. A total of eight (8) participants (7 male, 1 female) from the city government of Banda Aceh were trained in open data basics to ensure publication of open data in the web.
Output 2.3. A total of 16 open data sets were published online by the Education Department. This is available at http://data2.bandaacehkota.info/group/disdikpora-banda-aceh. These data sets are as follows: 1. Graduation from senior high school 2. Graduation from junior high school 3. Graduation from vocational school 4. Awards obtained by schools 5. Budget and budget realization 6. Teacher education and certification (PNS) 7. Teacher education and certification (non-PNS) 8. Facilities / infrastructure in school 9. School profile 10. Admission of students in schools 11. Number of students (High School, Junior High School, Vocational) 12. Budget and budget realization - Services 13. Budget and budget realization – High school
11
Opening Data for Better Education
2. PROJECT ACCOMPLISHMENTS
COMPONENT 2. SUPPORT TO BANDA ACEH CITY GOVERNMENT
14. Budget and budget realization – Vocational 15. Budget and budget realization – Junior High School 16. Data on disadvantaged students
Immediate Outcomes for Output 2.3 In the public event, the head of the education department committed to open all of the department’s data to the public.
Output 2.4. An unintended output realized was the publication of eight (8) open datasets by the transportation and communication departments.
These are published by http://data2.bandaacehkota.info/group/dishubkominfo-bandaaceh.
Immediate Outcomes for Output 2.4 There is strong interest from other departments within the Banda Aceh city government to open data to the public.
Output 2.5. Open Data Lab Jakarta produced a guide for civil servants to use in proactively disclosing open data.
12
Opening Data for Better Education
PROJECT ACCOMPLISHMENTS
COMPONENT 3. CAPACITATING CSOs IN OPEN DATA USAGE
Activity Outcomes 3-day capacity building workshop on ‘working with open data for impact’.
Output Output 3.1. A total of 28 civil society representatives (17 male, 11 female) coming from 19 organizations were trained in online and offline visualization as well as telling narratives from visualized data.
Output 3.2. A total of six (6) online and offline data visualization as well as data narratives were developed by CSO participants, indicating increased competency in working with open data.
Immediate Outcomes for Output 3.2 Two (2) data narratives based on visualized data were presented during the public event. This generated reactions from the participants. In the forum, the head of the education department welcomed these suggestions and recommendations1 highlighted in the data narratives and committed to deal with these in order to improve education performance in the city.
For the final workshop, the first presentation recommended the need to socialize and improve transparency of School Operational Assistance “BOS” funds, while the second presentation argued the correlation between education funds and declining of school performance in Banda Aceh. Accordingly, both presentations were interconnected as the usage of education funds should be focused on students’ needs and improving their accomplishment.
13
Opening Data for Better Education
PROJECT ACCOMPLISHMENTS
COMPONENT 3. CAPACITATING CSOs IN OPEN DATA USAGE
Output 3.3. Open Data Lab Jakarta created a guide on open data basics for CSOs to use, appended in Annex 3.
Open Data Lab Jakarta, for its own purposes, is currently conducting extensive documentation of the processes undertaken in this project and the outcomes on the part of people from both CSOs and city government. This is documented through narrative documentation and taped interviews, which will be shared on the project website (http:// labs.webfoundation.org) in due time as part of the Lab’s communication materials and research reports.
14
Opening Data for Better Education
LESSONS LEARNED The project implementation yielded the following lessons learned that will inform future work regarding open data and its intersection with freedom of information:
On CSOs Awareness regarding FOI and Open Data • While access to information has improved for at least three (3) CSOs represented in the workshop, the majority of the CSOs in Banda Aceh have not exercised their right primarily because of lack of awareness on how to exercise or avail of their right to information and the perception that exercising it is cumbersome. • There is low awareness on the part of CSOs regarding open data. They associate open data with web applications. Only after an explanation of open data concepts were the participants able to see its value and how it complements with freedom of information.
On Government’s Attitude towards FOI and Open Data • Civil servants see the value of sharing information to the public. Most of them expressed the commitment that if CSOs will ask for specific information, for as long as these are available, they will provide it. • However, while there is interest in proactively disclosing information to the public, there is also a certain degree of apprehension in opening up data. Civil servants are afraid that the data would fall into the wrong hands, that it could be misused, and that those having access to it could modify the data to the disadvantage of government.
15
Opening Data for Better Education
LESSONS LEARNED Nevertheless, in less than two (2) months, the project was successful in achieving the set objectives. The relative ease by which the project was able to achieve project objectives with limited time and resources were caused by the following:
Strong civil society organizations While an assessment of organizations was not conducted by the project, the discussions in the workshops and the outputs that were achieved point to a certain degree of maturity of CSOs and the availability of requisite skills in some of the organizations to analyze, visualize, and tell narratives from data. It was also evident that some of the organizations (e.g. GeRAK Aceh, transparency groups and local media including Advokasi Rakyat Aceh (PAKAR), Gerakan Aktivis Muda-Guru Bersatu (GAM-GB), Jurnalis Warga, Sekolah Anti Korupsi (SAKA), Aliansi Jurnalis Independen (AJI), Persatuan Guru Republik Indonesia (PGRI), Radio Elshinta, Lembaga Pembinaan dan Pengembangan Masyarakat (LPPM) Aceh, Fakultas Ilmu Sosial dan Politik - Universitas Syiah Kuala and Majelis Pendidikan Daerah (MPD)) already had strong relationships with the local government and are able to influence decisions, especially in the education sector – the sector tested in this project.
Committed local government leaders The key to the success of the project was the commitment of local government leaders. Had government leaders not expressed commitment to proactively disclose data and had their staff trained in to do so, the CSO workshop, the main intention of the project, would not have happened.
16
Opening Data for Better Education
LESSONS LEARNED Good working relationship of Kinerja with Banda Aceh city government and the CSOs The project was introduced to the local government and the CSOs through Kinerja. Kinerja’s work and good reputation in the area hastened all processes and ensured that key stakeholders attend the three (3) workshops scheduled.
Good project design and capable team The relevance, effectiveness, and efficiency of the design made possible the achievement of the objectives. This is coupled with the competence and commitment of the implementation team at the Open Data Lab Jakarta who made sure that activities were completed within the time frame in partnership with GeRAK Aceh and the city government of Banda Aceh.
Moving forward, the following recommendations are proposed:
Kinerja should continue encouraging the local government to sustain its current efforts in proactively disclosing data. The civil servants trained in open data through this project can already support other departments who want to disclose their data proactively. Kinerja should also follow-up with the city government to ensure that the beta site – http://data2.bandaacehkota.info/ - will be finalized and publicly disseminated.
17
Opening Data for Better Education
LESSONS LEARNED Gerak Aceh should act as a lead convenor of open data advocates in the city and should follow through on the commitments of trained CSO participants. While initially, there are commitments on the part of the CSOs to implement activities based on the things they have learned (e.g. writing a blog post, drafting an analysis paper, informing their constituents, among others), there is a need to monitor progress on these commitments to sustain the momentum.
Open Data Lab Jakarta is committed to support both Kinerja and Gerak Aceh in these endeavours remotely. Appropriate contact details have already been shared to ensure that Open Data Lab Jakarta can continuously support the city government and the CSOs.
18
Opening Data for Better Education
ANNEX 1
ACTIVITY PICTURES
Participants from the1st and 2nd Workshops: Participants identified and listed their data set demands from the education agency and warmed up to the ideas of freedom of information and open data.
19
Opening Data for Better Education
ANNEX 1
ACTIVITY PICTURES
Participants from the 3rd Workshop: The Lab facilitators kicked off the workshop with a game, discussed about open data and data visualisation and the participants presented their answers on what they understand of open data using an offline format. 20
Opening Data for Better Education
ANNEX 1
ACTIVITY PICTURES
Participants from the 3rd Workshop and the public event: Participants presented their offline and online visualisations as results of the workshop, with our partners from the Banda Aceh City Government, GeRAK Aceh and Kinerja watching their presentations. The workshop ended with all present voting on who they thought had the best examples of online and offline data visualisations. 21
Opening Data for Better Education
ANNEX 2
ABOUT THE OPEN DATA LAB JAKARTA AND WORLD WIDE WEB FOUNDATION
About the Open Data Lab Jakarta Run by the World Wide Web Foundation and financially supported by Ford Foundation, the Open Data Lab Jakarta is innovating with open data for social change. By trying out new approaches, we want to accelerate progress and ensure open data rapidly becomes a vital tool to tackle practical problems in developing and emerging economies.
About the World Wide Web Foundation Established by the inventor of the Web, Sir Tim Berners-Lee, the World Wide Web Foundation seeks to establish the open Web as a global public good and a basic right, creating a world where everyone, everywhere can use the Web to communicate, collaborate and innovate freely. Represented by more than a dozen nationalities working from hubs in London, Washington DC and Cape Town, the World Wide Web Foundation operates at the confluence of technology and human rights, targeting three key areas: Access, Voice and Participation.
22
Modul Pelatihan Data Terbuka
18 Desember 2014
1
2
Daftar Isi Daftar Isi Pengenalan Format CSV Apa itu CSV? Mengapa CSV? Aturan Format CSV Strategi Penyusunan Data Ekstraksi Data Data HTML Data PDF Data Gambar (JPG, PNG, GIF) Persiapan Data Pembersihan Data Inkonsistensi Duplikasi Data Pencacahan Ulang Data Penulisan Tidak Baku Konversi Data Data Excel Data gSheet Publikasi Data Apa itu Metadata? Isian Metadata Aturan Pengisian
3
1.
Pengenalan Format CSV
Apa itu CSV? Data dalam comma-separated values atau disingkat CSV merupakan data tabular disimpan dalam bentuk teks-biasa dipisahkan oleh tanda koma. Sebagai contoh, apabila Anda memiliki data tabular dalam bentuk tabel sebagai berikut: kolom1
kolom2
kolom3
kolom4
nilai1
nilai2
nilai3
nilai4
nilai5
nilai6
nilai7
nilai8
Maka dapat disimpan dalam format CSV sebagai: kolom1,kolom2,kolom3,kolom4 nilai1,nilai2,nilai3,nilai4 nilai5,nilai6,nilai7,nilai8 Perhatikan bahwa setiap baris dibentuk dalam jejeran baru dan setiap kolom dipisahkan oleh tanda koma. Baris pertama selalu dikhususkan untuk nama-nama kolom.
Mengapa CSV? Terdapat dua alasan utama penggunaan format CSV untuk pertukaran data, antara lain: 1.
Format CSV berbasis teks-biasa. Istilah “teks biasa” dalam teknologi informasi (TI) diartikan sebagai cara penyimpanan informasi dalam bentuk rangkaian karakter penulisan teks. Hal ini membuat CSV mudah dibuat oleh siapapun.
2.
Berkas CSV dapat dengan mudah diimpor oleh program tabular apapun atau dibuka oleh banyak jenis aplikasi tanpa memperdulikan sistem komputer yang dipakai (baik Windows, Linux, OSX, dlsb.)
Aturan Format CSV Secara singkat format ini diimplementasikan sebagai berikut:
■
Setiap baris data dipisahkan oleh kontrol Enter. aaa,bbb,ccc <Enter> zzz,yyy,xxx <Enter>
4
■
Kontrol Enter di akhir baris data boleh ditiadakan. aaa,bbb,ccc <Enter> zzz,yyy,xxx
■
Baris pertama selalu dikhususkan untuk nama-nama kolom. nama_kolom,nama_kolom,nama_kolom <Enter> aaa,bbb,ccc <Enter> zzz,yyy,xxx
■
Nama kolom dan nilai data dipisahkan oleh tanda koma. Kehadiran spasi tidak boleh diabaikan karena dapat mempengaruhi nama kolom atau nilai data. Nama kolom atau nilai data paling terakhir tidak boleh terdapat tanda koma. aaa,bbb,ccc
■
Tanda kutip boleh diikutsertakan dalam penulisan nama kolom atau nilai data. “nama_kolom”,”nama_kolom”,”nama_kolom” <Enter> “aaa”,”bbb”,”ccc”
■
Nilai data yang mengandung koma atau baris baru wajib diapit oleh tanda kutip. “a,aa”,”b <Enter> bb”,”ccc” <Enter> zzz,yyy,xxx
■
Jika tanda kutip digunakan untuk mengapit nilai data maka tanda kutip yang menjadi bagian nilai data wajib dibubuhi kontrol penanda backslash. “aaa”,”\”bbb\””,”ccc”
2.
Strategi Penyusunan Data
5
Diagram alir di atas memperlihatkan strategi dasar untuk menghasilkan data CSV atas data-data publik milik pemerintah: Data yang berasal dari berkas HTML, PDF dan gambar (misal. JPG, PNG, GIF) akan
■
dilakukan ekstraksi untuk mendapatkan data tabular. Data Excel pada dasarnya berbentuk data tabular. Data tabular tersebut kemudian perlu dipersiapkan untuk memenuhi kriteria format CSV
■
yang valid. Data tersebut kemudian perlu dibersihkan untuk ditingkatkan kualitas dan keabsahan
■
penulisan nilai datanya, Konversi data akan menyajikan data tabular dalam format CSV,
■ ■
Data CSV yang dihasilkan akan diunggah ke situs daring agar dapat diakses oleh semua orang.
3.
Ekstraksi Data
Berikut ini adalah strategi praktis ekstraksi data menurut format asal data:
Data HTML Beberapa metode ekstraksi yang dapat digunakan: i.
Salin-dan-Rekat i.
Persiapkan halaman situs yang berisikan tabel data,
ii.
Pilih semua data yang diinginkan dan salin data-data tersebut,
iii.
Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.
6
ii.
Fungsi importHTML (khusus aplikasi Google Sheet/gSheet) i.
Persiapkan halaman situs yang berisikan tabel data,
ii.
Salin alamat URL situs tersebut,
iii.
Buka aplikasi gSheet,
iv.
Fungsi importHTML membutuhkan input isian ekstraksi sbb:
v.
i.
Alamat URL: Alamat target halaman situs yang mengandung tabel data,
ii.
Jenis Data: Isi selalu jenis “table”,
iii.
Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.
Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data secara otomatis dan menyimpannya di lembar spreadsheet.
Contoh penggunaan di bawah ini akan mengambil data populasi setiap negara yang terdapat di halaman situs Wikipedia.org
Data PDF Beberapa metode ekstraksi yang dapat digunakan: i.
Salin-dan-Rekat i.
Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,
ii.
Salin tabel data yang ingin diekstrak,
iii.
Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.
7
ii.
Program Tabula (http://tabula.nerdpower.org/) i.
Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser. Perhatikan bahwa aplikasi ini dapat berjalan tanpa koneksi Internet (luring) walaupun dijalankan di browser.
ii.
Pilih Choose File untuk menentukan berkas PDF yang ingin diekstrak.
iii.
Tentukan area ekstraksi di halaman PDF. Proses ekstraksi akan secara otomatis berjalan setelah penentuan area ekstraksi tersebut atau melalui tombol Download All Data.
■
Simpan hasil ekstraksi memakai format CSV.
Data Gambar (JPG, PNG, GIF) Data gambar merupakan format yang paling sulit untuk diekstraksi secara otomatis. Ada teknik bernama Optical Character Recognition (OCR) yang dapat mengekstrak teks cetak dalam gambar menjadi teks komputer. Walaupun demikian presisi ekstraksi sangat tergantung dari kualitas teks yang diberikan (misal. tulisan tangan akan lebih sulit dideteksi dan dikenali karakternya).
8
Beberapa layanan OCR gratis dan tersedia di Internet antara lain:
■ ■
Free OCR (http://www.free-ocr.com) New OCR (http://newocr.com)
Pilihan lain yang dapat digunakan untuk mengekstrak data gambar adalah dengan melibatkan komunitas Internet, atau sering diistilahkan crowdsourcing. Salah satu situs penyedia layanan pemanfaatan-massal adalah CrowdCrafting (http://crowdcrafting.org).
4.
Persiapan Data
Sering kali ditemukan bermacam variasi penyusunan data tabular. Namun tidak semua bentuk variasi tersebut memenuhi kriteria format CSV yang valid. Berikut ini adalah beberapa petunjuk praktis untuk mempersiapkan data tabular yang sesuai dengan format CSV:
■
Hilangkan judul tabel Penulisan judul tabel tidak termasuk dalam implementasi format CSV oleh karena itu perlu dihilangkan dari sumber asalnya.
■
Kepala tabel harus termuat dalam satu baris Kepala tabel selalu berada di baris pertama dan terdiri dari satu baris saja. Jika terdapat beberapa kepala tabel maka perlu dilebur jadi satu atau dipisahkan dalam beberapa tabel.
■
Gunakan satu tipe data per kolom
9
Ketidakjelasan tipe data dalam satu kolom dapat menyebabkan data sulit dianalisis secara otomatis. Oleh karena itu data majemuk perlu dipisahkan dalam beberapa kolom, jika diperlukan.
■
Pisahkan data mentah dengan data hasil analisis Data harus disajikan dalam bentuk paling primer (yi. data mentah). Hal ini dikarenakan data mentah dapat dipakai berulang dalam ragam analisis yang berbeda. Data hasil analisis hendaknya disajikan terpisah dari data asli.
■
Pastikan informasi tertangkap lengkap dan unik sebagai baris Aturan praktisnya, setiap baris memiliki informasi unik yang menjelaskan satu obyek atau entitas. Apabila dirasa ada informasi yang hilang maka perlu ditambahkan kolom baru. Apabila lebih dari satu baris terdapat kesamaan informasi (atau tidak unik) maka itu pertanda duplikasi.
■
Lakukan anonimisasi data yang mengandung informasi non-publik Terdapat beberapa teknik yang dapat digunakan untuk melakukan anonimisasi data. Tiga diantaranya adalah menggunakan teknik agregasi, penghapusan secara langsung dan melakukan pengkodean (hashing).
5.
Pembersihan Data
Pembersihan data penting dilakukan untuk meningkatkan kualitas data sebelum data dipublikasikan. Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data menggunakan aplikasi OpenRefine (http://openrefine.org).
■
Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan,
■
Data yang diunggah akan ditampilkan sebagai pra-tayang. Pastikan tabel terbaca secara benar.
10
■
Berikan nama proyek yang sesuai dan pilih Create Project.
■
Proyek yang terbentuk akan menampilkan data yang berhasil diunggah.
Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat diatasi menggunakan aplikasi OpenRefine.
Inkonsistensi Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster.
■
Pilih Edit cells diikuti oleh Cluster and edit... di kolom yang ingin diperiksa.
11
■
Secara otomatis OpenRefine akan mempopulasikan nilai-nilai data yang memiliki kemiripan pengisian. Sebagai contoh dari tampilan di bawah terdapat 3 macam penulisan nama Kelurahan Pal Meriam, antara lain: “Pal Meriam”, “Pal meriam” dan “PAL Meriam”.
■
Selanjutnya pemilik data menentukan isian data yang paling tepat untuk dipakai di setiap kemiripan yang ditemukan.
Duplikasi Data Mendeteksi duplikasi dapat dikerjakan dengan menggunakan fungsi Facet.
■
Pilih Facet diikuti oleh Text Facet di kolom yang ingin diperiksa.
12
■
Secara otomatis OpenRefine akan mempopulasikan semua nilai data di kolom tersebut dan memberikan hasil penghitungan nilai-nilai tersebut. Dengan demikian data duplikat dapat dikenali dengan mudah.
Pencacahan Ulang Data Sering kali ditemui data-data dengan arti yang sama disusun dengan pengisian nama atau label yang berbeda. Hal ini menyebabkan pengelompokan tidak efisien dan pencacahan data tidak maksimal. Mendeteksi pencacahan data yang tidak efisien dapat dikerjakan dengan menggunakan fungsi Facet. Hal ini dikarenakan fungsi ini dapat mempopulasikan semua jenis isian dan dapat diketahui pengisian apa yang tidak efisien.
13
Gambar di atas memperlihatkan beragam pengisian data “korsleting listrik” yang seharusnya dapat lebih efisien pengelompokannya.
Penulisan Tidak Baku Penulisan data yang tidak baku mengacu pada kesalahan penyajian data berdasarkan tipe data yang hendak dipakai. Kesalahan-kesalahan tersebut antara lain:
■
Pemakaian tanda finansial (seperti simbol mata uang dan pemisah desimal) di kolom data angka,
■ ■
Penggunaan nama bulan di kolom tanggal, Penulisan nama alamat yang tidak memenuhi syarat minumum.
Perbaikan penulisan yang tidak baku dapat berlangsung lama karena perlu diproses satu per satu. Akan tetapi untuk perbaikan yang dapat dilakukan secara serentak dapat menggunakan fungsi Transform.
■
Pilih Edit cells diikuti oleh Transform... di kolom yang ingin dibuat perbaikan.
14
■
Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan untuk mengubah isian nilai data secara serentak.
OpenRefine menggunakan standar perintah Google Refine Expression Language, disingkat GREL untuk menuliskan perintah transformasi. Berikut adalah beberapa perintah yang umum dipakai: Nama Perintah
Deskripsi
Contoh Penggunaan
Tulis huruf kecil
Mengubah teks menggunakan huruf kecil semua.
toLowercase(value)
Tulis huruf kapital
Mengubah teks menggunakan huruf kapital semua.
toUppercase(value)
Tulis judul
Mengubah teks menggunakan huruf besar di setiap awal kata
toTitlecase(value)
Bersihkan teks
Membersihkan teks dari spasi berlebih
trim(value)
Hilangkan penanda desimal
Membuat tanda titik dan koma hilang dari teks
replaceChars(value, “.,”, “”)
Hilangkan simbol mata uang Rupiah
Membuat simbol ‘Rp’ hilang dari teks
replace(value, “Rp”, “”)
15
Hilangkan simbol mata uang Dollar
Membuat simbol ‘$’ hilang dari teks
Ubah format tanggal Membuat penulisan tanggal menjadi baku sesuai standar.
replace(value, “$”, “”) toDate(value, “dd/MM/yyyy”).toString(“YYYYMM-dd”)
Untuk manual lengkap perintah-perintah GREL dapat ditemukan di alamat situs https://github.com/OpenRefine/OpenRefine/wiki/GREL-Functions
6.
Konversi Data
Penyusunan data CSV menggunakan aplikasi komputer adalah sangat mudah dan dapat dilakukan secara instan, khususnya apabila data tersebut sudah berbentuk data tabular (misal. data Excel atau Google Sheet).
Data Excel Mengkonversi data Excel (*.xls, *.xlsx) ke CSV sangat mudah dengan menggunakan perintah Save As. Khusus untuk versi Excel 2007 dan ke atas lakukan langkah-langkah sebagai berikut:
■ ■
Pilih tombol Microsoft Office
kemudian pilih Save As,
Di dalam kotak dialog Save As pilih format berkas “CSV (Comma delimited) (*.csv)”.
Data gSheet Mengkonversi data gSheet ke CSV sangat mudah dengan menggunakan perintah Download As.
■ ■
Pilih menu File diikuti Download as, Pilih pilihan Comma-separated values (.csv) dan sesegera data dalam spreadsheet diunduh otomatis dalam bentuk CSV.
16
7.
Publikasi Data
Apa itu Metadata? Metadata diartikan sebagai data mengenai suatu data. Didalamnya terkandung spesifikasi atau penjabaran yang menjelaskan isi konten data yang dipublikasikan. Metadata sangat berguna untuk meyusun daftar koleksi data atau katalog untuk memudahkan pencarian data.
Isian Metadata Berikut ini diberikan daftar nama isian untuk penulisan metadata dataset. Kecuali disebutkan keterangan “opsional”, semua label isian di bawah adalah bersifat wajib dan harus tercantum dalam metadata. Nama Dataset Nama yang diberikan untuk dataset (yi. kumpulan data). Deskripsi Dataset Keterangan yang berisi perihal dan catatan penting mengenai dataset. Tag Satu atau lebih kata kunci yang memberikan petunjuk perihal dataset. Organisasi Nama organisasi yang menerbitkan dataset. Nama Kontak
17
Nama kontak penyedia data yang bertanggung jawab terhadap dataset. Email Kontak Alamat email penyedia data yang bertanggung jawab terhadap dataset. Visibilitas Keterangan tingkat pengaksesan dataset. Frekuensi Penerbitan Keterangan frekuensi penerbitan dataset yang biasa dilakukan oleh penyedia data. Level Penyajian Keterangan derajat perincian dataset yang disusun oleh penyedia data. Tahun Keterangan periode, informasi tahun dari dataset. Informasi kapan dataset tersebut diproduksi atau diperoleh. Cakupan Keterangan nama daerah atau wilayah yang menginformasikan tempat dimana dataset berlaku atau diambil. Nama Sumber Daya Nama yang diberikan untuk berkas. Deskripsi Sumber Daya Keterangan mengenai berkas atau sumber daya. Berkas Nama berkas yang berisikan data. Format Format berkas sesuai label ekstensi berkas. Lisensi Nama lisensi yang mengatur izin pemakaian data. Grup (Opsional) Label klasifikasi yang sesuai dengan tema dataset. Sumber (Opsional) Tautan tambahan yang berisikan lokasi dataset diluar situs portal data. Rujukan (Opsional) Tautan tambahan yang berisikan keterangan lebih detil perihal dataset. Umumnya diberikan apabila penyedia data memiliki informasi tambahan (seperti metadata yang sudah dibuat oleh pemilik data) yang disimpan di situs asalnya.
Aturan Pengisian Pengisian informasi metadata bertujuan untuk memberikan ringkasan berita mengenai dataset yang dipublikasikan. Informasi ini akan banyak dipakai untuk kebutuhan pencarian dataset di dalam sistem. Oleh karena itu penting diperhatikan dalam pemilihan kata kunci dan deskripsi yang singkat dan jelas. Berikut adalah beberapa petunjuk praktis pengisian nama-nama isian metadata:
18
■
Penulisan nama dataset perlu terdapat tema tertentu Beberapa kata kunci yang dapat dijadikan tema antara lain: 1.
perihal data (cth. anggaran belanja, nilai produksi, volume ekspor, tingkat kriminalitas),
2.
obyek utama data (cth. puskesmas, sekolah dasar, universitas negeri, jalan raya, penduduk),
3.
lokasi asal data (cth. Indonesia, DKI Jakarta, Jakarta Barat, Teluk Jakarta),
4.
tingkat penyajian data (cth. rekapitulasi, daftar), dan sebagainya.
Jika dimungkinkan, hindari penggunaan detail periode waktu pada penulisan nama dataset. Informasi ini dapat dialihkan ke tingkat penamaan berkas data. Contoh penulisan nama dataset yang baik: Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta Daftar Sekolah Menengah Atas Negeri Jakarta Selatan Daftar Kasus Kriminalitas Pencurian Jakarta Pusat Tingkat Polusi Udara Gas Berbahaya DKI Jakarta
Hindari penggunaan kata atau frase yang tidak mengandung tema, seperti “Dataset Mengenai ...”, “Data Tentang …”, “Laporan ...”, dan sebagainya.
■
Elaborasi isi dataset secara jelas Gunakan isian deskripsi untuk memaparkan secara jelas dan efisien isi data-data yang terdapat dalam dataset. Cantumkan nama kolom dan penjelasan singkat untuk membantu pengguna mengerti isi data.
■
Gunakan jumlah tag secara hemat Jumlah maksimal yang dianjurkan adalah 4 buah. Gunakan batas maksimal ini sebagai indikator perlunya dataset dipecah menjadi beberapa bagian sub-tema. Pastikan kata kunci yang terdapat di nama dataset terdapat di isian label tag.
■
Selalu berikan rujukan kontak dari penyedia dataset Dianjurkan untuk memberikan alamat email dari institusi yang bertanggung jawab terhadap dataset.
■
Perhatikan lingkup periode setiap kali menerbitkan dataset Isian tahun memberikan informasi interval waktu mengenai data yang diperoleh. Oleh karena itu selalu perhatikan isian ini untuk memastikan keabsahan informasi periode waktu yang disertakan. Contoh penulisan lingkup periode tahun pembuatan:
19
2010 2010 - 2013 Januari 2013 - April 2013
■
Berikan detail waktu di penulisan nama data, jika memungkinkan Penyusunan data selalu mengikuti periode waktu tertentu. Oleh karenanya informasi waktu tersebut perlu disertakan dalam penulisan nama data guna mempermudah pencarian. Contoh penulisan nama dataset (cetak tebal) dan nama sumber daya: Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta APBD 2010 APDB 2011 APDB 2012 APDB 2013 Daftar Kasus Kriminalitas Pencurian Jakarta Pusat Daftar Kasus Januari 2013 Daftar Kasus Februari 2013 Daftar Kasus Maret 2013 Daftar Kasus April 2013
■
Penulisan nama sumber daya mengikuti nama berkas data Untuk memudahkan pemilihan nama berkas data, penulisannya dapat mengikuti nama sumber daya yang diberikan. Contoh penulisan nama dataset (cetak tebal), nama data (kolom pertama) dan nama sumber daya (kolom kedua): Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta APBD 2010 APDB 2011 APDB 2012 APDB 2013
apbd-2010.csv apbd-2010.xlsx apbd-2011.csv apbd-2010.xlsx apbd-2012.csv apbd-2012.xlsx apbd-2013.csv apbd-2013.xlsx
Daftar Kasus Kriminalitas Pencurian Jakarta Pusat
20
Daftar Kasus Januari 2013 daftar-kasus-pencurian-januari-2013.csv Daftar Kasus Februari 2013 daftar-kasus-pencurian-februari-2013.csv Daftar Kasus Maret 2013 daftar-kasus-pencurian-maret-2013.csv Daftar Kasus April 2013 daftar-kasus-pencurian-april-2013.csv
21
Modul Pelatihan Keterampilan Mengolah Data
18 Desember 2014
1
Daftar Isi Daftar Isi Ekstraksi Data Data HTML Data PDF Membersihkan Data Memulai Proyek Inkonsistensi Data Pengelompokan Ulang Data Penulisan Angka Tidak Baku Visualisasi Data Menggunakan Tableau Public Mengenai Tableau Public Membuka Data Lembar Kerja (Worksheet) Menyimpan dan Melihat Hasil Visualisasi
2
1.
Ekstraksi Data
Berikut ini adalah strategi praktis ekstraksi data menurut asal data:
Data HTML Beberapa metode ekstraksi yang dapat digunakan: 1) Salin-dan-Rekat (atau Copy-and-Paste) ○
Persiapkan halaman situs yang berisikan tabel data,
○
Pilih semua data yang diinginkan dan salin data-data tersebut,
○
Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.
2) Fungsi importHTML (khusus aplikasi Google Sheet/gSheet) ○
Persiapkan halaman situs yang berisikan tabel data,
○
Salin alamat URL situs tersebut,
○
Buka aplikasi gSheet,
○
Fungsi importHTML membutuhkan input isian ekstraksi sbb:
○
■
Alamat URL: Alamat target halaman situs yang mengandung tabel data,
■
Jenis Data: Isi selalu jenis table,
■
Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.
Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data secara otomatis dan menyimpannya di lembar spreadsheet.
3
Contoh penggunaan di bawah ini akan mengambil data populasi setiap negara yang terdapat di halaman situs Wikipedia.org
Data PDF Beberapa metode ekstraksi yang dapat digunakan: 1) Salin-dan-Rekat ○
Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,
○
Salin tabel data yang ingin diekstrak,
○
Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.
2) Program Tabula ○
Instalasi terlebih dahulu aplikasi ini ke komputer Anda dengan mengunduhnya di alamat situs http://tabula.nerdpower.org.
○
Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser. Perhatikan bahwa aplikasi ini dapat bekerja tanpa koneksi Internet walaupun dijalankan menggunakan browser.
○
Pilih Choose File untuk menentukan berkas PDF yang ingin diekstrak.
4
○
Tentukan area ekstraksi di halaman PDF. Proses ekstraksi akan secara otomatis berjalan setelah penentuan area ekstraksi tersebut atau melalui tombol Download All Data.
3) Layanan PDFTables ○
Jalankan browser Anda dan pergi ke alamat situs https://pdftables.com/
○
Klik tombol hijau “Select a PDF to convert NOW!” dan pilih dokumen PDF yang ingin diekstrak.
○
Browser akan secara otomatis mengunggah dokumen tersebut ke server layanan dan mengkonversi halaman PDF ke bentuk spreadsheet.
5
2.
Membersihkan Data
Membersihkan data penting dilakukan untuk meningkatkan kualitas data sebelum data digunakan. Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data menggunakan program OpenRefine (http://openrefine.org).
Memulai Proyek Untuk memulai pembersihan data menggunakan OpenRefine, pertama-tama input data perlu dikenali oleh program untuk disimpan: ●
Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan di pilihan Choose Files. Alternatif lain apabila nilai-nilai data pernah terekam dalam operasi salin (atau copy) maka pilih pilihan Clipboard. Pilih Next untuk mulai penyimpanan.
●
Data yang berhasil disimpan akan diperlihatkan dalam tampilan pra-tayang. Pastikan tabel terbaca secara benar oleh program. Gunakan opsi-opsi di bawah tampilan pratayang untuk mendapatkan hasil yang akurat.
●
Berikan nama proyek yang sesuai di isian pojok kanan atas dan pilih Create Project.
6
●
Proyek yang terbentuk akan menampilkan data yang berhasil disimpan dan pengguna dapat memulai menggunakan perintah-perintah pembersihan data.
Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat diselesaikan menggunakan aplikasi OpenRefine.
Inkonsistensi Data Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster. ●
Pilih Edit cells diikuti oleh Cluster and edit... di kolom yang ingin diperiksa.
●
Secara otomatis OpenRefine akan mempopulasikan nilai-nilai data yang memiliki kemiripan pengisian. Sebagai contoh, gambar di bawah memperlihatkan inkonsistensi
7
data pemadam kebakaran DKI Jakarta dimana terdapat 3 macam penulisan nama Kelurahan Pal Meriam, antara lain: “Pal Meriam”, “Pal meriam” dan “PAL Meriam” (lihat kolom Values in Cluster).
●
Pengguna dapat menentukan nilai data yang paling tepat untuk menyelesaikan inkonsistensi tersebut dengan mengisinya di kolom New Cell Value.
●
Lakukan inspeksi secara berulang untuk nilai-nilai data lainnya. Akhiri dengan memilih tombol Merge Selected & Close untuk mengaplikasikan semua perubahan ke dataset.
Pengelompokan Ulang Data Kasus ini sering kali ditemui di dalam dataset yang tidak memiliki standar klasifikasi data. Akibatnya nama-nama pengelompokannya sangat bervariasi dan berjumlah sangat banyak. Variasinya dapat mengandung arti yang sama yang menyebabkan pengelompokan data menjadi tidak efisien dan pencacahan data tidak maksimal.
8
Gambar di atas memperlihatkan variasi pengisian data “korsleting listrik” sebagai penyebab kebakaran. Akibat kurangnya standarisasi, pengisian ini memiliki banyak nama yang membuat pengelompokan data menjadi tidak efisien. Untuk menyelesaikan masalah ini dapat digunakan fungsi Text Facet. Berikut adalah langkahlangkah untuk membuat Text Facet: ●
Pilih Facet diikuti oleh Text Facet di kolom yang ingin diperiksa.
●
Secara otomatis OpenRefine akan mempopulasikan semua variasi nilai data di kolom tersebut berikut jumlah datanya.
●
Untuk menyunting data, pilih edit dan masukkan nilai baru yang dikehendaki.
●
Lakukan inspeksi secara menyeluruh untuk melihat variasi-variasi data lainnya yang sekiranya dapat disatukan.
Penulisan Angka Tidak Baku
9
Sering kali juga ditemui penyajian informasi numerik mengandung pemakaian tanda finansial (seperti simbol mata uang dan pemisah ribuan) dan pemakaian tanda desimal. Untuk memperbaikinya secara serentak di sebuah kolom dapat menggunakan fungsi Transform. ●
Pilih Edit cells diikuti oleh Transform... di kolom yang ingin dibuat perbaikan.
●
Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan untuk mengubah isian nilai data secara serentak.
Berikut adalah beberapa perintah yang umum dipakai untuk membersihkan data numerik: Nama Perintah
Deskripsi
Contoh Penggunaan
Hilangkan penanda ribuan dan desimal
Membuat tanda titik dan koma hilang dari teks
replaceChars(value, “.,”, “”)
Hilangkan simbol mata uang
Membuat simbol ‘Rp’ hilang dari teks
replace(value, “Rp”, “”)
Hilangkan kelompok ribuan
Membuat kata ‘juta’ hilang dari teks
replace(value, “juta”, “”)
10
3.
Visualisasi Data Menggunakan Tableau Public
Mengenai Tableau Public ●
Tableau Public adalah sebuah software gratis untuk visualisasi data di internet.
●
Setiap pengguna Tableau Public diwajibkan mempunyai akun Tableau Public.
●
Semua hasil visualisasi yang dibuat dengan Tableau Public akan dimuat secara publik di internet.
Membuka Data ●
Pilih Jenis data yang akan dibuka. Pilih Text File untuk membuka berkas CSV, lalu pilih
berkas yang akan dibuka.
●
Tableau akan menampilkan tampilan pra-tayang data agar pengguna dapat memeriksanya. Klik tombol Go to Worksheet untuk konfirmasi.
11
Lembar Kerja (Worksheet)
Berikut ini adalah nama-nama panel yang perlu diketahui di dalam aplikasi Tableau Public: ●
●
Data: ○
Menunjukan data yang sedang digunakan
○
Klik nama data untuk melihat penjabaran data.
Dimensions: ○
Menunjukan daftar attribut data yang bersifat qualitatif, umumnya attribut data yang berfungsi sebagai kategori.
○
Klik-kanan pada nama atribut untuk merubah nama, merubah tipe data, dan berbagai macam opsi lainnya.
●
Measures: ○
Menunjukan daftar attribut data yang bersifat quantitatif, umumnya attribut data yang berfungsi sebagai tolak ukur.
●
Columns: ○
●
Rows: ○
●
Menunjukan attribut data terpilih yang di tampilkan sebagai baris.
Filters: ○
●
Menunjukan attribut data terpilih yang di tampilkan sebagai kolom
Menunjukan pilihan attribut yang digunakan untuk menyaring data.
Marks:
12
○
Menunjukan pilihan attribut yang digunakan untuk ditunjukan secara berbeda, baik dalam bentuk, warna, atau ukuran.
●
Show Me: ○
Pilihan bentuk visualisasi yang memungkinkan berdasarkan attribut yang sedang
○
Gunakan tombol CTRL + Klik untuk memilih lebih dari satu attribut
dipilih dari daftar attribut dimension maupun measures.
●
●
Sheet: ○
Lembar kerja untuk membuat sebuah visualisasi.
○
Untuk membuat lembar kerja baru, tekan tombol
Dashboard: ○
Lembar kerja untuk menampilkan beberapa visualisasi.
○
Untuk membuat lembar kerja Dashboard baru, tekan tombol
Menyimpan dan Melihat Hasil Visualisasi ●
Tekan CTRL + S, lalu masukan alamat akun dan kata sandi untuk menyimpan hasil visualisasi.
●
Hasil visualisasi dapat diakses melalui link yang diberikan dibawah kalimat ”Copy and Paste link into your email message”.
●
Hasil visualisasi dapat juga disematkan di dalam website dengan menggunakan kode dibawah kalimat ”Copy and Paste html code to embed the Viz in your website”
13