SEMINAR TUGAS AKHIR PERIODE Juli 2011
PENGEMBANGAN COMPUTER ADAPTIVE TESTING UNTUK MENGUKUR KECEPATAN DAN KETEPATAN PEMAHAMAN TEKS BERBAHASA INGGRIS Yasfin Fajri – Joko Lianto Buliali – Kartika Nuswantara Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember Email :
[email protected] digunakan untuk mengukur kemampuan seseorang dalam membaca secara cepat dan akurat teks berbahasa Inggris.
Kecepatan dan ketepatan dalam memahami suatu bacaan merupakan keahlian yang dapat menunjang proses belajar seseorang bukan hanya dalam bidang Bahasa Inggris melainkan juga pada bidang-bidang lain pada umumnya. Semakin cepat dan akurat seseorang dapat memahami suatu bacaan, maka ia dapat meningkatkan efisiensi waktu dan usaha yang digunakan dalam proses pembelajaran.
2.
Computer Adaptive Testing (CAT) adalah suatu bentuk pemanfaatan computer untuk penyelenggaraan sebuah tes adaptif dimana soalsoal yang disajikan pada pembelajar tes telah dipilih dari bank soal yang ada sedemikian sehingga sesuai dengan tingkat kemampuan pembelajar yang bersangkutan. Pemilihan soal tersebut dilakukan agar tes yang dilaksanakan dapat mengukur dengan tepat kemampuan masing-masing pembelajar tes, secepat mungkin, menggunakan sesedikit mungkin item soal yang tersedia dalam bank soal [1].
Aplikasi yang dibuat ini merupakan sebuah Computer Adaptive Testing yang dapat digunakan sebagai alat bantu pada proses pelatihan membaca secara cepat dan akurat. Menggunakan metode Criterion Reference Test dan Sequential Probability Ratio Test, aplikasi ini dapat mengestimasi tingkat akurasi pengguna dalam memahami bahan bacaan beserta kecepatan yang diperlukannya, lalu mengklasifikasikan pengguna tersebut ke dalam grup-grup kemampuan yang telah tersedia.
Berikut beberapa komponen teknis yang memiliki peranan penting dalam sebuah CAT: a) b) c) d) e)
Memanfaatkan aplikasi ini, pelaksanaan tes dapat dilangsungkan secara fleksibel dengan waktu pelaksanaan yang lebih singkat dan hasil yang lebih akurat dibandingkan dengan metode tes konvensional.
3.
Calibrated Item Pool Starting Point Item Selection Algorithm Scoring Procedure Termination Criterion
KETEPATAN DAN KECEPATAN PEMAHAMAN BACAAN
Kecepatan pemahaman bacaan diukur dalam Words Per Minute (WPM) yang menunjukkan berapa banyak jumlah kata yang dapat dipahami dalam satu satuan waktu [2]. Cara mengukurnya sederhana:
Kata kunci: Membaca Cepat dan Akurat, Computer Adaptive Testing, Criterion Reference Test, Sequential Probability Ratio Test. 1.
COMPUTER ADAPTIVE TESTING
PENDAHULUAN
Membaca cepat dan akurat adalah salah satu keterampilan yang dapat mempengaruhi efisiensi seseorang dalam proses pembelajaran. Berbagai metode dan teknik telah banyak dikembangkan untuk membantu meningkatkan kemampuan seseorang dalam membaca secara cepat dan akurat. Sementara Computer Adaptive Testing adalah salah satu computer-based test framework yang memiliki kemampuan dalam menyesuaikan item soal yang diberikan dengan kemampuan peserta tes. Dalam paper ini akan dijelaskan bagaimana pengembangan sebuah CAT yang khusus
∑
60
(1)
Dimana:
Speed = Kecepatan pemahaman (wpm) Word = Kata dalam bacaan t = waktu yang dibutuhan (sekon)
Sementara ketepatan dapat diukur dengan melakukan evaluasi terhadap hasil yang diperoleh dalam mengerjakan soal-sooal terkait bahan bacaaan tersebut.
1
Yasfin Fajri - 5105100074
SEMINAR TUGAS AKHIR PERIODE Juli 2011 4.
bersangkutan memiliki tingkat kesulitan yang tinggi, sementara nilai IF yang mendekati satu menunjukkan bahwa item yang bersangkutan terlampau mudah, dan secara umum dapat dikerjakan oleh semua peserta tes, baik peserta dengan status mastery maupun non-mastery.
CRITERION REFERENCED TEST
Criterion Referenced Test (CRT) adalah tes yang digunakan untuk mengklasifikasikan seseorang ke dalam beberapa dua atau lebih katagori berdasarkan hasil yang didapatnya dalam tes yang telah ia kerjakan. Kebanyakan tes atau ujian tradisional yang diselenggarakan di berbagai lembaga pendidikan dapat dikatagorikan sebagai CRT dengan ciri khas adanya batas nilai (cut-score) yang menentukan kelulusan pembelajar ujian [3]. Dalam CRT score yang didapatkan seseorang dalam sebuah tes dihitung dengan: ∑
∑
B-Index B-Index menggambarkan seberapa baik sebuah item dalam membedakan peserta tes. Nilainya adalah pengurangan antara IF untuk peserta dengan status mastery (peserta dengan tingkat kemampuan sama atau lebih tinggi dari tingkat kesulitan soal) dan IF untuk peserta dengan status non-mastery (peserta dengan tingkat kemampuan kurang dari tingkat kesulitan soal).
(2)
Dimana:
Score = nilai yang didapatkan n = item yang dijawab dengan benar m = item yang ada dalam set soal
(5)
∑
(6)
m-passed = peserta dengan status mastery yang berhasil mengerjakan dengan benar item tersebut m = peserta dengan status mastery n-passed = peserta dengan status nonmastery yang berhasil mengerjakan dengan benar item tersebut n = peserta dengan status non-mastery B-Index dengan nilai mendekati nol menunjukkan bahwa item yang bersangkutan tidak dapat digunakan untuk membedakan peserta tes yang mastery maupun non-mastery.
Item Facility Dalam CRT, Item Facility (IF) digunakan dalam analisis item soal sebagai petunjuk tentang tingkat kesulitan soal secara umum. Nilai IF untuk suatu item didapat dari proporsi peserta tes yang berhasil mengerjakan item tersebut dengan benar. ∑
∑
Dimana:
Cut-Score Cut-score adalah nilai batas yang ditentukan oleh penyelenggara tes sebagai acuan untuk menterjemahkan hasil yang didapatkan oleh peserta tes menjadi sebuah pernyataan tentang kedudukan peserta tersebut dalam kriteria yang diujikan. Dengan kata lain, cut-score adalah standar untuk mengklasifikasikan peserta tes berdasarkan hasil yang diperolehnya. Tergantung dari tujuan diadakannya, sebuah tes bisa memiliki lebih dari satu cut-score.
∑
(4)
∑
Beberapa karakteristik yang sering digunakan dalam model CRT adalah Cut-Score, Item Facility, dan B-Index.
∑
5.
SEQUENTIAL PROBABILITY RATIO TEST
Sequential Probability Ratio Test (SPRT) adalah salah satu model yang dapat digunakan dalam CAT. Dibandingkan dengan model lain semisal IRT (Item Response Theory), SPRT memiliki keunggulan dalam hal kemudahan implementasinya [4]. Dalam implementasinya, mula-mula soal dipilih secara acak, kemudian dari respon yang diberikan oleh pembelajar tes dihitunglah rasio probabilitas pembelajar menjawab soal dengan benar. Berikut persamaan yang umum digunakan dalam SPRT [5]:
(3)
Dimana: IF = Item Facility p-passed = peserta tes yang berhasil mengerjakan dengan benar p = peserta tes Nilai IF yang kecil, mendekati nol, menunjukkan bahwa secara umum item yang
2
(2.7)
Yasfin Fajri - 5105100074
SEMINAR TUGAS AKHIR PERIODE Juli 2011
(2.8) (2.9)
Dimana:
LBM = Lower Bound Mastery UBN = Upper Bound Non Mastery PR = Probability Ratio Pm = Probabilitas peserta dengan status mastery menjawab item dengan benar. Pnm = Probabilitas peserta dengan status non-mastery menjawab item dengan benar. s = jumlah item yang dijawab dengan benar. f = jumlah item yang dijawab dengan salah. α = Tipe I error, diklasifikasikan mastery meski pada kenyataannya nonmastery. β = Tipe II error, diklasifikasikan nonmastery meski pada kenyataannya mastery.
Gambar 6.1 Hubungan antar modul Seperti yang terlihat pada Gambar 6.1, Modul Uji merupakan modul yang digunakan untuk melakukan pengukuran tingkat kemampuan membaca cepat dan akurat, sementara Modul Manajemen Soal memungkinkan pengembang soal menambah dan mengubah data set soal yang ada di dalam database. Modul Uji menampilkan data set soal yang ada di dalam bank soal kemudian menyimpan hasil uji dari pembelajar ke dalam database. Selain sebagai bahan masukan dan informasi bagi pembelajar tersebut, data hasil uji tersebut juga dapat digunakan oleh pengembang soal sebagai bahan pertimbangan dalam penyusunan bank soal yang ideal. Pengguna modul uji adalah pembelajar yang ingin atau perlu mengetahui tingkat kemampuannya dalam membaca secara cepat dan akurat, sementara pengguna modul manajemen adalah instruktur atau pengembang bank soal yang ingin menyusun sebuah bank soal yang ideal.
Jika nilai PR lebih besar daripada LBM, maka pembelajar tersebut dapat dianggap berhasil menyelesaikan atau menguasai tingkat kesulitan yang baru saja ia kerjakan. Tes kemudian dihentikan atau dilanjutkan ke tingkat kesulitan berikutnya. Jika nilai PR berada diantara LBM dan UBN, maka pembelajar belum dapat dianggap berhasil menguasai tingkat kesulitan tersebut dan akan mendapatkan soal lain dengan tingkat kesulitan yang setara. Sementara jika nilai PR lebih rendah daripada UBN, maka pembelajar yang bersangkutan dinyatakan tidak menguasai tingkat kesulitan tersebut. Tes kemudian dihentikan atau dilanjutkan ke tingkat kesulitan yang lebih rendah. 6.
Tabel 6.1 Hubungan antar modul Modul Uji Modul Manajemen Soal Digunakan oleh Digunakan oleh Pembelajar Instruktur/Pengembang Soal Melakukan uji Entri/Edit Bank soal menggunakan data yang ada dalam Bank Soal Data Uji disimpan Mendapatkan Feedback untuk evaluasi dari data uji
PERANCANGAN
Aplikasi yang dikembangkan ini adalah sebuah aplikasi CAT yang memungkinkan diselenggarakannya sebuah tes pengukuran kemampuan membaca secara cepat dan akurat teks berbahasa Inggris. Aplikasi ini bersifat desktop-based dimana masing-masing instalasi akan memiliki database soal sendiri sehingga dapat digunakan tanpa koneksi internet. Sebagai gantinya proses updating database soal tak dapat dilakukan secara realtime dan diperlukan tahap uji coba serta pengumpulan data tersendiri sebelum akhirnya sebuah database soal siap digunakan. Aplikasi ini sendiri terdiri dari dua modul utama yang dapat digambarkan sebagai berikut:
Modul Uji Proses-proses utama yang ada di dalam modul uji di antaranya adalah: Proses Seleksi Set Soal Proses Evaluasi Ketepatan Pemahaman Proses Evaluasi Kecepatan Pemahaman Proses Pengecekan Stopping Condition Klasifikasi Hasil Uji Proses Seleksi Set Soal Dalam CAT tiap set soal yang diberikan kepada pembelajar, diseleksi oleh aplikasi sehingga sesuai dengan tingkat kemampuan pembelajar tersebut. Gambar 6.2 menunjukkan 3
Yasfin Fajri - 5105100074
SEMINAR TUGAS AKHIR PERIODE Juli 2011 flowchart yang menggambarkan proses seleksi set soal pada aplikasi ini.
Gambar 6.2 Flowchart seleksi set soal
Proses Evaluasi Ketepatan Pemahaman Pada proses ini diukur pemahaman pengguna pada teks yang baru saja ia baca, dilihat dari kemampuannya menjawab soal-soal yang berkaitan dengan teks tersebut. Ada dua model yang digunakan dalam aplikasi untuk mengukur pemahaman pengguna. Pada model CRT, perhitungan nilai/score pengguna dilakukan secara klasik. Dengan asumsi tiap item soal memiliki bobot yang sama, score pengguna dihitung dari prosentase jawaban yang betul dari jumlah seluruh item soal dalam set. Aplikasi kemudian membandingkan score yang didapatkan pengguna dengan nilai cut-score set soal yang bersangkutan apabila tersedia. Jika tidak, maka cut-score yang digunakan adalah 55 untuk batas bawah, dan 80 untuk batas atas. Pada model SPRT, yang digunakan sebagai ukuran pemahaman pengguna untuk teks dengan tingkat kesulitan tertentu adalah besarnya nilai PR (Probabiliy Ratio). Berbeda dengan model CRT, besarnya nilai PR bersifat multiplikatif, sehingga nilai PR yang didapatkan seseorang setelah mengerjakan suatu set soal, adalah nilai PR dari set soal tersebut, dikalikan dengan nilai PR yang didapatnya dari set sebelumnya. Nilai PR baru direset kembali setelah pengguna yang bersangkutan mendapatkan nilai PR yang lebih besar dari LBM (Lower Bound Mastery) atau lebih kecil dari UBN (Upper Bound Non Mastery) yang telah ditentukan. Gambar 6.3 adalah flowchart yang menggambarkan proses pada evaluasi ketepatan pemahaman.
Gambar 6.3 Flowchart evaluasi ketepatan pemahaman Proses Evaluasi Kecepatan Pemahaman Pada proses ini, setelah mendapatkan nilai komprehensi pengguna terhadap teks dengan tingkat kesulitan tertentu, maka dengan memasukkan parameter kecepatan membaca pengguna, akan ditentukan tingkat kemampuan pengguna tersebut. Secara singkat hubungan antara kecepatan pembaca dan tingkat pemahaman dapat digambarkan sebagai berikut: Tabel 6.2 Hubungan Kecepatan dan Ketepatan Pemahaman Reading Speed Slow ( < 90 wpm)
Average (90-200 wpm)
Fast ( > 200 wpm)
4
Comprehension
Mastery?
Poor
No
Next Level Down
Fairly Good Good Poor
No Undecided No
Down Same Down
Fairly Good Good Poor
Undecided Yes No
Same Up Down
Fairly Good Good
Yes Yes
Up Up
Yasfin Fajri - 5105100074
SEMINAR TUGAS AKHIR PERIODE Juli 2011 Proses Pengecekan Stopping Condition Dalam aplikasi ini, yang menjadi stopping condition adalah:
Tabel 6.3 Katagori Pembelajar Kecepatan Baca Lambat ( < 90 wpm)
Apabila pengguna berhasil menyelesaikan tingkat kesulitan maksimum yang tersedia. Apabila pengguna gagal menyelesaikan tingkat kesulitan minimum yang tersedia. Apabila hasil pengukuran kemampuan pengguna tidak mengalami perubahan setelah menyelesaikan dua set soal. Apabila jumlah set soal yang telah dikerjakan telah mencapai batas maksimum yang telah ditentukan.
Cukup (90-200 wpm)
Gambar 6.4 adalah flowchart yang menggambarkan pengecakan stopping condition dalam modul uji aplikasi ini. Baik ( > 200 wpm)
Komprehensi
Katagori
Kurang
Poor slow reader
Cukup
Fairly good slow reader
Baik
Good slow reader
Kurang
Poor average speed reader
Cukup
Fairly good average speed reader
Baik
Good average speed reader
Kurang
Poor fast reader
Cukup
Fairly good fast reader Good fast reader
Baik
Modul Manajemen Modul manajemen digunakan oleh instruktur atau pengembang bank soal untuk menambah atau mengubah data set soal yang ada di dalamnya, serta melakukan monitoring terhadap hasil data uji set-set tersebut.Ada dua proses utama dalam modul manajemen. Yang pertama adalah menambah atau mengubah data set soal di dalam aplikasi. Pengguna dipersilakan mengisi data set soal ke dalam form yang tersedia. Apabila aplikasi tidak menemukan kesalahan dalam proses pengisian form, maka penambahan atau perubahan pada set soal tersebut akan disimpan ke dalam database Sementara pada proses monitoring, untuk set soal yang telah dipilih, apabila jumlah data uji telah mencukupi, akan dilakukan perhitungan: Item Facilty B-Index PM dan PNM Cut Score Data-data tersebut dapat digunakan oleh pengembang soal untuk menyusun atau memperbaiki set soal yang ada di dalam Bank Soal.
Gambar 6.4 Flowchart Stopping Condition Klasifikasi hasil Uji Setelah sesi berakhir, berdasarkan hasil yang didapatkan, seorang pembelajar dapat dikatagorikan ke dalam beberapa kelompok. Tabel 6.3 menjelaskan katagori pembelajar berdasarkan tingkat akurasi dan kecepatan membacanya. Hasil tersebut kemudian disimpan dan digunakan kembali sebagai parameter pada pelaksanaan tes berikutnya.
7.
IMPLEMENTASI DAN UJI COBA
Perangkat lunak yang di gunakan dalam pengembangan aplikasi ini adalah : Sistem Operasi berupa Windows 7 version 6.1.
5
Yasfin Fajri - 5105100074
SEMINAR TUGAS AKHIR PERIODE Juli 2011
Sybase Power Designer 15 digunakan untuk merancang desain dari basis data, berupa CDM dan PDM serta DDl yang digunakan untuk membuat Tabel pada database. Microsoft visio 2003 digunakan untuk membuat rancangan antar muka dan diagram aktivitas. SQLite sebagai database perangkat lunak. SQLite Expert Personal 3.2.5.2105 digunakan untuk membuat dan mendesain file database SQLite. NetBeans IDE 6.9 sebagai editor bahasa pemrograman JAVA.
Tabel 7.3 Skenario Level Maksimum CRT No
Score
Mastery
1
3
585.13
20
No
2
2
576.92
36.66
No
3
1
221.26
40
No
Mastery
1
3
289.47
90
Yes
2
4
274.92
80
Yes
3
5
268.26
60
Yes
No
Level
Reading Speed (Words Per Minute)
1
3
174.81
42.39
Yes
2
4
153.41
42.39
Yes
3
5
141.26
42.39
Yes
8.
Reading Speed (Words Per Minute)
Probability Ratio
Mastery
1
3
223.28
1.209
Undecided
2
3
158.73
0.0105
No
3
2
92.249
0.012
No
4
1
13355.74
0.003
No
KESIMPULAN DAN SARAN
Dari hasil pengamatan selama perancangan dan implementasi aplikasi yang telah dilakukan, dapat diambil simpulan sebagai berikut : a.
b.
Tabel 7.2 Skenario Level Minimum SPRT Level
Mastery
Pada modul manajemen uji coba dilakukan dengan mengecek apakah dengan data yang tersedia sistem dapat menghitung besarnya nilai IF, B-Index, PM dan PNM, serta Cut Score yang disarankan untuk pengembangan soal.
Sesi Berakhir
No
Probability Ratio
Sesi Berakhir
Tabel 7.1 Skenario Level Minimum CRT Reading Speed (Words Per Minute)
Score
Tabel 7.4 Skenario Level Maksmimum SPRT
Uji Coba Pada tahap uji coba, dilakukan pengetesan terhadap fungsionalitas modul-modul yang telah dibuat. Tabel 7.1 dan 7.2 adalah contoh skenario pada pelaksanaan tes dimana sesi dihentikan ketika pengguna telah mencapai level minimum yang tersedia. Sementara Tabel 7.3 dan 7.4 adalah contoh skenario dimana sesi dihentikan ketika pengguna telah mencapai level maksimum yang tersedia.
Level
Reading Speed (Words Per Minute)
Sesi Berakhir
Sementara spesifikasi perangkat keras yang digunakan untuk mengimplementasikan sistem ini adalah: Komputer dengan spesifikasi processor Intel Pentium Core i3-370M @2.4GHz dengan RAM sebesar 2 GB.
No
Level
c.
d. e.
Sesi Berakhir
6
Penggunaan framework CAT sebagai alat uji menggantikan metode pen and paper dapat mempersingkat waktu pelaksanaan tes, karena dengan CAT, estimasi terhadap kemampuan seseorang mungkin dilakukan tanpa orang yang bersangkutan harus menyelesaikan jumlah maksimum set soal yang telah di-setting. Penyelenggaraan tes menggunakan aplikasi CAT dapat lebih mudah dilakukan, karena administrasi soal, pencatatan waktu, dan penilaian dapat dilakukan secara otomatis. Dalam CAT, hasil yang didapatkan oleh seorang pembelajar disimpan dan digunakan kembali sebagai parameter yang menentukan bagaimana pelaksanaan tes kali berikutnya. CAT dapat digunakan untuk mengukur secara akurat kemampuan pengguna dalam berbagai level dengan mudah. Pengembangan Bank Soal dapat dilakukan dengan lebih mudah, karena adanya sistem feedback yang dapat memberikan masukan pada pengembang tentang karakteristik set soal yang telah dibuat. Yasfin Fajri - 5105100074
SEMINAR TUGAS AKHIR PERIODE Juli 2011 Saran-saran untuk pengembangan tugas akhir ini lebih lanjut adalah sebagai berikut: a. Diperlukan suatu uji coba untuk mengetahui dengan tepat seberapa baik aplikasi dapat memperkirakan kemampuan seseorang dibanding dengan metode pen and paper yang konvensional. b. Diperlukan penelitian lebih lanjut tentang kemungkinan penggunaan model CAT lain, seperti IRT (Item Response Theory), CAST (Computer Adaptive Sequential Test), dan MST (Multi Stage Test). c. Dapat ditambahkan sistem agar aplikasi dapat langsung memberikan evaluasi dan masukan kepada pembelajar terkait hasil yang ia dapat dalam pelaksanaan ujian. d. Diperlukan perbaikan pada Content and Exposure Control Procedure dengan penerapan algoritma-algoritma yang lebih baik pada proses seleksi set soal semisal Item Exposure Control Procedure dan Sympson-Hetter Procedure. 9.
DAFTAR PUSTAKA [1] Thompson, Nathan A. A Framework for the Development of Computerized Adaptive Test, Practical Assessment, Research & Evaluation (2011) [2] Chang, Anna C-S The effect of a timed reading activity on EFL learners: Speed, comprehension, and perceptions Reading in a Foreign Language, Volume 22, No.2 (2010) 284-303. [3] Brown, James Dean Criterion-referenced item analysis, The JALT Testing & Evaluation SIG Newsletter (2003) 18-24 [4] Hui Tao,Yu A Practical Computer Adaptive Testing Model for Small Scale Scenario Educational Technology & Society, 11 (2008) 259-274. [5] Mitchell, Tom M. Machine Learning. McGraw-Hill (1997) [6] Gosling, James The Java Language Specification. Addison-Wesley (2005) [7] Kreibich, Jay A. Using SQLite (1st ed.). O'Reilly Media (2010) [8] Jordan, R.R English For Academic Purpose, Cambridge University Press (1997) [9] Rudner, Lawrence M. Measuring Decision Theory (2001)
7
Yasfin Fajri - 5105100074