1
PENDAHULUAN
TINJAUAN PUSTAKA
Latar Belakang Dalam bidang pendidikan, kegiatan penilaian atau evaluasi hasil belajar peserta didik merupakan salah satu tugas penting yang harus dilakukan oleh pendidik. Evaluasi hasil belajar peserta didik dilakukan untuk mengetahui kemajuan peserta didik terhadap kurikulum yang telah diajarkan. Salah satu upaya evaluasi hasil belajar peserta didik adalah memberikan ujian pada tengah semester dan akhir semester. Namun, terkadang pemberian soal yang terlalu susah atau terlalu mudah menyebabkan pendidik sulit membedakan kemampuan peserta didik. Oleh karena itu, diperlukan analisis terhadap soal ujian dengan harapan hasil ujian merepresentasikan kemampuan peserta didik. Banyak metode yang dikembangkan dalam bidang psikometrika yang digunakan untuk menganalisis butir soal dari pendekatan secara klasik hingga modern. Pendekatan secara klasik yang digunakan adalah teori uji klasik (classical test theory) sedangkan pendekatan modern dengan item response theory (IRT) atau teori respon butir. Teori uji klasik merupakan suatu teori yang mudah dalam penerapannya namun memiliki banyak kelemahan. Oleh karena itu, banyak peneliti mencoba mengembangkan metode modern. Aspek yang diperhatikan dalam teori uji klasik adalah setiap butir soal ditelaah menurut (1) tingkat kesukaran butir; (2) daya pembeda butir; (3) penyebaran pilihan jawaban, dan (4) reliabilitas skor tes (Safari, 2000). Teori respon butir merupakan teori pengukuran modern yang biasanya digunakan dalam analisis butir soal. Dalam teori ini digunakan model matematis untuk menghubungkan karakteristik butir soal dengan kemampuan responden. Hubungan tersebut digambarkan melalui kurva karakteristik butir.
Teori Uji Klasik Teori uji klasik merupakan satu dari masalah yang disampaikan oleh ahli psikologi Belanda Charles Spearman dengan konsep korelasi (Crocker & Algina, 1986). Beberapa aspek yang diperhatikan dalam teori uji klasik yaitu tingkat kesukaran butir, daya pembeda butir, penyebaran pilihan jawaban, dan reliabilitas skor tes (Safari, 2000). a. Tingkat Kesukaran Butir (p) Tingkat kesukaran soal adalah peluang untuk menjawab benar suatu soal pada tingkat kemampuan tertentu yang biasanya dinyatakan dalam bentuk indeks. Indeks tingkat kesukaran ini pada umumnya dinyatakan dalam bentuk proporsi yang besarnya berkisar 0,00 – 1,00. Perhitungan indeks tingkat kesukaran ini dilakukan untuk setiap nomor soal. Rumus di bawah ini dipergunakan untuk soal pilihan ganda (Nitko, 1996).
Tujuan Tujuan yang ingin dicapai dalam penelitian ini adalah : 1. Menerapkan teori uji klasik dan teori respon butir untuk memeriksa butir soal pada soal Ujian Akhir Semester Tingkat Persiapan Bersama Institut Pertanian Bogor (UAS TPB IPB) mata kuliah Fisika tahun ajaran 2008/2009. 2. Mencari model yang sesuai untuk menggambarkan butir-butir soal pada soal UAS TPB IPB untuk mata kuliah Fisika.
p=
Jumlah peserta yang menjawab benar Jumlah seluruh peserta tes
Semakin besar nilai p yaitu semakin besar proporsi peserta tes dalam menjawab benar, maka soal tersebut dianggap mudah. Semakin kecil nilai p maka soal tersebut dianggap sukar. Pada teori uji klasik, tingkat kesukaran butir soal bergantung kepada kemampuan peserta ujian. Bagi peserta ujian yang berkemampuan tinggi, butir soal menjadi mudah. Bagi peserta ujian yang berkemampuan rendah, butir soal menjadi sukar. Pada butir soal yang mudah, tampak kemampuan peserta ujian menjadi tinggi. Sedangkan pada butir soal yang sukar, maka kemampuan peserta ujian menjadi rendah. Oleh karena itu, tingkat kesukaran butir soal tidak sepenuhnya menggambarkan ukuran karakteristik butir soal sesungguhnya, akan tetapi lebih merupakan kemampuan rata-rata kelompok peserta ujian. Klasifikasi tingkat kesukaran soal dalam Nitko (1996) adalah: Jika nilai p di antara 0,00 – 0,30 soal tergolong sukar, Jika nilai p di antara 0,31 – 0,70 soal tergolong sedang, dan Jika nilai p di antara nilai 0,71 – 1,00 soal tergolong mudah.
2
b. Daya Pembeda (DP) Daya pembeda soal adalah nilai indeks yang menunjukkan kemampuan butir soal untuk membedakan kelompok peserta ujian yang berkemampuan tinggi dan berkemampuan rendah. Daya pembeda suatu butir soal ini didasarkan pada hasil tes suatu kelompok sehingga daya pembeda tersebut belum tentu berlaku pada kelompok yang lain. Indeks daya pembeda berkisar antara -1,00 sampai dengan 1,00. Semakin tinggi nilai daya pembeda soal, maka semakin baik soal tersebut. Daya pembeda soal untuk bentuk pilihan ganda dapat dihitung dengan rumus sebagai berikut : 2 ( BA BB ) DP N Keterangan : DP = daya pembeda soal, BA = jumlah jawaban benar pada kelompok atas BB = jumlah jawaban benar pada kelompok bawah N = jumlah siswa yang mengerjakan tes. Dalam Crocker & Algina (1986), daya pembeda soal diklasifikasikan sebagai berikut : Jika DP ≥ 0,4 maka butir soal baik/diterima, Jika 0,3 ≤ DP < 0,4 maka butir soal cukup baik, Jika 0,2 ≤ DP < 0,3 maka butir soal perlu diperbaiki, dan Jika DP < 0,2 maka soal ditolak. Pembagian kelompok diambil 25% dari urutan nilai terbaik sebagai kelompok atas dan 25% dari nilai terendah sebagai kelompok bawah. Hal ini terdapat dalam Anastasi & Urbina (1997) yang menyatakan bahwa secara umum persentase yang tepat antara 25%-33%. Selain rumus di atas, untuk mengetahui daya pembeda soal bentuk pilihan ganda dapat digunakan rumus korelasi point biserial (r pb) (Crocker & Algina, 1986). Semakin tinggi nilai korelasi point biserial maka semakin baik soal tersebut.
p r pb q Keterangan : rpb = koefisien point biserial, µ+ = rata-rata skor peserta ujian yang menjawab benar, µ = rata-rata skor peserta ujian,
σ p
= simpangan baku skor total, = proporsi jawaban benar terhadap semua jawaban siswa, q = proporsi jawaban salah terhadap semua jawaban siswa. c. Penyebaran Pilihan Jawaban Penyebaran pilihan jawaban dijadikan dasar dalam penelaahan soal. Hal ini dimaksudkan untuk mengetahui berfungsi tidaknya jawaban yang tersedia. Safari (2000) menyatakan bahwa suatu pilihan jawaban (pengecoh) dapat dikatakan berfungsi apabila : 1. Paling tidak dipilih oleh 5% peserta ujian, dan 2. Lebih banyak dipilih oleh kelompok siswa yang belum paham materi. d. Reliabilitas Skor Tes Tujuan utama menghitung reliabilitas skor tes adalah untuk mengetahui tingkat ketepatan (precision) dan kekonsistenan skor tes. Indeks reliabilitas berkisar antara 0-1. Semakin tinggi koefisien reliabilitas suatu tes (mendekati 1), makin tinggi pula ketepatannya. Reliabilitas dapat dihitung dengan koefisien alfa, dalam Crocker & Algina (1986) didefinisikan sebagai berikut : n n i 1 i2 1 n 1 x2 Keterangan : n = jumlah butir soal, i2 = ragam skor per butir soal, x2 = ragam skor total. Teori Respon Butir Teori respon butir merupakan teori pengukuran modern yang biasanya digunakan dalam analisis butir soal. Nama lain teori respon butir adalah latent trait theory (LTT) atau characteristics curve theory (CCT). Pengembangan teori respon butir didasarkan kepada dua postulat. Postulat pertama adalah bahwa kemampuan subyek (examinee) pada suatu butir dapat diprediksi oleh seperangkat faktor yang disebut traits, latent traits atau abilities. Trait adalah dimensi kemampuan seseorang seperti kemampuan verbal, kemampuan psikomotor, kemampuan kognitif, dan sebagainya. Postulat kedua adalah bahwa hubungan antara kemampuan peserta tes pada suatu butir dan perangkat kemampuan laten yang mendasarinya dapat digambarkan melalui item kurva karakteristik butir atau
3
characteristics curve (ICC) (Hambleton et al., 1991). Model-model karakteristik butir tergantung pada bentuk matematis fungsi karakteristik butirnya dan banyaknya parameter yang dilibatkan dalam model yang digunakan. Hal ini dikarenakan tidak semua model IRT cocok untuk perangkat data tes yang lain. Beberapa asumsi model teori respon butir dalam Hambleton et al. (1991) adalah sebagai berikut: 1. Asumsi pertama adalah satu dimensi (unidimensional). Asumsi ini sangat sulit dipenuhi dikarenakan banyaknya faktorfaktor yang mempengaruhi tes seperti kognitif, kepribadian, dan administrasi tes. Namun yang paling penting dari asumsi ini adalah adanya satu komponen yang dianggap dominan dalam menentukan kemampuan subyek. Menurut Hutten (1980) dalam Hattie (1985) bahwa unidimensional dapat diperiksa dengan akar ciri dalam analisis faktor. Asumsi unidimensional dapat dilihat dengan menghitung rasio antara akar ciri yang pertama dan kedua. Jika rasionya tinggi, maka model bersifat unidimensional. 2. Asumsi kedua dikenal dengan kebebasan lokal (local independence). Asumsi ini maksudnya adalah respon peserta tes terhadap suatu butir tidak berhubungan dengan butir lainnya dalam tes tersebut. Model Teori Respon Butir Model ogive normal pada awalnya adalah model yang paling dominan digunakan dalam pengembangan teori respon butir. Namun model tersebut saat ini sudah jarang digunakan dan digantikan dengan modelmodel logistik. Model logistik lebih sering digunakan karena prosedur komputasinya lebih mudah dan sederhana dibandingkan model ogive normal. Ada tiga model logistik yang sering digunakan saat ini (Hambleton et al., 1991) yaitu : 1. Model logistik satu parameter (model rasch) atau item response theory 1parameter logistic (IRT 1PL) yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran. Kurva karakteristik butir soal untuk model satu parameter diberikan oleh persamaan : e ( bi ) P i ( ) 1 e ( b i )
2. Model logistik dua parameter atau item response theory 2-parameter logistic (IRT 2PL) yaitu untuk menganalisis data yang hanya menitikberatkan pada parameter tingkat kesukaran dan daya pembeda soal. Kurva karakteristik butir soal untuk model dua parameter diberikan oleh persamaan :
Pi ( )
e Da i ( b i ) 1 e Da i ( b i )
3. Model logistik tiga parameter atau item response theory 3-parameter logistic (IRT 3PL) yaitu untuk menganalisis data yang menitikberatkan pada parameter tingkat kesukaran soal, daya pembeda soal, dan peluang menebak (guessing). Kurva karakteristik butir soal untuk model tiga parameter diberikan oleh persamaan : P i ( ) c i (1 c i )
e Da i ( b i ) 1 e Da i ( b i )
Keterangan : Pi(θ) = peluang bahwa peserta tes dengan kemampuan menjawab butir soal ke-i dengan benar, ai = parameter daya pembeda soal butir ke-i, = parameter tingkat kesukaran, yaitu bi satu titik pada skala ability dimana kemungkinan untuk menjawab benar sebesar 0,5. = peluang tebakan benar butir ke-i. ci θ = parameter kemampuan peserta tes, D = faktor penskalaan yang diikutkan untuk menjadikan fungsi logistik serupa mungkin dengan fungsi ogive normal (D = 1,702). Pendugaan Parameter Langkah pertama dan paling penting dalam aplikasi teori respon butir adalah pendugaan parameter, baik parameter kemampuan peserta uji maupun parameter karakteristik butir (Hambleton et al., 1991). Ada beberapa metode yang digunakan untuk menduga parameter pada model teori respon butir. Salah satu metode yang digunakan adalah metode kemungkinan maksimum (maximum likelihood estimation, MLE). Prinsip dasar dari metode MLE dalam Hogg et al. (1978) adalah jika terdapat contoh acak X1, X2, ..., Xn dari sebuah sebaran yang memiliki suatu fungsi kepekatan peluang f(x;Θ), ΘΩ. Fungsi kepekatan peluang bersama dari X1, X2, ..., Xn adalah f(x1;Θ), f(x2;Θ), ..., f(xn;Θ). Fungsi kepekatan peluang bersama ini dipandang sebagai fungsi dari Θ. Dengan definisi yang telah dijelaskan maka
4
fungsi nisbah kemungkinan (L) ( dapat dinotasikan sebagai berikut : L(Θ;x1, x2, ..., xn )=f(x1;Θ), ), f(x2;Θ), ..., f(xn;Θ) Hambleton et al. (1991) mendefinisikan fungsi likelihood untuk model teori respon butir adalah sebagai berikut : N
n
L ( x1 , x 2 ,..., x n | ) Pij ij Q ij x
1 xij
j 1 i 1
l ( X | ) ln L ( x1 , x 2 ,..., x n | ) N n x 1 x l ( X | ) ln Pij ij Q ij ij j 1 i 1
l ( X | ) x ij ln Pij (1 x ij ) ln Qij N
n
j 1 i 1
dengan
l 0 , Θ=(θ;a,b,c)
Dimana a, b, dan c adalah parameter butir soal, dan n θ adalah parameter kemampuan. (model model ini diasumsikan model IRT 3PL). Kurva Karakteristik Butir Kurva karakteristik butir dalam Hambleton et al. (1991) adalah suatu hubungan matematis yang berkaitan dengan peluang berhasil (misalnya, memberikan respon yang benar) pada butir soal yang diukur dengan melihat kemampuan ujian dan karakteristik butir soal. Semakin tinggi kemampuan seseorang, maka peluang untuk menjawab sebuah butir soal dengan benar akan semakin meningkat (Crocker & Algina, 1986).
Gambar 1 merupakan ilustrasi kurva karakteristik butir yang diambil dalam Embretson & Reise (2000) terdiri atas tiga butir soal. Soal nomor 1 dan nomor 2 memiliki liki tingkat kesukaran yang sama sebesar -11 tetapi memiliki nilai daya pembeda yang berbeda. Perbedaan erbedaan antara model IRT 1PL dan IRT 2PL terletak pada nilai daya pembeda. Pada model IRT 1PL diasumsikan nilai a (daya pembeda) setiap soal bernilai sama. Sedangkan pada model IRT 2PL, daya pembeda untuk setiap soalnya berbeda berbeda. Soal nomor 3 merupakan kan contoh model IRT 3PL dan terdapat peluang menebak sebesar 0,25. 0,25 Berdasarkan soal nomor 3, dapat dilihat seseorang yang memiliki kemampuan tinggi memiliki peluangg untuk menjawab salah dan sebaliknya seseorang yang memiliki kemampuan rendah masih memiliki peluang untuk menjawab benar. Kesesuaian Model Kesesuaian model IRT adalah untuk menguji karakteristik butir soal setelah direspon oleh berbagai kemampuan peserta pesert tes. Uji kesesuaian (goodness goodness of fit test test) model IRT dilakukan untuk setiap butir soal yang direspon. Pengujian menggunakan statistika ( Zij2 yang berdistribusi khi kuadrat (chi-square) (Hambleton et al.,, 1991) dengan rumus sebagai berikut :
dengan
1 3
Peluang
2
Kemampuan Keterangan : soal 1 (b=-1;a=1) soal 2 (b=-1;a=0,5) soal 3 (b=1;a=1;c=0,25) Gambar 1. Kurva karakteristik butir dengan bermacam-macam macam asimtot dan kemiringan
pij E ( pij )
z ij
E ( pij )[1 E ( pij )] N ij m j 1
Z ij2 m2 k
Keterangan : pij = proporsi jawaban benar pada butir ke-ii dalam kelompok kemampuan ke-j, E(pij) = nilai harapan , Nij = banyaknya peserta tes yang merespon butir ke-ii dalam kelompok kemampuan ke-j, ke k = banyaknya yaknya parameter dalam model, model m = banyaknya kategori kemampuan yang bergantung pada pe pendugaan kemampuan peserta tes. Hipotesis nol dalam pengujian ini menyatakan bahwa kurva karakteristik sesuai untuk data respon butir ke-i. i. Kesesuaian model untuk suatu butir ditunjukkan tunjukkan oleh nilai khi kuadrat empiris butir yang tidak melebihi nilai khi kuadrat teoritis.
5
Pemilihan Model Analisis yang digunakan untuk memilih model adalah likelihood ratio test (LRT). LRT merupakan suatu uji yang membandingkan nilai fungsi likelihood untuk dua model yang akan diuji. Statistik uji LRT didefinisikan dalam Wiberg (2007) sebagai berikut :
l (a ) 2 ln[ l ( a ) l ( c )] (2m ) G 2 ln l (c) 2
Keterangan : l(a) = nilai fungsi likelihood dari model augmented, l(c) = nilai fungsi likelihood dari model compact, m = selisih jumlah parameter antara model augmented dan model compact. Selain menggunakan menggunakan LRT, pemilihan model dapat dilihat dari indeks reliabiltas. Semakin tinggi nilai reliabilitas maka modelnya semakin baik. Kriteria Butir Soal Pemilihan kriteria butir soal dilihat berdasarkan uji kesesuaian model dan besarnya nilai parameter butir soal yaitu daya pembeda, tingkat kesukaran dan peluang menebak. Menurut Lord (1980) dalam teori respon butir, soal yang ideal adalah soal yang memiliki daya pembeda berkisar 1 (satu) dan peluang menebak mendekati nol. Dalam Hambleton et al. (1991), nilai b yang mendekati -2,00 menandakan bahwa butir soal mudah, dan nilai b yang mendekati +2,00 berarti butir soal tersebut tergolong sukar untuk kelompok tersebut. Sehingga disimpulkan sebagai berikut (secara ringkas disajikan pada Tabel 1) : 1. Soal yang baik adalah model setiap soal yang sesuai dengan model jika nilai khi kuadrat empiris butir yang tidak melebihi nilai khi kuadrat teoritis (nilai p > 0,05), memiliki nilai daya pembeda berkisar 1, peluang menebak kecil, dan tingkat kesukaran berada di antara nilai -2, 00 sampai dengan +2,00. 2. Soal yang cukup baik adalah soal yang sesuai model jika nilai khi kuadrat empiris butir yang tidak melebihi nilai khi kuadrat teoritis (nilai p > 0,05) dan salah satu kriteria soal yang baik tidak terpenuhi. 3. Soal yang belum dapat digambarkan adalah soal yang tidak sesuai dengan model yang digambarkan jika nilai khi kuadrat empiris butir lebih besar nilai khi kuadrat teoritis (nilai p <0,05).
Tabel 1. Kriteria butir soal Kriteria Model
Belum dapat digambarkan Nilai p < 0,05 (uji chisquare)
Baik
Cukup Baik
IRT 1PL
Nilai p> 0,05; -2≤b≤2
Nilai p > 0,05; b<-2 atau b>2
IRT 2PL
Nilai p> 0,05; a ≥ 0.5; -2≤b≤2
Jika salah satu kriteria soal baik tidak terpenuhi.
Nilai p < 0,05
IRT 3PL
Nilai Jika salah p > 0,05; satu a ≥ 0,5; kriteria -2
Nilai p <0,05
BAHAN DAN METODE Bahan Penelitian ini menggunakan data yang diperoleh dari hasil jawaban UAS Fisika TPB IPB yang dilaksanakan pada tanggal 25 Juni 2009. Jumlah peserta ujian sebanyak 1596 siswa. Jumlah butir soal sebanyak 35 butir soal pilihan ganda. Setiap soal memiliki lima pilihan jawaban yaitu A, B, C, D, dan E. Penilaian dilakukan dengan pemberian skor 1 untuk jawaban benar dan 0 untuk jawaban salah. Soal UAS TPB IPB mata kuliah Fisika terdiri dari tiga bagian yaitu : 1. Soal nomor 1 sampai dengan nomor 24, memilih satu dari lima jawaban tersedia. 2. Soal nomor 25 sampai dengan nomor 30, analisis hubungan antar hal. 3. Soal nomor 31 sampai dengan 35, asosiasi berganda. Metode Tahapan-tahapan yang dilakukan pada penelitian ini adalah : 1. Penyiapan data berupa penginputan jawaban peserta UAS TPB IPB untuk mata kuliah Fisika pada tahun ajaran 2008/2009. 2. Penerapan teori uji klasik a. Menghitung indeks tingkat kesukaran, b. Menghitung daya pembeda,