Junaidi Lababa
ANALISIS BUTIR SOAL DENGAN TEORI TES KLASIK: SEBUAH PENGANTAR Oleh: Djunaidi Lababa* Abstrak ∗ Tes merupakan salah satu cara paling mudah dan murah yang bisa dilakukan untuk memotret kemajuan belajar siswa dalam ranah kognitif. Oleh karena itu, keberadaan perangkat tes yang berkualitas merupakan suatu keniscayaan sehingga kemampuan kognitif siswa dapat diungkapkan. Kualitas sebuah perangkat tes dapat dilihat dengan melakukan analisis kualitatif dan kuantitatif. Analisis kualitatif merupakan analisis yang dilakukan sebelum tes diberikan kepada peserta tes dengan melihat kesesuaiannya dengan aspek materi, konstruksi dan bahasa, sedangkan analisis kuantitatif dapat dilakukan dengan teknik teori tes klasik dan teori respon butir. Tulisan ini bertujuan untuk memberikan pengantar tentang analisis butir soal berdasarkan teori tes klasik. Teori tes klasik sendiri merupakan teknik analisis butir yang paling tua. Meskipun memiliki beberapa kelemahan dibandingkan teori respon butir, teori tes klasik tetap merupakan salah satu teknik analisis butir yang paling mudah dilakukan. Kata kunci: teori tes klasik, daya beda, tingkat kesukaran, efektifitas distraktor. Pendahuluan Setiap kegiatan belajar harus diketahui sejauhmana proses belajar tersebut telah memberikan nilai tambah bagi kemampuan siswa. Salah satu cara untuk melihat peningkatan kemampuan tersebut adalah dengan melakukan tes. Tes yang berkaitan dengan tujuan ini sering disebut tes prestasi hasil belajar (TPHB). Saifuddin Azwar menyatakan bahwa tes prestasi hasil belajar adalah tes yang disusun secara terencana untuk mengungkap infomasi subyek atas bahan-bahan yang telah diajarkan.1 Adapun menurut Anas Sudijono tes prestasi hasil belajar adalah tes yang digunakan untuk mengungkap tingkat pencapaian belajar.2 Dari dua pengertian di atas, ada satu benang merah yang sepertinya disepakati yaitu bahwa tes prestasi hasil belajar merupakan salah satu cara untuk menelusuri kemampuan-kemampuan yang ∗
Penulis adalah dosen tetap pada Jurusan Tarbiyah STAIN Manado, meraih gelar Magister Pendidikan pada Universitas Negeri Yogyakarta. 1 Saifuddin Azwar. (2003). Tes prestasi: fungsi dan pengembangan pengukuran prestasi belajar. Yogyakarta: Pustaka Pelajar. h. 9. 2 Anas Sudijono. (2005). Pengantar evaluasi pendidikan. Jakarta: Raja Grafindo Persada. h. 73.
Volume 5 Januari - Juni 2008
IQRA’ 29
Junaidi Lababa telah dimiliki siswa setelah mengikuti proses belajar mengajar selama waktu tertentu. Meskipun tes bukanlah satu-satunya cara untuk mengungkap hasil belajar siswa, tetapi ia merupakan alat yang paling sering digunakan karena kepraktisan penggunaannya serta biaya yang murah. Sebagai alat untuk mengukur kemampuan siswa setelah mengikuti kegiatan pendidikan selama selang waktu tertentu, maka eksistensi tes menjadi sangat penting. Sebuah tes yang baik, akan bisa mengungkapkan keadaan sebenarnya dari siswa, dan tes yang tidak baik tidak akan bisa mengungkap apa kemampuan sebenarnya siswa. Sebuah tes yang baik harus valid dan reliabel. Dalam pandangan Samuel Messick, validitas merupakan penilaian menyeluruh dimana bukti empiris dan logika teori mendukung pengambilan keputusan serta tindakan berdasarkan skor tes atau model-model penilaian yang lain. 3 Validitas sebuah tes dapat dilakukan dalam berbagai bentuk seperti content validity, criterion validity dan construct-related validity. Meskipun idealnya validasi dapat dilakukan dengan memakai semua bentuk validitas tes tersebut, tetapi pengembang tes dapat memilih bentuk validasi dengan melihat tujuan pengembangan tes.4 Selain valid, alat ukur yang baik juga harus reliabel. Dalam pandangan Aiken sebuah tes dikatakan reliabel jika skor yang diperoleh oleh peserta relatif sama meskipun dilakukan pengukuran berulang-ulang.5Untuk memperoleh skor yang sama, maka tidak boleh ada kesalahan pengukuran. Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari dua petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik tersebut masing-masing memiliki kelebihan dan keterbatasan.6 Selain valid dan reliabel tes yang baik juga tergantung dari banyaknya butir-butir soal berkategori baik yang terdapat dalam tes. Semakin banyak butir soal yang baik, semakin baiklah perangkat tes tersebut. Sebaliknya, semakin sedikit jumlah butir soal yang baik, semakin buruklah kualitas tes itu. Untuk melihat kualitas sebuah tes dapat dilakukan dengan menggunakan analisis kualitatif (teoretik) dan kuantitatif (empiris). Secara kualitatif tes dikatakan baik jika telah memenuhi persyaratan penyusunan dari sisi materi, konstruksi dan bahasa. Adapun secara kuantiatif dapat dilakukan dengan dua teknik yaitu teori tes klasik (classical true-score theory) dan teori respon butir (Item Response Theory). Dalam tulisan berikut ini, penulis hanya akan memberikan pengantar tentang analisis butir soal menggunakan teori tes klasik. Teori Tes Klasik Salah satu teori pengukuran yang tertua didunia pengukuran behavioral adalah classical true-score theory. Teori ini dalam bahasa Indonesia sering disebut dengan teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya serta model yang cukup berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan. 3
Messick, S. (1989) Validity. Dalam Linn, R. L. (Eds.), Educational measurement third edition. (pp. 13-103). New York: McMillan. h. 13. 4 Kumaidi. (1994). Studi analitik terhadap karakteristik internal dari ujian seleksi masuk ke perguruan tinggi. Makalah disajikan dalam seminar pengkajian ujian saringan masuk ke perguruan tinggi di BALITBANG Depdiknas Jakarta. h. 58. 5 Aiken, L. R. (1987). Assessment of Intelectual functioning. Massachussetts: Allyn and Bacon Inc. h. 42. 6 Feldt, L. S. & Brennan, R. L. (1989) Reliability. Dalam Linn R. L. (Eds.), Educational Measurement Third Edition. (pp. 105-146). New York: McMillan. h. 105.
Volume 5 Januari - Juni 2008
IQRA’ 30
Junaidi Lababa Inti teori klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama. Dari asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan. Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen & Yen menguraikan asumsi-asumsi teori klasik sebagai berikut:7 1. Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan antara skor tampak (observed score) yang dilambangkan dengan huruf X, skor murni (true score) yang dilambangkan dengan T dan skor kasalahan (error) yang dilambangkan dengan E. Menurut Saifuddin Azwar (2001: 30) yang dimaksud kesalahan pada pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random. Hubungan itu adalah bahwa besarnya skor tampak ditentukan oleh skor murni dan kesalahan pengukuran. Dalam. bahasa matematika dapat dilambangkan dengan X = T + E. 2.
Asumsi kedua adalah bahwa skor murni (T) merupakan nilai harapan є (X). Dengan demikian skor murni adalah nilai rata-rata skor perolehan teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga) terhadap seseorang dengan menggunakan alat ukur.
3.
Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat korelasi antara skor mumi dan skor pengukuran pada suatu tes yang dilaksanakan ( ρ et = 0). Implikasi dari asumsi adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang selalu positif ataupun selalu negatif.
4.
Asumsi keempat meyatakan bahwa korelasi antara kesalahan pada pengukuran pertama dan kesalahan pada pengukuran kedua adalah nol ( ρ e1e 2 = 0). Artinya bahwa skor-skor kesalahan pada dua tes untuk mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan demikian besarnya kesalahan pada suatu tes tidak bergantung kesalahan pada tes lain.
5.
Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak berkorelasi dengan skor murni pada tes kedua ( ρ e1t 2 ). Asumsi ini akan gugurjika salah satu tes tersebut ternyata mengukur aspek yang berpengaruh terhadap teradinya kesalahan pada pengukuran yang lain.
6.
Asumsi keenam teori tes klasik adalah menyajikan tentang pengertian tes yang pararel. Dua perangkat tes dapat dikatakan sebagai tes-tes yang pararel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat skor murni yang sama (T = T') dan varian skor-skor kesalahannya sama ( σ e
2
7.
= σ e'2 ). Dalam prakteknya, asumsi keenam teori ini sulit terpenuhi.
Asumsi terakhir dari teori tes klasik menyatakan tentang definisi tes yang setara (essentially τ equivalent). Jika dua perangkat tes mempunyai skor-skor perolehan X t1 dan X t 2 yang
7
Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, California: Brookd/Cole Publishing Company. h. 60-67
Volume 5 Januari - Juni 2008
IQRA’ 31
Junaidi Lababa memenuhi asumsi 1 sampai 5 dan apabila untuk setiap populasi subyek X1 = X2 + C12, dimana C12 adalah sebuah bilangan konstanta, maka kedua tes itu disebut tes yang pararel. Asumsi-asumsi teori klasik sebagaimana disebutkan di atas memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Daya beda, indeks kesukaran, efektifitas distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik. a.
Daya beda
Daya beda (diskriminasi) suatu butir tes adalah kemampuan suatu butir untuk membedakan antara peserta tes yang berkemampuan tinggi dan berkemampuan rendah. Daya beda butir dapat diketahui dengan melihat besar kecilnya indeks diskriminasi atau angka yang menunjukkan besar kecilnya daya beda. Adapun fungsi dari daya pembeda tersebut adalah mendeteksi perbedaan individual yang sekecil-kecilnya diantara para peserta tes. Penentuan daya beda butir biasanya dilakukan dengan menggunakan indeks korelasi, diskriminasi, dan indeks keselarasan item. Dari ketiga cara tersebut yang paling sering digunakan adalah indeks korelasi. Ada empat macam teknik korelasi yang biasa digunakan untuk menghitung daya beda, yaitu : (1) teknik point biserial, (2) teknik biserial, (3) teknik phi, dan (4) teknik tetrachorik. Brennan (1972) sebagaimana dikutip Yen W.M dalam Encyclopedia of Educational Research memperkenalkan cara untuk menghitung Indeks diskriminasi dengan menggunakan rumus sebagai berikut: 8
B=
U L − n1 n 2
Dimana dari rumus di atas dapat dimaknai bahwa daya beda adalah perbedaan antara proporsi kelompok atas yang menjawab benar butir tes menjawab benar butir tes
U dengan proporsi kelompok bawah yang n1
L . Rumus tersebut dapat digunakan untuk menghitung daya beda butirn2
butir soal dalam bentuk pilihan ganda. Daya beda juga dapat dijelaskan sebagai derajad hubungan antara skor butir dengan skor total dengan menggunakan teknik korelasi product moment dari Pearson. Rumus khusus korelasi product moment yang dikenal dengan korelasi point biserial untuk data dalam bentuk dikotomi sebagaimana dikutip dalam Encyclopedia of Educational Research adalah sebagai berikut: 9
rpbis =
(x+ − x ) Sx
p q
8
Yen, W. M. (1992). Item response theory. Dalam Alkin M. C. (Eds.), Encyclopedia of educational research. (pp. 657-666). New York: Macmillan Library reference USA. h. 654. 9 Ibid.
Volume 5 Januari - Juni 2008
IQRA’ 32
Junaidi Lababa Dimana
x x , mean total skor peserta yang memiliki jawaban benar. x adalah mean skor
total Sx, adalah standar deviasi skor total, p adalah proporsi peserta ujian yang menjawab benar pada butir tes sedangkan q adalah 1 - p. Rumus korelasi point biserial juga dapat diturunkan langsung dari rumus korelasi produk momen tanpa membuat pembatasan asumsi. Alternatif lain untuk melihat indeks daya beda adalah dengan menggunakan rumus korelasi biserial. Korelasi biserial berbeda dengan korelasi point biserial baik secara teori maupun perhitungan, akan tetapi jika digunakan untuk tujuan menganalisis butir, kedua teknik tersebut dapat diinterpretasikan dengan cara yang sama 10 . Crocker menyatakan rumus korelasi biserial sebagai berikut: 11
rbis =
(X
− X) p Sx y
+
"y" pada rumus korelasi biserial di atas melambangkan ordinat p dalam kurva normal. + adalah mean skor dari peserta tes yang memiliki jawaban benar, adalah mean skor total, Sx adalah deviasi standar total, p adalah proporsi peserta ujian yang menjawab benar butir tes. Koefisien korelasi point biserial selalu lebih rendah dari koefisien korelasi biserial. Hal ini dikarenakan tingkat kesukaran dikombinasikan dengan kriteria oleh koefisien point biserial. Teknik lain untuk menentukan nilai daya beda adalah dengan menggunakan teknik korelasi phi (φ ) . Anas Sudijono menuliskan rumus tentang teknik korelasi phi sebagai berikut:12
φ=
pH − pL 2
( p )(q )
φ adalah
angka indeks diskriminasi phi yang dianggap sebagai angka indeks diskriminasi butir. PH adalah proporsi orang yang menjawab benar kelompok atas. PL adalah proporsi orang yang menjawab benar kelompok bawah. p adalah proporsi seluruh peserta tes yang menjawab betul dan q adalah 1 dikurangi p. Untuk menyatakan bahwa besaran daya beda dapat berfungsi dengan baik, ada beberapa patokan yang dapat digunakan. Menurut Djemari Mardapi butir yang diterima harus memiliki indeks daya beda > 0,3.13 butir dengan indeks daya beda kurang dari antara 0,1 sampai 0,3 perlu direvisi dan jika daya bedanya < 0,1 maka butir tersebut tidak diterima. Sedangkan Ebel & Frisbie memberikan patokan indeks daya beda sebagai berikut: 14 Indeks daya
Evaluasi butir
10
Ebel, R. L., & Frisbie, D. A. (1986) Essentials of educational measurement. New Jersey: Prentice Hall Inc. h. 230. 11 Crocker, L. (1992). Item analysis. Dalam Alkin M.C. (Eds.), Encyclopedia of educational research. (pp. 652-657). New York: Macmillan Library reference USA. h. 654 12 Anas Sudijono, Op. Cit. h. 391. 13 Djemari Mardapi. (2005). Pengembangan instrumen penelitian pendidikan. Yogyakarta: Program Pascasarjana Universitas Negeri Yogyakarta. h. 5. 14 Ebel & Frisbie, Op.Cit. h. 234.
Volume 5 Januari - Juni 2008
IQRA’ 33
Junaidi Lababa beda 0,4 ke atas 0,3 – 0,39
Sedikit atau tidak memerlukan revisi
0,2 – 0,29
Butir memerlukan revisi Butir harus dieliminasi
< 0,19 b.
Butir yang sangat baik
Indeks Kesukaran
Indeks kesukaran butir sebagaimana dinyatakan oleh Allen & Yen adalah proportion of examinees who get that item correct.15 Senada dengan mereka, Sax menulis bahwa indeks kesukaran adalah proporsi peserta ujian yang menjawab benar. 16 Saifuddin Azwar (2003: 134) menyatakan dengan lebih lugas bahwa indeks kesukaran butir adalah rasio penjawab butir dengan benar dan banyaknya penjawab butir.17 Proporsi menjawab benar p (proportion correct) adalah indeks kesukaran soal yang paling sederhana dan sering digunakan dalam menentukan besaran indeks. Rumus untuk menentukan besarnya indeks kesukaran secara matematis dirumuskan oleh Saifuddin sebagai berikut:18
P=
n1 N
P adalah indeks kesukaran butir, n1 adalah jumlah peserta tes yang menjawab benar sedangkan N adalah banyaknya siswa yang menjawab butir soal tersebut. Dengan demikian untuk menghitung indeks kesukaran butir dilakukan dengan tidak membagi kelompok peserta tes kedalam kelompok atas dan bawah sebagaimana untuk menentukan daya beda. Besarnya indeks korelasi berkisar antara 0 sampai 1. Makin tinggi besaran indeks korelasi maka butir soal tersebut semakin mudah. Dan semakin kecil angka indeks korelasi maka butir soal tersebut semakin sulit. Indeks kesukaran yang berada disekitar 0,5 dianggap yang terbaik. Karena itulah maka menurut Allen & Yen tingkat kesukaran yang baik adalah 0,3 sampai 0,7.19 Butir dengan tingkat kesulitan dibawah 0,3 dianggap butir soal yang sukar sedangkan jika indeksnya diatas 0,7, butir soal tersebut dianggap mudah. Dari penjelasan di atas ada beberapa hal yang bisa disimpulkan berkaitan dengan indeks kesukaran butir yaitu bahwa nilai p bagi suatu butir hanya menunjukkan indeks bagi kelompok yang diuji. Harga p ini bisa berubah jika tes diujikan pada kelompok yang berbeda. Selain itu, indeks kesukaran yang dihasilkan dari rumus ini adalah indeks kesukaran yang berlaku bagi kelompok
15
Allen & Yen, Op. Cit. h. 120. Sax, G. (1980). Principles of educational and psychological measurement and evaluation. Belmont: Wadsworth Publishing Company. h. 193. 17 Saifuddin Azwar. Op.Cit. h. 134. 18 Ibid. 19 Allen & Yen, Op. Cit. h. 121 16
Volume 5 Januari - Juni 2008
IQRA’ 34
Junaidi Lababa secara keseluruhan bukan perorangan. Indeks kesukaran bagi tiap peserta tes tidak bisa disimpulkan dengan melihat indeks proporsi menjawab benar p. c. Efektivitas Distraktor Setiap tes pilihan ganda memiliki satu pertanyaan serta beberapa pilihan jawaban. Diantara pilihan jawaban yang ada, hanya satu yang benar. Selain jawaban yang benar tersebut, adalah jawaban yang salah. Jawaban yang salah itulah yang dikenal dengan distractor (pengecoh). Dengan demikian, efektifitas distraktor adalah seberapa baik pilihan yang salah tersebut dapat mengecoh peserta tes yang memang tidak mengetahui kunci jawaban yang tersedia. Semakin banyak peserta tes yang memilih distraktor tersebut, maka distaktor itu dapat menjalankan fungsinya dengan baik. Cara menganalisis fungsi distraktor dapat dilakukan dengan menganalisis pola penyebaran jawaban butir. Pola penyebaran jawaban sebagaimana dikatakan sudijono adalah suatu pola yang dapat menggambarkan bagaimana peserta tes dapat menentukan pilihan jawabannya terhadap kemungkinan-kemungkinan jawaban yang telah dipasangkan pada setiap butir.20. Menurut Fernandes (1984: 29) distraktor dikatakan baik jika dipilih oleh minimal 2% dari seluruh peserta. 21 Distraktor yang tidak memenuhi kriteria tersebut sebaiknya diganti dengan distraktor lain yang mungkin lebih menarik minat peserta tes untuk memilihnya. Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir, tapi teori ini memiliki beberapa kelemahan mendasar. Kelemahan utama teori tes klasik sebagaimana diungkapkan Sumadi Suryabrata adalah keterikatan alat ukur teori tersebut pada sampel (sample bound). 22 Kemampuan kelompok siswa yang mengikuti tes sangat mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan kepada kelompok yang lain. Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya. Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa dijelaskan oleh teori tes klasik. Dalam proses pembelajaran hal-hal tersebut akan menimbulkan berbagai macam kesukaran terutama untuk melihat kemampuan peserta tes secara perorangan. Oleh karena itulah ada upaya untuk membebaskan alat ukur dari keterikatan terhadap sampel (sample-free). Berangkat dari hal itulah maka para ahli kemudian menyusun teori baru yang bermaksud untuk melengkapi dan memperbaiki kelemahan-kelemahan yang ada dalam teori tes klasik. Teori ini kemudian dikenal dengan Item Response Theory (IRT) atau teori respon butir. Penutup Untuk mendapatkan perangkat tes yang baik, maka butir-butir soal yang terdapat dalam perangkat tes tersebut haruslah baik. Pengetahuan tentang butir soal yang baik dapat dilakukan 20
Anas Sudijono. Op. Cit. h. 411. Fernandes, H. J. X. (1984). Testing and measurement. Jakarta: National Education Planning, Evaluation and Development. h. 29. 22 Sumadi Suryabrata. (2004). Pengembangan alat ukur psikologi. Yogyakarta: Penerbit Andi. h. 25. 21
Volume 5 Januari - Juni 2008
IQRA’ 35
Junaidi Lababa dengan menganalisis butir soal. Secara umum, ada dua cara yang dapat dilakukan untuk melakukan analisis terhadap sebuah soal yaitu analisis soal secara kualitatif (teoritik) dan kuantitatif (empiris). Analisis soal dengan cara kualitatif dapat dilakukan sebelum soal-soal diberikan kepada peserta tes. Analisis ini dilakukan dengan cara menelaah kesesuaian dengan kemampuan dasar dan indikator yang hendak diukur serta apakah butir-butir soal tersebut telah memenuhi persyaratan dari aspek materi, konstruksi dan bahasa. Analisis soal dengan cara kuantitatif (empiris) dapat dilakukan dengan menggunakan dua pendekatan yaitu teori tes klasik (classical true score theory) dan teori respon butir (item response theory). Analisis butir soal dengan teori tes klasik merupakan yang termudah meskipun memiliki beberapa keterbatasan. Diantara keterbatasan tersebut yang paling menonjol adalah statistik butir yang dihasilkan berupa daya beda, tingkat kesukaran dan efektifitas distraktor sangat tergantung kepada karaktersistik peserta. Jika kemampuan peserta rendah, maka tingkat kesukaran tes akan tinggi dan sebaliknya. Adapun daya beda sangat tergantung pada homogenitas peserta tes.
Daftar Pustaka Aiken, L. R. 1987. Assessment of Intelectual functioning. Massachussetts: Allyn and Bacon Inc. Allen, M. J., & Yen, W. M. 1979. Introduction to measurement theory. Monterey, California: Brookd/Cole Publishing Company. Anas Sudijono. 2005. Pengantar evaluasi pendidikan. Jakarta: Raja Grafindo Persada. Crocker, L. 1992. Item analysis. Dalam Alkin M.C. (Eds.), Encyclopedia of educational research. (pp. 652-657). New York: Macmillan Library reference USA. Djemari Mardapi. 2005. Pengembangan instrumen penelitian pendidikan. Yogyakarta: Program Pascasarjana Universitas Negeri Yogyakarta. Ebel, R. L., & Frisbie, D. A. 1986. Essentials of educational measurement. New Jersey: Prentice Hall Inc. Fernandes, H. J. X. 1984. Testing and measurement. Jakarta: National Education Planning, Evaluation and Development. Feldt, L. S. & Brennan, R. L. 1989. “Reliability” dalam Linn R. L. (Eds.), Educational Measurement Third Edition. (pp. 105-146). New York: McMillan. Saifuddin Azwar. 2003. Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi Belajar. Yogyakarta: Pustaka Pelajar.
Volume 5 Januari - Juni 2008
IQRA’ 36
Junaidi Lababa Kumaidi. 1994. Studi analitik terhadap karakteristik internal dari ujian seleksi masuk ke perguruan tinggi. Makalah disajikan dalam seminar pengkajian ujian saringan masuk ke perguruan tinggi di BALITBANG Depdiknas Jakarta. Messick, S. 1989. “Validity” dalam Linn, R. L. (Eds.), Educational measurement third edition. (pp. 13-103). New York: McMillan. Sax, G. 1980. Principles of educational and psychological measurement and evaluation. Belmont: Wadsworth Publishing Company. Sumadi Suryabrata. 2004. Pengembangan alat ukur psikologi. Yogyakarta: Penerbit Andi. Yen, W. M. 1992. “Item Response Theory”. dalam Alkin M. C. (Eds.), Encyclopedia of Educational Research (pp. 657-666). New York: Macmillan Library Reference USA.
Volume 5 Januari - Juni 2008
IQRA’ 37