BEBERAPA KRITERIA EMPIRIK PADA ANALISIS BUTIR
Oleh Dali S. Naga
Abstract. Aside of the theoretical framework, item analysis has established several empirical criteria for the determination of the quality of items in a measurement instrument. Those empirical criteria encompass the number of respondents in try out instrument, the number of respondents in high and low score groups, the item difficulty index, and the item discrimination index.
Pendahuluan Biasanya alat ukur yang baru dibuat atau dirakit belum memiliki reliabilitas yang memadai. Oleh karena itu, alat ukur itu diujicobakan dahulu ke sejumlah responden yang setara dengan responden sasaran pengukuran. Hasil uji coba ini dapat digunakan untuk memeriksa butir guna menemukan butir yang menjadi penyebab dari rendahnya koefisien reliabilitas. Dengan cara demikian, alat ukur itu dapat disempurnakan dengan memperbaiki atau mengganti butir yang tidak baik. Melalui cara ini, uji coba dan penyempurnaan alat ukur dapat berlangsung berkali-kali sehingga alat ukur menjadi layak untuk digunakan. Pemeriksaan butir ini dikenal sebagai analisis butir. Di dalam analisis butir, setiap butir diperiksa. Dasar pemeriksaan adalah taraf sukar butir serta daya beda butir. Di dalam pengelolaan taraf sukar dan daya beda butir, ada kalanya diperlukan pengelompokan responden ke dalam kelompok responden sekor tinggi dan kelompok responden sekor rendah. Analisis butir ini memerlukan sejumlah perhitungan dan oleh karenanya memerlukan sejumlah rumus. Pada umumnya, analisis butir berkenaan dengan beberapa besaran, meliputi (a) ukuran responden uji coba yakni banyaknya responden yang perlu dilibatkan di dalam uji coba, (b) ukuran kelompok responden sekor tinggi dan kelompok responden sekor rendah, (c) ukuran taraf sukar butir, dan (d) ukuran daya beda butir. Di samping kajian secara teoretik, ada sejumlah kriteria empirik yang digunakan untuk menentukan nilai bagi besaran itu gunakan menemukan butir yang baik atau yang tidak baik. Tulisan ini mengumpulkan kriteria empirik itu dari sejumlah buku tentang pengukuran, sebagai berikut. Ukuran Responden Uji Coba Berapa besarkah ukuran responden yang layak bagi pelaksanaan uji coba? Dengan kata lain berapa banyak responden yang perlu dilibatkan ke dalam pelaksanaan uji coba. Ukuran itu perlu cukup besar agar analisis butir dapat menghasilkan informasi yang stabil. Namun berapa besarkah ukuran responden yang cukup besar itu?
Nunnally (1970, hlm 214-215) menyatakan bahwa ukuran responden pada uji coba adalah sebesar sepuluh kali jumlah butir. Jadi, untuk uji coba alat ukur 50 butir diperlukan 10 x 50 = 500 responden. Namun apabila uji coba itu akan melibatkan banyak sekali responden, maka minimal ukuran responden adalah lima kali jumlah butir. Jadi, untuk uji coba alat ukur 100 butir, minimal diperlukan 5 x 100 = 500 responden. Crocker dan Algina (1986, hlm 322) membahas ukuran yang dikemukan oleh Nunnally serta menambahkan bahwa demi kestabilan informasi, minimal diperlukan 200 responden. Jadi, sekalipun alat ukur mengandung hanya 20 butir, maka minimal diperlukan juga 200 responden. Dengan kata lain, ukuran responden pada uji coba alat ukur adalah 200 atau lebih. Dan lebihnya itu mengikuti ketentuan yang dikemukakan oleh Nunnally. Dari penulis ini, dapat disumpulkan bahwa ukuran responden pada uji coba alat ukur adalah • •
Minimal 200 responden Ukuran responden adalah lima kali jumlah butir
sehingga dengan ukuran ini, informasi pada analisis butir akan stabil. Ukuran Kelompok Responden Di dalam analisis butir, untuk hal tertentu, kita memerlukan kelompok responden sekor tinggi dan kelompok responden sekor rendah. Ini berarti bahwa sekor responden perlu disusun ke dalam peringkat, dari sekor tinggi ke sekor rendah, atau sebaliknya. Pada wilayah sekor tinggi dan wilayah sekor rendah, masing- masing, diambil kelompok responden sebagai kelompok responden sekor tinggi dan kelompok responden sekor rendah. Kalau ukuran seluruh responden adalah M, maka ukuran kelompok responden sekor tinggi adalah MT serta ukuran kelompok responden sekor rendah adalah MR.
50%
30%
27%
10%
50% 30%
27%
10%
Gambar 1. Beberapa ukuran MT dan MR Seperti tampak pada Gambar 1, kita dapat memilih bermacam- macam ukuran MT yang terletak di ujung atas dan ukuran MR yang terletak di ujung bawah dari peringkat
sekor responden itu. Makin kecil % MT dan MR makin jauh ke ujung letak mereka sehingga makin kontras perbedaan di antara kelompok responden sekor tinggi dan kelompok responden sekor rendah. Namun makin kecil % juga berakibat pada makin rendahnya reliabilitas dan sebaliknya. Kontras dan reliabilitas ternyata memiliki sifat yang beralwanan. Makin tinggi kontras makin rendah reliabilitas. Berapakah % respondenkah yang menghasilkan kelompok yang optimal? Untuk M yang kecil, sejumlah penulis menentukan bahwa MT = MR = 50%. Namun untuk M yang besar, berapa besarkah MT dan MR? Secara empirik, pada tahun 1939, T.L. Kelley menemukan bahwa nilai optimal dengan pengertian bahwa tingkat kontras dan tingkat reliabilitas bersama-sama memadai adalah MT = MR = 27%. Sejak itu banyak orang menentukan 27% untuk kelompok responden sekor tinggi dan 27% untuk kelompok responden sekor rendah. Selanjutnya, berapa besarkah M yang dianggap besar itu? Untuk itu, Frederick B. Davis telah melakukan penelitian. Menurut Davis (1966, hlm 283) bahwa koefisien reliabilitas akan tetap cukup baik jika MT dan MR masing- masing tidak kurang dari 100. Hasil penelitian Davis ini menunjukkan bahwa 54% dari M berjumlah 200 responden. Dari data ini ditemukan bahwa M > 371 atau dapat dikatakan bahwa patokan Kelley itu baik digunakan untuk M = 400. Dari uraian ini dapat disimpulkan bahwa • •
Nilai optimal untuk kontras dan relibilitas yang baik adalah MT = MR = 27% Nilai optimal ini baik untuk M = 400 (MT = MR = 100)
Angka ini dapat kita gunakan di dalam pelaksanaan analisis butir. Ukuran Taraf Sukar Butir Taraf sukar butir terutama digunakan pada butir berskala dikotomi dengan jawaban betul atau salah. Ukuran taraf sukar butir yang banyak digunakan adalah skala p yakni proporsi jawaban betul. Makin banyak responden menjawab betul makin besar p sehingga makin mudah (tidak sukar) butir itu. Ada kalanya, kita menggunakan q yakni banyaknya jawaban salah sebagai ukuran taraf sukar butir. Makin sedikit responden menjawab betul, makin besar q sehingga makin sukar butir itu. Berapa besarkah ukuran p yang memadai? Jika kemampuan responden lebih dari taraf sukar butir, maka probabilitas jawaban betul akan lebih dari probabilitas jawaban salah sehingga p > 0,50. Sebaliknya, jika kemampuan responden kurang dari taraf sukar butir, maka probabilitas jawaban betul akan kurang dari probabilitas jawaban salah sehingga p < 0,50. Ini berarti kalau kemampuan responden sama dengan taraf sukar butir maka perobabilitas jawaban betul dan jawaban salah menjadi sama sehingga p = 0,5. Butir yang memadai adalah butir dengan taraf sukar yang sama dengan kemampuan responden. Karena itu, taraf sukar butir yang memadai adalah p = 0,5. Dalam hal butir pilihan ganda, terdapat kemungkinan bagi responden untuk menerka jawaban dan terdapat pula kemungkinan bahwa terkaan itu menghasilkan jawaban betul. Untuk butir pilihan ganda dengan u pilihan, probabilitas terkaan betul itu adalah 1/u. Dengan demikian, pada komponen kemungkinan jawaban salah pada p = 0,5,
sebagian di antaranya masih mungkin berubah dari salah menjadi betul. Bagian itu adalah sebesar terkaan 0,5/u. Karena itu, butir yang memadai pada butir pilihan ganda adalah p = 0,5 +
0 ,5 u
Namun menurut Lord, terkaan pada jawaban pilihan ganda tidak selalu berbentuk terkaan murni. Ketika menerka, responden memiliki sejumlah pengetahuan yang menyebabkan probabilitas terkaan betul lebih dari 0,5/u. Karena itu, diusulkan agar nilai p ditambah sehingga menjadi po melalui p0 = p + e Dari uraian ini, dapat disimpulan bahwa • •
Butir yang memadai memiliki taraf sukar sekitar p = 0,5 Pada butir pilihan ganda, butir yang memadai memiliki taraf sukar sekitar nilai seperti tercantum pada Tabel 1.
Tabel 1. Taraf sukar yang memadai pada butir pilihan ganda Pilihan 2 3 4
P 0,5 + 0,250 = 0,750 0,5 + 0,167 = 0,667 0,5 + 0,125 = 0,625
p0 0,85 0,77 0,74
Sekalipun kriteria empirik untuk taraf sukar butir sudah diusulkan oleh sejumlah penulis namun di dalam pelaksanaannya, taraf sukar butir tidak berdiri sendiri. Di dalam pelaksanaan, kriteria empirik yang banyak digunakan adalah daya beda butir dengan anggapan terdapat hubungan di antara taraf sukar butir dengan daya beda butir.
Ukuran Daya Beda Butir Menurut Davis (1966, hlm 308-312), terdapat kaitan di antara daya beda butir dengan taraf sukar butir. Karena itu, ada kalanya, analisis butir cukup menggunakan daya beda butir untuk menentukan kelayakan butir di dalam alat ukur. Ada sejumlah rumus untuk mengukur daya beda butir. Bentuk paling sederhana adalah perbedaan taraf sukar butir di antara kelompok responden sekor tinggi dan kelompok responden sekor rendah. Namun salah satu bentuk daya beda butir yang banyak digunakan orang adalah korelasi butir-total yakni ? iA untuk butir ke- i. Daya beda butir ini sering dikenal juga dengan istilah validitas butir dan korelasi butir-total.. Berapakah daya beda butir minimum yang memadai untuk mempertahankan butir di dalam alat ukur? Kriteria empirik yang dikemukan di dalam sejumlah bacaan adalah seperti tercantum pada Tabel 2.
Tabel 2. Daya beda minimum pada butir yang memadai Penulis bacaan Crocker and Algina (1986, hlm 324) Nunnally (1970, hlm 202 Aiken (1994, hlm 65 Mehrens and Lehmans (1991, hlm 167) Henning (1987, hlm 53)
? iA minimum 0,2 0,2 0,2 0,2 0,25
Tampak dari Tabel 2 bahwa kriteria empirik yang paling umum digunakan adalah 0,2 sehingga butir dengan ? iA = 0,2 masih dipertahankan di dalam alat ukur. Dari uraian ini dapat disimpulkan bahwa •
Daya beda butir minimum yang digunakan untuk mempertahankan butir di dalam alat ukur adalah ? iA = 0,2
Sekedar catatan bahwa kriteria ini hendaknya diterapkan bersama dengan kriteria tentang banyaknya responden di dalam uji coba alat ukur.
Daftar Pustaka
Aiken, L.R. (1994). Psychological testing and assessment. Eight edition. Boston: Allyn and Bacon Crocker, Linda and J. Algina (1986). Introduction to classical and modern test theory. Fort Worth: Harcourt Brace Jovanovich College Publishers Davis, F.B. (1966). “Item selection technique,” Educational Measurement (ed. E.F. Linquist). Washington, D.C.: American Council on Education Henning, G. (1987). A guide to language testing: development, evaluation, research Cambridge: Nuwbury House Publishers Mehrens, W.A. and I.J. Lehmann (1991). Measurement and evaluation in education and psychology. Fort Worth: Harcourt Brace College Publishers Nunnally, J.C., Jr. (1970). Introduction to psychological measurement. New York: McGraw-Hill Book Company.