ANALISIS KUALITAS BUTIR SOAL PILIHAN GANDA MENURUT TEORI TES KLASIK DENGAN MENGGUNAKAN PROGRAM ITEMAN Oleh: Lian G. Otaya Email:
[email protected]
Abstrak Analisis butir soal menjadi langkah yang penting karena untuk menentukan kualitas soal sehingga soal tersebut dapat digunakan atau tidak. Soal pilihan ganda yang baik secara kuantitatif perlu diperhatikan validitas, reliabilitas, tingkat kesukaran, daya pembeda soal, dan efektivitas pengecoh berdasarkan teori klasik. Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir, namun teori ini memiliki beberapa kelemahan mendasar. Kemampuan kelompok peserta didik yang mengikuti tes sangat mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan kepada kelompok yang lain. Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya. Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa dijelaskan oleh teori tes klasik. Iteman merupakan salah satu program komputer yang dapat digunakan untuk menganalisis butir soal secara klasik yang berguna menentukan kualitas butir soal berdasarkan data empiris hasil ujicoba. Hasil analisis butir soal mencakup informasi mengenai tingkat kesukaran soal, daya pembeda soal, dan statistik penyebaran jawaban. Selain menghasilkan statistik butir soal, program ini juga menghasilkan statistik tes yang meliputi kehandalan/reliabilitas tes, kesalahan pengukuran (standard error), dan distribusi skor. Program ini juga memberikan output skor untuk setiap peserta tes. . A. Pendahuluan keunggulan soal pilihan ganda yang dapat diskor Penilaian dalam pembelajaran adalah dengan mudah, cepat, obyektif, dan dapat segala kegiatan yang dirancang dan dilaksanakan mencakup bahan atau materi yang luas dalam secara disengaja dan sistematis dalam suatu tes, dapat mengukur berbagai jenjang mengumpulkan informasi yang akan digunakan kognitif mulai dari ingatan sampai dengan evaluasi. sebagai dasar dalam mengambil keputusan Lebih mudah dianalisis baik dari segi tingkat tentang pengetahuan, sikap, dan keterampilan kesukaran, daya beda, validitas, dan reliabilitasnya. peserta didik untuk berbagai macam Selain itu, reliabilitas tes pilihan ganda relatif lebih kepentingan/tujuan pembelajaran. Soal-soal bentuk tinggi dibandingkan dengan soal uraian. objektif banyak digunakan dalam menilai hasil Beberapa butir pernyataan yang belajar. Hal ini disebabkan antara lain oleh luasnya merupakan bagian pokok dalam pedoman umum bahan pelajaran yang dapat dicakup dalam tes dan penulisan butir soal pilihan ganda adalah sebagai mudahnya menilai jawaban yang diberikan. berikut: (1) butir soal harus sesuai dengan Jawaban terhadap tes objektif bersifat pasti, hanya indikator; (2) pokok soal dan pilihan jawaban harus ada satu kemungkinan jawaban yang benar. Jika di rumuskan secara jelas, singkat, padat, dan peserta didik tidak menjawab seperti itu dinyatakan tegas, sehingga perumusan tersebut hanya salah, tidak ada bobot atau skala terhadap jawaban mencakup pernyataan yang diperlukan saja; (3) suatu butir soal, seperti halnya pada tes esai.1 pokok soal jangan memberi petunjuk ke arah jawaban yang benar; (4) pokok soal dan pilihan Salah satu bentuk tes obyektif yang paling jawaban tidak mengandung pernyataan yang sering digunakan adalah tes pilihan ganda. Tes bersifat negatif ganda; (5) pilihan jawaban yang pilihan ganda sangat cocok digunakan jika peserta merupakan kunci jawaban harus menunjukan tes sangat banyak dan hasil tes yang harus segera kebenaran mutlak dan terbaik; (6) pilihan jawaban diumumkan seperti tes ujian akhir nasional, harus homogen dan logis secara materi dan ulangan umum, ulangan kenaikan kelas, tes bahasa; (7) panjang rumusan pilihan jawaban penerimaan mahsiswa baru, dan sebagainya. harus relatif sama; (8) pilihan jawaban sebaiknya Penggunaan yang luas ini tidak terlepas dari jangan memakai bunyi “semua pilihan jawaban di 1 atas salah “atau “semua pilihan jawaban di atas Suwandi, Sarwiji, Model-Model Assesmen benar”; (9) pilihan jawaban berbentuk angka harus dalam Pembelajaran, (Surakarta: Yuma Pustaka, 2011), h.57.
Volume 02 Nomor 2 Agustus 2014
231
disusun berdasarkan urutan kecil ke besar atau 2 sebaliknya. Setiap bentuk soal pilihan ganda, jawabannya harus dipilih dari beberapa kemungkinan jawaban yang telah disediakan. Penggunaan tes pilihan ganda, pada umumnya dijumpai pada ujian yang berskala besar/massal karena sifatnya yang obyektif dan mudah penskorannya. Bentuk soal ini juga dianggap pilihan yang tepat untuk ujian akhir dimana bahan pelajaran yang hendak diujikan biasanya cukup banyak. Dilihat dari strukturnya, bentuk soal pilihan ganda terdiri dari pokok soal (stem) dan pilihan jawaban (option). Pilihan jawaban terdiri atas satu kunci jawaban dan yang lainnya pengecoh (distraktor). Pokok soal (stem) dapat berupa pertanyaan atau pernyataan tidak lengkap. Thorndike secara rinci menjelaskan pengertian pilihan ganda seperti berikut ini: the multiple-choice item consists of two parts:the stem, which presents the problem, and the list of possible answer or options. In the standard form of the item, one of the options is the correct or best answer and the others are foils or distractor. The stem of the item may be presented either as a question or as an incomplete statement (Artinya, item pilihan ganda terdiri dari dua bagian: batang, yang menyajikan masalah, dan daftar kemungkinan jawaban atau opsi. Dalam bentuk standar item, salah satu pilihan adalah jawaban yang benar atau terbaik dan yang lainnya salah (distraktor). Batang item dapat disajikan baik sebagai pertanyaan atau pernyataan tidak lengkap).3 Dalam kenyataannya, mengkontruksi tes yang berbentuk pilihan ganda tidaklah mudah. Pengkontruksian item soal pilihan ganda kadangkadang menghadapi kesulitan dalam menentukan option pengecoh, sehingga alternatif jawaban cenderung heterogen. Kecenderungan option yang heterogen ini dapat membuat item kurang berarti atau lemah karena item tersebut tidak bisa membedakan antara peserta tes yang berkemampuan tinggi dan yang berkemampuan rendah. Oleh karena itu, perlu dilakukan analisis terhadap kualitas soal tersebut, sebelum diberikan kepada peserta tes. ITEMAN merupakan program komputer yang digunakan untuk menganalisis butir soal secara klasik. Program ini termasuk satu paket ° program dalam MicroCAT n yang dikembangkan oleh Assessment Systems Corporation mulai tahun 1982 dan mengalami revisi pada tahun 1984, 1986, 1988, dan 1993; mulai dari versi 2.00 sampai 2
Sudjana, Nana. Penilaian Hasil Proses Belajar Mengajar. (Bandung: Remaja Rosdakarya, 2010), h.44. 3 Thorndike, R.M. Measurement and th Evaluation in Psychology and Education (7 ed). (New Jersey: Pearson Education. Inc, 2005), h.448.
232
dengan versi 3.50. Alamatnya adalah Assessment Systems Corporation, 2233 University Avenue, Suite 400, St Paul, Minesota 55114, United States of America. Program ini dapat digunakan untuk: (1) menganalisis data file (format ASCII) jawaban butir soal yang dihasilkan melalui manual entry data atau dari mesin scanner; (2) menskor dan menganalisis data soal pilihan ganda dan skala Likert untuk 30.000 siswa dan 250 butir soal; (3) menganalisis sebuah tes yang terdiri dari 10 skala (subtes) dan memberikan informasi tentang validitas setiap butir (daya pembeda, tingkat kesukaran, proporsi jawaban pada setiap option), reliabilitas (KR-20/Alpha), standar error of measurement, mean, variance, standar deviasi, skew, kurtosis untuk jumlah skor pada jawaban benar, skor minimum dan maksimum, skor median, dan frekuensi distribusi skor, B. Analisis Kualitas Butir Soal Pilihan Ganda Soal pilihan ganda terdiri atas sebuah masalah dan daftar saran pemecahannya. Masalah yang dinyatakan sebagai pertanyaan langsung atau pernyataan tidak lengkap disebut stem soal. Daftar saran pemecahan termasuk kata-kata, nomor, simbol, atau frasa disebut alternative (juga disebut pilihan atau option). Peserta didik disarankan untuk membaca stem dan daftar pilihan dan memilih satu pilihan yang tepat atau yang terbaik. Pilihan yang tepat pada setiap soal disebut jawaban, dan pilihan tersisa disebut pengecoh (juga disebut pemikat atau gagal). Pilihan-pilihan yang tidak tepat fungsinya dalam soal untuk mengecoh peserta didik yang ragu-ragu mengenai jawaban yang tepat. Soal pilihan ganda dikatakan berkualitas bila memenuhi syarat validitas dan reliabilitas. Keberhasilan penilaian bergantung pada tingkat keberhasilan pengembangan instrumen dalam memenuhi syarat agar menghasilkan instrumen soal yang berkualitas tinggi. Analisis kualitas soal pilihan ganda merupakan kegiatan penting dalam upaya memperoleh instrumen penilaian yang berkategori baik. Melalui analisis ini dapat diidentifikasi dan diketahui butir-butir soal manakah yang termasuk dalam kategori baik, kurang baik, dan jelek. Analisis kualitas soal pilihan ganda memungkinkan untuk memperoleh informasi mengenai baik tidaknya suatu butir soal, sekaligus memperoleh petunjuk untuk melakukan perbaikan soal yang ditulis. Menurut Nitko kegiatan menganalisis kualitas instrumen penilaian merupakan suatu kegiatan yang harus dilakukan untuk meningkatkan mutu soal yang telah ditulis. Kegiatan ini merupakan proses pengumpulan, peringkasan, dan penggunaan informasi dari jawaban peserta didik untuk membuat keputusan tentang setiap
TADBIR Jurnal Manajemen Pendidikan Islam
penilaian.4 Sementara menurut Aiken tujuan menganalisis butir soal adalah untuk mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum soal digunakan. Di samping itu, tujuan analisis ini juga untuk membantu meningkatkan kualitas soal melalui revisi atau membuang soal yang tidak efektif, serta untuk mengetahui informasi diagnostik pada peserta didik apakah mereka sudah ataupun belum memahami materi yang telah diajarkan.5 Linn & Gronlund menambahkan tentang pelaksanaan kegiatan analisis butir soal yang biasanya didesain untuk menjawab pertanyaanpertanyaan berikut: (1) apakah fungsi soal sudah tepat?; (2) apakah soal ini memiliki tingkat kesukaran yang tepat?; (3) apakah soal bebas dari hal-hal yang tidak relevan?; (4) apakah pilihan jawabannya efektif?. Kegunaan analisis butir soal bukan hanya terbatas untuk peningkatkan butir soal, tetapi ada beberapa hal, yaitu bahwa data analisis butir soal bermanfaat sebagai dasar untuk: (1) diskusi kelas efisien tentang hasil tes; (2) untuk kerja remedial, (3) untuk peningkatan secara umum pembelajaran di kelas; dan (4) untuk peningkatan keterampilan pada konstruksi tes.6 Berbagai uraian di atas menunjukkan bahwa analisis kualitas butir soal adalah: (1) untuk menentukan soal-soal yang cacat atau tidak berfungsi penggunaannya; (2) untuk meningkatkan butir soal melalui tiga komponen analisis yaitu tingkat kesukaran, daya pembeda, dan pengecoh soal, serta meningkatkan pembelajaran melalui ambiguitas soal dan keterampilan tertentu yang menyebabkan peserta didik sulit. Di samping itu, butir soal yang telah dianalisis dapat memberikan informasi kepada peserta didik dan guru. Untuk mendapatkan informasi tentang karakteristik setiap butir soal perlu dilakukan analisis soal, baik analisis kualitatif maupun analisis kuantitatif. Hasil analisis soal dapat digunakan untuk menguji apakah suatu soal akan berfungsi (analisis kualitatif) atau telah berfungsi (analisis kuantitatif) dengan baik. Jadi, ada dua cara yang dapat digunakan dalam penelahaan butir soal yaitu penelahaan secara 7 kualitatif dan kuantitatif.
4
Nitko, Anthony J. Educational Assessment of Students, Second Edition. (Ohio: Merrill an imprint of Prentice Hall Englewood Cliffs, 1996), h.308. 5 Aiken, Lewis R. Psychological Testing and Assessment, (Eight Edition), (Boston: Allyn and Bacon,1994), h.63. 6 Gronlund, N.E. Constructing Achievement Test. (3rd ed). (New York: Prentice Hall, Inc., Englewood Cliffs, 1982), h.315-318. 7 Zulaiha, Rahmah. Bagaimana Menganalisis Soal dengan Program Iteman. (Jakarta: Departemen Pendidikan Nasional Badan
Penelaahan soal secara kuantitatif maksudnya adalah penelaahan butir soal didasarkan pada data empirik dari butir soal yang bersangkutan. Ada dua pendekatan dalam analisis secara kuantitatif, yaitu teori secara klasik dan teori modern. Teori tes klasik adalah analisis butir soal yang menggunakan model pengukuran yang sangat sederhana, yakni skor yang tampak terdiri dari skor sebenarnya dan skor kesalahan. Sedangkan teori modern mempunyai orientasi pada item yang karakteristiknya tidak tergantung pada kelompok tertentu. Teori ini membebaskan ketergantungan antara item tes dan peserta tes (konsep invariansi parameter), respon peserta tes pada satu item tes tidak mempengaruhi item tes lainnya (konsep independensi lokal), dan item tes hanya mengukur satu dimensi ukur (konsep unidimensi). Salah satu teori pengukuran yang tertua didunia pengukuran adalah classical true-score theory. Teori ini dalam bahasa Indonesia sering disebut dengan teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya serta model yang sederhana serta sangat berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan. Pada teori tes klasik, ciri klasik ditunjukkan bahwa kelompok butir pada uji tes atau kuesioner tidak dapat dipisahkan dari kelompok peserta yang menempuh uji tes atau yang mengisi kuesioner (Naga, 1992: 4). Sebagai akibatnya, jika kelompok butir atau kuesioner yang sama ditempuh atau diisi oleh kelompok yang berbeda, maka ciri atau karakteristik kelompok butir itu pada umumnya berubah. Dengan kata lain, taraf kesukaran dan daya beda kelompok butir itu berubah semata-mata karena mereka ditanggapi oleh peserta yang berbeda. Untuk butir yang sama, kelompok peserta 8 berbeda menunjukkan ciri butir yang berbeda. Demikian pula, jika kelompok peserta yang sama menempuh kelompok butir tes atau mengisi kelompok butir kuesioner berbeda, maka ciri kelompok peserta pun pada umumnya berubah. Dengan kata lain, kemampuan atau sikap peserta berubah semata-mata karena mereka menempuh atau mengisi butir yang berbeda. Untuk peserta yang sama, kelompok butir berbeda menunjukkan ciri peserta yang berbeda. Dengan demikian, pada teori tes klasik, uji tes atau kuesioner sangat bergantung pada butir dan peserta. Sebagai konsekuensinya antara lain adalah kemampuan peserta seolah-olah tinggi jika diberikan tes yang tingkat kesukarannya rendah. Demikian juga sebaliknya, tingkat kesukaran butir tes kelihatannya Penelitian dan Pengembangan Pusat Penilaian Pendidikan, 2008), h.1 8 Naga, Dali. S. Pengantar Teori Sekor pada Pengukuran Pendidikan. (Jakarta: Gunadarma, 1992), h.4.
Volume 02 Nomor 2 Agustus 2014
233
tinggi jika diberikan kepada kelompok peserta yang 9 mempunyai kemampuan rendah. Hal ini sejalan dengan pendapat Hambleton, Swaminathan, & Rogers (1991) yang menyatakan bahwa kelemahan pada teori tes klasik adalah adanya sifat group dependent dan item dependent. Group dependent artinya hasil pengukuran tergantung pada kemampuan kelompok peserta yang mengerjakan tes. Jika tes diujikan kepada kelompok peserta dengan kemampuan tinggi, tingkat kesulitan butir soal akan rendah. Sebaliknya jika tes diujikan kepada kelompok peserta dengan kemampuan rendah, tingkat kesulitan butir soal akan tinggi. Item dependent artinya hasil pengukuran tergantung pada tes mana diujikan. Jika tes yang diujikan mempunyai tingkat kesulitan tinggi, estimasi kemampuan peserta tes akan rendah. Sebaliknya, jika tes yang diujikan mempunyai tingkat kesulitan rendah, estimasi kemampuan peserta tes akan tinggi. Inti teori tes klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama. Dari asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan. Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen & Yen (1979) menguraikan asumsi-asumsi teori klasik sebagai berikut: 1. Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan antara skor tampak (observed score) yang dilambangkan dengan huruf X, skor murni (true score) yang dilambangkan dengan T dan skor kasalahan (error) yang dilambangkan dengan E. Yang dimaksud kesalahan pada pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random. Hubungan itu adalah bahwa besarnya skor tampak ditentukan oleh skor murni dan kesalahan pengukuran. Secara matematis dapat dilambangkan dengan X = T + E 2. Asumsi kedua adalah bahwa skor murni (T) merupakan nilai ekspektasi atau harapan (є(x) = T). Dengan demikian skor murni adalah nilai rata-rata skor perolehan teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga) terhadap seseorang dengan menggunakan alat ukur. 3. Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat korelasi antara skor murni dan skor pengukuran pada suatu tes yang dilaksanakan (ρET = 0). Implikasi dari asumsi adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang selalu positif ataupun selalu negatif. 4. Asumsi keempat menyatakan bahwa korelasi antara kesalahan pada pengukuran pertama dan kesalahan pada pengukuran kedua adalah nol (ρE1E2 = 0). Artinya bahwa skor-skor 9
Ibid.,h.5.
234
kesalahan pada dua tes untuk mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan demikian besarnya kesalahan pada suatu tes tidak bergantung kesalahan pada tes lain. 5. Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak berkorelasi dengan skor murni pada tes kedua (ρE1T2 = 0). Namun, asumsi ini akan gugur jika salah satu tes tersebut ternyata mengukur aspek yang berpengaruh terhadap teradinya kesalahan pada pengukuran yang lain. 6. Asumsi keenam teori tes klasik adalah menyajikan tentang pengertian tes yang paralel. Dua perangkat tes dapat dikatakan sebagai testes yang paralel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat skor murni yang sama (T = T') dan varian skor-skor 2 2 kesalahannya sama (σ E = σ E’). Dalam prakteknya, asumsi keenam teori ini sulit terpenuhi. 7. Asumsi terakhir dari teori tes klasik menyatakan tentang definisi tes yang setara (essentially τequivalent). Jika dua perangkat tes mempunyai skor-skor perolehan X1 dan X2 yang memenuhi asumsi 1 sampai 5 dan apabila untuk setiap populasi subyek T1 = T2 + C12, dimana C12 adalah sebuah bilangan konstanta, maka kedua tes itu disebut tes yang paralel. Asumsi-asumsi teori klasik sebagaimana disebutkan di atas memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Daya beda, indeks kesukaran, efektifitas distraktor (pengecoh), reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik. 1. Validitas Validitas dapat berkenaan dengan ketepatan alat penilaian terhadap konsep yang dinilai sehingga betul-betul menilai apa yang seharusnya dinilai (Sudjana 2001). a. Validitas logis, terdiri atas: 1). Validitas isi, sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan (Arikunto 2007). Sedangkan validitas isi menurut Ary D. et al (2007) menunjuk pada sejauh mana instrumen tersebut mencerminkan isi yang dikehendaki. 2). Validitas konstruksi, sebuah tes dikatakan memiliki validitas konstruksi jika butir soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti yang dirumuskan dalam indikator (Arikunto 2007). b. Validitas empiris, terdiri atas: 1). Tingkat kesukaran, adalah pengukuran seberapa besar derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat kesukaran seimbang (proporsional), maka dapat dikatakan bahwa soal tersebut baik.
TADBIR Jurnal Manajemen Pendidikan Islam
Sebaiknya dalam penyusunan tes tidak terlalu sukar dan tidak pula terlalu mudah. Angka yang menunjukkan mengenai tingkat kesukaran dikenal dengan ”Difficulty Index” yang diberi lambang P (Proportion). Besarnya tingkat kesukaran antara 0,00 sampai dengan 1,0. Menurut Arikunto (2007) klasifikasi indeks kesukaran adalah sebagai berikut: Soal dengan P antara 0,00 sampai 0,10 adalah soal sangat sukar Soal dengan P antara 0,11 sampai 0,30 adalah soal sukar Soal dengan P antara 0,31 sampai 0,70 adalah soal sedang Soal dengan P antara 0,71 sampai 0,90 adalah soal mudah Soal dengan P > 0,90 adalah soal sangat mudah 2). Daya pembeda Daya pembeda adalah pengukuran sejauhmana suatu butir soal mampu membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum/kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koefisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik yang kurang menguasai kompetensi. Seluruh peserta tes dikelompokkan menjadi 2 yaitu kelompok atas (upper) dan kelompok bawah (lower). Angka yang menunjukkan besarnya daya pembeda adalah disebut ”Discriminating Power” yang diberi lambang D. Besarnya daya pembeda berkisar antara 0,00 sampai 1,00. Menurut Arikunto (2007) klasifikasi daya pembeda soal adalah sebagai berikut: D = 0,00 – 0,20 daya pembeda soal adalah jelek D = 0,21 – 0,40 daya pembeda soal adalah cukup D = 0,41 – 0,70 daya pembeda soal adalah baik D = 0,71 – 1,00 daya pembeda soal adalah baik sekali D = Negatif daya pembeda soal adalah sangat jelek 3. Analisis pengecoh Pada soal pilihan ganda terdapat alternatif jawaban/option yang merupakan pengecoh (distraktor). Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta didik yang menjawan salah. Sebaliknya butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap baik
apabila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Menurut Surapranata (2005) suatu pengecoh dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% peserta tes. 2. Reliabilitas Reliabilitas adalah ketetapan atau keajegan suatu alat evaluasi (Sudjana 2001). Sedangkan Singarimbun dan Soffian E (2008) menyatakan bahwa reliabilitas merupakan indeks yang menunjukkan sejauhmana suatu alat pengukur dapat dipercaya dan dapat diandalkan. Suatu tes dikatakan memiliki ketetapan jika dapat dipercaya, konsisten/stabil dan produktif kapanpun tes tersebut digunakan. Terdapat tiga cara untuk mengetahui reliabilitas suatu tes yaitu: a. Dengan metode dua tes, dua tes yang paralel dan setaraf diberikan kepada sekelompok siswa, kemudian kedua hasilnya dicari korelasinya. b. Dengan metode satu tes, sebuah tes diberikan dua kali kepada sekelompok siswa yang sama tapi dalam waktu yang berbeda. Kemudian kedua hasilnya dicari korelasinya. c. Metode split-half, suatu tes dibagi menjadi dua bagian yang sama tingkat kesukarannya, sama isi dan bentuknya. Kemudian dilihat skor masing-masing bagian paruhan tes tersebut dan dicari korelasinya. (Purwanto 2004) Nilai dari reliabilitas diberi lambang r yang dapat dicari besarnya dengan menggunakan rumus KR 20 atau SpearmanBrown. Menurut Arikunto (2007) harga r yang diperoleh dikonsultasikan dengan r Tabel product moment dengan taraf signifikan 5%. Jika harga r hitung > r Tabel , maka soal tersebut reliabel. Klasifikasi reliabilitas soal adalah sebagai berikut: 0,800 < r ≤ 1,000 : sangat tinggi 0,600 < r ≤ 0,800 : tinggi 0,400 < r ≤ 0,600 : cukup 0,200 < r ≤ 0,400 : rendah 0,000 < r ≤ 0,200 : sangat rendah C. Analisis Kualitas Soal Pilihan Ganda dengan Menggunakan Program ITEMAN ITEMAN merupakan perangkat/program untuk menganalisis butir soal dan tes. Program ini didasarkan pada teori tes klasik. Menurut Rudyatmi dan Anni (2010) analisis soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori klasik. Melalui data empiris butir soal yang ditampilkan dapat menjelaskan kualitas soal tersebut. Menurut Abidin (2008)
Volume 02 Nomor 2 Agustus 2014
235
terdapat kelemahan utama dari program ini yaitu sangat dipengaruhi oleh kemampuan responden. Artinya jika soal diujikan pada anak berkemampuan tinggi dengan anak berkemampuan rendah maka akan terjadi perbedaan hasil analisis. Untuk mengantisipasi hal tersebut maka biasanya analisis soal dengan menggunakan ITEMAN dilakukan secara sampling. Semakin besar sampling dan semakin baik teknik samplingnya maka semakin baik kualitas hasil analisis. Azwar yang diacu dalam Kustriyono (2004) menyatakan bahwa pada analisis butir menggunakan teori tes klasik tipe objektif, kualitas butir dilihat dari paling tidak dua parameter yaitu tingkat kesukaran dan daya pembeda. Selain itu juga menguji efektifitas distraktor-distraktor pada setiap butir untuk menentukan apakah distraktor tersebut berfungsi atau belum. Program ini termasuk satu paket dalam MicroCat yang dikembangkan oleh Assessment System Corporation mulai tahun 1982 dan mengalami revisi pada tahun 1984, 1986, 1988, dan 1993: mulai dari versi 2.00 sampai dengan versi 3.50. Menurut Rudyatmi dan Anni (2010) adapun fungsi dari program ITEMAN adalah: 1. Untuk menganalisis data file (format ASCII) jawaban butir soal yang dihasilkan manual melalui manual entry data atau dari mesin scanner 2. Menskor dan menganalisis data soal pilihan ganda untuk 30.000 siswa dan 250 butir soal 3. Menganalisis sebuah tes yang terdiri dari 10 skala (subtes) dan memberikan informasi tentang validitas setiap butir (daya pembeda, tingkat kesukaran, proporsi jawaban pada setiap option), reliabilitas (KR-20/Alpha), standar error measurement, mean, variance, standar deviasi, skew, kurtosis untuk jumlah skor pada jawaban benar, skor minimum dan maksimum, skor median dan frekuensi distribusi skor. Menurut Abidin (2008) program ITEMAN juga memberikan hasil skor untuk setiap peserta tes yang menunjukkan jumlah benar dari seluruh jawaban. Sebelum menggunakan program ITEMAN perlu diketahui bahwa terdapat 5 baris utama yang harus dientrykan. Data yang akan dianalisis diketik melalui notepad atau Microsoft Office Word dengan jenis font Courier New. File data yang akan dientrykan ke program ITEMAN terdiri atas 5 baris yaitu: a. Baris pertama adalah baris pengontrol yang mendeskripsikan data b. Baris kedua adalah daftar kunci jawaban setiap butir soal c. Baris ketiga adalah daftar jumlah option untuk setiap butir soal d. Baris keempat adalah daftar butir soal yang akan dianalisis (jika butir yang akan dianalisis diberi tanda Y, jika tidak diikutkan dalam analisis diberi tanda N)
236
e. Baris kelima dan seterusnya adalah data siswa dan jawaban pilihan siswa. Setiap pilihan jawaban siswa (untuk soal pilihan ganda) diketik dengan menggunakan huruf, misal ABCD atau 1234 untuk 4 pilihan jawaban, sedangkan untuk 5 pilihan jawaban yaitu ABCDE atau 12345. Adapun langkah-langkah melakukan analisis soal dengan ITEMAN adalah sebagai berikut. 1. Membuat File Data a. Contoh File data (file data ditulis dengan notepad atau Microsoft Office Word dengan jenis font Courier New) b. Keterangan Pengisian File Data 1) Baris Pertama: Kolom 1-3 : jumlah butir soal (contoh: 040) 4 : Spasi 5 : jawaban kosong (omit), ditulis 0 6 : Spasi 7 : soal yang belum dikerjakan, ditulis n 8 : spasi 9-10 : jumlah identitas data siswa (contoh: 07) Tambahan keterangan: Kolom 1-3, Untuk menuliskan jumlah soal: Kolom 1 ratusan, kolom 2 puluhan, kolom 3 satuan Kolom 5 : butir soal yang tidak dijawab Kolom 7 : butir soal yang belum sempat dikerjakan Kolom 9-10: panjang karakter untuk identitas siswa. 2) Baris kedua : kunci jawaban 3) Baris ketiga :jumlah jawaban 4) Baris Keempat : ‘Y’ butir soal yang dianalisis, ‘N’ butir soal yang tidak dianalisis 5) Baris kelima dan seterusnya : berisi jawaban siswa 2. Menjalankan Program Iteman a. Double klik file program ITEMAN b. Tulislah file data: contoh MTS.DAT (MTS.TXT), kemudian tekan enter c. Ketik nama file hasil analisis, contoh HSL.DAT (HSL.TXT), kemudian tekan enter d. Ketik ‘Y’, kemudian tekan enter e. Ketik file untuk total skor siswa, contoh SKOR.DAT (SKOR.TXT), kemudian tekan enter. f. Analisis selesai 3. Interpretasi hasil Analisis Hasil analisis dengan ITEMAN dapat dibedakan menjadi 2 bagian, yaitu statistik butir soal dan hasil analisis statistik tes/skala. a. Statistik butir soal adalah untuk tes yang terdiri dari butir-butir soal yang bersifat dikotomi misalnya pilihan ganda. Statistik berikut adalah output dari setiap butir soal yang dianalisis: 1) Seq.N : adalah nomor urut butir soal dalam file data
TADBIR Jurnal Manajemen Pendidikan Islam
2) Scala item : nomor urut butir soal dalam tes 3) Prop.Correc : proporsi siswa yang menjawab benar butir tes (indeks tingkat kesukaran soal secara klasikal). Nilai ekstrim (mendekati nol atau satu) menunjukkan bahwa butir soal tersebut terlalu sukar atau terlalu mudah untuk peserta tes. Indeks ini disebut juga indeks tingkat kesukaran soal secara klasikal. 4) Biser : indeks daya pembeda soal dengan menggunakan koefisien korelasi biserial. Nilai positif artinya peserta tes yang menjawab benar butir soal mempunyai skor relatif tinggi dalam tes tersebut. Sebaliknya nilai negatif menunjukkan bahwa peserta tes yang menjawab benar butir tes memperoleh skor tes yang relatif lebih rendah dalam tes. Untuk statistik pilihan jawaban korelasi biserial negatif sangat tidak dikehendaki untuk kunci jawaban (alternatif) dan sangat dikehendaki untuk pilihan jawaban yang lain (pengecoh). 5) Point biserial : juga indeks daya pembeda soal dan pilihan jawaban (alternatif) dengan menggunakan koefisien point biserial. Penafsirannya sama dengan statistik biserial. Statistik pilihan jawaban (alternatif) memberikan informasi yang sama dengan statistik butir soal. Perbedaannya adalah bahwa statistik pilihan jawaban dihitung secara terpisah. Untuk setiap pilihan jawaban dan didasarkan pada pilihan tidaknya alternatif tersebut, bukan pada jawabannya. Tanda bintang yang muncul di sebelah kanan hasil analisis menunjukkan kunci jawaban. b. Statistik tes 1) N of Items : jumlah butir soal dalam tes yang dianalisis. 2) N of Examines: Jumlah peserta tes 3) Mean : Skor atau rerata peserta tes 4) Variance : varian dari distribusi skor peserta tes yang memberikan gambaran tentang sebaran skor peserta tes. 5) Std.Deviasi : Deviasi standar dari distribusi skor tes (akar dari varians) 6) Skew : kemiringan distribusi skor peserta tes yang memberikan gambaran tentang
bentuk distribusi skor peserta tes. Kemiringan negatif menunjukkan bahwa sebagian besar skor berada pada bagian atas (skor tinggi) dari distribusi skor. Sebaliknya, kemiringan positif menunjukkan bahwa sebagian besar skor pada bagian bawah (skor rendah) dari distribusi skor. Kemiringan nol menunjukkan bahwa skor berdistribusi secara simetris di sekitar skor rata-rata. 7) Kurtosis : puncak distribusi skor yang menggambarkan kelandaian distribusi skor dibanding dengan distribusi normal. Nilai positif menunjukkan distribusi yang lebih lancip (memuncak) dan nilai negatif menunjukkan distribusi yang lebih landai (merata). Kurtosis untuk distribusi normal adalah nol. 8) Minimum : skor terendah peserta tes 9) Maximum : skor tertinggi peserta tes 10) Median : skor tengah dimana 50% berada pada atau lebih rendah dari skor tersebut. 11) Alpha : koefisien reliabilitas alpha untuk tes atau skala tersebut yang merupakan indeks homogenitas tes atau skala. Koefisien alpha bergerak dari 0,0 sampai 1,0. Koefisien alpha hanya cocok digunakan untuk tes yang bukan mengukur kecepatan dan yang hanya mengukur satu dimensi. Semakin tinggi koefisien alpha menandakan semakin reliabel suatu soal. 12) SEM : kesalahan pengukuran standar untuk setiap tes atau skala. SEM merupakan estimasi dari deviasi standar kesalahan pengukuran dalam skor tes. 13) Mean P : rerata tingkat kesukaran semua butir soal dalam tes secara klasikal dihitung dengan cara mencari rata-rata proporsi peserta tes yang menjawab benar untuk semua butir soal dalam tes. 14) Mean item tot : nilai rata-rata indeks daya pembeda dari semua soal dalam tes yang diperoleh dengan menghitung nilai ratarata point biseral dari semua soal dalam tes 15) Mean biserial : nilai rata-rata indek daya pembeda yang diperoleh dengan menghitung nilai rata-rata korelasi biserial dari semua butir soal.
Untuk lebih jelasnya cara menggunakan program ini, pertama data diketik di DOS atau Windows. Cara termudah adalah menggunakan program Windows yaitu dengan mengetik data di tempat Notepad. Caranya adalah klik Start-Programs-Accessories-Notepad. Contoh pengetikan data untuk soal bentuk pilihan ganda 30 o n 6 [Jumlah soal, kode omit, kode tidak dijawab, jmlh karakterl 43142442113424141324213411334 [Kunci jawaban dapat ditulis dengan angka atau hurufl 444444444444444444444444444444 [Jumlah pilihan] YYYYYYYYYYYYYYYYYYYYYYYYYYYYYY [Soal yang dianalisis, bila tidak dianalisis ditulis NJ
Volume 02 Nomor 2 Agustus 2014
237
Dita
123123244113424143324213211334 (Jawaban siswa, dapat ditulis Fauria 423142243413424141124213111233 dengan angka atau huruf) Fara 423142242113424141324213411334 Nafis 143142242433434141324413431334 Raufan 243142242413434141411213211134 Dina 423342224113423141421213044331 Contoh pengetikan data untuk skala Likert. 30 x Y 10 [Jumlah soal, kodc omit, kode tidak dijawab, jmlh karakter] [Positif/negative pernyataan] +++++++ ----------- +++++ ---------- +++++-[Jumlah pilihan] 777777777777777777777777777777 [Kode skala] 111111111111111111111111111111 Nurul Imam
211214123242343423111231243767 312214214242443423224562332565
Ali Kiki
2242123313324431243254624371YY 22421112X432443323226556664122
Chanan
32421424234244344322653546X343
[Jawaban siswa, dapat ditulis dengan angka atau huruf)
Contoh lain pengetikan data untuk soal bentuk pilihan ganda 25 0 N 24 ABDCEBCEDAABEDCCBDBAEDCAB Kuncine 5555555555555555555555555 Pilihane YYYYYYYYYYYYYYYYYYYYYYYYY IWAN SUYAWAN ABDCEBCEDAABEDCEADBAEEECB TIKA HATIKAH ACCEEBCDBAABEECBBDBAEEAAB YENNY SUKHRAINI ABDDDBCEDAABCACCBDDBCDCAB WIJI PURWANTA ACBCEBCEDDCEEDCCAADAEDBBB HENNY LISTIANA ABDCECBDDAABDEACBDBBBECAB UJANG HERMAWAN CDDCEBCEDCDCEDCCBBCADDCAE NIKEN IRIANTI CDDCEBACDAABEBBCBDBAADAAB MIMIK RIATIN ABDDDBCEDAABCACCBDDBCDCAB NUR WAHYU RISDIANTO ABDBCDCEDAABBCDCBDBAAACAB RURI SUSIYANTI AEDEEBCEDBBDEDCCBDCDBDCAB RYSA DWI INDAH YATI ABCDEBCEDAABCACCBDBDEBCAB ANDRIKO ACDCEBCECBCBEDCADABAEBBCB JOKO SLAMET AAAABBBCCCDDEEAABBCCDDEEA LUKMAN NURHUDA ACDBEBCECDBBEDCCBBAAEDCBB OTAH PIANTO DBBCEBAECAABDCBCBDBAEAEAB AKHMAD SYAMSURIZAL ADDCEBCEDCBCDDCCBDBEEDCAB DENY TRI SETIAWAN ABCDABCEDABCBDCCBDEAEDCAB DEWI SETYOWATI ACCBEBCDCBABEDBCEDBDCBCAC ISMAIL SHOLEH ABDBCDCEDAABBCDCBDBAAACAB JEMI INTARYO ACCEEBCDBAABEECBBDBAEEAAB
Langkah kedua data yang telah diketik disimpan, misal disimpan pada file: Tes1.txt. Selanjutnya untuk menggunakan program Iteman yaitu dengan mengklik icon Iteman. Kemudian isilah pertanyaan-pertanyaan yang muncul di layar computer seperti berikut.
Enter the name of the input file: Tesl.txt <enter> Enter the name of the output file: haltesl.txt <enter>
Langkah ketiga adalah membaca hasil, yaitu dengan mengklik icon hsltes1. Hasilnya adalah seperti pada contoh berikut.
238
TADBIR Jurnal Manajemen Pendidikan Islam
MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file tes1.txt
Seq. No. ---1
Scale -Item ----0-1
Item Statistics ----------------------Prop. Point Correct Biser. Biser. ------- ------ -----0.850
-0.018
-0.012
CHECK THE KEY A was specified, C works better
2
3
4
0-2
0-3
0-4
0.450
0.600
0.400
0.534
0.515
0.172
0.425
0.406
0.135
CHECK THE KEY C was specified, D works better
5
0-5
0.700
0.215
0.163
CHECK THE KEY E was specified, D works better
6
0-6
0.850
-0.089
-0.058
CHECK THE KEY B was specified, D works better
Page
1
Alternative Statistics ----------------------------------Prop. Point Alt. Endorsing Biser. Biser. Key ----- --------- ------ ------ --A B C D E Other
0.850 0.000 0.100 0.050 0.000 0.000
-0.018 -9.000 0.047 -0.040 -9.000 -9.000
-0.012 -9.000 0.028 -0.019 -9.000 -9.000
A B C D E Other
0.050 0.450 0.300 0.150 0.050 0.000
-1.000 0.534 -0.262 0.231 0.121 -9.000
-0.856 0.425 -0.199 0.151 0.057 -9.000
A B C D E Other
0.050 0.100 0.250 0.600 0.000 0.000
-1.000 -0.142 0.039 0.515 -9.000 -9.000
-0.856 -0.083 0.029 0.406 -9.000 -9.000
A B C D E Other
0.050 0.200 0.400 0.200 0.150 0.000
-1.000 -0.059 0.172 0.474 0.018 -9.000
-0.856 -0.041 0.135 0.332 0.012 -9.000
A B C D E Other
0.050 0.050 0.100 0.100 0.700 0.000
0.281 -1.000 0.142 0.331 0.215 -9.000
0.133 -0.856 0.083 0.194 0.163 -9.000
A B C D E Other
0.000 0.850 0.050 0.100 0.000 0.000
-9.000 -0.089 -0.040 0.142 -9.000 -9.000
-9.000 -0.058 -0.019 0.083 -9.000 -9.000
Volume 02 Nomor 2 Agustus 2014
* ?
*
*
* ?
? *
* ?
239
MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file tes1.txt
Seq. No. ----
Scale -Item -----
25
0-25
Item Statistics ----------------------Prop. Point Correct Biser. Biser. ------- ------ -----0.850
1.000
0.685
Page
5
Alternative Statistics ----------------------------------Prop. Point Alt. Endorsing Biser. Biser. Key ----- --------- ------ ------ --A B C D E Other
0.050 0.850 0.050 0.000 0.050 0.000
-1.000 1.000 -0.523 -9.000 -0.040 -9.000
-0.856 0.685 -0.247 -9.000 -0.019 -9.000
*
K eterangan: Prop. Correct= tingkat kesukaran butir:, Biser dan Point Biser.= korelasi Biserial dan Korelasi Point Biserial, Alt.= alternative/pilihan jawaban, Prop. Endorsing= proporsi Jawaban pada setiap option MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file tes1.txt
There were 20 examinees in the data file.
Scale Statistics ---------------Scale:
0 ------N of Items 25 N of Examinees 20 Mean 16.250 Variance 9.087 Std. Dev. 3.015 Skew -2.463 Kurtosis 6.976 Minimum 5.000 Maximum 20.000 Median 17.000 Alpha 0.437 SEM 2.261 Mean P 0.650 Mean Item-Tot. 0.266 Mean Biserial 0.352
Hasil scor butir soal pilihan ganda dari ITEMAN versi 3.00
240
TADBIR Jurnal Manajemen Pendidikan Islam
Page
6
24 1 Scores for examinees from file tes1.txt IWAN SUYAWAN 20.00 TIKA HATIKAH 16.00 YENNY SUKHRAINI 18.00 WIJI PURWANTA 15.00 HENNY LISTIANA 16.00 UJANG HERMAWAN 16.00 NIKEN IRIANTI 17.00 MIMIK RIATIN 18.00 NUR WAHYU RISDIANTO 17.00 RURI SUSIYANTI 17.00 RYSA DWI INDAH YATI 19.00 ANDRIKO 15.00 JOKO SLAMET 5.00 LUKMAN NURHUDA 17.00 OTAH PIANTO 16.00 AKHMAD SYAMSURIZAL 19.00 DENY TRI SETIAWAN 18.00 DEWI SETYOWATI 13.00 ISMAIL SHOLEH 17.00 JEMI INTARYO 16.00 Hasil korelasi point-biserial (rpbi) dan korelasi biserial (rpbis) berasal dari perhitungan rumus berikut.
r pbi = Yp Yt dan St p U
Y p − Yt St
= = = =
Y p − Yt p atau r bis = (1 − p ) St
p(1 − p ) U
mean skor pada kriterion siswa yang menjawab benar soal. mean dan standard deviasi kriterion seluruh siswa. proporsi siswa yang menjawab benar soal. ordinat kurva normal.
Korelasi point-biserial (r pbi) tidak sama dengan 0, korelasi biserial (r bis) paling sedikit 25% lebih besar daripada r pbi untuk perhitungan pada data yang sama. Korelasi point-biserial (r pbi) merupakan korelasi product moment antara skor dikotomus dan pengukuran kriterion; sedangkan korelasi biserial (r bis) merupakan korelasi product moment antara variabel latent distribusi normal berdasarkan dikotomi benarsalah dan pengukuran kriterion. Menurut Millman dan Greene (1989) dalam Educational Measurement, kedua korelasi ini memiliki kelebihan masing-masing. Kelebihan korelasi point biserial adalah: (1) memberikan refleksi kontribusi soal secara sesungguhnya terhadap fungsi tes. Maksudnya ini mengukur bagaimana baiknya soal berkorelasi dengan kriterion (tidak bagaimana baiknya beberapalsecara abstrak); (2) sederhana dan langsung berhubungan dengan statistik tes; (3) tidak pernah mempunyai value 1,00 karena hanya variabel-variabel dengan distribusi bentuk yang sama yang dapat berkorelasi secara sempurna, dan variabel kontinyu (kriterion) dan skor dikotomus tidak mempunyai bentuk yang sama. Kelebihan korelasi biserial adalah: (1) cenderung lebih stabil dari sampel ke sampel, (2) penilaian lebih akurat tentang bagaimana soal dapat diharapkan untuk membedakan pada beberapa perbedaan point di skala abilitas, (3) value r bis yang sederhana lebih langsung berhubungan dengan indikator diskriminasi kurva karakteristik butir (Item Characteristic Curve atau ICC). Kebanyakan para ahli pendidikan, khususnya di Indonesia, banyak yang menggunakan korelasi point biserial daripada korelasi biserial. Kriteria baik tidaknya butir soal menurut Ebel dan Frisbie (1991) dalam Essentials of Educational Measurement halaman 232 adalah bila korelasi point biserial: >0.40=butir soal sangat baik; 0.30 - 0.39=soal baik, tetapi perlu perbaikan; 0.20 - 0.29=soal dengan beberapa catatan, biasanya diperlukan perbaikan; < 0. 19=soal jelek, dibuang, atau diperbaiki melalui revisi. Adapun tingkat kesukaran butir soal memiliki skala 0 - 1. Semakin mendekati 1 soal tergolong mudah dan mendekati 0 soal tergolong sukar.
Volume 02 Nomor 2 Agustus 2014
241
D. Hasil Analisis Hasil analisis secara kuantitatif soal pilihan ganda sebanyak 25 soal dengan menggunakan program ITEMAN versi 3.00 dapat diketahui validitas soal yang meliputi indeks tingkat kesukaran soal, daya pembeda, dan efektifitas pengecoh serta reliabilitas soal sebagai berikut. B K Distribusi Tingkat Daya Pembeda Kesukaran U U jawaban tiap butir Pengecoh (Biser) (Prop.Correct) T N (dalam %) (Prop. I
C
Endorsing) Angka
Kategori
Angka
Kategori
A
B
C
D
R
I
1
B
1.000
Sgt.Muda h
-9.000
Sgt.Jelek
0.000
1.000
0.000
0.000
Tidak berfungsi
2
C
1.000
Sgt.Muda h
-9.000
Sgt.Jelek
0.000
0.000
1.000
0.000
Tidak berfungsi
3
C
1.000
Sgt.Muda h
-9.000
Sgt.Jelek
0.000
0.000
1.000
0.000
Tidak berfungsi
4
D*
0.925
Sgt.Muda h
0.163
Jelek
0.008
0.008
0.058
0.925
Tidak berfungsi
5
D
0.417
Sedang
0.797
Baik Skli
0.325
0.108
0.150
0.417
Berfungsi
6
A
0.375
Sedang
0.654
Baik
0.375
0.092
0.200
0.333
Berfungsi
7
D
0.308
Sedang
0.863
Baik Skli
0.325
0.125
0.242
0.308
Berfungsi
8
C
0.392
Sedang
0.504
Baik
0.300
0.058
0.392
0.250
Berfungsi
9
C
0.267
Sukar
0.976
Baik Skli
0.425
0.083
0.267
0.225
Berfungsi
10
C
0.567
Sedang
0.288
Cukup
0.200
0.117
0.567
0.117
Berfungsi
11
B
0.500
Sedang
0.263
Cukup
0.283
0.500
0.067
0.150
Berfungsi
12
C
0.575
Sedang
0.399
Cukup
0.192
0.033
0.575
0.200
Berfungsi
13
B
0.400
Sedang
0.511
Baik
0.217
0.400
0.208
0.175
Berfungsi
14
A
0.425
Sedang
0.475
Baik
0.425
0.083
0.350
0.142
Berfungsi
15
C
0.467
Sedang
0.495
Baik
0.250
0.117
0.467
0.167
Berfungsi
16
C
0.383
Sedang
0.284
Cukup
0.250
0.175
0.383
0.192
Berfungsi
17
D
0.592
Sedang
0.158
Jelek
0.208
0.033
0.167
0.592
Berfungsi
18
B
0.408
Sedang
0.487
Baik
0.225
0.408
0.250
0.117
Berfungsi
19
D
0.525
Sedang
0.221
Cukup
0.167
0.050
0.258
0.525
Berfungsi
20
A*
0.608
Sedang
-0.019
Sgt.Jelek
0.608
0.008
0.300
0.083
Berfungsi
21
B
0.533
Sedang
0.465
Baik
0.192
0.533
0.208
0.067
Berfungsi
22
C
0.533
Sedang
0.297
Cukup
0.158
0.083
0.533
0.225
Berfungsi
23
C
0.342
Sedang
0.469
Baik
0.175
0.117
0.342
0.367
Berfungsi
24
C
0.600
Sedang
0.470
Baik
0.058
0.133
0.600
0.208
Berfungsi
242
TADBIR Jurnal Manajemen Pendidikan Islam
25
D*
0.692
Σ soal sangat sukar Σ soal sukar Σ soal sedang Σ soal mudah Σ soal sangat mudah
Sedang
=0 =1 = 20 =0 =4
0.094
Jelek
Σ soal baik sekali Σ soal baik Σ soal cukup Σ soal jelek Σ soal sangat jelek
0.092
0.008
0.208
0.692
=3 =9 =6 =3 =4
pengecoh berfungsi tidak berfungsi = 4
Berfungsi
= 21
E. Pembahasan Hasil analisis kuantitatif yang mencakup analisis validitas, reliabilitas, daya beda dan tingkat kesukaran, efektifivitas pengecoh diperoleh dengan bantuan program computer microCat iteman. Dengan melihat hasil iteman, akan mengetahui reliabilitas soal dari koefisien alpha dan analisis butir soal berupa indeks kesulitan, indeks daya beda, dan keefektifan distraktor. 1. Validitas soal Validitas soal dalam analisis ini yang dimaksud validitas soal meliputi tingkat kesukaran, daya beda, dan efektifitas pengecoh. a. Tingkat kesukaran Berdasarkan hasil analisis kuantitatif soal pilihan ganda menggunakan ITEMAN pada Tabel 1 diketahui bahwa soal 0% sangat sukar; 2,5% sukar; 80% sedang; 10% mudah dan 7,5% sangat mudah. Tingkat kesukaran soal tersebut secara keseluruhan termasuk sedang. Dilihat dari tingkat kesukaran (dengan menggunakan ITEMAN ditunjukkan dengan proporsi siswa menjawab benar/proportion correct), maka soal Fisika memiliki tingkat kesukaran sedang. b. Daya beda Pada tabel di atas diketahui bahwa soal dengan daya beda baik sekali memiliki persentase 15%, soal dengan daya beda baik sebesar 32,5%, soal dengan daya beda cukup sebesar 20%, soal dengan daya beda jelek sebesar 22,5%, dan soal dengan daya beda sangat jelek sebesar 10% yang bernilai positif. Artinya soal tersebut dapat membedakan siswa yang berkemampuan tinggi dan yang berkemampuan rendah. Soal yang memiliki nilai daya beda negatif sebesar 10% (4 soal yaitu no 1,2,3, dan 20) tidak dapat membedakan siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah. Hal ini ditunjukkan dengan nilai biser berturut-turut sebesar -9,000, -9,000, -9,000 dan -0.019 dan point biser berturt-turut sebesar -9,000, -9,000, -9,000 dan -0.015 (tabel 1). Butir soal yang memiliki nilai negatif menunjukkan peserta tes yang menjawab benar butir soal tersebut memiliki skor yang relatif rendah atau dengan kata lain peserta tes yang memiliki skor relatif tinggi tidak mampu menjawab butir soal tersebut. Dapat dikatakan bahwa butir soal tersebut tidak dapat membedakan siswa yang pandai dan yang tidak pandai. Semakin tinggi nilai daya beda soal (bernilai positif) maka semakin baik soal tersebut. Meskipun memiliki nilai positif, akan tetapi soal yang sebaiknya digunakan adalah soal yang memiliki daya beda cukup, baik dan baik sekali. Hal ini sesuai dengan pendapat Zaman et al (2010) bahwa soal yang memiliki daya beda 0,2 – 0,4 (cukup) sebaiknya direvisi pada stem soal, setelah lolos revisi maka soal tersebut dapat digunakan dalam tes. c. Efektifitas pengecoh Berdasarkan tabel di atas yang menunjukkan hasil analisis butir soal menggunakan ITEMAN maka dapat diketahui bahwa 90% pilihan jawaban pada soal dapat berfungsi. Artinya pilihan jawaban (bukan kunci jawaban) telah berfungsi sebagaimana mestinya yaitu sebagai pengecoh. Sisanya yaitu sebanyak 10% pengecoh tidak berfungsi. Pada soal dengan tingkat kesukaran sangat mudah maka pengecoh tidak berfungsi yaitu soal no 1,2,3 dan 4. Hal ini karena pokok soal yang terlalu mudah sehingga peserta tes dengan mudah menjawab tanpa menghiraukan pilihan jawaban lain (dalam hal ini pengecoh). Maka dalam menyusun soal perlu diperhatikan tingkat kesukaran soal dan hubungannya dengan pilihan jawaban. Tes pilihan ganda yang disusun tanpa memperhatikan homogenitas tidaknya pilihan jawaban akan berpeluang untuk tidak berfungsi. Karena peserta tes akan dengan mudah menebak tanpa berpikir panjang akan langsung menjawab pada kunci jawaban, artinya tidak menghiraukan pilihan jawaban lain sebagai pengecoh yang tidak homogen. Demikian juga jika pokok soal memberi petunjuk untuk jawaban yang benar. Petunjuk untuk pilihan jawaban yang benar membuat peserta tes menjawab sesuai dengan petunjuk. Hal ini akan menyebabkan alternatif jawaban lain tidak berfungsi. Menurut Aprianto (2008) terdapat beberapa faktor yang mempengaruhi berfungsi tidaknya suatu pengecoh yaitu jika soal terlalu mudah, pokok soal memberi petunjuk pada kunci jawaban dan siswa sudah mengetahui materi yang akan ditanyakan terlalu mudah.
Volume 02 Nomor 2 Agustus 2014
243
Efektifitas pengecoh dikatakan berfungsi jika dipilih oleh sebagian besar siswa yang berkemampuan rendah dan dipilih minimal 5% dari seluruh peserta tes dan dikatakan kurang berfungsi jika dipilih oleh peserta tes yang berkemampuan tinggi. Jika pengecoh lebih banyak dipilih oleh peserta yang berkemampuan tinggi maka dapat dikatakan pengecoh tersebut menyesatkan. Apabila tes dipilih secara merata oleh peserta tes maka pengecoh tersebut berfungsi. Hasil analisis seluruh butir soal fisika terdapat beberapa butir soal yang memiliki daya beda (biser dan point biser) untuk pengecoh yang bernilai positif yaitu soal no 14 pada pengecoh D; no 16 pada pengecoh B; no 22 pada pengecoh B. Dalam hal ini berarti pengecoh tersebut tidak dapat membedakan kemampuan peserta tes, yaitu siswa yang memperoleh skor tinggi menjawab salah soal tersebut. Hal ini sesuai dengan Shakil (2008) yang menyatakan bahwa kualitas pengecoh dalam soal mempengaruhi hasil dari skor keseluruhan peserta tes. Tanda negatif pada pengecoh (pilihan jawaban bukan kunci jawaban) menunjukkan bahwa pengecoh sudah berfungsi dengan baik dimana peserta tes yang skornya rendah memilih pengecoh sebagai jawaban yang benar. Soal no 4 dimana terdapat tanda tanya pada pengecoh A (dimana kunci jawaban adalah D); no 20 dimana terdapat tanda tanya pada pengecoh D (dimana kunci jawaban adalah A); no 25 dimana terdapat tanda tanya pada pengecoh A (dimana kunci jawaban adalah D);, maka pengecoh atau kunci jawaban tersebut perlu ditinjau lagi dari segi kualitatif. Sebagai tindak lanjut atas hasil analisis terhadap berfungsi tidaknya pengecoh maka untuk pengecoh yang telah berfungsi pada soal tersebut dapat digunakan untuk ulangan akhir semester selanjutnya, sedangkan pengecoh yang belum berfungsi perlu diganti atau direvisi dengan pengecoh lainnya. Selain itu jika soal memiliki tingkat kesukaran 1 (misalnya pada soal no 1,2,dan 3 dari hasil analisis ) artinya semua siswa menjawab benar soal tersebut. Nilai biser menunjukkan angka -9,000, hal ini berarti bahwa pengecoh tidak dapat membedakan peserta tes yang memiliki kemampuan tinggi dan yang memiliki kemampuan rendah. Menurut Widodo (2010) penyebab pengecoh yang tidak dipilih oleh peserta tes karena terlalu kelihatan menyesatkan. Pengecoh yang jelek sebaiknya diganti. Selain itu juga perlu diperhatikan lagi, apakah pilihan jawaban tidak homogen atau justru siswa sudah benar-benar memahami konsep materi yang diajarkan. 2. Reliabilitas soal Penghitungan menggunakan ITEMAN dapat diketahui nilai reliabilitas soal melalui scale statistic. Indeks reliabilitas berkisar antara 0-1 dengan lima kriteria. Semakin tinggi koefisien reliabilitas suatu tes, semakin tinggi pula keajegan atau ketepatannya. Nilai alpha/reliabilitas soal yang dihitung secara keseluruhan adalah sebesar 0,761(lihat lampiran 1) artinya soal tersebut memiliki keajegan yang tinggi. Kehandalan yang dimaksud dalam hal ini meliputi ketepatan/kecermatan hasil pengukuran dan keajegan/kestabilan dari hasil pengukuran. Gronlund yang diacu dalam Surapranata (2005) menyebutkan bahwa untuk pengambilan keputusan individu, koefisien reliabilitasnya harus tinggi. 3. Keputusan Setelah melihat hasil analisis tingkat kesukaran, daya pembeda, dan efektifitas pengecoh serta reliabilitas soal, maka dapat diambil keputusan sebagai berikut. Butir
1
Tingkat Kesukaran
Sgt.Mudah
Daya Pembeda
Sgt.Jelek
Pengecoh
Keputusan
Tidak berfungsi
Soal sangat jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa butir soal ini tingkat kesulitannya adalah 1,000 yang artinya soal tersebut terlalu mudah. Dapat dilihat pula dari distribusi bahwa butir soal 1 kurang mampu membedakan siswa dengan kemampuan tinggi dengan sisiwa dengan kemampuan rendah.
2
Sgt.Mudah
Sgt.Jelek
Tidak berfungsi
Soal sangat jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa butir soal ini tingkat kesulitannya adalah 1,000 yang artinya soal tersebut terlalu mudah. Dapat dilihat pula dari distribusi bahwa butir soal 1 kurang mampu membedakan siswa dengan kemampuan tinggi dengan sisiwa dengan kemampuan rendah.
3
Sgt.Mudah
Sgt.Jelek
Tidak
Soal sangat jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa
244
TADBIR Jurnal Manajemen Pendidikan Islam
berfungsi
butir soal ini tingkat kesulitannya adalah 1,000 yang artinya soal tersebut terlalu mudah. Dapat dilihat pula dari distribusi bahwa butir soal 1 kurang mampu membedakan siswa dengan kemampuan tinggi dengan sisiwa dengan kemampuan rendah.
4
Sgt.Mudah
Jelek
Tidak berfungsi
Soal jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa butir soal ini tingkat kesulitannya adalah 0,925 yang artinya soal tersebut terlalu mudah. Dapat dilihat pula dari distribusi bahwa butir soal 1 kurang mampu membedakan siswa dengan kemampuan tinggi dengan sisiwa dengan kemampuan rendah.
5
Sedang
Baik Skli
Berfungsi
Dipakai untuk tes selanjutnya
6
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
7
Sedang
Baik Skli
Berfungsi
Dipakai untuk tes selanjutnya
8
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
9
Sukar
Baik Skli
Berfungsi
Dipakai untuk tes selanjutnya
10
Sedang
Cukup
Berfungsi
Sebelum dipakai sebaiknya direvisi dulu pada stem soalnya
11
Sedang
Cukup
Berfungsi
Sebelum dipakai sebaiknya direvisi dulu pada stem soalnya
12
Sedang
Cukup
Berfungsi
Sebelum dipakai sebaiknya direvisi dulu pada stem soalnya
13
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
14
Sedang
Baik
Berfungsi
Sebaiknya sebelum dipakai terlebih dahulu pengecoh D agar direvisi karna memiliki point biser positif dimana ada beberapa peserta yang berkemampuan tinggi tidak bisa menjawab dengan benar butir tersebut (daya beda butir ini tidak bisa membedakan siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah
15
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
Berfungsi
Sebaiknya sebelum dipakai terlebih dahulu pengecoh B agar direvisi karna memiliki point biser positif dimana ada beberapa peserta yang berkemampuan tinggi tidak bisa menjawab dengan benar butir tersebut (daya beda butir ini tidak bisa membedakan siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah
Berfungsi
Dibuang atau direvisi terlebih dahulu pengecoh A karna memiliki point biser hampir mendekati positif yaitu -0,001dimana ada beberapa peserta yang berkemampuan tinggi tidak bisa menjawab dengan benar butir tersebut (daya beda butir ini tidak bisa
16
17
Sedang
Sedang
Cukup
Jelek
Volume 02 Nomor 2 Agustus 2014
245
membedakan siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah 18
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
19
Sedang
Cukup
Berfungsi
Sebelum dipakai sebaiknya direvisi dulu pada stem soalnya
20
Sedang
Sgt.Jelek
Berfungsi
Dibuang
21
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
22
Sedang
Cukup
Berfungsi
Sebaiknya sebelum dipakai terlebih dahulu pengecoh B agar direvisi karna memiliki point biser positif dimana ada beberapa peserta yang berkemampuan tinggi tidak bisa menjawab dengan benar butir tersebut (daya beda butir ini tidak bisa membedakan siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah
23
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
24
Sedang
Baik
Berfungsi
Dipakai untuk tes selanjutnya
25
Sedang
Jelek
Berfungsi
Dibuang atau diperbaiki kunci jawabannya
CONTOH DAFTAR JAWABAN PESERTA TES NO
NAMA
JAWABAN PESERTA UAS
001
ANI
BCCDDADCCCBCBACBDBDABBCCD
002
SERLI
BCCDDADCCCBCBACBDBDABBCCD
003
ANDI
BCCDDADCCBBCBACBDBDABBCCD
004
AGUS
BCCDDADCCCBDBACCCBDABDCCD
005
FADLI
BCCDDAACCCBCAACCDADABCCCA
006
ANTI
BCCDDADCCCACBACADBDAACCCD
007
JASMIN
BCCDDADCCCACBAACDBCABCDCD
008
AKMAL
BCCDDADCCDBCBDCCDBCABCDCD
009
RESTU
BCCDDADCCCBDBACDDBDDBCCCA
010
SANTI
BCCDDADCCABCBACADBAABCACD
011
FADLAN
BCCDDADCCABCBDCCDADABACCD
012
YATI
BCCADADCACBCBCCCABDCBCDCD
013
TANTI
BCCDDDDCACBCDACCABDCBCDCD
014
FARUK
BCCDDADCACBABACCABDAACCCA
015
FAJRUL
BCCDDDDDCCDCDACCABDCBCBCD
016
KASWIN
BCCDDAACCABCCACADBCABACCC
246
TADBIR Jurnal Manajemen Pendidikan Islam
017
SAHRUN
BCCDDDDDCCDCBCCCABDDBDCDD
018
ERNA
BCCDDADDCCDCBBCBDBBABDCCB
019
DANI
BCCDDDDDCCDCDACBDCDCBCBCD
020
WARDA
BCCDDADCCDBCAACBDBBABBCCA
021
ASNI
BCCDDDDDCCACBBCCCBDCBCDCD
022
ASJON
BCCDDDDDCCACBBCCCBDCBCDCD
023
ISMAWATI
BCCDDDDCBCCCBDCDDBAABACCA
024
RATNA
BCCDDADDCCACBDCBDCDCBACCA
025
KODIRIN
BCCDDAACACBABACBDCDACCCDD
026
RASYID
BCCDDBDDCDBCAAACDADDBDCDD
027
JEIN
BCCDDAACCABABAACBBAACCDCA
028
WAYAN
BCCDDADACABCDAACDDDDBCDCD
029
EKAWATI
BCCDDBDBCBBDBADCDADAACCDD
030
WULANSARI
BCCDDADCCCACBDCCABDDBCDCD
MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file mts.dat Item Statistics Alternative Statistics --------------------------------------------------- --------------------------------------------------Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key ---- ----- ------- ------ ------ ----- --------- ------ ------ -------------- ------ -----1
0-1
1.000 -9.000 -9.000
A
0.000 B 1.000 C 0.000 D 0.000 Other 0.000
-9.000 -9.000 -9.000 -9.000 * -9.000 -9.000 -9.000 -9.000 -9.000 -9.000
2
0-2
1.000 -9.000 -9.000
A
0.000 B 0.000 C 1.000 D 0.000 Other 0.000
-9.000 -9.000 -9.000 -9.000 -9.000 -9.000 * -9.000 -9.000 -9.000 -9.000
3
0-3
1.000 -9.000 -9.000
A
0.000 B 0.000 C 1.000 D 0.000 Other 0.000
-9.000 -9.000 -9.000 -9.000 -9.000 -9.000 * -9.000 -9.000 -9.000 -9.000
A B C 0.925
0.607 0.152 ? -0.163 -0.041 -0.284 -0.141 0.163 0.087 *
4 0-4
0.925
0.163 0.087
CHECK THE KEY D was specified, A works better
D
0.008 0.008 0.058
Volume 02 Nomor 2 Agustus 2014
247
Other 0.000
-9.000 -9.000
5 0-5
0.417
0.797 0.631
A 0.325 B 0.108 C 0.150 D 0.417 Other 0.000
-0.441 -0.517 -0.241 0.797 -9.000 -9.000
-0.339 -0.309 -0.158 0.631 *
6 0-6
0.375
0.654 0.512
A 0.375 B 0.092 C 0.200 D 0.333 Other 0.000
0.654 -0.247 -0.473 -0.206 -9.000 -9.000
0.512 * -0.141 -0.331 -0.159
7 0-7
0.308
0.863 0.657
A 0.325 B 0.125 C 0.242 D 0.308 Other 0.000
-0.266 -0.418 -0.390 0.863 -9.000 -9.000
-0.205 -0.260 -0.284 0.657 *
8 0-8
0.392
0.504 0.397
A 0.300 B 0.058 C 0.392 D 0.250 Other 0.000
-0.236 -0.522 0.504 -0.161 -9.000 -9.000
-0.179 -0.260 0.397 * -0.118
9 0-9
0.267
0.976 0.725
A 0.425 B 0.083 C 0.267 D 0.225 Other 0.000
-0.205 -0.526 0.976 -0.532 -9.000 -9.000
-0.163 -0.292 0.725 * -0.382
10 0-10
0.567
0.288 0.229
A 0.200 B 0.117 C 0.567 D 0.117 Other 0.000
-0.009 -0.397 0.288 -0.167 -9.000 -9.000
-0.007 -0.243 0.229 * -0.102
11 0-11
0.500
0.263 0.210
A 0.283 B 0.500 C 0.067 D 0.150 Other 0.000
-0.078 0.263 -0.228 -0.210 -9.000 -9.000
-0.059 0.210 * -0.118 -0.137
12 0-12
0.575
0.399 0.316
A 0.192 B 0.033 C 0.575 D 0.200 Other 0.000
-0.033 -0.317 0.399 -0.442 -9.000 -9.000
-0.023 -0.131 0.316 * -0.309
13 0-13
0.400
0.511 0.403
A 0.217 B 0.400 C 0.208 D 0.175 Other 0.000
-0.029 0.511 -0.378 -0.312 -9.000 -9.000
-0.021 0.403 * -0.267 -0.212
14 0-14
0.425
0.475 0.377
A 0.425 B 0.083 C 0.350 D 0.142 Other 0.000
0.475 -0.098 -0.466 0.006 -9.000 -9.000
0.377 * -0.054 -0.362 0.004
248
TADBIR Jurnal Manajemen Pendidikan Islam
15 0-15
0.467
0.495 0.395
A 0.250 B 0.117 C 0.467 D 0.167 Other 0.000
-0.229 -0.449 0.495 -0.144 -9.000 -9.000
-0.168 -0.275 0.395 * -0.096
16 0-16
0.383
0.284 0.223
A 0.250 B 0.175 C 0.383 D 0.192 Other 0.000
-0.211 0.072 0.284 -0.220 -9.000 -9.000
-0.155 0.049 0.223 * -0.153
17 0-17
0.592
0.158 0.125
A 0.208 B 0.033 C 0.167 D 0.592 Other 0.000
-0.002 -0.317 -0.150 0.158 -9.000 -9.000
-0.001 -0.131 -0.100 0.125 *
18 0-18
0.408
0.487 0.385
A 0.225 B 0.408 C 0.250 D 0.117 Other 0.000
-0.148 0.487 -0.303 -0.249 -9.000 -9.000
-0.106 0.385 * -0.222 -0.152
19 0-19
0.525
0.221 0.176
A 0.167 B 0.050 C 0.258 D 0.525 Other 0.000
-0.109 -0.073 -0.165 0.221 -9.000 -9.000
-0.073 -0.035 -0.122 0.176 *
20 0-20
0.608 -0.019 -0.015
A 0.608 B 0.008 C 0.300 0.083 Other 0.000
-0.019 -0.163 -0.110 0.320 0.178 -9.000 -9.000
-0.015 * -0.041 -0.083 ?
CHECK THE KEY A was specified, D works better
D
21 0-21
0.533
0.465 0.371
A 0.192 B 0.533 C 0.208 D 0.067 Other 0.000
-0.333 0.465 -0.144 -0.409 -9.000 -9.000
-0.231 0.371 * -0.102 -0.212
22 0-22
0.533
0.297 0.236
A 0.158 B 0.083 C 0.533 D 0.225 Other 0.000
-0.321 0.273 0.297 -0.274 -9.000 -9.000
-0.212 0.151 0.236 * -0.197
23 0-23
0.342
0.469 0.363
A 0.175 B 0.117 C 0.342 D 0.367 Other 0.000
-0.386 -0.182 0.469 -0.099 -9.000 -9.000
-0.262 -0.111 0.363 * -0.077
24 0-24
0.600
0.470 0.371
A 0.058 B 0.133 C 0.600 D 0.208 Other 0.000
-0.109 -0.423 0.470 -0.271 -9.000 -9.000
-0.054 -0.268 0.371 * -0.191
25 0-25
0.692
0.094 0.072
A B
0.092 0.008
Volume 02 Nomor 2 Agustus 2014
0.479 0.273 ? 0.351 0.088
249
CHECK THE KEY D was specified, A works better
D
C 0.208 0.692 Other 0.000
-0.418 -0.296 0.094 0.072 * -9.000 -9.000
MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file mts.dat
Page 7
There were 120 examinees in the data file. Scale Statistics ---------------Scale:
0 ------N of Items 40 N of Examinees 120 Mean 22.533 Variance 32.682 Std. Dev. 5.717 Skew 0.843 Kurtosis -0.178 Minimum 14.000 Maximum 36.000 Median 20.000 Alpha 0.761 SEM 2.794 Mean P 0.563 Mean Item-Tot. 0.320 Mean Biserial 0.410 7 1 Scores for examinees from file mts.dat 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027
250
36.00 36.00 35.00 34.00 35.00 35.00 35.00 35.00 34.00 35.00 34.00 32.00 30.00 31.00 30.00 28.00 28.00 28.00 28.00 30.00 28.00 29.00 29.00 29.00 29.00 29.00 29.00
TADBIR Jurnal Manajemen Pendidikan Islam
028 029 030
29.00 29.00 29.00
Penutup Analisis kualitas butir soal pilihan ganda berfungsi untuk menentukan soal-soal yang cacat atau tidak berfungsi penggunaannya; (untuk meningkatkan butir soal melalui tiga komponen analisis yaitu tingkat kesukaran, daya pembeda, dan pengecoh soal, serta meningkatkan pembelajaran melalui ambiguitas soal dan keterampilan tertentu yang menyebabkan peserta didik sulit. Analisis butir soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori tes klasik. Aspek yang perlu diperhatikan dalam analisis butir soal secara klasik adalah setiap butir soal ditelaah dari segi: tingkat kesukaran butir, daya pembeda butir, dan penyebaran pilihan jawaban (untuk soal bentuk obyektif) atau frekuensi jawaban pada setiap pilihan jawaban. DAFTAR PUSTAKA Aiken, Lewis R. 1994. Psychological Testing and Assessment, (Eight Edition), Boston: Allyn and Bacon. Gronlund, N.E. 1982. Constructing Achievement Test. (3rd ed). New York: Prentice Hall, Inc., Englewood Cliffs. Linn, Robert L & Gronlund, Norman E. 1995. Measurement and Assessment in teaching (Seventh Edition). Ohio: Merrill, an immprint of Prentice Hall. Naga, Dali. S. 1992. Pengantar Teori Sekor pada Pengukuran Pendidikan. Jakarta: Gunadarma. Nitko, Anthony J. 1996. Educational Assessment of Students, Second Edition. Ohio: Merrill an imprint of Prentice Hall Englewood Cliffs. Sudjana, Nana. 2010. Penilaian Hasil Proses Belajar Mengajar. Bandung: Remaja Rosdakarya. Suwandi, Sarwiji. 2011. Model-Model Assesmen dalam Pembelajaran. Surakarta: Yuma Pustaka. Thorndike, R.M. 2005. Measurement and Evaluation in Psychology and Education (7th ed). New Jersey: Pearson Education. Inc. Zulaiha, Rahmah. 2008. Bagaimana Menganalisis Soal dengan Program Iteman. Jakarta: Departemen Pendidikan Nasional Badan Penelitian dan Pengembangan Pusat Penilaian Pendidikan.
Volume 02 Nomor 2 Agustus 2014
251