1
DAFTAR ISI KATA PENGANTAR DAFTAR ISI BAB I
ii iii
PENDAHULUAN A. Pengukuran dalam Pendidikan B. Teori Sekor Klasik dan Teori Sekor Modern
1 1 4
BAB II ANGKET DAN TES A. Angket B. Tes Hasil Belajar
8 8 11
BAB III VALIDITAS BUTIR INSTRUMEN A. Validitas Isi B. Validitas Kriterium C. Validitas Konstruk 1. Validitas Butir Tes Objektif 2. Validitas Butir Tes Esai, Tes Kinerja atau Angket
21 22 25 28 31 36
BAB IV RELIABILITAS INSTRUMEN A. Reliabilitas Instrumen dengan Formula Spearman-Brown B. Reliabilitas Instrumen dengan Formula Rulon C. Reliabilitas Instrumen dengan Formula Flanagan D. Reliabilitas Instrumen dengan Formula Kuder Richardson E. Reliabilitas Instrumen dengan Formula Hoyt F. Reliabilitas dengan Formula Alpha Cronbach G. Reliabilitas Rater H. Kriteria Reliabilitas Instrumen
41 42 45 49 52 60 67 72 80
2
BAB V TARAF KESUKARAN, DAYA BEDA, DAN EFEKTIVITAS PENGECOH A. Taraf Kesukaran Butir B. Daya Beda Butir C. Efektivitas Pengecoh
81 81 85 93
BAB VI PENGUJIAN INSTRUMEN DIKOTOMI A. Pengujian Validitas Butir B. Pengujian Reliabilitas Instrumen C. Pengujian Taraf Kesukaran Butir D. Pengujian Daya Beda E. Pengujian Efektivitas Pengecoh
94 96 100 108 109 111
BAB VII PENGUJIAN INSTRUMEN NON DIKOTOMI A. Pengujian Validitas Butir B. Pengujian Reliabilitas Instrumen C. Pengujian Taraf Kesukaran Butir D. Pengujian Daya Beda Butir
114 116 119 122 125
BAB VIII ANALISIS FAKTOR UNTUK BUTIR DENGAN SPSS A. Apa Itu Analisis Faktor B. Analisis Faktor dengan SPSS
128 128 131
BAB IX ANALISIS INSTRUMEN DENGAN PROGRAM ITEMAN A. Informasi Umum B. Sistem Komputer yang Diperlukan C. Instalasi Program D. Format File Data E. Menjalankan Program F. Hasil Analisis dan Interpretasi G. Contoh Penerapan
144 144 145 145 146 150 152 154
3
BAB X ANALISIS INSTRUMEN DENGAN PROGRAM BIGSTEPS A. Penjelasan Umum B. Sistem Komputer yang Diperlukan C. Instalasi Program D. Format File Kontrol dan File Data E. Menjalankan Program F. Hasil Analisis G. Contoh Penerapan
165 167 168 169 170 174 175 175
DAFTAR PUSTAKA
216
LAMPIRAN: Tabel Kritik Koefisien Korelasi
217
4
KATA PENGANTAR Pengujian instrumen merupakan suatu uji kelayakan instrumen yang akan digunakan untuk mengukur gejala psikologis yang merupakan hasil belajar, baik yang bersifat kognitif maupun non kognitif. Istilah lain yang sering digunakan adalah analisis instrumen atau analisis butir. Buku Pengujian Instrumen disusun dengan tujuan membantu mahasiswa untuk mempelajari teknik pengujian instrumen, baik secara manual maupun dengan bantuan komputer. Pembaca yang ingin memperdalam pengujian instrumen, dipersilakan membaca buku sumber dalam daftar pustaka. Pembahasan dalam buku ini lebih mengutamakan pada pengalaman praktis, sehingga lebih banyak membahas contoh penerapan daripada membahas teori. Pembahasan didahului dengan pembahasan secara manual, dengan harapan para mahasiswa memahami mekanisme penerapan teknik analisis yang sedang dipelajari. Setelah itu, pembahasan dilanjutkan dengan menggunakan program komputer. Melalui pendekatan seperti ini diharapkan mahasiswa memiliki pemahaman yang lebih terintegrasi. Setelah selesai mempelajari buku ini, para mahasiswa diharapkan mampu menganalis instrumen (tes), baik untuk kepentingan penelitian, untuk kepentingan pembelajaran, atau untuk kepentingan standarisasi tes. Proses ini diharapkan membawa efek yang lebih jauh, yakni peningkatan kualitas pendidikan secara umum, melalui peningkatan kualitas alat evaluasi pembelajaran dan juga peningkatan kualitas instrumen penelitian. Akhirnya, dengan terlebih dahulu memanjatkan puji sukur ke hadapan Tuhan Yang Maha Esa, buku ini dipersembahkan kepada pembaca yang budiman, semoga bermanfaat bagi dunia pendidikan. Singaraja, Agustus 2010 Penulis
5
BAB I PENDAHULUAN
A. Pengukuran dalam Pendidikan Evaluasi dalam pendidikan mencakup bidang kognitif, afektif, dan psikomotor. Ada dua istilah yang amat penting terkait dengan evaluasi pendidikan, yakni pengukuran dan asesmen. Pengukuran dilakukan untuk mendapatkan tingkatan sesuatu yang diperoleh dari belajar. Sementara itu, asesmen adalah penetapan tingkatan sesuatu yang diperoleh dari belajar dengan berbagai bukti. Oleh karena itu, evaluasi pendidikan didahului dengan proses pengukuran dan atau asesmen. Pengukuran bidang kognitif umumnya menggunakan tes atau asesmen bentuk yang lain, seperti portofolio. Pengukuran bidang afektif umumnya dilakukan melalui penyebaran angket, wawancara atau observasi (pengamatan). Pengukuran bidang psikomotor umumnya dilakukan melalui observasi kinerja, perbuatan atau prilaku. Pengkajian pada buku ini dibatasi pada pengukuran dengan menggunakan tes atau angket. Bagian yang amat penting dalam pengukuran pendidikan adalah penyekoran. Penyekoran menjadi amat penting karena pengukuran pendidikan mengukur gejala-gejala yang tidak dapat diamati, seperti hasil belajar, sikap, minat, motivasi. Gejala-gejala tersebut tidak dapat diukur secara langsung menggunakan alat tertentu. Pengukuran pendidikan yang melibatkan gejala-gejala yang tidak tampak masih memerlukan proses tertentu agar menampakkan indikator yang operasional, sehingga dapat diukur. Hal ini sangat berbeda dengan pengukuran-pengukuran gejala fisik. Pengukuran untuk mendapatkan data pada gejala-gejala atau fenomenafenomena fisik yang umum terjadi pada ilmu pengetahuan alam relatif 6
mudah karena gejala atau fenomena yang diukur sudah terdefinisi dengan jelas (well established), sehingga lebih mudah ditera. Berat benda, tahanan listrik, tekanan udara, atau masa partikel dapat diukur dengan baik karena ukuran dan alat ukur sudah jelas. Oleh karena itu, hubungan antara bilangan yang menyatakan hasil pengukuran dengan fenomena yang diukur sudah jelas. Bilangan hasil pengukuran akan dapat menjelaskan mana partikel yang masanya lebih besar, mana benda yang lebih tinggi, dan seterusnya. Tidak banyak interpretasi yang diperlukan untuk memahami hasil pengukuran gejala fisik. Gejala-gejala pada ilmu sosial dan ilmu perilaku termasuk ilmu pendidikan, seperti kemampuan, prestasi, motivasi, sikap, opini, dan seterusnya berbeda dengan gejala-gejala fisik pada ilmu pengetahuan alam. Pada gejala sosial dan gejala perilaku, hubungan antara suatu gejala dengan suatu bilangan sebagai hasil pengukurannya tidak terlalu jelas. Sangat banyak pertimbangan yang dapat mempengaruhi hasil pengukuran. Oleh karena itu, banyak hal yang harus dipertimbangkan pada pengukuran gejala sosial dan gejala perilaku termasuk pendidikan, baik pada penyusunan instrumen, pengujian instrumen, pelaksanaan pengukuran, maupun interpretasi hasil pengukuran. Gejala-gejala yang tidak tampak yang ingin diukur dalam pengukuran pendidikan dapat diakses dengan memberikan stimulus berupa tes atau angket. Pemberian tes atau angket kepada peserta merupakan stimulus yang dapat membuat peserta tersebut memberikan respon yang dapat ditafsirkan dalam bentuk sekor. Jika stimulus tersebut dibuat dengan tepat, maka respon tersebut dapat menggambarkan hasil belajar, minat, sikap atau motivasi. Stimulus berupa tes, angket atau bentuk lainnya umum disebut instrumen pengukuran. Apabila dinyatakan secara ringkas, maka proses pengukuran pendidikan dari awal sampai dengan mendapat sekor dapat diuraikan sebagai berikut.
1) Mendefinisikan gejala yang ingin diukur, misalnya hasil belajar, prestasi belajar, minat, sikap atau motivasi. 2) Memberikan stimulus berupa tes atau angket yang tepat kepada peserta. 3) Peserta memberikan respon yang 7
tepat terhadap stimulus yang diberikan berupa tes atau angket, yang mana respon tersebut diharapkan dapat menggambarkan gejala yang hendak diukur. 4) Menafsirkan respon yang diberikan oleh peserta menjadi sekor. Apabila keempat proses di atas berjalan dengan baik, maka sekor yang diperoleh peserta dapat menggambarkan gejala tidak tampak yang ingin diukur dengan pengukuran pendidikan. Ada beberapa persoalan yang mengemuka dalam pengukuran pendidikan. Persoalan pertama, apakah stimulus atau instrumen berupa tes atau angket sudah dapat mengukur gejala yang ingin diukur. Persoalan ini terkait dengan validitas instrumen yang harus mendapat pertimbangan secara cermat dalam penyusunan instrumen. Ada kriteria tertentu yang harus dipenuhi dalam hal validitas oleh sebuah instrumen dalam pengukuran pendidikan, sehingga instrumen tersebut dianggap sudah mampu mengukur gejala yang mestinya diukur. Apabila persoalan pertama telah terselesaikan karena instrumen sudah benar-benar mampu mengukur gejala yang mestinya diukur, maka persoalan kedua yang muncul adalah apakah respon yang diberikan oleh para peserta sudah dapat dipercaya untuk ditafsirkan menjadi sekor. Permasalahan kedua ini merupakan reliabilitas instrumen yang juga harus mendapatkan pertimbangan dengan cermat dalam penyusunan instrumen pengukuran pendidikan. Ada kriteria tertentu yang harus dipenuhi oleh reliabilitas instrumen, sehingga instrumen tersebut dapat dianggap reliabel, yang menggambarkan bahwa respon peserta sudah dapat dipercaya sebagai respon yang sebenarnya harus diberikan. Apabila reliabilitas instrumen sudah terpenuhi yang berarti respon peserta sudah dapat dipercaya, maka persoalan berikutnya adalah apakah penafsiran respon menjadi sekor sudah benar atau sudah tidak terdapat kekeliruan. Apabila terdapat kekeliruan, maka langkah apa yang harus ditempuh untuk menghindarkan kekeliruan tersebut agar diperoleh sekor murni. Persoalan terakhir yang juga harus mendapat pencermatan dalam penyusunan instrumen adalah apakah sekor yang diberikan berdasarkan pada respon peserta sudah tidak bergantung kepada kelompok butir yang 8
digunakan atau bergantung kepada kelompok peserta yang dikenakan. Apabila sekor yang diperoleh responden masih tergantung pada kelompok butir atau kelompok responden, maka sekor yang diperoleh responden belum merupakan sekor murni karena masih belum mampu menggambarkan kemampuan responden yang sebenarnya. B. Teori Sekor Klasik dan Teori Sekor Modern Sehubungan dengan beberapa persoalan penyekoran di atas, dalam pengukuran pendidikan dikenal sekor klasik dan sekor modern. Selain waktu pengembangannya memang berbeda, kedua sekor tersebut memang memiliki karakteristik yang sangat berbeda. Prosedur pengujian instrumen dengan teori sekor klasik sangat perberbedaan dibandingkan dengan pengujian instrumen dengan memakai teori sekor modern. Walaupun demikian, kedua jenis sekor tersebut masih digunakan saat ini. Sekor klasik masih sangat banyak digunakan, sedangkan sekor modern memang sudah banyak diterapkan, namun sebagian besar masih berada dalam proses pengembangan. Pada teori sekor klasik, sekor jawaban benar dan jawaban salah untuk satu butir dari semua responden menghasilkan sekor komposit butir. Sekor komposit butir pada sekor dikotomi adalah proporsi jawaban benar dari semua responden untuk butir tersebut. Apabila tingkat kesulitan butir bervariasi atau heterogen, maka ada butir yang memperoleh proporsi jawaban benar tinggi, ada butir yang memperoleh proporsi jawaban benar sedang, dan ada pula butir yang memperoleh proporsi jawaban benar rendah. Apabila tingkat kesulitan butir homogen tinggi, maka semua butir cenderung memperoleh proporsi jawaban benar yang rendah. Sebaliknya apabila tingkat kesulitan butir homogen rendah, maka semua butir cenderung memperoleh proporsi jawaban benar yang tinggi. Teori sekor klasik juga mengenal sekor komposit responden yang dimiliki oleh setiap responden. Pada uji coba tes, setiap responden mengerjakan semua butir. Sekor yang diperoleh oleh tiap-tiap responden untuk semua butir yang dikerjakan menghasilkan sekor komposit dari 9
responden masing-masing. Sekor komposit responden dapat dianggap sebagai ukuran keberhasilan responden bersangkutan. Responden yang memperoleh sekor komposit responden yang tinggi dianggap memiliki keberhasilan yang tinggi. Sebaliknya, responden yang memperoleh sekor komposit responden yang rendah dianggap memiliki keberhasilan yang rendah.
Apabila kondisi berjalan normal, maka akan terdapat hubungan antara tingkat keberhasilan responden dan peluang menjawab dengan benar pada butir tes. Umumnya, responden dengan keberhasilan tinggi mempunyai probabilitas lebih besar untuk dapat menjawab dengan benar suatu butir tes. Sebaliknya, responden dengan keberhasilan rendah mempunyai probabilitas lebih kecil untuk dapat menjawab dengan benar butir tes. Akan tetapi, secara insidental dapat saja terjadi hasil yang menyimpang dari ketentuan tersebut. Responden yang memiliki keberhasilan rendah dapat saja secara kebetulan memilih jawaban yang benar, yang sebetulnya tidak mereka duga. Di lain sisi, juga terdapat hubungan antara sekor komposit butir dengan tingkat kesukaran butir. Butir yang memiliki sekor komposit tinggi atau dengan kata lain butir tersebut dapat dijawab dengan benar oleh banyak responden adalah butir yang mudah. Sebaliknya, butir yang memiliki sekor komposit butir yang rendah atau dengan kata lain butir tersebut dapat dijawab dengan benar oleh sedikit responden adalah butir yang sukar. Dengan demikian, proporsi jawaban benar pada butir dapat juga ditafsir sebagai tingkat kesukaran dari butir itu. Apabila proporsi jawaban benar semakin besar, maka tingkat kesukaran butir tersebut semakin rendah. Demikian pula sebaliknya, apabila proporsi jawaban benar semakin rendah, maka tingkat kesukaran butir tersebut semakin tinggi.
Taraf kesukaran butir adalah ciri butir sedangkan keberhasilan responden adalah ciri responden. Pada sekor klasik, kelompok butir yang menghasilkan ciri responden dan kelompok responden yang menghasilkan ciri butir selalu tidak terpisahkan. Ciri butir selalu bergantung kepada kelompok responden. Kalau kelompok responden berubah, maka biasanya, ukuran ciri butir juga berubah. Sebaliknya, ciri responden bergantung 10
kepada kelompok butir. Kalau kelompok butir berubah, maka biasanya ukuran ciri responden juga berubah. Dengan kata lain, ukuran keberhasilan responden bergantung kepada kelompok butir tes, sebaliknya taraf kesukaran butir bergantung kepada kelompok responden yang dikenakan tes. Jadi teori sekor klasik memiliki ciri khas ketergantungan pada peserta tes. Artinya, antara butir tes dengan peserta memiliki saling ketergantungan. Dengan kata lain, ukuran keberhasilan responden bergantung kepada kelompok butir tes, sebaliknya taraf kesukaran butir bergantung kepada kelompok responden tes. Satu tes yang terdiri dari beberapa butir akan dapat memiliki tingkat kesukaran tinggi untuk sekelompok responden, namun tes tersebut akan dapat memiliki tingkat kesukaran yang rendah untuk kelompok responden yang lain. Akibatnya, pembahasan tentang ukuran kesukaran butir harus menyebut kelompok respondennya. Pada kelompok responden yang berbeda-beda, ukuran taraf kesukaran butir yang sama akan berbeda-beda pula. Kita juga tidak dapat lagi berbicara tentang ukuran keberhasilan atau kemampuan responden tanpa harus menyebut kelompok butirnya. Pada kelompok butir yang berbeda, ukuran keberhasilan atau kemampuan responden yang sama akan dapat menjadi berbeda. Sebaliknya, pada kelompok responden yang berbeda, butir yang sama akan dapat memiliki tingkat kesukaran yang berbeda. Teori sekor modern yang juga disebut teori respon butir (item respons theory) mengharapkan pengukuran dan penyekoran di bidang pendidikan memiliki taraf kesukaran butir yang invariant (tidak berubah) sekalipun dikerjakan oleh responden yang berbeda. Selain itu, teori respon butir mengharapkan pengukuran dan penyekoran di bidang pendidikan menunjukkan kemampuan peserta yang tidak berubah sekalipun mereka mengerjakan butir tes yang berbeda. Artinya, butir tes dapat menggambarkan kemampuan responden secara individu, tidak secara kelompok. Dengan kata lain, informasi tingkat kesukaran yang ditampilkan butir tes menyangkut kemampuan responden. Misalnya saja, hasil ujicoba 11
seperangkat instrumen memberikan informasi bahwa butir nomor satu memiliki tingkat kesukaran X dan hanya dapat dijawab oleh responden yang memiliki kemampuan Y. Buku ini membahas analisis butir instrumen menggunakan teori sekor klasik, baik manual maupun menggunakan program ITEMAN. Teknik pengujian yang dibahas mencakup validitas dan reliabilitas butir, baik untuk butir tes dikotomi, butir tes non-dikotomi, maupun angket. Khusus untuk butir tes dikotomi, pembahasan juga mencakup analisis tingkat kesukaran, analisis daya pembeda, dan analisis efektifitas pengecoh (distractor). Sementara itu, untuk butir tes non-dikotomi, seperti tes uraian atau tes kinerja, pembahasan juga dilengkapi dengan analisis reliabilitas inter-rater untuk menguji konsistensi penilai. Analsis faktor untuk kalibrasi isntrumen juga dibahas pada buku ini secara sepintas. Pada bagian akhir, buku ini membahas analisis butir dengan teori sekor modern menggunakan program BIGSTEPS.
12