0,7
Kategori Sulit Sedang Mudah
2. Indeks Diskriminasi Aitem a. Pengertian Indeks Diskriminasi Aitem Daya
diskriminasi
aitem
merupakan
kemampuan
aitem
dalam
membedakan antara subjek yang memiliki atribut psikologis yang diukur dengan subjek yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu membedakan kelompok subjek yang mampu dan yang tidak mampu mengerjakan suatu tes dengan baik. Menurut Azwar (2007), secara sederhana dapat dikatakan bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan kemampuan tinggi dengan kelompok dengan kemampuan rendah.
Universitas Sumatera Utara
b. Analisis Indeks Diskriminasi Aitem Diskriminasi aitem yang maksimal akan dicapai ketika seluruh subjek kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek kelompok rendah tidak mampu untuk menjawabnya. Perbedaan proporsi penjawab aitem dengan benar antara kelompok tinggi dengan kelompok rendah dapat dirumuskan sebagai berikut : d = niT / NT – niR / NR
(7)
Keterangan: niT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar NT = Jumlah peserta dari kelompok tinggi niR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar NR = Jumlah peserta dari kelompok rendah
Karena ni / N= p, maka dapat juga dirumuskan dengan: d = pT - pR
(8)
Keterangan: pT = Indeks kesukaran item kelompok tinggi pR = Indeks kesukaran item kelompok rendah Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1 sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang memiliki arti dalam analisis aitem (Azwar, 2007).Harga d yang berada disekitar 0 menunjukkan bahwa aitem tersebut mempunyai diskriminasi yang rendah sedangkan harga d yang negatif menunjukkan bahwa aitem tesebut tidak berguna sama sekali.
Universitas Sumatera Utara
Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1, semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut mampu membedakan antara subjek yang menguasai materi yang diujikan dengan yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati 0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang tidak tahu apa-apa (Azwar,2007). Ebel (dalam Azwar, 2007) memberikan suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu : Tabel 2. Evaluasi Indeks Diskriminasi Aitem d 0,4 atau lebih 0,3 - 0,39 0,2 – 0,29 d < 0,20
Evaluasi Bagus sekali Lumayan bagus, tidak membutuhkan revisi Belum memuaskan, perlu revisi Jelek dan harus dibuang
Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu: 1) Metode kelompok ekstrim Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group yakni kelompok yang memiliki nilai yang rendah
Universitas Sumatera Utara
(25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh upper group dan dijawab salah oleh lower group. 2) Korelasi aitem-total Korelasi aitem-total memberikan informasi tentang apakah aitem mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial. Korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk dikotomi. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan salah dan lower group menjawab pertanyaan dengan benar. 3) Korelasi inter-aitem Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem menunjukkan nilai yang tinggi atau rendah karena sangat jelas bahwa aitem yang memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat menjelaskan mengapa korelasi aitem total dapat bernilai negatif tetapi hal ini dapat dijelaskan dengan menggunakan korelasi inter-aitem. Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan salah dan subjek dari lower group dapat menjawab dengan benar.
Universitas Sumatera Utara
Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda. 3. Reliabilitas Alat Ukur a. Pengertian Reliabilitas Menurut Oslterlind (2010), reliabilitas mengarah pada ketepatan dalam pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel secara acak dari beberapa pengukuran. Pengertian reliabilitas diterapkan dalam dua konteks. Pertama, reliabilitas mengungkap ketepatan instrumen pengukuran, sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas), dan kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana dispesifikasi dalam standar error pengukuran (SEM). Reliabilitas juga menandai konsep untuk mengestimasi seberapa baik sampel aitem mewakili keseluruhan aitem untuk konstruk laten atau konten domain. Semakin reliabel sebuah pengukuran, semakin kecil error yang diungkap dalam skor dan semakin terpercaya interpretasi yang dihasilkan. Reliabilitas bergantung pada konteks penggunaan reliabilitas itu sendiri. Terdapat banyak perspektif pada reliabilitas, tergantung pada defenisi error yang digunakan dan defenisi konstruk laten maupun konten domain yang telah ditentukan sebelumnya. Menurut Azwar (2005), reliabilitas merupakan terjemahan dari kata reliability yang menyatakan keterpercayaan, keterandalan, keajegan, kestabilan,
Universitas Sumatera Utara
konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna sejauh mana hasil suatu pengukuran dapat dipercaya. Menurut Anastasi & Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata (2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu, konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2005). Lord dan Novick (dalam Osterlind, 2010), memberikan defenisi reliabilitas sebagai “reliabilitas sebuah tes didefenisikan sebagai kuadrat korelasi antara skor tampak dan skor murni”, sebagaimana dalam rumus :
ρ2XT
(9)
Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari sebuah populasi. Semakin konstan pengukuran tersebut dalam pengukuranpengukuran yang diulang, maka semakin tinggi reliabilitasnya.
ρXT
(10)
Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah korelasi antara dua bentuk paralel dari sebuah tes. Pada koefisien ini, korelasinya
Universitas Sumatera Utara
adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor. Hal ini ditunjukkan dalam rumus:
ρx1x2
(11)
b. Metode Estimasi Reliabilitas Reliabilitas alat ukur juga menunjukkan eror pengukuran yang tidak dapat ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi reliabilitas dapat dibagi ke dalam tiga bentuk metode, yaitu pendekatan tes ulang, pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan Suryabrata, 2005). 1) Pendekatan tes ulang Pendekatan ini dilakukan dengan cara menyajikan tes yang sama dua kali pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005). Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam prakteknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar, perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata, 2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah Pearson product-moment (Kumar, 2009).
Universitas Sumatera Utara
2) Pendekatan tes paralel Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas (Azwar, 2005). Pendekatan ini disebut juga sebagai alternate form yang digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009). Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah korelasi Pearson product moment (Azwar, 2005) 3) Pendekatan konsistensi internal Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi antar aitem atau antar bagian dalam tes tersebut serta menghindari masalahmasalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari kelompok subjek tersebut. Prosedur analisis reliabilitasnya diarahkan pada analisis terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang disebut belahan tes. Setiap cara pembelahan tes sebaiknya mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang, isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem memenuhi ciri-ciri paralel (Azwar, 2005). Berikut beberapa cara dalam pembelahan tes (Azwar, 2005).
Universitas Sumatera Utara
(a). Pembelahan cara random Membelah tes menjadi dua bagian secara random dapat dilakukan dengan cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua. Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar, 2005). (b). Pembelahan gasal-genap Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar, 2005). (c). Pembelahan matched-random subtes Pembelahan dengan cara matched-random subtes ditemukan oleh Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan korelasi antara aitem yang bersangkutan dengan skor tes.
Universitas Sumatera Utara
Selain beberapa cara pembelahan tes telah diuraikan, reliabilitas berdasarkan konsistensi internal juga dapat diestimasi dengan beberapa rumus (Azwar, 2005). (a). Spearman-Brown Rumus Spearman-Brown digunakan untuk metode split-half atau belah dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi SpearmanBrown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai beikut (Azwar, 2005): S-B = rxx’=
(12)
Keterangan: rxx’ = Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasi antara dua belahan (b). Koefisien Alpha Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi τequivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005): α=
(13)
Keterangan : = banyaknya belahan tes = varians belahan j; j = 1, 2…k
Universitas Sumatera Utara
= varians skor tes Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya. (c). Kuder-Richardson 20 (KR-20) KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan rumus KR-20 adalah (Azwar, 2005): (14) Keterangan : = banyaknya aitem dalam tes = varians skor tes p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut. Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.
Universitas Sumatera Utara
(d). Kuder-Richardson 21 Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem, Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR-21 adalah (Azwar, 2005):
(15) Keterangan : = banyaknya aitem dalam tes = rata-rata p yaitu, = varians skor tes Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi, indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas akan lebih rendah dari pada menggunakan KR-20. (e). Rulon Rulon mengusulkan suatu formula komputasi untuk mengestimasi reliabilitas skor dengan pendekatan belah dua tanpa perlu berasumsi bahwa kedua belahan tersebut mempunyai sifat t-equivalent sepanjang jumlah aitem pada kedua belahan adalah sama. Formula Rulon dirumuskan sebagai : rxx ' = 1 − S d / S x 2
2
(16)
Universitas Sumatera Utara
Keterangan : 2
S d = Varians perbedaan skor kedua belahan 2
S x = Varians skor tes d
= Perbedaan skor kedua belahan
(c). Reliabilitas Skor Komposit Ada kalanya skor tes sebagai deskripsi kuantitatif atribut dalam diri subjek tidak diperoleh langsung dari sekedar penjumlahan skor aitem-aitemnya, melainkan didapat dari komposisi atau penggabungan dari bebrapa skor. Beberapa skor tersebut dapat berupa skor dari bagian-bagian tes itu sendiri, yaitu komponen atau subtesnya, dapat pula berasal dari tes-tes yang berbeda sebagai suatu baterai instrumen. Dalam hal ini masing-masing komponen atau bagian tes akan memeberikan bobot yang tersendiri dalam menentukan skor tes (Azwar, 2012). Bobor relatif suatu komponen ditentukan oleh besarnya sumbangan komponen tersebut dalam menentukan skor akhir, misalnya suatu komponen yang berisi lebih banyak aitem akan lebir besar bobotnya. Begitu pula suatu komponen yang mungkin aitemnya tidak banyak akan tetapi karena mempunyai tingkat kesukaran yang tinggi akan dapat diberi bobot yang besar. Skor akhir tes seperti itu merupakan suatu komposit, yaitu penggabungan skor beberapa komponen setelah melalui prosedur atau penyetaraan skor (Azwar, 2012). Reliabilitas skor komposit ditentukan oleh reliabilitas skor komponennya. Banyaknya komponen yang membentuk skor tes akhir tidak terbatas pada dua atau tiga saja. Estimasi dapat dilakukan terhadap reliabilitas masing-masing komponen secara terpisah dan bila reliabilitas setiap komponen itu cukup tinggi maka dapat diharapkan bahwa skor kompositnya juga akan memiliki reliabilitas
Universitas Sumatera Utara
yang tinggi (Azwar, 2012). Bila diinginkan untuk memperoleh estimasi tunggal terhadap skor komposit, dapat digunakan formula yang disarankan oleh Mosier (dalam Azwar, 2012), yaitu: rxx ' = 1 −
[∑ w
[∑ w
2 j
2 j
s j − ∑ w j s j r jj ' 2
2
]
]
s j + 2(∑ w j wk s j s k r jk ) 2
(17)
Keterangan : Wj = bobot relatif komponen j Wk= bobot relatif komponen k Sj = deviasi standar komponen j Sk = deviasi standar komponen k rjj’ = koefisien reliabilitas tiap komponen rjk = koefisien relatif antara dua komponen yang berbeda c. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas Menurut
Osterlind
(2010),
standar
error
pengukuran
(SEM)
mengindikasikan kesenjangan antara skor tampak dan skor murni. Standar error pengukuran juga didefenisikan sebagai standar deviasi sebuah distribusi dari keseluruhan skor untuk semua subjek. Karena teori mengasumsikan distribusi yang setara dan normal untuk semua subjek dalam populasi, standar error pengukuran bisa dipandang sebagai rata-rata standar deviasi pada keseluruhan mean skor. Standar error pengukuran menyediakan informasi mengenai akurasi dari nilai mean sebagai perwakilan skor murni, sehingga bisa dikatakan bahwa mean tersebut adalah indikator dari error. Hal ini penting karena mengarah pandangan bahwa standar error pengukuran adalah indikasi reliabilitas. Standar error
Universitas Sumatera Utara
pengukuran sering dimengerti sebagai analogi dari indeks reliabilitas. Indeks reliabilitas adalah pengukuran yang mengidikasikan kekurangan error, kebalikan dari SEM. Indeks reliabilitas didefenisikan sebagai korelasi sederhana antara bentuk-bentuk paralel sebuah tes (Osterlind, 2010). Standar error pengukuran merupakan fungsi dari reliabilitas (dan sebaliknya) ketika standar deviasi sebuah tes telah diketahui. Hubungan ini, dalam CTT, antara standar error pengukuran dan reliabilitas sudah terlihat ketika standar deviasi tetap konstan pada seluruh rentang skor sebuah tes. Standar deviasi yang konstan juga terlihat ketika skor ditunjukkan sebagai skor standar dalam unit-unit standar deviasi (Osterlind, 2010). Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara skor tampak dan skor murni subjek (Crocker & Algina, 2005). Penafsiran terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror pengukuran (SEm), dengan rumusan sebagai berikut: (18) Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung pada tujuan tes digunakan(Suryabrata, 2005).
Universitas Sumatera Utara
Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan sebagai berikut: Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas Nilai estimasi reliabilitas 0.95
Bentuk Tes
Tes inteligensi 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50
Interpretasi Eror pengukuran memiliki efek yang sangat rendah Tinggi sampai sedang
Tes prestasi Kelompok tes pilihan ganda Skala
Sedang sampai rendah Rendah
Tes proyektif Skor murni dan eror pengukuran seimbang pada skor tes
d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen tes, yaitu: 1) Homogenitas Kelompok Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor murni dan eror kelompok subjek atau skor tampak kelompok subjek. Semakin besar homogenitas kelompok semakin rendah nilai koefisien reliabilitas suatu tes dibandingkan dengan kelompok subjek yang heterogen. 2) Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek. Hal tersebut dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu
Universitas Sumatera Utara
lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3) Panjang Tes Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes tersebut. 4. Validitas a. Pengertian Validitas Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental. Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang merupakan tujuan pengukuran mental. Standards Text (dalam Osterlind, 2010) mendeskripsikan bahwa validitas adalah pertimbangan yang paling fundamental dalam mengembangkan dan mengevaluasi tes dimana validitas mengarah pada sejauh mana bukti dan teori mendukung interpretasi skor tes berdasarkan tujuan penggunaan tes. Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak diukurnya. Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur tersebut dengan standar atau kriteria yang telah ditetapkan. Menurut Azwar (2005), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam menjalankan fungsi ukurnya. Suatu tes atau instrumen pengukuran
Universitas Sumatera Utara
dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat berkaitan sangat erat dengan tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur (Azwar, 2005). b. Sumber-sumber Bukti Validitas Bukti-bukti validitas harus terkumpul dari banyak sumber ketika akan mengevaluasi validitas. Sumber-sumber ini memberikan informasi mengenai tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor dalam situasi tertentu (Osterlind, 2010). Beberapa bukti yang mendukung dalam mengevaluasi validitas diberikan dalam Standards for Educational and Psychological
Testing/Standards
text
(American
Educational
Research
Association, dkk, 1999, dalam Osterlind 2010). 1) Bukti Validitas Berdasarkan Isi Tes Mengevaluasi bukti untuk kesimpulan yang valid dari skor tes hampir selalu memasukkan informasi mengenai isi dari suatu pengukuran yang secara khusus mengarah pada content domain (dalam pengukuran berdasarkan domain) atau konstruk (dalam model trait tersembunyi). Banyak fungsi mental, seperti IQ dan proses psikologi lainnya, yang bisa diterangkan sebagai pengukuran konstruk, trait, atau domain. Ketika menilai konstruk psikologis yang tidak mudah untuk dijelaskan maka akan muncul masalah khusus, misalnya pengukuran IQ. Studi
Universitas Sumatera Utara
tentang inteligensi manusia penuh dengan pemikiran dan teori yang berlainan tentang apa yang termasuk dan tidak termasuk. Dalam hal ini spesifikasi konstruk dibutuhkan dalam tujuan yang berbeda. Ketika membangun sebuah instrumen, seringkali orang yang mengembangkan tes mengkombinasikan deskripsi isi tes dan jenis proses respon dalam sebuah blueprint tes, dimana blueprint ini bisa menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan mengevaluasi validitas berdasarkan isi tes. Menurut Azwar (2005), Validitas isi menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement. Dengan kata lain validitas isi sangat tergantung pada penilaian subjektif subjekal dan tidak melibatkan perhitungan statistik. 2) Bukti Validitas Berdasarkan Proses Respon Pengujian mental atau proses kognitif digunakan untuk mengungkap respon terhadap stimulus pengukuran adalah sumber lain untuk bukti validitas. Beberapa metode berdasarkan variabel-variabel laten dan proses kausal sebuah konstruk mungkin memasukkan analisis variabel laten, structural equation modeling (SEM), Hierarchical linear modeling(HLM), dan beberapa metaanalisis. Metode-metode ini juga bisa mengungkap informasi penting mengenai proses respon subjek. 3) Bukti Validitas Berdasarkan Struktur Internal Struktur internal tes sangat berhubungan dengan pembuatan kesimpulan yang sesuai dan terpercaya mengenai konstruk yang sedang diukur. Ada beberapa metode psikometri yang bisa secara empiris menginvestigasi struktur internal,
Universitas Sumatera Utara
tetapi tidak ada satu metode pun yang dianggap terbaik secara umum. Kesesuaian metode yang digunakan tergantung pada konteks dimana tes dikembangkan, bagaimana tes tersebut digunakan dan keputusan apa yang ingin diinformasikan. Beberapa cara yang relevan untuk mempelajari pengukuran struktur internal sebagai berikut :Analisis faktor, analisis kluster, analisis komponen prinsipal, konfirmasi teori psikologi: faktor analisis konfirmatori, multitrait-multimethod matrix, teknik estimasi parameter kemampuan (IRT), strategi-strategi yang melibatkan teori kemampuan-generalisasi. Model faktor umum (common factor model) adalah teori satu faktor dari Charles Spearman mengenai sebuah tes berisi aitem-aitem yang umum dan memiliki pengaruh yang unik. Dalam situasi praktis untuk validasi tes, model faktor umum diukur dengan menggunakan analisis faktor (factor analysis) atau analisis komponen prinsipal (principal component analysis, PCA). Inti prosedur ini adalah untuk mengurangi varians total diantara aitem-aitem dalam sebuah matriks kovarians sehingga jumlahnya bisa diestimasi. Menurut Azwar (2012), analisis faktor merupakan metode statistik yang berisi kumpulan prosedur matematik yang kompleks dalam pengembangan alat ukur untuk menganalisis adanya saling hubungan di antara variabel-variabel dan menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor. Oleh karena validitas ini ditegakkan melalui prosedur analisis faktor maka disebut sebagai validitas faktorial. Menurut Field (2009), analisis faktor digunakan untuk melihat hubungan atau korelasi antara komponenkomponen aitem dengan variabel laten yang mendasari.
Universitas Sumatera Utara
Sebuah faktor adalah kombinasi aitem-aitem tes yang diyakini sebagai suatu kumpulan. Aitem-aitem yang berhubungan membentuk sebagian dari konstruk dan dikelompokkan bersama, aitem-aitem yang tidak berhubungan tidak membentuk bagian dari konstruk dan harus dikeluarkan dari kelompoknya (Munro, dalam Azwar, 2012). Analisis faktor memiliki dua jenis prosedur yang dilandasi oleh dasar pemikiran yang agak berbeda, yaitu analisis faktor eksploratori (exploratory factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory factor analysis, CFA). Prosedur faktor analisis eksploratori membantu pengembang tes dalam mengenali dan mengidentifikasi berbagai faktor yang membentuk suatu konstruk dengan cara menemukan varians skor terbesar dengan jumlah faktor yang paling sedikit yang dinyatakan dalam bentuk eigenvalue > 1,0 (Azwar, 2012). Prosedur analisis faktor konfirmatori biasanya akan menindaklanjuti hasil EFA dengan menyertakan dasar teori yang melandasi bangunan tes tersebut agar dapat menguji validitas konstruknya lebih lanjut. Jadi, CFA menguji sejauhmana model statistik yang dipakai sesuai dengan data empirik (Waltz dkk., dalam Azwar, 2012). Analisis faktor konfirmatori hampir selalu digunakan dalam proses pengembangan instrument untuk menguji struktur laten suatu tes, dalam hal ini CFA digunakan untuk memverifikasi banyaknya dimensi yang mendasari bangunan suatu tes dan pola hubungan antara aitem dengan faktor (factor loading atau yang disebut muatan faktor)(Brown, dalam Azwar, 2012). Pada prosedur analisis faktor, tes yang dipengaruhi oleh faktor-faktor tertentu disebut sebagai tes yang memiliki muatan faktor (factor loading) yang tinggi. Muatan faktor berupa indeks yang arti dan besarannya mirip dengan
Universitas Sumatera Utara
koefisien korelasi. Bila faktor-faktor tidak berkorelasi satu sama lain maka muatan faktor bukanlah koefisien korelasi akan tetapi seringkali diinterpretasikan seakanakan koefisien korelasi (Azwar, 2012). Analisis struktur faktor dilakukan untuk melihat struktur internal tes sebagai dukungan terhadap validitas model persamaan structural yang digunakan dalam konstruksi tes yang bersangkutan (Azwar, 2012). Untuk tujuan tersebut digunakan prosedur common factor analysis sebagai salahsatu metode pengujian model, terutama yang mengikuti anggapan bahwa satu konstruk dasar akan menghasilkan skor tampak (Aneshensel, dalam Azwar 2012). Bila model yang diajukan ternyata cocok dengan data skor subjek, berarti struktur internal tes adalah valid (Azwar, 2012) Metode multitrait-multimatriks secara konseptual mirip dengan analisis faktor yang merupakan prosedur untuk menganalisis hubungan dan menentukan pola-pola data. Metode ini bisa menyediakan bukti validitas yang berguna untuk evaluasi struktur internal. Dalam menggunakan metode ini harus berhati-hati untuk menghindari kesalahan-kesalahan yang membingungkan informasi dari metode multitrait-multimethod dengan yang diungkap melalui analisis faktor (Osterlind,
2010).
Campbell
dan
Fiske
(dalam
Azwar,
2012)
telah
mengembangkan pendekatan ini yang dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam proses validasi ini adalah bahwa validitas yang baik diperlihatkan oleh adanya korelasi yang tinggi di antara hasil pengukuran terhadap trait yang sama oleh beberapa metode yang berbeda (convergent validity), atau sebaliknya tidak adanya
Universitas Sumatera Utara
korelasi di antara hasil pengukuran terhadap beberapa trait yagn berbeda sekalipun diukur menggunakan metode yang serupa (discriminant validity).
4) Bukti Validitas Berdasarkan Hubungan dengan Variabel Lain Hubungan antara skor tes dan kriteria yang diuji sering diidentifikasi dengan melabel bukti kriteria sebagai bukti prediktif atau konkuren dalam validitas. Kedua jenis bukti ini menunjukkan kemunculan hubungan antara tes dan sebuah kriteria eksternal, perbedaanya hanya waktu kapan pengukuran hubungan korelasional. Bukti prediktif juga adalah sebuah indikator yang muncul dari perbandingan antara sebuah tes dengan tes di masa depan atau kriteria administrasi posttest. Dalam mengevaluasi validitas, masalah muncul ketika sebuah hubungan korelasional adalah sumber utama dalam bukti validitas. Kesulitan muncul dari fakta bahwa dalam CTT, skor murni hanya bisa didapat secara teoritis dan tidak bisa diketahui secara pasti. Dalam dunia praktis, terbukti bahwa reliabilitas korelasional sebagai bukti kriteria untuk validitas tes, ditekan oleh derajat eror pengukuran dalam kriteria. Keadaan ini disebut sebagai masalah kriteria. Masalah kriteria adalah ketika reliabilitas kriteria bergantung pada hubungan korelasional dengan kriteria eksternalnya. 5) Bukti Validitas Berdasarkan Pertimbangan-pertimbangan Eksternal Validitas Tampang sebagai Sumber Bukti Validitas tampang berarti bahwa peserta tes yang melihat instrumen tes untuk pertama kali seharusnya tidak terkonfrontasi dengan dokumen yang tidak lazim, sering terjadi karena persiapan yang tidak profesional. Validitas tampang
Universitas Sumatera Utara
tidak bisa diuji dengan metode statistik, bukan berarti validitas tampang bisa dianggap rendah. Memberikan sebuah instrumen tes yang memiliki tampilan profesional pada peserta tes adalah tanggung jawab validitas pembuat tes.
c. Interpretasi Koefisien Validitas Interpretasi koefisien validitas bersifat relatif. Tidak ada batasan universal yang mengarah kepada angka minimal yang harus dipenuhi agar suatu tes dikatakan valid. Menurut Cronbach (dalam Azwar, 2005) koefisien validitas yang baik adalah yang tertinggi yang bisa didapatkan. Jadi tidak ada batasan. Hal yang menjadi pertimbangan adalah sejauh mana tes tersebut dapat bermanfaat dalam pengambilan keputusan. Tes yang berfungsi untuk memprediksi hasil suatu prosedur seleksi dapat dikatakan memberikan kontribusi yang baik jika koefisien validitas berkisar antara 0,3 sampai dengan 0,5. Menurut Azwar (2005) koefisien validitas yang tidak begitu tinggi, sekitar 0,5 akan lebih dapat diterima dan dianggap memuaskan dan koefisien
validitas yang kurang dari 0,3 biasanya
dianggap tidak memuaskan. Sedangkan dalam penggunaan analisis faktor konfirmatori dengan bantuan program Lisrel 8.30, suatu aitem dikatakan memiliki validitas yang baik jika memenuhi dua nilai muatan faktor, yaitu t-values dan standardize loading factor (muatan faktor standar) dengan batasan nilai kritikal tertentu. Jika nilai dari t-values <1,96 berarti estimasi muatan faktor tersebut tidak signifikan dan variabel teramati terkait bisa dihaput dari model. Sedangkan jika muatan faktor standar <0.50 makan variabel teramati tersebut bisa dihapus dari model (Wijanto, 2008). Suatu aitem dapat dikatakan valid jika kedua nilai muatan faktor tersebut terpenuhi
Universitas Sumatera Utara
C. Analisis Karakteristik Psikometri Alat Ukur Alat ukur terdiri dari aitem-aitem yang dirancang untuk tujuan tertentu. Aitem dapat dikatakan memiliki kualitas yang baik jika aitem memiliki karakteristik psikometri yang baik pula (Azwar, 2007). Aitem berkualitas baik atau tidak dapat kita ketahui melalui analisis karakteristik psikometri terhadap aitem tersebut. Analisis terhadap aitem-aitem dalam suatu alat ukur pada awalnya akan memberikan tiga informasi, yaitu informasi tentang distraktor, indeks kesukaran aitem dan indeks diskriminasi aitem (Murphy & Davidshofer, 2003). Ketiga karakteristik tersebut akan saling mempengaruhi terhadap reliabilitas dan valididtas alat ukur. Tetapi penelitian ini hanya memberi informasi karakteristik indeks kesukaran aitem dan indeks diskriminasi aitem. Indeks kesukaran aitem secara langsung akan mempengaruhi indeks diskriminasi aitem. Ketika aitem sangat susah (p = 0) atau aitem sangat mudah (p = 1), maka aitem tidak akan dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminasi aitem menjadi rendah (Murphy & Davidshofer, 2003). Menurut Kumar (2009), indeks diskriminasi yang rendah dapat mempengaruhi validitas aitem tersebut yang kemudian akan mempengaruhi validitas tes secara keseluruhan. Ketika aitem mengukur fungsi ukur dengan tepat, maka aitem akan dapat membedakan antara kelompok yang memiliki atribut yang hendak diukur dan yang tidak memiliki atribut yang hendak diukur sehingga aitem dapat dikatakan valid. Koefisien reliabilitas suatu tes juga akan dipengaruhi oleh indeks kesukaran aitem dalam tes tersebut. Ketika indeks kesukaran aitem tidak relatif
Universitas Sumatera Utara
setara satu sama lain atau sangat bervariasi maka koefisien reliabilitas akan rendah (Azwar, 2005). Pada beberapa kondisi, tes yang reliabel belum tentu valid, karena reliabilitas tes juga dipengaruhi oleh eror, tetapi tes yang valid sudah pasti reliabel (Azwar, 2005). D. Culture Fair Intelligence Test (CFIT) Skala 3B 1. Sejarah dan Perkembangan CFIT Spearman (1927) menyusun faktor analisis pertama terhadap kemampuankemampuan dan mengatakan bahwa kemampuan-kemampuan tersebut dapat dijelaskan dalam sebuah faktor umum (general factor) yang disebut “g” yang mengarah pada kecerdasan umum (Coaley, 2010). Menurut Spearman, kecerdasan terdiri dari satu faktor umum ditambah sejumlah faktor-faktor spesifik di dalamnya (Kaplan & Saccuzo, 2005). Dalam perkembangannya, Cattel menemukan bahwa kecerdasan bukan merupakan satu konsep tunggal tetapi terdiri dari dua komponen. Cattel membenarkan bahwa kecerdasan umum (general intelligence) memang ada tetapi dia mengatakan bahwa kecerdasan umum terdiri dari dua hal yang berhubungan tetapi berbeda, yaitu fluid intelligence dan crystallized intelligence.Fluid intelligence lebih ditentukan secara genetis sehingga lebih bebas budaya. Cattel memandang bahwa fluid intelligence sebagai kemampuan logika primer yang berhubungan dengan masalah-masalah abstrak dan lebih terlibat dalam proses adaptasi. Sebaliknya, crystallized intelligence berkembang dari latihan terhadap fluid intelligence dalam lingkungan tertentu. (Coaley, 2010). Semua budaya cenderung menguatkan keahlian dan aktifitas tertentu. Salahsatu tujuan tes performansi nonverbal adalah untuk mengurangi faktor-faktor
Universitas Sumatera Utara
yang berhubungan dengan pengaruh budaya sehingga bisa diukur kecerdasan yang bebas dari proses belajar, budaya, dan sebagainya (Kaplan & Saccuzo, 2005). Culture Fair Intelligence Test adalah pengukuran nonverbal terhadap fluid intelligence yang diciptakan oleh Raymond B. Cattel. Tujuan dari CFIT adalah untuk mengukur fluid intelligence (kemampuan analisis dalam situasi abstrak) dalam pola yang sebebas mungkin dari pengaruh budaya (Gregory, 2000). Culture Fair Intelligence Test dirancang untuk memberikan sebuah estimasi kecerdasan yang relatif bebas dari pengaruh bahasa dan budaya (Kaplan & Saccuzo, 2005) Salah satu tujuan tes instrument CFIT ini adalah untuk meminimalisir pengaruhpengaruh yang tidak relevan dari pembelajaran budaya dan sosial sehingga dihasilkan pemisahan yang lebih bersih terhadap kemampuan alami dari pembelajaran yang spesifik (IPAT dalam Gregory, 2000). Awalnya tes ini dinamakan Culture Free Intelligence Test. Nama tes ini berubah setelah diketahui bahwa pengaruh budaya tidak bisa dihilangkan seutuhnya dari tes inteligensi (Gregory, 2000). Culture Fair Intelligence Test telah direvisi beberapa kali, dan bentuk yang sekarang muncul setelah revisi pada tahun 1961. Test ini berisi tiga versi: Skala 1 untuk anak usia 4-8 tahun dan untuk dewasa dengan gangguan mental; skala 2 untuk anak usia 9-13 tahun dan untuk dewasa dengan kecerdasan rata-rata; Skala 3 untuk siswa SMA dan perguruan tinggi dan untuk dewasa dengan kecerdasan tinggi. Skala 1 melibatkan interaksi antara tester dan testee sehingga harus diadministrasikan secara subjekal, sedangkan Skala 2 dan 3 merupakan tes kelompok dan kedua skala ini berbeda dalam tingkat kesulitan. Pada setiap skala terdapat dua bentuk yang setara disebut Bentuk A dan Bentuk B. Setiap bentuk
Universitas Sumatera Utara
berisi 4 subtes : Seri, Klasifikasi, Matriks, dan Kondisi/topologi. Tiap subtes memiliki batasan waktu. CFIT merupakan speed test, dengan waktu 30 menit untuk skala 2 dan 3, tetapi hanya diberikan 12,5 menit pada tes sebenarnya (Gregory, 2000). Reliabilitas CFIT melalui tes-retes, bentuk alternatif, dan konsitensi internal pada umumnya 0,70an pada skala 2 dan 3. Dalam hal validitas, CFIT berkorelasi sekitar 0,80an dengan faktor umum inteligensi dan menunjukkan hubungan yang kuat sekitar 0,70an dan 0,80an dengan alat ukur inteligensi yang umum dipakai seperti: WAIS, WISC, Raven PM, Stanford-Binet, Otis, dan General Aptitude Test (IPAT pada tahun 1973, dalam Gregory, 2000). Dari sini dapat dikatakan bahwa CFIT dirancang dengan baik, berguna, dan valid sebagai tes inteligensi (Gregory, 2000). Lembaga Pengembangan Sarana Pengukuran dan Pendidikan Psikologi Fakultas Psikologi Universitas Indonesia (LPSP3 UI) (“Buku Petunjuk Penggunaan CFIT, 2013) melakukan pengujian reliabilitas menggunakan 1.843 data dengan menggunakan data dari tahun 2005 hingga 2007 yang sebagian besar berasal dari hasil seleksi dan penempatan dalam pendidikan (seperti masuk sekolah atau penjurusan SMA) maupun pekerjaan. Karena CFIT skala 3 dimaksudkan untuk mengukur sebuah kemapuan intelektual umum atau faktor “g”, maka perlu dilakukan pengujian reliabilitas dengan metode konsistensi internal menggunakan formula Alpha-Cronbach. Diperoleh koefisien AlphaCronbach sebesar 0,786 (Mean = 26,87, SD = 5,854). Menurut Murphy dan Davishofer (2001), koefisien reliabilitas sebesar 0,7 tergolong rendah.
Universitas Sumatera Utara