BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Pada dasarnya, ilmu pengukuran psikologis memiliki dua pendekatan, yaitu pendekatan classical test theory (selanjutnya akan disebut CTT) dan item response theory (selanjutnya akan disebut IRT). Pendekatan CTT adalah metode pertama yang dikembangkan untuk pengukuran. Teori-teori CTT mendominasi pengembangan rumus reliabilitas dan validitas yang dikenal dewasa ini (Suryabrata, 2005). A. Classical Test Theory (CTT) 1. Pengertian CTT Model dari pendekatan teori tes klasik ini disebut juga sebagai model skor murni (true score model). Pendekatan ini telah berhasil meletakkan dasar-dasar konsep dalam analisis karakteristik psikometri perangkat ukur psikologi (Crocker & Algina, 2005). Pendekatan CTT ini juga telah berkontribusi dalam pengembangan pengukuran psikometri dan pendekatan ini dianggap sebagai model yang sederhana dan kuat. Fokus utama dari pendekatan ini adalah informasi pada level tes dan juga menyediakan informasi mengenai aitem-aitem yang digunakan (Coaley, 2009). Selain itu, teori tes klasik ini juga praktis dan tidak memerlukan perhitungan yang rumit (Kaplan & Saccuzo, 2005). Oleh karena itu, peneliti mempertimbangkan menggunakan pendekatan CTT dalam proses analisis yang akan dilakukan pada penelitian ini.

Universitas Sumatera Utara

2. Asumsi-asumsi dalam CTT Asumsi-asumsi CTT pada dasarnya merupakan hubungan matematis antara skor tampak yang disimbolkan dengan huruf X, skor murni yang dilambangkan dengan huruf T, dan eror pengukuran yang diberi simbol huruf E. Skor tampak merupakan nilai performansi subjek yang diungkap melalui pengukuran yang dinyatakan dalam bentuk angka yang merupakan nilai total dari jawaban subjek terhadap aitem atau pernyataan dalam tes tersebut. Skor murni menjelaskan bahwa performansi subjek sesungguhnya yang tidak mungkin dapat diungkap secara langsung oleh tes. Eror pengukuran merupakan besaran eror subjek dalam setiap tes yang angkanya juga tidak dapat diketahui dengan pasti (Azwar, 2005). Pendekatan CTT terdiri dari asumsi-asumsi yang berkaitan dengan skor tampak, skor murni dan komponen eror pengukuran. Allen & Yen (dalam Azwar, 2005) menjabarkan asumsi-asumsi hubungan antara skor tampak, eror pengukuran dan skor murni sebagai berikut: Asumsi 1: X = T + E

(1)

Asumsi ini didasarkan pada model Spearman yang menyatakan bahwa setiap skor tes menggambarkan gabungan dari skor murni dan komponen eror (Crocker & Algina, 2005). X merupakan jumlah T dan E, sehingga besar X akan tergantung oleh besarnya E pengukuran, sedangkan besarnya T subjek pada setiap pengukuran yang sama diasumsikan selalu tetap. Jadi dapat disimpulkan bahwa skor yang diperoleh dari suatu pengukuran umumnya tidak menunjukkan keadaan sebenarnya (Suryabrata, 2005).


Asumsi 2: ε(X) = T

(2)

Asumsi ini menyatakan bahwa T sama dengan nilai harapan dari X-nya yang dilambangkan dengan ε(X). Jadi, T merupakan harga rata-rata dari distribusi teoretik X apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah independen satu sama lain. Asumsi 3:

=0

(3)

Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi E pengukuran dan distribusi T tidak berkorelasi satu sama lain. Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif atau mempunyai E lebih tinggi dibanding subjek yang T-nya rendah. Asumsi 4:

=0

(4)

Asumsi ini menyatakan bahwa eror pada dua tes ( yang dimaksud untuk mengukur hal yang sama) tidak saling berkorelasi. Artinya besarnya E pada suatu tes tidak tergantung pada E tes lainnya. Asumsi ini akan tidak terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, efek latihan, suasana hati, atau faktor-faktor dari lingkungan (Suryabrata, 2005). Asumsi 5 :

=0

(5)

Asumsi ini menyatakan bahwa E pada suatu tes tidak berkorelasi dengan T pada tes lain. E yang dimaksud dalam CTT adalah penyimpangan X dari skor harapan teoritik yang terjadi secara random atau tidak terjadi secara sistematik. Jika penyimpangan terjadi secara sistematik maka itu tidaklah dianggap sebagai sumber eror.


Selain lima asumsi yang telah diuraikan, terdapat dua asumsi lagi yang dijelaskan oleh Suryabrata (2005), yaitu: Asumsi 6 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, maka kedua tes tersebut disebut sebagai tes yang paralel. Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan apabila untuk setiap populasi subjek T1 = T2 + C, dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test).Dua tes yang setara dapat memiliki varians eror yang berbeda karena keduanya belum tentu merupakan tes yang paralel, namun dua tes yang paralel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2005). B. Analisis Karakteristik Psikometri Analisis aitem merupakan suatu prosedur untuk meningkatakan validitas dan reliabilitas suatu alat tes dengan cara memilih aitem-aitem yang baik sesuai dengan tujuan alat tes (Crocker & Algina, 2005). Menurut Kaplan & Saccuzo (2005), alat tes yang baik memiliki aitem yang baik. Aitem yang baik dapat dilihat melalui analisis terhadap beberapa parameter, seperti indeks kesukaran aitem dan indeks diskriminasi aitem.


1. Indeks Kesukaran Aitem a. Pengertian Indeks Kesukaran Aitem Indeks kesukaran aitem adalah rasio antara subjek yang menjawab aitem dengan benar dan total subjek yang menjawab aitem tersebut. Indeks kesukaran aitem ditentukan oleh seberapa banyak peserta tes berhasil menjawab aitem dengan benar. Semakin banyak peserta tes menjawab dengan benar, berarti semakin mudah aitem tersebut dan sebaliknya semakin sedikit peserta menjawab dengan benar, maka semakin sulit aitem tersebut (Azwar, 2007). b. Analisis Indeks Kesukaran Aitem Taraf kesukaran suatu aitem dinyatakan oleh suatu indeks yang dinamakan indeks kesukaran aitem yang disimbolkan dengan huruf p, dengan rumus : p = ni / N

(6)

Keterangan: p = Derajat kesukaran aitem ni = Banyak peserta tes yang menjawab benar N = Banyak peserta tes yang menjawab aitem Azwar (2007) menyatakan bahwa taraf kesukaran yang terbaik bergantung pada tujuan dari tes tersebut. Misalnya, tes prestasi yang bertujuan untuk evaluasi formatif misalnya, tidak jarang diperlukan aitem-aitem dengan taraf kesukaran rendah atau aitem-aitem dengan harga p tinggi. Namun untuk tes yang bertujuan untuk proses seleksi masuk, terlebih dalam tes masuk yang bertujuan untuk proses pendidikan harus diusahakan tes yang memiliki harga p yang rendah atau aitem yang sulit, sehingga subjek yang dinyatakan lulus selanjutnya adalah subjek yang benar-benar mampu mengikuti proses pendidikan selanjutnya (Suryabrata, 2005).


Tes disusun untuk melihat perbedaan subjek sehingga jika tidak ada seorang pun yang menjawab pertanyaan dengan benar, dalam artian aitem sangat susah (p = 0), atau sebaliknya, jika soal sangat gampang sehingga semua dapat menjawab pertanyaan dengan benar (p= 1) maka tujuan alat tes tidak dapat dipenuhi (Murphy & Davidshofer, 2003). Gregory (2000) mengkategorikan nilai p sebagai berikut: Tabel 1. Kategori Batasan Nilai p No. 1 2 3

P p < 0,3 0.3 0,7

Kategori Sulit Sedang Mudah

2. Indeks Diskriminasi Aitem a. Pengertian Indeks Diskriminasi Aitem Daya

diskriminasi

aitem

merupakan

kemampuan

aitem

dalam

membedakan antara subjek yang memiliki atribut psikologis yang diukur dengan subjek yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu membedakan kelompok subjek yang mampu dan yang tidak mampu mengerjakan suatu tes dengan baik. Menurut Azwar (2007), secara sederhana dapat dikatakan bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan kemampuan tinggi dengan kelompok dengan kemampuan rendah.


b. Analisis Indeks Diskriminasi Aitem Diskriminasi aitem yang maksimal akan dicapai ketika seluruh subjek kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek kelompok rendah tidak mampu untuk menjawabnya. Perbedaan proporsi penjawab aitem dengan benar antara kelompok tinggi dengan kelompok rendah dapat dirumuskan sebagai berikut : d = niT / NT – niR / NR

(7)

Keterangan: niT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar NT = Jumlah peserta dari kelompok tinggi niR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar NR = Jumlah peserta dari kelompok rendah

Karena ni / N= p, maka dapat juga dirumuskan dengan: d = pT - pR

(8)

Keterangan: pT = Indeks kesukaran item kelompok tinggi pR = Indeks kesukaran item kelompok rendah Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1 sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang memiliki arti dalam analisis aitem (Azwar, 2007).Harga d yang berada disekitar 0 menunjukkan bahwa aitem tersebut mempunyai diskriminasi yang rendah sedangkan harga d yang negatif menunjukkan bahwa aitem tesebut tidak berguna sama sekali.


Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1, semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut mampu membedakan antara subjek yang menguasai materi yang diujikan dengan yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati 0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang tidak tahu apa-apa (Azwar,2007). Ebel (dalam Azwar, 2007) memberikan suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu : Tabel 2. Evaluasi Indeks Diskriminasi Aitem d 0,4 atau lebih 0,3 - 0,39 0,2 – 0,29 d < 0,20

Evaluasi Bagus sekali Lumayan bagus, tidak membutuhkan revisi Belum memuaskan, perlu revisi Jelek dan harus dibuang

Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu: 1) Metode kelompok ekstrim Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group yakni kelompok yang memiliki nilai yang rendah


(25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh upper group dan dijawab salah oleh lower group. 2) Korelasi aitem-total Korelasi aitem-total memberikan informasi tentang apakah aitem mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial. Korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk dikotomi. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan salah dan lower group menjawab pertanyaan dengan benar. 3) Korelasi inter-aitem Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem menunjukkan nilai yang tinggi atau rendah karena sangat jelas bahwa aitem yang memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat menjelaskan mengapa korelasi aitem total dapat bernilai negatif tetapi hal ini dapat dijelaskan dengan menggunakan korelasi inter-aitem. Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan salah dan subjek dari lower group dapat menjawab dengan benar.


Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda. 3. Reliabilitas Alat Ukur a. Pengertian Reliabilitas Menurut Oslterlind (2010), reliabilitas mengarah pada ketepatan dalam pengukuran mental yang ditentukan oleh kekonsistenan dari pengukuran paralel secara acak dari beberapa pengukuran. Pengertian reliabilitas diterapkan dalam dua konteks. Pertama, reliabilitas mengungkap ketepatan instrumen pengukuran, sebagaimana dalam indeks reliabilitas (dikalkulasi sebagai koefisien reliabilitas), dan kedua, reliabilitas diterapkan dalam antar-subjekal untuk testee, sebagaimana dispesifikasi dalam standar error pengukuran (SEM). Reliabilitas juga menandai konsep untuk mengestimasi seberapa baik sampel aitem mewakili keseluruhan aitem untuk konstruk laten atau konten domain. Semakin reliabel sebuah pengukuran, semakin kecil error yang diungkap dalam skor dan semakin terpercaya interpretasi yang dihasilkan. Reliabilitas bergantung pada konteks penggunaan reliabilitas itu sendiri. Terdapat banyak perspektif pada reliabilitas, tergantung pada defenisi error yang digunakan dan defenisi konstruk laten maupun konten domain yang telah ditentukan sebelumnya. Menurut Azwar (2005), reliabilitas merupakan terjemahan dari kata reliability yang menyatakan keterpercayaan, keterandalan, keajegan, kestabilan,


konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna sejauh mana hasil suatu pengukuran dapat dipercaya. Menurut Anastasi & Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh oleh subjek yang sama ketika diberikan tes ulang yang sama atau seperangkat tes yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata (2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu, konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2005). Lord dan Novick (dalam Osterlind, 2010), memberikan defenisi reliabilitas sebagai “reliabilitas sebuah tes didefenisikan sebagai kuadrat korelasi antara skor tampak dan skor murni”, sebagaimana dalam rumus :

ρ2XT

(9)

Menurut Osterlind (2010), reliabilitas juga dievaluasi dengan konsistensi pengukuran ketika pengukuran diulang terhadap subjek atau kelompok dari sebuah populasi. Semakin konstan pengukuran tersebut dalam pengukuranpengukuran yang diulang, maka semakin tinggi reliabilitasnya.

ρXT

(10)

Gulliksen (dalam Osterlind, 2010) mengatakan bahwa reliabilitas adalah korelasi antara dua bentuk paralel dari sebuah tes. Pada koefisien ini, korelasinya


adalah antara dua skor-skor tampak atau kumpulan-kumpulan skor. Hal ini ditunjukkan dalam rumus:

ρx1x2

(11)

b. Metode Estimasi Reliabilitas Reliabilitas alat ukur juga menunjukkan eror pengukuran yang tidak dapat ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi reliabilitas dapat dibagi ke dalam tiga bentuk metode, yaitu pendekatan tes ulang, pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan Suryabrata, 2005). 1) Pendekatan tes ulang Pendekatan ini dilakukan dengan cara menyajikan tes yang sama dua kali pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005). Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam prakteknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar, perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata, 2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah Pearson product-moment (Kumar, 2009).


2) Pendekatan tes paralel Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas (Azwar, 2005). Pendekatan ini disebut juga sebagai alternate form yang digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009). Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah korelasi Pearson product moment (Azwar, 2005) 3) Pendekatan konsistensi internal Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi antar aitem atau antar bagian dalam tes tersebut serta menghindari masalahmasalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari kelompok subjek tersebut. Prosedur analisis reliabilitasnya diarahkan pada analisis terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang disebut belahan tes. Setiap cara pembelahan tes sebaiknya mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang, isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem memenuhi ciri-ciri paralel (Azwar, 2005). Berikut beberapa cara dalam pembelahan tes (Azwar, 2005).


(a). Pembelahan cara random Membelah tes menjadi dua bagian secara random dapat dilakukan dengan cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua. Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar, 2005). (b). Pembelahan gasal-genap Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar, 2005). (c). Pembelahan matched-random subtes Pembelahan dengan cara matched-random subtes ditemukan oleh Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan korelasi antara aitem yang bersangkutan dengan skor tes.


Selain beberapa cara pembelahan tes telah diuraikan, reliabilitas berdasarkan konsistensi internal juga dapat diestimasi dengan beberapa rumus (Azwar, 2005). (a). Spearman-Brown Rumus Spearman-Brown digunakan untuk metode split-half atau belah dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi SpearmanBrown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai beikut (Azwar, 2005): S-B = rxx’=

(12)

Keterangan: rxx’ = Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasi antara dua belahan (b). Koefisien Alpha Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi τequivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005): α=

(13)

Keterangan : = banyaknya belahan tes = varians belahan j; j = 1, 2…k


= varians skor tes Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya. (c). Kuder-Richardson 20 (KR-20) KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan rumus KR-20 adalah (Azwar, 2005): (14) Keterangan : = banyaknya aitem dalam tes = varians skor tes p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut. Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya.


(d). Kuder-Richardson 21 Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem, Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR-21 adalah (Azwar, 2005):

(15) Keterangan : = banyaknya aitem dalam tes = rata-rata p yaitu, = varians skor tes Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi, indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas akan lebih rendah dari pada menggunakan KR-20. (e). Rulon Rulon mengusulkan suatu formula komputasi untuk mengestimasi reliabilitas skor dengan pendekatan belah dua tanpa perlu berasumsi bahwa kedua belahan tersebut mempunyai sifat t-equivalent sepanjang jumlah aitem pada kedua belahan adalah sama. Formula Rulon dirumuskan sebagai : rxx ' = 1 − S d / S x 2

2

(16)


Keterangan : 2

S d = Varians perbedaan skor kedua belahan 2

S x = Varians skor tes d

= Perbedaan skor kedua belahan

(c). Reliabilitas Skor Komposit Ada kalanya skor tes sebagai deskripsi kuantitatif atribut dalam diri subjek tidak diperoleh langsung dari sekedar penjumlahan skor aitem-aitemnya, melainkan didapat dari komposisi atau penggabungan dari bebrapa skor. Beberapa skor tersebut dapat berupa skor dari bagian-bagian tes itu sendiri, yaitu komponen atau subtesnya, dapat pula berasal dari tes-tes yang berbeda sebagai suatu baterai instrumen. Dalam hal ini masing-masing komponen atau bagian tes akan memeberikan bobot yang tersendiri dalam menentukan skor tes (Azwar, 2012). Bobor relatif suatu komponen ditentukan oleh besarnya sumbangan komponen tersebut dalam menentukan skor akhir, misalnya suatu komponen yang berisi lebih banyak aitem akan lebir besar bobotnya. Begitu pula suatu komponen yang mungkin aitemnya tidak banyak akan tetapi karena mempunyai tingkat kesukaran yang tinggi akan dapat diberi bobot yang besar. Skor akhir tes seperti itu merupakan suatu komposit, yaitu penggabungan skor beberapa komponen setelah melalui prosedur atau penyetaraan skor (Azwar, 2012). Reliabilitas skor komposit ditentukan oleh reliabilitas skor komponennya. Banyaknya komponen yang membentuk skor tes akhir tidak terbatas pada dua atau tiga saja. Estimasi dapat dilakukan terhadap reliabilitas masing-masing komponen secara terpisah dan bila reliabilitas setiap komponen itu cukup tinggi maka dapat diharapkan bahwa skor kompositnya juga akan memiliki reliabilitas


yang tinggi (Azwar, 2012). Bila diinginkan untuk memperoleh estimasi tunggal terhadap skor komposit, dapat digunakan formula yang disarankan oleh Mosier (dalam Azwar, 2012), yaitu: rxx ' = 1 −

[∑ w

[∑ w

2 j

2 j

s j − ∑ w j s j r jj ' 2

2

]

]

s j + 2(∑ w j wk s j s k r jk ) 2

(17)

Keterangan : Wj = bobot relatif komponen j Wk= bobot relatif komponen k Sj = deviasi standar komponen j Sk = deviasi standar komponen k rjj’ = koefisien reliabilitas tiap komponen rjk = koefisien relatif antara dua komponen yang berbeda c. Standar Error Pengukuran dan Interpretasi Koefisien Reliabilitas Menurut

Osterlind

(2010),

standar

error

pengukuran

(SEM)

mengindikasikan kesenjangan antara skor tampak dan skor murni. Standar error pengukuran juga didefenisikan sebagai standar deviasi sebuah distribusi dari keseluruhan skor untuk semua subjek. Karena teori mengasumsikan distribusi yang setara dan normal untuk semua subjek dalam populasi, standar error pengukuran bisa dipandang sebagai rata-rata standar deviasi pada keseluruhan mean skor. Standar error pengukuran menyediakan informasi mengenai akurasi dari nilai mean sebagai perwakilan skor murni, sehingga bisa dikatakan bahwa mean tersebut adalah indikator dari error. Hal ini penting karena mengarah pandangan bahwa standar error pengukuran adalah indikasi reliabilitas. Standar error


pengukuran sering dimengerti sebagai analogi dari indeks reliabilitas. Indeks reliabilitas adalah pengukuran yang mengidikasikan kekurangan error, kebalikan dari SEM. Indeks reliabilitas didefenisikan sebagai korelasi sederhana antara bentuk-bentuk paralel sebuah tes (Osterlind, 2010). Standar error pengukuran merupakan fungsi dari reliabilitas (dan sebaliknya) ketika standar deviasi sebuah tes telah diketahui. Hubungan ini, dalam CTT, antara standar error pengukuran dan reliabilitas sudah terlihat ketika standar deviasi tetap konstan pada seluruh rentang skor sebuah tes. Standar deviasi yang konstan juga terlihat ketika skor ditunjukkan sebagai skor standar dalam unit-unit standar deviasi (Osterlind, 2010). Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara skor tampak dan skor murni subjek (Crocker & Algina, 2005). Penafsiran terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror pengukuran (SEm), dengan rumusan sebagai berikut: (18) Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung pada tujuan tes digunakan(Suryabrata, 2005).


Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan sebagai berikut: Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas Nilai estimasi reliabilitas 0.95

Bentuk Tes

Tes inteligensi 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50

Interpretasi Eror pengukuran memiliki efek yang sangat rendah Tinggi sampai sedang

Tes prestasi Kelompok tes pilihan ganda Skala

Sedang sampai rendah Rendah

Tes proyektif Skor murni dan eror pengukuran seimbang pada skor tes

d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen tes, yaitu: 1) Homogenitas Kelompok Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor murni dan eror kelompok subjek atau skor tampak kelompok subjek. Semakin besar homogenitas kelompok semakin rendah nilai koefisien reliabilitas suatu tes dibandingkan dengan kelompok subjek yang heterogen. 2) Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek. Hal tersebut dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu


lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3) Panjang Tes Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes tersebut. 4. Validitas a. Pengertian Validitas Menurut Osterlind (2010), validitas merupakan inti dari pengujian mental. Validitas berarti bahwa informasi yang diungkap oleh sebuah tes adalah informasi yang sesuai, bermakna, dan berguna untuk pengambilan keputusan yang merupakan tujuan pengukuran mental. Standards Text (dalam Osterlind, 2010) mendeskripsikan bahwa validitas adalah pertimbangan yang paling fundamental dalam mengembangkan dan mengevaluasi tes dimana validitas mengarah pada sejauh mana bukti dan teori mendukung interpretasi skor tes berdasarkan tujuan penggunaan tes. Garrett (dalam Osterlind, 2010) mengatakan bahwa validitas suatu tes merupakan tingkat dimana suatu alat tes mengukur apa yang hendak diukurnya. Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur tersebut dengan standar atau kriteria yang telah ditetapkan. Menurut Azwar (2005), validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam menjalankan fungsi ukurnya. Suatu tes atau instrumen pengukuran


dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat berkaitan sangat erat dengan tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur (Azwar, 2005). b. Sumber-sumber Bukti Validitas Bukti-bukti validitas harus terkumpul dari banyak sumber ketika akan mengevaluasi validitas. Sumber-sumber ini memberikan informasi mengenai tingkat kepercayaan untuk membuat kesimpulan-kesimpulan berdasarkan skor dalam situasi tertentu (Osterlind, 2010). Beberapa bukti yang mendukung dalam mengevaluasi validitas diberikan dalam Standards for Educational and Psychological

Testing/Standards

text

(American

Educational

Research

Association, dkk, 1999, dalam Osterlind 2010). 1) Bukti Validitas Berdasarkan Isi Tes Mengevaluasi bukti untuk kesimpulan yang valid dari skor tes hampir selalu memasukkan informasi mengenai isi dari suatu pengukuran yang secara khusus mengarah pada content domain (dalam pengukuran berdasarkan domain) atau konstruk (dalam model trait tersembunyi). Banyak fungsi mental, seperti IQ dan proses psikologi lainnya, yang bisa diterangkan sebagai pengukuran konstruk, trait, atau domain. Ketika menilai konstruk psikologis yang tidak mudah untuk dijelaskan maka akan muncul masalah khusus, misalnya pengukuran IQ. Studi


tentang inteligensi manusia penuh dengan pemikiran dan teori yang berlainan tentang apa yang termasuk dan tidak termasuk. Dalam hal ini spesifikasi konstruk dibutuhkan dalam tujuan yang berbeda. Ketika membangun sebuah instrumen, seringkali orang yang mengembangkan tes mengkombinasikan deskripsi isi tes dan jenis proses respon dalam sebuah blueprint tes, dimana blueprint ini bisa menjadi dokumen yang sangat berguna bagi pengguna tes ketika akan mengevaluasi validitas berdasarkan isi tes. Menurut Azwar (2005), Validitas isi menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement. Dengan kata lain validitas isi sangat tergantung pada penilaian subjektif subjekal dan tidak melibatkan perhitungan statistik. 2) Bukti Validitas Berdasarkan Proses Respon Pengujian mental atau proses kognitif digunakan untuk mengungkap respon terhadap stimulus pengukuran adalah sumber lain untuk bukti validitas. Beberapa metode berdasarkan variabel-variabel laten dan proses kausal sebuah konstruk mungkin memasukkan analisis variabel laten, structural equation modeling (SEM), Hierarchical linear modeling(HLM), dan beberapa metaanalisis. Metode-metode ini juga bisa mengungkap informasi penting mengenai proses respon subjek. 3) Bukti Validitas Berdasarkan Struktur Internal Struktur internal tes sangat berhubungan dengan pembuatan kesimpulan yang sesuai dan terpercaya mengenai konstruk yang sedang diukur. Ada beberapa metode psikometri yang bisa secara empiris menginvestigasi struktur internal,


tetapi tidak ada satu metode pun yang dianggap terbaik secara umum. Kesesuaian metode yang digunakan tergantung pada konteks dimana tes dikembangkan, bagaimana tes tersebut digunakan dan keputusan apa yang ingin diinformasikan. Beberapa cara yang relevan untuk mempelajari pengukuran struktur internal sebagai berikut :Analisis faktor, analisis kluster, analisis komponen prinsipal, konfirmasi teori psikologi: faktor analisis konfirmatori, multitrait-multimethod matrix, teknik estimasi parameter kemampuan (IRT), strategi-strategi yang melibatkan teori kemampuan-generalisasi. Model faktor umum (common factor model) adalah teori satu faktor dari Charles Spearman mengenai sebuah tes berisi aitem-aitem yang umum dan memiliki pengaruh yang unik. Dalam situasi praktis untuk validasi tes, model faktor umum diukur dengan menggunakan analisis faktor (factor analysis) atau analisis komponen prinsipal (principal component analysis, PCA). Inti prosedur ini adalah untuk mengurangi varians total diantara aitem-aitem dalam sebuah matriks kovarians sehingga jumlahnya bisa diestimasi. Menurut Azwar (2012), analisis faktor merupakan metode statistik yang berisi kumpulan prosedur matematik yang kompleks dalam pengembangan alat ukur untuk menganalisis adanya saling hubungan di antara variabel-variabel dan menjelaskan saling hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor. Oleh karena validitas ini ditegakkan melalui prosedur analisis faktor maka disebut sebagai validitas faktorial. Menurut Field (2009), analisis faktor digunakan untuk melihat hubungan atau korelasi antara komponenkomponen aitem dengan variabel laten yang mendasari.


Sebuah faktor adalah kombinasi aitem-aitem tes yang diyakini sebagai suatu kumpulan. Aitem-aitem yang berhubungan membentuk sebagian dari konstruk dan dikelompokkan bersama, aitem-aitem yang tidak berhubungan tidak membentuk bagian dari konstruk dan harus dikeluarkan dari kelompoknya (Munro, dalam Azwar, 2012). Analisis faktor memiliki dua jenis prosedur yang dilandasi oleh dasar pemikiran yang agak berbeda, yaitu analisis faktor eksploratori (exploratory factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory factor analysis, CFA). Prosedur faktor analisis eksploratori membantu pengembang tes dalam mengenali dan mengidentifikasi berbagai faktor yang membentuk suatu konstruk dengan cara menemukan varians skor terbesar dengan jumlah faktor yang paling sedikit yang dinyatakan dalam bentuk eigenvalue > 1,0 (Azwar, 2012). Prosedur analisis faktor konfirmatori biasanya akan menindaklanjuti hasil EFA dengan menyertakan dasar teori yang melandasi bangunan tes tersebut agar dapat menguji validitas konstruknya lebih lanjut. Jadi, CFA menguji sejauhmana model statistik yang dipakai sesuai dengan data empirik (Waltz dkk., dalam Azwar, 2012). Analisis faktor konfirmatori hampir selalu digunakan dalam proses pengembangan instrument untuk menguji struktur laten suatu tes, dalam hal ini CFA digunakan untuk memverifikasi banyaknya dimensi yang mendasari bangunan suatu tes dan pola hubungan antara aitem dengan faktor (factor loading atau yang disebut muatan faktor)(Brown, dalam Azwar, 2012). Pada prosedur analisis faktor, tes yang dipengaruhi oleh faktor-faktor tertentu disebut sebagai tes yang memiliki muatan faktor (factor loading) yang tinggi. Muatan faktor berupa indeks yang arti dan besarannya mirip dengan


koefisien korelasi. Bila faktor-faktor tidak berkorelasi satu sama lain maka muatan faktor bukanlah koefisien korelasi akan tetapi seringkali diinterpretasikan seakanakan koefisien korelasi (Azwar, 2012). Analisis struktur faktor dilakukan untuk melihat struktur internal tes sebagai dukungan terhadap validitas model persamaan structural yang digunakan dalam konstruksi tes yang bersangkutan (Azwar, 2012). Untuk tujuan tersebut digunakan prosedur common factor analysis sebagai salahsatu metode pengujian model, terutama yang mengikuti anggapan bahwa satu konstruk dasar akan menghasilkan skor tampak (Aneshensel, dalam Azwar 2012). Bila model yang diajukan ternyata cocok dengan data skor subjek, berarti struktur internal tes adalah valid (Azwar, 2012) Metode multitrait-multimatriks secara konseptual mirip dengan analisis faktor yang merupakan prosedur untuk menganalisis hubungan dan menentukan pola-pola data. Metode ini bisa menyediakan bukti validitas yang berguna untuk evaluasi struktur internal. Dalam menggunakan metode ini harus berhati-hati untuk menghindari kesalahan-kesalahan yang membingungkan informasi dari metode multitrait-multimethod dengan yang diungkap melalui analisis faktor (Osterlind,

2010).

Campbell

dan

Fiske

(dalam

Azwar,

2012)

telah

mengembangkan pendekatan ini yang dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam proses validasi ini adalah bahwa validitas yang baik diperlihatkan oleh adanya korelasi yang tinggi di antara hasil pengukuran terhadap trait yang sama oleh beberapa metode yang berbeda (convergent validity), atau sebaliknya tidak adanya


korelasi di antara hasil pengukuran terhadap beberapa trait yagn berbeda sekalipun diukur menggunakan metode yang serupa (discriminant validity).

4) Bukti Validitas Berdasarkan Hubungan dengan Variabel Lain Hubungan antara skor tes dan kriteria yang diuji sering diidentifikasi dengan melabel bukti kriteria sebagai bukti prediktif atau konkuren dalam validitas. Kedua jenis bukti ini menunjukkan kemunculan hubungan antara tes dan sebuah kriteria eksternal, perbedaanya hanya waktu kapan pengukuran hubungan korelasional. Bukti prediktif juga adalah sebuah indikator yang muncul dari perbandingan antara sebuah tes dengan tes di masa depan atau kriteria administrasi posttest. Dalam mengevaluasi validitas, masalah muncul ketika sebuah hubungan korelasional adalah sumber utama dalam bukti validitas. Kesulitan muncul dari fakta bahwa dalam CTT, skor murni hanya bisa didapat secara teoritis dan tidak bisa diketahui secara pasti. Dalam dunia praktis, terbukti bahwa reliabilitas korelasional sebagai bukti kriteria untuk validitas tes, ditekan oleh derajat eror pengukuran dalam kriteria. Keadaan ini disebut sebagai masalah kriteria. Masalah kriteria adalah ketika reliabilitas kriteria bergantung pada hubungan korelasional dengan kriteria eksternalnya. 5) Bukti Validitas Berdasarkan Pertimbangan-pertimbangan Eksternal Validitas Tampang sebagai Sumber Bukti Validitas tampang berarti bahwa peserta tes yang melihat instrumen tes untuk pertama kali seharusnya tidak terkonfrontasi dengan dokumen yang tidak lazim, sering terjadi karena persiapan yang tidak profesional. Validitas tampang


tidak bisa diuji dengan metode statistik, bukan berarti validitas tampang bisa dianggap rendah. Memberikan sebuah instrumen tes yang memiliki tampilan profesional pada peserta tes adalah tanggung jawab validitas pembuat tes.

c. Interpretasi Koefisien Validitas Interpretasi koefisien validitas bersifat relatif. Tidak ada batasan universal yang mengarah kepada angka minimal yang harus dipenuhi agar suatu tes dikatakan valid. Menurut Cronbach (dalam Azwar, 2005) koefisien validitas yang baik adalah yang tertinggi yang bisa didapatkan. Jadi tidak ada batasan. Hal yang menjadi pertimbangan adalah sejauh mana tes tersebut dapat bermanfaat dalam pengambilan keputusan. Tes yang berfungsi untuk memprediksi hasil suatu prosedur seleksi dapat dikatakan memberikan kontribusi yang baik jika koefisien validitas berkisar antara 0,3 sampai dengan 0,5. Menurut Azwar (2005) koefisien validitas yang tidak begitu tinggi, sekitar 0,5 akan lebih dapat diterima dan dianggap memuaskan dan koefisien

validitas yang kurang dari 0,3 biasanya

dianggap tidak memuaskan. Sedangkan dalam penggunaan analisis faktor konfirmatori dengan bantuan program Lisrel 8.30, suatu aitem dikatakan memiliki validitas yang baik jika memenuhi dua nilai muatan faktor, yaitu t-values dan standardize loading factor (muatan faktor standar) dengan batasan nilai kritikal tertentu. Jika nilai dari t-values <1,96 berarti estimasi muatan faktor tersebut tidak signifikan dan variabel teramati terkait bisa dihaput dari model. Sedangkan jika muatan faktor standar <0.50 makan variabel teramati tersebut bisa dihapus dari model (Wijanto, 2008). Suatu aitem dapat dikatakan valid jika kedua nilai muatan faktor tersebut terpenuhi


C. Analisis Karakteristik Psikometri Alat Ukur Alat ukur terdiri dari aitem-aitem yang dirancang untuk tujuan tertentu. Aitem dapat dikatakan memiliki kualitas yang baik jika aitem memiliki karakteristik psikometri yang baik pula (Azwar, 2007). Aitem berkualitas baik atau tidak dapat kita ketahui melalui analisis karakteristik psikometri terhadap aitem tersebut. Analisis terhadap aitem-aitem dalam suatu alat ukur pada awalnya akan memberikan tiga informasi, yaitu informasi tentang distraktor, indeks kesukaran aitem dan indeks diskriminasi aitem (Murphy & Davidshofer, 2003). Ketiga karakteristik tersebut akan saling mempengaruhi terhadap reliabilitas dan valididtas alat ukur. Tetapi penelitian ini hanya memberi informasi karakteristik indeks kesukaran aitem dan indeks diskriminasi aitem. Indeks kesukaran aitem secara langsung akan mempengaruhi indeks diskriminasi aitem. Ketika aitem sangat susah (p = 0) atau aitem sangat mudah (p = 1), maka aitem tidak akan dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminasi aitem menjadi rendah (Murphy & Davidshofer, 2003). Menurut Kumar (2009), indeks diskriminasi yang rendah dapat mempengaruhi validitas aitem tersebut yang kemudian akan mempengaruhi validitas tes secara keseluruhan. Ketika aitem mengukur fungsi ukur dengan tepat, maka aitem akan dapat membedakan antara kelompok yang memiliki atribut yang hendak diukur dan yang tidak memiliki atribut yang hendak diukur sehingga aitem dapat dikatakan valid. Koefisien reliabilitas suatu tes juga akan dipengaruhi oleh indeks kesukaran aitem dalam tes tersebut. Ketika indeks kesukaran aitem tidak relatif


setara satu sama lain atau sangat bervariasi maka koefisien reliabilitas akan rendah (Azwar, 2005). Pada beberapa kondisi, tes yang reliabel belum tentu valid, karena reliabilitas tes juga dipengaruhi oleh eror, tetapi tes yang valid sudah pasti reliabel (Azwar, 2005). D. Culture Fair Intelligence Test (CFIT) Skala 3B 1. Sejarah dan Perkembangan CFIT Spearman (1927) menyusun faktor analisis pertama terhadap kemampuankemampuan dan mengatakan bahwa kemampuan-kemampuan tersebut dapat dijelaskan dalam sebuah faktor umum (general factor) yang disebut “g” yang mengarah pada kecerdasan umum (Coaley, 2010). Menurut Spearman, kecerdasan terdiri dari satu faktor umum ditambah sejumlah faktor-faktor spesifik di dalamnya (Kaplan & Saccuzo, 2005). Dalam perkembangannya, Cattel menemukan bahwa kecerdasan bukan merupakan satu konsep tunggal tetapi terdiri dari dua komponen. Cattel membenarkan bahwa kecerdasan umum (general intelligence) memang ada tetapi dia mengatakan bahwa kecerdasan umum terdiri dari dua hal yang berhubungan tetapi berbeda, yaitu fluid intelligence dan crystallized intelligence.Fluid intelligence lebih ditentukan secara genetis sehingga lebih bebas budaya. Cattel memandang bahwa fluid intelligence sebagai kemampuan logika primer yang berhubungan dengan masalah-masalah abstrak dan lebih terlibat dalam proses adaptasi. Sebaliknya, crystallized intelligence berkembang dari latihan terhadap fluid intelligence dalam lingkungan tertentu. (Coaley, 2010). Semua budaya cenderung menguatkan keahlian dan aktifitas tertentu. Salahsatu tujuan tes performansi nonverbal adalah untuk mengurangi faktor-faktor


yang berhubungan dengan pengaruh budaya sehingga bisa diukur kecerdasan yang bebas dari proses belajar, budaya, dan sebagainya (Kaplan & Saccuzo, 2005). Culture Fair Intelligence Test adalah pengukuran nonverbal terhadap fluid intelligence yang diciptakan oleh Raymond B. Cattel. Tujuan dari CFIT adalah untuk mengukur fluid intelligence (kemampuan analisis dalam situasi abstrak) dalam pola yang sebebas mungkin dari pengaruh budaya (Gregory, 2000). Culture Fair Intelligence Test dirancang untuk memberikan sebuah estimasi kecerdasan yang relatif bebas dari pengaruh bahasa dan budaya (Kaplan & Saccuzo, 2005) Salah satu tujuan tes instrument CFIT ini adalah untuk meminimalisir pengaruhpengaruh yang tidak relevan dari pembelajaran budaya dan sosial sehingga dihasilkan pemisahan yang lebih bersih terhadap kemampuan alami dari pembelajaran yang spesifik (IPAT dalam Gregory, 2000). Awalnya tes ini dinamakan Culture Free Intelligence Test. Nama tes ini berubah setelah diketahui bahwa pengaruh budaya tidak bisa dihilangkan seutuhnya dari tes inteligensi (Gregory, 2000). Culture Fair Intelligence Test telah direvisi beberapa kali, dan bentuk yang sekarang muncul setelah revisi pada tahun 1961. Test ini berisi tiga versi: Skala 1 untuk anak usia 4-8 tahun dan untuk dewasa dengan gangguan mental; skala 2 untuk anak usia 9-13 tahun dan untuk dewasa dengan kecerdasan rata-rata; Skala 3 untuk siswa SMA dan perguruan tinggi dan untuk dewasa dengan kecerdasan tinggi. Skala 1 melibatkan interaksi antara tester dan testee sehingga harus diadministrasikan secara subjekal, sedangkan Skala 2 dan 3 merupakan tes kelompok dan kedua skala ini berbeda dalam tingkat kesulitan. Pada setiap skala terdapat dua bentuk yang setara disebut Bentuk A dan Bentuk B. Setiap bentuk


berisi 4 subtes : Seri, Klasifikasi, Matriks, dan Kondisi/topologi. Tiap subtes memiliki batasan waktu. CFIT merupakan speed test, dengan waktu 30 menit untuk skala 2 dan 3, tetapi hanya diberikan 12,5 menit pada tes sebenarnya (Gregory, 2000). Reliabilitas CFIT melalui tes-retes, bentuk alternatif, dan konsitensi internal pada umumnya 0,70an pada skala 2 dan 3. Dalam hal validitas, CFIT berkorelasi sekitar 0,80an dengan faktor umum inteligensi dan menunjukkan hubungan yang kuat sekitar 0,70an dan 0,80an dengan alat ukur inteligensi yang umum dipakai seperti: WAIS, WISC, Raven PM, Stanford-Binet, Otis, dan General Aptitude Test (IPAT pada tahun 1973, dalam Gregory, 2000). Dari sini dapat dikatakan bahwa CFIT dirancang dengan baik, berguna, dan valid sebagai tes inteligensi (Gregory, 2000). Lembaga Pengembangan Sarana Pengukuran dan Pendidikan Psikologi Fakultas Psikologi Universitas Indonesia (LPSP3 UI) (“Buku Petunjuk Penggunaan CFIT, 2013) melakukan pengujian reliabilitas menggunakan 1.843 data dengan menggunakan data dari tahun 2005 hingga 2007 yang sebagian besar berasal dari hasil seleksi dan penempatan dalam pendidikan (seperti masuk sekolah atau penjurusan SMA) maupun pekerjaan. Karena CFIT skala 3 dimaksudkan untuk mengukur sebuah kemapuan intelektual umum atau faktor “g”, maka perlu dilakukan pengujian reliabilitas dengan metode konsistensi internal menggunakan formula Alpha-Cronbach. Diperoleh koefisien AlphaCronbach sebesar 0,786 (Mean = 26,87, SD = 5,854). Menurut Murphy dan Davishofer (2001), koefisien reliabilitas sebesar 0,7 tergolong rendah.


BAB II LANDASAN TEORI

Recommend Documents