BAB II TINJAUAN PUSTAKA. Pada dasarnya ilmu pengukuran memiliki dua pendekatan, yaitu

12

BAB II TINJAUAN PUSTAKA

Pada dasarnya ilmu pengukuran memiliki dua pendekatan, yaitu pendekatan classical test theory (CTT) dan pendekatan teori modern. Pendekatan CTT adalah metode pertama yang dikembangkan untuk pengukuran. Teori-teori CTT mendominasi pengembangan rumus reliabilitas dan validitas yang dikenal dewasa ini (Azwar, 2007 dan Suryabrata, 2005). Namun CTT memiliki beberapa keterbatasan, yaitu tergantung pada kelompok sampel yang digunakan, asumsi kesetaraan eror pengukuran pada semua subjek yang dikenai tes sulit untuk diterima dan tidak ada pernyataan lain yang dapat memperkuat asumsi ini, khususnya pada tes yang sulit, serta definisi tes paralel yang dimaksud oleh CTT sangat sulit untuk dipenuhi dalam praktek (Azwar, 2005). Pendekatan teori modern didasarkan pada sifat-sifat atau kemampuan yang laten, yang mendasari performansi atau respon subjek terhadap aitem tertentu sehingga disebut dengan Teori Sifat Laten (Latent Trait Theory) atau yang lebih populer dengan sebutan Teori Respons Aitem (Item Response Theory yang selanjutnya disingkat IRT (Suryabrata, 2005). Pendekatan ini bertujuan untuk mengatasi kelemahan-kelemahan CTT. IRT dikembangkan atas dasar dua postulat. Pertama, performansi seorang subjek pada suatu aitem dapat diprediksi dari seperangkat faktor yang disebut traits, latent traits, atau kemampuan. Kedua, hubungan antara performansi subjek pada suatu aitem dan kemampuan yang mendasari performansi tersebut dapat digambarkan oleh suatu fungsi yang

13

meningkat secara monotonik yang disebut item characteristic function atau item characteristic curve (ICC). ICC akan menunjukkan bahwa subjek yang memiliki kemampuan yang tinggi akan memiliki peluang yang lebih besar untuk menjawab aitem dengan benar. Artinya katakteristik-karakteristik aitem tidak lagi tergantung pada kelompok subjek. Ini menjadi keuntungan menggunakan IRT yang tidak dapat dijelaskan dengan CTT (Azwar, 2005). Model-model IRT

memiliki

asumsi-asumsi pendukung walaupun tidak dapat diukur secara langsung, namun dapat disimpulkan dan dinilai dari kesesuaian model pada perangkat data tes yang akan dianalisis. Asumsi yang paling umum adalah unidimensionalitas, yaitu hanya satu kemampuan yang diukur oleh aitem-aitem dalam setiap tes. Asumsi berikutnya adalah independensi lokal, yaitu apabila kemampuan-kemampuan yang mempengaruhi peformansi dijadikan konstan maka respon subjek terhadap pasangan aitem manapun juga akan independen secara statistik satu sama lain. Artinya kemampuan subjek pada suatu aitem tidak dipengaruhi oleh faktor-faktor lainnya dan tidak berhubungan dengan kemampuan subjek pada aitem lainnya (Azwar, 2005). Keuntungan lainya dalam menggunakan IRT adalah pendekatan ini sangat mudah diadaptasikan untuk tes yang di administarasi dengan komputer (Kaplan & Saccuzo, 2005). Keterbatasan dari pendekatan ini adalah proses yang cukup rumit dan sulit untuk dilakukan karena analisis dilakukan per aitem dan subjek. Pada penelitian ini, pendekatan yang akan digunakan dalam proses analisis adalah CTT dengan pertimbangan bahwa pendekatan ini yang dipelajari oleh peneliti selama perkuliahan, CTT mendasari perkembangan rumus reliabilitas dan

14

validitas, serta pendekatan ini lebih mudah digunakan karena analisis dilakukan pada kelompok subjek bukan per subjek.

A. Classical Test Theory (CTT) 1. Pengertian CTT Pendekatan CTT adalah metode pertama yang telah dikembangkan sejak dahulu dan tetap digunakan dewasa ini dalam berbagai bidang kehidupan sehingga pendekatan ini disebut dengan CTT atau teori tes klasik. CTT terbentuk dan berkembang perlahan-lahan melalui unsur-unsur yang akhirnya secara akumulatif menjadi bangunan teori yang utuh. Model pendekatan ini juga disebut model skor murni (true score model). Inti CTT berupa asumsi-asumsi yang dirumuskan secara sistematis (Suryabrata, 2005) Asumsi-asumsi CTT pada dasarnya merupakan hubungan matematis dari skor tampak yang disimbolkan dengan huruf X, skor murni yang dilambangkan dengan huruf T, dan komponen eror pengukuran yang diberi simbol huruf E. X merupakan nilai performansi individu yang diungkap oleh suatu pengukuran yang dinyatakan dalam bentuk angka yang merupakan nilai total dari jawaban subjek terhadap aitem atau pernyataan dalam tes tersebut. T menjelaskan performansi individu sesungguhnya yang tidak mungkin dapat diungkap secara langsung oleh tes. E menunjukkan besarnya eror individu dalam setiap tes yang angkanya juga tidak dapat diketahui dengan benar (Azwar, 2005).

15

2. Asumsi-Asumsi dalam CTT Pendekatan CTT terdiri dari asumsi-asumsi yang berkaitan dengan skor tampak, skor murni dan komponen eror pengukuran. Allen & Yen (dalam Azwar, 2005) menguraikan hubungan antara eror pengukuran dan skor murni dalam asumsi-asumsi sebagai berikut: Asumsi 1: X = T + E

(1)

Asumsi ini didasarkan pada model Spearman yang menyatakan bahwa setiap skor tes menggambarkan gabungan dari dua komponen yaitu skor murni dan komponen eror (Crocker & Algina, 2005). X merupakan jumlah T dan E, sehingga besar X akan tergantung oleh besarnya E pengukuran, sedangkan besarnya T individu pada setiap pengukuran yang sama diasumsikan selalu tetap. Jadi dapat disimpulkan bahwa skor yang diperoleh dari suatu pengukuran umumnya tidak menunjukkan keadaan sebenarnya (Suryabrata, 2005). Asumsi 2: ε(X) = T

(2)

Asumsi ini menyatakan bahwa T sama dengan nilai harapan dari X-nya yang dilambangkan dengan ε(X). Jadi, T merupakan harga rata-rata dari distribusi teoretik X apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah independen satu sama lain. Asumsi 3:

=0

(3)

Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi E pengukuran dan distribusi T tidak berkorelasi satu sama lain. Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang

16

selalu positif ataupun selalu negative atau mempunyai E lebih tinggi dibanding subjek yang T-nya rendah. Asumsi 4:

=0

(4)

Asumsi ini menyatakan bahwa dalam eror pada dua tes ( yang dimaksud untuk mengukur hal yang sama) tidak saling berkorelasi. Artinya besarnya E pada suatu tes tidak tergantung pada E tes lainnya. Asumsi ini akan tidak terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, practice effect, suasana hati, atau factor-faktor dari lingkungan (Suryabrata, 2005). Asumsi 5

=0

(5)

Asumsi ini menyatakan bahwa E pada suatu tes tidak berkorelasi dengan T pada tes lain. E yang dimaksud dalam CTT adalah penyimpangan X dari skor harapan teoritik yang terjadi secara random atau tidak terjadi secara sistematik. Jika penyimpangan terjadi secara sistematik maka itu tidaklah dianggap sebagai sumber eror. Selain lima asumsi yang telah dijelaskan, terdapat dua asumsi lagi yang dijelaskan oleh Suryabrata (2005), yaitu: Asumsi 6 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, kedua tes tersebut disebut sebagai tes yang paralel.

17

Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan apabila untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test). Dua tes yang setara dapat memiliki varians eror yang berbeda karena keduanya belum tentu merupakan tes yang paralel, namun dua tes yang paralel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2005). Asumsi-asumsi CTT secara sekilas terlihat sebagai sesuatu yang hanya bersifat teoritis karena sulit untuk ditemukan dalam kehidupan nyata. Meskipun demikian, CTT masih bertahan sebagai dasar pengembangan dan analisis alat ukur psikologi. Berbagai tes telah disusun berdasarkan CTT di berbagai belah dunia termasuk di Indonesia, seperti Tes Kemampuan Akademik (TPA), Ujian Masuk Perguruan Tinggi Negeri (UMPTN), dan Ujian Akhir Nasional (UAN) (Suryabrata, 2005).

B. Analisis Karakteristik Psikometri Suatu alat ukur yang telah dikonstruksi pastinya belum dapat dikatakan sebagai alat ukur yang layak pakai apabila analisis terhadap karakteristik psikometri alat ukur tersebut belum dilakukan. Proses analisis terhadap karakteristik psikometri dapat digunakan dalam merancang suatu alat ukur psikologis yang baru atau evaluasi terhadap alat ukur yang telah ada.

18

Analisis aitem merupakan suatu prosedur untuk meningkatakan validitas dan reliabilitas suatu alat tes dengan cara memilih aitem-aitem yang baik sesuai dengan tujuan alat tes (Crocker & Algina, 2005). Analisis aitem dapat dilakukan secara kualitatif dan kuantitatif. Analisis aitem secara kualitatif berarti aitem dianalisis berdasarkan bentuk dan isinya yang dapat dilakukan dengan mempertimbangkan validitas isi. Sedangkan analisis secara kuantitatif dilakukan dengan analisis parameter-parameter aitem berupa indeks kesukaran aitem, indeks diskriminasi aitem, analisis reabilitas, dan validitas dari alat ukur tersebut (Anastasi & Urbina, 2006). Pada penelitian ini analisis aitem hanya dilakukan secara kuantitatif dengan pertimbangan bahwa penelitian ini bertujuan untuk melihat validitas konstrak dan reliabilitas alat ukur mengingat bahwa IST merupakan tes yang diadaptasi yang telah lama digunakan dan tidak bertujuan untuk melihat kualitas aitem secara kualitatif. 1. Indeks Kesukaran Aitem a. Pengertian Indeks Kesukaran Aitem Indeks kesukaran aitem adalah proporsi antara individu yang menjawab aitem dengan benar dan total individu yang menjawab aitem tersebut. Indeks kesukaran aitem atau derajat kesukaran aitem disimbolkan oleh huruf p dengan rumus: p = ni/N

(6)

19

Keterangan: p = Derajat kesukaran aitem ni = Banyak peserta tes yang menjawab benar N = Banyak peserta tes yang menjawab aitem Indeks kesukaran aitem ditentukan oleh seberapa banyak peserta tes berhasil menjawab aitem dengan benar. Semakin banyak peserta tes menjawab dengan benar, berarti semakin mudah aitem tersebut dan sebaliknya semakin sedikit peserta menjawab dengan benar, maka semakin sulit aitem tersebut (Azwar, 2007). Crocker & Algina (2005) menjelaskan bahwa untuk aitem yang memiliki skor dikotomi, yaitu 0 jika salah dan 1 jika benar, rata-rata skor aitem tes sama dengan indeks kesukaran aitem sehingga jumlah indeks kesukaran aitem pada suatu tes menjadi sama dengan rata-rata dari skor tes tersebut. μx = Σp

(7)

Keterangan: μx = rata-rata skor tes Σp = jumlah indeks kesukaran aitem Selanjutnya, jika indeks kesukaran aitem dirata-ratakan, maka; μp = (μx)/k Keterangan: μp = rata-rata indeks kesukaran aitem μx = rata-rata skor tes k = jumlah aitem pada suatu tes.

(8)

20

Menurut Kumar (2009), angka untuk indeks kesukaran aitem sama dengan nomor aitem dalam tes tersebut. Artinya penyusunan aitem didasarkan pada indeks kesukarannya. Pernyataan ini didukung oleh Murphy & Davidshofer (2003) yang menyarankan untuk menyusun aitem-aitem dalam tes secara sistematis, dengan menempatkan aitem-aitem berdasarkan taraf kesukarannya, mulai dari aitem yang paling mudah hingga yang paling sulit. Oleh karena itu, pola penyusunan aitem-aitem dalam tes sebaiknya dimulai dari aitem dengan harga p yang paling tinggi hingga aitem dengan harga p yang paling rendah. b. Analisis Indeks Kesukaran Aitem Azwar (2007) menyatakan bahwa taraf kesukaran yang terbaik bergantung pada tujuan dari tes tersebut. Untuk tes prestasi yang bertujuan untuk evaluasi formatif misalnya, tidak jarang diperlukan aitem-aitem dengan taraf kesukaran rendah atau aitem-aitem dengan harga p tinggi. Namun demikian untuk tes yang bertujuan untuk proses seleksi masuk, terlebih dalam tes masuk yang bertujuan untuk proses pendidikan atau pemilihan sebagian kecil calon karyawan, harus diusahakan tes yang memiliki harga p yang rendah atau aitem yang sulit, sehingga individu yang dinyatakan lulus selanjutnya adalah individu yang benar-benar memiliki atribut yang diukur. Lord (dalam Murphy & Davidshofer, 2003) menyatakan bahwa untuk tes seleksi karyawan, p akan dikatakan baik jika nilai p mendekati 0,2. Namun, jika tes dimaksud sebagai perangkat untuk memilih sebagian besar dari calon karyawan yang melamar, maka tes yang baik adalah yang mudah, yaitu rata-rata p-nya tinggi (Suryabrata, 2005).

21

Pada dasarnya tes disusun untuk melihat perbedaan individu sehingga jika tidak ada seorang pun yang menjawab pertanyanan dengan benar, dalam artian soal sangat susah (p = 0) bahkan sebaliknya jika soal sangat gampang sehingga semua dapat menjawab pertanyaan dengan benar (p= 1) tentu tujuan alat tes tidak dapat dipenuhi (Murphy & Davidshofer, 2003). Oleh karena itu harga p bergerak mulai dari 0 sampai dengan 1. Apabila dilihat lebih lanjut, harga p yang berada pada titik ekstremnya yaitu titik 0 atau 1 mengindikasikan bahwa aitem tersebut kurang berguna (Azwar, 2007). Allen & Yen (dalam Lababa, 2008), mengkategorikan nilai p sebagai berikut: Tabel 1. Kategori Nilai p No. 1 2 3

p p < 0,3 0.3 0,7

Kategori Sulit Sedang Mudah

Umumnya pada penyusunan alat tes disarankan untuk menggunakan aitem dengan nilai p mendekati 0,5. Ketika tes disusun untuk pengukuran secara umum seperti inteligensi, aitem dengan nilai p mendekati 0,5 akan lebih baik dari pada aitem yang memiliki nilai p ekstrim. Jadi dalam analisis indeks kesukaran aitem, aitem dengan p mendekati 0,5 akan lebih optimal (Murphy & Davidshofer, 2003). Pada penelitian ini, IST merupakan salah satu tes inteligensi dan sering digunakan oleh P3M Fakultas Psikologi USU. Oleh karena itu, berdasarkan Murphy & Davidshofer, 2003, p akan dikatakan baik jika nilai p mendekati 0,5, dan tidak mendekati 0 atau 1. Jika dihubungkan pada kategori Allen & Yen ( dalam Lababa, 2008) maka p yang dianggap baik berada pada kategori sedang atau 0,3
22

2. Indeks Diskriminasi Aitem a. Pengertian Indeks Diskriminasi Aitem Indeks

diskriminasi

aitem

merupakan

kemampuan

aitem

dalam

membedakan antara individu yang memiliki atribut psikologis yang diukur dengan individu yang tidak memiliki atribut psikologis yang diukur (Azwar, 2007). Murphy dan Davidshofer (2003) mengatakan bahwa aitem yang baik akan mampu membedakan kelompok individu yang mampu dan yang tidak mampu mengerjakan suatu tes dengan baik. Artinya, aitem dengan indeks diskriminasi yang baik harus dapat dijawab dengan benar oleh hampir seluruh kelompok individu yang memiliki atribut, dan dijawab dengan salah oleh hampir sebagian besar kelompok individu yang tidak memiliki atribut. Menurut Azwar (2007), secara sederhana dapat dikatakan bahwa indeks diskriminasi aitem merupakan suatu harga yang menunjukkan perbedaan proporsi penjawab aitem dengan benar antara kelompok dengan kemampuan tinggi dengan kelompok dengan kemampuan rendah. Indeks diskriminasi aitem disimbolkan oleh d dengan rumus: d = niT/NT – niR/NR

(9)

Keterangan: niT = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar NT = Jumlah peserta dari kelompok tinggi niR = Jumlah peserta dari kelompok rendah yang menjawab item dengan benar NR = Jumlah peserta dari kelompok rendah

23

Karena ni/N= p, maka dapat juga dirumuskan dengan: d = pT-pR

(10)

Keterangan: pT = Indeks kesukaran item kelompok tinggi pR = Indeks kesukaran item kelompok rendah Pada penelitian ini indeks diskriminasi aitem dapat diartikan sebagai kemampuan aitem dalam membedakan individu yang memiliki kemampuan berpikir praktis dalam berhitung, berpikir induktif, reasoning, dan kemampuan mengambil kesimpulan dengan individu yang tidak memiliki kemampuan tersebut. b. Analisis Indeks Diskriminasi Aitem Diskriminasi aitem yang maksimal akan dicapai dalam kondisi ketika seluruh subjek kelompok tinggi dapat menjawab aitem dengan benar dan seluruh subjek kelompok rendah tidak mampu untuk menjawabnya, dalam hal ini akan diperoleh harga d = 1. Secara matematik indeks diskriminasi aitem akan berkisar mulai dari -1 sampai dengan +1. Namun demikian hanya harga d yang bernilai positif saja yang memiliki arti dalam analisis aitem (Azwar, 2007). Harga d yang berada disekitar 0 menunjukkan bahwa aitem yang bersangkutan mempunyai diskriminasi yang rendah sedangkan harga d yang negatif menunjukkan bahwa aitem yang bersangkutan tidak berguna sama sekali bahkan bisa menyesatkan. Indeks diskriminasi aitem yang ideal adalah yang mendekati angka 1, semakin besar indeks diskriminasi (semakin mendekati 1) berarti aitem tersebut

24

mampu membedakan antara individu yang menguasai materi yang diujikan dan mereka yang tidak menguasainya. Semakin kecil diskriminasi aitem (semakin mendekati 0) berarti semakin tidak jelaslah fungsi aitem yang bersangkutan dalam membedakan mana subjek yang menguasai materi yang diujikan dan subjek yang tidak tahu apa-apa (Azwar,2007). Ebel (dalam Azwar, 2007) terdapat suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu : Tabel 2. Evaluasi Indeks Diskriminasi Aitem d 0,4 atau lebih 0,3 - 0,39 0,2 – 0,29 d < 0,20

Evaluasi Bagus sekali Lumayan bagus, tidak membutuhkan revisi Belum memuaskan, perlu revisi Jelek dan harus dibuang

Thorndike (dalam Azwar, 2007) mengatakan bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi aitem di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Menurut Murphy dan Davidshofer (2003) ada tiga cara statsistik yang dapat digunakan untuk mengukur indeks diskriminasi aitem, yaitu: 1) Metode kelompok ekstrim Metode kelompok ekstrim merupakan cara yang mudah untuk mengukur indeks diskriminasi aitem pada kelompok yang besar. Indeks diskriminasi aitem dapat dihitung dengan cara membagi kelompok menjadi dua, Upper group yakni kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group yakni kelompok yang memiliki nilai yang rendah (25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks

25

diskriminasi aitem yang baik akan dijawab benar oleh upper group dan dijawab salah oleh lower group. 2) Korelasi aitem-total Korelasi aitem-total memberikan informasi tentang apakah aitem mengukur hal yang sama dengan tes. Korelasi aitem-total untuk aitem yang diskor 1 jika benar dan 0 jika salah sering juga disebut korelasi poin biserial. Artinya, korelasi poin biserial digunakan apabila aitem-aitem dalam tes berbentuk dikotomi dan dengan skor total berupa data kontinyu. Nilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks diskriminasi yang baik sehingga upper group menjawab pertayaan dengan salah dan lower group menjawab pertanyaan dengan benar. 3) Korelasi inter-aitem Korelasi inter-aitem digunakan untuk memahami indeks diskriminasi aitem. Korelasi inter-aitem tidak menjelaskan mengapa beberapa aitem menunjukkan nilai yang tinggi ataupun rendah karena sangat jelas bahwa aitem yang memiliki nilai korelasi aitem total yang positif akan menunjukkan nilai yang positif juga pada kebanyakan aitemnya. Namun korelasi aitem total tidak dapat menjelaskan mengapa korelasi aitem total dapat bernilai negatif. Dan dalam hal ini dapat dijelaskan dengan menggunakan korelasi inter-aitem. Korelasi inter-aitem dapat membantu dalam memahami mengapa beberapa aitem gagal dalam membedakan subjek yang memiliki kemampuan dengan subjek

26 yang tidak memiliki kemampuan, dalam artian upper group menjawab dengan salah dan subjek dari lower group dapat menjawab dengan benar. Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda. Pada penelitian ini indeks diskriminasi aitem akan dianalisis dengan metode korelasi aitem-total untuk melihat apakah aitem memang mengukur kemampuan berpikir praktis dalam berhitung, berpikir induktif, reasoning, dan kemampuan mengambil kesimpulan yang sama dengan semua aitem pada subtes RA atau aitem juga mengukur atribut yang berbeda pada subtes RA. Rumus korelasi aitem-total yang digunakan adalah korelasi point biserial dengan pertimbangan bahwa aitem pada subtes RA memiliki skor dikotomi, yaitu diskor 1 jika benar dan 0 jika salah, serta skor total subjek berbentuk data kontinyu. Indeks diskriminasi yang dikatakan baik dalam penelitian ini didasari pada evaluasi Ebel (dalam Azwar, 2007), yaitu ≥ 0,4 dengan evaluasi bagus sekali. 3. Reliabilitas Alat Ukur a. Pengertian Reliabilitas Reliabilitas

merupakan

penerjemahan

dari

kata

reliability

yang

menyatakan keterpercayaan, keterandalan, keajegan, kestabilan, konsistensi dan sebagainya, namun pada intinya konsep reliabilitas memiliki makna sejauh mana hasil suatu pengukuran dapat dipercaya (Azwar, 2005). Menurut Anastasi &

27

Urbina (2006) reliabilitas suatu tes merujuk pada konsistensi skor yang di peroleh oleh individu yang sama ketika diberikan tes ulang yang sama atau seperangkat tes yang ekivalen dengan tes sebelumnya pada kondisi yang berbeda. Suryabrata (2005) menyatakan bahwa reliabilitas alat ukur menunjukkan sejauh mana hasil pengukuran dengan alat tersebut dapat dipercaya, yang mana hal ini ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda. Oleh sebab itu, konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka rumus reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2005). b. Bentuk Estimasi Reliabilitas Reliabilitas alat ukur yang juga menunjukkan eror pengukuran yang tidak dapat ditentukan secara pasti, hanya dapat diestimasi (Suryabrata, 2005). Estimasi reliabilitas dapat dilakukan melalui beberapa metode berdasarkan CTT, yaitu pendekatan tes ulang, pendekatan tes paralel, dan pendekatan konsistensi internal (Azwar, 2005 dan Suryabrata, 2005). 1) Pendekatan tes ulang Pendekatan tes ulang adalah salah satu dari pendekatan pertama yang pantas dan mudah untuk mengestimasi reliabilitas dari suatu skor tes (Murphy dan Davidshofer, 2003). Pendekatan ini dilakukan dengan cara menyajikan tes dua kali pada suatu kelompok yang sama dalam rentang waktu tertentu, minsalnya dua minggu (Suryabrata, 2005). Asumsinya adalah suatu tes yang reliabel akan menghasilkan skor tampak yang relatif sama apabila diberikan dua kali tes dalam

28

waktu yang berbeda pada sekelompok subjek yang sama (Azwar, 2005). Sehingga akan diperoleh dua distribusi skor dari kelompok tersebut. Korelasi antara dua skor pada dua waktu yang berbeda tersebut disebut koefisien reliabilitas (r) (Kumar, 2009). Pendekatan tes ulang ini dapat dikatakan baik secara teori, namun dalam prakterknya mengandung kelemahan, yaitu kondisi subjek pada tes kedua tidak lagi sama dengan kondisi subjek pada tes pertama baik dari proses belajar, perubahan motivasi, pengalaman, sehingga pendekatan ini lebih baik digunakan bila objek ukur berupa keterampilan, terutama keterampilan fisik (Suryabrata, 2005). Menurut Azwar (2005), pendekatan tes ulang cocok digunakan hanya bagi tes yang mengukur aspek psikologis yang relatif stabil dan tidak mudah berubah. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah Pearson product-moment (Kumar, 2009). 2) Pendekatan tes paralel Pendekatan reliabilitas bentuk paralel dilakukan dengan memberikan dua bentuk tes yang paralel pada sekelompok subjek, yaitu tes yang memiliki tujuan ukur yang sama dan isi aitem yang setara secara kualitas maupun kuantitas (Azwar, 2005). Pendekatan ini juga disebut sebagai alternate form yang digunakan untuk mengatasi kelemahan pendekatan tes ulang (Kumar, 2009). Asumsinya, dua tes yang paralel akan menghasilkan skor tes yang berkorelasi tinggi satu sama lain dan memiliki koefisien reliabilitas yang tinggi. Keuntungan pendekatan ini adalah dapat mengurangi efek-efek praktis yang mungkin terjadi pada tes ulang seperti proses belajar dan pengalaman,

29

namun kelemahan pendekatan ini adalah sulitnya menyusun perangkat tes yang paralel (Kumar, 2009). Menurut Azwar (2005), dua tes yang paralel hanya ada secara teoritis, tidak benar-benar paralel secara empirik. Rumus yang dapat digunakan untuk menentukan reliabilitas tes ulang adalah korelasi Pearson product moment (Azwar, 2005). 3) Pendekatan konsistensi internal Pendekatan ini dilakukan dengan memberikan satu bentuk tes dengan sekali penyajian kepada sekelompok subjek yang bertujuan melihat konsistensi antar aitem atau antar bagian dalam tes tersebut serta menghindari masalahmasalah pada pendekatan tes ulang dan paralel. Seperangkat tes diberikan kepada sekelompok subjek satu kali sehingga diperoleh satu distribusi skor tes dari kelompok subjek tersebut. Untuk itu, prosedur analisis reliabilitasnya diarahkan pada analisis terhadap aitem-aitem atau terhadap kelompok-kelompok aitem dalam tes itu sehingga perlu dilakukan pembelahan tes menjadi beberapa kelompok aitem yang disebut belahan tes. Cara pembelahan tes disesuaikan dengan sifat dan fungsi tes serta jenis skala pengukuran yang digunakan dalam tes tersebut yang kemudian akan menentukan rumusan atau rumus yang dapat digunakan dalam menghitung koefisien reliabilitasnya. Setiap cara pembelahan tes hendaknya mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, indeks kesukaran seimbang, isi sebanding, dan tujuan ukur yang sama atau dalam artian pembelahan aitem memenuhi ciri-ciri paralel (Azwar, 2005).

30

(a). Beberapa cara dalam pembelahan tes i. Pembelahan cara random Membelah tes menjadi dua bagian secara random dapat dilakukan dengan cara undian sederhana guna menentukan aitem-aitem nomor berapa sajakah yang dimasukkan menjadi belahan pertama dan yang mana menjadi belahan kedua. Pembelahan secara random hanya boleh dilakukan bila tes yang akan dibelah berisi aitem-aitem yang homogen baik dari segi konten maupun segi indeks kesukaran aitem, namun jika aitem tersebut heterogen dapat juga menggunakan cara pembelahan ini asalkan aitem tersebut jumlahnya sangat besar (Azwar, 2005). ii. Pembelahan gasal-genap Pembelahan gasal-genap dilakukan dengan cara mengelompokkan seluruh aitem yang bernomor urut gasal menjadi belahan pertama dan seluruh aitem yang bernomor urut genap dijadikan satu kelompok belahan kedua. Cara pembelahan ini selain mudah dilakukan juga dapat menghindari kemungkinan terjadinya pengelompokkan aitem-aitem tertentu ke dalam salah satu belahan saja (Azwar, 2005). iii. Pembelahan matched-random subtes Pembelahan dengan cara matched-random subtes ditemukan oleh Gulikksen tahun 1950 (dalam Azwar, 2005). Sebelum melakukan pembelahan tes terlebih dahulu harus dihitung indeks kesukaran aitem serta korelasi aitem dengan skor total tes. Dengan cara ini setiap aitem dalam tes diletakkan pada satu posisi

31

atau titik tertentu dalam grafik berdasarkan harga indeks kesukaran aitem dan korelasi antara aitem yang bersangkutan dengan skor tes. Keuntungan menggunakan pendekatan konsistensi internal adalah, dapat menghindari masalah-masalah yang biasanya ditimbulkan oleh pendekatan tes ulang dan pendekatan tes paralel (Azwar, 2005). (b). Rumus Estimasi Reliabilitas i. Spearman-Brown Rumus Spearman-Brown digunakan untuk metode split-half atau belah dua (Kumar, 2009 dan Crocker & Algina, 2003). Rumus komputasi SpearmanBrown merupakan rumus koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai beikut (Azwar, 2005): S-B = rxx’=

(11)

Keterangan: rxx’ = Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasi antara dua belahan Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, pembelahan tes dilakukan dengan cara gasal-genap dan matched-random subtes dan menghasilkan dua bagian yang paralel satu sama lain dan korelasi antara kedua belahan paralel tersebut cukup tinggi. ii. Koefisien Alpha Pembelahan tes tidak hanya terbatas pada membagi tes ke dalam dua belahan saja. Cara-cara pembelahan dapat diperluas pemakaiannya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi

32

reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja. Koefisien Alpha akan lebih baik jika pembelahan paralel satu sama lain atau setidaknya dapat memenuhi asumsi τ-equivalent. Rumusan rumus Alpha adalah sebagai berikut (Azwar, 2005): α=

(12)

Keterangan : = banyaknya belahan tes = varians belahan j; j = 1, 2…k = varians skor tes Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya. iii. Koefisien Alpha untuk tes belah dua Rumus koefisien Alpha dapat digunakan untuk tes yang dibelah dua dan tidak memenuhi asumsi paralel, namun untuk menghindari underestimasi, maka pembelahan tes harus memenuhi asumsi τ-equivalent. Rumus koefisien Alpha untuk estimasi reliabilitas belah dua dirumuskan sebagai berikut (Azwar, 2005): rxx’

=2

(13)

33

Keterangan: = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel atau setidaknya memenuhi asumsi τ-equivalent. Selain itu, aitem-aitem dalam tes haruslah homogen agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya. iv. Kuder-Richardson 20 (KR-20) KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Rumus ini juga disebut sebagai koefisien α-20. Koefisien ini mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan rumus KR-20 adalah (Azwar, 2005): (14) Keterangan : = banyaknya aitem dalam tes = varians skor tes p = proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut.

34

Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem agar estimasi yang diperoleh dapat mendekati reliabilitas yang sebenarnya. v. Kuder-Richardson 21 Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem, Hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan KR21 adalah (Azwar, 2005):

(15) Keterangan : = banyaknya aitem dalam tes = rata-rata p yaitu, = varians skor tes Untuk mempermudah komputasi, rumus KR-21 dapat pula dinyatakan sebagai:

(16) Keterangan : Mx = harga rata-rata means skor tes Rumus ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem. Indeks kesukaran aitem haruslah setara satu sama lain agar estimasi reliabilitas mendekati nilai yang sesungguhnya. Jadi,

35

indeks kesukaran aitem yang sangat bervariasi mengakibatkan estimasi reliabilitas akan lebih rendah dari pada menggunakan KR-20. vi. Rumus Kristof untuk Belah Tiga Komputasi koefisien reliabilitas tes yang telah dibelah menjadi tiga bagian ini didasarkan pada rumus estimasi skor murni yang dirumuskan Kristof, yaitu: (17) Keterangan: = kovarians belahan 1 dan belahan 2 = kovarians belahan 1 dan belahan 3 = kovarians belahan 2 dan belahan 3 Rumus ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 3 bagian, belahan tidak harus sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan

lebih baik

digunakan pada subjek dalam jumlah besar (Azwar, 2005). vii. Flanagan Flanagan menganggap bahwa varians-varians pada setiap belahan tes merupakan varians eror pengukuran. Maka untuk tes yang dibelah menjadi dua bagian setara reliabilitasnya adalah sebagai berikut: rxx’ =2

(18)

36

Keterangan: = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes Pada penelitian ini, estimasi koefisien reliabilitas dilakukan dengan pendekatan konsistensi internal karena data yang akan digunakan hanya dengan satu kali penyajian tes. Rumus estimasi koefisien reliabilitas yang digunakan adalah KR-20 dengan pertimbangan bahwa data penelitian ini berbentuk dikotomi dengan homogenitas indeks kesukaran aitem belum diketahui dan aitem dibelah sebanyak jumlah aitem tersebut. c. Interpretasi Koefisien Reliabilitas Konsep reliabilitas dalam CTT dipahami sebagai korelasi yang tinggi antara skor tampak dengan skor murninya sendiri. Allen & Yen (dalam Azwar, 2005) menguraikan enam cara dalam memandang koefisien reliabilitas tes, yaitu: 1) Sejauhmana korelasi antara skor tampak pada dua tes yang paralel yang dilambangkan rxx’ 2) Besarnya kuadrat koefisien reliabilitas (rxx’2) dipandang sebagai proporsi varians suatu tes yang sama dengan variasi skor pada tes lain yang paralel. 3) Koefisien reliabilitas merupakan besarnya perbandingan antara varians skor murni (st2) dan varians skor tampak (sx2). 4) Koefisien reliabilitas merupakan kuadrat koefisien korelasi antara skor tampak dengan skor murni (rxt2). Nilai rxt2 pasti selalu besar daripada rxx’ selama nilai rxx’ tidak sama dengan 0 atau 1.

37

5) rxx’ sama dengan satu dikurang kuadrat koefisien korelasi antara skor tampak dengan eror pengukuran (rxe2). 6) rxx’ sama dengan satu dikurang besarnya perbandingan varians eror dan varians skor tampak (1- se2/sx2). Secara teoritik, koefisien reliabilitas berkisar antara 0 sampai 1, namun secara empirik koefisien reliabilitas tidak pernah mencapai 1. Artinya terdapat ketidakkonsistenan skor antara dua tes yang paralel yang disebabkan oleh eror yang mempengaruhi performa subjek dalam mengikuti tes atau perbedaan antara skor tampak dan skor murni subjek (Crocker & Algina, 2005). Menurut Kelly (dalam Crocker & Algina, 2005) ada tiga tipe eror yang berhubungan dengan skor pada suatu tes, yaitu ketidaksesuaian antara skor murni dan skor tampak, ketidaksesuaian antara skor tampak subjek pada satu tes dan skor tampak subjek pada tes yang paralel dengan tes sebelumnya, dan ketidaksesuaian antara skor murni subjek dan estimasi skor murninya. Sehingga penafsiran terhadap koefisien reliabilitas dapat dilakukan melalui penafsiran standar eror pengukuran (SEm), dengan rumusan sebagai berikut: (19) Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi akan semakin kecil. Jadi, tidak ada harga mati dalam koefisien reliabilitas. Tinggi rendahnya koefisien reliabilitas sangat bergantung pada tujuan tes digunakan(Suryabrata, 2005).

38

Murphy dan Davidshofer (2003) menjelaskan bahwa makna tinggi atau rendahnya koefisien reliabilitas tergantung pada tipe dari tes yang dikategorikan sebagai berikut: Tabel 3. Kategori Nilai Estimasi Koefisien Reliabilitas Nilai estimasi reliabilitas 0.95

Bentuk Tes

Tes inteligensi 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50

Interpretasi Eror pengukuran memiliki efek yang sangat rendah Tinggi sampai sedang

Tes prestasi Kelompok tes pilihan ganda Skala

Sedang sampai rendah Rendah

Tes proyektif Skor murni dan eror pengukuran seimbang pada skor tes

Berdasarkan Tabel 3, Murphy & Davidshofer (2003) menyatakan bahwa untuk tes inteligensi nilai estimasi reliabilitas yang dianggap baik jika sama atau besar dari 0.90 dengan interpretasi bahwa nilai reliabilitas tes inteligensi tersebut tinggi sampai sedang. Oleh karena itu, pada penelitian ini nilai koefisien reliabilitas akan dianggap baik jika nilai koefisien reliabilitas ≥ 0.90 dengan pertimbangan bahwa IST merupakan tes inteligensi. Selain itu, IST merupakan salah satu tes inteligensi yang masih sering digunakan oleh P3M Fakultas Psikologi USU. d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen, yaitu:

39

1) Homogenitas Kelompok Koefisien reliabilitas suatu tes akan dipengaruhi oleh variasi antara skor murni dan eror kelompok subjek atau skor tampak kelompok subjek. Jika asumsinya varians eror pada dua tes paralel atau ekivalen tetap dan rxx’ sama dengan 1-se2/sx2, maka tinggi rendahnya koefisien reliabilitas akan tergantung pada besar kecilnya varians skor tampak (sx2). Artinya pada kelompok subjek yang homogen, yaitu yang memiliki varians skor tampak kecil, harga se2/sx2 akan relatif lebih kecil dibandingkan dengan kelompok subjek yang heterogen. Oleh sebab itu, semakin besar homogenitas kelompok akan semakin rendah nilai koefisien reliabilitas suatu tes dibandingkan dengan kelompok subjek yang heterogen. 2) Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3) Panjang Tes Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki

40

kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas tes tersebut. 4. Validitas a. Pengertian Validitas Pada pendekatan CTT, validitas mempunyai arti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam menjalankan fungsi ukurnya. Suatu tes atau instrumen pengukuran dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur yang sesuai dengan maksud dilakukannnya pengukuran tersebut, sehingga pengertian validitas terlihat berkaitan sangat erat dengan tujuan pengukuran (Azwar, 2005). Sejalan dengan Azwar (2005), Kumar (2009) menyatakan validitas suatu tes mengambarkan ketepatan alat ukur mengukur apa yang akan diukur dengan membandingkan alat ukur tersebut dengan standar atau kriteria yang telah ditetapkan. Artinya suatu tes valid untuk suatu tujuan khusus dan tidak tidak dapat digeneralisasikan untuk tujuan lain. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana yang hendak diukur (Azwar, 2005). Selain itu, suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat. Artinya pengukuran tersebut dapat memberikan gambaran

41

mengenai perbedaan yang sekecil-kecilnya di antara subjek yang satu dengan yang lain. b. Jenis-Jenis Validitas Berdasarkan sifat dan fungsi setiap tes, validitas dikelompokkan dalam tiga kategori, yaitu validitas isi, validitas konstrak, dan validitas berdasarkan kriteria (Azwar, 2005). 1) Validitas Isi Validitas isi menunjukkan sejauhmana aitem-aitem dalam tes mencakup keseluruhan kawasan isi objek atau ciri atribut yang hendak diukur. Validitas isi ini diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement. Dengan kata lain validitas isi sangat tergantung pada penilaian subjektif individual dan tidak melibatkan perhitungan statistik. Validitas isi terbagi menjadi dua tipe, yaitu validitas muka dan validitas logik. 2) Validitas Konstrak Validitas konstrak menunjukkan sejauhmana tes mencakup suatu trait atau konstrak teoritik yang hendak diukur (Allen & Yen, dalam Azwar, 2005). Kontrak psikologis tidak dapat diobservasi secara langsung. Konstrak ini didefinisikan sebagai hasil dari percobaan atau imajinasi secara ilmiah, suatu ide yang dikembangkan untuk mengkategorikan dan menjelaskan dari tingkah laku yang dapat diamati secara langsung (Crocker & Algina, 2005). Lord & Novick (dalam Crocker & Algina, 2005) menyatakan ada dua cara dalam mendefinisikan konstrak, yaitu dengan mendefinisikan secara operasional dan melakukan korelasi yang spesifik antara konstrak yang diukur dengan konstrak atau variabel lainnya.

42

Pengujian validitas konstrak merupakan proses yang berlangsung terus berlanjut sejalan dengan perkembangan konsep mengenai konstrak atau trait yang diukur (Azwar, 2005). Pengujian validitas konstrak umumnya memerlukan teknik analisis statistik yang lebih kompleks, tetapi hasil estimasi validitas konstrak tidak dinyatakan dalam bentuk suatu koefisien validitas. Prosedur pengujian validitas ini berangkat dari hasil komputasi interkorelasional diantara berbagai hasil tes dan kemudian dianalisis lebih lanjut terhadap matriks korelasi yang diperoleh melalui dua pendekatan, yaitu analisis faktor dan multitrait-multimethod (Azwar, 2005). 1) Analisis faktor Analisis faktor merupakan kumpulan prosedur matematik yang kompleks guna menganalisis hubungan diantara variabel-variabel dan menjelaskan hubungan tersebut dalam bentuk kelompok variabel yang terbatas yang disebut faktor. Pada dasarnya, koefisien korelasi yang tinggi diantara dua tes menunjukkan bahwa kedua tes mengukur suatu faktor yang sama (Azwar, 2005). 2) Analisis multitrait-multimethod Campbell dan Fiske (dalam Crocker & Algina, 2005) menggambarkan pendekatan ini sebagai ketepatan tes mengukur suatu konstrak dilihat dari keakuratan atau korelasi tes dengan konstrak yang sama secara teoritis dan korelasi tes dengan tes yang mengukur konstrak yang lain. Setiap koefisien korelasi diidentifikasi dengan tiga cara, yaitu: (a). Koefisien reliabilitas Korelasi antara dua pengukuran konstrak yang sama dan menggunakan metode yang sama secara ideal akan berkorelasi tinggi.

43

(b). Koefisien validitas konvergen Korelasi antara pengukuran konstrak yang sama tetapi menggunakan metode pengukuran yang berbeda akan menghasilkan korelasi yang tinggi, namun perbedaan metode memiliki kemungkinan untuk tidak berkorelasi secara lebih baik. (c). Koefisien validitas diskriminan Korelasi antara pengukuran konstrak yang berbeda menggunkan metode pengukuran yang sama (heterotrait-monomethod coefficient) atau korelasi antara konstrak dan cara pengukuran yang berbeda (heterotraitheteromethod coefficints) secara ideal memiliki reliabilitas atau koefisien validitas yang rendah. 3). Validitas Berdasarkan Kriteria Validitas berdasar kriteria merupakan sejauhmana hasil pengukuran suatu alat tes sama atau mirip dengan hasil pengukuran dengan tes yang lain yang dijadikan sebagai kriteria (Suryabrata, 2005). Dalam validasi tes berdasar kriteria, umumnya tes yang akan diuji validitasnya disebut sebagai prediktor. Prosedur validasi berdasar kriteria menghasilkan dua macam validitas, yaitu: (a). Validitas prediktif Estimasi validitas prediktif sangat penting artinya bila tes yang dimaksud berfungsi sebagai prediktor bagi performansi diwaktu yang akan datang (Azwar, 2005).

44

(b). Validitas konkuren Estimasi validitas konkuren dilakukan apabila skor tes dan skor kriterianya dapat diperoleh dalam waktu yang sama. Azwar (2007) mengatakan bahwa sebagian besar faktor kriteria dalam estimasi validitas konkuren ialah skor tes lain yang biasanya sudah teruji dan terstandar dengan baku. Pada penelitian ini pengujian validitas akan dilakukan dengan pendekatan validitas konstrak yang bertujuan untuk melihat ketepatan subtes RA dalam mengukur kemampuan berpikir praktis dalam berhitung, berpikir induktif, reasoning, dan kemampuan mengambil kesimpulan. Pendekatan validitas konstrak ini diuji dengan analisis multitrait-multimethod berdasarkan koefisien validitas konvergen dan diskriminan dengan pertimbangan bahwa metode ini lebih mudah untuk dilakukan, hanya dengan mengkorelasikan skor total subjek pada setiap subtes dengan bantuan program SPSS. Selain itu, metode ini telah dipelajari oleh peneliti selama perkuliahan. Koefisien validitas konvergen dan diskriminan dilihat dari korelasi antara subtes RA dengan 8 subtes lainnya pada IST dalam bentuk matriks multitrait-multimethod. Korelasi tinggi menunjukkan bahwa subtes mengukur hal yang sama atau konvergen dan korelasi yang rendah menunjukkan subtes mengukur hal yang berbeda atau diskriminan. c. Interpretasi Koefisien Validitas Interpretasi koefisien validitas bersifat relatif. Tidak ada batasan universal yang mengarah kepada angka minimal yang harus dipenuhi agar suatu tes dikatakan valid. Menurut Cronbach (dalam Azwar, 2005) koefisien validitas yang baik adalah yang tertinggi yang bisa didapatkan. Jadi tidak ada batasan. Hal yang

45

menjadi pertimbangan adalah sejauh mana tes tersebut dapat bermanfaat dalam pengambilan keputusan. Tes yang berfungsi untuk memprediksi hasil suatu prosedur seleksi dapat dikatakan memberikan kontribusi yang baik jika koefisien validitas berkisar antara 0,3 sampai dengan 0,5. Menurut Azwar (2005) koefisien validitas yang tidak begitu tinggi, sekitar 0,5 akan lebih dapat diterima dan dianggap memuaskan dan koefisien

validitas yang kurang dari 0,3 biasanya

dianggap tidak memuaskan. Pada penelitian ini koefisien validitas dianggap baik atau memuaskan jika koefisien validitas konvergen ≥ 0,3, koefisien validitas diskriminan < 0,3.

C. Analisis Karakteristik Psikometri Alat Ukur Alat ukur terdiri atas sekumpulan aitem-aitem yang dirancang untuk tujuan tertentu. Kualitas dari aitem-aitem suatu alat ukur akan menentukan kualitas dari alat ukur itu sendiri. Aitem dapat dikatakan memiliki kualitas yang baik jika aitem memiliki karakteristik psikometri yang baik pula (Azwar, 2007). Aitem berkualitas baik atau tidak dapat diketahui melalui analisis karakteristik psikometri terhadap aitem tersebut. Analisis karakteristik psikometri secara kuantitatif dapat dilihat dari empat karakteristik, yaitu indeks kesukaran aitem, indeks diskriminasi aitem, reliabilitas dan validitasnya (Anastasi & Urbina, 2006). Analisis terhadap aitem-aitem suatu alat ukur pada awalnya akan memberikan tiga informasi, yaitu informasi tentang distraktor, indeks kesukaran aitem dan indeks diskriminasi aitem (Murphy & Davidshofer, 2003). Tiga informasi ini berbeda secara teoritis tetapi berkaitan secara empirik. Ketiga

46

karakteristik tersebut akan saling mempengaruhi terhadap reliabilitas dan valididtas alat ukur. Namun, pada penelitian ini efektivitas distraktor tidak akan dikaitkan dengan indeks kesukaran aitem dan indeks diskriminasi aitem karena aitem-aitem subtes RA pada IST tidak memiliki distraktor. Indeks kesukaran aitem secara langsung akan mempengaruhi indeks diskriminasi aitem. Ketika aitem sangat susah (p = 0) atau aitem sangat mudah (p = 1), maka aitem tidak akan dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminasi aitem menjadi rendah (Murphy & Davidshofer, 2003). Menurut Kumar (2009), indeks diskriminasi yang rendah akan mempengaruhi validitas dari aitem tersebut yang kemudian akan mempengaruhi validitas tes secara keseluruhan. Ketika aitem mengukur fungsi ukur secara tepat atau independen, maka aitem akan dapat membedakan antara kelompok yang memiliki atribut yang hendak diukur dan yang tidak memiliki atribut yang hendak diukur secara efektif sehingga aitem dapat dikatakan valid. Koefisien reliabilitas suatu tes juga akan dipengaruhi oleh indeks kesukaran aitem dalam tes tersebut. Ketika indeks kesukaran aitem tidak relatif setara satu sama lain atau sangat bervariasi maka koefisien reliabilitas akan rendah (Azwar, 2005). Jadi, suatu tes yang valid juga memiliki arti bahwa tes tersebut konsisten dalam mengukur atribut yang hendak diukur. Tes yang sangat reliabel akan mengukur fungsi yang hendak diukur berdasarkan kriteria yang telah ditetapkan sebelumnya. Sehingga untuk menjadi tes yang valid, tes tersebut haruslah reliabel (Kumar, 2009). Namun, pada beberapa kondisi, tes yang valid

47

belum tentu reliabel, karena reliabilitas tes juga dipengaruhi oleh eror. Jadi tes yang valid belum tentu reliabel, dan begitu sebaliknya tes yang reliabel belum tentu valid (Azwar, 2005).

D. Intelligenz-Struktur-Test (IST) 1. Sejarah dan Perkembangan IST IST merupakan salah satu tes yang digunakan untuk mengukur inteligensi individu. Tes ini dikembangkan oleh Rudolf Amthauer di Frankfurt, Jerman pada tahun 1953. Amthauer mendefinisikan inteligensi sebagai keseluruhan struktur dari kemampuan jiwa-rohani manusia yang akan tampak jelas dalam hasil tes. Intelegensi hanya akan dapat dikenali (dilihat) melalui manifestasinya misalnya pada hasil atau prestasi suatu tes. Berdasarkan pemikiran ini Amthauer menyusun sebuah tes yang dinamakan IST dengan hipotesis kerja sebagai berikut : “Komponen dalam struktur tersebut tersusun secara hierarkis; maksudnya bidang yang dominan kurang lebih akan berpengaruh pada bidang-bidang yang lain; kemampuan yang dominan dalam struktur intelegensi akan menentukan dan mempengaruhi kemampuan yang lainnya.” Pandangan Amthaeur pada dasarnya didasari oleh teori faktor, baik itu teori bifaktor, teori multifaktor, model struktur inteligensi Guilford dan teori hirarki faktor. Berdasarkan teori faktor, untuk mengukur inteligensi seseorang diperlukan suatu rangkaian baterai tes yang terdiri dari subtes-subtes. Antara subtes satu dengan lainnya, ada yang saling berhubungan karena mengukur faktor yang sama (general factor atau group factor), tapi ada juga yang tidak berhubungan karena masing-masingnya mengukur faktor khusus (special factor). Sedangkan kemampuan seseorang itu merupakan penjumlahan dari seluruh skor

48

subtes-subtes. Maka Amthauer menyusun IST sebagai baterai tes yang terdiri dari 9 subtes (Polhaupessy, dalam Diktat Kuliah IST UNPAD, 2009). Karakteristik dari baterai tes Amthauer menunjukkan adanya suatu interkorelasi yang rendah antar subtesnya (r=0.25) dan korelasi antara subtes dengan jumlah (keseluruhan subtes) yang rendah pula (r=0.60). Semenjak diciptakan, IST terus dikembangkan oleh Amthauer dengan bantuan dari para koleganya, berikut adalah perkembangan tes IST dari tahun 1953 hingga tahun 2000-an. a. IST 1953 IST yang pertama ini pada awalnya hanya digunakan untuk individu usia 14 sampai dengan 60 tahun. Proses penyusunan norma diambil dari 4000 subjek pada tahun 1953. b. IST 1955 IST merupakan pengembangan dari IST 1953, pada IST 1955 rentang usia untuk subjek diperluas menjadi berawal dari umur 13 tahun. Subjek dalam penyusunan norma bertambah menjadi 8642 orang. Pada tes ini sudah ada pengelompokan jenis kelamin dan kelompok usia c. IST 70 Berdasarkan permintaan dan tuntutan pengguna yang menyarankan pengkoreksian dengan mesin juga pengembangan tes setelah penggunaan lebih dari 10 tahun, maka disusunlah IST 70. Dalam IST 70 ini tidak terlalu banyak perubahan, tes ini memiliki 6 bentuk, setiap pemeriksaan dilakukan 2 tes sebagai bentuk parallel; yaitu A1 dan B2, atau C3 dan D4. Dua bentuk lainnya untuk

49

pemerintah dan hanya bagi penggunaan khusus. Pada IST 70, rentang kelompok usia diperluas menjadi berawal dari 12 tahun. Disamping itu telah ditambah tabel kelompok dan pekerjaan. Namun demikian, pada IST 70 terdapat kekurangan yaitu penyebaran bidang yang tidak merata dan menggunakan kalimat dalam subtes RA sehingga jika subjek gagal dalam subtes ini dapat dimungkinkan karena tidak mampu mengerjakan soal hitungannya atau tidak mengerti kalimatnya. d. IST 2000 Sebagai koreksi dari IST 70, pada IST 2000 tidak terdapat soal kalimat pada soal hitungan. e. IST 2000-Revised Pada IST 2000-R ini terdapat beberapa perkembangan subtes juga penambahan subtes. IST ini terdiri dari 3 modul, yaitu sebagai berikut : 1) Grundmodul-Kurzform (Modul Dasar-Singkatan); terdiri dari subtes : SE, AN, GE, RE, ZR, RZ, FA, WU, dan MA. 2) Modul ME: terdiri dari subtes ME Verbal dan ME Figural 3) Erweiterungmodul (Modul menguji pengetahuan); terdiri dari subtes Wissentest (tes pengetahuan) IST yang digunakan di Indonesia adalah IST hasil adaptasi Fakultas Psikologi Universitas Padjajaran Bandung. Adaptasi dilakukan kepada IST-70. Tes ini pertama kali digunakan oleh Psikolog Angkatan Darat Bandung, Jawa Barat (Polhaupessy, dalam Diktat Kuliah IST UNPAD, 2009).

50

2. Fungsi dan Tujuan IST Tes ini dipandang sebagai gestalt (menyeluruh), yang terdiri dari bagianbagian yang saling berhubungan secara makna (struktur). Dimana struktur intelegensi tertentu meggambarkan pola kerja tertentu, sehingga akan cocok untuk profesi atau pekerjaan tertentu. Berdasarkan hal tersebut IST umum digunakan untuk memahami diri dan pengembangan pribadi, merencanakan pendidikan dan karier serta membantu pengambilan keputusan dalam hidup individu. 3. Subtes-subtes dalam IST IST terdiri dari sembilan subtes yang keseluruhannya berjumlah 176 aitem. Masing-masing

subtes

memiliki

batas

waktu

yang

berbeda-beda

dan

diadministrasikan dengan menggunakan manual (Polhaupessy, dalam Diktat Kuliah IST UNPAD, 2009). Sembilan subtes dalam IST, yaitu: a. SE: melengkapi kalimat Pada subtes ini yang diukur adalah pembentukan keputusan, common sense (memanfaatkan pengalaman masa lalu), penekanan pada praktis-konkrit, pemaknaan realitas, dan berpikir secara berdikari/ mandiri. b. WA: melengkapi kalimat Pada subtes ini akan diukur kemampuan bahasa, perasaan empati, berpikir induktif menggunakan bahasa, dan memahami pengertian bahasa. c. AN: persamaan kata Pada subtes ini yang diukur adalah kemampuan fleeksibilitas dalam berpikir, daya mengkombinasikan, mendeteksi dan memindahkan hubunganhubungan, serta kejelasan dan kekonsekuenan dalam berpikir.

51

d. GE: sifat yang dimiliki bersama Pada subtes ini hal yang akan diukur adalah kemampuan abstraksi verbal, kemampuan untuk menyatakan pengertian akan sesuatu dalam bentuk bahasa, membentuk suatu pengertian atau mencari inti persoalan, serta berpikir logis dalam bentuk bahasa. e. RA: berhitung Dalam subtes ini aspek yang dilihat adalah kemampuan berpikir praktis dalam berhitung, berpikir induktif, reasoning, dan kemampuan mengambil kesimpulan. f. ZR: deret angka Dalam subtes ini akan dilihat bagaimana cara berpikir teoritis dengan hitungan, berpikir induktif dengan angka-angka, serta kelincahan dalam berpikir. g. FA: memilih bentuk Pada subtes ini akan mengukur kemampuan dalam membayangkan, kemampuan mengkonstruksi (sintesa dan analisa), berpikir konkrit menyeluruh, serta memasukkan bagian pada suatu keseluruhan. h. WU: latihan balok Pada subtes ini hal yang akan diukur adalah daya bayang ruang, kemampuan tiga dimensi, analitis, serta kemampuan konstruktif teknis. i.

ME: latihan simbol Subtes ini mengukur daya ingat, konsentrasi yang menetap, dan daya

tahan.

52

4. Skoring dan Interpretasi a. Skoring Tahap skoring yang digunakan untuk setiap subtes adalah dengan memeriksa setiap jawaban dengan menggunakan kunci jawaban yang telah disediakan. Untuk semua subtes (SE, WA, AN, RA, ZR, FA, WU, & ME), kecuali subtes 04-GE, setiap jawaban benar diberi nilai 1 dan untuk jawaban salah diberi nilai 0. Khusus untuk subtes 04-GE, tersedia nilai 2, 1, dan 0; karena subtes ini berbentuk isian singkat maka nilai yang akan diberikan tergantung dengan jawaban yang diberikan oleh subjek. Total nilai benar yang sesuai dengan kunci jawaban merupakan Raw Score (RW); nilai ini belum dapat diinterpretasi sesuai dengan norma yang digunakan. Nilai RW yang sudah dibandingkan dengan norma disebut dengan Standardized Score (SW). Nilai SW inilah yang dapat menjadi materi untuk tahap selanjutnya, yaitu interpretasi. Adapun norma yang digunakan adalah sesuai dengan kelompok umur subjek. b. Interpretasi Setelah didapatkan Standardized Score, maka tahap interpretasi dapat dilakukan. Kesembilan subtes saling berkaitan, sehingga harus dilakukan semuanya dan interpretasinya harus dilakukan secara keseluruhan (Amthauer dalam Diktat Kuliah IST UNPAD, 2009). Interpretasi yang dapat dilakukan dari tes IST adalah sebagai berikut :

53

1) Taraf kecerdasan Taraf kecerdasan didapat dari total SW. Nilai ini dapat diterjemahkan menjadi Intelligent Quotient (IQ). Nilai ini dapat menggambarkan perkembangan individu melalui pendidikan dan pekerjaan. Nilai ini perlu dihubungkan dengan latar belakang sosial serta dibandingkan dengan kelompok seusianya. 2) Dimensi Festigung-Flexibilität Dimensi Festigung-Flexibilität menggambarkan corak berpikir yang dimiliki oleh subjek. Dimensi Festigung-Flexibilität merupakan dua kutub yang ekstrim, Keduanya menggambarkan corak berpikir yang ekstrim pula. Kutub Festigung memiliki arti corak berpikir yang eksak, sedangkan kutub Flexibilität memiliki arti corak berpikir yang non-eksak. Corak berpikir ini merupakan hasil perkembangan (pengalaman) individu yang akan semakin mantap ke salah satu kutub seiring bertambahnya usia. Cara menentukan seseorang subjek apakah memiliki kecenderungan Festigung atau Flexibilitat adalah dengan membandingkan nilai GE+RA dengan nilai AN+ZR. Jika nila GE+RA lebih besar maka subjek memiliki kecenderungan Festigung, sebaliknya jika nilai AN+ZR lebih besar maka subjek memiliki kecenderungan Flexibilitat. 3) Profil M-W Profil M-W menggambarkan cara berpikir, apakah verbal-teoritis atau praktis-konkrit. Untuk mendapatkan profil dalam bentuk huruf M atau W ini dapat dilihat dari 4 subtes pertama (SE, WA, AN, GE) yang tampak pada grafik. Jika grafik menunjukkan bentuk huruf M pada 4 subtes pertama maka profilnya adalah

54

M (verbal-teoritis), jika yang tampak adalah bentuk huruf W maka profilnya adalah W (praktis-konkrit).

E. Subtes Rechenaufgaben (RA) Penelitian ini berfokus pada analisis karakteristik psikometri pada subtes RA dalam IST. RA merupakan subtes urutan kelima dari sembilan subtes dalam IST. Subtes ini berfungsi untuk mengukur kemampuan berpikir praktis dalam berhitung, berpikir induktif, reasoning, dan kemampuan mengambil kesimpulan. Subjek dituntut untuk memecahkan permasalahan berhitung dalam situasi praktis. Diperkirakan pengalaman pribadi subjek juga ikut berperan. Subjek yang sudah memiliki pengalaman sebelumnya akan cenderung lebih cepat menyelesaikan permasalahan yang dikenalinya. Subtes RA ini terdiri dari 20 aitem dari no 77 sampai 96. Setiap aitem terbentuk dari kalimat-kalimat cerita yang berhubungan dengan angka. Setiap subjek dituntut untuk mampu memecahkan permasalahan matematis dalam bentuk soal cerita tersebut. Subtes ini tidak memiliki pilihan jawaban. Subjek dapat menjawab soal dengan cara mencoret angka-angka yang terdapat pada lembar jawaban tanpa menghiraukan urutan angka jawaban pada lembar jawaban yang telah disediakan. Angka-angka dalam kolom lembar jawaban subtes RA tersebut terdiri atas angka-angka 1 sampai 9 dan 0. Skoring pada subtes ini berupa dikotomi, yaitu skor nol (0) untuk jawaban yang salah dan skor satu (1) untuk jawaban yang benar.

BAB II TINJAUAN PUSTAKA. Pada dasarnya ilmu pengukuran memiliki dua pendekatan, yaitu

Recommend Documents