BAB II TINJAUAN PUSTAKA
Menurut Azwar (2007) bahwa teori pengukuran dapat dibahas dari tiga macam pendekatan secara umum, yaitu (a) pendekatan teori skor murni klasikal (classical true-score theory), (b) pendekatan teori skor murni kuat (strong truescore theory) dan (c) pendekatan latent-trait theory. Teori skor-murni kuat mempunyai pandangan yang mirip dengan teori skormurni klasikal mengenai nilai harapan skor tampak yang merupakan skor murni, akan tetapi dalam teori skor murni kuat terdapat asumsi-asumsi tambahan mengenai probabilitas skor-tampak yang akan diperoleh seorang subjek yang merupakan skor-murni tertentu sehingga dengan asumsi-asumsi tersebut kelayakan teori skor-murni kuat bagi data tertentu, dapat diuji. Sedangkan latent-trait theory berasumsi bahwa aspek performansi terpenting pada suatu tes dapat ditunjukkan oleh kedudukan seorang subjek pada suatu latent-trait yang berupa karakteristik psikologis yang tidak tampak. Berbeda dengan teori skor murni kuat, walaupun asumsi bahwa nilai harapan skor tampak pada teori latent-trait juga merupakan skor murni, pada umumnya tidak terdapat hubungan linear antara skor-murni dengan latent-trait sehingga nilai harapan skor tampak tidak sama dengan nilai latent-trait. Teori skor murni kuat dan teori latent-trait tidak cuma sekedar membahas konsep eror standar dalam pengukuran saja, akan tetapi juga membahas masalah
Universitas Sumatera Utara
eror standar yang bervariasi sesuai dengan level skor murni atau latent-traitnya. Menurut kedua teori tersebut, eror standar tidak terpengaruh oleh distribusi skor subjek. Penelitian ini akan menggunakan pendekatan pendekatan teori skor murni klasikal dalam proses analisis yang dilakukan, denga pertimbangan bahwa teori ini lebih praktis dalam menerangkan masalah reliabilitas dan validitas. Selain itu juga pemahamannya yang tidak menuntut pengetahuan yang terlalu dalam mengenai beberapa fungsi distribusi statistik dan model-model matematiknya.
E. Classical True-score Theory 1. Pengertian Classical True-score Theory Classical True-score Theory (selanjutnya disebut dengan CTT) merupakan pendekatan yang telah berhasil meletakkan dasar-dasar konsepsi reliabilitas pada dekade-dekade yang telah lalu dan memiliki kontribusi yang sangat besar dalam pengembangan formula-formula reliabilitas. Pendekatan ini juga memiliki nilai praktis yang tinggi dalam menerangkan masalah validitas dan reliabilitas (Azwar, 2004) CTT pada intinya dijelaskan dalam bentuk asumsi-asumsi matematis, yang pada akhirnya dijadikan sebagai dasar turunan aljabar atau kesimpulankesimpulannya.
Universitas Sumatera Utara
2. Asumsi-asumsi dalam Classical True-score Theory Sebelum membahas asumsi-asumsi dalam CTT, perlu
diketahui bahwa
asumsi-asumsi tersebut merupakan hubungan matematis dari skor tampak (X), skor murni (T), dan eror pengukuran (E). Skor tampak merupakan angka yang menunjukkan nilai performansi subjek pada suatu pengukuran, yang tidak lain merupakan nilai total dari jawaban subjek dalam tes tersebut. Skor murni dijelaskan sebagai angka performansi. Adapun sumsi-asumsi dalam CTT (dalam Azwar, 2007) adalah sebagai berikut:
Asumsi 1 : X=T+E
(1)
Asumsi ini menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor tampak, skor muni, dan eror. Skor tampak (X) merupakan jumlah skor murni (T) dan eror (E) Asumsi 2: ε(X) = T
(2)
Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan dari skor tampaknya. Jadi, T merupakan harga rata-rata distribusi teoretik skor tampak apabila orang yang sama dikenai tes yang sama berulangkali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah independen satu sama lain. Asumsi 3: =0
(3)
Universitas Sumatera Utara
Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi eror pengukuran dan distribusi skor murni tidak berkorelasi. Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif (Azwar, 2007). Asumsi 4: =0
(4)
Asumsi ini menyatakan bahwa dalam eror pada dua tes ( yang dimaksud untuk mengukur hal yang sama) tidak saling berkorelasi. Asumsi ini akan tidak terpenuhi sekiranya skor tampak dipengaruhi kondisi testing, seperti misalnya kelelahan, Practice effect, suasana hati, atau factor-faktor dari lingkungan (Suryabrata, 2005). Asumsi 5 : =0
(5)
Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama, maka eror pada tes pertama tidak berkorelasi dengan skor-skor murni pada tes kedua. Asumsi 6 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, kedua tes tersebut disebut sebagai tes yang parallel (Suryabrata, 2005)
Universitas Sumatera Utara
Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama membunyai skot tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test).
B. Analisis Karakteristik Psikometri Sebuah instrument tes merupakan sekumpulan aitem yang disusun sedemikian rupa, baik berupa pertanyaan maupun pernyataan mengenai suatu hal yang hendak diukur (Azwar, 2007). Proses analisis terhadap karakteristik psikometri dari suatu instrument tes ditujukan untuk memilih aitem-aitem yang layak dan mengetahui kelayakan instrument tersebut. Jadi proses analisis dapat dilakukan untuk merancang sebuah instrumen tes yang baru atau menguji instrument yang sudah ada. Proses analisis tersebut secara sederhana meliputi dua cara, yaitu: Tahap Pertama adalah analisis dan seleksi aitem berdasarkan evaluasi secara kualitatif. Evaluasi ini bertujuan untuk melihat apakah aitem yang ditulis sudah sesuai dengan blue-print dan indikator perilaku yang hendak diungkap, melihat apakah aitem telah ditulis sesuai dengan kaidah penulisan yang benar, dan melihat apakah aitem-aitem yang ditulis masih mengandung social desirability yang tinggi. Evaluasi secara kualitatif ini dikerjakan oleh suatu panel ahli.
Universitas Sumatera Utara
Tahap kedua adalah prosedur seleksi aitem berdasarkan data empiris dengan melakukan analisis kuantitatif terhadap parameter-parameter aitem. Parameter-parameter yang dimaksud meliputi indeks diskriminasi aitem dan indeks kesulitan aitem, analisis efektivitas distraktor, analisis reliabilitas, serta analisis validitas dari instrumen tersebut (Crocker & Algina, 2005). 1. Indeks Kesulitan Aitem a. Pengertian Indeks Kesulitan Aitem Indeks kesulitan aitem yang biasanya disimbolkan dengan huruf p merupakan rasio antara penjawab aitem dengan benar dan banyaknya penjawab aitem. Secara teoritik dikatakan bahwa p sebenarnya merupakan probabilitas empirik untuk lulus aitem tertentu bagi kelompok subjek tertentu. Secara matematis diformulaikan sebagai berikut: p = ni / N
(6)
Keterangan: p = indeks kesulitan aitem ni = banyaknya subjek yang menjawab aitem dengan benar N = banyaknya subjek yang menjawab aitem Selain untuk membedakan subjek yang menguasai suatu pelajaran dengan baik dengan yang tidak menguasai dengan baik, indeks kesulitan aitem juga berfungsi dalam hal penyusunan aitem-aitem saat penyusunan alat tes. Hal ini sesuai dengan apa yang diungkapkan oleh Kumar (2009), yang menyatakan bahwa penyusunan aitem dilakukan berdasarkan nilai indeks kesulitan aitem. Lebih lanjut Murphy & Davidshofer (2003) menyarankan untuk menyusun aitem-
Universitas Sumatera Utara
aitem dalam tes secara sistematis, dengan menempatkan aitem-aitem berdasarkan tingkat kesukarannya, mulai dari aitem yang paling mudah hingga yang paling sulit. Sehingga pola penyusunan aitem-aitem dalam tes dimulai dari aitem dengan harga p yang paling tinggi hingga aitem dengan harga p yang paling rendah. b. Analisis Indeks Kesulitan Aitem Nilai p yang semakin tinggi menunjukkan bahwa aitem yang bersangkutan semakin mudah. Nilai p berkisar dari 0 sampai dengan angka 1. Apabila sebuah aitem sedemikian sukarnya, sehingga tidak seorang subjek pun dapat menjawab dengan benar, maka harga p = 0, sedangkan apabila suatu aitem sedemikian mudahnya sehingga seluruh subjek dapat menjawab dengan benar, maka harga p = 1. Aitem yang terlalu mudah atau terlalu sulit biasanya tidak akan banyak berguna dalam membedakan subjek yang menguasai bahan pelajaran dan mereka yang tidak (Azwar, 2007). Pada umumnya harga p yang berada disekitar 0,50 dianggap yang terbaik. Menurut Azwar (2007), harga p terbaik adalah yang sesuai yang sesuai dengan tujuan tes yang bersangkutan. Misalnya kadang-kadang dikehendaki harga p < 0,50 (aitemnya lebih sulit) apabila aitem aitem itu dimaksudkan sebagai bagian dari suatu tes yang digunakan dalam prosedur seleksi guna memilih sebagian kecil saja dari antara pelamar. Tidak jarang pula sebuah tes prestasi perlu disusun dengan memasukkan banyak aitem yang taraf kesulitannya rendah (p tinggi) dengan tujuan untuk evaluasi formatif. Jadi bisa dikatakan bahwa harga p yang berada pada titik ekstrem (terlalu sulit atau terlalu mudah) akan mempunyai daya diskriminasi yang kurang baik.
Universitas Sumatera Utara
Oleh karena itu, umumnya pada penyusunan instrumen tes disarankan untuk menggunakan aitem dengan taraf kesulitan sedang (0,50). Namun Lord (dalam Murphy & Davidshofer, 2003) menyatakan bahwa untuk tes seleksi karyawan, p akan dikatakan baik jika nilai p mendekati 0,2. Allen & Yen (dalam Lababa, 2008) mengkategorikan nilai p sebagai berikut: Tabel 1 Kategori Tingkat Kesulitan aitem No 1 2 3
P p<0,3 0,3≤p≤0,7 p>0,7
Kategori Sulit Sedang Mudah
Ada beberapa hal yang perlu dipahami mengenai indeks kesulitan aitem ini, diantaranya pertama adalah bahwa harga p dari suatu aitem menunjukkan taraf kesulitan aitem tersebut bagi kelompok yang bersangkutan, yaitu kelompok yang menjadi dasar dalam menghitung p itu sendiri (Azwar, 2005). Artinya harga p suatu aitem akan berbeda apabila dihitung pada kelompok siswa yang berbeda. Kedua bahwa besarnya harga p yang kita hitung merupakan indek kesulitan aitem bagi seluruh kelompok yang bersangkutan, bukan indeks kesulitan bagi masingmasing individu dalam kelompok. Artinya harga p yang dihitung dalam kelompok hanya merupakan rata-rata indeks kesulitan bagi seluruh individu dalam kelompok tersebut. Berdasarkan penjelasan di atas, maka dalam penelitian ini aitem dikatakan memiliki indeks diskriminasi yang baik jika harga p lebih kecil dari 0,3, dengan alasan bahwa IST dalam hal ini digunakan untuk seleksi karyawan, yaitu memilih sebagian kecil saja dari antara para pelamar.
Universitas Sumatera Utara
2. Indeks Daya Diskriminasi Aitem a. Pengertian Indeks Diskriminasi Aitem. Indeks daya diskriminasi aitem atau sering disebut dengan daya beda aitem merupakan parameter yang paling penting dalam tes psikologi yang menunjukkan sejauh mana aitem mampu membedakan antara individu atau kelompok individu yang memiliki dan yang tidak memiliki atribut yang diukur (Azwar, 2005). Artinya bahwa aitem yang memiliki daya beda yang tinggi harus memiliki skor yang tinggi pada individu yang memiliki atribut yang diukur dan skor yang rendah pada individu yang tidak memiliki atribut yang diukur. Indeks diskriminasi aitem (d) secara sederhana didefinisikan sebagai perbedaan proporsi penjawab aitem dengan benar antara Kelompok Tinggi dengan Kelompok Rendah. Secara matematis diformulasikan sebagai berikut:
(7) Keterangan: d
: Indeks diskriminasi Aitem
niT : jumlah subjek penjawab dengan benar dari Kelompok Tinggi nT
: Jumlah subjek Kelompok Tinggi
niR : jumlah subjek penjawab dengan benar dari Kelompok Rendah nR
: Jumlah subjek Kelompok Rendah
Formulasi di atas sama dengan perbedaan/ selisih indeks kesulitan pada Kelompok Tinggi dan Kelompok Rendah, sehingga lebih sederhana dapat diformulasikan sebagai berikut:
Universitas Sumatera Utara
-
(8)
Keterangan : = Indeks kesulitan pada Kelompok Tinggi = Indeks kesulitan pada Kelompok Rendah Dalam skala sikap, sebuah aitem dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan antara subjek yang bersikap positif dan subjek yang bersifat negatif. Sedangkan untuk sebuah tes inteligensi, sebuah aitem dikatakan memiliki daya beda tinggi jika aitem tersebut mampu membedakan subjek yang memiliki kemampuan tinggi (Kelompok Tinggi) dan subjek yang memiliki kemampuan rendah (Kelompok Rendah). Artinya suatu aitem tersebut haruslah dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Tinggi dan tidak dapat dijawab dengan benar oleh semua atau sebagian besar subjek Kelompok Rendah (Azwar, 2007). b. Analisis Indeks Diskriminasi Aitem Menurut Murphy dan Davidshofer (2003), jika suatu tes dan satu aitem mengukur hal yang sama, maka diharapkan bahwa orang yang mengerjakan tes dengan baik akan menjawab aitem tersebut dengan benar, dan orang yang mengerjakan tes dengan buruk menjawab aitem tersebut dengan salah. Dengan kata lain, aitem yang memiliki daya diskriminasi yang baik mampu membedakan antara orang yang mengerjakan tes dengan baik dan orang yang mengerjakan tes dengan buruk. Nilai Indeks diskriminasi (d) berkisar mulai dari -1 sampai dengan +1, namun hanya harga d yang positif saja yang memiliki arti dalam analisis aitem.
Universitas Sumatera Utara
Daya diskriminasi maksimal tercapai apabila seuruh subjek Kelompok Tinggi dapat menjawab dengan benar (
), sedangkan seluruh subjek Kelompok
Rendah tidak seorang pun yang dapat menjawab dengan benar (
). Dalam
hal ini, harga indeks diskriminasi d = 1-0=1. Harga d yang berada disekitar 0 menunjukkan bahwa aitem yang bersangkutan memiliki daya diskriminasi yang rendah, sedangkan harga d yang negative menunjukkan bahwa aitem yang bersanngkutan tidak ada gunanya sama sekali, bahkan memberikan informasi yang menyesatkan. Indeks diskriminasi yang ideal yang ideal adalah yang sebesar mungkin mendekati angka 1. Semakin besar indeks kemsukaran aitem (semakin mendekati angka 1) berarti aitem tersebut semakin mampu membedakan antara subjek yang menguasai bahan yang diujikan dan dan subjek yang tidak menguasai. Menurut Thorndike (dalam Azwar, 2005) bahwa dalam proses seleksi aitem, aitem-aitem yang memiliki nilai diskriminasi di atas 0,50 akan langsung dianggap baik sedangkan aitem-aitem dengan indeks diskriminasi di bawah 0,20 dapat langsung dibuang dan dianggap jelek. Sementara menurut Ebel (dalam Azwar, 2005) terdapat suatu panduan dalam evaluasi indeks diskriminasi aitem, yaitu: Tabel 2 Evaluasi Indeks Daya Diskriminasi Aitem Indeks Daya Beda ≥ 0,40 0,30 – 0,39 0,20 – 0,29 < 0,20
Evaluasi Sangat bagus Lumayan bagus, tidak membutuhkan revisi Belum memuaskan, perlu direvisi Buruk dan harus dibuang
Universitas Sumatera Utara
Menurut Murphy dan Davidshofer (2003), ada tiga statistik yang dapat digunakan untuk mengukur daya diskriminasi suatu aitem, yaitu: 1. Method of Extreme Group Metode ini biasanya dugunakan untuk indeks diskriminasi pada kelompok besar. Diskriminasi aitem dapat dihitung dengan cara membagi kelompok menjadi dua, Upper group (Kelompok Tinggi) yakni kelompok yang memiliki skor yang tinggi (25-35 % nilai tertinggi didalam kelompok) dan lower group (Kelompok Rendah) yakni kelompok yang memiliki nilai yang rendah (25-35 % nilai terendah dalam kelompok). Aitem yang memiliki indeks diskriminasi yang baik akan dijawab benar oleh Kelompok Tinggi dan dijawab salah oleh Kelompok Rendah. 2. Korelasi Aitem-Total Parameter daya beda aitem yang berupa koefisien korelasi aitem-total memperlihatkan kesesuaian
fungsi aitem dengan fungsi skala / tes dalam
mengungkap perbedaan individual. Besarnya koefisien korelasi aitem-total bergerak 0 sampai dengan 1,00. Semakin baik daya diskriminasi aitem, maka koefisien korelasi semakin mendekati angka 1,00. Korelasi aitem total dapat diketahui dengan menghitung korelasi point biserial (rpbis). Korelasi point biserial yang bernilai positif menunjukkan bahwa aitem dan tes mengukur hal yang sama, nilai mendekati nol menunjukkan bahwa bahwa aitem tidak memiliki indeks daya beda yang baik sehingga kelompok tinggi menjawab pertayaan dengan salah dan kelompok rendah menjawab pertanyaan dengan benar. Nilai negatif menunjukkan bahwa aitem tidak mengukur hal yang sama dengan alat tes. Berikut adalah formula point biserial :
Universitas Sumatera Utara
rpbis = [(Mi – Mx)/Sx] / √[p/(1-p)]
(9)
Keterangan : Korelasi point biserial
rpb
:
Mi
:Mean skor X dari seluruh subjek yang mendapat angka 1 pada
variabel
dikotomi i
Mx
: Mean skor dari seluruh subjek
Sx
:Standard deviasi skor X
P
:Proporsi subjek yang mendapat angka 1 pada variabel dikotomi
3. Korelasi Inter-Aitem Pengujian terhadap korelasi inter-aitem dapat membantu kita mengetahui mengapa beberapa aitem gagal membedakan anatara subjek yang bekerja dengan baik (Kelompok Tinggi) dan yang bekerja dengan buruk (Kelompok Rendah) (Murphy dan Davidshofer, 2003) Korelasi inter-aitem yang bernilai rendah dapat memiliki dua arti, kemungkinan pertama adalah aitem tidak mengukur hal yang sama dengan tes, sehingga aitem harus dibuang atau dibuat ulang, kemungkinan kedua adalah aitem memang mengukur atribut yang berbeda dengan tes dikarenakan tes memang disusun untuk mengukur dua atribut yang berbeda. Dalam penelitian ini, indeks diskriminasi akan diukur dengan dua cara, yaitu dengan metode extreme group dan metode korelasi aitem-total. Dengan metode extreme group, diharapkan bisa melihat perbedaan antara Kelompok Tinggi dan Kelompok Rendah. Sedangkan dengan metode korelasi aitem-total diharapkan dapat melihat kesesuaian fungsi aitem dengan fungsi
tes dalam
mengungkap perbedaan individual.
Universitas Sumatera Utara
3. Efektivitas Distraktor Efektivits distraktor-distraktor pada suatu aitem dianalisis dari distribusi jawaban terhadap aitem yang bersangkutan pada setiap alternatif yang disediakan. Efektivitas distraktor diperiksa untuk melihat apakah semua distraktor
atau
semua pilihan jawaban yang bukan kunci telah berfungsi sebagaimana mestinya, yaitu apakah distraktor-distraktor tersebut telah dipilih lebih banyak (atau semua) siswa Kelompok Rendah sedangkan siswa dari Kelompok Tinggi hanya sedikit (atau tidak ada) yang memilihnya. Efektivitas distraktor dilihat dari dua kriteria, yaitu: (a) distraktor dipilih oleh siswa dari Kelompok Rendah, dan (b) pemilih distraktor tersebar relative proporsional pada masing-masing distrakktor yang ada (Azwar, 2005)
4. Reliabilitas a. Pengertian Reliabilitas Reliabilitas merupakan penerjemahan dari kata reliability yang berasal dari dua kata yaitu rely dan ability, dimana rely memilliki arti percaya atau mempercayakan sedangkan ability memiliki arti kemampuan. Ada banyak istilah yang
digunakan
untuk
keterandalan, keajegan,
menyatakan
reliabilitas,
seperti
keterpercayaan,
kestabilan, konsistensi dan sebagainya, namun pada
intinya konsep reliabilitas memiliki makna:
sejauh mana hasil suatu tes/
pengukuran dapat dipercaya (Azwar, 2007) Crocker dan Algina (2005) menjelaskan bahwa pada dasarnya reliabilitas menggambarkan derajat konsistensi, yaitu :
Universitas Sumatera Utara
”a reliability term refers to the degree to which individuals deviation scores, or z-scores, remain relatively consistent over repeated administration of the same test or alternate test forms”.
Reliabilitas suatu tes ditunjukkan oleh taraf konsistensi skor yang diperoleh para subjek yang diukur dengan alat yang sama atau minimal setara, dalam kondisi yang berbeda (Suryabrata, 2005). Konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka formula reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2007). Menurut Gregory (2000), reliabilitas dalam pengukuran psikologis menunjukkan atribut konsistensi dari pengukuran itu sendiri. Hanya sedikit dari pengukuran behavioral yang benar-benar reliabel, dan reliabilitas itu sendiri bersifat kontinum. Berdasarkan beberapa definisi di atas, dapat disimpulkan bahwa reliabilitas pada dasarnya merupakan ketetapan atau derajat konsistensi performansi relative dari individu yang dikenai tes ketika diberikan tes yang sama secara berulang atau tes yang parallel. Tujuan dari sebuah pengetesan adalah untuk mengetahui true score seseorang yang bersifat latent. Karena bersifat latent, maka skor ini tidak pernah diketahui secara pasti nilainya dan yang paling mungkin dilakukan untuk mengetahui true score ini adalah membuat perkiraan melalui observed score. Observed score adalah skor individu yang diperoleh dari pengetesan. Faktor yang mempengaruhi reliabilitas suatu tes adalah error. Error atau varians kesalahan
Universitas Sumatera Utara
adalah kondisi yang tidak sesuai atau tidak relevan dengan maksud tes (Anastasi & Urbina, 1997). Ada dua jenis error yang sering terjadi, yaitu: 1) Systematic error yaitu kecenderungan individu untuk memperoleh skor yang tinggi semua atau rendah semua. Sifat eror ini selalu konstan. Sumbernya adalah karakteristik fisik individu, proses tes/ tes yang tidak berkaitan dengan konstruk yang ingin diukkur. Misalnya alat ukur rusak, gangguan pendengaran, gangguan penglihatan, dll. 2) Unsystematic error (random error), yaitu kecenderungan individu memperoleh skor yang tidak tetap, terkadang baik, terkadang buruk. Error ini bersifat random. Ada berbagai hal yang dapat menimbulkan random error, antara lain kelelahan memori subjek dan naik turunnya suasana hati, dll. b. Jenis-jenis Pendekatan Estimasi Reliabilitas Estimasi terhadap tingginya reliabilitas dapat dilakukan melalui berbagai metode pendekatan, dimana masing-masing metode pendekatan dikembangkan sesuai dengan sifat dan fungsi alat ukur yang bersangkutan dengan mempertimbangkan segi-segi praktisnya (Azwar, 2007) Menurut Azwar (2007), secara tradisional
terdapat tiga macam
pendekatan reliabilitas yaitu : 1) Pendekatan Tes Ulang (tes-retest) Pendekatan ini menunjukkan konsistensi pengukuran dari waktu ke waktu dan menghasilkan koefisien reliabilitas yang dinamakan koefisien stabilitas. Prinsip estimainya adalah menyajikan tes dua kali pada satu kelompok subjek
Universitas Sumatera Utara
dengan tenggang waktu tertentu. Asumsinya adalah bahwa suatu tes yang reliable tentu akan menghasilkan skor tampak yang relative sama apabila dikenakan dua kali pada waktu yang berbeda. Semakin besar variasi perbedaan skor subjek antara kedua pengenaan tes, berarti semakin sulit untuk mempercayai bahwa tes itu memberikan hasil ukur yang konsisten (Azwar, 2007) Dalam prakteknya, pendekatan ini memiliki keterbatasan yaitu kurang praktis dalam pelaksanaan tes sebanyak dua kali, dan besarnya kemungkinan terjadi efek bawaan (carry-over effects) dari satu pengenaan tes ke pengenaan te syang kedua. Artinya dalam hal ini besar kemungkinan terjadinya proses pembelajaran bagi subjek dan hal ini akan mempengaruhi terhadapa skor hasil tes yang kedua kalinya. 2) Pendekatan Bentuk-Paralel (alternate-forms) Pendekatan bentuk paralel merupakan pengenaan dua bentuk tes pararel dalam waktu yang bersamaan pada satu kelompok subjek. Jadi pendekatan ini hanya dapat dilakukan apabila tersedia dua bentuk instrumen yang dapat dianggap memenuhi asumsi parallel. Salah satu indicator terpenuhinya asumsi paralel adalah setaranya korelasi antara skor kedua instrument tersebut dengan skor suatu ukuran lain. Tentu saja untuk dapat paralel kedua bentuk instrumen harus disusun dengan tujuan mengukur objek psikologis yang sama, berdasarkan blue-Print (pola-rancangan) yang sama dan spesifikasi yang sama pula. Kelemahan utama dari pendekatan ini adalah sulitnya menyusun dua alat ukur yng memenuhi persyaratan parallel atau sejajar. Selain kelemahan di atas,
Universitas Sumatera Utara
pendekatan
ini
juga
memiliki
kelebihan,
yaitu
dapat
menghilangkan
kemungkinan terjadinya efek bawaan. 3) Pendekatan Konsistensi Internal (Internal-Consistency) Pendekatan konsistensi internal dilakukan dengan menggunakan satu bentuk tes yang dikenakan hanya sekali saja pada sekelompok subjek (single-trial administration). Pendekatan ini mengatasi kelemahan pada pendekatan tes-retest dan alternate-forms. Pendekatan reliabilitas konsistensi internal bertujuan untuk melihat konsistensi antar-aitem atau antar bagian dalam tes itu sendiri. Untuk itu, setelah skor setiap aitem diperoleh dari sekelompok subjek, tes dibagi menjadi beberapa belahan, bisa dua belahan, tiga belahan dan bahkan belahan sebanyak aitem. Membelah tes prinsipnya adalah mengusahakan agar antar belahan memiliki jumlah aitem sama banyak, taraf kesulitan seimbang, isi sebanding, dan memenuhi ciri-ciri paralel . Bentuk dan sifat alat ukur serta banyaknya belahan yang dibuat akan menentukan teknik perhitungan koefisien reliabilitasnya. Ada beberapa teknik komputasi reliabilitas konsistensi internal diantaranya: Formula Spearman-Brown, Formula Rulon, Formula Alpha, Formula-formula Kuder-Richardson, Formula Kristof, Formula Analisis varians dan sebagainya. Berikut ini akan dijelaskan secara singkat mengenai penggunaan berbagai formula tersebut:
Universitas Sumatera Utara
1. Spearman-Brown Formula komputasi Spearman-Brown merupakan formula koreksi terhadap koefisien korelasi antara dua bagian tes dan dirumuskan sebagai berikut (Azwar, 2005): S-B = rxx’=
(10)
Keterangan: rxx’ = Koefisien reliabilitas Spearman-Brown r1.2 = Koefisien korelasu antara dua belahan Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, pembelahan tes dilakukan dengan cara gasal-genap dan matched-random subtes dan menghasilkan dua bagian yang paralel satu sama lain dan korelasi antara kedua belahan paralel tersebut cukup tinggi. 2. Rulon Rulon (1939) mempersoalkan reliabilitas tes yang dibelah menjadi dua belahan. Jika sekiranya belahan tersebut setara maka secara teori skor subjek pada perangkat belahan pertama dan skor perangkat belahan kedua akan sama. Jika skor-skor pada kedua perangkat itu tidak sama, maka itu terjadi karena kesalahan/kekeliruan pengukuran. Berdasarkan atas pemikiran ini maka diusulkan rumus reliabilitas tes sebagai berikut (Suryabrata, 2005):
rxx’ = 1- sd2/sx2
(11)
Keterangan: sd2 = Varians perbedaan skor kedua belahan sx2 = Varians skor tes
Universitas Sumatera Utara
d = Perbedaan skor kedua belahan Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent. 3. Koefisien alpha belah dua Formula koefisien alpha untuk estimasi reliabilitas belah dua dirumuskan sebagai berikut: rxx’
=2
(12)
Keterangan: = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 4. Koefisien alpha belah lebih dari dua Pembelahan tes tidak hanya terbatas pada membagi tes ke dalam dua belahan saja. Cara-cara pembelahan dapat diperluas pemakainnya untuk membagi tes menjadi beberapa belahan. Bahkan suatu tes yang akan diestimasi reliabilitasnya dapat dibelah menjadi bagian-bagian sebanyak jumlah aitemnya sehingga setiap bagian hanya berisi satu aitem saja.
Universitas Sumatera Utara
Untuk tes yang dibelah menjadi lebih dari dua belahan yang masingmasing berisi aitem yang berjumlah sama banyak kita dapat menggunakan formula alpha dengan rumus: α=
(13)
Keterangan :
= banyaknya belahan tes = varians belahan j; j = 1, 2…k = varians skor tes
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, setiap belahan memiliki aitem yang relatif setara, paralel setidaknya memenuhi asumsi τ-equivalent, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 5. Flanagan Flanagan menganggap bahwa varians-varians pada perangkat-perangkat belahan tes merupakan varians kekeliruan pengukuran. Maka untuk tes yang dibelah menjadi dua bagian setara reliabilitasnya adalah sebagai berikut: rxx’ =2 Keterangan:
(14) = varians pada belahan 1 = varians pada belahan 2 = varians total skor tes
Universitas Sumatera Utara
6. Kuder-Richardson 20 (KR-20) KR 20 merupakan rata-rata estimasi reliabilitas dari semua cara belah-dua yang mungkin dilakukan. Koefisien ini juga mencerminkan sejauhmana kesetaraan isi aitem-aitem dalam tes. Rumusan formula KR-20 adalah: KR-20
(15)
Keterangan :
= Banyaknya aitem dalam tes = Varians skor tes p = Proporsi subjek yang mendapat angka 1 pada suatu aitem, yaitu banyaknya subjek yang mendapat angka 1 dibagi oleh banyaknya seluruh subjek yang menjawab aitem tersebut.
Formula ini dapat digunakan jika aitem dikotomi, jumlah aitem sedikit dan membelahan tes sebanyak jumlah aitem, aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 7. Kuder-Richardson 21 (KR-21) Perhitungan KR-21 menggunakan rata-rata harga p dari keseluruhan aitem. hal inilah yang membedakan antara KR-20 dengan KR-21. Rumusan formula KR21 adalah:
(16) Keterangan :
= banyaknya aitem dalam tes = rata-rata p yaitu,
Universitas Sumatera Utara
= varians skor tes Untuk mempermudah komputasi, formula KR-21 dapat pula dinyatakan sebagai:
(17) Keterangan : Mx = harga rata-rata means skor tes Penggunaan formula ini hamper sama dengan formula KR-20. Hanya saja yang membedakannya adalah bahwa KR-21 ini digunakan jika tingkat kesulitan aitem-aitem dalam tes relatif setara. Jika digunakan pada alat tes yang tingkat kesulitan yang bervariasi, maka hasilnya akan kurang teliti (Azwar, 2007) 8. Formula untuk Tes Belah Tiga (Formula Kristof) Komputasi koefisien reliabilitas tes yang telah dibelah menjadi tiga bagian ini didasarkan pada formula estimasi skor murni yang dirumuskan Kristof, yaitu:
(18) Keterangan: S12 = kovarians belahan 1 dan belahan 2 = kovarians belahan 1 dan belahan 3 = kovarians belahan 2 dan belahan 3 Untuk komputasi koefisien reliabilitasnya digunakan rumus dasar reliabilitas, yaitu: rxx’ =
Universitas Sumatera Utara
Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 3 bagian, belahan tidak harus sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan
lebih baik
digunakan pada subjek dalam jumlah besar. 9. Analisis varians Hoyt Hoyt (1941) mengembangkan pendekatan analisis varian yang disebut dengan analisis varian Hoyt. Konsep dalam teknik analisis varian Hoyt adalah memandang distribusi aitem keseluruhan subjek sebagai data pada suatu desain eksperimen faktorial dua-jalan tanpa replikasi, yang dikenal pula sebagai item by subject design. Setiap aitem dianggap sebagai suatu perlakuan yang berbeda sehingga setiap kali subjek dihadapkan pada suatu aitem seakan-akan berada pada suatu perlakuan yang berbeda, sehingga banyaknya aitem merupakan banyaknya perlakuan. Dari pola faktorial ini diperoleh harga mean kuadrat antar subjek yang sebenarnya merupakan estimasi terhadap varians skor tes, meankuadrat antar aitem, dan meankuadrat interaksi aitem-subjek yang merupakan estimasi terhadap varians eror, jadi formula reliabilitas Hoyt adalah: (19) Keterangan: = mean kuadrat interaksi aitem x subjek = mean kuadrat antar aitem Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, belahan tes tidak harus paralel, namun harus memenuhi asumsi τ-equivalent,
Universitas Sumatera Utara
aitem-aitem dalam tes haruslah homogen sehingga formula ini tidak bisa digunakan untuk mengestimasi koefisien reliabilitas alat tes yang mengukur beberapa trait. 10. Formula Feldt (Formula untuk Tes belah Dua Panjang Tidak Sama) Formula ini dapat digunakan jika aitem dikotomi ataupun politomi, membelah tes menjadi 2 bagian yang tidak sama panjang, jumlah aitem tidak harus sama banyak dengan syarat isi tetap homogen, dan lebih baik digunakan pada subjek dalam jumlah besar. Feldt (1975) menggunakan formula estimasi reliabilitas sebagai berikut:
(20) Keterangan:
= varians skor belahan 1 = varians skor belahan 2 = kovarians skor belahan 1 dan 2 = deviasi standar skor tes
Pada penelitian ini, estimasi koefisien reliabilitas dilakukan dengan pendekatan konsistensi internal atau satu kali tes dengan teknik komputasi reliabilitas yang digunakan adalah formula Kuder-Richardson (KR’20). Formula KR’20 dipilih karena tingkat kesulitan aitem subtes WA cenderung bervariasi. Jika KR’21 digunakan pada tes yang kesulitan aitem nya cenderung bervariasi, maka hasilnya akan rendah dan tidak cermat (Azwar, 2007)
Universitas Sumatera Utara
c. Analisis Koefisien Reliabilitas Tingkat reliabilitas dari suatu penngukuran ditunjukkan dari koefisien reliabilitas. Koefisien reliabilitas memperlihatkan pengaruh dari true score dan error score terhadap observed score. Secara umum, koefisien reliabilitas dapat didefinisikan sebagai rasio dari true score variance terhadap total variance dari skor tes (Gregory, 2000). Rentang nilai koefisien reliabilitas adalah antara 0.0-1.0. Pengukuran yang sangat reliabel akan memiliki koefisien reliabilitas mendekati 1.0, sebaliknya yang sangat tidak reliabel akan memiliki koefisien relabilitas mendekati 0.0. Menurut Anastasi & Urbina (1997), suatu pengukuran dapat dikatakan reliabel apabila memiliki rentang nilai koefisien reliabilitas antara 0.80-0.90. sedangkan menurut Nunnally (2005), pengukuran dapat dikatakan reliabel jika memiliki koefisien reliabilitas diatas 0.70. Murphy & Davidshofer (2003) mengelompokkan nilai koefisien reliabilitas ke dalam beberapa kelompok nilai, yaitu nilai yang tidak dapat diterima (≤ 0.60), nilai yang rendah (0.61-0.70), nilai moderat (0.71-0.89) dan nilai yang tinggi (≥ 0.90). d. Interpretasi Koefisien Reliabilitas Dalam setiap pengukuran kemungkinan besar akan selalu terjadi error (E) pengukuran yang mengakibatkan skor tampak (X) tidak selalu sama dengan skor murni (T). Jadi untuk mengestimasi nilai skor murni, diperlukan interpretasi dari koefisien reliabilitas. Suatu tes dikatakan memiliki reliabilitas yang tinggi apabila misalnya, skor tampak (X) berkorelasi tinggi dengan skor murni (T) nya sendiri.
Universitas Sumatera Utara
Atau bisa juga ditafsirkan dari tingginya korelasi antara skor-tampak pada dua tes yang pararel. Allen & Yen (dalam Azwar, 2004) menguraikan enam cara untuk menginterpretasikan koefisien reliabilitas (
), yaitu:
Interpretasi 1 : = korelasi skor tampak antara dua tes yang pararel. Interpretasi ini menyatakan bahwa reliabilitas ini ditentukan oleh sejauh mana skor tampak pada dua tes yang parallel berkorelasi. Interpretasi ini menjadi asumsi dasar dalam pendekatan reliabillitas bentuk parallel (Parallel-forms) dan pendekatan reliabilitas bentuk sejajar (alternate-forms). Interpretasi 2 : = besarnya proporsi varians X yang dijelaskan oleh hubungan linearnya dengan
.
Interpretasi ini berasal dari penafsiran koefisien determinasi sebagaimana biasanya dilakukan pada penafsiran koefisien korelasi linier Pearson. Interpretasi ini sangat penting artinya dalam menilai apakah suatu koefisien reliabilitas dapat dianggap cukup bermakna atau tidak. Interpretasi 3 :
=
(21)
Interpretasi ini menyatakan bahwa koefisien reliabilitas merupakan besarnya perbandingan antara varians skor murni dan varians skor tampak pada
Universitas Sumatera Utara
suatu tes atau merupakan proporsi varians skor tampak yang berisi varians skor murni. Bila semua perbedaan yang terjadi pada skor tampak subjek merefleksikan , maka reliabilitas tes tersebut adaal
perbedaan skor murni, yaitu sempurna dengan koefisien reliabilitas
=1. Artinya setiap skor tampak yang
diperoleh subjek satu dengan yang lainnya memang perbedaan skor murni mereka, bukan perbedaan yang disebabkan oleh faktor-faktor lain sebagai sumber error dalam pengukuran itu.
jadi semakin kecil koefisien reliabilitas, yaitu
semakin jauh dari angka 1, berarti semakin besar error pengukuran yang terjadi. Interpretasi 4 :
=
(22)
Koefisien reliabilitas dalam interpretasi ini merupakan kuadrat koefisien korelasi antara skor tampak dan skor murni. Interpretasi 5 : =
(23)
Koefisien reliabilitas adalah sama dengan satu dikurangi kuadrat koefisien korelasi antara skor tampak dengan error pengukuran. Semakin besar korelasi antara skor—tampak dengan error pengukuran, akan semakin kecil koefisien reliabilitasnya. Interpretasi 6 : = 1-
(24)
Universitas Sumatera Utara
Interpretasi ini mengaitkan reliabilitas dengan varians error dan varians skor-tampak yang dihubungkan dengan homogenitas subjek. Koefisien reliabilitas pada kelompok homogen akan relative lebih rendah dibandingkan pada kelompok yang heterogen. Skor
murni tidak dapat diperoleh secara langsung dan
koefisien
reliabilitas merupakan salah satu bentuk pendekatan yang dapat digunakan untuk mengestimasi nilai skor murni. Estimasi atau perkiraan terhadap skor murni kemungkinan besar akan selalu mengandung eror. Sehingga penafsiran terhadap koefisien reliabilitas harus dilakukan melalui penafsiran standard eror pengukuran, dengan rumusan sebagai berikut:
=
(25)
Keterangan : : Standard error dari pengukuran Sx
: standard deviasi skor : koefisien reliabilitas
Semakin tinggi koefisien reliabilitas suatu tes, maka kemungkinan kesalahan yang terjadi semakin kecil.
e. Faktor-faktor yang Mempengaruhi Reliabilitas Crocker & Algina (2005) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen, yaitu:
Universitas Sumatera Utara
1) Homogenitas Kelompok Secara umum dapat dijelaskan bahwa dalam suatu kondisi tes, semakin besar homogenitas kelompok berkaitan dengan trait-trait tertentu yang diukur maka indeks reliabilitas akan semakin rendah bila dibandingkan dengan kondisi ketika kelompok sampel lebih heterogen. 2) Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek, terutama pada tes dengan komposisi aitem yang sama. Hal ini dikarenakan performansi subjek pada tes yang lebih panjang waktunya akan lebih maksimal. Sementara pada tes yang memiliki waktu lebih pendek, performansi subjek akan sangat ditentukan oleh banyak faktor, termasuk kelelahan dan performansi subjek lain yang mengikuti tes tersebut. 3) Panjang Tes Panjang dari suatu tes sangat bergantung dengan seberapa banyaknya aitem-aitem yang menyususn tes tersebut. Secara umum, semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas instrumen tersebut.
Universitas Sumatera Utara
5. Validitas a. Pengertian Validitas Validitas berasal dari kata validity yang berarti sejauhmana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya. Suatu tes atau instrument pengukur dapat dikatakan memiliki validitas yang tinggi apabila alat tersebut menjalankan fungsi ukurnya, atau memberikan hasil ukur, yang sesuai dengan maksud dilakukannya pengukuran tersebut (Azwar, 2007) Sisi lain dari pengertian validitas menurut Azwar (2007) adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid tidak hanya mampu menghasilkan data yang tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu dapat memberikan gambaran mengenai perbedaan yang sekecil-kecilnya di antara subjek yang satu dengan yang lain. Lebih lanjut, Azwar (2007) menambahkan bahwa pengertian validitas juga sangat erat kaitannya dengan tujuan pengukuran. Oleh karena itu, tidak ada validitas yang berlaku umum untuk semua tujuan pengukuran. Suatu alat ukur biasanya hanya merupakan ukuran yang valid untuk satu tujuan yang spesifik. Dengan demikian, pernyataan valid terhadap suatu pengukuran harus diikuti oleh keterangan yang menunjuk kepada tujuan awal pengukuran serta kelompok subjek yang mana. Anastasi & Urbina (2003) menyatakan bahwa validitas suatu tes itu menggambarkan apa yang hendak diukur oleh tes dan seberapa baik tes tersebut mengukurnya. Adapun fungsi validitas dalam pengukuran psikologis adalah:
Universitas Sumatera Utara
1) Mengukur Psychological traits : hal yang ingin diteliti adalah apakah alat ukur sudah tepat mengukur konstruk yang ingin diukur. 2) Menunjukkan hubungan statistical dengan variabel tertentu : hal yang ingin diiteliti disini adalah fungsi alat ukur dalm memprediksi dan mendiagnosa perilaku. 3) Representasi materi : hal ynag ingin ditelliti disini adalah apakah alat ukur sudah memuat materi-materi yang telah diberikan. b. Jenis-jenis Validitas Tipe validitas terbagi atas Validitas Isi (content), Validitas Konstruk (construct), Validitas Berdasar Kriteria (criterion-related). Validitas Konstruk terbagi atas dua, yaitu validitas convergen dan validitas diskriminan, sedangkan Validitas Berdasar Kriteria terbagi menjadi dua, yaitu validitas konkuren dan validitas prediktif. 1. Validitas Isi (Content related validation) Validitas isi menunjukkan sejauh mana aitem-aitem dalam tes mencakup keseluruhan kawasan isi yang hendak diukur oleh tes tersebut. Dalam hal ini, tes tidak hanya komprehensif akan tetapi juga isinya harus relevan dan tidak keluar dari batasan tujuan pengukuran. Pengujian validitas isi tidak melalui analisis statistika tetapi menggunakan analisis rasional. Salah satu cara nya adalah dengan melihat apakah aitem-aitem dalam tes telah ditulis sesuai dengan blue-Print nya yaitu telah sesuai dengan batasan domain ukur yang telah ditetapkan semula dan memeriksa apakah
Universitas Sumatera Utara
masing-masing aitem telah sesuai dengan indicator perilaku yang hendak diungkap. 2. Validitas Konstrak (Construct related validation) Validitas konstrak adalah validitas yang menunjukkan sejauhmana suatu tes mengukur trait atau konstrak teoretik yang hendak diukurnya (Azwar, 2007). Untuk pengujian validitas konstrak, diperlukan analisis statistika yang kompleks. Prosedur pengujian validitas konstrak berangkat dari hasil komputasi interkorelasi diantara berbagai hasil tes dan kemudian diikuti oleh analisis lebih lanjut terhadap matriks korelasi yang diperoleh, melalui berbagai metode. Menurut Anastasi & Urbina (1997), terdapat beberapa metode untuk melakukan construct validity, diantaranya adalah develoPmental changes, Correlation with other test, Analisa factor, Iinternal Consistency, Convergent & Discriminant Validation, dan Experimental Intervention. Dalam penelitian ini metode yang digunakan untuk mengukur valliditas konstruk adalah Convergent & Discriminant Validation Berhubungan dengan Convergent & Discriminant Validation, Campbell dan Fiske (dalam Azwar 2007) telah mengembangkan pendekatan terhadap validitas konstrak yang mereka namakan pendekatan multitrait-multimethod. Pendekatan ini dapat digunakan bilamana terdapat dua trait atau lebih yang diukur oleh dua macam metode atau lebih. Dasar pemikiran dalam validitas konstrak adalah bahwa ada validitas yang baik diperlihatkan oleh korelasi yang tinggi antara dua pengukuran terhadap terhadap dua trait yang sama oleh dua metode yang berbeda, atau korelasi yang rendah antara dua pengukuran terhadap trait yang berbeda walaupun menggunakan metode yang serupa.
Universitas Sumatera Utara
Pada intinya ada dua fokus pengujian validitas konstrak, yaitu: a) Apakah data yang dikumpulkan dari alat ukur yang disusun telah mendukung konstruksi teorinya. b) Apakah bukti-bukti empiris yang dikumpulkan dari berbagai pengujian relasi telah mendukung hipotesis dalam bagan teorinya. Dalam hal ini, ada dua jenis validitas konstrak, yaitu validitas konvergen (convergent validity) dan validitas diskriminan (discriminant validity). Validitas konvergen harus ditunjukkan oleh tingginya korelasi antara skor skala-skala yang mengukur trait yang sama sedangkan validitas diskriminan harus diperlihatkan oleh rendahnya korelasi antara skor skala-skala yang mengukur trait yang berbeda. 3. Validitas Berdasar Kriteria (Criterion related validation) Validitas berdasar kriteria merupakan validitas yang diperlihatkan oleh adanya hubungan skor pada tes yang bersangkutan dengan skor suatu criteria. Dalam validasi tes berdasar criteria, umumnya tes yang akan diuji validitasnya disebut sebagai prediktor. Statistik yang diperlukan dalam pengujian validitas ini adalah koefisien korelasi antara skor tes sebagai predictor dan skor suatu criteria yang relevan. a) Validitas Prediktif Validitas prediktif dapat dilihat dari hasil analisis korelasional antara skor tes dengan skor performansi yang hendak diprediksikan pada masa yang akan datang. Skor performansi sebagai criteria validasi baru bisa diperoleh setelah tenggang waktu tertentu.
Universitas Sumatera Utara
b) Validitas Konkuren Validitas konkuren merupakan validitas yang melihat sejauhmana kesesuaian antara hasil ukur instrument tersebut dengan hasil ukur instrumen lain yang sudah teruji kualitasnya atau dengan ukuran-ukuran yang dianggap dapat menggambarkan aspek yang diukur tersebut
secara reliable. Dalam hal ini,
instrumen yang sudah teruji validitasnya atau ukuran yang dianggap tepat itu berlaku sebagai criteria validasi.
6. Hubungan Karakteristik Psikometri Sebelumnya secara terpisah sudah dijelaskan mengenai karakteristikkarakteristik ketika menganalisis aitem, diantaranya indeks kesulitan aitem, indeks diskriminasi aitem serta efektivitas distraktor, dimana menurut (Murphy & Davidshofer, 2003) ketiga karakteristik ini merupakan hal yang penting dari sebuah analisis aitem. Ketiga karakteristik ini saling terkait satu sama lain dalam menentukan kualitas aitem dari suatu alat tes. Keterkaitan antara indeks kesulitan aitem, indeks diskriminasi aitem serta efektivitas distraktor bisa dilihat dari keterkaitan antara efektiviras distraktor dengan kesulitan aitem, kesulitan aitem dengan diskriminasi dan distraktor dengan diskriminasi. Indeks kesulitan aitem sangat dipengaruhi oleh efektivitas distraktor, jika semua distraktor tidak berfungsi maka subjek akan dengan mudah untuk memilih jawaban yang benar tanpa harus memiliki pengetahuan tentang hal yang
Universitas Sumatera Utara
ditanyakan tentu hal ini mempengaruhi tingkat kesulitan aitem, sehingga tingkat kesulitan aitem menjadi rendah. Indeks kesulitan aitem secara langsung mempengaruhi indeks diskriminasi aitem. Aitem yang sangat susah (p = 0) dan aitem yang sangat gampang (p = 1) tidak dapat membedakan antara subjek yang memiliki pengetahuan dan subjek yang tidak memiliki pengetahun sehingga indeks diskriminai bernilai rendah. Aitem yang memiliki efektivitas distraktor yang buruk tentu memiliki indeks diskriminasi yang buruk juga. Hal ini disebabkan karena distraktor yang buruk akan membuat subjek dengan gampang menjawab pertanyaan atau sebaliknya membuat subjek susah untuk menjawab pertanyaan sehingga berpengaruh juga terhadap diskriminasi aitem karena tidak dapat membedakan subjek yang memiliki pengetahuan baik dengan subjek yang tidak memiliki pengetahuan baik. Demikian juga halnya dengan indeks reliabilitas yang berhubungan langsung dengan nilai validitas. Validitas dan reliabilitas berjalan berdampingan dalam menentukan kualitas alat tes, dimana suatu alat tes harus konsisten, cermat dalam mengukur apa yang hendak diukur, sehingga alat tes tersebit bisa dipercaya. C. Intelligenz Structure Test (IST) Di dalam
Diktat kuliah IST Universitas Padjajaran, (2008) dikatakan
bahwa IST merupakan salah satu jenis alat ukur inteligensi terstruktur yang disusun oleh Rudolf Amthauer pada tahun 1953. Amthauer mendefinisikan intelegensi sebagai sebuah bagian khusus dalam keseluruhan struktur kepribadian
Universitas Sumatera Utara
manusia. Intelegensi tidak hanya identik dengan proses intelektual, melainkan erat kaitannya dengan kehidupan dorongan, kemamuan, dan perasaan. Selanjutnya dia menyatakan bahwa intelegensi
merupakan keseluruhan tertruktur dari
kemampuan jiwa-rohani yang akan tampak jelas dalam hasil tes. Intelegensi hanya akan dapat dikenali (dilihat) melalui manifestasinya-misalnya pada hasil atau prestasi suatu tes. Dari asumsi inilah, Amthauer menyusun sebuah tes yang dinamakan IST dengan hipotesis kerja sebagai berikut : “komponen dalam struktur tersebut tersusun secara hierarkis; maksudnya bidang yang dominan kurang lebih akan berpengaruh pada bidang-bidang yang lain; kemampuan yang dominan dalam struktur intelegensi akan menentukan dan mempengaruhi kemampuan yang lainnya”.
Dilihat dari strukturnya, IST merupakan salah satu bentuk Multiple Aptitude Batteries Test, yaitu sebuah tes yang tersusun dari serangkaian subtes, dimana masing-masing subtes mengukur suatu kemampuan individu (Anastasi & Urbina, 1997).
IST terdiri dari 9 subtes yang dapat berdiri sendiri karena
mengukur aspek-aspek intelektual yang berbeda-beda Diktat kuliah IST Universitas Padjajaran, (2008). Kesembilan aspek intelektual tersebut adalah sebagai berikut: 1. SE (Satzergazjung) : Mengukur kemampuan common sense, kemandirian berpikir, fokus pada konkrit praktis dan sense of reality. 2. WA (Wortauswahl) : Mengungkap kemampuan menangkap inti makna yang disampaikan dalam bentuk bahasa, berpikir induktif, kemampuan menyelami perasaan, empati dan kemampuan reseptif.
Universitas Sumatera Utara
3. AN (Analogien) : Mengukur kemampuan menghubungkan atau menyusun kombinasi, fleksibilitas berpikir, logika berpikir, dan kemampuan untuk berpikir eksploratif. 4. GE (Gemeinsamkeiten) : Mengukur kemampuan membentuk pemahaman, abstraksi bahasa, dan berpikir logis dengan bahasa. 5. RA (Rechen Aufgaben) : Kemampuan berpikir matematis, bernalar dan dan berpikir praktis dengan angka serta berpikir runut dengan dalam membuat kesimpulan. 6. ZR (Zahlen Reihen) : Mengukur kemampuan berpikir teoritis dan berpikir induktif dengan angka, fleksibilitas berpikir dalam melakukan pemecahan masalah dan aspek ritmis atau berirama. 7. FA (Form Auswahl) : Mengukur kemampuan membayanngkan, berpikir visual dan berpikir konstruktif. 8. WU (Wurfel Aufgaben) : Mengukur kemampuan membayangkan ruang, aspek teknis konstruktif serta kemampuan analitis. 9. ME (Merk Aufgaben) : Mengukur kemampuan mengingat, atensi dan
kedalaman ingatan. Pada tahun 1970, alat tes ini direvisi untuk pertamakalinya dan menjadi tes yang populer di Jerman. IST revisi pertama disebut sebagai IST 70. Pada tahun 1999, IST direvisi kembali menjadi IST 2000, dan pada tahun 2007 direvisi lagi menjadi IST 2000R. Tes IST ini secara terus menerus dikembangkan oleh Amthauer dengan bantuan dari para koleganya, berikut adalah perkembangan tes IST dari tahun 1953 hingga tahun 2000-an:
Universitas Sumatera Utara
a. IST 1953 IST yang pertama ini pada awalnya hanya diperuntukan untuk usia 14 sampai dengan 60 tahun. Proses penyusunan norma diambil dari 4000 subjek pada tahun 1953. b. IST 1955 IST merupakan pengembangan dari IST 1953, pada IST 1955 range untuk subjek diperluas menjadi berawal dari umur 13 tahun. Subjek dalam penyusunan norma bertambah menjadi 8642 orang. Pada tes ini sudah ada pengelompokan jenis kelamin dan kelompok usia c. IST 70 Berdasarkan permintan dan tuntutan pengguna yang menyarankan pengkoreksian dengan mesin juga pengembangan tes setelah penggunaan lebih dari 10 tahun, maka disusunlah IST 70. Dalam IST 70 ini tidak terlalu banyak perubahan, tes ini memiliki 6 bentuk, setiap pemeriksaan dilakukan 2 tes sebagai bentuk parallel; yaitu A1 dan B2, atau C3 dan D4. Dua bentuk lainnya untuk pemerintah dan hanya bagi penggunaan khusus. Pada IST 70,range kelompok usia diperluas menjadi berawal dari 12 tahun. Disamping itu telah ditambah table kelompok dan pekerjaan. Namun demikian, pada IST 70 terdapat kekurangan yaitu penyebaran bidang yang tidak merata dan menggunkan kalimat dalam subtes RA sehingga jika subjek gagal dalam subtes ini dapat dimungkinkan karena tidak mampu mengerjakan soal hitungannya atau tidak mengerti kalimatnya (Diktat kuliah IST Universitas Padjajaran, (2008)).
Universitas Sumatera Utara
d. IST 2000 Sebagai koreksi dari IST 70, pada IST 2000 tidak terdapat soal kalimat pada soal hitungan. e. IST 2000-Revised Pada IST 2000-R ini terdapat beberapa perkembangan subtes juga penambahan subtes. IST ini terdiri dari 3 modul, yaitu sebagai berikut : 1. Grundmodul-Kurzform (Modul Dasar-Singkatan); terdiri dari subtes : SE, AN, GE, RE, ZR, RZ, FA, WU, dan MA. 2. Modul ME; terdiri dari subtes ME Verbal dan ME Figural 3. Erweiterungmodul (Modul "menguji pengetahuan"); terdiri dari subtes Wissentest (tes pengetahuan) IST adalah tes intelegensi yang dikembangkan oleh Rudolf Amthauer di Frankfurt, Jerman pada tahun 1953. Tes ini dipandang sebagai gestalt (menyeluruh), yang terdiri dari bagian-bagian yang saling berhubungan secara makna (struktur). Dimana struktur intelegensi tertentu meggambarkan pola kerja tertentu, sehingga akan cocok untuk profesi atau pekerjaan tertentu. Tes ini dikonstruksikan untuk subjek usia 14-60 tahun setelah melalui uji coba kurang lebih pada 4000 orang. IST yang kini digunakan di Indonesia merupakan hasil adaptasi yang telah dilakukan oleh Fakultas Psikologi Universitas Padjajaran Bandung (UNPAD) terhadap IST-70.
Universitas Sumatera Utara
D. Subtes Wortauswahl (WA) Wortauswahl (WA) bertujuan untuk mengukur kemampuan menangkap inti makna yang disampaikan dalam bentuk bahasa (verbal), berpikir induktif, kemampuan menyelami perasaan, empati dan kemampuan reseptif. Faktor inteligensi yang diukur dalam subtes Wortauswahl (WA) merupakan salah satu factor yang terdapat dalam teori Thurstone, yaitu inductive reasoning atau kemampuan penalaran induktif, khususnya mengukur kemampuan categorization. Inductive reasoning muncul ketika seseorang mengemukakan sebuah aturan umum/hipotesis/pola dari serangkaian contoh dan mengaplikasikan induksi untuk memprediksi sebuah kasus baru (Stenberg, 1994). Categorization dan inductive reasoning berjalan berdampingan. Menurut Anderson (dalam Heit, 2007), fungsi utama dari categorization bukan supaya kita dapat mengkategorikan sesuatu hal, tetapi lebih kepada mengijinkan kita untuk membuat suatu kesimpulan.
Categorization terdiri dari objek-objek atau
kejadian-kejadian yang harus kita kelompokkan bersama karena kita merasa mereka berhubungan. Kemampuan categorization memungkinkan kita untuk berinteraksi dengan lingkungan tanpa diliputi oleh kerumitannya. Sub tes WA ini terdiri dari 20 soal, dan masing-masing soal terdiri dari lima pilihan jawaban. Skoring pada subtes ini merupakan sistem dikotomi, dimana jawaban yang salah diberi skor nol (0) dan jawaban yang benar diberi skor satu (1). Dalam prosedurnya, subjek dihadapkan pada selembar kertas berisi 20 soal dengan masing-masing soal terdiri dari lima pilihan jawaban berupa kata. Subjek diminta untuk memilih satu kata yang berbeda dari empat kata lainnya. Proses
Universitas Sumatera Utara
pengkategorian yang terjadi dalam proses ini adalah proses categorization, sedangkan proses penalaran induktif terjadi ketika subjek mengambil keputusan mengenai persamaan di antara empat kata tersebut. Proses categorization maupun inductive reasoning, dua-duanya merupakan proses yang memungkinkan subjek pada akhirnya bisa memberikan jawaban sesuai dengan yang diminta pada subtes ini (diktat kuliah IST Universitas Padjadjaran, 2008) Secara rinci, aspek- aspek dari subtest WA yang pada intinya mengukur kemampuan verbal seseorang adalah sebagai berikut: 1) Daya simpan isi pengertian bahasa. 2) Rasa bahasa. 3) Berpikir induktif secara verbal 4) Kemampuan berempati atau menghayati. 5) Komponen- komponen reseptif atau menerima.
a) Inductive Reasoning Inductive Reasoning adalah proses berpikir dimana terjadi penyimpulan dari prinsip khusus ke prinsip umum (Reber, dalam Stenberg 1994). Inductive Reasoning juga diartikan oleh Ekstrom, French dan Harman
dalam (Stenberg,
1994) sebagai: “forming and trying out a hyPotesisthat will fit a set of data”
Stenberg (1994) merumuskan Inductive Reasoning sebagai:
Universitas Sumatera Utara
―occurs a Person induces a general rule, hyPothesis or Pattern from a series of instances, examPles or events and aPPlies the induction to Predict a new case”
Secara ringkas, Inductive Reasoning dapat didefinisikan sebagai suatu proses logis, dimana terjadi penyimpulan prinsip-prinsip umum dari hal-hal yang khusus kemudian menemukan sebuah pola untuk dapat menerapkan pola tersebut pada persoalan baru. Lebih umum, induksi tercakup dalam suatu ranges aktivitasaktivitas kognitif seperti categorization, Probability judgment, analogical reasoning, scientific inference, and decision making. (Brett K. Hayet; Evan Heit; and Haruka Swendsen, 2010). Untuk dapat menyelesaikan soal-soal pada subtes WA, subjek perlu mengetahui soal yang ada, mencari tahu apa yang ingin dijawab dalam soal tersebut, memutuskan langkah apa yang akan dilakukan dalam menyelesaikan soal tersebut, dll (Stenberg. 1994)
b) Categorization Categorization merupakan salah satu aktivitas kognitif yang tergolong pada penalaran induktif (Inductive Reasoning). Categorization merupakan suatu cara mengorganisasikan pengetahuan dengan cara
membnetuk kategori-kategori.
Kategori-kategori tersebut terdiri dari objek atau kejadian-kejadian yang harus kita kelompokkan bersama karena kita kita merasa mereka berkaitan dan memiliki persamaan (Reed, 2004)
Universitas Sumatera Utara
Categorization merupakan proses dimana individu mengkategorikan berbagai hal (objek, angka, kejadian, orang atau tempat) ke dalam suatu kelas yang lebih tinggi. Dengan kata lain,, proses kategorisasi bisa dikatakan sebagai suatu syarat untuk dapat melihat hubungan diantara objek-objek yang berbeda (Stenberg, 1994)
c) Skoring dan Interpretasi WA Tahap skoring yang digunakan adalah dengan memeriksa setiap jawaban dengan menggunakan kunci jawaban yang telah disediakan. Setiap jawaban benar diberi nilai 1 dan untuk jawaban salah atau kosong diberi nilai 0. Total nilai benar yang sesuai dengan kunci jawaban merupakan Raw Score (RW); nilai ini belum dapat diinterpretasi sesuai dengan norma yang digunakan. Nilai RW yang sudah dibandingkan dengan norma disebut dengan Standardized Score (SW). Nilai SW inilah yang dapat menjadi materi untuk tahap selanjutnya—yaitu interpretasi. Adapun norma yang digunakan adalah sesuai dengan kelompok umur subjek (Diktat kuliah IST Universitas Padjajaran, 2008)
Universitas Sumatera Utara