BAB II TINJAUAN PUSTAKA
Ada dua macam teori dalam ilmu pengukuran, yakni Teori Tes Modern, yang lebih dikenal dengan item response theory (IRT), dan Teori Tes Klasik. IRT dapat memberikan informasi yang lebih mendetil dan lebih fleksibel daripada teori tes klasik. Akan tetapi, perhitungan dalam teori tes klasik lebih mudah untuk dilakukan, sehingga penelitian ini akan menggunakan pendekatan Teori Tes Klasik dalam proses analisis yang dilakukan.
A. Teori Tes Klasik 1. Pengertian Teori Tes Klasik Pendekatan teori tes klasik ini sering disebut model skor murni (true score model). Pendekatan inilah yang telah berhasil meletakkan dasar – dasar konsepsi dalam analisis karakteristik psikometri perangkat ukur psikologis (Crocker & Algina, 2005). Inti Teori Tes Klasik adalah asumsi-asumsi yang dirumuskan secara matematis. Asumsi – asumsi tersebut pada prinsipnya merupakan hubungan matematis dari skor tampak, skor murni, dan eror pengukuran. 2. Asumsi-Asumsi dalam Teori Tes Klasik Allen & Yen (dalam Azwar, 2009) menguraikan asumsi-asumsi teori klasik sebagai berikut:
Universitas Sumatera Utara
a. Asumsi 1 X=T+E Asumsi ini menjelaskan bahwa sifat aditif berlaku pada hubungan antara skor tampak, skor muni, dan eror. Skor tampak (X) merupakan jumlah skor murni (T) dan eror (E), jadi besar skor tampak akan tergantung oleh besarnya eror pengukuran, sedangkan besarnya skor murni individu pada setiap pengukuran yang sama diasumsikan selalu tetap. b. Asumsi 2: ε(X) = T Asumsi ini menyatakan bahwa skor murni merupakan nilai harapan dari skor tampaknya. Jadi, T merupakan harga rata-rata distribusi teoretik skor tampak apabila orang yang sama dikenai tes yang sama berulang kali dengan asumsi pengulangan tes itu dilakukan tidak terbatas banyaknya dan setiap pengulangan tes adalah tidak bergantung satu sama lain. c. Asumsi 3: =0 Asumsi ini menyatakan bahwa bagi populasi subjek yang dikenai tes, distribusi eror pengukuran dan distribusi skor murni tidak berkorelasi. Implikasinya, skor murni yang tinggi tidak selalu berarti mengandung eror yang selalu positif ataupun selalu negatif.
Universitas Sumatera Utara
d. Asumsi 4: =0 Bila E1 melambangkan eror pada pengukuran atau tes pertama dan E2 melambangkan eror pada tes yang kedua maka asumsi ini menyatakan bahwa eror pengukuran pada dua tes yang berbeda, yaitu E1 dan E2 tidak berkorelasi satu sama lain. e. Asumsi 5 = 0 ρ e1t 2
=0
Asumsi ini menyatakan bahwa eror pada suatu tes (e1) tidak berkorelasi dengan skor murni pada tes lain (T2). Asumsi ini tidak dapat bertahan apabila tes yang kedua mengukur aspek yang mempengaruhi eror pada pengukuran yang pertama. Selain dua asumsi yang telah disebutkan, Suryabrata (2005) menuliskan lagi dua asumsi sebagai berikut: f. Asumsi 6 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T = T’ serta varians eror kedua tes tersebut sama, kedua tes tersebut disebut sebagai tes yang paralel. g. Asumsi 7 Jika ada dua tes yang dimaksudkan untuk mengukur atribut yang sama mempunyai skor tampak X dan X’ yang memenuhi asumsi 1 sampai 5, dan jika untuk setiap populasi subjek T1 = T2 + C. Dengan C sebagai suatu bilangan
Universitas Sumatera Utara
konstan, maka kedua tes tersebut dapat disebut sebagai tes yang setara (equivalent test). Dua tes yang setara dapat memiliki varians eror yang berbeda karena keduanya belum tentu merupakan tes yang parallel, namun dua tes yang parallel tentu memenuhi syarat sebagai tes yang setara (Azwar, 2009). Asumsi-asumsi
teori
klasik
sebagaimana
disebutkan
di
atas
memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Indeks diskriminasi, indeks kesukaran, efektivitas distraktor, reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik.
B. Analisis Karakteristik Psikometri Alat tes yang baik memiliki aitem yang baik (Kaplan & Saccuzzo, 2005). Aitem yang baik dapat dilihat melalui analisis terhadap beberapa parameter diantaranya adalah, taraf kesukaran aitem dan daya diskriminasi aitem. Murphy & Davidshofer (2003) menambahkan analisis terhadap efektivitas distraktor untuk melihat kualitas aitem.
1. Indeks Kesukaran Aitem a. Pengertian Indeks Kesukaran Aitem Indeks kesukaran aitem atau taraf kesukaran aitem, yang biasa disimbolkan dengan p, merupakan rasio antara penjawab aitem dengan benar dan banyaknya penjawab aitem tersebut.
Universitas Sumatera Utara
p = ni / N
(1)
Keterangan : p = Indeks kesukaran aitem ni = banyaknya individu yang menjawab aitem dengan benar N = banyaknya individu yang menjawab aitem Selain dinyatakan dalam bentuk proporsi p, indeks kesukaran aitem dapat dinyatakan dalam bentuk persentase dengan cara mengalikan p dengan 100%. Aitem yang mempunyai p = 0,75 adalah sama pengertiannya dengan mempunyai indeks kesukaran 0,75 x 100% = 75%. Menurut Bradfield dan Moredock (dalam Kumar, 2009) indeks kesukaran aitem dapat diperoleh dari indeks diskriminasi. Sebuah aitem yang dapat dijawab oleh 90 persen subjek akan dianggap aitem yang mudah. Namun penentuan indeks kesukaran aitem tidak penting untuk indeks diskriminasi dari tes. Indeks kesukaran aitem perlu ditentukan ketika akan membagi tes menjadi dua bentuk yang paralel. Indeks kesukaran optimum dari aitem berkisar antara 0.625 (Kaplan & Saccuzzo, 2005). Akan tetapi, dalam tes haruslah terdapat aitem – aitem dengan indeks kesukaran yang berbeda – beda. b. Analisis Indeks Kesukaran Aitem Tes disusun bertujuan untuk melihat perbedaan individu sehingga jika tidak ada seorang pun yang menjawab pertanyanan dengan benar, dalam artian soal sangat susah (p = 0) bahkan sebaliknya jika soal sangat gampang sehingga
Universitas Sumatera Utara
semua dapat menjawab pertanyaan dengan benar (p = 1) tentu tujuan alat tes tidak dapat dipenuhi (Murphy & Davidshofer, 2003). Tabel 1 Kategorisasi Batasan Nilai p P p < 0,3 0,3 < p < 0,7 p > 0,7
Kategori Sulit Sedang Mudah
Tingkat kesukaran aitem tergantung bentuk dari tes (Kumar, 2009). Dalam tes kecepatan, semua aitem memiliki tingkat kesukaran yang sama, sedangkan dalam tes kekuatan, tingkat kesukarannya semakin bertambah sesuai urutan. Akan tetapi, untuk hasil tes IST yang digunakan untuk mengukur inteligensi sebaiknya memiliki rentang nilai p yang bervariasi, dari mudah hingga sulit.
2. Indeks Diskriminasi Aitem a. Pengertian Indeks Diskriminasi Aitem Tujuan dari banyak tes adalah untuk memberikan informasi tentang perbedaan individu baik dalam konstruk yang diukur maupun dalam kriteria eksternal yang seharusnya diprediksi skor tes. (Crocker & Algina, 1987). Aitem yang memiliki indeks diskriminasi yang baik adalah aitem dapat dijawab benar oleh sebagian besar kelompok subjek kemampuan tinggi, dan dijawab salah oleh sebagian besar kelompok subjek kemampuan rendah. Atau dengan kata lain, apakah aitem tersebut mampu membedakan apakah subjek memiliki atribut yang diukur atau tidak.
Universitas Sumatera Utara
Murphy dan Davidshofer (2003) mengatakan bahwa aitem yang baik seharusnya mampu membedakan kelompok individu yang mampu mengerjakan suatu tes dengan baik dan yang tidak mampu mengerjakan dengan baik, atau dengan kata lain antara kelompok yang memiliki kemampuan tinggi dengan kelompok yang memiliki kemampuan rendah. Indeks diskriminasi aitem disimbolkan dengan d. d=
U L − nu nl
(2)
Keterangan: U = Upper group = Jumlah peserta dari kelompok tinggi yang menjawab aitem dengan benar nu = Jumlah peserta dari kelompok tinggi L = Lower group = Jumlah peserta dari kelompok rendah yang menjawab aitem dengan benar ni = Jumlah peserta dari kelompok rendah Menurut Murphy dan Davidshofer (2003) ada tiga cara statistik yang dapat digunakan untuk mengestimasi daya beda aitem, yaitu: 1) Metode kelompok ekstrem Jika tes diberikan pada sekelompok orang yang cukup banyak, daya diskriminasi sebuah aitem dapat diestimasi dengan membandingkan kelompok orang dengan hasil skor yang tinggi (misalnya 25 % orang dengan nilai tertinggi) dengan orang dengan skor yang rendah (misalnya 25 % orang dengan nilai terendah). Jika aitem tersebut memiliki daya diskriminasi yang baik maka lebih banyak orang dalam kelompok nilai tertinggi akan menjawab dengan benar.
Universitas Sumatera Utara
2) Korelasi aitem – total Statistik ini merepresentasikan korelasi sederhana antara skor pada sebuah aitem dengan skor secara keseluruhan. Korelasi ini biasanya disebut korelasi point-biserial. Korelasi aitem-total yang positif menunjukkan bahwa aitem tersebut dapat mendiskriminasi antara yang mampu mengerjakan tes dengan yang tidak. Selain itu, korelasi yang positif juga menunjukkan bahwa aitem mengukur hal yang sama dengan tes. 3) Korelasi inter – aitem Kegunaan korelasi inter - aitem adalah untuk mengerti pengukuran diskriminasi aitem. Pengukuran korelasi inter – aitem dapat membantu kita untuk mengerti mengapa beberapa aitem gagal untuk mendiskriminasikan orang yang mampu mengerjakan tes dengan baik dan orang yang tidak mampu mengerjakan tes. b. Analisis Indeks Diskriminasi Aitem Aitem yang memiliki indeks diskriminasi mendekati 1 memiliki daya diskriminasi yang baik. Aitem yang mudah, yaitu aitem yang dapat dijawab oleh 90% orang, tidak baik dalam indeks diskriminasi. Jika 90% orang menjawab dengan benar, maka hanya ada sedikit variasi dalam performansi untuk memiliki korelasi yang substansial dengan skor tes total. Sama halnya jika aitem terlalu sulit maka hanya ada sedikit ruang untuk memperlihatkan korelasi antara aitem dengan skor tes total.
Universitas Sumatera Utara
Ebel (dalam dalam Azwar, 2010) menyarankan kriteria evaluasi indeks diskriminasi dalam empat kategori yaitu: Tabel 2 Evaluasi Indeks Daya Beda Aitem Indeks Daya Beda 0,4 atau lebih 0,3 – 0,39 0,2 – 0,29 Kurang dari 0,20
Evaluasi Bagus sekali Lumayan bagus, tidak membutuhkan revisi Belum memuaskan, perlu revisi Jelek dan harus dibuang
3. Efektivitas Distraktor a. Pengertian Efektivitas Distraktor Aitem tes yang sempurna akan memiliki dua karakteristik. Pertama, orang yang mengetahui jawaban terhadap suatu pertanyaan akan selalu memilih jawaban yang benar. Kedua, orang yang tidak mengetahui jawabannya akan memilih jawaban secara acak dari jawaban yang ada (Murphy & Davidshofer, 2003). Ini artinya beberapa orang akan dapat menebak dengan benar. Selain itu, dapat juga berarti setiap jawaban yang salah akan sering dipilih juga. b. Analisis Efektivitas Distraktor Efektivitas distraktor dapat dianalisa dengan melihat jumlah orang menjawab salah dan jumlah distraktor yang ada. Distraktor berfungsi dengan baik jika pilihan orang yang salah menjawab akan tersebara pada distraktor yang ada secara merata. Jika ada distraktor yang tidak berfungsi, yaitu distraktor yang tidak dipilih oleh subjek, maka indeks kesukaran aitem tersebut akan berkurang.
Universitas Sumatera Utara
4. Reliabilitas Alat Ukur a. Pengertian Reliabilitas Reliabilitas sebuah tes adalah stabilitas dari hasil tes ketika diberikan lagi, yaitu, jika seorang individual diberikan tes dengan cara yang sama maka akan menghasilkan hasil yang konsisten jika atribut yang diukur itu tidak berubah (Kumar, 2009). Selain itu, jika sebuah tes memiliki reliabilitas yang tinggi, maka secara relatif eror pengukurannya akan semakin berkurang sehingga alat tes tersebut dapat dipercaya. Reliabilitas alat ukur juga menunjukkan sejauh mana perbedaan – perbedaan skor tampak mencerminkan perbedaan atribut yang sebenarnya. Karena konsepsi mengenai reliabilitas berkaitan dengan derajat konsistensi antara dua perangkat skor tes, maka formula reliabilitas selalu dinyatakan dalam bentuk koefisien korelasi (Azwar, 2009). Secara praktis, Kumar (2009) menyebutkan dua pengertian reliabilitas: 1) Reliabilitas adalah proporsi dari varians skor dengan varians skor tampak 2) Reliabilitas adalah proporsi dari varians eror terhadap varians total
b. Bentuk Estimasi Reliabilitas Koefisien reliabilitas dalam Classical Tes Theory diperoleh dari korelasi antara tes yang paralel. Akan tetapi, dalam prakteknya, tidak ada pengembang tes yang dapat membuat pengukuran – pengukuran yang paralel secara sempurna. Skor murni dari subjek juga tidak dapat diperoleh. Oleh karena itu, koefisien reliabilitas tidak dapat ditentukan dengan pasti; akan tetapi, dapat diestimasi dari
Universitas Sumatera Utara
beberapa sampel individu yang merespon beberapa aitem. Beberapa prosedur yang disebutkan oleh Crocker dan Algina (1986) untuk mengestimasi reliabilitas adalah sebagai berikut 1) Prosedur yang memerlukan dua kali administrasi tes a) Metode tes paralel Metode ini menggunakan dua bentuk dari tes yang paralel yang diberikan pada subjek yang sama. Kedua bentuk tes tersebut harus diberikan dalam waktu yang dekat untuk menghindari kelelahan. Koefisien korelasi kedua bentuk tes tersebut kemudian dihitung. b) Metode tes ulang Metode ini menyajikan tes dua kali pada kelompok yang sama dan kemudian mengkomputasikan koefisien korelasi antara kedua penyajian tes. Kelemahan dalam pendekatan ini adalah kondisi subjek pada penyajian tes yang kedua belum tentu sama dengan kondisinya pada saat penyajian tes yang pertama. c) Metode tes ulang dengan tes paralel Koefisien reliabilitas juga dapat diestimasi dengan menggunakan kombinasi dari tes ulang dan tes paralel. Dalam kasus ini, prosedurnya adalah mengadministrasi
bentuk
pertama
dari
tes,
menunggu,
kemudian
mengadministrasi bentuk kedua. Jika memungkinkan, urutan adminitrasi dibedakan untuk setengah kelompok. Koefiesien reliabilitas yang didapat dipengaruhi oleh eror pengukuran karena bentuk tes dan juga karena perubahan performansi individu seiring berjalannya waktu.
Universitas Sumatera Utara
2) Metode yang memerlukan administrasi tes hanya sekali Jika tes hanya dapat diadministrasi sekali saja, koefisien reliabilitas dapat diestimasi dengan melihat seberapa konsisten performa subjek diseluruh aitem. Prosedur ini disebut metode konsistensi internal. Berikut dua metode digunakan untuk mengestimasi konsistensi internal. a) Pembelahan Menggunakan metode pembelahan, penguji mengadministrasi satu bentuk dari tes kepada sekelompok subjek. Sebelum menskor tes, penguji membagi aitem tersebut menjadi dua subtes, dengan tiap – tiap bagian merupakan setengah dari tes aslinya. Jadi, jika tes yang diberikan berisi 20 aitem, maka akan dibagi menjadi dua subtes dengan 10 aitem tiap subtes. Tujuannya adalah untuk membuat dua tes yang mendekati paralel sebisa mungkin. Empat metode yang populer untuk membagi tes adalah: i) Membagi berdasarkan aitem dengan nomor ganjil dan aitem dengan nomor genap. ii) Mengurutkan berdasarkan tingkat kesukaran yang dilihat dari respon subjek; kemudian membagi dalam peringkat dengan nomor ganjil dan genap. iii) Membagi secara acak. iv) Membagi aitem sehingga keduanya ”sesuai” dalam isinya. Kedua tes yang telah dibagi kemudian diskor terpisah untuk setiap subjek, dan koefisien korelasi dihitung antara kedua tes tersebut.
Universitas Sumatera Utara
b) Metode berdasarkan kovarians aitem Metode ini menggunakan beberapa cara dalam menentukan reliabilitas, yaitu Kuder Richardson 20, alpha Cronbach, dan analisis varians Hoyt.
c. Formula Estimasi Reliabilitas Berikut beberapa formula estimasi yang dapat digunakan untuk menghitung koefisien reliabilitas: 1) Formula Spearman Brown Koefisien korelasi yang didapat dari pembelahan tes umumnya akan lebih rendah dari koefisien reliabilitas untuk tes dengan panjang yang sebenarnya. Untuk mengatasi ini dapat digunakan formula Spearman Brown.
ρxx' =
2 ρ AB 1 + ρ AB
Keterangan:
(3)
ρxx' = koefisien reliabilitas
ρ AB = korelasi antara kedua belahan tes
2) Rulon Alternatif lain untuk mengestimasi koefisien reliabilitas dari tes yang dibelah dua adalah metode yang diajukan oleh Rulon pada tahun 1939 :
σ D2 ρxx' = 1 − 2 σx Keterangan:
(4)
σ D2 = Varians perbedaan skor kedua belahan σ x2 = Varians skor tes D
= Perbedaan skor kedua belahan
Universitas Sumatera Utara
3) Koefisien Alpha Cronbach, pada tahun 1951, menyajikan metode untuk mengestimasi konsistensi internal dan membuat sebuah formula umum yang dikenal dengan koefisien alpha Cronbach.
α=
2 k ∑ σ i 1− k − 1 σ x2
Keterangan:
k
(5)
= jumlah aitem
σ i2 = varians dari aitem i σ x2 = varians total tes Alpha dapat digunakan untuk mengestimasi konsistensi internal dari aitem yang dikotomi.
4) Formula Kuder Richardson Salah satu metode yang cukup dikenal selain koefisien alpha adalah Kuder Richardson 20. KR 20 hanya dapat digunakan untuk aitem dikotomi. Formula ini berasal dari usaha Kuder dan Richardson ketika mencari solusi terhadap metode pembelahan tes yang gagal untuk memberi hasil yang unik untuk sebuah tes. Dalam tulisan mereka terdapat dua formula untuk mengestimasi, yaitu KR 20 dan KR 21. Formula untuk KR 20 adalah
KR20 =
k ∑ pq 1− k − 1 σ x2
(6)
Keterangan : k = banyaknya aitem dalam tes pq = varians dari aitem i
σ x2 = varians total tes
Universitas Sumatera Utara
Jika asumsinya semua aitem memiliki kesukaran yang sama, Kuder dan Richardson merumuskan formula yang lebih sederhana, yang tidak memerlukan penghitungan varians tiap aitem. Formula KR 21 adalah sebagai berikut: KR21 =
k µ (k − µ ) 1 − k −1 kσ x2
Keterangan :
(7)
k = banyaknya aitem dalam tes
µ = mean skor total
σ x2 = varians total tes Jika semua aitem memiliki tingkat kesukaran yang sama, formula KR 20 dan KR 21 akan menghasilkan estimasi reliabilitas yang setara; akan tetapi, jika tingkat kesukaran tiap aitem berbeda, estimasi reliabilitas dari KR 21 akan lebih rendah dari KR 20. 5) Metode Hoyt Hoyt pada tahun 1941 mengembangkan suatu pendekatan untuk mengestimasi reliabilitas yang juga menghasilkan hasil yang identik dengan hasil yang diperoleh dari koefisien alpha. Metode Hoyt didasarkan atas analisis varians. Menggunakan analisis varians standar, dia mendefinisikan estimasi reliabilitasa sebagai beriku:
ρxx' =
MS persons − MS residual
Keterangan:
MS persons MSpersons = mean square term for persons (kuadrat rata – rata untuk orang dari analisis varians) MSresidual = mean square term for the residual variance (kuadrat rata – rata untuk varians residual)
Universitas Sumatera Utara
Hoyt menghubungkan formulanya dengan definisi teoritis dari koefisien reliabilitas dengan menyatakan bahwa MSpersons merepresentasikan varians skor tampak dan MSresidual merepresentasikan varians eror dalam ekspresi reliabilitas teoritis
σ X2 − σ E2 ρxx' = σ X2 Keterangan:
(8)
σ X2 = varians skor tampak σ E2 = varians eror
d. Faktor-faktor yang Mempengaruhi Koefisien Reliabilitas Crocker & Algina (1987) menjelaskan bahwa ada 3 hal utama yang secara tidak langsung mempengaruhi tinggi rendahnya koefisien reliabilitas suatu instrumen, yaitu: 1) Homogenitas Kelompok Homogenitas kelompok perlu diperhatikan ketika menyusun alat tes karena dalam suatu kondisi tes, semakin besar homogenitas kelompok maka akan berkaitan dengan trait-trait tertentu yang diukur dan berdampak pada indeks reliabilitas yang akan semakin rendah bila dibandingkan dengan kondisi ketika kelompok sampel lebih heterogen. 2) Batasan Waktu dalam Tes Tes yang memiliki waktu yang lebih panjang cenderung akan memiliki indeks reliabilitas yang lebih tinggi dibandingkan tes yang memiliki waktu yang lebih pendek.
Universitas Sumatera Utara
3) Panjang Tes Panjang dari suatu tes sangat bergantung pada banyaknya aitem-aitem yang menyusun tes tersebut. Semakin banyak aitem yang memiliki kualitas baik dalam suatu tes, maka semakin tinggi pula indeks reliabilitas instrumen tersebut.
e. Analisis Reliabiliatas Sebuah alat tes yang sangat reliabel tentu akan lebih dipilih dibandingkan alat tes yang kurang reliabel. Reliabilitas yang tinggi diperlukan ketika tes tersebut digunakan untuk menjatuhkan keputusan tentang orang dan ketika menyeleksi individu dalam kategori – kategori tertentu yang didasarkan pada perbedaan individu yang relatif kecil. Alat tes dengan reliabilitas yang rendah dapat diterima ketika tes tersebut digunakan untuk seleksi awal, bukan ketika akan menjatuhkan keputusan akhir dan ketika membagi individu berdasarkan perbedaan individu yang jelas besar. Tes – tes inteligensi yang terstandarisasi kebanyakan melaporkan estimasi reliabilitas sebesar 0,90. Kisaran sebesar ini dianggap sebagai reliabilitas yang tinggi. Estimasi reliabilitas sebesar 0,70 dianggap sudah rendah untuk alat tes inteligensi.
5. Validitas a. Pengertian Validitas Sebuah alat pengukuran dikatakan valid jika alat tersebut mengukur apa yang seharusnya diukur. Validitas biasanya merupakan masalah tingkat daripada
Universitas Sumatera Utara
masalah ada atau tidak. Validasi juga merupakan proses yang tidak ada henti – hentinya. Sesungguhnya, validasi bukan pada intrumen pengukuran akan tetapi melihat bagaimana instrumen tersebut dipakai. Tes yang digunakan untuk menyeleksi mahasiswa perguruan tinggi harus valid untuk tujuan tersebut, tapi tidak perlu valid untuk tujuan lain, seperti tingkat pemahaman pelajaran di sekolah. Validitas berarti sejauh mana ketepatan dan kecermatan suatu alat ukur dalam melakukan fungsi ukurnya (Azwar, 2009). Artinya adalah bahwa valid tidaknya suatu alat ukur tergantung pada mampu tidaknya alat ukur tersebut mencapai tujuan pengukuran yang dikehendaki dengan tepat. Sisi lain dari pengertian validitas adalah aspek kecermatan pengukuran. Suatu alat ukur yang valid, tidak sekedar mampu mengungkapkan data dengan tepat akan tetapi juga harus memberikan gambaran yang cermat mengenai data tersebut. Cermat berarti bahwa pengukuran itu mampu memberikan gambaran mengenai perbedaan yang sekecil – kecilnya di antara subjek yang satu dengan yang lain. b. Jenis-Jenis Validitas Jenis validitas secara umum ada tiga tipe yaitu predictive validity (validitas prediktif), content validity (validitas isi), dan construct validity (validitas konstruk). a) Validitas prediktif Validitas prediktif menjadi masalah ketika tujuan dari instrumen adalah untuk mengestimasi beberapa bentuk perilaku yang penting yang berada di luar
Universitas Sumatera Utara
instrumen itu sendiri, yang disebut kriteria. Validitas prediktif diindikasikan dari korelasi antara hasil pengukuran dan kriterianya. Kata prediksi akan digunakan dengan mengartikannya sebagai hubungan fungsional antara sebuah instrumen dan kejadian yang terjadi sebelum, selama, dan sesudah instrumen digunakan. Beberapa ahli menyatakan prediksi ini dalam tiga poin waktu, secara berurutan, sebagai postdiction, concurrent validity, dan prediction. Walaupun istilahnya berbeda, akan tetapi ketiganya adalah sama. Dalam setiap prosedur itu, sebuah prediktor dihubungakan dengan kriteria. Beberapa orang menyebut validitas prediktif sebagai validitas kriteria. Validitas kriteria menunjukkan pada kita sejauh mana sebuah tes sesuai dengan kriteria tertentu (Kaplan & Saccuzzo, 2004). Sebuah kriteria adalah standar atau patokan yang dibandingkan dengan tes. b) Validitas isi Validitas ini bergantung pada apakah suah memenuhi kawasan ukur tertentu. Validitas isi ini biasanya diestimasi lewat pengujian terhadap isi tes dengan analisis rasional atau lewat professional judgement. Professional judgement artinya tes tersebut dinilai oleh orang yang berkompeten dalam bidang yang sesuai dengan isi tes tersebut. Walaupun validitas isi bisa didapatkan dengan mengkorelasikan skor pada tes yang berbeda tetapi mengukur hal yang sama. Akan tetapi, hal ini belum tentu merupakan validitas isinya.
Universitas Sumatera Utara
c) Construct related (validitas berdasarkan estimasi konstrak) Allen & Yen (dalam Azwar, 2009) menjelaskan bahwa validitas konstrak adalah tipe estimasi validitas yang menunjukkan sejauh mana tes mengungkap suatu trait atau konstrak teoritik yang hendak diukurnya. Pengujian validitas konstrak merupakan proses yang terus berlanjut sejalan dengan perkembangan konsep mengenai trait yang diukur. Crocker dan Algina (1987) menyebutkan empat pendekatan yang sering digunakan dalam validitas konstruk. 1) Korelasi antara pengukuran konstruk dan tujuan Contoh klasik untuk pendekatan ini adalah usaha untuk membuat bukti korelasional dari hubungan antara skor pada tes inteligensi dan pengukuran performansi di sekolah atau tempat kerja. Walaupun inteligensi dan pencapaian di sekolah bukan merupakan konstruk yang sama, akan tetapi dapat diperdebatkan bahwa paling tidak ada hubungan antara keduanya. 2) Perbedaan antara kelompok – kelompok Contoh untuk pendekatan ini adalah membedakan skor rata – rata laki – laki dan perempuan pada skala persepsi peran gender untuk melihat apakah terdapat perbedaan. Kegagalan untuk mendapatkan perbedaan akan membuat keraguan terhadap konstruk persepsi peran gender ataupun pada kemampuan alat ukur.
Universitas Sumatera Utara
3) Analisis faktor Pendekatan ini secara umum melibatkan beberapa kumpulan alat pengukuran yang diberikan pada subjek yang sama. Dengan mengkalkulasikan korelasi antara alat pengukuran tersebut kemudian menggunakan teknik analisis faktor untuk mengidentifikasi beberapa variabel yang mendasari ( disebut faktor ) yang menyebabkan variasi pada variabel asli dari alat ukur. 4) Analisis multitrait - multimethod Campbell dan Fiske (dalam Murphy & Davidshofer, 2003), menguraikan pendekatan yang sering digunakan dalam menilai validitas konstruk. Mereka mendapati bahwa jika menggunakan beberapa metode untuk mengukur beberapa konstrak, korelasi antara pengukuran tersebut akan menghasilkan sebuah matriks multitrait – multimethod. Melalui pendekatan multitrait – multimethod ini dapat dilihat dua macam validitas, yaitu validitas konvergen dan validitas diskriminan.
6. Analisis Karakteristik Alat Ukur Analisis karakteristik alat ukur sangatlah penting untuk dilakukan. Alat ukur pasti dikonstruksi untuk tujuan tertentu. Untuk mencapai tujuan itu, tentulah alat ukur tersebut haruslah tepat dalam mengukur (valid) dan dapat dipercaya (reliabel). Sebuah alat ukur dapat dipercaya ketika alat ukur tersebut menghasilkan hasil yang konsisten ketika diadministrasi berulang kali. Akan tetapi, walaupun alat tersebut dapat dipercaya, belum tentu alat tersebut tepat. Mungkin saja alat tersebut tepat dalam mengukur hal yang sama sekali berbeda
Universitas Sumatera Utara
dengan tujuan alat itu dikonstruksi. Oleh karena itu, validitas dan reliabilitas tidaklah dapat dipisah dalam menganalisis alat ukur. Koefisien reliabilitas juga dapat mempengaruhi koefisien validitas. Bila aitem dalam tes bertambah banyak, maka sampai batas tertentu reliabilitasnya juga akan meningkat. Tes yang meningkat reliabilitasnya akan meningkatkan juga validitasnya. Semakin tinggi varians skor tampak yang merupakan varians skor murni (artinya, semakin tinggi reliabilitas) maka semakin besar pula proporsi varians yang sama – sama dimiliki oleh tes dan kriterianya yang artinya, semakin tinggi validitasnya (Azwar, 2009) Analisis terhadap aitem dapat meningkatkan pemahaman kita tentang alat tes. Analisis aitem dapat menunjukkan mengapa sebuah tes itu reliabel (atau tidak reliabel) dan dapat membantu dalam memahami mengapa skor tes dapat digunakan untuk memprediksi beberapa kriteria tertentu dan tidak bisa untuk kriteria yang lain. Melalui analisis aitem juga dapat menemukan cara untuk meningkatkan kualitas hasil pengukuran dari tes tersebut. (Murphy & Davidshofer, 2003) Tes terkadang terbatas dalam reliabilitas ataupun validitas karena dalam tes tersebut mengandung aitem yang kata – katanya tidak dimengerti ataupun aitem yang jelek. Aitem yang jelek maksudnya adalah aitem yang memiliki indeks kesulitan, indeks diskriminasi, ataupun efektivitas distraktor yang buruk. Jika aitem memiliki indeks kesulitan yang terlalu tinggi ataupun terlalu rendah akan berpengaruh pada indeks diskriminasi. Aitem tersebut tidak dapat membedakan subjek yang memiliki atribut yang diukur dengan yang tidak. Mungkin juga aitem
Universitas Sumatera Utara
tersebut memiliki efektivitas yang terlalu efektif. Dapat kita lihat bahwa ketiga hal tersebut saling berkaitan satu sama lain, yang pada akhirnya akahn mempengaruhi reabilitas dan validitas alat ukur.
C. Intelligenz Struktur Test (IST) Amthauer mendefinisikan intelegensi sebagai sebuah bagian khusus dalam keseluruhan struktur kepribadian manusia. Intelegensi tidak hanya identik dengan proses intelektual, melainkan erat kaitannya dengan kehidupan dorongan, kemamuan, dan perasaan. Seperti yang telah disinggung sebelumnya, intelegensi merupakan keseluruhan tertruktur dari kemampuan jiwa-rohani yang akan tampak jelas dalam hasil tes. Intelegensi hanya akan dapat dikenali (dilihat) melalui manifestasinya—misalnya pada hasil atau prestasi suatu tes. Amthauer berasumsi dari dasar pemikiran tersebut, bahwa hasil tes dan kemampuan yang disimpulkan dari hasil tes memiliki kaitan satu sama lain dan membentuk suatu struktur—tidak hanya hasil tes nya, begitu pula dengan pemeriksaannya. Amthauer kemudian menyusun sebuah tes berdasarkan asumsi tersebut. Tes yang disusunnya dinamakan IST dengan hipotesis kerja sebagai berikut : “komponen dalam struktur tersebut tersusun secara hierarkis; maksudnya bidang yang dominan kurang lebih akan berpengaruh pada bidang-bidang yang lain; kemampuan yang dominan dalam struktur intelegensi akan menentukan dan mempengaruhi kemampuan yang lainnya.” Amthauer kemudian melakukan studi, yaitu studi empirik dan studi psikologis. Studi empirik untuk temuan eksak yang seobjektif mungkin (validitas,
Universitas Sumatera Utara
reliabilitas, dan analisis item); sedangkan studi psikologis untuk temuan yang sifatnya intuitif. Tes IST terus dikembangkan oleh Amthauer dengan bantuan dari para koleganya, berikut adalah perkembangan tes IST dari tahun 1953 hingga 2000-an. a. IST 1953 IST yang pertama ini pada awalnya hanya diperuntukan untuk usia 14 sampai dengan 60 tahun. Proses penyusunan norma diambil dari 4000 subjek pada tahun 1953. b. IST 1955 IST merupakan pengembangan dari IST 1953, pada IST 1955 range untuk subjek diperluas menjadi berawal dari umur 13 tahun. Subjek dalam penyusunan norma bertambah menjadi 8642 orang. Pada tes ini sudah ada pengelompokan jenis kelamin dan kelompok usia. c. IST 70 IST 70 disusun berdasarkan permintan dan tuntutan pengguna yang menyarankan pengkoreksian dengan mesin juga pengembangan tes setelah penggunaan lebih dari 10 tahun. Dalam IST 70 ini tidak terlalu banyak perubahan, tes ini memiliki 6 bentuk, setiap pemeriksaan dilakukan 2 tes sebagai bentuk parallel; yaitu A1 dan B2, atau C3 dan D4. Dua bentuk lainnya untuk pemerintah dan hanya bagi penggunaan khusus. Pada IST 70,range kelompok usia diperluas menjadi berawal dari 12 tahun. Disamping itu telah ditambah table kelompok dan pekerjaan. Namun demikian, pada IST 70 terdapat kekurangan yaitu penyebaran bidang yang tidak merata dan menggunkan kalimat dalam subtes RA sehingga
Universitas Sumatera Utara
jika subjek gagal dalam subtes ini dapat dimungkinkan karena tidak mampu mengerjakan soal hitungannya atau tidak mengerti kalimatnya. d. IST 2000 IST 2000 tidak mengandung soal kalimat pada soal hitungan sebagai koreksi dari IST 70. e. IST 2000-Revised IST 2000-R ini terdapat beberapa perkembangan subtes juga penambahan subtes. IST ini terdiri dari 3 modul, yaitu sebagai berikut : 1) Grundmodul-Kurzform (Modul Dasar-Singkatan); terdiri dari subtes : Satzergänzung Rechenaufgaben
(SE), (RE),
Analogien
(AN),
Zahlenreihen
Gemeinsamkeiten
(ZR),
Rechenzeichen
(GE), (RZ),
Figurenauswahl (FA), Würfelaufgaben (WÜ), dan Matrizen (MA) 2) Modul Merkaufgaben; terdiri dari subtes Merkaufgaben Verbal dan Merkaufgaben Figural 3) Erweiterungmodul (Modul "menguji pengetahuan"); terdiri dari subtes Wissentest (tes pengetahuan) Intelligenz Struktur Test (IST) merupakan alat ukur inteligensi terstruktur yang disusun oleh Rudolf Amthauer pada tahun 1953. IST yang kini digunakan di Indonesia merupakan hasil adaptasi yang telah dilakukan oleh Fakultas Psikologi Universitas Padjajaran Bandung (UNPAD). Adaptasi dilakukan kepada IST-70. IST terbagi dalam sembilan subtes dengan total 176 aitem dan waktu penyelesaian 72 menit. Skoring dilakukan menurut kunci jawaban yang tesedia
Universitas Sumatera Utara
untuk tiap subtes. Kecuali subtes GE (Gemeinsamkeiten / Pengelompokan Kata) yang memiliki kata kunci khusus dengan ketentuan penilaian dengan rentang antara 0 sampai 2 tergantung dengan jawaban yang diberikan subjek, sedangkan subtes lain hanya memiliki jawaban benar atau salah. Skor inteligensi diperoleh dengan cara menjumlahkan skor masing – masing subtes dan mengkonversikan skor total keseluruhan yang masih berupa raw score ke dalam nilai atau taraf inteligensi (weighted score) dengan membandingkan dengan norma. Taraf inteligensi ini bila dibandingkan dengan norma umum akan menunjukkan kelompok taraf inteligensi tertentu. Sembilan subtes yang terdapat dalam IST adalah: 1) SE (Satzeranzung) : mengukur sense of reality (rasa realitas / menilai sesuatu mendekati realitas), common sense, berpikir konkrit praktis (yang dialami sehari – hari) 2) WA (Wortauswahl) : mengukur kemampuan menghayati masalah bahasa atau perasaan empati, berpikir induktif dengan menggunakan bahasa 3) AN (Analogien) : mengukur kemampuan menyusun kombinasi, fleksibilitas berpikir, berpikir logis / menggunakan pikiran sebagai dasar berpikir (kedalaman berpikir), dan kemauan untuk berpikir eksploratif. 4) GE (Gemeinsamkeiten) : mengukur kemampuan abstraksi, pembentukan pengertian, kemampuan menyatakan / pengertian dalam bahasa, membentuk pengertian / mencari inti masalah. 5) ME (Merk Aufgaben) : mengukur daya ingatan, kemampuan atensi
Universitas Sumatera Utara
6) RA (rechen Aufgaben) : mengukur kemampuan berpikir matematis, berpikir induktif dan berpikir praktis dengan angka. 7) ZR (Zahlen Reihen) : mengukur kemampuan berpikir induktif dengan angka, fleksibilitas berpikir dalam memecahkan masalah, dan berpikir teoritis dengan disertai momen ritmis. 8) FA (Form Auswahl) : mengukur kemampuan membayangkan, kemampuan berpikir visual, dan kemampuan berpikir konstruktif. 9) WU (Wurfel Aufgaben) : mengukur kemampuan membayangkan ruang, kemampuan tiga dimensi, aspek teknis-konstruktif serta kemampuan analitis.
D. Subtes Zahlen Reihen (ZR) Subtes ZR merupakan subtes yang terdiri atas aitem yang berbentuk deret angka. Subtes ini terdiri dari 20 aitem dengan waktu administrasi selama 10 menit. Pada subtes ini, subjek diminta melanjutkan deret dengan mengisi angka pada posisi terakhir dari deret. Subtes ZR mengukur kemampuan berpikir dalam masalah hitungan dan berpikir induktif dengan angka – angka, kelincahan, fleksibilitas berpikir dalam melakukan pemecahan masalah, dan aspek ritmis. Secara umum, subtes ini mengukur kemampuan berhitung yang didasarkan pada pendekatan analisis atas informasi faktual dalam bentuk angka, sehingga ditemukan suatu pola dalam hubungan antara angka – angka tersebut. Subjek juga dituntut berpikir fleksibel,
Universitas Sumatera Utara
lincah dan mudah beralih dari satu cara ke cara lain yakni dengan mengubah atau menggantikan cara ataupun pendekatan dalam menghadapi hambatan dan menyelesaikan permasalahan soal. Tahap skoring yang digunakan untuk setiap subtes adalah dengan memeriksa setiap jawaban dengan menggunakan kunci jawaban yang telah disediakan. Untuk subtes ZR, setiap jawaban benar diberi nilai 1 dan untuk jawaban salah atau kosong diberi nilai 0. Total nilai benar yang sesuai dengan kunci jawaban merupakan Raw Score (RW); nilai ini belum dapat diinterpretasi sesuai dengan norma yang digunakan. Nilai RW yang sudah dibandingkan dengan norma disebut dengan Standardized Score (SW). Nilai SW inilah yang dapat menjadi materi untuk tahap selanjutnya—yaitu interpretasi. Adapun norma yang digunakan adalah sesuai dengan kelompok umur subjek. Berikut ini adalah contoh tabel skoring IST :
Tabel 3. Daftar Skoring IST Subtes RW SW SE 20 127 WA 19 130 AN 16 116 GE 17 117 ME 19 118 RA 11 105 ZR 17 117 FA 18 124 WU 19 126 156 127 ∑ Nilai 131 merupakan nilai SW yang diperoleh dari ∑ RW, nilai inilah yang disebut dengan Intelligent Quotient (IQ).
Universitas Sumatera Utara
a. Interpretasi Tahap interpretasi dapat dilakukan setelah didapatkan Standardized Score. Kesembilan subtes saling berkaitan, sehingga harus dilakukan semuanya dan interpretasinya harus dilakukan secara keseluruhan (Amthauer). Interpretasi yang dapat dilakukan dari tes IST adalah sebagai berikut : 1. Taraf Kecerdasan Taraf kecerdasan didapat dari total SW. Nilai ini dapat diterjemahkan menjadi Intelligent Quotient (IQ). Nilai ini dapat menggambarkan perkembangan individu melalui pendidikan dan pekerjaan. Nilai ini perlu dihubungkan dengan latar belakang sosial serta dibandingkan dengan kelompok seusianya.
2. Dimensi Festigung – Flexibilitat Dimensi Festigung-Flexibilitas menggambarkan corak berpikir yang dimiliki oleh subjek. Dimensi Festigung-Flexibilität merupakan dua kutub yang ekstrim, keduanya menggambarkan corak berpikir yang ekstrim pula. Kutub Festigung memiliki arti corak berpikir yang eksak, sedangkan kutub Flexibilität memiliki arti corak berpikir yang non-eksak. Corak berpikir ini merupakan hasil perkembangan (pengalaman) individu yang akan semakin mantap ke salah satu kutub seiring bertambahnya usia. Kecenderungan Festigung
atau
Flexibilitat
seorang
subjek
dapat
ditentukan dengan membandingkan nilai GE+RA dengan nilai AN+ZR. Jika nila GE+RA lebih besar maka subjek memiliki kecenderungan Festigung, sebaliknya jika nilai AN+ZR lebih besar maka subjek memiliki kecenderungan Flexibilitas.
Universitas Sumatera Utara
3. Profil M – W Profil M-W menggambarkan cara berpikir, apakah verbal-teoritis atau praktis-konkrit. Untuk mendapatkan profil M atau W ini dapat dilihat dari 4 subtes pertama (SE, WA, AN, GE) yang tampak pada grafik. Jika grafik menunjukan bentuk M pada empat subtes pertama maka profilnya adalah M (verbal-teoritis), jika yang tampak adalah bentuk huruf W maka profilnya adalah W (praktiskonkrit). 4. Struktur Kecerdasan Struktur kecerdasan menggambarkan kecerdasan subjek berdasarkan masing-masing subtes.
Contoh : Tabel 4 Gambaran kecerdasan berdasarkan subtes Subtes Skor Norma
Keterangan
SE
127
TS
Sangat baik dalam kemandirian berpikir, mengambil pertimbangan atas dasar pengalaman yang dimilikinya tergolong baik sekali Memiliki kemampuan empati yang sangat baik, dan sangat baik dalam menangkap pengertian/isi dari bahasa
WA
130
TS
AN
116
T
GE
117
T
ME
118
T
Daya ingat subjek tergolong baik, kemampuan menghafal dan mempelajari yang dimilikinya juga baik
RA
105
C
Subjek cukup memiliki kemampuan berpikir praktis melalui bilangan, juga cukup memiliki kemampuan berpikir objektif
Memiliki kemampuan menghubungkan yang baik, disamping itu kelincahan dan fleksibilitas berpikirnya juga baik Baik dalam kemampuan abstraksi serta memiliki kemampuan membangun istilah yang baik pula
Universitas Sumatera Utara
Subtes Skor Norma ZR
117
T
FA
124
TS
WU
126
TS
Keterangan:
Keterangan Kemampuan berpikir teoritis dalam hitungan tergolong baik, subjek juga memiliki kelincahan berpikir matematis yang baik pula Subjek sangat baik dalam mengamati dan memikirkan secara menyeluruh, memiliki kemampuan konstruktif yang baik sekali. Kemampuan daya bayang ruang yang sangat baik, serta memiliki kemampuan analitis yang baik sekali
TS = Tinggi Sekali T = Tinggi C = Cukup
5. Kesesuaian terhadap Jurusan / Pekerjaan Interpretasi yang kelima adalah kesesuaian dengan jurusan atau pekerjaan (sesuai dengan kepentingan). Tes IST biasanya digunakan dalam proses seleksi, baik seleksi jurusan di SMU, seleksi perguruan tinggi, maupun seleksi pekerjaan. Untuk melihat kesesuaian terhadap jurusan/pekerjaan, perlu ditinjau norma untuk masing-masing jurusan/pekerjaan yang berisi nilai SW sebagai batas yang dibutuhkan untuk jurusan/pekerjaan tersebut. Kesesuaian terhadap jurusan dapat diperhatikan dengan melihat grafik subjek dan membandingkannya dengan bentuk grafik jurusan/pekerjaan tertentu; jika bentuknya kurang lebih sama, maka subjek memiliki kesempatan untuk menempuh jurusan/pekerjaan tersebut (diktat kuliah Universitas Padjadjaran, 2008).
Universitas Sumatera Utara