FAKU ULTAS PSIKOLOGI UNIVERSITAS GADJAH MADA
EFEKTIVITAS COMPUTERIZED ADAPTIVE TESTING TESTING: Studi eksperimental dengan Raven’s Advance Progressive Matrices Test Aries Yulianto27 Fakultas Psikologi, Universitas Indonesia
ABSTRAK Salah satu kegiatan dalam praktik psikologi adalah pengetesan untuk berbagai tujuan. Namun, kebanyakan ebanyakan pengetesan dilakukan secara tertulis atau paper-pencil pencil test testing (PPT). Di lain pihak, dengan perkembangan pesat komputer dalam penggunaan aan di berbagai aspek kehidupan, sebenarnya ebenarnya dapat dimanfaatkan untuk mendapatkan hasil pengetesan pengetesan yang cepat dan akurat, tidak hanya untuk penyekoran tapi juga untuk administrasi tes. Pada awalnya, komputer dimanfaatkan dengan menampilkan item-item item tes dengan jumlah dan d urutan rutan yang sama seperti PPT, yang disebut Computerized Testing (CT). Dengan menerapkan Item Response Theory (IRT IRT), komputer dapat dimanfaatkan untuk mengatur pemberian item kepada penempuh tes yang disesuaikan dengan kemampuannya, yang disebut Computerized Adaptive Testing (CAT). Artinya, seorang penempuh tes yang menjawab benar suatu item, item akan diberikan item berikutnya yang lebih sukar. Sebaliknya; bila menjawab salah, maka selanjutnya akan diberikan item yang lebih mudah. Komputer berhenti memberikan item bila telah mendapatkan skor dengan akurat. Meskipun telah digunakan secara luas di Amerika Serikat sejak 1980-an an,, CAT belum banyak digunakan di Indonesia. Selain itu, Raven’s advance progressive matrices test merupakan salah satu pengukuran kemampuan nonverbal yang banyak digunakan. Namun sayangnya pengetesannya masih menggunakan PPT PPT. Penelitian eksperimental ini dilakukan untuk mengetahui efektivitas dari CAT dengan menggunakan APM. Dengan 2 IV yang dimanipulasi, yaitu bentuk administrasi tes ((konvesional atau CAT) dan batas waktu pengerjaan tes (25 menit, 50 menit, atau tidak terbatas), serta performa tes APM sebagai DV, maka ada 6 kelompok penelitian yang dibentuk dengan randomisasi randomisasi. Dua minggu sebelum penelitian, litian, setiap subyek diberikan tes APM dengan PPT. Eksperimen pada 120 mahasiswa fakultas Psikologi UI menunjukkan tidak ada perbedaan skor APM yang signifikan antara administrasi CAT dan administrasi PPT. Sedangkan edangkan skor pada PPT berbeda signifikan dengan skor administrasi CT. Ditemukan juga, kelompok elompok dengan administrasi CT memiliki skor yang berbeda signifikan dengan kelompok yang diadministrasikan CAT. Selain itu, tidak ada perbedaan yang signifikan diantara ketiga batas waktu pengerjaan.. Hal ini dikarenakan sebelum 25 menit sebagian besar subyek telah menyelesaikan tes. Tidak ditemukan pengaruh interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes terhadap performa tes APM. Sebagai tambahan, jjumlah item yang diadministrasikan ministrasikan melalui CAT lebih kecil (rata-rata (rata rata 12 item) dibandingkan melalui CT (rata (rata-rata 34 item). Oleh karena itu, dari penelitian eksperimental ini dapat disimpulkan bahwa CAT lebih efektif dari CT dan PPT karena dapat menghasilkan skor yang sama meskipun mes dengan jumlah item yang lebih sedikit dan waktu pengerjaan yang lebih singkat. Kata kunci:: pengetesan, psikometri, eksperimen, item response theory
27
[email protected]
288
EXPERIMEN NTAL PSYCHOLOGY: THE OLD TRADITION CONTINUES
Pendahuluan Tidak dapat dipungkiri bahwa sebagian besar pekerjaan psikologi berkaitan dengan tes. Tes psikologi sendiri telah banyak digunakan dalam pengetesan dengan berbagai macam tujuan, misalnya dalam industri dan organisasi digunakan untuk seleksi calon karyawan atau dalam setting klinis digunakan untuk mendiagnosis gangguan. Tes lebih banyak digunakan nakan dibandingkan metode pengukuran lainnya (seperti wawancara atau work sample)) karena memiliki sejumlah kelebihan, yaitu lebih informatif, adil, dan memiliki atribut psikometri yang baik (Friedenberg, 1995). Sebagian besar tes psikologis yang digunakan saat ini dalam bentuk paper-pencil test (Domino & Domino, 2006). Paper-pencil Paper test melibatkan sejumlah perangkat pertanyaan yang dicetak dan membutuhkan respons tertulis, tertulis, sehingga pengadministrasiannya disebut sebagai paperpencil testing (PPT). PPT termasuk suk administrasi tes yang konvensional karena semua penempuh tes menerima seperangkat item yang sama. Oleh karena tes diberikan dalam kertas dan setiap penempuh tes mendapat perangkat item yang sama, maka dapat menyebabkan kerahasiaan tes tidak terjaga karena ena dapat saja dibaca oleh orang yang tidak berwenang atau bertanggung jawab (Bunderson, Inouye, & Olsen,, 1989). Selain itu, karena harus memberikan semua item, diperlukan waktu pengadministrasian yang lebih lama. Penggunaan kertas menjadi masalah tersendiri, misalnya dibutuhkan ruang untuk menyimpan data tes. Tes Raven’s Advance Progressive Matrices (disingkat APM) merupakan salah satu tes kemampuan non verbal yang paling banyak dan telah lama digunakan di Indonesia Indonesia. Seperti telah diketahui, tes ini didasarkan pada teori inteligensi g (general) factor oleh Spearman, dimana kemampuan penalaran abstrak menjadi kemampuan utama yang menentukan intelektual seseorang. Hal ini diketahui dari hasil analisis faktor bahwa skor tes tes berkorelasi pada satu faktor (yang disebut faktor g),, yang menunjukkan kemampuan seseorang untuk melakukan penalaran mengenai semua tugas-tugas tugas mental (Bower, 2003). Individu yang dapat mengerjakan dengan baik memiliki kemampuan mekanikal yang baik, juga juga mampu memperkirakan proyeksi gerakan dan melakukan rotasi mental (Gregory, 2000). Dalam pelaksanaannya di Indonesia, tes ini diadministrasikan melalui PPT. Selain APM, sebagian besar tes psikologis yang berbentuk PPT telah digunakan lebih dari 20 tahun di Indonesia. Dengan demikian, tes-tes tes tersebut telah diragukan reliabilitas dan validitasnya karena kemungkinan besar telah bocor atau tidak mengikuti mengikuti perkembangan terbaru. Di lain pihak, saat ini komputer telah melekat dalam kehidupan sehari sehari-hari. Penggunaannya berkembang erkembang pesat di berbagai aspek kehidupan, misalnya, sebagian besar orang tidak asing lagi dengan internet atau bekerja menggunakan pengolah kata. Hal ini disebabkan komputer dapat melakukan pekerjaan dengan cepat dan memiliki tingkat kesalahan yang sangat kecil. Namun, seiring maraknya
pemanfaatan
komputer
dalam
segala
bidang,
tidak
diikuti
pemanfaatan
untuk
pengadministrasian tes psikologi di Indonesia (Yulianto, 2007). Berkaitan dengan penggunaan komputer untuk pengetesan, saat ini telah banyak dibuat program komputer untuk melakukan penyekoran sejumlah tes psikologi. Walaupun demikian, komputer sebenarnya dapat dimanfaatkan untuk mendapatkan hasil pengetesan yang cepat dan akurat, tidak hanya untuk penyekoran tapi juga untuk administrasi tes. Melihat perkembangan di luar Indonesia, pemanfaatan pemanfaatan komputer untuk pengadministrasian tes psikologi mulai digunakan seiring perkembangan teknologi. Penggunaan komputer dalam pengetesan mulai dilakukan sekitar tahun 1970 di Amerika Serikat ketika diterbitkan sebuah buku yang memuat kata-kata kata “computer assisted testing” test (Bunderson dkk,, 1989). Pengadministrasian tes psikologi mulai berpindah dari penggunaan kertas (PPT) ( ) menjadi penggunaan komputer
289
FAKU ULTAS PSIKOLOGI UNIVERSITAS GADJAH MADA
(computerized testing, disingkat CT). CT Pada bentuk ini, komputer digunakan untuk menampilkan itemitem tes yang sama dengan yang ada di lembar tes. Pemanfaatan komputer seperti ini memiliki beberapa kelebihan, seperti penyekoran lebih cepat, pelaporan dan interpretasi yang segera, standardisasi administrasi yang ang lebih baik, meningkatkan keamanan tes, serta mengurangi error pengukuran. Bentuk pengetesan komputer ini disebut Bunderson dkk (1989) merupakan generasi pertama dari pemanfaatan komputer dalam pengetesan. pengetesan Seiiring perkembangan teknologi, teori pengukuran psikologi pun mengalami perkem perkembangan. Item response theory (IRT) (I atau disebut juga latent trait theory (Crocker & Algina, 1986), diperkenalkan oleh Georg Rash tahun 1966 dengan model satu parameter (Anastas (Anastasi & Urbina, 1997). Sejumlah pandangan pendekatan IRT adalah: urutan item tidak menjadi masalah, item yang sedikit dapat lebih reliabel, dan setiap peserta tes dapat memperoleh seperangkat item yang berbeda (Embretson & Reise, 2000). Selain itu, kemampuan individu ndividu dan kemampuan item berada dalam skala yang sama (Hambleton, Swanithan, & Rogers, 1991). Dalam perkembangan selanjutnya, penggunaan pendekatan IRT dalam pengetesan menggunakan komputer mulai diterapkan. Karena arena kemampuan individu dan kemampuan item berada dalam skala yang sama, maka pemberian item oleh komputer dapat disesuaikan dengan kemampuan setiap penempuh tes. Pemanfaatan komputer seperti ini disebut sebagai Computerized Adaptive Testing (CAT). CAT tidak hanya sekedar memindahkan item ke dalam komputer seperti CT, tetapi memberikan item yang sesuai dengan kemampuan setiap penempuh tes. Penyebutan adaptif ini karena komputer digunakan untuk mengatur item yang akan diberikan berikutnya kepada penempuh tes terkait dengan respons pada item sebelumnya. Hal ini mengakibatkan individu yang memiliki kemampuan tinggi akan mendapatkan item yang berbeda dibandingkan individu yang memiliki kemampun lebih rendah (Wainer, 1990). Hal ini dapat dilakukan karena CAT menggunakan dasar IRT untuk menciptakan an sebuah algoritma dimana setiap penempuh tes mendapatkan sebuah tes yang merupakan pengukuran yang baik terhadap individu tersebut (Embretson & Reise, 2000). CAT merupakan generasi kedua dari penggunaan komputer untuk untuk pengetesan setelah CT (Bunderson dkk,, 1989). Alur pengadministrasian tes melalui CAT berbeda dengan PPT maupun CT (dapat dilihat pada gambar 1). Pada CAT, Apabila penempuh tes menjawab salah pada item yang diberikan, maka komputer akan memberikan item berikutnya yang lebih mudah. Sebaliknya,, bila dapat menjawab benar, item selanjutnya diberikan yang lebih sukar. sukar. Dari penjelasan ini, diketahui bahwa pengukuran kemampuan individu dengan menggunakan CAT dengan pendekatan IRT memiliki kelebihan dibandingkan PPT yang berbasis pendekatan klasik. Beberapa eberapa keunggulan dari CAT, seperti tes lebih aman karena tersimpan dalam komputer serta setiap peserta tes mendapatkan item yang berbeda, tidak diperlukannya lembar jawaban tes, serta tes dapat diskor dengan segera (Wainer, 1990).
290
EXPERIMEN NTAL PSYCHOLOGY: THE OLD TRADITION CONTINUES
1. Mulai dengan perkiraan kemampuan awal
2. Memilih dan menampilkan item yang optimal
3. mengevaluasi respons penempuh tes
Tidak
6. Hentikan Tes
Ya
5. Aturan turan berhenti terpenuhi?
4. Estimasi skor dan standard error score
Gambar 1. Alur CAT (diambil dari Yulianto, 2008)
Karena sifatnya yang adaptif, CAT berbasis IRT biasanya berisi lebih sedikit item dan memiliki standard error of measurement (SEM) yang lebih kecil dibandingkan pengukuran PPT yang konvensional (Embretson & Reise, 2000). Olsen (dalam am Bunderson dkk, 1989) mengemukakan pada sebuah tes prestasi belajar hanya dibutuhkan 30% hingga 50% dari keseluruhan item tes untuk mencapai tingkat presisi yang sama dengan PPT. Pada penelitian lain, yaitu validitasi versi CAT dari Schedule dule of Nonadaptive and Adaptive Personality (SNAP), hanya dibutuhkan sekitar 50% dari keseluruhan item (Simms & Clark, 2005). Dengan berkurangnya jumlah item yang diberikan kepada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutu dibutuhkan untuk mengadministrasikan tes (Bunderson dkk, 1989). Pengadministrasian tes secara adaptif bukanlah hal yang baru dalam psikologi. Tes Inteligensi Stanford-Binet Binet (SB) yang masih digunakan sampai saat ini, ini sebenarnya merupakan pengadministrasian tes yang adaptif karena tester akan memberikan tingkat kesukaran item yang sesuai dengan kemampuan setiap penempuh tes. Ada da kesamaan prinsip pengadministrasian tes SB dengan CAT. Misalnya, item tes yang tersedia; tersedia; Binet memilih item untuk setiap tingkatan usia kronologis apabila kira-kira kira 50% dari anak-anak anak anak pada usia tersebut dapat menjawab benar. Prinsip selanjutnya, memberikan item yang pertama;; item yang diberikan berdasarkan perkiraan tester mengenai kemampuan setiap penempuh tes. Konsekuensinya, bila diperoleh informasi awal mengenai kemampuan seorang penempuh tes, maka item pertama yang diberikan dapat berbeda dengan penempuh tes lain, meskipun dengan tingkat usia kronologis yang sama. Pemberian item selanjutnya ditentukan berdasarkan respons penempuh tes pada item sebelumnya. Apabila sebagian besar item dapat dijawab benar dari suatu tingkatan usia, maka akan diberikan item selanjutnya untuk tingkatan usia yang lebih bih tinggi. Sebaliknya; apabila penempuh tes tidak mampu menjawab sebagian besar item darii suatu tingkatan usia, maka akan diberikan item berikutnya dari tingkatan usia lebih rendah. Dengan demikian, prosedur p menghentikan pemberian tes juga dapat berbeda satu penempuh tes dengan penempuh tes yang lain. Penghentian tes kepada setiap penempuh te tes dilakukan apabila telah diperoleh ceiling level dan basal level (Yulianto, 2007).. Di Amerika Serikat, CAT telah mulai dikembangkan sejak tahun 1970 1970-an. Hal ini ditandai dengan diadakannya konferensi CAT pertama di Washington, Amerika Serikat, pada tahu tahun 1975. Perkembangan penggadministrasian tes melalui CAT selanjutnya sangat meningkat pesat. Pada tahun 1990-an an tercatat hanya sekitar ratusan CAT, namun menjadi lebih dari satu juta pada tahun
291
FAKU ULTAS PSIKOLOGI UNIVERSITAS GADJAH MADA
1999 (Wainer, 2000).. Saat ini CAT sudah digunakan pada beberapa beberapa tes berskala besar, seperti GRE, GMAT, dan TOEFL. Namun sayangnya, CAT belum banyak dimanfaatkan di Indonesia. Berdasarkan pemaparan di atas, peneliti tertarik untuk mengetahui efektivitas dari pengadministrasian tes melalui komputer, khususnya CAT. Untuk Unt itu, dilakukan sebuah penelitian eksperimen dengan bentuk administrasi tes sebagai independent variable (IV), yaitu membandingkan skor tes APM yang dihasilkan antara administrasi melalui CT dan melalui CAT. Selain itu, akan diperbandingkan pula skor tes setiap partisipan ketika diadministrasikan melalui PPT dan melalui administrasi komputer.Ketika Ketika sebuah tes akan diadministrasikan diadministrasikan melalui komputer, baik CT maupun CAT, batas waktu pengerjaan tes perlu perl diperhatikan. Hal ini tidak menjadi masalah apabila tes bersifat murni power test karena tidak ada batas waktu pengerjaan yang ketat. Berdasarkan meta metaanalisis dari Mead dan Dragrow (dalam Zickar, Overton, Taylor, & Harms, 1999) apabila sebuah PPT yang bersifat power test dipindahkan ke komputer, tidak akan mengubah integritas dari konstruk yang diukur. Pertanyaan muncul saat menentukan batas waktu pengerjaan ketika tes diadminis diadministrasikan melalui komputer. Apakah dengan menggunakan batas waktu yang sama dapat men mencapai keakuratan yang sama dengan PPT. PPT Sebuah bentuk administrasi tes dikatakan efektif apabila batas waktu pengerjaan tes lebih singkat namun dengan keakuratan hasil yang sama atau bahkan lebih besar. Dikaitkan dengan administrasi melalui komputer, diduga diduga dibutuhkan waktu yang lebih lama dibandingkan dengan administrasi PPT. Hal ini berdasarkan penelitian Zickar dkk (1999), dimana hanya 64% subyek yang berhasil mengerjakan 16 buah item dengan waktu 60 menit melalui CAT, sedangkan hanya dibutuhkan 40 menit menit untuk mengerjakan jumlah item yang sama dengan administrasi PPT. Padahal tidak semua item akan ditampilkan pada CAT, seharusnya waktu pengerjaan tes tidak lebih dari batas waktu dari PPT. Pada CT,, penentuan batas waktu menjadi penting karena semua item tes es akan ditampilkan. Dengan demikian, apakah waktu yang dibutuhkan untuk menampilkan semua item sama dengan pengadministrasian dalam bentuk PPT, ataukah diperlukan waktu yang lebih panjang. Menurut Wainer dkk (1990), penggunaan batas waktu pada CAT merupakan tantangan tersendiri untuk diteliti. Oleh karena itu, batas waktu pengerjaan tes dijadikan IV kedua untuk melihat pengaruh terhadap performa tes. Berdasarkan pemaparan di atas, penelitian ini akan mengajukan an empat masalah penelitian, yaitu: 1. Apakah skor tes APM ketika diadministrasikan melalui PPT berbeda dengan skor tes dari partisipan yang sama ketika diadministrasikan melalui komputer? 2. Apakah bentuk administrasi tes berpengaruh terhadap performa tes APM? 3. Apakah batas waktu pengerjaan pengerjaan tes berpengaruh terhadap performa tes APM? 4. Apakah interaksi antara bentuk administrasi tes dan batas waktu pengerjaan tes berpengaruh terhadap performa tes APM?
Metode Penelitian Partisipan dan Pengambilan Sampel Seratus duapuluh mahasiswa S1 reguler semester 2 dan semester 4,, Fakultas Psikologi, Universitas Indonesia, terlibat dalam penelitian ini. Pengambilan sampel menggunakan incidental sampling, yaitu partisipan yang kebetulan ingin terlibat dalam penelitiam, karena keikutsertaan keikutsertaannya bersifat sukarela.
292
EXPERIMEN NTAL PSYCHOLOGY: THE OLD TRADITION CONTINUES
Manipulasi Bentuk administrasi tes melalui komputer (IV1) dimanipulasi dalam 2 bentuk, yaitu CT dan CAT. CT mengadministrasikan tes melalui komputer dengan urutan item yang sama dengan PPT, sedangkan CAT mengadministrasikan tes secara adaptif. Kedua administrasi komputer ini menggunakan program FastTest Pro versi 1.6 yang diproduksi oleh Assessment Systems. Sedangkan b batas waktu pengerjaan (IV2) dimanipulasi dalam 3 bentuk, yaitu 25 menit (sama seperti batas waktu pengerjaan PPT), 50 menit (dua kali darii PPT), dan tanpa batas waktu. waktu Dengan demikian, akan ada 6 buah kelompok perlakuan. , yaitu 1) CT dengan batas waktu 25 menit, 2) CT dengan batas waktu 50 menit, 3) CT tanpa batas waktu pengerjaan, 4) CAT dengan batas waktu 25 menit, 5) CAT dengan batas waktu 50 menit, dan 6) CAT tanpa batas waktu pengerjaan. Pengukuran DV diukur dengan menggunakan Raven’s Advance Progressive Matrices (APM) yang berasal dari PPT yang seperti biasa digunakan. Tes ini telah dikalibrasi dengan model IRT satu parameter menggunakan program QUEST yang dikeluarkan oleh ACER. Penelitian ini menggunakan bagian 1 dan bagian 2 dari tes, meskipun hanya bagian 2 (36 item) yang akan diskor. Pada semua kondisi penelitian, tes akan diskor dengan metode maximum likehood. Untuk CAT, selur seluruh 36 item dimasukkan dalam item bank. Tipe dan Desain Penelitian Penelitian ini bertipe controlled laboratory experiment dikarenakan dilakukan dengan mengkontrol seketat mungkin variabel-variabel variabel sekunder yang akan mempengaruhi hasil penelitian. Penelitian dilakukan pada laboratorium rium komputer yang kedap suara. Oleh karena ada 2 IV dan setiap kelompok penelitian terdiri dari partisipan yang berbeda, berbe maka desain esain penelitian ini adalah between subject, 2x3 randomized factorial design, pretest-posttest. Prosedur Sebelum penelitian, setiap partisipan diberikan tes APM dengan administrasi PPT di dalam kelas. Instruksi diberikan sama seperti pengadministrasian APM ada umumnya,, dimana bagian 1 (set 1) dikerjakan selama 12 menit, dilanjutkan set 2 selama 25 menit. Dua minggu kemudian, setiap partisipan dirandomisasi ke dalam salah satu dari 6 kelompok penelitian sehingga setiap kelompok berisi 20 orang partisipan. Pelaksanaan penelitian tergantung dari kesediaan setiap partisipan untuk mendatangi laboratorium komputer, komputer, sehingga pengadministrasian tes tidak dilakukan secara serentak. Pada semua pengadministrasian komputer, instruksi diberikan seca secara tertulis pada layar monitor. Hal ini dilakukan karena dianggap partisipan telah mengetahuinya pada administrasi PPT sebelumnya. Setelah menyelesaikan tes, peneliti mengucapkan terima kasih kepada partisipan. Untuk CT, partisipan diharapkan mengerjakan seluruh seluruh item APM dengan urutan yang sama dan tidak diijinkan melewati atau tidak menjawab item yang diberikan. Di lain pihak, d dengan sifat administrasinya yang adaptif, CAT memerlukan prosedur khusus. Prosedur untuk CAT, berdasarkan faktor-faktor yang perlu diperhatikan dalam CAT menurut (Embretson ( & Reise Reise, 2000): a. Item bank. Idealnya, item bank berisi sejumlah item dengan kemampuan daya beda tinggi serta parameter kesukaran tersebar diantara rentang kemampuan (Embretson & Reise, 2000). Embretson dan Reise (2000) menyarankan sekitar 100 buah item yang ada dalam item bank. Namun karena penelitian ini untuk membandingkan membandingk skor tes APM pada bentuk administrasi yang berbeda, maka item bank hanya berasal dari 36 item set 2 tes APM yang telah dikalibrasi dikalibrasi.
293
FAKU ULTAS PSIKOLOGI UNIVERSITAS GADJAH MADA
b. Mengadministrasikan item pertama. pertama Kemampuan seluruh partisipan pada penelitian ini diperkirakan berdistribusi secara normal. Oleh karena itu, item yang diadministrasika diadministrasikan pertama kali adalah dipilih secara acak oleh komputer dengan de nilai kesukaran (b)) antara -0,5 hingga 0,5 (berdasarkan berdasarkan rekomendasi dari Embretson dan Reise, Reise 2000). c.
Pemberian skor. Dalam IRT ada tiga metode utama untuk mengestimasi kemampuan penempuh tes, yaitu maximum likelihood (ML), Maximum a Posterori, dan Expected a P Posteriori. Peneliti memilih ML karena kelebihan ML adalah tidak bias, efisien, dan error diasumsikan berdistribusi normal Embretson & Reise, 2000).
d. Pemilihan item selanjutnya. Peneliti memilih strategi maximum item information information, yaitu memilih item yang memiliki parameter kesukaran mendekati perkiraan kemampuan penempuh tes saat itu. Dengan demikian, diharapkan perkiraan terhadap kemampuan subyek penelitian akan lebih akurat dengan jumlah item yang lebih sedikit. Maximum item information ormation adalah strategi yang paling sering digunakan (Thiessen & Mislevy, 1990). e. Menghentikan Tes. Teknik eknik yang digunakan adalah variable length, berdasarkan rekomendasi dari Embretson dan Reise (2000) yang mengatakan bahwa penggunaan aturan pemberhent pemberhentian item dengan standard error (SE) membuat penggunaan terbaik dari algoritma CAT sehingga lebih baik. Aturan penghentiannya nya adalah apabila S.E. ≤0,4. 0,4. Aturan ini berdasarkan hasil penelitian dari Blais dan Raiche (2002) yang menemukan bahwa apabila S.E. ≤0,40 ,40 maka S.E. dari tingkat kemampuan individu hanya berbeda sebesar 0,03.
Hasil dan Pembahasan Dari tabel 1 diketahui bahwa mean skor terbesar (0,7295) pada kelompok CT dengan batas waktu pengerjaan 25 menit, sedangkan nilai mean terkecil (0,4082) berasal dari kelompok CAT dengan batas waktu yang sama. Skor partisipan terendah, yaitu sebesar -1,586, berada pada kelompok CT dengan batas waktu 50 menit, sedangkan skor tertinggi (1,890 1,890) berasal dari 2 partisipan berbeda pada kelompok CAT dengan batas waktu 50 menit serta kelompok CAT tanpa batas waktu pengerjaan. Meskipun demikian, Hasil uji F dari data di atas diperoleh nilai F sebesar 0,721 (p>0,05) p>0,05) sehingga dapat dikatakan tidak ada perbedaan signifikan pada mean skor tes APM diantara ara kelompok penelitian. Dengan kata lain, kelompok partisipan yang digunakan dalam penelitian ini memiliki kesetaraan dalam kemampuan penalaran abstrak yang diukur oleh tes APM. Salah satu kriteria metode pengadministrasian tes melalui komputer yang efektif adalah apabila dapat menghasilkan skor tes yang tidak berbeda dengan PPT dari partisipan yang sama. Tabel 2 memberikan hasil uji-tt berpasangan (paired-sample ( t-test) untuk perbandingan skor tes APM antara PPT dan CT serta antara PPT dan CAT. Ada perbedaan signifikan pada skor tes ketika subyek yang sama diadministrasikan melalui PPT dan melalui CT (t=3,479, (t=3,479, p<0,05). Adanya perbedaan ini sebenarnya tidak diharapkan terjadi karena kedua skor berasal dari kelompok partisipan yang sama namun dengan bentuk administrasi tes yang berbeda dalam jangka 2 minggu minggu. Bahkan mean skor partisipan pada CT lebih rendah dibandingkan dibandingkan ketika pengadministrasian PPT (0,4879 < 0,6737). Hasil ini sama seperti pada penelitian yang dilakukan oleh Hedl, O’Neil, dan Hanson (dalam Bunderson dkk, 1989), dimana mean skor Slossen S Inteligence Test lebih besar pada administrasi melalui PPT dibandingkan pada administrasi melalui CT. Perbedaan skor yang signifikan tidak ditemukan antara administrasi PPT dan administrasi CAT (t=0,547, p>0,05). Hasil sesuai harapan
294
EXPERIMEN NTAL PSYCHOLOGY: THE OLD TRADITION CONTINUES
peneliti bahwa meskipun CAT mengadministrasikan item lebih sedikit dibandingkan P PPT, tidak ada perbedaan skor diantara keduanya.
Tabel 1. Statistik deskriptif skor tes dari setiap kelompok penelitian Administrasi
Batas Waktu
25 menit
50 menit
Tanpa batas waktu
Total Keterangan :
Total
CT
CAT
0,7295
0,4082
.5687
0,7431
0,5628
.6706
( (-0,679 – 1,711)
(-0,680 – 1,246)
(-.680 .680 – 1.711)
0,6676
0,7031
.6853
0,7336
0,6309
.6756
( (-1,586 – 1,547)
(-0,538 – 1,890)
(-1.586 1.586 – 1.890)
0,6241
0,5294
.5767
0,6079
0,7330
.6664
( (-0.398 – 1,546)
(-0,690 – 1,890)
(-.398 .398 – 1.890)
0,6737 0,6870 ( (-1,586 – 1,711)
0,5469 0,6466 (-0,969 – 1,890)
.6103 .6673 (-1.586 1.586 – 1.890)
angka yang dicetak tebal adalah mean, angka ngka yang dicetak miring adalah simpang baku, dan angka ngka di dalam kurung adalah skor (minimum – maksimum). Tabel 2. hasil uji-tt untuk perbandingan PPT dan administrasi komputer
perbandingan
Mean
SD
n
t
P
PPT CT
0,6737 0,4879
0,687 0,834
60
3,479
0,001
0,646 0,799
60
0,547
0,587
PPT CAT
0,5469 0,5059
Tabel 3. uji-F faktorial untuk skor tes
IV Bentuk Administrasi
F 0,014
p 0,905
Batas waktu
0,357
0,700
Interaksi
0,973
0,381
Dari tabel 3 diketahui ketahui ditemukan tidak adanya perbedaan yang signifikan pada skor diantara 2 bentuk administrasi komputer, yaitu yait antara CT dan CAT (F=0,014, p>0,005). Dengan demikian, dapat disimpulkan tidak ada pengaruh bentuk administrasi terhadap skor tes. Begitu juga untuk batas waktu pengerjaan tes tidak berpengaruh terhadap skor tes karena ditemukan tidak perbedaan yang signifikan diantara 3 jenis batas waktu (F=0,357, ( p>0,05). Terakhir, tidak ada perbedaan signifikan untuk interaksi kedua variabel ariabel bebas (F=0,973, p>0,05), p>0,05), sehingga dapat dikatakan interak interaksi kedua IV tidak berpengaruh.
295
FAKU ULTAS PSIKOLOGI UNIVERSITAS GADJAH MADA
Telah dikatakan bahwa salah alah satu keunggulan dari CAT adalah dapat mengadministrasikan item yang lebih sedikit sehingga waktu pengadministrasian tes menjadi lebih singkat. Sesuai dengan dugaan, CAT mengadministrasikan item dengan jumlah lebih sedikit dibandingkan CT, yaitu sekitar 11 11-12 item, dibandingkan CT yang mengadministrasikan seluruh item APM (tabel 4)..
Tabel 4. Rata-rata rata jumlah soal yang dikerjakan partisipan pada setiap kelompok
Administrasi
Batas Waktu
Total
25’
50’
Tanpa batas
CT
33,80
33,25
33,57
33,57
CAT
11,55
11,25
11,90
11,57
Total
22,68
22,25
22,78
22,57
Hal ini didukung oleh hasil analisis statistik (tabel 5) bahwa ada perbedaan yang signifikan pada bentuk administrasi (F=1843,296, p<0,05). p<0,05) Artinya, CAT memang mengadministrasikan item yang lebih sedikit dibandingkan CT. Tabel 5. Hasil Uji-F Uji Faktorial item yang dikerjakan subyek
IV Bentuk administrasi Batas waktu Interaksi
F
p
1843,296 0,395 0,079
0,000 000 0,675 675 0,924 924
Kesimpulan dan Saran Dari hasil-hasil di atas diketahui bahwa ditemukan tidak adanya perbedaan skor yang signifikan antara administrasi PPT dan CAT pada partisipan yang sama. Hasil ini menunjukkan bahwa CAT dapat menggantikan PPT untuk mengadministrasikan tes APM. Hal Hal ini juga didukung dengan jumlah item yang diadministrasikan oleh CAT. Hanya dengan mengadministrasikan 11-12 11 12 item item, CAT mampu menghasilkan skor tes yang sama dengan PPT yang mengadministrasikan seluruh 36 item tes APM. Tidak ditemukan hasil yang sama pada pengadministrasikan melalui CT. Dengan demikian, hasil ini sesuai dengan pendapat Embretson dan Reise (2000) bahwa CAT berbasis IRT berisi lebih sedikit item dibandingkan pengukuran PPT yang konvensional. Dengan berkurangnya jumlah item yang diberikan kepada pada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutuhkan untuk mengadministrasikan tes (Bunderson dkk, 1989). Perbedaan batas waktu pengerjaan ternyata tidak memberikan perbedaan dalam skor tes. Baik diberikan batas waktu 25 menit, 25 menit, atau tanpa batas waktu, mean skor tes dari ketiga kelompok yang diadministrasikan melalui CAT tidak berbeda rbeda satu sama lain. Hal ini karena dengan batas waktu pengerjaan yang sama dengan administrasi PPT, yaitu selama 25 menit, sebagian besar partisipan telah berhasil menyelesaikan tes. Hal ini ditunjukkan oleh tidaknya perbedaan jumlah item diantara waktu pengerjaan yang berbeda, yaitu sekitar 11-12 buah item. Dengan demikian, dapat disimpulkan bahwa CAT lebih efektif dalam mengadministrasikan tes APM dibandingkan PPT maupun CT.
296
EXPERIMEN NTAL PSYCHOLOGY: THE OLD TRADITION CONTINUES
Penelitian ini telah menunjukkan bahwa CAT dapat menjadi bentuk baru pengadministrasian tes yang efektif. Meskipun skipun demikian, penelitian-penelitian selanjutnya mengenai CAT masih perlu dilakukan terus menerus mengingat penelitian ini memiliki sejumlah kelemahan kelemahan.
Dengan
memperbanyak partisipan, diharapkan penelitian selanjutnya dapat lebih akurat mengetahui keefektivitasan dari CAT. Ditambahkan pula, pula penggunaan sampel selain mahasiswa dan tes selain APM sangat diharapkan, mengingat masih banyaknya tes psikologi dan biasanya digunakan untuk masyarakat umum. Faktor-faktor faktor psikologis, seperti kecemasan atau motivasi mengerjakan tes, juga perlu diteliti pengaruhnya terhadap performa mengerjakan tes melalui CAT. Meskipun demikian, pengembangan CAT untuk pengadministrasian tes harus mulai dilakukan di Indonesia. Hal ini menjadi tantangan mengingat pengembangan CAT membutuhkan waktu lebih lama dan biaya yang lebih besar dibandingkan pengembangan PPT. Waktu dan biaya ini dikarenakan perlu dilakukan pengembangan infrastruktur komputer, selain pengembangan item itemitem tes itu sendiri termasuk menyediakan item bank yang memadai. Misalnya, diperlukan waktu sekitar 5 tahun untuk mengembangkan sistem dan setelah melakukan serangkaian uji coba selama 6 tahun, CAT-ASVAB ASVAB mulai digunakan tahun 1996 (Segall & Moreno, 1999). Selain waktu pengem pengembangan, biaya pengembangan yang cukup besar perlu menjadi faktor pertimbangan. Dibutuhkan dana $5,152,544 untuk mengubah Minnesota Comprehensive Assessments menjadi CAT (Peterson (Peterson, Davison, Hjelseth, Angermeyr, Hodges, Kochmann, Mattson, & Weiss, 1995). Sebenarnya, waktu pengembangan dan biaya yang besar ini akan sangat berarti dengan kelebihan yang dimiliki CAT dibandingkan PPT atau CT konvensional. Pengembangan CAT, terutama dalam industri dan organisasi, menjadi tantangan sekaligus kemajuan dalam perkembangan pengukuran psikologis di Indonesia (Yulianto, 2007).
Daftar Pustaka Anastasi, A., & Urbina, S. (1997). Psychological Testing. 7th ed. New Jersey: Prentice Prentice-Hall Inc. Blais, J. & Raiche, G. (2002). Some Features of the sampling distribution of the ability estimate in computerized adaptive ive testing according to two stopping rules. rules. Makalah disajikan pada 11th International Objective Measurement Workshop, New Orleans, April 2002 (tidak dipublikasikan). Bower, Bruce. (2003) Essence of G: scientists search for the biology smarts. Science News; Feb 8, 2003; 163, 6; Academic Research Library. pg. 92. Bunderson, C.V., Inouye, D. K., & Olsen, J.B. The Four Generations of Computerized Educational Measurement. Dalam Robert L. Linn. Educational Measurement. 3rd ed. New York: American Council on Education & Macmillan Publishing Company. Crocker, Linda, & Algina, James. (1986). Introduction to Classical and Modern Test Theory Theory. Florida: Harcourt Brace Jovanovich College Publishers. Domino, George, & Domino, Marla L. L (2006). The Psychological Testing: an introduction introduction. 2nd ed. Cambridge, UK: Cambridge University Press. Embretson, S.E, & Reise, S.P. (2000). Item Response Theory for Psychologist. New Jersey : Lawrence Erlbaum Associates, Inc. Friendenberg, Lisa. (1995). Psychological Testing: Design, Analysis, and Use.. Massachusetts: Allyn & Bacon.
297
FAKU ULTAS PSIKOLOGI UNIVERSITAS GADJAH MADA
Gregory, R.J. (2000). Psychological Testing: History, Principles, and Applications Applications. 3rd ed. MA: Allyn & Bacon. Hambleton, R.K., Swaminathan, H, & Rogers, H.J. (1991). Fundamental ental of Item Response Theory Theory. Volume 2. California: Sage Publications, Inc. Peterson, K. A., Davison, M.L., Hjelseth, L., Angermeyr, J., Hodges, T., Kochmann, R., Mattson, D., & Weiss, D.J., (1995). Computerizing Statewide Educational Assessments in Minne Minnesota: A Report on the Cost and Feasibility of Converting the Minnesota Comprehensive Assessments to a Computerized Adaptive Format. Format. Minnesota: Office of Educational Accountability, College of Education and Human Development, University of Minnesota. Segall,, D.O. & Moreno (1999). Development of the Computerized Adaptive Testing Version of the Armed Services Vocational Aptitude Battery. Dalam Fritz Drasgow & Julie B. Olson Olson-Buchanan. Innovations in Computerized Assessment. Assessment. New Jersey: Lawrence Erlbaum Associat Associates, Publishers. Simms, L.J., & Clark, L.A. (2005). Validation of a Computerized Adaptive Version of Schedule of Nonadaptive and Adaptive Personality (SNAP). Psychological Assessment Assessment, vol. 17, no. 1, 2843. Thissen, D., & Mislevy, R. J. (1990). Testing Algorithms. Algorithms. Dalam H. Wainer, N.J. Dorans, R. Flugher, & B.F. Green, Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum Associates, Publishers. Wainer, H. (1990). Introduction and History. Dalam H. Wainer, N.J. Dorans, R. Flugher, & B.F. Green. Computerized Adaptive Testing: a Primer. Primer. New Jersey: Lawrance Erlbaum Associates, Publishers. Wainer, H., 2000, CATs: Whither and Whence, Whence Psicológica, 21, 121-133. Yulianto, Aries. (2007).
The Potential Use and Development of Conputerized Adaptive Testing in
Organizational and Industrial Setting. I/O Psychology at the Crossroad: Diversity in I/O Psychology Conference Proceeding. Yogyakarta: Universitas Gadjah Mada. Yulianto, Aries. (2008). Computerized Adaptive Testing: Pemanfaatan Psikologis dari Komputer untuk Pengetesan Psikologis.
Prosiding Konferensi
Nasional Sistem
Informasi (KNSI)
2008.
Yogyakarta: Universitas Sanata Dharma. Zickar, M.J., Overton, R.C., Taylor, L.R., & Harms, H.J. (1999) The Development of Computerized Selection System for Computer puter Programmers in a Financial Services Company. Dalam Fritz Drasgow & Julie B. Olson-Buchanan. Buchanan. Innovations in Computerized Assessment Assessment. New Jersey: Lawrence Erlbaum Associates, Publishers.
298