Measurement & Intervention section
THE POTENTIAL USE AND DEVELOPMENT OF COMPUTERIZED ADAPTIVE TESTING IN ORGANIZATIONAL AND INDUSTRIAL SETTING
1
Aries Yulianto Faculty of Psychology, University of Indonesia
Abstract Computers are still rarely used for test administration in Indonesia. On the other hand, there is a significant increase in the use of computers by individual or organizations in the country. Therefore, there is a possibility to develop computerized test administration in Indonesia. Computers provide an objective, efficient, and reliable means for delivering assessment services to clients. Computerized test administration can be done by displaying all of the items to every test taker (Computerized Test or CT) or by displaying items adapted to the examinee’s ability (Computerized Adaptive Test or CAT). CAT permits the selection and administration of items that are individually tailored to the trait level of the examinee, with the potential of substantial item and time savings. CAT selects and administers only those items that provide the most psychometric information at a given ability level, eliminating the need to administer items that have very low or very high endorsement probabilities given a particular examinee’s ability level. To do this, CAT is built on a foundation laid by item response theory (IRT) measurement model. CAT is widely research and use over 3 decades, especially in U.S, for measure academic achievement, personality measurement, or neuropsychological status. Unfortunately; this was not done in Indonesia. An evaluation research of the effectiveness of CAT in Indonesia was done by Yulianto (2006) using Ravens Advanced Progressive Matrices test performance (APM). This research found that CAT consumed less time than CT and PPT. The research also found that CAT administered lesser items (12 as average) and lesser time than conventional method, CT and paper-pencil test (total of 36 items). This Article describes the potential use and development of CAT as an effective test method, especially in industrial and organizational setting.
Pendahuluan Bidang psikologi industri dan organisasi (PIO) merupakan salah satu bidang psikologi yang perkembangannya paling cepat (Kaplan & Saccuzzo, 2005). Walaupun demikian, masyarakat awam sering kali menganggap bahwa PIO sama dengan manajemen sumber daya manusia atau sejenisnya seperti yang dipelajari dalam ilmu ekonomi atau manajemen. Hal ini mungkin terjadi karena keduanya sama-sama mempelajari manusia dalam organisasi atau perusahaan. Menurut Berry (dalam Kaplan & Saccuzzo, 2005), bidang PIO berbeda dengan bidang manajemen karena adanya penggunaan tes terstruktur. Dengan demikian, berkecimpung dalam bidang PIO tidak akan terlepas dari pengukuran atau penggunaan tes psikologi. Walaupun pengukuran dapat dilakukan dengan tes atau dengan metode lain, tes memiliki kelebihan dibandingkan metode lain. Friedenberg (1995) mengemukakan bahwa dibandingkan dengan metode pengukuran lain, seperti wawancara atau work sample, tes psikologi baku memiliki kelebihan karena lebih informatif, adil, dan memiliki atribut psikometri yang baik. Pengetesan yang biasa dilakukan selama ini merupakan administrasi paper-pencil test (PPT). Sayangnya sebagian besar tes psikologi yang digunakan saat ini diragukan kehandalan dan keakuratannya. Seperti telah diketahui, sebagian besar tes psikologi yang banyak digunakan saat ini, khususnya dalam seleksi, 1
Paper presented at Biennial International Conference on Industrial and Organizational Psychology 2007, Jogyakarta, Indonesia, August, 9-11, 2007.
1 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
485
Measurement & Intervention section
merupakan tes yang sudah lama digunakan. Sering kali Psikolog menggunakan tes yang sama selama 20 tahun bahkan lebih, seperti Kraepelin, Pauli, Raven’s Progressive Matrice (RPM), atau Culture Fair Intelligence Test (CFIT). Terbiasa mengerjakan tes karena diberikan berulang kali, mengikuti latihan psikotes, dan membaca buku tes yang banyak dijual di toko buku, merupakan beberapa faktor turut serta dalam berkurangnya kehandalan dan keakuratan tes psikologi yang sering dipakai saat ini. Dapat dipastikan bahwa perusahaan atau organisasi yang menggunakan tes psikologi yang kurang handal dan akurat akan mengalami kerugian. Dari penelitian Jacobs et. al (dalam Kaplan & Saccuzzo, 2005) diketahui bahwa penggunaan prosedur seleksi yang akurat bagi supir bus dapat mengurangi $500.000 per tahun. Dengan pesatnya perkembangan komputer serta luasnya pemanfaatan di berbagai bidang beberapa tahun belakangan ini, memungkinkan pemanfaatan komputer dalam pengadministrasian tes psikologi di Indonesia. Saat ini hampir di setiap kantor atau organisasi telah memiliki komputer. Bahkan hampir di setiap bidang pekerjaan pun telah banyak melibatkan komputer dibandingkan menggunakan kertas. Selain itu, penggunaan komputer di rumah pun makin marak dilakukan. Kondisi ini menyebabkan orang menjadi terbiasa untuk menggunakan komputer, baik untuk membantu pekerjaannya atau kegiatan lainnya. Hal ini didukung oleh harga beli komputer yang makin terjangkau. Beragam jenis komputer dapat digunakan, mulai dari personal computer (PC), laptop, hingga palmtop. Komputer dapat digunakan untuk mengadministrasi, menyekor, dan menginterpretasikan tes, atau untuk membuat tugas-tugas baru dan mengukur kemampuan yang tidak dapat dilakukan oleh prosedur tradisional (Kaplan & Saccuzzo, 2005). Komputer berguna dalam mengontrol variabel stimulus (item tes) dan respons. Dari sisi stimulus, melalui komputer kita dapat dengan mudah untuk menciptakan gerakan, kedalaman, kecepatan, ataupun karakteristik lain yang sebelumnya sulit dilakukan dengan PPT. Sedangkan dari sisi respons, komputer memungkinkan untuk mengukur kecepatan respons, selain mengurangi pekerjaan untuk menyekor respons penempuh tes (Landy, Shankster, & Kohler, 1994). Beberapa tes telah dikembangkan karena pemanfaatan komputer ini. Untuk seleksi pilot, Park dan Lee (dalam Landy, Shankster, & Kohler, 1994) memberikan tugas gerak perseptual dan kognisi yang diadministrasikan melalui komputer. Berkaitan dengan performa, penempuh tes menilai CT lebih positif serta memperkecil perbedaan budaya dibandingkan PPT (Friendenberg, 1995, Murphy & Davidshofer, 2001). Bunderson et. al (1989) mengemukakan bahwa computerized testing (CT) dilakukan dengan mengadministrasikan tes melalui komputer. Dengan demikian, pengadministrasian tes, penyekoran, dan interpretasi skor setiap penempuh tes sekaligus dilakukan oleh komputer. Untuk mengadministrasikan tes, item-item tes yang semula berada dalam kertas dipindahkan ke dalam komputer. Dengan demikian, penempuh tes tidak lagi membaca soal dan menjawab pada buku soal atau lembar jawaban, tetapi melihat soal pada layar monitor dan menjawab menggunakan keyboard, mouse, touch pen, atau touch screen. Dalam penerapan CT di bidang pendidikan misalnya, Graduate Record Examination Computer-Based Test (GRE-CBT) mulai digunakan pada tahun 1992 di Amerika Serikat (Schaeffer, Steffen, Golub-Smith, Mills, & Durso, 1995). Pengadministrasian tes yang biasa dilakukan atau konvensional adalah dengan memberikan set item tes yang sama pada semua penempuh tes dan tes dimulai dengan item dengan tingkat kesukaran rendah. Sayangnya, dengan memberikan seluruh item tes menyebabkan pengetesan cukup panjang sehingga dapat menimbulkan kelelahan. Akibatnya, kelelahan dapat mempengaruhi performa tes sehingga skor tes yang dihasilkan tidak menunjukkan kemampuan sebenarnya. Atau dengan kata lain, tes menjadi tidak akurat. Selain kelelahan, motivasi mengerjakan tes juga dapat mempengaruhi performa tes. Karena semua penempuh tes mendapatkan set item tes yang sama, penempuh tes yang memiliki kemampuan tinggi akan merasa bosan karena harus mengerjakan item yang sangat mudah dirinya. Begitu juga sebaliknya dengan penempuh tes yang memiliki kemampuan rendah; bagi dirinya sebagian tes yang dikerjakan merupakan item yang sulit. Karena item yang diberikan kepada dirinya tidak sesuai dengan kemampuannya, motivasi mengerjakan tes pada kedua kelompok penempuh tes ini menjadi rendah. Akibatnya, performa yang ditunjukkan skor tes menjadi lebih rendah dari kemampuan sebenarnya. Hal ini terjadi baik dalam administrasi PPT maupun CT. Komputer dapat digunakan untuk memberikan item yang sesuai dengan kemampuan penempuh tes. Pemanfaatan komputer seperti ini disebut sebagai Computerized Adaptive Testing (CAT). Penyebutan 2 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
486
Measurement & Intervention section
adaptif ini karena komputer digunakan untuk mengatur item yang akan diberikan selanjutnya kepada penempuh tes terkait dengan respons pada item sebelumnya. Berbeda dengan CT konvensional yang menampilkan semua item yang sama kepada semua penempuh tes, CAT tidak hanya sekedar memindahkan item ke dalam komputer tetapi memberikan item sesuai dengan kemampuan penempuh tes. Hal ini mengakibatkan penempuh tes yang memiliki kemampuan tinggi akan mendapatkan item yang berbeda dibandingkan individu yang memiliki kemampun lebih rendah (Wainer, 1990). Hal ini dapat disamakan dengan pertandingan atletik lompat tinggi, dimana ketinggian rintangan disesuaikan dengan hasil lompatan atlet tersebut sebelumnya. Apabila atlet berhasil melompati rintangan, maka ketinggian akan ditambah; begitu juga sebaliknya, apabila tidak berhasil, maka ketinggiannya akan dikurangi. Sebenarnya pengadministrasian tes yang adaptif bukanlah hal yang baru dalam pengetesan psikologi. Tes Inteligensi Stanford-Binet (SB) yang dikembangkan tahun 1905 sebenarnya merupakan pengadministrasian tes yang adaptif karena diadministrasikan secara individual untuk mendapatkan tingkat kesukaran yang sesuai untuk setiap penempuh tes. Beberapa prinsip pengadministrasian tes SB merupakan prinsip dasar pengadministrasian CAT. Misalnya item tes yang tersedia; Binet memilih item untuk setiap tingkatan usia kronologis apabila kira-kira 50% dari anak-anak pada usia tersebut dapat menjawab benar. Prinsip selanjutnya, prinsip memberikan item pertama; item tes yang pertama diberikan berdasarkan perkiraan tester mengenai kemampuan setiap penempuh tes. Konsekuensinya, apabila diperoleh informasi awal mengenai kemampuan seorang penempuh tes, maka item pertama yang diberikan dapat berbeda dengan penempuh tes lain dengan tingkat usia kronologis yang sama. Pemberian item selanjutnya ditentukan berdasarkan respons penempuh tes pada item sebelumnya. Apabila sebagian besar item dapat dijawab benar dari suatu tingkatan usia, maka yang akan diberikan selanjutnya adalah item untuk tingkatan usia yang lebih tinggi. Demikian sebaliknya, apabila penempuh tes tidak mampu menjawab sebagian besar item dari suatu tingkatan usia, maka selanjutnya akan diberikan item dari tingkatan usia lebih rendah. Prosedur menghentikan pemberian tes juga dapat berbeda satu penempuh tes dengan penempuh tes yang lain. Penghentian tes kepada setiap penempuh tes dilakukan apabila telah diperoleh ceiling level dan basal level. Dalam mendapatkan IQ, walaupun dihitung berdasarkan jumlah item yang dijawab benar, setiap item dibobot sesuai dengan tingkatan usianya. Pengadministrasian tes yang adaptif melalui komputer ini dimungkinkan karena pendekatan pengukuran yang menggunakan item response theory (IRT). Pada pendekatan pengukuran teori klasik, diasumsikan error pengukuran berlaku sama untuk semua orang dan item tes harus disusun berdasarkan tingkat kesukaran (Embretson & Reise, 2000). Kedua asumsi ini tidak berlaku dalam IRT dimana urutan item tidak menjadi relevan (Wainer & Mislevy, 1990). Hal ini dimanfaatkan oleh CAT dalam menyesuaikan pemberian item dengan kemampuan individu penempuh tes. CAT menggunakan dasar IRT untuk menciptakan sebuah algoritma dimana setiap penempuh tes mendapatkan sebuah tes yang merupakan pengukuran yang baik terhadap individu tersebut (Embretson & Reise, 2000). Apabila penempuh tes tidak dapat menjawab benar pada item yang diberikan, maka komputer akan memberikan item dengan kesukaran yang lebih rendah. Sebaliknya, apabila penempuh tes dapat menjawab benar, item yang diberikan selanjutnya adalah item dengan kesukaran lebih tinggi. Konsekuensinya, seorang penempuh tes akan mendapatkan set item tes yang berbeda. Dengan demikian, CAT berbasis IRT biasanya akan berisi item yang lebih sedikit dibandingkan pengetesan dengan pendekatan teori klasik (Embretson & Reise, 2000). Hal ini didukung oleh hasil penelitian Sims dan Clark (2005) yang hanya membutuhkan 50% dari kesuluruhan item tes kepribadian, Schedule of Nonadaptive and Adaptive Personality (SNAP). Begitu juga dengan tes prestasi belajar, pada penelitian Olsen (dalam Bunderson et. al, 1989) hanya dibutuhkan 30% hingga 50% dari keseluruhan item tes yang ada. Pada penelitian Yulianto (2006), CAT hanya mengadministrasikan 33% item APM dengan keakuratan yang sama dengan saat tes diadministrasikan PPT. Dengan berkurangnya jumlah item yang diberikan kepada penempuh tes, maka secara langsung akan mengurangi jumlah waktu yang dibutuhkan untuk mengadministrasikan tes (Bunderson dkk, 1989). Dengan demikian, CAT membutuhkan waktu administrasi tes yang lebih singkat dibandingkan PPT maupun CT secara konvensional, namun dengan keakuratan yang tinggi. Pengadministrasian tes melalui CAT mulai dikembangkan sekitar tahun 1970-an. Hal ini ditandai dengan diadakannya konferensi CAT pertama di Washington, Amerika Serikat, pada tahun 1975. Perkembangan penggadministrasian tes melalui CAT sangat meningkat pesat. Pada tahun 1990-an hanya sekitar ratusan CAT, namun menjadi lebih dari satu juta pada tahun 1999 (Wainer, 2000). Dalam sejarah 3 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
487
Measurement & Intervention section
pengembangannya, CAT digunakan pertama kali pada seleksi personel dan klasifikasi di industri, pemerintahan, dan militer. The Computerized Adaptive Testing version of the Armed Services Vocational Aptitude Battery (CAT-ASVAB) merupakan salah satu tes kemampuan manusia yang telah diteliti secara seksama dalam sejarah pengetesan modern (Segall & Moreno, 1999). Dipersiapkan sejak tahun 1979 dan mulai digunakan pada bulan September 1990, CAT-ASVAB merupakan batere tes adaptif berskala besar yang diadministrasikan dalam situasi berisiko besar. Walaupun CAT merupakan inovasi terbaru dalam pengetesan yang telah digunakan pada program pengetesan berskala besar, sayangnya penerapannya terbatas oleh industri dalam seleksi personel (Overton et. al, 1997). Wainer (2000) mencatat pengadminstrasian melalui CAT dalam empat tes berskala besar, yaitu Graduate Record Examination (GRE), Graduate Management adminision Test (GMAT), the Test of English as Foreign Language (TOEFL), dan Armed Services Vocational Aptitude Battery (ASVAB). Sayangnya hanya ASVAB yang digunakan untuk seleksi personel, sedangkan ketiga tes lainnya dilakukan pada bidang pendidikan. Di Indonesia seiring maraknya pemanfaatan komputer dalam segala bidang, sayangnya tidak diikuti pemanfaatan untuk pengadministrasian tes psikologi di Indonesia. Pengembangan CT konvensional telah dilakukan oleh beberapa lembaga dalam skala kecil, misalnya untuk seleksi mahasiswa pada beberapa perguruan tinggi maupun seleksi dan penempatan karyawan di sejumlah perusahaan. Namun seperti telah dikemukakan sebelumnya bahwa pengadministrasian tes secara konvensional, baik PPT maupun CT, memiliki kelemahan yang disebabkan lamanya waktu pengadministrasian tes. Dampaknya, kelelahan dan motivasi pengerjaan tes yang dialami setiap penempuh tes menyebabkan performa tes tidak sesuai dengan kemampuan sebenarnya. Dengan demikian, sebenarnya pengadministrasian tes melalui CAT dapat dimulai dikembangkan karena memiliki potensi, baik peralihan dari CT menjadi CAT maupun pengembangan dari awal. Berdasarkan informasi dan publikasi yang ada, saat ini belum dilakukan pengaplikasian CAT di Indonesia, terutama di bidang PIO. Padahal bidang PIO memiliki potensi penggunaan dan pengembangan CAT karena memiliki kebutuhan pengetesan yang besar dan memungkinkan penggunaan fasilitas yang telah dimiliki.
Pendekatan Item Response Theory Pendekatan Item Response Theory (IRT) tidak berorientasi pada tes, tetapi berorientasi pada item tes (Hambleton dkk, 1991). Pendekatan IRT meletakkan sebuah dimensi kemampuan atau sifat dimana item tes bergantung pada respons dari individu penempuh tes (Wainer & Mislevy, 1990). Dengan kata lain, kemampuan individu (disebut theta atau θ) dan kemampuan item berada pada sebuah dimensi yang sama. Dengan demikian, dapat dilakukan perbandingan antar individu penempuh tes maupun perbandingan antar item-item tes. Perbandingan kemampuan penempuh tes dengan kemampuan item tes ini tidak dapat dilakukan pada pengukuran dengan pendekatan teori klasik. Pengukuran dengan pendekatan teori klasik (classical true score model) yang dikemukakan oleh Spearman menganggap bahwa karakteristik item tergantung pada kelompok individu dimana tes tersebut diujikan, yangdisebut sebagai group-dependent (Hambleton, Swaminathan, & Rogers, 1991)). Hal ini dapat terjadi apabila kelompok individu untuk pengujian tes berbeda dengan kelompok individu yang menjadi sasaran tes dibuat. Apabila kemampuan kelompok individu pada saat pengujian tergolong rendah, maka item-item tes cenderung menjadi sulit. Demikian sebaliknya, apabila kemampuan kelompok individu pengujian tes tergolong tinggi, maka item-item cenderung menjadi mudah. Apabila item-item tes ini diadministrasikan, kemampuan individu yang terukur akan dipengaruhi oleh kemampuan item tersebut. Pada tes dengan item yang sulit, individu akan cenderung dianggap memiliki kemampuan yang rendah. Begitu juga sebaliknya, tes dengan item yang mudah akan cenderung menganggap individu memiliki kemampuan yang tinggi. Hal ini menjelaskan bahwa kemampuan individu dipengaruhi oleh karakteristik item, yang disebut test-dependent (Embretson & Reise, 2000). Dari penjelasan di atas diketahui bahwa pada pendekatan klasik kemampuan item dipengaruhi oleh kemampuan uji coba dan kemampuan individu dipengaruhi oleh kemampuan item. Hal ini menyebabkan kesulitan untuk dapat membandingkan kemampuan antar individu yang mengerjakan tes berbeda serta sulit untuk membandingkan kemampuan item tes yang berbeda yang diujikan pada kelompok individu berbeda. 4 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
488
Measurement & Intervention section
Selain itu, standard error of measurement (SEM) pada pendekatan teori klasik diasumsikan bersifat konstan untuk semua penempuh tes dan kondisi tes serta berlaku spesifik (Embretson & Reise, 2000). Konsekuensinya, semua item tes diadministrasikan pada setiap penempuh tes. Tabel 1 memberikan perbandingan antara pendekatan teori klasik dan pendekatan IRT yang dikemukakan oleh Embretson dan Reise (2000). Tabel 1 Perbandingan pendekatan teori klasik dengan pendekatan IRT Pendekatan Teori Klasik Pendekatan Item Response Theory 1. SEM berlaku untuk semua skor pada populasi 1. Antar skor memiliki SEM berbeda, tapi dapat tertentu. digeneralisasikan antar populasi. 2. Semakin banyak item, semakin reliabel suatu 2. Tes dengan sedikit item dapat lebih reliabel tes. dibandingkan tes dengan banyak item. 3. Perbandingan skor tes dari beberapa form akan 3. Perbandingan skor tes dari beberapa form akan optimal apabila form-form tersebut paralel. optimal apabila derajat kesukaran bervariasi diantara individu. 4. Unbiased estimates dari properti item 4. Unbiased estimates dari properti item dapat bergantung dari sampel yang representatif. diperoleh dari sampel yang tidak representatif. 5. Skor tes diinterpretasi dengan membandingkan 5. Skor tes diinterpretasi dengan dibandingkan posisinya dalam kelompok normatif. dengan item. 6. Skala interval diperoleh dengan distribusi skor 6. Skala interval diperoleh dengan menerapkan normal. model pengukuran yang tepat. 7. Bentuk item campuran (mixed item format) 7. Bentuk item campuran dapat mengarahkan menyebabkan pengaruh yang tidak seimbang skor tes secara optimal. pada skor total tes. 8. Perubahan skor tidak dapat dibandingkan 8. Perubahan skor dapat dibandingkan secara secara berarti ketika tingkat skor awal berbeda. berarti ketika tingkat skor awal berbeda. 9. Analisis faktor terhadap item biner 9. Analisis faktor terhadap data mentah membuat menghasilkan obyek, bukan faktor. informasi analisis faktor secara maksimal. 10. Karakteristik item tidaklah penting untuk 10. Karakteristik item dapat berhubungan secara properti psikometri. langsung dengan properti psikometri. Ada tiga model yang sering digunakan dalam pendekatan IRT berdasarkan parameter item yang dipertimbangkan, yaitu model 1 parameter logistik (1 PL), 2 PL, dan 3 PL. Pada model 1 PL, hanya parameter kesukaran item (disimbolkan b) yang dipertimbangkan. Selain b, daya beda item (disimbolkan a) menjadi pertimbangan pada model 2 PL. Model 3 PL mempertimbangkan b, a, dan c (guessing parameter) dan biasanya digunakan pada item dengan pilihan jawaban. Semua parameter item diestimasi dalam satuan yang sama, yaitu satuan logit. Berbeda dengan teori klasik yang skor tesnya diperoleh dengan menghitung jawaban benar, penyekoran dalam IRT dilakukan untuk mendapatkan perkiraan kemampuan individu dalam kontinum kemampuan. Tiga metode penyekoran yang biasa digunakan adalah Maximum Likelihood (ML), MAP (maximum a posterori), dan EAP (expected a posteriori).
Computerized Adaptive Testing Computerized adaptive testing (CAT) merupakan generasi kedua dari penggunaan komputer untuk pengetesan (Bunderson et. al, 1989). CAT merupakan salah satu penerapan dari pengukuran dengan pendekatan IRT. Adaptif memiliki pengertian bahwa item yang diberikan sesuai dengan kemampuan setiap penempuh tes, sehingga setiap individu akan mendapatkan seperangkat item yang berbeda. CAT menggunakan dasar IRT untuk menciptakan sebuah algoritma dimana setiap penempuh tes mendapatkan sebuah tes yang merupakan pengukuran yang baik terhadap individu tersebut (Embretson & Reise, 2000). Apabila penempuh tes tidak dapat menjawab benar pada item yang diberikan, maka komputer akan memberikan item yang memiliki derajat kesukaran yang lebih rendah. Apabila penempuh tes tidak dapat menjawab benar, komputer akan memberikan item yang memiliki derajat kesukaran lebih rendah. 5 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
489
Measurement & Intervention section
Sebaliknya, apabila penempuh tes dapat menjawab benar, item yang diberikan selanjutnya adalah item dengan kesukaran lebih tinggi. Dengan demikian, CAT berbasis IRT biasanya berisi lebih sedikit item dan memiliki standard error of measurement (SEM) yang lebih kecil dibandingkan pengukuran PPT yang biasa atau konvensional (Embretson & Reise, 2000). Alur pengadministrasian CAT dapat dilihat pada gambar 1.
1. Mulai dengan perkiraan kemampuan awal
2. Memilih dan menampilkan item yang optimal
3. mengevaluasi respons penempuh tes
Tidak 6. Hentikan Tes
Ya
5. Aturan berhenti terpenuhi?
4. Estimasi skor dan standard error score
Gambar 1. Alur CAT Embretson dan Reise (2000) mengemukakan lima faktor yang perlu diperhatikan dalam CAT, yaitu: 1. Item bank. Tujuan dari CAT adalah untuk mengadministrasikan serangkaian item yang dapat memberikan informasi dan efisiensi yang maksimal untuk setiap penempuh tes. Oleh karena itu, tidak semua item tes yang tersedia diberikan pada setiap penempuh tes, berbeda dengan paper-pencil test atau CT konvensional yang memberikan semua item tes yang ada kepada setiap penempuh tes. Karena tujuan pengetesan adalah untuk mengukur dengan baik keseluruhan rentang kemampuan, maka idealnya tersedia sebuah item bank yang berisi sejumlah item yang memiliki kemampuan daya beda tinggi dengan parameter kesukaran tersebar diantara rentang kemampuan (Embretson & Reise, 2000). Embretson dan Reise (2000) menyarankan sekitar 100 buah item yang ada dalam item bank. Sebelum memasukkan item-item ke dalam bank, selain perlu dilakukan reviu, perlu dilakukan kalibrasi untuk menyesuaikan skala pengukuran. Jumlah subyek uji coba yang dibutuhkan dalam proses kalibrasi tergantung dari model IRT yang digunakan. Drasgrow (dalam Zickar et. Al, 1999) menyarankan 200 sampel untuk model 2 PL. ASVAB-CAT memiliki lebih dari 5.000 buah item dalam item bank yang berasal dari kalibrasi 100.000 orang tentara (Segall & Moreno, 1999), sedangkan item bank untuk seleksi pemogram komputer pada State Farm Insurance Company terdiri dari 164 item (Overton et. Al, 1997). Karena menggunakan pendekatan IRT, item-item baru dapat ditambahkan ke dalam item bank. Untuk mendapatkan item bank yang baik perlu dilakukan penelitian yang membutuhkan waktu. 2.
Mengadministrasikan item pertama. Apabila diasumsikan kemampuan penempuh tes dalam populasi terdistribusi secara normal, maka dapat dimulai dengan parameter kesukaran sebesar -0,5 hingga 0,5. Apabila diperoleh informasi mengenai kemampuan penempuh tes dalam kontinum kemampuan, maka informasi tersebut dapat digunakan untuk memilih tingkat kesulitan pada butir soal di awal. Rata-rata kemampuan (θ) dari populasi penempuh tes dapat digunakan sebagai perkiraan kemampuan sehingga dapat menjadi optimal (Thissen & Mislevy, 1990). Item bank juga seharusnya dalam jumlah yang cukup sehingga pemilihan item secara acak dapat terjadi, sehingga tidak semua penempuh tes menerima item pertama yang sama. Di lain pihak, beberapa penguji lebih suka untuk memulai dengan butir soal yang mudah sehingga penempuh tes memiliki pengalaman berhasil dalam menjawab, dengan demikian mengurangi kecemasan dalam mengerjakan tes (Embretson & Reise, 2000).
6 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
490
Measurement & Intervention section
3.
Pemberian skor. Dalam IRT ada tiga metode utama untuk mengestimasi kemampuan penempuh tes, yaitu ML (maximum likelihood), MAP (maximum a posterori), dan EAP (expected a posteriori). Beberapa peneliti tidak menganjurkan penggunaan informasi sebelumnya (MAP dan EAP) karena dapat berpotensi untuk mempengaruhi skor. Misalnya, apabila sedikit item yang diadministrasikan, maka tingkat kemampuan yang diestimasikan akan tertarik ke arah nilai rata-rata dari distribusi awal. Selain itu, pola respons yang sama akan mendapatkan skor tes yang berbeda. Kelebihannya dibandingkan ML adalah dapat memperkirakan kemampuan penempuh tes meskipun menjawab benar atau salah pada semua item. Sedangkan kelebihan ML adalah tidak bias, efisien, dan error diasumsikan berdistribusi normal Embretson & Reise, 2000). Pemilihan metode penyekoran berdasarkan kelebihan dari setiap metode.
4.
Pemilihan item berikutnya. Maximum item information adalah strategi yang paling sering digunakan, selain minimum expected posterior standard deviation (Thiessen & Mislevy, 1990). Pada strategi maximum information item yang dipilih adalah item yang memiliki parameter kesukaran mendekati perkiraan kemampuan penempuh tes saat itu. Sedangkan pada metode Bayesian, item yang dipilih adalah item yang dapat memaksimalkan expected posterior precision. Dalam perkembangan selanjutnya, pemilihan item terkait dengan metode content balancing dan item exposure control.
5.
Menghentikan Tes. Pengadministrasian item tidak berlangsung terus menerus. Ada dua kriteria umum untuk menghentikan administrasi CAT, yaitu variable length atau fixed length. Pada variable length atau disebut target precision (Thissen & Mislevy, 1990), administrasi CAT berhenti ketika SEM sudah mencapai batasan yang telah ditetapkan. menyebut kriteria ini sebagai. Kelebihannya adalah sesuai dengan pendekatan teori klasik yang menggunakan asumsi equal measurement error variance serta cocok untuk beberapa analisis statistik yang mempertimbangkan measurement error. Kriteria kedua, fixed length atau maximum number of items (Thissen & Mislevy, 1990), tes dihentikan apabila sejumlah item telah diadministrasikan. Kelebihannya adalah mudah untuk dilakukan dan penggunaan item dapat diperkirakan dengan tepat. Keduanya kriteria ini dapat digabungkan, apabila kemungkinan akan kehabisan item sebelum target keakuratan tercapai (khususnya apabila hanya sedikit jumlah item yang tersedia). Menurut Embretson dan Reise (2000), penggunaan SEM untuk menghentikan pengadministrasian tes disarankan untuk dipilih karena memanfaatkan algoritma dari CAT. Selain itu, Thissen dan Mislevy (1990), mengajukan pemberhentian item setelah selang waktu tertentu. Pengggunaan batas waktu ini tidak dianjurkan untuk power test, tapi akan memberikan keuntungan pada speed test. Penentuan SEM bervariasi antara satu peneliti dengan penelti lain, misalnya Ury (dalam Thissen & Mislevy, 1990) menggunakan SEM ≤ 0,3162 karena sama dengan reliabilitas konvensional sebesar 0,9. Sedangkan menurut Hornke (2000), dengan SEM ≤ 0,38, akan sepadan dengan koefisien reliabilitas sebesar 0,85. Di lain pihak, Blais dan Raiche (2002) menemukan apabila SEM ≤ 0,40 maka SEM dari tingkat kemampuan individu hanya berbeda sebesar 0,03.
Bunderson dkk (1989) mencatat beberapa kelebihan dari CAT, yaitu: (1) meningkatkan kontrol dalam menampilkan item, (2) meningkatkan keamanan tes, (3) memperkaya kemampuan tampilan, (4) diperoleh skor yang sama dengan waktu yang lebih singkat, (5) mengurangi error of measurement, dan (6) meningkatkan penyekoran dan pelaporan. Green (dalam Wainer, 1990) juga mengemukakan kelebihan dari CAT, yaitu: (1) meningkatkan keamanan tes, (2) individu dapat bekerja sesuai dengan kemampuannya, (3) setiap individu tetap produktif karena ditantang mengerjakan soal yang sulit, (4) mengatasi masalah yang terjadi dengan lembar jawaban, (5) tes diskor segera, (6) item dapat ditambahkan ke dalam tes, dan (7) dapat menggunakan item yang beragam. Jette, Haley, & Wei Tao (2007) menambahkan kelebihan CAT, yaitu kemampuan untuk memperbarui dan memperbaiki item bank. Tabel 2 memberikan perbandingan antara dua penempuh tes dari penelitian Yulianto (2006) dengan menggunakan 36 item APM sebagai item bank. Pada penelitian ini, item pertama yang diberikan dipilih secara acak dengan parameter kesukaran antara -0,5 hingga 0,5 dan item berikutnya dipilih berdasarkan item yang memberikan informasi maksimum terhadap perkiraan kemampuan awal (maximum item information). Metode ML digunakan untuk penyekoran dan tes berhenti apabila SEM dari skor ≤ 0,40. Pada penempuh tes AA, komputer secara acak memperkirakan kemampuannya sebesar -0,11 (theta = 7 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
491
Measurement & Intervention section
0,11), sedangkan penempuh tes BB diberikan theta = -0,22. Keduanya diberikan item 17 sebagai item pertama karena memiliki kesukaran mendekati perkiraan kemampuan awal keduanya (b=-0,10). Karena keduanya dapat menjawab benar, maka kemampuannya belum dapat diperkirakan sehingga diberikan theta tertinggi (theta = 4,00). Item 36 adalah item yang memiliki nilai b mendekati theta keduanya (b=2,21), sehingga diberikan sebagai item kedua. Baik tes AA dan BB ternyata tidak dapat menjawab benar sehingga diberikan theta = 1,05. Karena SEM skor masih di atas 0,40 maka tes dilanjutkan dengan memberikan item 35 yang memiliki b=1,18. AA mendapatkan theta sebesar 0,47 karena menjawab salah, sedangkan theta sebesar 1,77 diberikan kepada BB karena menjawab benar. Karena SE dari theta keduanya masih besar, tes masih dilanjutkan. Selanjutnya, AA diberikan item yang berbeda dengan BB karena memiliki theta yang berbeda. Di akhir tes (item ke 11), keduanya diberikan item 27, namun karena AA menjawab salah sedangkan BB menjawab benar, maka AA mendapat theta lebih kecil dibandingkan BB (0,87 < 1,82). Karena kedua theta ini memiliki SE yang sama atau lebih kecil dari 0,40, maka tes dihentikan untuk keduanya. Theta terakhir ini menjadi perkiraan skor tes untuk AA dan BB. Dari hasil ini diketahui hanya diperlukan 11 item untuk mengadministrasikan tes dibandingkan 36 item yang biasa dilakukan pada administrasi APM dengan PPT.
Tabel 2. Perbandingan respons dua penempuh CAT pada penelitian Yulianto (2006)
Hal yang Perlu Diperhatikan Dalam Mengembangkan CAT Untuk mengembangkan CAT, khususnya di bidang industri dan organisasi, ada dua faktor yang perlu diperhatikan, yaitu faktor sistem dan faktor manusia. Sistem merupakan media dalam komputer untuk mengadministrasikan tes. Oleh karena itu, perangkat lunak dan perangkat keras komputer perlu menjadi perhatian. i. Perangkat lunak. Bagaimana item diadministrasikan ditentukan oleh perangkat lunak yang digunakan. Perangkat lunak dapat dikembangkan sendiri atau menggunakan perangkat lunak yang telah ada, seperti Fasttest Pro yang dikeluarkan oleh Assessment Systems, Amerika Serikat (dapat dilihat di www.assess.com). Apabila mengggunakan perangkat lunak yang telah ada, fasilitas yang tersedia mungkin terbatas dan tidak memenuhi kebutuhan khusus dari tujuan pengetesan. Walaupun kemungkinan membutuhkan biaya yang lebih besar, fasilitas yang dibutuhkan dapat tersedia dengan membangun perangkat lunak sendiri. Perangkat lunak harus diujicobakan sebelum mulai diaplikasikan untuk pengetesan sebenarnya (Green, 1990). 8 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
492
Measurement & Intervention section
ii. Perangkat keras. Perangkat keras yang dibutuhkan terkait dengan perangkat lunak yang digunakan, misalnya dalam untuk menjalankan perangkat lunak penelitian Ackerman et. Al (1999) dibutuhkan prosesor minimal 486/66 Mhz dengan RAM minimal 16MB. Spesifikasi yang lebih rendah digunakan untuk menjalankan ASVAB-CAT, yaitu prosesor minimal 33 Mhz dengan RAM minimal 4MB (Segall & Moreno, 1999). Apabila akan ditampilkan item tes dengan gambar berwarna, maka diperlukan monitor dan grafik komputer yang cukup baik, terlebih lagi apabila melibatkan video atau gambar bergerak seperti yang dilakukan oleh Drasgow et. al (1999). Penambahan headphone atau pengeras suara perlu dilakukan apabila tes melibatkan pengadministrasian suara, misalnya yang dilakukan Vispoel (1999) untuk membuat tes bakat musik. Selain tampilan, cara penempuh tes berespons juga perlu diperhatikan, apakah menggunakan keyboard, mouse, atau media yang lain, terlebih lagi apabila tes bersifat speed test. Dalam berespons terhadap item tes, penempuh tes juga dipengaruhi faktor internal, selain kemampuan yang diukur oleh tes. Artinya, performa yang ditunjukkan oleh tes tidak selalu menunjukkan kemampuan sebenarnya. Untuk itu perlu diperhatikan dua faktor internal, yaitu kecemasan dan motivasi mengerjakan tes. i. Kecemasan tes. Situasi pengetsan dapat menimbulkan kecemasan saat individu mengerjakan tes (Hembree, dalam Tonidandel, 2002). Bagi individu yang belum pernah atau tidak terbiasa dengan komputer, mengerjakan tes dengan komputer akan menimbulkan kecemasan tersendiri. Dampak kecemasan terhadap performa tes masih kontradiktif. Walaupun dari sejumlah penelitian diketahui bahwa peningkatan kecemasan dapat menurunkan performa tes (Wise, 1997), Tonidandel et. al, (2002) tidak menemukan adanya hubungan antara performa tes dengan kecemasan. Hal ini juga didukung oleh Anastasi dan Urbina (1997) bahwa hubungan negatif antara kecemasan dan performa tidak terjadi pada penempuh tes dengan inteligensi tinggi. Dari penelitian Kim dan McLean (1995) ditemukan bahwa penempuh tes yang tidak termotivasi memiliki kecemasan yang lebih tinggi, dan sebaliknya. ii. Motivasi. Performa tes seorang individu sangat dipengaruhi oleh bagaimana ia termotivasi untuk mengerjakan tes. Penempuh tes yang termotivasi memiliki performa yang lebih tinggi dibandingkan penempuh tes yang tidak termotivasi (Kim & McLean, 1995). Karena sifatnya yang adaptif, CAT akan memberikan item tes yang lebih sulit kepada penempuh tes yang lebih mampu, dan sebaliknya. Dalam penelitian Betz dan Weiss (dalam Tonidandel et. al, 2002) menemukan bahwa penempuh tes yang menganggap tes yang dikerjakan lebih mudah memiliki motivasi yang tinggi dibandingkan penempuh tes yang menganggap mengerjakan tes lebih sulit.
Kesimpulan Dalam setiap pengetesan psikologi, khususnya dalam bidang industri dan organisasi, selalu diharapkan hasil yang diperoleh akurat dalam waktu yang cepat. Dalam penggunaan tes psikologi, PPT merupakan bentuk administrasi yang paling umum dilakukan di Indonesia. Namun ternyata bentuk administrasi ini memiliki kekurangan, misalnya keamanan tes atau kebocoran tes (yang paling sering terjadi), kesalahan penyekoran, perlu waktu lama untuk menyekor serta interpretasi skor tes, melibatkan banyak kertas, dan item yang mampu ditampilkan sangat terbatas. Di lain pihak, penggunaan komputer yang semakin meningkat, khususnya dalam bidang industri dan organisasi, memungkinkan dimanfaatkan untuk pengetesan psikologis. CT bukan membantu penyekoran dan interpretasi dari PPT, tetapi juga sekaligus mengadministrasikan, menyekor, dan menginterpretasikan tes. CT dapat menampilkan item yang sebelumnya tidak dapat dilakukan PPT serta menghindari kesalahan prosedur pengetesan dan penyekoran tes. Dengan menggunakan dasar IRT, CAT tidak hanya sekedar memindahkan item dari PPT ke dalam komputer, tetapi meng-administrasikan item tes yang sesuai dengan kemampuan penempuh tes. Akibatnya, CAT hanya mengadministrasikan sedikit item tes dengan waktu yang lebih singkat namun dengan keakuratan yang tinggi. Berbeda dengan PPT, untuk menggunakan CAT dalam industri dan organisasi diperlukan pengembangan terlebih dahulu. Misalnya, diperlukan waktu sekitar 5 tahun untuk mengembangkan sistem dan setelah 9 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
493
Measurement & Intervention section
melakukan serangkaian uji coba selama 6 tahun, CAT-ASVAB mulai digunakan tahun 1996 (Segall & Moreno, 1999). Selain waktu pengembangan, biaya pengembangan yang cukup besar perlu menjadi faktor pertimbangan. Dibutuhkan dana $5,152,544 untuk mengubah Minnesota Comprehensive Assessments menjadi CAT (Peterson et. Al, 1995). Namun waktu pengembangan dan biaya yang besar ini akan sangat berarti dengan kelebihan yang dimiliki CAT dibandingkan PPT atau CT konvensional. Pengembangan CAT, terutama dalam industri dan organisasi, menjadi tantangan sekaligus kemajuan dalam perkembangan pengukuran psikologis di Indonesia.
Referensi Ackerman, T. A., Evans, J., Park, K., Tamassia, C., & Turner, R. (1999). Computer Assessment using Visual Stimuli: a Test of Dermatological Skin Disorders. Dalam Fritz Drasgow & Julie B. OlsonBuchanan. Innovations in Computerized Assessment. New Jersey: Lawrence Erlbaum Associates, Publishers. Anastasi, A., & Urbina, S. (1997). Psychological Testing. 7th ed. New Jersey: Prentice-Hall Inc. Blais, J. & Raiche, G. (2002). Some Features of the sampling distribution of the ability estimate in computerized adaptive testing according to two stopping rules. Makalah disajikan pada 11th International Objective Measurement Workshop, New Orleans, April 2002 (tidak dipublikasikan). Bunderson, C.V., Inouye, D. K., & Olsen, J.B. (1989) The Four Generations of Computerized Educational Measurement. Dalam Robert L. Linn. Educational Measurement. 3rd ed. New York: American Council on Education & Macmillan Publishing Company. Cohen, Ronald J. & Swerdlik, Mark E. (1999). Psychological Testing and Assessment: an introduction to tests and measurement. 4th ed. California: Mayfield Publishing Company. Dragow, F., Olson-Buchanan, J. B., Moberg, P. J. (1999). Dalam Fritz Drasgow & Julie B. OlsonBuchanan. Innovations in Computerized Assessment. New Jersey: Lawrence Erlbaum Associates, Publishers. Embretson, S.E, & Reise, S.P. (2000). Item Response Theory for Psychologist. New Jersey: Lawrence Erlbaum Associates, Inc. Friendenberg, Lisa. (1995). Psychological Testing: Design, Analysis, and Use. Massachusetts: Allyn & Bacon. Green, B.F. (1990). System Design and Operations. Dalam H. Wainer, N.J. Dorans, R. Flugher, & B.F. Green. Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum Associates, Publishers. Hambleton, R.K., Swaminathan, H, & Rogers, H.J. (1991). Fundamental of Item Response Theory. California: Sage Publications, Inc. Hornke, L.F. (2000). Item Response Times in Computerized Adaptive Testing. Psicolόgica. 21, 175-178. Jette, Alan M., Haley, Stephen M.; & Wei Tao. (2007). Prospective Evaluation of the AM-PAC-CAT in Outpatient Rehabilitation Settings. Physical Therapy; April 2007; 87, 4; Academic Research Library, 385. Kaplan, R.M., & Saccuzzo, D.P. (2005). Psychological Testing: Principes, Applications, and issues. 6th ed. CA: Thomson-Wadworth. Kim, J. & McLean, J.E. (1995). The Influence of Examinee Test-Taking Motivation in Computerized Adaptive Testing. Makalah disajikan pada the Annual Meeting of the National Council on Measurement in Education. (tidak diterbitkan). Landy, Frank J; Shankster, Laura L; Kohler, & Stacey, S. (1994). Personnel selection and placement Annual Review of Psychology; ProQuest Social Science Journals, 45, 261-296. Murphy, K.R., & Davidshofer, K.O. (2001). Psychological Testing: Principles and Applications. 5th ed. New Jersey: Prentice-Hall, Inc. Overton, R.C., Harms, H.J., Taylor, L.R., & Zickar, M.J. (1997). Adaptive to Adaptive Testing. Personnel Psychology; Proquest Psychology Journals, 50, 1, 171-185. Peterson, K. A., Davison, M.L., Hjelseth, L., Angermeyr, J., Hodges, T., Kochmann, R., Mattson, D., Weiss, D.J., (1995). Computerizing Statewide Educational Assessments in Minnesota: A Report on the Cost and Feasibility of Converting the Minnesota Comprehensive Assessments to a Computerized Adaptive Format. Minnesota: Office of Educational Accountability, College of Education and Human Development, University of Minnesota. 10 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
494
Measurement & Intervention section
Schaeffer, G.A., Steffen, M., Golub-Smith, M.L., Mills, C.N., Durso, R. (1995). The Introduction and Comparability of the Computer Adaptive GRE General Test. GRE Board Report No. 88- 08aP, August 1995. New Jersey: Educational Testing Service. Segall, D.O., & Moreno, K.E. (1999). Development of the Computerized Adaptive Testing version of the Armed Services Vocational Aptitude Battery. Dalam ritz Drasgow & Julie B. Olson-Buchanan. Innovations in Computerized Assessment. New Jersey: Lawrence Erlbaum Associates, Publishers. Simms, L.J., & Clark, L.A. (2005) Validation of a Computerized Adaptive Version of Schedule of Nonadaptive and Adaptive Personality (SNAP). Psychological Assessment, vol. 17, no. 1, 28-43. Thissen, D., & Mislevy, R. J. (1990). Testing Algorithms. Dalam H. Wainer, N.J. Dorans, R. Flugher, & B.F. Green, Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum Associates, Publishers. Tonidandel, S., Quinones, M.A., & Adams, A.A. (2002). Computer-Adaptive Testing: The Impact of Test Characteristics on Perceived Performance and Test Taker’s Performance. Journal of Applied Psychology, Vol. 87, No. 2, 320-332. Vispoel, W.P. (1999). Creating Computerized Adaptive Tests of Music Aptitude: Problems, Solutions, and Failure Directions. Dalam Dalam Fritz Drasgow & Julie B. Olson-Buchanan. Innovations in Computerized Assessment. New Jersey: Lawrence Erlbaum Associates, Publishers. Wainer, H. & Mislevy, R.J. (1990) Item Response Theory, Item Calibration, and Proficiency Estimation. Dalam H. Wainer, N.J. Dorans, R. Flugher, & B.F. Green, Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum Associates, Publishers. Wainer, H. (1990). Introduction and History. Dalam H. Wainer, N.J. Dorans, R. Flugher, & B.F. Green. Computerized Adaptive Testing: a Primer. New Jersey: Lawrance Erlbaum Associates, Publishers. Wainer, H. (2000). CATs: Whither and Whence. Psicológica. 21, 121-133. Wise, S.L. (1997). Examinee Issues in CAT. Makalah disajikan pada the Annual Meeting of the National Council on Measurement in Education. (Tidak diterbitkan) Yulianto, Aries (2006). Pengaruh Bentuk Administrasi Tes dan Batas Waktu terhadap Skor Advanced Progressive Matrices. Tugas akhir Program Magister Psikologi, Kekhususan Psikometri, Fakultas Psikologi, Universitas Indonesia (tidak diterbitkan). Depok: Fakultas Psikologi, Universitas Indonesia. Zickar, M.J., Overton, R.C., Taylor, L.R., & Harms, H.J. (1999) The Development of Computerized Selection System for Computer Programmers in a Financial Services Company. Dalam Fritz Drasgow & Julie B. Olson-Buchanan. Innovations in Computerized Assessment. New Jersey: Lawrence Erlbaum Associates, Publishers.
11 BIENNIAL INTERNATIONAL CONFERENCE ON I/O PSYCHOLOGY 2007
495