TINGKAT VALIDITAS DAN REALIBILITAS TOAFL Oleh Muhbib Abdul Wahab Abstrak Penelitian ini dilatarbelakangi oleh penilaian sebagai orang bahwa soal-soal TOAFL itu tidak valid, tidak reliabel, dan terlalu sulit. Yang diteliti adalah hasil-hasil jawaban peserta TOAFL untuk form 3, 4, dan 5 dalam tahun 2003. Tujuan penelitian ini adalah untuk membuktikan tingkat validitas dan reliabilitas TOAFL. Karena cenderung bersifat memvalidasi berdasarkan angka-angka yang diskoring dari jawaban para responden, maka penelitian ini bersifat kuantitatif. Dengan menggunakan rumus uji validitas dan reliabilitas KR-20, scoring itu dianalisis. Hasilnya adalah: pertama, tingkat validitas isi cukup tinggi, sedangkan kriteria TOAFL tergolong sedang. Kedua, tingkat reliabilitas ketiga form TOAFL sangat tinggi, karena rerata tingkat reliabilitasnya berada pada rentangan 0,926. TOAFL memiliki tingkat keajegan yang sangat tinggi, sehingga dapat memberikan daya beda antara peserta yang mahir dan yang tidak. Hasil ini juga diperkuat dengan rata-rata nilai ujian tarjamah yang diikuti mereka: jika skor TOAFL-nya tinggi, nilai tarjamahnya juga tinggi, dan sebaliknya. Namun demikian, sebagai sebuah produk tes yang baru, TOAFL masih perlu terus dikembangkan dan direvisi.
ملخص البحث بل،( ليست لها صدق وال ثباتTOAFL) تنطلق خلفية ىذا البحث من دعوى البعض بأن أسئلة التوافل
وموضوع ىذا البحث أجوبة المشاركين في التوافل لألعداد الثالثة والرابعة والخامسة.تعتبر صعبة اإلجابة للغاية
ويع ّد البحث بحثا. والهدف من البحث تحقق مستوى الصدق والثبات للتوافل.3002 التي اختبرت خالل عام
ويسير تحليل البيانات على قانون.كميا ألنو يهدف إلى تحقيق وتثبيت الحسابات المحصلة من أجوبة اإلخباريين
ويتوصل البحث إلى نتائج أىمها أن مستوى الصدق لمضمون التوافل.30-اختبار مستوى الصدق والثبات ك ر
مما يمكن من التمييز بين، وأما مستوى ثباتها فهو عال. بينما مستواىا المعياري متوسط وصالح لالختبار،عال وىذه النتيجة تدعمها نتيجة للمشاركين في اختبار الترجمة من العربية.مشارك ماىر في العربية وآخر غير ماىر فيها
،إلى اإلندونيسية مفادىا أن من حصل على درجة عالية في التوافل حصل على نفس الدرجة الختبار الترجمة
وعلى كل حال فإن التوافل باعتبارىا إنتاجا اختباريا جديدا وإنجازا علميا ملموسا ال تزال في حاجة إلى.وبالعكس
.عدة أعمال جدية من التنقيح والتطوير
Penulis adalah mantan Ketua Divisi Pengembangan Bahasa Arab pada Pusat Bahasa dan Budaya UIN Syarif Hidayatullah Jakarta. Tulisan ini merupakan ringkasan hasil penelitian mengenai ―Tingkat Validitas dan Reliabilitas TOAFL‖. Penulis berterima kasih kepada Erta Mahyuddin dan Aceng Sholihin yang turut membantu pelaksanaan penelitian ini.
1
A. Pendahuluan TOAFL (Test of Arabic as a Foreign Language) atau al-Ikhtibârât fi al-Lughah al‘Arabiyyah al-Dirasat al-Islâmiyyah merupakan salah satu tes bahasa Arab standar di lingkngan pendidikan tinggi Islam di Indonesia1. Dalam tujuh tahun terakhir, TOAFL telah menjadi salah satu instrumen penting untuk menguji dan mengukur tingkat kemampuan calon peserta dan calon lulusan Program S1, S2, dan S3 UIN Jakarta. Kemunculan TOAFL ini cukup menarik, karena perkembangan bahasa Arab di tanah air selama ini cenderung ―stagnan‖ atau ―berjalan di tempat‖. Untuk UIN Jakarta, keberadaan TOAFL merupakan ―kebanggaan dan aset akademik‖ yang patut dikembangkan karena TOAFL tidak hanya memperkaya khazanah intelektual kebahasaaraban bagi UIN, melainkan juga memberikan ―angin segar‖ bagi prospek pembelajaran dan pengujian bahasa Arab di masa mendatang di Indonesia2. TOAFL didesain untuk menguji tingkat kehamarian pasif seseorang dalam bahasa Arab. TOAFL termasuk jenis proficiency test (ikhtibâr al-kafâ’ah), bukan tes pemerolehan (ikhtibâr tahshîlî atau achievement test).3 Karena itu, bahan atau materi yang diujikan bersifat umum, terbuka, dan tidak terkait secara langsung dengan apa yang pernah dipelajari oleh peserta tes dalam studi mereka secara formal, baik di sekolah, madrasah maupun di perguruan tinggi. Dibandingkan TOEFL yang sudah mendunia sejak 19634, usia TOAFL relatif masih muda, terbit pertama kali pada tahun 1999. Gagasan untuk membuat TOAFL diilhami oleh TOEFL. Namun substansi kebahasaaan dalam TOAFL tidak sepenuhnya sama dengan TOEFL. Tema-tema keislaman, seperti: ilmu kalam, tafsir, hadis, fiqh, tasawuf, filsafat, pendidikan, ekonomi, politik, sejarah peradaban Islam, dan sebagainya 1
Lihat Muhbib Abdul Wahab, Apa dan Mengapa TOAFL, Makalah disampaikan dalam dalam Pelatihan TOAFL, IAIN Sunan Gunung Jati Bandung, 24 Mei 2003. 2 Lihat Muhbib Abdul Wahab, ―Tantangan dan Prospek Pendidikan Bahasa Arab di Indonesia”, dalam Jurnal Âfâq ‘Arabiyyah, Jakarta: PBA FITK, Vol. 2, No. 1, Juni 2007. 3 Lihat Rusydî Ahmad Thu‘aimah, Manâhij Tadrîs al-Lugah al-'Arabiyyah bi al-Ta'lîm al-Asâsî, (Kairo: Dâr al-Fikr al-‗Arabî, 2001). 4 ARN (inisial), "Tips Ujian TOEFL", dalam Kompas, 10 Agustus 2003. TOAFL versi Arab baru dikembangkan oleh Arab Academy di Mesir sekitar lima tahun terakhir. Menurut penilaian sebagian dosen UIN Yogyakarta yang sudah melakukan studi banding ke sana, antara lain Drs. Khairon Nahdliyin, MA., TOAFL versi Arab Academy ini masih jauh di bawah standar TOEFL, dan dianggap terlalu mudah. Terlepas dari itu, TOAFL versi Pusat Bahasa UIN Jakarta adalah tes standar bahasa Arab yang pertama ada di Indonesia maupun dunia Arab.
2
cukup dominan dalam TOAFL. Perbedaan lainnya adalah jika skor tertinggi TOEFL berkisar 680, maka skor tertinggi TOAFL adalah 700. Jika TOEFL tidak menguji penguasaan gramatika secara spesifik, TOAFL menguji kemampuan nahwu dan sharaf, jabatan kata, i’râb (infleksi), bentuk kata dan makna beberapa makna adawât (partikel) yang digunakan dalam teks. Keberlangsungan dan keandalan TOAFL sebagai instrumen tes bahasa Arab yang valid dan reliabel di masa-masa mendatang, tentu saja, sangat menjadi harapan banyak pihak, baik UIN Jakarta, perguruan tinggi lainnya maupun Departemen Agama dan Diknas RI. Bahkan mantan Menteri Pendidikan Nasional, A. Malik Fadjar sangat mendukung adanya TOAFL di UIN, ketika bertemu mantan Rektor UIN (Azyumardi Azra), Purek Bidang Pengembangan Lembaga (Suwito) dan kami di kantor Mendiknas pada Juli 2003 lalu. Karena itu, uji validitas dan reliabilitas menjadi keharusan yang sangat mendesak, karena sejauh ini TOAFL belum pernah diuji dan dinilai validitas dan reliabilitasnya secara akademik. Pengujian validitas dan reliabilitas tidak hanya dapat menghasilkan tes yang lebih terpercaya, melainkan juga dapat menambah bobot kredibilitas dan akuntanbilitasnya, baik pada level substansi kebahasaannya maupun institusionalnya. Pengujian validitas dan reliabilitas TOAFL juga dapat memantapkan langkah UIN ke depan dalam pengembangan pembelajaran bahasa Arab, baik untuk tingkat S1, maupun S2 dan S3. B. Batasan dan Rumusan Masalah Obyek penelitian ini adalah lembar jawaban TOAFL yang dikerjakan oleh para peserta tes, baik program S1, S2 maupun S3, sepanjang tahun 2003. Hal ini didasarkan atas pertimbangan bahwa jawaban yang diberikan bersifat netral, bebas dari unsur ―rekayasa‖ dan betul-betul mencerminkan kemampuan bahasa Arab mereka, karena mereka sebelumnya tidak diberi tahu bahwa hasil tes mereka akan dijadikan sebagai bahan pengujian validitas dan reliabilitas. Lembar jawaban ini diperoleh dan didata dari peserta yang pernah mengikuti TOAFL pada Pusat Bahasa (PB) UIN Jakarta dalam tahun tersebut. Lembar jawaban yang diteliti dibatasi pada TOAFL form (edisi) 3, 4, dan 5, karena ketiga form itu paling sering digunakan. Ketiga form pertama relatif disusun 3
berdasarkan pengalaman sebelumnya sehingga tingkat ―kematangannya‖ relatif lebih tinggi daripada kedua form terakhir. Berdasarkan pembatasan tersebut, penelitian ini akan menjawab permasalahan berikut: ―Bagaimana tingkat validitas dan reliabilitas lembar jawaban TOAFL form 3, 4, dan 5 yang diujikan oleh Pusat Bahasa UIN Syarif Hidayatullah Jakarta dalam tahun 2003 dan diikuti oleh peserta tes dari program S2 dan S3 UIN Jakarta dapat dipertanggung-jawabkan secara akademik?‖ C. Tujuan dan Signifikansi Penelitian Tujuan
penelitian ini adalah untuk membuktikan: (1) tingkat validitas dan
reabilitas butir-butir soal TOAFL form 3, 4, dan 5; dan (2) tingkat kesulitan dan daya beda tes TOAFL yang digunakan oleh Pusat Bahasa Universitas Islam Negeri (UIN) Syarif Hidayatullah Jakarta dan diikuti oleh peserta tes dalam tahun 2003 dan awal 2004. Hasil penelitian ini diharapkan sangat signifikan atau berguna bagi: 1. Departemen Agama RI, hasil penelitian ini dapat dijadikan sebagai masukan bagi pengambilan kebijkan mengenai kemungkinan perlunya pemberlakuan TOAFL di lingkungan Pendidikan Tinggi Agama Islam, baik negeri maupun swasta. 2. UIN Syarif Hidayatullah Jakarta, untuk memberikan kepastian akademis berupa standarisasi tes yang bertaraf internasional, sehingga jika tingkat kelayakan, validitas dan reliabilitas TOAFL teruji secara signifikan dapat dipatenkan sebagai salah satu karya intelektual yang patut dikembangkan; 3. Pusat Bahasa, hasil penelitian ini sangat signifikan sebagai alat evaluasi untuk perbaikan dan peningkatan mutu TOAFL yang akan diterbitkan, sehingga tingkat validitas dan reliabilitas dapat lebih dipertanggungjawabkan secara akademik. 4. Penyusun TOAFL, terutama dalam perbaikan butir-butir soal yang dinilai tidak valid dan reliabel, dan pengayaan materi dan variasi substansi berikut model pertanyaan yang dimunculkan dalam TOAFL-TOAFL mendatang. D. Kerangka Teori 1. Tes sebagai Instrumen Evaluasi
4
Salah satu instrumen evaluasi pembelajaran bahasa Arab adalah tes atau ikhtibâr. Tes bahasa dirancang dan disusun sesuai dengan tujuan, materi dan sasaran pembelajaran itu sendiri. Tes inilah yang banyak dilakukan oleh tenaga pengajar/dosen, karena memang berkaitan dengan tugas edukatifnya, yakni memberi evaluasi dan nilai terhadap pemerolehan dan hasil belajar peserta didik. 5 Tes kebahasaan merupakan sejumlah prosedur dan instrumen yang didesain secara sistematis, digunakan oleh tenaga pengajar dalam mengamati dan mengetahui performa dan komptensi salah satu keterampilan bahasa peserta didik atau keseluruhannya, sesuai dengan ukuran kuantitatif tertentu dengan maksud mencapai tujuan tertentu pula. Pengerjaan tes sangat tergantung pada petunjuk yang diberikan, misalnya: melingkari atau memberi tanda silang pada salah satu huruf di depan pilihan jawaban, mencoret jawaban yang salah, menerangkan, mengisi titik-titik, dan sebagainya. 2 Macam-macam dan Bentuk Tes Bahasa Arab Tes kebahasaan itu sangat beragam, bergantung pada perbedaan tujuan, kepentingan, cara pemeriksaan, dan ruang lingkupnya. Dari segi tujuannya, tes kebahasaan dapat diklasifikasikan menjadi tiga, yaitu: tes pemerolehan atau tes prestasi (achievement test, al-ikhtibâr al-tahshîlî), tes profisiensi (proficiency test, ikhtibâr al-ijâdah aw al-kafâah), dan tes kesiapan berbahasa (language aptitude test, ikhtibâr al-isti‘dâd al-lughawî) atau tes prekdisi (predictive test, al-ikhtibâr al-tanabbu’).6 Tes pemerolehan bahasa adalah tes yang dimaksudkan menguji apa yang telah diperoleh peserta didik setelah menempuh atau memperoleh pengalaman pendidik-an dalam waktu tertentu. Tes ini terkait dengan kurikulum dan buku ajar yang digunakan oleh lembaga pendidikan, dan pada umumnya dilaksanakan dalam bentuk ujian pada pertengahan atau akhir semester. Sementara itu, tes profisiensi adalah tes yang tidak dimaksudkan untuk menguji pemerolehan kebahasaan peserta didik, dan tidak terkait dengan kurikulum, buku ajar 5
Lihat Yûsuf, Mâhir Ismâ‘îl Shabrî Muhammad dan Muhibb Mahmûd Kâmil al-Râfi‘î, al-Taqwîm al-Tarbawî: Ususuhu wa Ijrâatuhu, (Riyâdh: Maktabah al-Rusyd, 2003). 6 Rusydî Ahmad Thu‘aimah, Manâhij Tadrîs al-Lugah al-‘Arabiyyah bi al-Ta'lîm al-Asâsî, (Kairo: Dâr al-Fikr al-‗Arabî, 2001) dan Muhammad ‗Abd al-Khâliq Muhammad, Ikhtibârât al-Lugah, (Riyâdh: Jâmi‗at al-Malik Su‗ûd, Cet. I, 1989).
5
dan masa program belajar tertentu, melainkan menguji kemampuan dan keterampilan bahasa peserta didik secara umum. Yang termasuk jenis tes ini adalah TOEFL (Test of English as a Foreign Language) atau TOAFL (Test of Arabic as a Foreign Language). Sedangkan tes kesiapan atau prediksi adalah tes yang dimaksudkan untuk menentukan tingkat kesiapan peserta didik untuk belajar bahasa kedua, dan memprediksi kemajuan yang akan dicapai peserta didik. Tes ini juga mengukur aspek audio-visual peserta didik, terutama mengukur kemampuannya dalam membedakan berbagai tarâkîb lugawiyyah. Dari segi pembuatnya, tes dapat dibagi menjadi dua, yaitu: tes standar (al-ikhtibâr al-muqannan) dan tes tenaga pengajar (ikhtibâr al-mu‘allim). Yang pertama adalah tes yang dibuat oleh lembaga tertentu, dengan standar tertentu pula, untuk dipergunakan dalam skala yang luas, misalnya: tes bahasa Arab untuk seluruh kelas III Madrasah Aliyah dalam ujian akhir di wilayah Kabupaten Bogor. Sedangkan yang kedua adalah tes yang dibuat oleh tenaga pengajar untuk diujikan kepada peserta didiknya sendiri, dan bertujuan untuk mengentahui tingkat penguasaan bahasa yang telah dipelajarinya. Sementara itu, dari segi skoringnya, tes dapat dibagi menjadi dua, yaitu: tes essay atau tes subyektif dan tes obyektif . Yang pertama adalah tes yang dirancang sedemikian rupa, sehingga peserta didik memiliki kebebasan dalam memilih dan menentukan jawaban dalam bentuk uraian. Tes ini disebut subyektif karena jawaban peserta didik maupun koreksi yang diberikan oleh tenaga pengajar bersifat subyektif. Sedangkan yang kedua adalah tes yang itemnya dapat dijawab dengan memilih jawaban yang sudah tersedia, sehingga peserta didik menampilkan keseragaman data, baik yang menjawab benar maupun yang menjawab salah. Tes ini disebut obyektif karena pilihan jawaban bersifat pasti dan tertutup, tidak membuka peluang bagi peserta didik untuk memilih selain dari pilihan jawaban yang sudah ditentukan; demikian juga penilai juga tidak mungkin memberikan skoring yang menyimpang dari pilihan jawaban yang benar. Setidaknya ada empat bentuk tes obyektif, yaitu: pilihan ganda (al-ikhtiyâr min muta‘addid, multiple choise), pilihan benar-salah (ikhtiyâr al-shawâb wa al-khatha’), mencari pasangan (al-muzâwajah, matching), dan melengkapi isian (al-takmilah, completion) dengan jawaban yang bersifat tertutup. Dari segi cara dan bentuk pengujiannya, tes dapat dibagi menjadi dua: tes lisan (ikhtibâr syafawî) dan tes tulis (ikhtibâr tahrîrî). Yang pertama adalah tes yang soal dan 6
jawabannya diberikan secara lisan, sebaliknya yang kedua adalah tes yang soal dan jawabannya diberikan dalam bentuk tulis. Tes lisan dapat digunakan, terutama untuk menguji keterampilan berbicara (mahârat al-kalâm), membaca dan ekspresi verbal (ta‘bîr syafawî). Sedangkan tes tulis dapat digunakan untuk menguji cabang-cabang kebahasaaraban yang kurang cocok diujikan secara lisan, seperti: materi nahwu, tarjamah tahrîriyyah (tarjamah tulis), insyâ’, dan sebagainya.7 Aplikasi tes, dalam berbagai bentuk dan jenisnya tersebut, dalam pembelajaran bahasa Arab dapat disesuaikan dengan karakteristik materi yang akan diujikan. Materi istimâ’ berbeda dengan materi qawâ’id dan insyâ’. Demikian juga alat dan media yang digunakan. Tes keterampilan menyimak (ikhtibâr al-istimâ’), misalnya, idealnya dilakukan dalam laboratorium bahasa dengan menggunakan tape recorde dan earphone, atau sekurang-kurangnya didukung oleh rekaman kaset yang dibunyikan melalui tape, seperti halnya tes listening dalam TOEFL atau TOAFL. Tes mufradât juga dikembangkan dengan penuh variasi; tidak hanya berupa mencari sinonim dan antonim kata, melainkan juga dapat berupa mendefinisikan sesuatu, menyebut profesi, mencari salah kata yang asing dari suatu kelompok kata, dan sebagainya. Penyusunan tes menurut James Smith harus sesuai dengan norma-norma berikut. Pertama, butir-butir atau kalimat soal hendaknya hanya disesuaikan dengan tujuan khusus yang telah ditetapkan. Misalnya saja, jika kalimat soal ditujukan untuk menguji arti mufradât dalam sebuah kalimat, maka alternatif jawaban –jika berbentuk pilihan ganda— hendaknya tidak bias dengan unsur nahwu atau sharaf. Kedua, soal yang dibuat hendaknya sesuai dengan tingkat kemampuan peserta didik, terutama jika berbentuk tes pemerolehan. Ketiga, penyusunan tes hendaknya disertai petunjuk yang jelas, baik mengenai cara dan tempat menjawabnya serta lamanya waktu yang disediakan. Keempat, redaksi atau rumusan masing-masing soal harus jelas, tidak bersayap dan multiinterpretasi, terukur, dan diskriminatif. Kelima, waktu yang diberikan untuk menjawab soal harus sebanding dengan tingkat kesulitan dan banyak soal. Keenam,
7
Rusydî Ahmad Thu‘aimah dan Muhammd Sayyid Mannâ', Tadrîs al-'Arabiyyah fî al-Ta'lîm al'Âmm: Nazhariyyât wa Tajârib, (Kairo: Dâr al-Fikr al-'Arabî, Cet. I, 2000).
7
skoring penilaian harus obyektif berdasarkan proporsi yang ditetapkan, bukan berdasarkan rekaan, dan jauh dari subyektivitas penilai.8 3. TOAFL TOAFL adalah singkatan dari ―Test of Arabic as Foreign Language‖. Nama ini diilhami oleh TOEFL (Test of English as a Foreign Language), yang telah ada lebih dahulu. Penamaan ini memang dimaksudkan agar TOAFL lebih mudah diucapkan dan dikenal oleh banyak orang, meskipun terkesan ―menyerupai‖ TOEFL. Pusat Bahasa (PB) UIN Syarif Hidayatullah Jakarta sebetulnya telah membuat nama untuk tes ini, yaitu ―al-Ikhtibârât al-‘Arabiyyah li al-Dirâsât al-Islâmiyyah li alAjânib” atau ―al-Ikhtibârât fi al-Lughah al-‘Arabiyyah li al-Nâthiqîna bi Ghairihâ”. Akan tetapi, TOAFL sudah terlanjur lebih dikenal dan populer. Selain itu, TOAFL sudah menjadi ―trademark‖ atau ―brainmark‖ PB UIN Jakarta. TOAFL dilatarbelakangi oleh upaya serius untuk meningkatkan standar mutu kelulusan secara akurat dan jelas, sehingga tingkat kemampuan bahasa Arab lulusan UIN dapat diukur dengan standar tertentu secara pasti. Penyusunan TOAFL juga disemangati oleh usaha "memasukkan" unsur-unsur keislaman dalam materi tes, sehingga peserta tes berkenalan dengan wawasan dan dunia Islam secara umum. TOAFL lahir dengan visi: "Menjadikan bahasa Arab sebagai bahasa studi Islam dan sains". TOAFL mulai digunakan sebagai salah satu materi ujian masuk Program S2 dan S3 IAIN (kini UIN) Jakarta. Penggunaan TOAFL sebagai materi tes didasarkan pada kebutuhan akademis bahwa para peserta program S2 dan S3 dituntut mampu dan memiliki standar tertentu dalam berbahasa asing, utamanya Arab. Selanjutnya, pada 2000/2001, TOAFL juga digunakan sebagai materi tes masuk di beberapa Program Pascasarjana di luar UIN Jakarta, seperti: IAIN Palembang, IAIN Lampung, IAIN Mataram, STAIN Banjarmasin, dan IAIN Padang, bahkan juga PPs. Studi Islam, Universitas Muhammadiyah Jakarta. Saat ini, PB telah memiliki 8 edisi/form TOAFL; dua di antaranya telah dijadikan sebagai bahan pelatihan TOAFL dan yang empat masih ―dijaga kerahasiaannya‖ untuk digunakan sebagai bahan tes. 8
J.W. Oller, Language Test at School: a Pragmatic Aprroach, (London: tp. 1979); dan Harold, Madsen, Technique in Testing, (Oxford: Oxford University Press, Edisi I, 1983).
8
3.1. Perbedaan Antara TOEFL dan TOAFL Jika TOEFL pertama kali diselenggarakan pada 1963 di 165 negara, TOAFL baru lahir 1998 lalu, dan baru digunakan di Indonesia. Ketika dirancang, disadari bahwa format TOAFL mengadaptasi TOEFL. Karena itu, ada beberapa kesamaan, seperti: bentuk tes (multiple choise), sebagian kisi-kisi dan jumlah soal (150 item), dan skoring. Namun demikian, TOAFL berbeda sama sekali dengan TOEFL. Referensi TOAFL adalah literatur-literatur keislaman multidisiplin dan pengetahuan umum. Nuansa Islami lebih menonjol pada TOAFL daripada nuansa "Amerika" pada TOEFL. Di antara substansi TOAFL adalah: pemikiran Islam, tafsir, ilmu tafsir, hadits, ilmu hadits, sejarah dan peradaban, pemikiran politik, pendidikan, dakwah, fiqh dan ushûl fiqh, bahasa dan sastra Arab, ekonomi, komunikasi, dan perkembangan modern di dunia Islam. Perbedaan lain yang menjadi karakteristik TOAFL adalah adanya soal-soal gramatika (qawâ‘id), baik nahwu maupun sharf, termasuk i‘râb (analisis jabatan kata dalam struktur kalimat). Soal-soal ini penting dimunculkan karena pemahaman suatu teks atau wacana bahasa Arab dipengaruhi oleh pemahaman terhadap gramatikanya. Jika skor akhir TOEFL tertinggi sekitar 680, maka TOAFL membakukan skor akhir tertinggi dengan angka 700 dan terendah 210. 3.2. Aspek-aspek Materi Tes dan Jumlah Item Soal Aspek yang diujikan dalam TOAFL terdiri tiga bagian, yaitu sebagai berikut: 1.
Fahm al-Masmû’, sejumlah 50 item, meliputi: (a) pemahaman makna,
pengertian, penalaran logis atau kesimpulan dari sebuah pernyataan/kalimat yang diperdengarkan (20 item); (b) pemahaman maksud, topik, penalaran logis, kesimpulan dan makna tersirat dari dialog singkat antara dua orang (15 item); dan (c) pemahaman maksud, topik, penalaran logis, kesimpulan dan makna tersirat dari dialog panjang antara dua orang atau lebih dan alenia pernyataan (15 item). 2. Fahm al-Tarâkîb wa al-‘Ibârât, terdiri dari 40 item, meliputi: (a) melengkapi kalimat dengan ungkapan atau struktur baku (20 item), dan (b) mengenali dan menganalisis penggunaan kata, ungkapan dan atau struktur yang salah dalam sebuah kalimat (20 item). 9
3. Fahm al-Mufradât wa al-Nash al-Maktûb wa al-Qawâ‘id, terdiri dari 60 item, meliputi: (a) memahami tarâduf (sinonim) atau kedekatan makna suatu yang digarisbawahi sesuai dengan konteks kalimat (20 item); (b) memahami isi, topik dan makna tersirat dalam beberapa paragraf/wacana ((20 item); dan (c) memahami penggunaan, kedudukan (i’râb), derivasi (isytiqâq), bentuk kata dan istilah-istilah nahwu dan sharf (20 item). Waktu untuk menjwab semua soal tersebut (150 item) adalah 120
menit,
sehingga satu soal harus dijawab dalam waktu kurang dari satu menit. Karena itu, di antara kelemahan tes jenis ini adalah terbukanya kemungkinan guessing (asal tebak). Namun demikian, jumlah soal sebanyak itu (150 item) memang didesain untuk mengeliminasi tingkat "asal tebak" tersebut. Sejauh ini, TOAFL merupakan bentuk tes yang relatif terukur, standar, praktis, dan obyektif. 3.3 Validitas dan Reliabilitas TOAFL Ciri utama tes yang baik adalah kesesuaiannya dengan kemampuan yang diukur, atau yang disebut dengan validitas. Ciri lainnya adalah kemampuannya melakukan pengukuran dengan tingkat keajegan tertentu, yang dapat dikaji menurut beberapa metode . Dengan kata lain, validitas merupakan kesesuaian antara tes dengan apa yang ingin diukur dalam tes itu.9 Ada beberapa macam validitas. Di antaranya adalah validitas isi (content validity), validitas konstruk (construct validity), dan validitas kriteria (criteria validity). Ada juga yang mengklasifikasikan validitas menjadi empat, yaitu: validitas isi, validitas konstruk, validitas prediktif (predictive validity), dan validitas konkuren (concurent validity).10 Validitas isi menuntut adanya kesesuaian isi antara kemampuan yang ingin diukur dan tes yang digunakan untuk mengukurnya. Kesesuaian itu tercermin pada jenis kemampuan yang dituntut untuk mengerjakan tes, dibandingkan dengan jenis kemampuan yang dijadikan sasaran
pengukuran. Tes dimaksud harus benar-benar
memerlukan kemampuan menyimak, dan bukan kemampuan membaca. 9
Djiwandoro, M. Soenardi, Tes Bahasa dalam Pengajaran, Bandung: ITB, 1996; dan Sumarna Surapranata, Analisis Validitas, Reliabilitas dan Interpretasi Hasil Tes: Implementasi Kurikulum 2004, (Bandung: Rosda, 2004), h. 50. 10 Sumarna Surapranata, Analisis Validitas …, h. 51.
10
Validitas kriteria mengacu kepada kesesuaian antara hasil suatu tes dengan hasil tes lain yang digunakan sebagai kriteria. Kriteria yang digunakan untuk menetapkan tingkat kesesuaian itu dapat diambil dari tes sejenis yang diketahui cirri-cirinya sebagai tes yang baik, dan yang diselenggarakan pada saat yang hampir bersamaan. Validitas ini juga dikenal sebagai validitas kesetaraan waktu. Sementara itu, validitas konstruk merupakan sebuah konsep atau teori yang mendasari
penggunaan
jenis
kemampuan,
termasuk
kemampuan
berbahasa.
Pembuktiaan adanya validitas konstruk merupakan usaha untuk menunjukkan bahwa skor yang dihasilkan suatu tes benar-benar mencerminkan konstruk yang sama dengan kemampuan yang dijadikan sebagai sasaran pengukurannya. Dalam tes kemampuan qirâ’ah (membaca), misalnya, urusan validitas konstruk menyangkut pembuktian apakah skor yang dihasilkan benar-benar mencerminkan jenis dan rincian kemampuan membaca yang sama dengan jenis dan rincian kemampuan yang diperlukan untuk memahami bacaan.11 Yang akan dibuktikan dalam penelitian ini adalah tingkat validitas kriteria TOAFL, bukan validitas isi, karena diukur adalah hasil jawaban peserta tes dilihat dari kesesuaiannya dengan jawaban benar yang telah dirancang. Sementara itu, reliabilitas merupakan cirri tes yang memiliki kemampuan untuk menghasilkan pengukuran yang ajeg, tidak berubah-rubah, seandainya digunakan secara berulang-ulang pada sasaran yang sama.12 Dengan kata lain, reliabilitas terkait bukan dengan tesnya sebagai alat ukur, melainkan dengan hasil pengukurannya dalam bentuk skor yang ajeg. Skor sebagai hasil pengukuran itulah yang seharusnya ajeg, tidak berubah-ubah.13 Dengan ciri keajegan itu, peserta tes yang sama seharusnya memperoleh skor yang hampir sama pula, seandainya ia kembali mengerjakan tes yang sama, pada kesempatan yang berbeda. E. Skema Kerangka Konseptual Kerangka teori tersebut dalam diskemakan sebagai berikut: 11
Djiwandoro, M. Soenardi, Loc.cit. Sumarna Surapranata, Analisis Validitas …, h. 86. 13 Lihat Rusydî Ahmad Thu‘aimah, Manâhij Tadrîs al-Lughah al-'Arabiyyah bi al-Ta'lîm al-Asâsî, (Kairo: Dâr al-Fikr al-‗Arabî, 2001). 12
11
Tujuan Tes
Materi Bahasa
Validitas dan Reliabilitas
Visi & Misi TOAFL
Uji Validitas dan Reliabilitas TOAFL
Jenis Tes Bahasa
TOAFL
Peserta Tes
TOAFL yang Valid dan Reliabel Jadi, visi dan misi tes menentukan tujuan tes (untuk apa diujikan); sedangkan tujuan merupakan dasar penetapan materi tes (misalnya, untuk menguji tingkat pemahaman peserta mendengar dan membaca teks Arab), sekaligus menentukan jenis tes yang dipilih (multiple choise atau yang lain, proficiency atau achievement test). Jika dimaksudkan untuk menguji pengetahuan umum (tidak terbatas pada apa yang telah diperoleh peserta), maka proficiency test merupakan pilihan yang tepat. Agar praktis dan komprehensif, mencakup berbagai aspek keterampilan pasif dalam berbahasa Arab, TOAFL (yang berbentuk multiple choise dan relatif menyeluruh) merupakan alternatif tes yang tepat. Hanya saja, TOAFL masih perlu diuji coba validitas dan reliabilitas. Karena itu, agar menghasilkan TOAFL yang valid dan reliabel, jawaban peserta tes perlu diukur atau dihitung tingkat validitas dan reliabilitasnya. 12
F. Metode Penelitian 1. Definisi Operasional Agar penelitian terfokus, maka beberapa istilah berikut perlu diberikan definisi opersionalnya. a. Tingkat Validitas adalah derajat yang menunjukkan seberapa jauh item-item TOAFL dapat melaksanakan dengan tepat fungsi yang diembannya, yaitu fungsi untuk apa instrumen tes itu dipersiapkan dan diujikan. Dalam hal ini, TOAFL didesain untuk menguji dan mengukur kemampuan peserta dalam memahami apa yang didengar dalam bahasa Arab, struktur kalimat, idiom, kosakata, gramatika dan isi bacaan dengan cara memilih salah satu jawaban yang benar. b. Tingkat Reliabilitas (keterandalan) adalah rasio antara skor murni (true score) dengan varian skor yang diperoleh (observed score). Dengan kalimat lain, angka yang menunjukkan seberapa banyak variabelitas pada skor yang diperoleh disebabkan oleh perbedaan murni yang ada antara masing-masing individu dalam hal variabel yang diukur. Jika diujikan kepada orang yang sama secara berulangulang dan memperlihatkan keajegan, maka TOAFL dinilai reliabel. c. Derajat Kesulitan adalah derajat yang menunjukkan sulit tidaknya sebuah butir tes dalam membedakan antara kemampuan peserta tes yang pandai dan yang kurang pandai. d. Daya Beda adalah tingkat yang menunjukkan mampu tidaknya butir tes dalam membedakan antara kemampuan peserta tes yang pandai dan yang kurang pandai. 2. Jenis dan Subyek Penelitian Dari segi sumber data yang dikumpulkan, penelitian ini termasuk penelitian kepustakaan (library research). Karena data yang menjadi unit analisis adalah data kuantitatif, maka penelitian ini termasuk penelitian kuantitatif.14 Pembuktian valid dan reliabel atau tidaknya TOAFL akan dilakukan dengan uji statistik terhadap skor masingmasing item soal dalam TOAFL yang telah dijawab oleh masing-masing 50 peserta tes untuk tiga form: 3, 4, dan 5. Di samping itu, untuk lebih memperkuat uji statistik tersebut, dilakukan pula komparasi antara hasil tes tarjamah dengan skor TOAFL yang diperoleh, khususnya oleh mereka yang hendak masuk program S2 dan S3 UIN Jakarta. 14
Lihat Muhammad Ali, Strategi Penelitian Pendidikan, (Bandung: Angkasa, 1993); dan Muhammad Nazir, Metode Penelitian, (Jakarta: Ghalia Indonesia, Cet IV, 1999).
13
Jadi, subyek penelitian ini adalah para peserta tes TOAFL pada PB, baik yang bermaksud masuk program S2 dan S3, maupun yang hendak menyelesaikan S2 dan S3, atau mahasiswa S1 yang ―coba-coba‖ mengetahui skor mereka. 3. Sumber Data Data penelitian ini bersumber dari data pustaka dan data lapangan. Data pustaka diperoleh dari literatur yang berhubungan dengan TOAFL, hasil-hasil tes TOAFL, dan tes pada umumnya. Sedangkan data lapangan dihimpun melalui wawancara dengan para pakar di bidang evaluasi bahasa asing, khususnya bahasa Arab. Dalam hal ini, yang diwawancarai adalah Prof. Chotibul Umam, dan Dr. HM. Matsna, MA. Untuk lebih menjaring informasi dan pandangan dari stakeholder, 6 orang yang pernah menjadi peserta TOAFL (mahasiswa S2 dan S3) juga diwawancarai. Data hasil wawancara digunakan untuk memperkaya analisis dan diskusi temuan penelitian. 4. Teknik Pengumpulan Data Teknik pengumpulan data penelitian ini adalah sebagai berikut: a. Studi Dokumentasi Dokumen-dokumen yang dikumpulkan adalah berkas-berkas lembara jawaban TAOFL form 2, 3 dan 5 yang diikuti oleh para peserta TOAFL dan sudah dikoreksi. b. Pengujian atau pelaksanaan tes. Hal ini dimaksudkan untuk mengetahui hasil (skoring) TOAFL form 2,3 dan 5, sebagai pembanding terhadap hasil-hasil yang sudah ada. Penyelenggaraan tes dilakukan dan diikuti oleh peserta tes TOAFL yang rutin setiap Sabtu dan para peserta tes mahasiswa S1. 5. Teknik Analisis Data Untuk menganalisis data yang dihimpun berdasarkan hasil skor tes tersebut, prosedur analisis yang ditempuh adalah sebagai berikut: Pertama, untuk mengetahui tingkat validitas digunakan alat ukur yang disebut dengan validasi. Suatu alat ukur yang baik akan memiliki daya beda yang teliti.15 Pembuktian tingkat validitas TOAFL dilakukan berdasarkan pembuktian konstruk Untuk menghitung dan mengetahui tingkat validitas butir-butir soal TOAFL digunakan rumus korelasi biserial titik sebagai berikut dan penghitungan dilakukan aplikasi komputer program Exel: 15
Lihat Sumarna Surapranata, Analisis Validitas …, h. 61.
14
P
= µ+ Phis
— µx
√ P/q
óx
Keterangan: µ = rata-rata skor yang menjawab benar µx = rata-rata skor untuk seluruhnya p = proporsi yang menjawab benar (tingkat kesulitan) q = sama dengan 1-p Kedua, untuk mengetahui tingkat reliabilitas item-item pilihan ganda dalam TOAFL digunakan rumus reliabilitas KR-20 sebagai berikut16:
r n=
__k___
k-1
SD²1 ∑ (pq) SD²1
Keterangan: P = proporsi jumlah peserta yang menjawab benar butir ke-I P = 1-p Ketiga, karena tingkat validitas dan reliabilitas terkait erat dengan daya beda yang diperlihatkan oleh peserta (antara yang pandai dan yang kurang pandai), maka tahap selanjutnya adalah analisis daya beda butir masing-masing soal TOAFL. Keempat, setelah mengetahui semua itu, komparasi dan kontrol terhadap nilai hasil terjemahan dilakukan untuk mengetahui ada tidaknya hubungan antara yang mendapat skor tinggi/rendah dalam TOAFL dengan terjemahan mereka. Diasumsikan bahwa semakin tinggi skor TOAFL yang diperoleh semakin tinggi pula nilai terjemahnya. Kelima, sementara itu, hasil wawancara dengan pakar tes, baik Arab maupun Inggris (TOEFL) dijadikan sebagai data yang memperkaya dan melengkapi hasil interpretasi terhadap penggunaan rumus-rumus di atas. G. Temuan Penelitian 1. Uji Validitas TOAFL Setelah itu, jawaban peserta dari nomor 1 sampai 150 dicocokkan dengan kunci jawaban yang benar, lalu dihitung dengan menggunakan rumus tersebut. Penghitungan 16
Sumarna Surapranata, Analisis Validitas …, h. 114.
15
validitas ini baru terbatas pada hasil skor atau jawaban peserta, belum melihat secara lebih cermat validitas isinya. Karena, peserta yang berlatarbelakang pendidikan nonkebahasaaraban hampir dapat dipastikan memperoleh skor rendah dibandingkan dengan yang berlatarbelakang bahasa Arab. Karena itu, validitas yang dibuktikan hanyalah validitas kriteria. Setelah melalui penghitungan dengan aplikasi komputer program Exel, diperoleh hasil sebagai berikut. Pertama, jumlah item soal yang dinilai valid untuk TOAFL form 3 sebanyak 61 soal (41%), sedangkan yang tidak atau kurang valid dan dipandang perlu didrop adalah 89 soal (59%). Kedua, jumlah item soal yang dinilai valid untuk TOAFL form 4 sebanyak 86 soal (57%), sedangkan yang tidak atau kurang valid dan dipandang perlu didrop adalah 64 soal (43%). Ketiga, jumlah item soal yang dinilai valid untuk TOAFL form 5 sebanyak 52 soal (35%), sedangkan yang tidak atau kurang valid dan dipandang perlu didrop adalah 98 soal (65%). Jika ketiga form digabungkan, maka rerata tingkat validitas TOAFL sementara ini adalah 44% (66 soal valid), dan sisanya 56% (84 soal) dinilai kurang valid, karena jawaban para peserta dinilai kurang atau tidak sesuai dengan tujuan pengukuran dalam TOAFL itu sendiri, baik untuk bagaian istimâ’ (keterampilan menyimak), struktur (tarakib) maupun kemampuan membaca dan memahami qawâ’id. Tingkat validitas TOAFL di bawah 50% tersebut boleh jadi disebabkan oleh mayoritas peserta yang mengikuti tes belum mengetahui TOAFL itu sendiri. Hal ini diperkuat dengan hasil wawancara terhadap 8 peserta yang pada umumnya menyatakan bahwa mereka rata-rata baru pertama kali mengikuti TOAFL. Jika dianalisis dari segi tingkat diskriminasi, terutama untuk dua form terakhir (4 dan 5), hal mana peserta TOAFL dengan form 4 rata-rata adalah mahasiswa S2 dan S3, sementara peserta TOAFL dengan form 5 adalah mahasiswa semester I Jurusan Pendidikan Bahasa Arab UIN dan belum pernah mengikuti pelatihan dan mendapat informasi yang memadai dengan TOAFL, maka daya beda antara kedua form tersebut dapat dihitung dengan menggunakan rumus D = (T-R): N. Rumus ini digunakan untuk
16
membandingkan jumlah jawaban benar pada kelompok (form) yang skornya tinggi (T) dan kelompok yang skornya Rendah, lalu dibagi dengan jumlah T atau R. Diketahui bahwa rata-rata jawaban benar untuk peserta TOAFL form 4 adalah 70, sedangkan rata-rata jawaban benar untuk form 5 adalah 40. Adapun jumlah peserta (N) masing-masing form adalah 50 orang. Dengan demikian, hasil hitungnya adalah sebagai berikut: D = (70 – 40) : 50 = 30: 50 = 0,60 (60%) Jika dikonsultasikan kepada indeks diskriminasi berikut: 0,50 atau lebih = baik antara 0,20 dan 0,50 = sedang di bawah 0,20 = kurang 0
= tidak ada diskriminasi,
maka TOAFL cukup baik dalam mendiskrimasi tingkat kemampuan peserta. Hal ini berarti bahwa validitas isi TOAFL cukup tinggi, sehingga yang perlu dikembangkan lebih lanjut adalah menghubungkan antara validitas isi dan validitas konstruk, melalui uji coba terbatas dan intensif. Sebagai komparasi mengenai validitas isi TOAFL, dapat dikemukakan bahwa dari 109 peserta tes masuk S2 Program Pascasarjana 2004 ditemukan sebanyak 23 peserta yang memperoleh skor di atas 450 (Nilai ini kalau dikonversi dalam rentangan 0100, maka setara dengan 65). Setelah ditelusuri nilai tarjamahnya (selain TOAFL peserta ujian masuk S2 dan S3 juga diuji kemempuan menerjemahkan teks dari bahasa Arab ke dalam bahasa Indonesia), data bahwa skor TOAFL yang diperoleh peserta tes masuk S2 maupun S3 menunjukkan kedekatan hubungan dengan nilai tarjamah, karena selisih antara nilai konversi TOAFL dan nilai tarjamah hanya 3-4. Sebaliknya, peserta tes masuk yang skor TOAFL-nya di bawah 450 rata-rata tidak memperoleh nilai tarjamah lebih dari 60. Ini berarti bahwa validitas isi TOAFL relatif tinggi, karena perolehan skor TOAFL dapat dikontrol atau diperbandingkan dengan perolehan nilai tarjamah (ArabIndonesia).
17
2 Uji Reliabilitas TOAFL Uji reliabilitas TOAFL dilakukan terhadap masing-masing 50 peserta tes dengan form 3, 4, dan 5. Prosedur yang ditempuh adalah dengan menggunakan rumus KR-20. Oleh karena peserta tes rata-rata baru sekali mengikuti TOAFL, maka tingkat reliabilitas yang diukur itu didasarkan atas penghitungan persentase jawaban benar untuk masingmasing butir soal (diberi tanda p) dan juga butri soal yang salah (diberi tanda q), lalu dihitung pula total varian dari seluruh skor berdasarkan hasil hitung jawaban dari dua kelompok peserta (1-25) dan (26-50 responden), kemudian dihitung siqma (∑) p dan q, dan akhirnya dihitung dengan KR-20. Berdasarkan penghitungan dengan mengaplikasikan program exel, diperoleh hasil tingkat reliabilitas sebagai berikut: Pertama, tingkat reliabilitas form 3 TOAFL adalah sebagai berikut: K = 61, Variansi total = 146.336; sedangkan p (jawaban benar) sebanyak 42% dan q sebanyak 58%. Sigma p*q sebesar 13.4872, sehingga KR-20 = 0.92296. Kedua, tingkat reliabilitas form 4 TOAFL adalah sebagai berikut: K = 86, Variansi total = 327.389; sedangkan p (jawaban benar) sebanyak 36% dan q sebanyak 64%. Sigma p*q sebesar 19.3232, sehingga KR-20 = 0.95205. Ketiga, tingkat reliabilitas form 5 TOAFL adalah sebagai berikut: K = 52, Variansi total = 91.9629; sedangkan p (jawaban benar) sebanyak 62% dan q sebanyak 38%. Sigma p*q sebesar 10.6252, sehingga KR-20 = 0.9018. Jika hasil perhitungan tersebut dikonsultasikan dengan rentangan tingkat korelasi (antara jawaban benar dan salah dari peserta TOAFL) sebagai berikut: Amat tinggi
= antara 0,90 dan 1,00
Tinggi
= antara 0,70 dan 0,89
Sedang
= antara 0,50 dan 0,69
Rendah
= antara 0,30 dan 0,49
Amat Rendah = kurang dari 0,30, maka dapat dipastikan bahwa ketiga form TOAFL yang diteliti tersebut berada dalam tingkat reliabilitas yang amat tinggi, karena rerata tingkat reliabilitasnya berada pada
18
rentangan 0,926. Dengan demikian, soal-soal TOAFL memiliki tingkat keajegan yang sangat tinggi, sehingga dapat memberikan daya beda yang sangat ―diskriminatif‖ antara peserta yang mampu menjawab dengan yang tidak mampu.
H. Analisis dan Diskusi Berdasarkan hasil uji statistik dan penelusuran pandangan para peserta tes dan pakar bahasa Arab, diperoleh temuan bahwa eksistensi TOAFL perlu dipertahankan, direvisi dan diperbaharui sesuai dengan tuntutan dan perkembangan zaman. Keberadaan TOAFL bukan hanya dapat menjadi kebanggaan UIN, melainkan juga layak disosialisasikan secara lebih luas, sehingga penggunaannya tidak hanya terbatas di UIN Jakarta. Semua yang diwawancarai tampaknya setuju bahwa TOAFL secara bertahap dapat diterapkan pada program S1, dimulai dari jurusan-jurusan yang berorientasi kepada penguatan kompetensi berbahasa Arab, seperti Jurusan PBA, BSA, Tafsir Hadist, Fakultas Syari‘ah dan Hukum, dan Fakultas Dirasat Islamiyyah. Dari segi validitas kriteria ditemukan bahwa validitas TOAFL masih tergolong rendah, namun dari segi validitas isi, TOAFL tergolong valid, mempunyai daya beda dan tingkat diskriminasi yang relatif tinggi, sehingga soal-soalnya layak digunakan sebagai instrumen tes yang handal. Sementara itu, dari segi uji reliabilitasnya, TOAFL mempunyai tingkat reliabilitas yang sangat tinggi. Hal ini membuktikan bahwa tingkat keajegan TOAFL itu menggambarkan siapapun peserta tes TOAFL yang mengikutinya, selama memiliki kemampuan berbahasa Arab yang memadai, akan memperoleh skor yang tinggi. Jika diperbandingkan antara skor TOAFL dan tarjamah, diperoleh hasil bahwa nilai tarjamah dapat menjadi salah satu ―variabel‖ kontrol yang dapat menggambarkan tingkat kemampuan berbahasa Arab, karena peserta yang mendapat skor di atas 450 cenderung mempe-roleh nilai tarjamah lebih tinggi dibandingkan dengan yang mendapat skor kurang dari 450. Selain itu, sebagai sebuah instrumen, TOAFL juga perlu diuji coba, misalnya diujikan kepada mahasiswa jurusan Pendidikan Bahasa Arab, sebelum direvisi dan dipublikasikan untuk kepentingan pengujian secara permanen. Pematangan soal-soal
19
oleh para pakar secara berkelanjutan perlu dilakukan agar mutu soal betul-betul terjamin. Soal-soal TOAFL dipandang perlu dapat menghindari kemungkinan spekulasi atau asal tebak dari peserta. Pada tataran teknis pelaksanaannya, ujian TOAFL juga perlu dilakukan dalam suasana yang nyaman, terawasi dengan baik, dan menyenangkan. Dari hasil pengamatan dan wawancara terungkap, bahwa ada sejumlah faktor mempengaruhi tingkat validitas dan reliabilitas TOAFL. Pertama, jumlah responden yang terbatas hanya 50 orang untuk setiap form. Jika jumlah peserta yang diteliti lebih dari 100, kemungkinan besar tingkat validitas kriterianya lebih tinggi. Kedua, sebagian peserta masih belum memiliki informasi yang memadai mengenai TOAFL, sehingga sosialisasi perlu digalakkan. Ketiga, kualitas suara (tidak semua pengisi suara dari native speaker langsung) dalam fahm al-masmû’ tidak atau kurang mencerminkan suara khas Arab, karena sebagian besar diisi oleh penutur bahasa Indonesia. Keempat, jeda waktu antara satu soal dengan soal berikutnya relatif pendek, sehingga bagi yang tidak dapat menjawab dengan tepat, peluang untuk berspekulasi menjadi sangat besar. Kelima, kualitas penyelenggaraan ujian TOAFL terkadang kurang baik, karena tape recorder yang digunakan kurang memadai (suaranya terkadang kurang jelas)17.
I. Kesimpulan Berdasarkan rumusan masalah, hasil uji statatistik dan wawancara dengan 6 peserta TOAFL dan 2 pakar bahasa Arab, diperoleh kesimpulan sebagai berikut: Pertama, tingkat validitas kriteria TOAFL (tiga form: 3, 4 dan 5) adalah 44% (66 soal valid), dan sisanya 56% (84 soal) dinilai kurang valid, sementara tingkat validitas isinya cukup tinggi. Jumlah soal yang valid untuk form 3 sebanyak 61 soal (41%), sedangkan yang kurang valid adalah 89 soal (59%). Jumlah soal yang valid untuk form 4 sebanyak 86 soal (57%), sedangkan yang kurang valid adalah 64 soal (43%). Adapun jumlah soal yang valid untuk form 5 sebanyak 52 soal (35%), sedangkan yang kurang valid adalah 98 soal (65%).
17
Disarikan dari hasil wawancara dengan Prof. Dr. Chotibul Umam dan Prof. Dr. Moh. Matsna HS., MA. dan sejumlah mahasiswa yang pernah mengikuti tes TOAFL.
20
Kedua, tingkat
reliabilitas ketiga form TOAFL sangat tinggi, karena rerata
tingkat reliabilitasnya berada pada rentangan 0,926. Tingkat reliabilitas form 3 berada pada rentangan 0.92296, tingkat reliabilitas form 4 berada pada rentangan 0.95205, dan tingkat reliabilitas form 5 berada pada rentangan 0.9018. Hal ini berarti bahwa TOAFL memiliki tingkat keajegan yang sangat tinggi, sehingga dapat memberikan daya beda yang sangat ―diskriminatif‖ antara peserta yang mahir dan yang tidak. Ketiga,
tidak ditemukan perbedaan yang signifikan antara perolehan skor
berdasarkan latar belakang pendidikan peserta, baik S1, S2 maupun S3, karena yang sangat menentukan perolehan skor adalah tingkat kemampuan berbahasa. Namun dapat dipastikan bahwa peserta yang berlatarbelakang pendidikan bahasa Arab relatif lebih tinggi perolehan skor TOAFL maupun nilai tarjamahnya. Keempat, terdapat faktor substantif dan teknis yang mempengaruhi tingkat validitas dan reliabilitas TOAFL. Di antara faktor substantif itu adalah pilihan jawaban, terutama bagian qirâ’ah, didapati masih belum distingtif, terlalu mirip satu sama lain, sehingga membingungkan. Selain itu, kualitas suara dalam fahm al-masmû’ yang mayoritas diisi orang Indonesia juga mempengaruhi hasil jawaban peserta. Adapun faktor teknis, antara lain, meliputi: (1) terbatasnya responden (50 orang) yang diteliti untuk setiap form, (2) sosialisasi TOAFL belum optimal, sehingga masih ada peserta yang salah dalam cara menjawabnya; (3) pendeknya jeda waktu antara satu soal dengan soal berikutnya, sehingga memicu spekulasi dalam menjawab; dan (4) kualitas penyelenggaraan ujian TOAFL terkadang kurang nyaman dan memuaskan.
J. Rekomendasi Sesuai dengan kesimpulan dan saran-saran dari interviewee, dipandang perlu direkomendasikan hal-hal berikut. Pertama, PB UIN Jakarta perlu melakukan revisi dan ujicoba terhadap TOAFL edisi baru agar dapat ditingkatkan validitas dan reliabilitasnya. Melalui uji coba itu diketahui mana soal yang harus didrop dan dipertahankan, dan mana soal yang perlu diperbaiki.
21
Kedua, proses penyusunan TOAFL hendaknya melibatkan banyak pakar dan dapat didiskusikan secara lebih matang, sehingga hasilnya lebih optimal. Karena itu, PB juga dituntut untuk dapat memberikan alokasi anggaran dana yang lebih memadai untuk penyusunan dimaksud. Ketiga, PB juga perlu menyusun secara komprehensif buku/modul panduan TOAFL dan dipublikasikan untuk umum, agar para mahasiswa atau peminat dapat mempelajarinya dengan seksama. Keempat, sosialisasi TOAFL di kalangan mahasiswa UIN Jakarta maupun yang lain perlu lebih ditingkatkan, agar masyarakat luas mempunyai kesadaran lebih tinggi dalam mempelajari bahasa Arab. Kelima, pengisi suara hendaknya berasal dari penutur bahasa Arab asli, sehingga performa dan kualitas suaranya betul-betul ―Arab murni‖ bukan ―Arab Indonesia‖.
DAFTAR PUSTAKA Abdul Wahab, Muhbib, "Apa dan Mengapa TOAFL", Makalah Disampaikan dalam Pelatihan TOAFL, IAIN Sunan Gunung Jati Bandung, 24 Mei 2003. Ali, Muhammad, Strategi Penelitian Pendidikan, Bandung: Angkasa, 1993. Anîs, Ibrâhîm dkk., al-Mu’jam al-Wasîth, Kairo: Majma‘ al-Lughah al-‗Arabiyyah, Jilid I, Cet. II,1973. Arikunto, Suharsimi, Dasar-dasar Evaluasi Pendidikan, Jakarta: Bumi Aksara, Cet. III, 2002. ARN (inisial), "Tips Ujian TOEFL", dalam Kompas, 10 Agustus 2003. Athiyyah, Na‗îm, al-Taqyîm al-Tarbawî: Ushûluhu wa Tharâiquhu, Beirût: Dâr alKitâb al-Lubnânî, t.t. Buchori, Muchtar, Teknik-teknik Evaluasi Pendidikan, Bandung: Jemmars, 1980. Djiwandoro, M. Soenardi, Tes Bahasa dalam Pengajaran, Bandung: ITB, 1996. ETS (Educational Testing Services), TOEFL Sample Test, Princeton: ETS, 1989. Hannurah, Ahmad Hasan, al-Mahârat al-Lughawiyyah: Mustawayâtuha wa Wasâ’il Qiyâsiha, Thantha: Dâr al-Mathbû‘at al-Jadîdah, 1989. Ibn Fâris, Mu'jam al-Maqâyîs fî al-Lugah, Ditahqiq oleh Syihâbuddîn Abû 'Amr, Damaskus: Dâr al-Fikr, 1998. al-Khûlî, Muhammad 'Alî, Mu'jam 'Ilm al-Lugah al-Tathbîqî, Beirût: Maktabah Lubnân, Cet. I, 1986. Madsen, Harold, Technique in Testing, Oxford: Oxford University Press, Edisi I, 1983. Muhammad, Muhammad ‗Abd al-Khâliq, Ikhtibârât al-Lugah, Riyâdh: Jâmi‗at al-Malik Su‗ûd, Cet. I, 1989. Nazir, Muhammad, Metode Penelitian, Jakarta: Ghalia Indonesia, Cet IV, 1999. Oller, J.W. Language Test at School: a Pragmatic Aprroach, London: tp. 1979. Thaha, M. Chabib, Teknik Evaluasi Pendidikan, Jakarta: Rajawali Pers, 1991. Thu‘aimah, Rusydî Ahmad, Manâhij Tadrîs al-Lugah al-‘Arabiyyah bi al-Ta'lîm alAsâsî, Kairo: Dâr al-Fikr al-‗Arabî, 2001. 22
Ta‘lîm al-‘Arabiyyah li Gair al-Nâthiqîna bihâ: Manâhijuhu wa Asâlîbuhu, Rabâth: ISESCO, Cet. I, 1989. ------ dan Muhammd Sayyid Mannâ', Tadrîs al-'Arabiyyah fî al-Ta'lîm al-'Âmm: Nazhariyyât wa Tajârib, Kairo: Dâr al-Fikr al-'Arabî, Cet. I, 2000. -------, Manâhij Tadrîs al-Lughah al-'Arabiyyah bi al-Ta'lîm al-Asâsî, Kairo: Dâr al-Fikr al-‗Arabî, 2001. ------ dan Muhammd Sayyid Mannâ', Tadrîs al-'Arabiyyah fî al-Ta'lîm al-'Âmm: Nazhariyyât wa Tajârib, Kairo: Dâr al-Fikr al-'Arabî, Cet. I, 2000. Tim Penyusun, Pusat Bahasa dan Budaya UIN Syarif Hidayatullah Jakarta, Jakarta: PBB-UIN, 2004. ------, Prospektus Pusat Bahasa dan Budaya UIN Jakarta: Bidang Bahasa, Jakarta: PBB UIN, 2004. Victoria, Neufeldt (Ed.), Webster’s New World Dictionary, New York: Webster‘s New World, 1988. Wehr, Hans, Mu'jam al-Lugah al-‘Arabiyyah al-Mu’âshirah: ‘Arabî-Inklizî, Beirût: Maktabah Lubnân, 1980. Yâqût, Muhammad Sulaimân, Manhaj al-Bahts al-Lughawî, Alexandria: Dâr alMa‘rifah al-Jâmi‘iyyah, 2002. Yûsuf, Mâhir Ismâ‘îl Shabrî Muhammad dan Muhibb Mahmûd Kâmil al-Râfi‘î, alTaqwîm al-Tarbawî: Ususuhu wa Ijrâatuhu, Riyâdh: Maktabah al-Rusyd, 2003. -----,
23