BAB I PENDAHULUAN
1.1
Latar Belakang Permasalahan Instrumen pengukur sejauh mana penguasaan kompetensi suatu bidang
keilmuan seseorang dapat diketahui dengan melakukan tes. Tes memiliki berbagai macam jenis, bergantung pada tujuannya, seperti tes untuk fungsi formatif, diagnostik, sumatif, dan penempatan. Kontroversi utama berkisar bagaimana mengukur kemampuan peserta tes secara akurat. Beberapa peserta tes yang telah menunjukan potensi yang baik kemudian diuji dengan suatu kompetensi tertentu, mereka mungkin tidak mencapai potensi penuh akademik karena kurang baiknya kualitas soal yang diujikan. Kedepannya, hal ini berdampak pada hasil tes yang tidak dapat merepresentasikan secara akurat kemampuan peserta tes sehingga menyulitkan institusi penyelenggara tes terkait untuk mengambil keputusan. Perangkat tes yang sejenis dengan kuesioner Hospital Anxiety and Depression Scale (HADS) yang akan dibahas pada studi kasus cukup sering digunakan di Indonesia untuk meneliti kondisi kejiwaan pasien rumah sakit ataupun pegawai perusahaan. Cakupan dari prestasi secara umum meliputi aspek kognitif, afektif, dan psikomotorik. Banyak hal yang mempengaruhi hasil tes diantaranya aspek penguasaan materi dan kesiapan mental peserta tes, kualitas dan jumlah soal yang diujikan, dan faktor-faktor lainnya. Berdasarkan hal tersebut, maka para penyelenggara tes perlu mengetahui dan memahami dasar-dasar prinsip pengukuran prestasi. Tes yang akan diujikan harus terencana, memiliki presisi tes yang baik, dan mengadakan evaluasi secara terus-menerus. Pertama, perencanaan materi tes dan penyusunan butir soal memerlukan perumusan tujuan yang ingin dicapai dari tes itu sendiri, kesesuaian materi tes dengan kompetensi yang ingin diuji, parameter yang dijadikan sebagai tolak ukur, jenis butir soal yang digunakan, dan banyak butir soal yang diujikan. Ke dua, pemilihan berbagai tipe butir soal,
1
2
baik tipe pilihan ganda benar-salah, jawaban essai, tipe berpasangan, dan tipe karangan harus tepat peruntukannya dengan materi butir soal agar dapat menghasilkan output pengukuran yang maksimal. Ke tiga, memperhitungkan aspek tingkat kesulitan butir soal, variasi dan pembeda, tingkat validitas dan reliabilitas, dan efektivitas serta efisiensi dari butir soal tersebut. Ke empat, pemberian skor pada tes harus berbeda untuk setiap tipe butir soal karena masing-masing memiliki tingkat kompetensi yang berbeda. Ke lima, aspek pemberian nilai akhir harus dipertimbangkan dengan matang agar hasil akhir tersebut diharapkan dapat memberikan efek positif yang dapat memberikan dorongan dan motivasi bagi peserta tes untuk menjadi lebih baik. Terkait butir-butir soal yang akan diujikan perlu suatu analisis statistika yang dapat mengetahui tingkat keefektifan butir soal dalam mengukur kemampuan-kemampuan yang ingin diketahui. Selain itu, analisis butir soal dapat mendukung tes dengan cara merevisi atau membuang butir soal yang kurang efektif dan bermanfaat untuk mengetahui informasi diagnostik pada peserta tes terkait pemahaman kompetensi bidang keilmuan tertentu. Teori respon butir atau item response theory (IRT) merupakan metode yang digunakan untuk menganalisis butir soal. Metode ini merupakan pengembangan lanjutan dari metode teori tes klasik yaitu classical test theory (CTT) yang aplikasinya sangat dibatasi oleh berbagai macam asumsi yang memiliki kemungkinan tidak dapat terpenuhi untuk desain perangkat tes saat ini. Dalam era perkembangan ilmu pengetahuan saat ini, model IRT biasanya digunakan untuk mengukur variabel-variabel tersembunyi melalui analisis penurunan data dari daftar pertanyaan dengan tipe jawaban dikotomus (biner) atau polikotomus (lebih dari dua). Model IRT tradisional berdasarkan pada asumsi unidimensional, yang berarti bahwa semua butir tes berkontribusi untuk mengukur variabel tersembunyi yang sama. Selain itu, dalam beberapa kasus, asumsi dari distribusi variabel tersembunyi ini secara eksplisit dianggap normal. Namun sayangnya, dalam beberapa kasus praktis kedua asumsi tersebut terbatas. Oleh karena itu, beberapa pembahasan lanjutan dari model IRT tradisional telah dikembangkan dalam berbagai literatur dengan tujuan untuk membuat model lebih fleksibel dan realistis.
3
1.2
Pembatasan Masalah Dalam penulisan skripsi ini permasalahan dibatasi pada estimasi parameter
model respon bertingkat atau graded response model (GRM) untuk kelas laten multidimensional IRT skor respon polikotomus ordinal menggunakan metode maximum likelihood (MLE) melalui algoritma expectation-maximization (EM).
1.3
Tujuan Karya Tulis Skripsi yang berjudul “Model Respon Bertingkat untuk Kelas Laten
Multidimensional Teori Respon Butir” bertujuan untuk: 1. sebagai salah satu syarat untuk memperoleh gelar sarjana sains di Program Studi Statistika FMIPA UGM; 2. mempelajari GRM untuk kelas laten multidimensional IRT; 3. mempelajari prosedur metode MLE melalui algoritma EM untuk estimasi parameter model GRM; 4. membentuk model GRM untuk kelas laten multidimensional IRT pada set data Hospital Anxiety and Depression Scale (HADS).
1.4
Manfaat Karya Tulis 1. Menambah khazanah keilmuan statistika di bidang pemodelan kemampuan subyek, khususnya analisis butir soal yang memungkinkan adanya multidimensionalitas sifat laten dan variabel laten diskrit. 2. Mempopulerkan teknik analisis data dalam statistika untuk mendukung kajian, evaluasi, dan revisi untuk meningkatkan akurasi instrumen tes dalam pengukuran kemampuan kompetensi bidang keilmuan tertentu.
4
1.5
Tinjauan Pustaka Model pengukuran konvensional dan prosedur konstruksi tes dalam bidang
pendidikan dan psikologi serta interpretasi skor tes telah berkembang sejak abad XIX hingga sekarang. Pada tahun 1904 sampai 1910, Charles Spearman mengembangkan konsep dan metodologi yang disebut classical test theory (CTT). Dalam bidang psikometrika, CTT dominan digunakan dalam pengujian data. Pada abad pertengahan XX, CTT adalah model tes statistik yang dominan namun pengembangan lain terus diupayakan. Thurstone mengembangkan metode pengukuran statistik yang paling penting pada tahun 1920 hingga akhirnya digantikan oleh IRT. Selanjutnya pada tahun 1931, Walker mencoba langkah penskalaan Guttman. Ide dari penskalaan ini menjelaskan model yang membandingkan butir soal dengan subyek yaitu bahwa jika seseorang dapat menjawab soal yang lebih sulit dengan benar pastinya dia akan mampu menjawab soal yang lebih mudah dengan benar untuk suatu topik yang sama. Tahun 1952 Lord menjelaskan konsep item characteristic curve (ICC) atau item response function (IRF) yang menjelaskan hubungan antara probabilitas respon benar butir soal ke-i dan variabel laten. Selanjutnya pada tahun yang sama Lord mengembangkan IRF sebagai fungsi distribusi kumulatif normal hingga dikenal kurva ogive normal. Coomb mengembangkan unfolding IRT model pada tahun 1964. Tahun 1968, Lord dan Novick menempatkan CTT pada beberapa teori statistik pada skor tes mental, yaitu IRT. Beberapa sumber sebagai referensi utama yang dirasa penulis sangat memberikan informasi tentang topik skripsi ini, yaitu Francesco Bartolucci, Silvia Bacci, dan Michela Gnaldi (2012) dalam jurnalnya berjudul A class of Multidimensional Latent Class IRT models for ordinal polytomous item response menjelaskan kelas model IRT untuk butir tes dengan skala polikotomus ordinal, yang diperluas dari kelas model multidimensional untuk skor butir dikotomus yang mengukur lebih dari satu sifat laten. Kemudian masih dengan penyusun yang sama dalam jurnalnya pada tahun 2013, MultiLCIRT: An R package for multidimensional latent class item response models menjelaskan mengenai penerapan metode
5
kemungkinan maksimum melalui algoritma ekspektasi-maksimisasi untuk mengestimasi nilai parameter sifat laten dan parameter-parameter perangkat tes. Ada pula Drew A. Linzer dan Jeffrey B. Lewis (2011) dalam jurnalnya poLCA: An R Package for Polytomous Variable Latent Class Analysis menjelaskan estimasi kelas laten untuk model dengan hasil variabel polikotomus ordinal menggunakan algoritma ekspektasi-maksimisasi untuk menemukan estimasi kemungkinan maksimum. Penulisan skripsi ini didorong dari banyak penulisan skripsi dengan tema IRT yang telah dilakukan, Aprilia Sundari (2008), Classical Test Theory dan Item Response Theory untuk Analisis Butir Soal yang membahas estimasi parameter dari salah satu model logistik, yaitu model logistik satu parameter (Rasch model) dan menentukan kurva karakteristik butir soal berdasarkan model logistik tersebut. Kemudian Lamini (2008), Pemodelan Kemampuan Subyek pada 3-PL Item Response Theory adalah salah satu skripsi yang menjelaskan pemodelan kemampuan subyek (ability) pada 3-PL (3-parameter logistik) IRT dipandang sebagai model regresi. Setelah itu skripsi tentang metode estimasi menggunakan prosedur Bayes, yaitu Itmam Fadhlan (2008), Estimasi Bayesian untuk Item Response
Theory
(IRT)
Satu
Parameter
Dikotomus
Unidimensional.
Pengembangan dari prosedur Bayes terdapat pada skripsi Hening Indreswari (2010), Estimasi Bayesian untuk Item Response Theory (IRT) 3 Parameter Normal Ogive (3PNO) Dikotomus Unidimensional yang membahas estimasi model tiga parameter normal ogive IRT dikotomus unidimensional dengan prosedur Bayes melalui metode Markov Chain Monte Carlo. Pengembangan banyak parameter perangkat tes yang diestimasi dibahas pada skripsi Kartini (2011), Estimasi Joint Maximum Likelihood untuk Model Teori Respon Butir Empat Parameter Logistik, yaitu model teori respon butir untuk empat parameter logistik dikotomus unidimensional IRT yang dibentuk melalui estimasi kemungkinan maksimum bersama. Skripsi yang penulis angkat ini memiliki perbedaan cukup signifikan dengan skripsi-skripsi sebelumnya yang telah dibahas pada tema IRT, yaitu pada
6
skripsi ini model IRT yang dibentuk memungkinkan adanya multidimensionalitas sifat laten, variabel laten diskrit, keterbatasan dari asumsi distribusi normal variabel laten, dan perbedaan parameterisasi distribusi bersyarat dari variabel respon yang diberikan oleh variabel laten. Selain itu, model yang dibentuk berdasarkan butir soal dengan skor respon polikotomus ordinal.
1.6
Metode Penulisan Pengerjaan skripsi ini didukung oleh studi literatur yang diperoleh melalui
perpustakaan FMIPA UGM, buku-buku, jurnal-jurnal, dan situs-situs pendukung yang tersedia di internet. Kualitas bahan studi kasus dalam skripsi ini bersifat kualitas analisis yang menggunakan data sekunder. Dalam pengerjaan skripsi ini juga didukung oleh perangkat lunak statistika, yaitu R 3.1.2.
1.7
Sistematika Penulisan Skripsi ini disusun dengan sistematika sebagai berikut:
BAB I
PENDAHULUAN Bab ini membahas Latar Belakang Permasalahan, Pembatasan Masalah, Tujuan Karya Tulis, Manfaat Karya Tulis, Tinjauan Pustaka, Metode Penulisan, dan Sistematika Penulisan.
BAB II
LANDASAN TEORI Bab ini membahas beberapa teori yang berkaitan dengan pembahasan topik utama.
BAB III
PEMBAHASAN Bab ini membahas konsep umum dari estimasi model kelas laten, analisis dimensionalitas, estimasi parameter dari model GRM untuk
7
kelas laten multidimensional IRT dengan metode MLE melalui algoritma EM, pembandingan model, dan pemilihan model terbaik. BAB IV
STUDI KASUS Pada studi kasus ini akan diaplikasikan konsep MLE melalui algoritma EM sebagai metode untuk analisis data. Aplikasi dalam studi kasus ini mengenai hasil tes dari kuesioner dalam paket R: “MultiLCIRT”, Bartolucci et al. (2013), yaitu Hospital Anxiety and Depression Scale (Zigmond dan Snaith, 1983). Pemodelan ini menggunakan perangkat lunak statistika R 3.1.2.
BAB V
PENUTUP Bab ini berisi beberapa kesimpulan yang diperoleh dari hasil pembahasan pada bab-bab sebelumnya. Dalam bab ini juga dilengkapi dengan saran terkait topik utama pembahasan beserta kemungkinan pengembangan lanjutan.