Instrumen Penelitian, Validitas dan Reliabilitas
Trisasi Lestari - 2015
Merancang INSTRUMEN PENELITIAN
instrument construction
An instrument is a mechanism for measuring phenomena, which is used to gather and record information for assessment, decision making, and ultimately understanding.
Teori
Konsep
Definisi Operasional
Instrumen Penelitian
Komponen Instrumen Judul Pendahuluan: Mengapa, Bagaimana, Jenis informasi apa yang dibutuhkan, manfaat, informed consent
Petunjuk pengisian Pertanyaan Pilihan jawaban/Isian Keterangan tambahan Closing
Memilih instrumen Tergantung: • Tujuan penelitian • Rancangan penelitian • Objek yang diteliti • Methodologi pengumpulan data • Resources/Sumber daya
Faktor-faktor yg dipertimbangkan: Karakteristik populasi Literacy, physical/mental abilities, motivasi Informasi ttg populasi yg akan diteliti No telp, alamat Akses ke responden Lokasi, waktu, infrastructure yang ada (telephone, internet) Tujuan survey Kompleksitas pertanyaan, sensitifitas topik, Bentuk kuesioner yang akan diberikan Open-ended, close-ended Perkiraan response rate
Metode pengumpulan data Self-administered Individual, Surat Group Pooling Email/internet Observation Penilaian siswa untuk dosen Checklist Kombinasi format dan pendekatan Perilaku + Emosi Checklist+ fill the blank+rating scales
Questionnaire A self-contained and a self-administered instrument
for asking questions.
Lack the personal touch Extremely efficient Most popular Good questionnaire ‘stands on its own’
Risks Low response rates Bias • Responden bias, half-selection
Respondent honesty • over-report good things, and under-report bad things
Wording • ‘end pregnancy’ vs ‘abortion; ‘poor’ vs ‘welfare’
Question Rules and bad examples Clear in meaning and free of ambiguity • “Apakah anda olahraga secara rutin?” • “Berapa nilai total kekayaan anda?”
Use common everyday language, avoid jargons, abbreviations, or acronyms • MDGs, Renstra, Angka kematian,
Use neutral language, avoid emotional, leading language • “What do you find offensive about flag burning?” • “Why do you think hitting children is wrong?”
Simple and easy • “How do you rate police response time to emergency and non-emergency calls?” • “How many cigarettes you smokes in a year?”
Asks yourself • Does the questions answers my research question? • Is related questionnaire existed? • Do I need open-ended or close-ended questions?
Menulis pertanyaan Full script, ditulis lengkap Bermakna sama untuk semua responden Respondent bisa memahami jawabannya Disusun dengan baik Menghindari kata-kata sulit Menghindari kalimat negative Menanyakan dua atau lebih pertanyaan pada saat yang sama
Menghindari kalimat panjang dan kompleks Menghindari kalimat yang mengandung asumsi Menghindari pertanyaan hipothetical Hindari pertanyaan yang responden tidak tahu
jawabannya
Hindari pertanyaan tentang causality (sebab-akibat) Jika menyebutkan harus jelas dan eksplisit Jika diperlukan bisa menjelaskan istilah yang digunakan,
tetapi tidak di pertanyaan
Dll (handout mp)
Contoh standar questionnaires
Generic instruments
COOP/WONCA charts: measure six core aspects of functional status: physical fitness, feelings, daily activities, social activities, change in health and overall health. Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)
RAND SF 36
Duke Health Profile (DUKE)
EuroQol
MOS 20
Nottingham Health Profile
RAND General Health Perception Questionnaire (GHPQ)
Dimension specific instruments Barthel Index Index of Independence in Activities of Daily Living Frenchay Activities Index General Health Questionnaire (GHQ) RAND Mental Health Inventory (MHI) McGill Pain Questionnaire (MPQ)
Disease/condition specific instruments
State-Trait Anxiety Inventory (STAI) Center for Epidemiologic Studies Depression Scale (CES-D) Arthritis Impact Measurement Scale (AIMS) Living with Asthma (AQ) Chronic Respiratory Disease Questionnaire (CRDQ) Asthma Quality of Life Questionnaire (AQLQ) Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2) Diabetes Quality-of-Life measure (DQOL) EORTC Quality of Life Questionnaire
Membuat isi kuesioner
Melakukan literature review
Gunakan sarana/kuesioner yang sudah ada
Brainstorming
Nominal Group Technique Grup 5-6 orang Fasilitator menjelaskan ide/masalah/tujuan Setiap peserta memberikan ide tertulis dan dishare Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi Mengulang proses brainstorming sampai seluruh ide terkumpulkan Setiap peserta mereview alternatif yang muncul Membuat rangking prioritas
Membuat isi kuesioner Snowballing / Pyramiding 2 2+2 4+4 dst
Delphi technique Mengumpulkan input content dan methodologi dari
expert melalui email/surat. Draft dibuat oleh peneliti dan dikirimkan kepada ahli. Ahli memberikan komentar secara independen
Membuat isi kuesioner Questions Pool and Q-sort 60-90 pertanyaan Print pertanyaan di kartu Acak kartu Buat kriteria rangking: most definitely include this item, include this item, possibly include this item, and definitely do not include this item.
Membuat isi kuesioner Concept Mapping Preparation. Generation. brainstorming, nominal group technique, to generate
statements describing activities related to the project.
Structuring. sort the statements: Q-sort or other ranking process.
Representation. create visual maps that reflect the relationship
between the sorted items.
Interpretation. Utilization.
Operationalizing Constructs
Pengukuran
Pengukuran adalah suatu proses yang sistematik
dan berulang untuk menghitung atau mengklasifikasikan objek atau kejadian dengan menggunakan dimensi tertentu.
Biasanya dicapai dengan penggunaan angka
(numerik values)
Tingkat pengukuran
Likert Scale Rensis Likert 1903 – 1981
Agreement
Frequency
• Sangat Setuju • Setuju • Ragu-ragu • Tidak Setuju • Sangat tidak setuju
• Sangat sering • Sering • Kadang-kadang • Jarang • Tidak pernah
Importance
Likelihood
• Sangat penting • Penting • Agak penting • Tidak terlalu penting • Tidak penting
• Hampir selalu benar • Biasanya benar • Kadang-kadang benar • Biasanya tidak benar • Hampir selalu tidak benar
Analisis Skala Likert Likert Scale: is the sum of responses on several Likert
items
Ordinal or Interval Deskriptif Median, Mode, Percentiles/quartiles, Display Distribution (bar chart) Non-parametric test Chi-squared, Mann Whitney test, Wilcoxon signed-rank test, Kruskal-Wallis test Modified binomial Likert Scale Chi-squared, Cochran-Q, McNemar test
Observation Checklist
Pretesting Initial Pretesting
Individual Interviews and Focus Groups Review by Content Area Experts Continue to Obtain Feedback and Revise the Project If Necessary
Pretesting during development
Read and Reread the Items and Read the Items Aloud Review by Content Area Experts Review by Instrument Construction Experts Review by Individuals with Expertise in Writing Review by Potential Users
Pilot testing Questions for experts Was each set of directions clear (that is, the general directions at the beginning of the questionnaire and any subsequent directions provided in the body of the instrument)? Were there any spelling or grammatical problems? Were any items difficult to read due to sentence length, choice of words, or special terminology? How did the reviewer interpret each item? What did each question mean to them? Did the reviewer experience problems with the item format(s), or does the reviewer have suggestions for alternative formats? Were the response alternatives appropriate to each item?
Pilot testing
What problems did the reviewer encounter as a result of the organization of the instrument, such as how items fl owed? On average, how long did it take to complete? What was the longest time and what was the shortest time it took to complete the instrument? For Web-based instruments, did the respondent encounter any problems accessing the instrument from a computer or navigating the instrument once it was accessed? Did any of the reviewers express concern about the length of the instrument, or did they report problems with fatigue due to the time it took to complete? What was the reviewer’s overall reaction to the questionnaire? Did they have any concerns about confi dentiality or how the questionnaire would be used? Did they have any other concerns? What suggestions do they have for making the questionnaire or individual items easier to understand and complete?
Pilot testing Obtain evidence of reliability. Establish evidence of face validity Obtain evidence of content validity Obtain evidence of criterion validity Obtain evidence of construct validity
Reliability
Validity
Generalisibility
Measurement
Validity and reliability
Judul: mengukur kepuasan kerja Bagaimana tingkat kepuasan kerja Anda? Scala Faktor-faktor apa yang bisa mempengaruhi tingkat
kepuasan kerja Anda? Free listing, checklist, kombinasi
Apakah gaya komunikasi pimpinan mempengaruhi
kepuasan kerja. Ya Tidak
Apakah besaran insentif mempengaruhi…
Contoh penelitian: mengukur tinggi badan rata-rata anak SD di DIY Yang diukur harus tinggi badan, BUKAN berat badan Valid Alat ukurnya akan memberikan hasil yang sama meskipun
seseorang diukur tinggi badannya berulang-ulang Reliable
Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan
bisa menggambarkan tinggi rata-rata anak SD di Jawa Generalisir
Validity Apakah kita mengukur apa yang ingin kita ukur? Konsep seringkali sulit diukur Misalnya: Konsep : Pengetahuan. Latent & Manifest Variable
Tipe Validity
Face Validity
Construct validity
Content validity/internal validity
Criterion validity
Predictive validity
Multicultural validity
Face Validity
Face validity is the degree to which an instrument appears to be an appropriate measure for obtaining the desired information, particularly from the perspective of a potential respondent.
Responden diminta untuk menilai apakah instrumen penelitian (misal kuesioner) valid menurut mereka
Apakah responden bisa menangkap maksud pertanyaan sesuai yang dimaksud peneliti
Orang biasa Expert
Contoh: kuesioner tentang gaya hidup sehat, pertanyaan: seberapa sering Anda olahraga? Face validity: Valid
Construct Validity Memastikan peneliti dgn responden memahami konstruk yang
sama
Safety, intelligence, leadership, cleanness
Internal structure Related to the theoretical of knowledge Operationalization Terdiri dari :
Convergent validity : + contoh: depresi dan perasaan tidak berguna Discriminant validity: - contoh: depresi dan perasaan bahagia Harus dilaporkan keduanya
Convergent Validity
to show that measures that should be related are in reality related
Discriminant Validity
to show that measures that should not be related are in reality not related
Perilaku Pengetahuan
Sikap
Partisipasi pasien
Content/internal validity the degree to which an instrument is representative of the
topic and process being investigated.
Misalnya: Konsep: mengukur sikap murid terhadap guru Alat ukur sikap dg skala Likert Saya mendengarkan semua kata orang tua Guru saya selalu berusaha membantu saya Saya selalu mengucapkan salam setiap bertemu guru
Literatur review : meningkatkan kemampuan peneliti untuk
mencapai content validity
Apakah konten valid atau tidak dipengaruhi oleh: pengetahuan peneliti terhadap definisi konsep, teori tentang konsep yang ada, dan bagaimana konsep itu bekerja. Sample selection bias Information bias Statistical confounding
Criterion Validity making a comparison between a measure and an external
standard.
Stroke recovery vs level of assistance required Score test individual Observasi aktifitas harian: mengikat tali sepatu, memakai baju, menggosok gigi, merapikan tempat tidur, dll. Harus ditunjukkan pada instrumen untuk mengukur performa
atau kinerja
Dibutuhkan: Pemahaman yang baik mengenai teori konsep yang diteliti sehingga bisa ditentukan variable-variable lain berhubungan atau diprediksi akan berhubungan dengan faktor
Predictive validity Apakah alat ukur yang dibuat bisa memprediksi outcomes. Misal: apakah nilai tes TPA bisa memprediksi keberhasilan siswa dalam mengikuti proses perkuliahan Apakah nilai TPA bisa memprediksi IPK akhir mahasiswa Apakah tes psikologis untuk pegawai baru bisa memprediksi seberapa loyal pegawai terhadap perusahaan
Multicultural validity an instrument measures what it purports to
measure as understood by an audience of a particular culture
Caranya: Menggunakan bahasa yang dimengerti Memperhatikan nilai/norma/kebiasaan masyarakat
lokal
Mengukur validitas dengan pendekatan qualitative Evaluative Literature review topik penelitian: memberikan
bukti bahwa instrumen akan mengukur konstruk dan bukan lainnya.
Expert reviews Table spesifikasi: identifikasi variabel topik/faktor Induktif/deduktif
Mengukur validitas dengan pendekatan quantitative Mengukur kekuatan hubungan antara salah satu
pertanyaan dengan pertanyaan lain dalam konstruk yang sama
Item analysis Factor analysis
Pengukuran Validitas Item analysis To demonstrate a relationship between individual
items Internal consistency reliability 1-2, 1-3, 1-4, 1-5, dst 2-3, 2-4, 2-5, 2-6, dst Dst
Further reading: The basics of item response theory
(Baker, 2001)
Difficulty & Discrimination index Tetapkan 10 subjek dg nilai terbaik dan 10 subject
dg nilai terburuk
Jika subject ke-10 ada beberapa….pilih secara
random
Hitung berapa banyak subject di kelompok nilai
terbaik dan nilai terburuk yang menjawab pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst
Difficulty index: (RU+RL)/20 Discrimination index: (RU-RL)/10
Name
Item 1
1
1
Difficulty Index: (8+4)/20 = 0.6
2
1
Discrimination index (8-4)/10= 0.4
3
1
Compare to the maximum discriminating index
4
0
Near maximum: very discriminating
5
1
Half the maximum: moderately discriminating
6
1
A quarter the maximum: weak item
7
0
Near zero : non-discriminating
8
1
Negative: bad item
9
1
10
1
RU=8
……. 31
0
32
0
33
1
34
1
35
1
36
0
37
0
38
1
39
0
40
0
RL=4
Reliability True Score
Systematic Error
Random Error
SCORE
True Score: yang ingin diukur Systematic error: kesalahan yang selalu terjadi, misal alat ukur tidak dikalibrasi, sehingga bukannya mengukur mulai dari 0 tapi mulai dari 2 Random error: unpredictable error yang bisa terjadi karena kebetulan atau memang benar-benar ada perubahan, misalnya mood subject saat mengikuti ujian.
Sumber random error Subject reliability: respondent lelah, mood Observer reliability: kemampuan
observer/interviewer, background
Situasional: kondisi saat pengukuran dilakukan
(interview dilakukan dirumah dan dikantor saat sedang sibuk akan memberikan hasil yang berbeda)
Instrument: wording yang kurang baik Data processing: salah koding, salah entry
Cara pengukuran Reliability Eyeballing : informal method, administer the instrument twice to the same group of people in a relatively short period of time to see if their responses remain the same Repeated measurement 1. Test-retest method When? Carry-over effects Too early: over-reliability Too late: under-reliability
How?
Mengukur seberapa kuat hubungan score yang diukur pada 2
waktu yang berbeda dengan correlation coefficient Reliable if coefficient correlation >0.7
2. Proportion agreement
Inter-rater and Intra-rater Reliability Inter –rater: >1 rater Intra-rater :1 rater Calculate with Cohen’s Kappa
Kappa Statistic (Cohen, 1960) 1960)
OA - EA k= 1 - EA
OA: Kesepakatan yang terjadi EA: Kesepakatan yg tidak disengaja
A+D OA = N
é N1 ´ N 3 N 2 ´ N 4 ù + êë N N úû EA = N -1
Kesepakatan antara observer 1 dan 2 untuk menilai apakah pasar-pasar di jogja ramai atau tidak Observer 1
Observer 2
Ramai
Normal
Total
Ramai
140
52
192
Normal
69
725
794
Total
209
777
986
chance agreement between ramai-ramai= chance agreement between normal-normal= total expected change agreement= Observed agreement=
Kappa=
140 + 725 = 0.877 986
Test-Retest reliability pretest the questionnaire with
the same group on two separate occasions, expecting only minor variations in responses.
Coefficient of variation Mirip Eyeballing methods
Internal Consistency Reliability
To compare results across and among items within a single instrument and to do so with only one administration.
Untuk instrumen yang punya lebih dari 1 item
Seberapa homogen item-item pertanyaan dalam 1 tes
Seberapa baik item-item pertanyaan itu mengukur satu construct
Cara menghitung:
Average inter-item and average item-total correlation split half reliability coefficient alpha Kuder Richardson
Average inter-item
and average item total correlation
Internal Consistency Reliability Split-half reliability 1. 2. 3. 4. 5.
pertanyaan dibagi dua secara random Konstruk di kedua bagian harus sama Hitung skor respondent untuk setiap bagian Hitung coefficient correlations antara skor bagian 1 dan bagian 2 Reliable jika coefficient correlation >0.8
Kuder-Richardson (KR)
Membandingkan korelasi semua kemungkinan splif half Hanya cocok utk mengukur instrumen untuk satu konstruk Hanya dapat digunakan untuk instrumen yang jawabannya dikotomi, ya-tidak, betul-salah
Coefficient alpha/ Cronbach’s alpha Seperti KR, datanya scaled/ranked
randomly split the items into two sets compute
the correlation between these sets Put all the items back randomly split them into two sets again repeat for all possible split half correlations calculate the average of all the correlations. Internally consistent jika coefficient alpha >0.7
Cronbach’s alpha Paling sering dipakai untuk mengukur internal consistency Diadaptasi oleh Cronbach (1951) dari Kuder&Richardson
(1937)
n Vi 1 n 1 Vtest
n = jumlah pertanyaan Vi = variance score pada setiap pertanyaan Vtest = total variance dari skor total (not %’s) on the entire test
– Large Vtest Small Ratio ΣVi/Vtest high alpha
How alpha works – Vi = pi * (1-pi)
» pi = percentage of class who answers correctly » This formula can be derived from the standard definition of variance.
– Vi varies from 0 to 0.25 pi
1-pi
Vi
0
1
0
0.25
0.75
0.1875
0.5
0.5
0.25
Bagaimana jika instrumen tidak reliable? Perhatikan jika ada salah satu item instrumen yang
‘salah’
Perhatikan seberapa kuat hubungan antara masing-
masing item pertanyaan dengan skor
Item yang berkorelasi rendah dengan total skor
akan menurunkan reliabilitas dan sebaiknya dihilangkan
Pada metode test-retest, perhatikan pertanyaan
yang skor awal dan akhirnya berbeda jauh.
Bagaimana meningkatkan reliabilitas? Pertanyaan tidak ambigu/jelas Pertanyaan spesifik Buat beberapa item pertanyaan untuk mengukur
satu variable
Tetapi jangan terlalu banyak
Generalisability From sample to population Sample: true exist or just a coincidence
Hypothesis
Null hypothesis (H0): Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Alternative hypothesis (H1) Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Hasil penelitian
Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Kenyataan di populasi
Interpretasi
Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Null hypothesis ditolak
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Type 1 error Implikasi: Kegiatan UKS diperbanyak
Hypothesis
Null hypothesis (H0): Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS Alternative hypothesis (H1) Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Hasil penelitian
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Kenyataan di populasi
Interpretasi
Tidak ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Null hypothesis diterima
Ada hubungan antara perilaku hidup bersih sehat dengan kegiatan UKS
Type 2 error Implikasi: menghapuskan kegiatan uks
?
Berapa besar kemungkinan type 1 error? Diukur dengan level of significance / p-values
/coefficient alpha
Semakin kecil coefficient alpha, semakin kecil
kemungkinannya terjadi type 1 error
Cut-off point yg sering dipakai p<0.05 significant Dipengaruhi oleh: sample size Besarnya perbedaan dalam sample Interpretasi Bagaimana jika p=0.052 atau p=0.049?
Pertanyaan Kalau satu hubungan antar variable menunjukkan
p<0.05 apakah berarti hasil itu penting?
Jika effect size hubungan antar variable besar,
apakah berarti hubungan itu penting?
Apakah internal consistency reliability dan construct
validity itu hal yang sama?
Jika pengukuran statistics menunjukkan hasil yang
signifikan apakah itu berarti fenomenanya bisa ditemukan di populasi umum?
Instrument Qualitative: Interview Guide Instruksi Beginning : information, informed consent Concluding
Questions Open-ended Key themes Factual questions before opinion questions Use probes or request to elaborate
Validitas dan Reliabilitas dalam penelitian kualitatif
Trustworthiness
Meningkatkan trustworthiness Thick description mengumpulkan data secara rinci dan komprehensif,
yang menggambarkan secara keseluruhan apa yang sedang terjadi
Negative/defiant case analysis Triangulation (data, subject,methods) Member checking
[email protected]