MIS-INTERPRETASI NILAI P Agung Santoso Universitas Sanata Dharma Yogyakarta
[email protected] Abstrak Tulisan ini bertujuan untuk memaparkan pemahaman mengenai nilai p yang benar dan sekaligus menunjukkan kesalahan-kesalahan yang seringkali terjadi dalam interpretasi maupun pengambilan kesimpulan penelitian terkait dengan nilai p. Pemahaman tentang nilai p dibutuhkan dalam uji signifikansi hipotesis nul yang mengarahkan pada jawaban terhadap masalah penelitian yang diajukan. Tulisan ini juga memaparkan hasil survey yang dilakukan penulis mengenai kesalahan interpretasi nilai p. Hasil survey menunjukkan masih banyak dosenpeneliti-mahasiswa yang keliru memahami nilai p. Penulis memberikan tiga rekomendasi yang kiranya dapat mengatasi kekeliruan ini dan dapat meningkatkan pemahaman dan mendorong praktek analisis statistik yang benar di Psikologi di Indonesia. Kata kunci: pemahaman nilai p, kesalahan interpretasi, uji signifikansi hipotesis nul Abstract This paper aims to show the common mistakes in interpreting data regarding to p value in many studies. The wrong understanding of p value might lead to error in interpreting hypothesis null significancy test which result on a misleading conclusions. A survey conducted to explore on this issue. The results show that a lot of lecturers, researchers and students made a mistake on understanding p value. Three points of recommendations proposed to enhance the understanding of p value in statistical analysis. Keywords: understanding of p value, statistical interpretation error, hypothesis null significancy test Pendahuluan Seorang pasien merasa sangat khawatir akan kesuksesan operasi yang akan dilaluinya. Ia menjadi semakin khawatir karena dokter yang mengoperasinya masih sangat muda. Untuk menenangkan hati si pasien, seorang perawat berkata,”Pak, memang dokter ini masih sangat muda dan tingkat keberhasilan operasinya hanya 5%. Tapi tenang saja, Pak, ia telah gagal menjalani operasi sembilan belas kali, anda adalah pasien kedua-puluh”. Uji signifikansi hipotesis nul (NHST) merupakan prosedur pengujian hipotesis yang paling terkenal dan karenanya paling sering digunakan dalam penelitian-penelitian di Psikologi. Uji signifikansi hipotesis nul merupakan satu-satunya uji yang diajarkan secara luas di Psikologi dan menjadi prosedur utama dalam memberikan dukungan terhadap teori-teori Psikologi. Prosedur 10
ini seakan menjadi bagian yang tak terlepaskan dari keilmuan di Psikologi meskipun memiliki banyak kelemahan (Bakan, 1966). Banyak kritik diberikan pada prosedur NHST ini sejak 50 tahun yang lalu (Greenwald, Gonzales, Haris, & Guthrie, 1996),termasuk di dalamnya, beberapa tulisan yang diterbitkan di Indonesia kira-kira sepuluh tahun yang lalu (Hastjarjo, 2000; Sugiyanto, 2000; Sukadji, 2001; Suryabrata, 2000; Swediati & Bastari, 2000). Kritik-kritik ini dapat diklasifikasikan menjadi dua kelompok: (1).Kritik yang mempertanyakan keabsahan prosedur NHST baik dari sisi kemampuannya menjawab pertanyaan penelitian (Bakan, 1966; Cohen, 1994; Kline, 2004; Meehl, 1967; 1978) maupun keraguan akan pengujian hipotesis itu sendiri secara umum (Cumming, 2013), dan (2). Kritik terhadap interpretasi dari nilai p yang tidak tepat sehingga mengarahkan peneliti pada kesimpulan yang tidak tepat mengenai hasil penelitian dan tindakan yang mengikutinya. Ada beberapa pembelaan yang diberikan terkait dengan kritik terhadap NHST sebagai metode. Pembelaan-pembelaan ini pada dasarnya menunjukkan bahwa pertanyaan-pertanyaan penelitian seringkali sangat beragam dan tidak dapat sepenuhnya dijawab dengan hanya menggunakan satu prosedur saja (Christensen, 2005; Maxwell & Delaney, 2004). Kritik terhadap keabsahan NHST seringkali ditunjukkan dengan ketidakmampuan NHST dalam menjawab pertanyaan yang memang tidak didesain untuk dijawab oleh NHST (Hagen, 1997). Kritik yang menyerang pengujian hipotesis secara umum juga dibantah oleh Morey, dkk.(2014) yang menekankan pentingnya pengujian hipotesis sebagai alat pengambil keputusan untuk memilih teori yang ‘benar’ di antara banyak teori-teori alternatif. Kritik yang kedua merupakan permasalahan yang diakui bersama oleh pihak yang pro maupun kontra terhadap NHST. Kline (2004) mendaftar sekitar 13 kesalahan interpretasi nilai p yang sering terjadi dalam literatur baik artikel jurnal maupun buku-buku teks statistik. Permasalahan ini juga terjadi di Indonesia, terbukti dari pengalaman penulis selama ini dan survey kecil yang dilakukan penulis. Misalnya pada item yang menggambarkan salah satu kesalahan interpretasi nilai p yang berbunyi:” Jika analisis memberikan hasil yang signifikan (p<0.05), ini berarti ada perbedaan yang besar antar kelompok atau korelasi yang besar antar variabel”, 70.7% (n=41) responden memberi respon “Benar” sementara 22.4%( n=13) memberi respon “Salah” dan 6.9% (n=4) “Tidak tahu”. Lebih lanjut, dari 4 responden yang secara rutin mengajar statistik / pengukuran 75% memberi respon “Benar” sementara hanya satu responden 11
memberi respon “Salah”. Banyaknya respon yang keliru ini menunjukkan bahwa kesalahan interpretasi nilai p ini banyak dianut oleh dosen-peneliti-mahasiswa termasuk para pengajar statistiknya. Hasil survey tersebut tentu saja tidak dapat digeneralisasikan secara meyakinkan, mengingat hanya sedikit sekali subjek yang terlibat di dalamnya. Namun demikian, hasil ini dan pengalaman penulis selama ini berdiskusi dengan mahasiswa-dosen-peneliti, kiranya cukup untuk menyalakan lampu peringatan untuk menangani masalah ini dengan lebih serius Permasalahan ini dalam pandangan penulis, merupakan permasalahan terbesar baik dalam praktek penelitian maupun dalam pengajaran statistik, yang jika dapat diatasi, akan dapat mengurangi banyaknya kelemahan NHST dalam pengembangan ilmu psikologi. Oleh karena itu artikel ini ditulis sebagai usaha untuk memperbaiki pemahaman dosen-peneliti-mahasiswa di psikologi khususnya di Indonesia mengenai nilai p khususnya dan NHST pada umumnya. Peneliti berharap dapat menunjukkan interpretasi nilai p yang benar, sekaligus menunjukkan kemungkinan-kemungkinan kesalahan interpretasinya sehingga permasalahan interpretasi nilai p ini dapat dihindari di kemudian hari baik dalam publikasi penelitian maupun dalam pendidikan statistik dan metode penelitian. Makna Nilai p Nilai p atau yang juga disebut dengan associated probability (Oakes,1986) terkait erat dengan gagasan inferensi dari dua paradigma statistik inferensial yang dicetuskan oleh Fisher dan Neyman-Pearson. Kedua paradigma ini memiliki beberapa perbedaan, namun demikian gagasan dari kedua paradigma ini seringkali dicampur, terkadang dengan agak sembrono, dalam praktek analisis data. Oleh karena itu perlu kiranya memahami tiap pendekatan ini dengan lebih baik dan memahami perbedaan dan persamaan keduanya serta bagaimana mekanisme ‘pencampuran’ kedua paradigma ini. Artikel ini hanya akan membahas secara ringkas kedua paradigma dan percampuran keduanya. Pembahasan lebih dalam dapat dibaca dalam buku-buku yang ditulis oleh Oakes (1986), Maxwell & Delaney (2004), dll. Paradigma Fisher merupakan paradigma statistik inferensial yang menekankan pada pengujian dari satu hipotesis saja: hipotesis nul (Lehmann, 1993; Oakes, 1986). Fisher tidak mengenal adanya hipotesis alternatif, sehingga yang senantiasa diuji oleh Fisher adalah hipotesis nul. Oleh karena itu tugas statistik inferensial menurut pandangan ini adalah menguji apakah suatu hipotesis atau model teoretik tertentu itu didukung oleh data atau tidak, berdasarkan data 12
yang diambil dalam penelitian. Keputusan yang diambil dalam pengujian hipotesis ini hanyalah hipotesis nul ditolak atau gagal ditolak. Dalam pandangan ini, kita bahkan tidak bisa mengambil keputusan untuk menerima hipotesis nul. Menerima hipotesis nul ketika tidak ada bukti yang menolaknya merupakan kesalahan berpikir logis yang disebut pembenaran karena konsekuensi (affirming by the consequence). Kegagalan menolak hipotesis nul dapat diakibatkan oleh banyak faktor selain ‘kebenaran hipotesis nul’, seperti ketidakakuratan pengukuran, sampel yang terlalu kecil, dll. Hipotesis nul dalam pandangan Fisher tidak harus memiliki parameter sama dengan nol atau nihil (Bakan, 1966). Misalnya ketika seorang peneliti hendak menguji apakah perbedaan skor IQ antara dua kelompok lebih besar dari 10 poin, maka ia sedang menguji hipotesis nol dengan parameter sebesar 10, tidak lagi nol. Penelitian-penelitian di area Psikologi seringkali tidak dapat mencapai taraf ketelitian seakurat ini sehingga jarang sekali penelitian di psikologi menggunakan hipotesis nul yang seperti ini (Meehl, 1967;1978). Jerzy Neyman dan Egon Pearson mengembangkan prosedur pengujian hipotesis dari Fisher ini dengan memperluas ide tentang pengujian hipotesis. Menurut Neyman-Pearson, adalah memungkinkan untuk memilih satu dari dua (atau beberapa) hipotesis alternatif dengan membandingkan rasio probabilitas kemunculan data seperti yang diperoleh dari penelitian jika populasi memiliki parameter seperti yang disebutkan oleh hipotesis-hipotesis alternatif ini. Misalnya peneliti mengajukan dua hipotesis: satu hipotesis menyatakan bahwa parameter di populasi adalah sama dengan nol sementara hipotesis yang lain menyatakan bahwa parameter di populasi adalah sama dengan 5. Kemudian peneliti mengambil data dan menghitung probabilitas munculnya data tersebut dalam populasi jika hipotesis pertama benar dan jika hipotesis kedua benar. Tabel 1 menggambarkan ilustrasi data dari contoh ini: Tabel 1. Ilustrasi nilai p dari data jika kedua hipotesis benar
Nilai p dari data
H1 Parameter = 0 0.05
H2 Parameter = 5 0.45
Rasio H1:H2 1:9
13
Berdasarkan data tersebut dapat disimpulkan bahwa data yang diperoleh dalam penelitian, 9 kali lebih memungkinkan untuk muncul dalam populasi dengan parameter = 5 dibandingkan dari populasi dengan parameter = 0. Oleh karena itu, disimpulkan bahwa hipotesis kedua diterima. Perbedaan lain antara pandangan Fisher dan Neyman-Pearson adalah pendekatan untuk ‘menerima’ hipotesis. Dalam pandangan Fisher, tidak mungkin seorang peneliti menerima sebuah hipotesis. Yang mungkin dilakukan peneliti hanyalah menolak atau gagal menolak. Ketika hipotesis gagal ditolak, maka hipotesis itu memungkinkan (plausible) dalam dunia nyata tapi belum tentu benar. Sementara dalam pandangan Neyman-Pearson, peneliti dapat menerima hipotesis dengan berdasar pada rasio probabilitas. Jika rasio memihak pada salah satu hipotesis, maka peneliti dapat menerima hipotesis tersebut dan menolak hipotesis yang lain. Perbedaan pandangan antara Fisher dan Neyman-Pearson, selain adanya hipotesis alternatif, terletak pada kemungkinan untuk menarik kesimpulan mengenai kondisi populasi berdasarkan inferensi ini. Dengan kata lain, dapatkah kita mengatakan bahwa probabilitas ‘kebenaran’ dari suatu hipotesis berdasarkan data yang kita peroleh dari sampel adalah sebesar p? Fisher menganggap nilai p tidak memberikan informasi apa pun untuk memperoleh jawaban terhadap pertanyaan tersebut (Lehmann, 1993). Informasi yang kita peroleh melalu prosedur ini adalah probabilitas munculnya data seperti yang kita peroleh dari penelitian kita dalam populasi dengan parameter sebesar yang dinyatakan oleh hipotesis atau diekspresikan sebagai berikut: (1) Dalam hal ini, p adalah nilai p yang kita peroleh sebagai hasil analisis, D adalah data yang kita peroleh dari penelitian, dan H adalah hipotesis yang diajukan. Dengan kata lain, p menunjukkan besarnya probabilitas kita memperoleh D seperti yang diperoleh dari penelitian jika H benar. Sementara Neyman-Pearson menganggap bahwa meskipun nilai p tidak menunjukkan secara akurat besarnya probabilitas kebenaran dari suatu hipotesis, tapi kita dapat mengambil kesimpulan bahwa kondisi di populasi adalah seperti hipotesis yang diterima dan tidak seperti hipotesis ditolak jika p sangat kecil, yang disebutnya sebagai inductive behavior (Lehmann, 1993; Hagen, 1997). Beberapa penulis seperti Bakan (1966) dan Cohen (1994) percaya bahwa jawaban terhadap pertanyaan tersebut hanya dapat disediakan oleh pendekatan Bayesian,
14
meskipun hal ini ditolak oleh Fisher maupun Neyman-Pearson karena cara pandang yang berbeda tentang probabilitas dan subjektivitas pendekatan ini (Lehmann, 1993; Hagen, 1997). Dalam prakteknya, penelitian-penelitian di psikologi tidak dapat mengacu sepenuhnya pada salah satu pendekatan tersebut khususnya karena kesulitan dalam menentukan besarnya parameter di populasi sebagai hipotesis (Meehl, 1978). Kesulitan dalam menentukan parameter ini membuat penelitian di psikologi, dan banyak area lainnya, berusaha menggabungkan dua pemikiran ini dalam satu praktek statistik inferensial. Penggabungan ini tampak dalam beberapa konsep inferensi statistik yang dipegang saat ini seperti adanya Hipotesis Nul (H 0) dan Hipotesis Alternatif (Ha) yang menggunakan ide dari Neyman-Pearson, namun demikian pengujian hipotesis secara langsung hanya diberlakukan pada H0 saja dengan menggunakan ide dari Fisher. Inferensi statistik saat ini juga mengenal adanya kesalahan tipe I (type I error atau α) dan kesalahan tipe II (type II error atau b) dan Power (1- b ) yang juga berasal dari ide NeymanPearson mengenai inferensi statistik. Dalam pendekatan gabungan ini, besarnya parameter dalam H0 biasanya dipilih sama dengan nol, karena nilai ini adalah nilai yang paling mudah ditentukan tanpa mengetahui parameter di populasi dari penelitian sebelumnya. Hipotesis Alternatif juga dirumuskan dengan tidak secara khusus menyatakan besarnya parameter di populasi, sehingga tidak secara khusus dapat diuji. Hipotesis Alternatif dirumuskan sebagai negasi dari Hipotesis Nul. Jika H0 berbunyi,”Tidak ada perbedaan mean antar kelompok” atau “Perbedaan mean antar kelompok sama dengan nol” maka Ha berbunyi “Ada perbedaan mean antar kelompok”. Jika H 0 berbunyi, “Perbedaan mean antara kelompok A dan B sama dengan 5”, maka H a berbunyi,”Perbedaan mean antara kelompok A dan B bukan 5”. Berdasarkan paparan di atas, ada beberapa penafsiran mengenai nilai p yang dianggap akurat. Kline (2004), Cohen (1994) dan Oakes (1986) misalnya memberikan beberapa makna nilai p yang benar, yang secara garis besar mengandung komponen pengertian seperti berikut: 1. Nilai p merupakan probabilitas dari data penelitian jika H0 benar. Pemahaman mengenai jika H0 benar ini penting karena mesin inferensi yang kita gunakan, dijalankan dengan berdasar pada distribusi dari D jika H 0 benar. Dengan analogi mencari bola billiard dalam sebuah kotak, maka nilai p adalah besarnya probabilitas kita memperoleh bola billiard dengan nilai sebesar D atau lebih ekstrim dalam kotak H 0. Probabilitas ini akan berubah atau berbeda jika kita mencari bola dengan nilai sebesar D ini dalam kotak yang berbeda. Oleh
15
karena itu, pemaknaan nilai p tidak pernah bisa dilepaskan dari tempat penghitungan probabilitas ini, yaitu populasi dengan parameter seperti yang disebutkan dalam H0. 2. Nilai p ini menggambarkan proporsi dari banyaknya sampel dengan nilai D atau lebih ekstrim dibanding keseluruhan sampel yang diambil, hanya jika kita mengambil sampel berkali-kali dalam jumlah sangat banyak, bahkan sampai tidak terhingga. Oleh karena itu keabsahan hipotesis tidak dapat ditegakkan hanya berdasarkan satu penelitian saja. Replikasi menjadi hal yang penting dalam praktik inferensi statistik seperti ini (Pashler & Harris, 2012). 3. Arah inferensi bersifat top-down bukan bottom-up. Meskipun ketertarikan kita adalah inferensi mengenai kondisi di populasi jika data di sampel memiliki nilai sebesar D, nilai p bukanlah nilai yang menggambarkan probabilitas ini. Nilai p merupakan gambaran mengenai probabilitas munculnya suatu sampel dalam populasi dengan parameter seperti yang dinyatakan oleh H0: ”Jika hipotesis nul benar, maka probabilitas memperoleh sampel dengan nilai sebesar D atau lebih ekstrim adalah sebesar p”.
Nilai p tidak dapat
diinterpretasi sebagai besarnya probabilitas hipotesis nul benar berdasarkan data penelitian. Oleh karena itu, nilai (1 – p) juga tidak dapat dimaknai sebagai besarnya probabilitas hipotesis nul salah berdasarkan data penelitian. 4. Nilai dari parameter di populasi asal sampel penelitian kita, tidak diketahui. Kita hanya dapat mengetahui bahwa nilai parameter tersebut di populasi tidak sama dengan parameter yang dinyatakan oleh H0. Jika H0 berbunyi,”parameter di populasi sama dengan nol”, dan jika p<0.05, maka kita hanya dapat mengatakan,”Kecil kemungkinan sampel penelitian kita berasal dari populasi dengan parameter sama dengan nol”. Oleh karena itu interpretasi nilai (1 – p) sebagai probabilitas memperoleh nilai di populasi sebesar nilai di sampel adalah keliru. Dalam subbab berikut, penulis akan memaparkan kesalahan-kesalahan interpretasi nilai p dan kesalahan kesimpulan yang diambil berdasarkan nilai p yang sering terjadi disertai alasan mengapa interpretasi ini keliru. Interpretasi dan Kesimpulan Terkait Nilai p yang Keliru Kesalahan-kesalahan interpretasi dan kesimpulan ini didasarkan pada beberapa artikel dari para ahli (Cohen, 1994; Greenwald dkk.,1996; Kline, 2004; Maxwell & Delaney, 2004; Meehl, 1967; 1978; Oakes, 1986; Pashler & Harris, 2012). Penulis menyusunnya mengikuti urutan dalam 16
tulisan Kline (2004) yang dianggap baik dalam membahas kekeliruan interpretasi nilai p ini. Penjelasan mengenai kekeliruan ini dibagi menjadi dua bagian yaitu bagian kesalahan interpretasi dan kesimpulan yang keliru berdasarkan pengujian H0. Kesalahan interpretasi 1. Nilai p menggambarkan probabilitas hasil dari penelitian merupakan akibat dari kesalahan sampling (sampling error), sehingga penolakan H0 (p≤0.05) berarti hasil penelitian menggambarkan efek yang nyata bukan karena kesalahan sampling. Ada dua bagian dari interpretasi ini yang perlu dicermati. Pertama adalah pernyataan ‘efek yang nyata’. Jika yang dimaksud dari efek yang nyata adalah bahwa efek ini tidak sama dengan nol, bagian interpretasi ini masih dapat diterima. Namun demikian jika yang dimaksud ‘nyata’ adalah besar, maka interpretasi ini keliru. ‘Nyata’ di sini juga tidak dapat diartikan sebagai efek yang sebenarnya di populasi. Hal ini dibahas lebih lanjut dalam poin no 6. Bagian kedua dari interpretasi ini, ‘bukan karena kesalahan sampling’, merupakan interpretasi yang keliru karena hasil yang kita peroleh dari sampel selalu merupakan akibat dari kesalahan sampling. Oleh karena itu probabilitas hasil yang kita peroleh diakibatkan oleh kesalahan sampling selalu 1.0. Uji signifikansi dilakukan justru karena kesalahan sampling ini selalu terjadi. Tanpa adanya kesalahan sampling, tidak akan terjadi deviasi estimasi di sampel dari nilai parameter di populasi, yang mengakibatkan tidak adanya standard deviasi atau standard error dan pada akhirnya mengakibatkan tidak dapat dihitungnya nilai p. Kline (2004) menyebut kesalahan interpretasi ini sebagai odds-againstchance fantasy (fantasi mengenai kemungkinan memperoleh hasil bukan karena faktor kebetulan). 2.
Nilai p menggambarkan probabilitas H0 benar berdasarkan data penelitian yang diperoleh, sehingga nilai p yang kecil menggambarkan probabilitas H0 benar juga kecil. Interpretasi ini keliru karena nilai p menggambarkan probabilitas data penelitian kita berasal dari populasi dengan H0 ( nilai p dan
) bukan sebaliknya (
). Hubungan antara
dapat ditunjukkan dengan formula dari Bayes:
(2)
17
Untuk mengetahui besarnya
, kita membutuhkan informasi tambahan
yang seringkali tidak kita miliki dalam penelitian. Sebagai ilustrasi kita dapat melihat Gambar 1 dan 2. Kita dapat lihat dalam Gambar 1 bahwa ketika Power = 0.8, maka semakin besar
, semakin besar pula kesenjangan antara Misalnya
ketika
dengan ,
maka
besarnya
jika kita memperoleh nilai p=0.05. Kesenjangan antara antara dengan
juga akan semakin besar ketika Power dari
analisis semakin kecil. Hal ini dapat dilihat dalam Gambar 2, dengan catatan bahwa dibuat sama dengan 0.5 untuk semua garis. Dalam gambar tersebut dapat kita lihat bahwa hanya ketika Power=0.9, kesenjangan antara
dengan
sangat kecil.
Gambar 1: Besarnya
, dengan mengendalikan Power=0.8
18
Gambar 2: Besarnya
, dengan mengendalikan
Namun demikian, dapat kita amati pula bahwa hubungan antara
dengan
bersifat monotonik: semakin kecil nilai semakin kecil pula
atau nilai p,
. Oleh karena itu, kita tetap boleh menyimpulkan
bahwa makin kecil nilai p, kita semakin yakin bahwa H0 keliru. Kekeliruan dapat dihindari sejauh kita tidak menyatakan besarnya kemungkinan ini adalah sebesar nilai p. 3. Nilai p menggambarkan besarnya kemungkinan kita mengambil keputusan yang keliru ketika kita menolak hipotesis nol. Interpretasi ini merupakan salah satu contoh dari kekeliruan interpretasi pada no 2. di atas khususnya terkait dengan interpretasi kesalahan tipe I. Kesalahan tipe I atau α merupakan probabilitas kita menolak hipotesis nol jika hipotesis nol benar yang merupakan conditional prior probability atau diekspresikan sebagai .
Sementara
interpretasi
yang
disebutkan
sebelumnya
merupakan probabilitas H0 benar ketika kita mengambil keputusan menolak H0 atau yang disebut juga sebagai conditional posterior probability. 4. Nilai (1 – p) adalah probabilitas Ha benar berdasarkan data penelitian yang diperoleh. Oleh karena itu jika nilai p lebih kecil dari 0.05, maka probabilitas Ha benar lebih besar dari 95%. Interpretasi ini keliru karena nilai (1 – p) hanya menggambarkan besarnya probabilitas memperoleh nilai yang kurang ekstrim dibandingkan nilai yang kita peroleh dari sampel, 19
dalam sebuah populasi dengan parameter seperti yang dinyatakan oleh H 0. Hal ini diilustrasikan dalam Gambar 3 di bawah ini.
Gambar 3: Ilustrasi interpretasi (1 - p) Dalam gambar tersebut, (1 – p) menggambarkan besarnya probabilitas dari nilai yang lebih tidak ekstrim dari A. 5. Nilai (1 – p) menggambarkan besarnya probabilitas hasil yang kita temukan dapat dihasilkan kembali dalam penelitian replikasi. Oleh karena itu jika nilai p < 0.05, maka probabilitas hasil penelitian replikasi juga akan memberikan hasil nilai p < 0.05 adalah 95%. Interpretasi ini keliru karena acuan yang seharusnya digunakan untuk menghasilkan interpretasi itu adalah
atau probabilitas menolak hipotesis nol pada
penelitian kedua ketika kita menolak hipotesis nol pada penelitian pertama, sementara nilai 1 – p merupakan gambaran mengenai probabilitas memperoleh nilai yang kurang ekstrim dalam populasi dengan parameter sebesar yang disebutkan H0. Dalam situasi tertentu khususnya ketika p = 0.05, besarnya
hanyalah sebesar
50% bukan 95%. Gambar 4 memberikan ilustrasi mengenai besarnya probabilitas menolak hipotesis nol pada penelitian kedua (replikasi), jika pada penelitian pertama kita menolak hipotesis nol. Gambar 4 dihasilkan dari hasil simulasi uji perbedaan mean menggunakan uji t. Kondisi di 20
populasi ditentukan memiliki Cohen’s d sebesar 0, 0.2, 0.4, dan 0.8. Cohen’s d sebesar 0 merupakan kondisi ketika hipotesis nol benar (tidak ada perbedaan mean di populasi). Penulis menggunakan beberapa ukuran sampel dari 50 hingga 300 dengan interval 10 (50, 60, 70, … , 300). Dalam semua analisis, peneliti menggunakan acuan α (tipe error 1) = 0.05. Oleh karena itu hipotesis nol akan ditolak jika p<0.05. Dari gambar tersebut, dapat kita lihat bahwa besarnya probabilitas menolak hipotesis nol pada penelitian replikasi merupakan fungsi dari effect size (dalam simulasi digunakan Cohen’s d) dan besarnya sampel. Ketika d=0, atau dengan kata lain hipotesis nul benar di populasi, maka probabilitas menghasilkan penelitian replikasi yang menolak hipotesis nul untuk semua ukuran sampel hanya sekitar 0.05 (5%), sama dengan besarnya α yang kita tetapkan, dan bukan sebesar (1 – p) atau sebesar 95%. Effect size yang makin besar membuat juga
menjadi
lebih
besar.
Besanya
mendekati angka 95% hanya ketika d=0.4 dengan ukuran
sampel
±
170.
Sementara
itu,
ketika
d=0.8
(effect
size
besar),
mendekati 1.0 untuk semua ukuran sampel. Oleh karena
itu
nilai
(1
–
p)
tidak
secara
otomatis
menggambarkan
besarnya
.
Gambar 4: Plot dari
sebagai hasil simulasi uji perbedaan
mean dengan Cohen’s d sebesar 0, 0.2, 0.4, dan 0.8. Garis titik-titik di bagian atas grafik 21
mewakili
= 95%, sementara di bagian bawah mewakili = 5%.
Kesimpulan yang keliru berdasarkan hasil pengujian H01. 6. Nilai p menggambarkan besarnya korelasi, perbedaan mean, atau efek: semakin kecil p semakin besar korelasi, perbedaan mean, atau efek dari suatu penelitian. Misalnya ketika p < 0.05, interpretasi yang sering diberikan adalah adanya korelasi yang besar atau perbedaan mean yang besar. Interpretasi ini keliru karena efek yang kecil sekalipun dapat menjadi signifikan ketika jumlah subjek dalam penelitian sangat besar. Misalnya, untuk memperoleh hasil yang signifikan dengan jumlah subjek 1000 orang hanya dibutuhkan r = 0.062, sementara angka tersebut tergolong sangat kecil. Sementara itu dengan jumlah subjek hanya 10, nilai koefisien korelasi sebesar 0.5, tetap menunjukkan hasil yang tidak signifikan, meskipun nilai korelasi sebesar itu tergolong besar. 7. Penolakan hipotesis nul menunjukkan bahwa hipotesis alternatif benar dan teori yang melatarbelakangi hipotesis alternatif benar. Kesimpulan bahwa hipotesis alternatif benar tidak sepenuhnya tepat karena kebenaran hipotesis alternatif tidak dapat ditegakkan hanya melalui satu studi saja. Kebenaran hipotesis alternatif hanya dapat ditegakkan secara meyakinkan melalui beberapa penelitian replikasi. Jika cukup banyak penelitian replikasi menunjukkan penolakan hipotesis nul, maka keyakinan akan kebenaran hipotesis alternatif makin besar. Penolakan hipotesis nul juga tidak dapat menjadi bukti meyakinkan terhadap kebenaran teori yang melatarbelakangi hipotesis alternatif. Hal ini disebabkan teori-teori yang berbeda dapat menghasilkan hipotesis alternatif yang sama: bahwa hasil analisis akan memberikan adanya perbedaan mean atau korelasi dengan arah tertentu. Keyakinan akan kebenaran teoretis hanya dapat ditegakkan melalui argumen logis penulis yang didasarkan bukan semata-mata pada hasil analisis tapi juga pada bangunan teoretik dan penelitian sebelumnya. 8. Kegagalan menolak hipotesis nul berarti parameter di populasi sama dengan nol. Kesimpulan ini keliru karena kegagalan menolak hipotesis nul dapat diakibatkan oleh banyak faktor seperti besarnya sampel, reliabilitas pengukuran, desain penelitian yang 1
Nomor dilanjutkan dari daftar sebelumnya untuk memudahkan membaca tabel 2.
22
buruk, atau power dari analisis yang dilakukan lemah. Tukey (dalam Kline, 2004) mengatakan,”The absence of evidence is not equal with the evidence of absence”. (Ketiadaan bukti tidak sama dengan bukti akan ketiadaan). Oleh karena itu, dalam studi yang membandingkan dua intervensi, ketika hipotesis nul gagal ditolak, kita tidak dapat mengatakan bahwa kedua intervensi tersebut memberikan efek intervensi yang sama. Kita hanya dapat menyatakan bahwa hasil penelitian tidak dapat disimpulkan (inconclusive). 9. Penolakan hipotesis nul merupakan bukti kualitas dari desain penelitian yang dilakukan, sehingga seringkali pengecekan desain penelitian tidak dilakukan lagi. Kesimpulan ini keliru karena kualitas desain penelitian yang buruk pun dapat menciptakan efek semu yang memberikan hasil yang signifikan. 10. Kegagalan menolak hipotesis nul menandakan kegagalan penelitian. Kesimpulan ini tidak sepenuhnya benar karena kegagalan menolak hipotesis nul juga dapat terjadi dalam praktek penelitian yang baik ketika kondisi parameter di populasi memang seperti yang dinyatakan dalam hipotesis nul. Jika banyak penelitian replikasi menunjukkan kegagalan menolak hipotesis nul, maka besar kemungkinan efek yang diteliti memang mendekati nilai yang dirumuskan dalam hipotesis nul. 11. Penolakan hipotesis nul berarti kita telah menemukan bukti adanya hubungan sebab-akibat jika hipotesis alternatif menyatakan demikian. Kesimpulan ini keliru karena alasan yang sama dengan yang telah dibahas dalam poin no 7. Bahkan dalam studi eksperimental sekalipun, penolakan hipotesis nul tidak secara meyakinkan dapat menegakkan hubungan sebab-akibat jika didasarkan hanya pada penelitian tunggal. 12. Penelitian replikasi yang tidak memberikan signifikansi yang sama dengan penelitian sebelumnya, merupakan bukti kegagalan replikasi penelitian. Kesimpulan ini keliru karena signifikansi hasil dipengaruhi oleh banyak faktor seperti power dari analisis, besarnya sampel, dll. Berdasarkan paparan di atas dapat disimpulkan adanya cukup banyak kesalahan interpretasi maupun kesimpulan yang diambil berdasarkan penolakan H0. Penulis meyakini bahwa kesalahan-kesalahan yang mungkin terjadi tidak terbatas pada dua belas kesalahan yang terdaftar di atas. Oleh karena itu perlu kiranya bagi pengajar statistik dan peneliti untuk juga 23
memahami makna nilai p yang sebenarnya agar terhindar dari bentuk-bentuk kesalahan yang lain. Subbab berikut akan berisi hasil survey kecil yang dilakukan penulis terkait dengan kesalahan-kesalahan interpretasi dan kesimpulan ini meskipun tidak semua kesalahan interpretasi di atas terwakili dalam item survey. Kiranya hasil survey kecil ini dapat dianggap sebagai gambaran kasar mengenai seberapa banyak kesalahan ini terjadi di kalangan mahasiswa-penelitidosen di psikologi di Indonesia. Hasil Survey yang Dilakukan Peneliti Survey ini terdiri dari 20 item pernyataan terkait dengan kesalahan interpretasi dan kesimpulan dari nilai p, tiga item terkait dengan besarnya sampel, dan 34 item terkait dengan penilaian yang diyakini dan praktek yang dijalankan mengenai prosedur penelitian. Penulis hanya akan membatasi paparan hasil survey ini pada 20 item terkait dengan kesalahan interpretasi dan kesimpulan dari nilai p saja. Hasil dari dua bagian lain akan dipaparkan dalam artikel terpisah. Hasil survey per-item dapat dicermati dalam tabel 2 sebagai berikut:
24
Tabel 2. Hasil survey interpretasi dan kesimpulan keliru mengenai nilai p dengan N=58, N pengajar statistik = 4 No.
1. 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Item (Kunci)
Jika hasil analisis menunjukkan p < (LEBIH KECIL) 0.05, ini berarti hipotesis alternatif saya benar (Salah) Jika analisis memberikan hasil yang signifikan (p<0.05), ini berarti ada perbedaan yang besar antar kelompok atau korelasi yang besar antar variabel Jika p < (LEBIH KECIL) 0.05, ini berarti teori yang mendasari hipotesis alternatif saya benar (Salah) Jika analisis memberikan hasil yang sangat signifikan (p<0.001), ini berarti ada perbedaan yang sangat besar antar kelompok atau korelasi yang sangat besar antar variabel (Salah) Jika analisis memberikan angka korelasi r=0.4, dengan p=0.05, ini berarti ada 95% kemungkinan korelasi yang sama akan didapatkan dari penelitian replikasi Jika analisis memberikan angka korelasi r=0.4 dengan p=0.05, ini berarti ada 95% kemungkinan kita akan memperoleh r=0.4 dalam populasi (Salah) Jika p = (SAMA DENGAN) 0.05 ini berarti ada kemungkinan sebesar 95% hipotesis null salah (Salah) Nilai p menggambarkan besarnya probabilitas penelitian yang dilakukan, keliru dalam mengambil keputusan (misalnya menolak hipotesis nul) (Salah) Nilai p menggambarkan besarnya probabilitas hipotesis alternatif saya salah (Salah) Jika p > (LEBIH BESAR) 0.05, kita menerima hipotesis nul (Salah) Replikasi langsung (replikasi penelitian sama persis seperti penelitian sebelumnya) merupakan praktek penelitian yang baik (Benar) Signifikansi statistik merupakan hasil pengujian hipotesis alternatif (Salah) Jika p > (LEBIH BESAR) 0.05 , ini berarti hipotesis nul benar (Salah) Hasil analisis yang TIDAK signifikan menunjukkan adanya masalah dalam desain penelitian (Salah) Hasil analisis yang signifikan menunjukkan bahwa penelitian telah dilakukan dengan benar (Salah) Jika analisis memberikan hasil yang SIGNIFIKAN, saya TIDAK perlu mengecek apakah ada kesalahan dalam penelitian saya (Salah)
Respon Umum (%) B S T
Respon Pengajar Statistik (%) B S T
Poin Terkait
74.1
20.7
5.2
100
0
0
7
70.7
22.4
6.9
75
25
0
6
63.8
24.1
12.1
50
50
0
7
53.4
39.7
6.9
75
25
0
6
46.6
32.8
20.7
75
25
0
5
58.6
20.7
20.7
75
25
0
4
41.4
36.2
22.4
50
50
0
2,4
63.8
12.1
24.1
100
0
0
3
44.8
36.2
19.0
75
25
0
2
69.0 31.0
22.4 53.4
8.6 15.5
100 50
0 50
0 0
8 2,4,7
58.6 60.3 25.9
31.0 29.3 69.0
10.3 10.3 5.2
50 100 0
50 0 100
0 0 0
2 10
31.1
60.3
8.6
0
75
25
9
8.6
82.8
8.6
0
100
0
9
25
No. 17
Item (Kunci)
Respon Umum (%) B S T 62.1 22.4 15.5
Respon Pengajar Statistik (%) B S T 75 25 0
Poin Terkait
Jika p = 5% ini berarti probabilitas hasil yang saya dapatkan di sampel dapat 2,4 digeneralisasikan ke populasi sebesar 95% (Salah) 18 Meskipun kita mengambil data dari seluruh populasi, kita tetap perlu melakukan 77.6 15.5 6.9 50 50 0 * uji signifikansi statistik untuk mengetahui apakah korelasi / perbedaan mean yang diperoleh signifikan (Salah) 19 Perbedaan atau korelasi yang tidak signifikan berarti ada perbedaan atau 55.2 39.7 5.2 75 25 0 6 korelasi tetapi kecil (Salah) 20 Nilai p < (LEBIH KECIL) 0.05 menunjukkan bahwa perbedaan atau korelasi 48.3 27.6 24.1 75 25 0 1 dalam penelitian ini tidak diakibatkan oleh kesalahan sampling (sampling error) melainkan karena adanya perbedaan atau korelasi yang nyata (Salah) Catatan:B=Memberikan respon ‘Benar’, S=Memberikan respon ‘Salah’, T=Memberikan respon ‘Tidak Tahu’. Kata di dalam kurung setelah pernyataan merupakan respon yang benar. Item no 12 dan 18 tidak mewakili kesalahan interpretasi atau kesimpulan terhadap nilai p yang dibahas dalam subbab sebelumnya sehingga tidak terdapat poin yang secara langsung menjelaskan kekeliruan pernyataan ini. Penjelasan mengenai kekeliruan diberikan sebagai berikut: Pernyataan dalam item no 12 salah karena pengujian signifikansi hipotesis nul adalah pengujian terhadap hipotesis nul bukan hipotesis alternatif. Penjelasan mengenai hal ini dapat dilihat dalam subbab mengenai Makna Nilai p. * Pernyataan dalam item 18 salah karena pengujian signifikansi hipotesis nul dilakukan karena kebutuhan untuk melakukan inferensi terhadap kondisi di populasi. Jika peneliti telah mengambil seluruh populasi, maka kebutuhan melakukan inferensi tidak ada lagi, sehingga tidak lagi dibutuhkan pengujian signifikansi hipotesis nul
26
Secara umum, masih banyak responden yang menunjukkan kekeliruan pemahaman interpretasi nilai p dan kesimpulan yang terkait. Dari 20 item tersebut, sebagian besar (13 item) direspon secara keliru oleh cukup banyak responden dengan prosentase lebih dari 50%. Tiga item yang secara umum memiliki prosentase kekeliruan terbesar adalah item 1, 2 dan 18. Item no 1 dan 2 memang merupakan pernyataan yang paling sering digunakan sebagai interpretasi atau kesimpulan hasil penelitian selama ini meskipun ternyata pemahaman seperti ini keliru. Cukup mengejutkan juga bahwa item 18 yang merupakan anggapan perlunya uji signifikansi hipotesis nul dalam penelitian yang melibatkan populasi menjadi salah satu kekeliruan yang dianut paling banyak. Hal ini mungkin terjadi karena masih banyak yang menyamakan hasil uji signifikansi hipotesis nul dengan besar kecilnya korelasi atau perbedaan mean. Respon pada item no 14, 15, 16 menunjukkan bahwa masih cukup banyak responden yang dapat memisahkan antara hasil analisis data dengan desain penelitian, bahwa hasil analisis data dapat memberikan hasil yang signifikan meskipun dijalankan menggunakan desain penelitian yang buruk. Namun demikian dalam pengalaman penulis, masih banyak peneliti yang cenderung mengabaikan desain penelitian ketika analisis memberi hasil yang signifikan atau sebaliknya menganggap penelitiannya bermasalah ketika hipotesis nul gagal ditolak meskipun telah dijalankan sesuai prosedur yang benar. Dari sampel pengajar statistik / pengukuran item no 1, 8, 10, 13 merupakan item yang direspon “Benar” oleh semua responden. Item 1 merupakan pengambilan kesimpulan yang paling sering digunakan dalam penelitian-penelitian ketika p < 0.05. Sementara item 8 merupakan interpretasi yang sangat dekat dengan kesalahan tipe 1. Item 10 dan 13 merupakan item yang terkait dengan hipotesis nul yang sebenarnya tidak dapat dinyatakan benar meskipun p>0.05. Hasil survey ini tentu saja tidak dapat mewakili keseluruhan populasi dosen-mahasiswapeneliti psikologi di Indonesia. Namun demikian, melihat besarnya prosentase responden dan para pengajar statistik yang keliru memahami nilai p, cukup kiranya hasil ini dijadikan sebagai tanda bahaya terhadap adanya masalah dalam pemahaman metode penelitian di psikologi, khususnya analisis data statistik, yang membutuhkan penanganan lebih serius. Rekomendasi Ada beberapa rekomendasi yang diusulkan oleh penulis terkait dengan permasalahan ini: 27
1. Perlu kiranya usaha-usaha dilakukan lebih serius untuk mengoreksi pemahaman yang keliru mengenai analisis statistik, di kalangan mahasiswa-dosen-peneliti, tidak terbatas pada kesalahan pemahaman uji signifikansi hipotesis nul ini. Usaha-usaha ini dapat diwujudkan dalam bentuk seminar untuk menyebarluaskan konsep-konsep dan praktek analisis statistik dan metode penelitian yang benar dan pembenahan pengajaran statistik baik di tingkatan S1 maupun tingkatan yang lebih tinggi. Penulisan atau pemilihan buku ajar statistik perlu juga untuk mempertimbangkan keakuratan informasi yang terkandung di dalamnya. 2. Metode-metode pengajaran statistik perlu dikembangkan untuk meningkatkan pemahaman yang lebih baik akan konsep-konsep statistik. Misalnya penggunaan simulasi akan mempermudah pengajar untuk memperkenalkan konsep mengenai standard error dari hasil estimasi atau probabilitas. 3. Meskipun tidak secara langsung terkait dengan isu yang dibahas dalam artikel ini, mempelajari cara-cara lain untuk melakukan pengujian hipotesis dapat membantu meletakkan uji signifikansi hipotesis nul pada tempatnya. Cara-cara ini misalnya pendekatan Bayesian dalam pengujian hipotesis, equivalence testing, close-enough fit statistics, dll. Variasi dalam pengujian hipotesis testing dapat memberikan alternatif cara untuk menguji hipotesis, khususnya ketika pertanyaan penelitian tidak dapat sepenuhnya dijawab menggunakan pengujian signifikansi hipotesis nul. Usaha ini akan menghindarkan kita dari praktik menerapkan prosedur yang tidak sesuai dengan kebutuhan penelitian. 4. Publikasi seperti “Statistical Methods in Psychological Journals” (Wilkinson & Task Force on Statistical Inference, 1999) perlu dipelajari dan disebarluaskan untuk meningkatkan pemahaman yang benar akan metode penelitian secara umum dan analisis statistik secara khusus. Akhir kata, kiranya artikel ini dapat menjadi pemicu bagi diskusi-diskusi dan refleksi mengenai praktek analisis statistik yang selama ini telah dilakukan sehingga dapat memperbaiki pemahaman dan praktek analisis statistik oleh dosen-peneliti-mahasiswa, khususnya dalam area Psikologi di Indonesia.
28
Daftar Pustaka Bakan.D. (1966). The Test of Significance in Psychological Research. Psychological Buletin, Vol 66 (6): 423 – 437. Christensen, R. (2005). Testing Fisher, Neyman, Pearson and Bayes. Journal of the American Statistical Association. Vol 59 (2): 121 – 126 Cohen, J.(1994). The earth is round (p<0.05). American Psychologist. Vol 49(12): 997 – 1003. Cumming, G.(2013). The new statistics: Why and how? Psychological Science. 25: 7 – 29. DOI: 10.1177/0956797613504966 Greenwald.A.G., Gonzalez,R., Haris, R.J., & Gutrhie, D. (1996). Effect sizes and p values: What should be reported and what should be replicated? Psychophysiology. Vol 33: 175 - 183. Hagen, R.L. (1997). In praise of null hypothesis significance testing. American Psychologist. Vol 52(1): 15 – 24. Kline, R.B. (2004). Beyond significance testing. Reforming data analysis method in behavioral research. Washington DC: American Psychological Association Lehmann, E.L.(1993). The Fisher, Neyman-Pearson theories of testing hypotheses: One theory or two? Journal of the American Statistical Association. Vol 88(424):1242 – 1249. Maxwell, S.E. & Delaney, H.D. (2004). Designing experiments and analyzing data, A model comparison perspective. Edisi kedua. Mahwah, NJ: Lawrence Erlbaum Associates, Publishers Meehl, P.E. (1967). Theory-testing in psychology and physics: a methodological paradox. Philosophy of Science, Vol 34(2): 103-115. Meehl. P.E. (1978). Theoretical Risks and Tabular Asterisks: Sir Karl, Sir Ronald and the Slow Progress of Soft Psychology. Journal of Consulting and Clinical Psychology. Vol.46(4): 806 – 834. Morey, R.D., Rouder, J.N., Verhagen, J., Wagenmakers, Eric-Jan. (2014). Why hypothesis tests are essential for psychological science: a comment on Cumming (2014). Psychological Science. 26: 1 – 2. Oakes, M. (1986). Statistical Inference: A commentary for the social and behavioral sciences. Chichester: John Wiley & Sons. Pashler, H. & Harris, C.R.(2012). Is the replicability crisis overblown? Three arguments examined. Perspectives on Psychological Science. Vol 7(6): 531 – 536.
29
Hastjarjo, D. (2000). Seputar Kontroversi Uji Signifikansi Hipotesis Nul. Buletin Psikologi. Vol: 8(2):1 – 6. Sugiyanto. (2000). Keterbatasan Uji Signifikansi: Ilustrasi pada Analisis Korelasi 2 Variabel. Buletin Psikologi. Vol 8(2):33 – 50. Sukadji, S. (2001). Kasus regresi: Ikut-ikutan menghakimi asumsi dan mempertanyakan uji signifikansi. Buletin Psikologi. Vol 9(1):29 - 36 Suryabrata, S. (2000). Pengujian Signifikansi Hipotesis Nol dalam Penelitian Psikologis. Buletin Psikologi. Vol 8(2). 23 – 32 Swediati, N. & Bastari. (2000). Keterbatasan Uji Signifikansi Hipotesis Nul. Buletin Psikologi. Vol 8(2): 17 – 22. Wilkinson, L & Task Force on Statistical Inference. (1999). Statistical Methods in Psychological Journals. Guidelines and Explanations. American Psychologist.Vol 54(8):594 – 604.
30
Appendiks A-1 Skrip R untuk menampilkan Gambar 1 dan Gambar 2 ##plots of Pr(H0|D) by varying ph0 pdh0=seq(.01,.1,.01) pdhn0=.5 ph0=seq(.1,.9,.2) plot(pdh0,ph0d,type='n',xlab='Pr(D|H0=true)',ylab='Pr(H0=true| D)',ylim=c(0,.7),xlim=c(0,.12)) abline(h=.05,lty=3) for(i in 1:length(ph0)){ ph0d=(pdh0*ph0[i])/(pdh0*ph0[i]+pdhn0*(1-ph0[i])) lines(pdh0,ph0d,type='b') text(0.105,ph0d[length(ph0d)],paste('Pr(H0=true)=',round(ph0[i],2)),pos=4,o ffset=-.5,cex=.8) } ##plots of Pr(H0|D) by varying pdhn0 (power of the study) pdh0=seq(.01,.1,.01) pdhn0=seq(.1,.9,.2) ph0=.5 plot(pdh0,ph0d,type='n',xlab='Pr(D|H0=true)',ylab='Pr(H0=true| D)',ylim=c(0,.53),xlim=c(0,.12)) for(i in 1:length(pdhn0)){ ph0d=(pdh0*ph0)/(pdh0*ph0+pdhn0[i]*(1-ph0)) lines(pdh0,ph0d,type='b') text(0.105,ph0d[length(ph0d)],paste('Power=',round(pdhn0[i],2)),pos=4,offse t=-.5,cex=.8) } abline(h=.05,lty=3)
31
Appendiks A-2 Skrip R untuk melakukan simulasi untuk Gambar 4 (untuk d=0.8) ##### p = Probabilitas Replikasi d=0.8 p_1=NULL p_2=NULL ns=seq(50,300,10) for(j in 1:length(ns)){ f1=0 f2=0 for(i in 1:10000){ x=rnorm(ns[j],d) y=rnorm(ns[j]) p1=t.test(x,y,alternative='two.sided',var.equal=TRUE)$p.value if(p1<=0.05){f1=f1+1} p2=1 if(p1<=.05){ x=rnorm(ns[j],d) y=rnorm(ns[j]) p2=t.test(x,y,alternative='two.sided',var.equal=TRUE)$p.value } if(p1<=.05 & p2<=.05){f2=f2+1} } p_1=c(p_1,f1/10000) p_2=c(p_2,f2/f1) } plot(ns,p_20,type='n',ylim=c(0,1),xlim=c(50,350),xlab='Ukuran Sampel',ylab='Probabilitas Replikasi dengan p<.05') lines(ns,p_2) text(ns[5],p_2[length(p_2)],'d = 0.8',pos=1,cex=.8) abline(h=.95,lty=3)
32