Statistika Nonparametrik Oleh Prof. Drs. Suryo Guritno, M.Stats., Ph.D. 1
Asumsi2 Parametrik Observasinya harus independen Observasinya harus diambil dari populasi normal, kecuali ukuran sampel cukup besar Semua populasi variansinya harus sama (sifat homoskedastik)
2
Asumsi2 Nonparametrik Observasi2 nya independen Variablenya merupakan variabel yang kontinu atau berskala ordinal
3
Ukuran/Skala Data
Ada 4 (empat) macam, yaitu: 1. Skala Nominal (Classificatory) Gender, latar belakang etnik
2. Skala Ordinal (Ranking) Kekerasan batu, kecantikan, pangkat militer
3. Skala Interval Celsius atau Fahrenheit
4. Skala Ratio Derajat Kelvin , kecepatan, tinggi, massa atau berat 4
Metode Nonparametrik
Ada paling sedikit satu uji nonparametrik yang ekivalen dgn suatu uji parametrik Uji2 tersebut dapat di kelompokkan dalam beberapa kategori, yaitu: 1. Uji beda antar kelompok (sampel independen) 2. Uji beda antar variabel (sampel dependen) 3. Uji hubungan antar variabel 5
Inferensi Statistika Untuk Parameter Distribusi Binomial Jika berhadapan dengan suatu populasi dichotomous (hasilnya digolongkan sebagai sukses atau gagal: biasa juga dikenal sebagai populasi dua hasil), maka objek yang dapat dijadikan perhatian adalah p yaitu probabilitas mendapat sukses.
6
Untuk melakukan inferensi statistika untuk p, maka diambil sampel random berukuran-n dari populasi tersebut dan diketahui bahwa distribusi sampling jumlah sukses (dalam sampel random berukuran-n) berdistribusi Binomial dengan parameter p, ditulis Bin(n , p).
7
Jika X ~ Bin (n , p), maka n x f ( x) P( X x) p (1 p) n x , x 0, 1, 2, .... n x
dengan mean X = np variansi X = np( 1 - p), dan X adalah jumlah sukses. 8
Jelas bahwa menggunakan teorema limit pusat dapat dibuktikan bahwa untuk n yang cukup besar
X ~ N (np. np(1 p)) atau x p n ~ n(0 .1) p (1 p ) n 9
sehingga inferensi statistika untuk p dapat dilakukan berdasarkan distribusi normal. Suatu hal yang sering dilakukan agar hasil yang diperoleh menjadi lebih tepat adalah menggunakan faktor koreksi berhubung distribusi binomial adalah distribusi variabel random diskrit sedang distribusi normal adalah distribusi variabel random kontinu. 10
Faktor koreksi yang digunakan adalah + ditambah untuk batas atas dari X dan ditambahkan untuk batas bawah. Jika n tidak cukup besar, maka pendekatan normal tidak dapat dilakukan, sehingga inferensi statistika untuk p adalah harus didasarkan pada distribusi binomial, yaitu dengan cara berikut:
11
1.1. Estimasi Interval Karena X ~ Bin (n , p), dari P( X L X X u ) (1 )100%
dapat diperoleh interval konfidensi (1 α) 100% untuk p adalah
PL p Pu 12
dengan pL , pu dapat diperoleh dari suatu tabel, misalnya tabel C6 dalam buku "Statistics : A Biomedical Introduction" oleh Brown & Hollander. 13
1.2. Uji Hipotesis Untuk menguji H0 = p = p0, daerah X ~ Bin (n , p0), maka untuk menguji Ha = p ≠ p0, daerah kritisnya adalah X > xu atau X < XL dengan Xu ditentukan dari dan XL ditentukan dari atau sebaliknya untuk Ha = p > p0, daerah kritisnya adalan X < XL dengan XL ditentukan dari P(X < XL) ≤ α. 14
Catatan: 1. Untuk n , p tertentu Xu atau XL dapat dicari dengan tabel distribusi Binomial. 2. Inferensi Statistika untuk experimen Bernoulli atau Binomial atau populasi dichotomous dapat pula dilakukan dengan pendekatan ke distribusi normal.
15
Karena X ~ Bin (n , p) dengan X = jumlah sukses dalam sampel, maka X adalah variabel random diskrit. Kriteria untuk menentukan apakah berlaku pendekatan normal adalah 0,1 < p < 0,9 (rule of thumb), maka distribusi tidak mungkin symetry.
16
Contoh 6.1 : Dari tabel di bawah ini ujilah apakah merokok mempengaruhi waktu hidup ?
Yang tidak merokok perokok Jumlah
Hidup dalam 6 th 117
Hidup
Jumlah
950
1067
54
348
402
171
1298
1469
17
1.3. Inferensi Statistika Untuk Beda Proporsi Jika X1 ~ Bin (n1 , p1) dan X2 ~ Bin(n2 , p2), maka untuk menguji Ho = p1 = p2 = p digunakan statistik
X1 X 2 P n1 n2
18
A
Ā
Jumlah
Sampel I
X1
n1 - X1
n
Sampel II
X2
n2 - X2
n2
X1 + X2
n1 + n2 - X1 - X2
n1 + n2
Jumlah
X1 k X1 X 2
~ ???
19
Sampel I Sampel II
Sukses p1 p2
Gagal 1 - p1 1 - p2
Berikut ini adalah suatu cara lain untuk melakukan inferensi statistika untuk membandingkan dua proporsi. Cara yang sangat populer ini adalah:
20
dengan X1 ~ Bin (n1 , p1) dan X2 ~ Bin (n2 , p2) saling independen, maka Ho benar berakibat p1 = p2 = p, sehingga X1 + X2 ~ Bin (n1 + n2 , p) dan n1 n2 x k x 1 P X 1 x1 X 1 X 2 k 1 n1 n2 k
21
Jika X berdistribusi Binomial ditulis : X ~ Bin (n , p), maka
n x P( X x) p (1 p)n x x dengan x = 0, 1, 2, ....... n dan o < p < 1. Jika X ~ Bin (nx , px) dan Y ~ Bin (ny , py) dengan X dan Y saling independen, maka membandingkan px dan py dapat dilakukan dengan estimasi untuk px - py atau uji hipotesis Ho = px = py
22
Jika dua populasi dependen, maka penyajian tabel keadaan berikut Sembuh
tidak
Obat A
18
82
100
Obat B
10
90
100
adalah tidak benar, karena yang dimaksud dengan data untuk masingmasing baris adalah untuk 100 orang sama. 23
Dengan demikian penyajian tabel yang benar adalah sebagai berikut
Sakit tidak
Sembuh 9 9 18
tidak 1 81 82
10 90 100
24
Dengan mudah dapat dilihat bahwa PA dan PB tidak independen.
nAB
nAB
nAB
nAB 25
Dari tabel di atas dapat diperoleh dengan mudah bahwa
PA pAB pAB dan pB p AB pAB Dengan demikian untuk menguji Ho = pA = pB adalah sama/ekivalen dengan menguji
H o pAB pAB 26
tertentu maka n B (n n Jika nAB dan nAB Untuk nAB dan nAB besar, biasanya 25, AB
1
AB
1 , ) AB 2
maka
nAB nAB nAB nAB
atau
n n AB AB n n AB AB
atau
nAB nAB 1 nAB nAB
N (0 , 1) 2
12 N (0 , 1) 27
Perhatikan tabel berikut I
X
nX - X
nX
II
Y
nY - Y
nY
X+Y
nX + nY - X -Y
nX + nY
Jika x + y, nx dan ny diketahui, maka yang lain juga diketahui dan k nx n y k n x x x 1 P X x x Y k 1 nx n y n x
28
Untuk menguji Ho = px = py = p, maka X ~ Bin(nx , px) dan Y ~ Bin (ny , py) saling independen mengakibatkan X - Y ~ Bin (nx + ny , p) jika Ho benar. Dengan demikian berlaku
nx x k nx n y
nx n y k n x n y k
n
~ N (0,1)
n y nx n y 1 2
x
29
Uji hipotesis di atas dapat juga digunakan untuk menguji homogenitas atau independensi. Jika digunakan tabel berikut Sukses
O11
O12
n1.
Gagal
O21
O22
n2.
n.1
n.2
n..
30
maka statistik yang digunakan untuk menguji homogenitas adalah
x 2
sedangkan yang digunakan menguji independensi adalah
untuk
x 2
31
II. INFERENSI STATISTIKA UNTUK MEMBANDINGKAN k (> 2) POPULASI
Setelah kita mempelajari bagaimana cara menguji Ho bahwa tidak ada beda antara mean dua populasi, suatu hal yang dapat difikirkan sebagai kelanjutannya adalah bagaimana cara menguji Ho bahwa tidak ada beda antara mean k populasi.
32
Suatu cara yang dapat difikirkan untuk menyelesaikan hal tersebut adalah menguji Ho dari semua pasangan 2 secara terpisah masing-masing menggunakan uji distribusi normal atau uji distribusi t. Andaikan ada 5 populasi yang akan diuji beda meannya, maka banyak semua pasangan 2 populasi yang mungkin ada , maka artinya kita akan melakukan 10 uji hipotesis terpisah. 33
Jika dipilih tingkat signifikansi α = 5% untuk setiap uji hipotesis, maka kemungkinan gagal menolak Ho bahwa tidak ada aturan multiplikatif kemungkinan, jika dianggap masingmasing uji hipotesis independen satu dengan yang lain, maka kemungkinan gagal menolak Ho dalam kesepuluh uji hipotesis adalah (95%)10 = 59,87%. 34
Ini berakibat kemungkinan menolak paling sedikit satu Ho adalah 1 - 59,87% = 40,13%, yang adalah terlalu besar. Tentunya hal ini tidak akan disukai, sehingga perlu dicari jalan keluarnya, yaitu menggunakan metode analisis variansi (ANAVA atau ANOVA). 35
2.1. Model Analisis variansi satu arah Model ini sering juga disebut Rancangan Random Lengkap atau Model Analisis Satu Faktor. Data dari populasi-populasi yang diteliti dapat disajikan dengan cara sebagai berikut:
36
Treatment (= Perlakuan) 1 2 3 x11 x12 x13
..... k x1k
xn11 Total T.1
xn22 xn33 ..... Xnkk T.2 T.3 T.k T..
Mean
x 2
x 1
x 3
x k
x 37
-xij = Observasi ke-i dari atau dalam populasi ke j. i = 1, 2, ............, ni dan j = 1, 2, ....k, ( k > 2). x j = mean perlakuan ke - j.
x = mean dari x 1 , x , x k . 2
38
Model Analisis variansi satu faktor ini adalah suatu teknik statistik untuk mempelajari hubungan antara suatu vairabel dependen dengan satu variabel independen (dalam hal ini biasa disebut faktor). Model ini dapat dibedakan menurut 2 macam, yaitu model efek tetap dan model efek random. Model efek tetep adalah model jika banyaknya perlakuan yang diteliti tertentu. 39
Beda antar kelompok independen
Dua sampel – membandingkan mean beberapa variabel yang menjadi perhatian
Parametrik
Nonparametrik
Uji-t untuk sampel independen
Uji runs WaldWolfowitz Uji U MannWhitney Uji KolmogorovSmirnov dua sampel 40
Uji U Mann-Whitney Padanan nonparametrik untuk uji t dua sampel Ukuran sebenarnya diganti dengan/oleh ranknya Data dapat di rank dari nilai tertinggi ke terendah atau dari terendah ke tertinggi Statistik U Mann-Whitney
U = n1n2 + n1(n1+1) – R1 2
41
Contoh Soal Uji U Mann-Whitney Hipotesis null dua sisi bahwa tidak ada beda tinggi mahasiswa putra dan putri Ho: Tinggi mahasiswa putra dan putri sama HA: Tinggi mahasiswa putra dan putri tidak sama
42
U = n1n2 + n1(n1+1) – R1 2 U=(7)(5) + (7)(8) – 30 2 U = 35 + 28 – 30 U = 33 U’ = n1n2 – U
Tinggi mhs putra (cm)
Tinggi mhs putri (cm)
Rank tinggi mhs putra
193
175
1
7
188
173
2
8
185
168
3
10
183
165
4
11
180
163
5
12
178
6
170
9
n1 = 7
n2 = 5
R1 = 30
Rank tinggi mhs putri
R2 = 48
U’ = (7)(5) – 33 U’ = 2 U 0.05(2),7,5 = U 0.05(2),5,7 = 30 As 33 > 30, Ho ditolak 43
Beda antar kelompok independen
Kelompok lebih dari satu
Parametrik Nonparametrik Analisis variansi (ANOVA/ MANOVA)
Analisis rank Kruskal-Wallis
Uji Median
44
Beda antar kelompok dependen Parametrik Uji-t untuk Membanding dua sampel variabel diukur dalam dependen sampel yang sama
ANOVA Jika lebih dari dua ukuran variabel diukur dalam berulang sampel yang sama
Nonparametrik Uji Tanda Uji Data Berpasangan Wilcoxon ANOVA dua arah/faktor Friedman Cochran Q 45
Hubungan Antar Variabel Parametrik
Nonparametrik
Koefisien Korelasi Pearson r
Spearman R
Kendall Tau Gamma Koefisien
Kedua variabel kategorik
Chi Kuadrat Koefisien Phi Uji Eksak Fisher
Koefisien
46
Tabel Statistik Uji Parametrik dan Nonparametrik
Skala Pengukuran
Karakteristik Sampel
1 Sampel
Korelasi
2 Sampel
K ( >2) Sampel
Independen
Dependen
Independen
Dependen
Kategorik atau Nominal
Χ2 atau binomi al
Χ2
McNemar Χ2
Χ2
Cochran Q
Rank atau Ordinal
Rank Bertan da Wilcox on
Mann Whitney U
Rank Bertanda Wilcoxon Data Berpasangan
Kruskal Wallis H
Friendman ANOVA
Spearman rho
Parametrik (Interval & Ratio)
Uji z atau Uji t
Uji t antar kelompok
Uji t dalam kelompok
ANOVA 1 arah/faktor antar kelompok
ANOVA 1 arah/faktor (within or repeated measure)
Pearson r
ANOVA 2 arah/faktor
(Plonskey, 2001)
47
Keuntungan Uji Nonparametrik Probability statements obtained from most nonparametric statistics are exact probabilities, regardless of the shape of the population distribution from which the random sample was drawn If sample sizes as small as N=6 are used, there is no alternative to using a nonparametric test Siegel, 1956
48
Keuntungan Uji Nonparametrik Treat samples made up of observations from several different populations. Can treat data which are inherently in ranks as well as data whose seemingly numerical scores have the strength in ranks They are available to treat data which are classificatory Easier to learn and apply than parametric tests
Siegel, 1956 49
Kritik untuk Metode Nonparametrik Losing precision/wasteful of data Kuasa rendah False sense of security Tidak banyak software pendukung Hanya menguji distribusi saja Tidak dapat digunakan untuk interaksi order tinggi
50
Kuasa suatu Uji
Kuasa statistik – probability of rejecting the null hypothesis when it is in fact false and should be rejected – Power of parametric tests – calculated from formula, tables, and graphs based on their underlying distribution – Power of nonparametric tests – less straightforward; calculated using Monte Carlo simulation methods (Mumby, 2002) 51
Pertanyaan?
52