STK511 Analisis Statistika Pertemuan – 12 Nonparametrik-Kategorik-Logistik
12. Pengantar Skala Pengukuran
Data/Variabel Peubah Categorical Kategorik Nominal
Ordinal
Numeric Numerik Interval
Ratio
Hanya mengukur selisih tidak mampu mengukur Nisbah/rasio Ordered: A>B>C>D>E Hanya nama/lambang anang kurnia (
[email protected])
Mampu Mengukur Nisbah/rasio 2
12. Pengantar Peubah dan Metode Analisis
Ditentukan oleh: 1. Skala pengukuran data/peubah 2. Jenis hubungan antar peubah Causal relationship X Y Numerik Kategorik
Numerik
Kategorik
Regresi Linier
ANOVA
Regresi Logistik,
Regresi Logistik
Diskriminan,
Classification and
Classification and Regression Tree, Neural Network
Regression Tree Neural Network
anang kurnia (
[email protected])
3
12. Pengantar Parametrik vs Nonparametrik • Dalam analisis statistika (misal: uji hipotesis) tersedia pilihan prosedur : parametrik dan nonparametrik • Prosedur parametrik mengasumsikan data memiliki sebaran teoritik tertentu dan nilai data itu sendiri yang digunakan dalam analisis (uji hipotesis)
• Prosedur nonparametrik tidak mengasumsikan data memiliki sebaran teoritik tertentu dan biasanya bukan nilai data itu sendiri (biasanya rangking) yang digunakan dalam analisis.
anang kurnia (
[email protected])
4
12. Pengantar Parametrik vs Nonparametrik • Keuntungan uji nonparametrik adalah mudah dan tidak perlu untuk memeriksa sebaran data. • Namun, kuasa uji (kemampuan memdeteksi hipotesis H1 atau 1-) nonparametrik lebih rendah dibandingkan uji parametrik padanannya. • Kelemahan lain uji nonparametrik adalah uji parametrik ternyata masih dapat digunakan pada data yang asumsi sebarannya tidak dipenuhi (selama tidak jauh melenceng dari sebaran semula). Uji - t dan ANOVA contohnya, masih dapat digunakan untuk data yang tidak normal asalkan ia masih simetrik. anang kurnia (
[email protected])
5
12. Pengantar Parametrik vs Nonparametrik Pengujian hipotesis mengenai nilai tengah populasi Banyaknya populasi
Parametrik
Nonparametrik
Satu
Uji Z, Uji - t
Uji Tanda, Wilcoxon
Dua
Uji Z, Uji - t
Mann-Whitney
Lebih
ANOVA
Kruskal-Wallis, Friedman
anang kurnia (
[email protected])
6
12. Uji Tanda untuk Contoh Tunggal Prosedur ini disebut uji tanda karena data yang akan dianalisis diubah menjadi serangkaian tanda plus dan minus, sehingga statistik uji yang digunakan adalah jumlah tanda plus atau jumlah tanda minus. Asumsi: • Contoh yang tersedia merupakan contoh acak dari suatu populasi dengan median M yang belum diketahui. • Peubah yang akan diamati sekurang-kurangnya ber-skala ordinal. Hipotesis: • H0 : M = M0 • H0 : M M0 • H0 : M M0
H1 : M M0 H1 : M M0 H1 : M M0 anang kurnia (
[email protected])
7
12. Uji Tanda untuk Contoh Tunggal Statistik uji
Pencatatan tanda dari n buah selisih, artinya mencatat (Xi - M0) dengan i = 1,2, ..., n. Jika H0 benar kita berharap contoh acak memiliki tanda plus sama banyaknya dengan tanda minus. Jika kita mendapatkan suatu jumlah tanda (baik plus atau minus) yang cukup kecil maka H0 ditolak.
Kaidah Keputusan Tolaklah H0 pada taraf nyata jika peluang untuk mendapatkan suatu tanda yang lebih sedikit dari pada tanda yang lainnya dalam suatu conoth acak berukuran n adalah kurang dari atau sama dengan /2 (), jika H0 benar. anang kurnia (
[email protected])
8
12. Uji Tanda untuk Contoh Tunggal Ilustrasi :
Data1 : 2 3 4 5 6 7 8 3 4 5 6 7 4 3 2 5 6 7
Sign Test for Median: Data1 Sign test of median = Data1
N 18
Below 8
anang kurnia (
[email protected])
5.000 versus not = 5.000
Equal 3
Above 7
P 1.0000
Median 5.000
9
12. Uji Peringkat Bertanda Wilcoxon Dalam uji Wilcoxon, kita menggunakan peringkat bertanda nilainilai selisih (Xi - M). Kita akan menghitung jumlah peringkat bertanda negatif maupun jumlah peringkat bertanda positif. Asumsi: • Contoh yang tersedia merupakan contoh acak dari suatu populasi dengan median M yang belum diketahui. • Peubah yang akan diamati sekurang-kurangnya ber-skala interval. • Populasi simetrik dan antar pengamatan saling bebas. Hipotesis: • H0 : M = M0 • H0 : M M0 • H0 : M M0
H1 : M M0 H1 : M M0 H1 : M M0 anang kurnia (
[email protected])
10
12. Uji Peringkat Bertanda Wilcoxon Statistik uji
1. Hitung : Di = Xi – M0 2. Beri peringkat dari selisih terkecil hingga terbesar tanpa memperhatikan tandanya. 3. Tandai setiap peringkat dari tanda selisih (Di) 4. Tentukan jumlah peringkat bertanda positif, misalkan dinotasikan dengan T+ dan jumlah peringkat bertanda negatif , T-. Kaidah Keputusan • Terima H0 jika T+ = T-. • Aproksimasi untuk contoh besar T*
T n(n 1)/4 ~ N 0,1 n(n 1)(2n 1)/24 anang kurnia (
[email protected])
11
12. Uji Peringkat Bertanda Wilcoxon Ilustrasi :
Data1 : 2 3 4 5 6 7 8 3 4 5 6 7 4 3 2 5 6 7
Wilcoxon Signed Rank Test: Data1
Test of median = 5.000 versus median not = 5.000
Data1
N 18
N for Test 15
Wilcoxon Statistic 53.0
anang kurnia (
[email protected])
P 0.712
Estimated Median 5.000
12
12. Uji Mann-Whitney dua populasi Asumsi:
• Data terdiri atas dua gugus contoh acak yang saling bebas : X1, X2…Xn dan Y1, Y2…Yn. Contoh pertama ditarik dari suatu populasi dengan median Mx dan contoh kedua dari populasi dengan median My. • Skala pengukuran paling sedikit adalah ordinal. • Kedua populasi memiliki bentuk sebaran yang sama. • Fungsi sebaran dari kedua populasi hanya berbeda pada lokasinya (mean). Hipotesis: H0 : Mx = My H1 : Mx My (H1 : Mx > My, H1 : Mx < My) anang kurnia (
[email protected])
13
12. Uji Mann-Whitney dua populasi Statistik Uji
• Gabungkan kedua contoh, kemudian beri peringkat dari yang terkecil hingga yang terbesar. • Jumlahkan peringkat-peringkat dari populasi 1. Jika parameter lokasi dari populasi 1 lebih kecil, kita mengharapkan jumlah peringkat contoh yang ditarik dari popuasi 1 akan lebih kecil dari jumlah peringkat contoh yang ditarik dari populasi 2. Begitu juga sebaliknya. • Statistik uji didasarkan pada jumlah peringkat yang cukup kecil atau cukup besar dari amatan-amatan contoh yang berasal dari populasi 1. • T S
n 1 (n 1 1) 2
, dengan S adalah jumlah peringkat untuk contoh dari populasi 1 anang kurnia (
[email protected])
14
12. Uji Mann-Whitney dua populasi Kaidah Keputusan
• H1 : Mx My Tolak H0 jika Thitung < w/2 atau Thitung w1-/2. • H1 : Mx < My Tolak H0 jika Thitung < w • H1 : Mx > My Tolak H0 jika Thitung > w1-. Catatan : w1- = n1n2 - w Aproksimasi untuk n besar T n1n 2 /2 z ~ N 0,1 n1n 2 (n1 n 2 1)/12 anang kurnia (
[email protected])
15
12. Uji Mann-Whitney dua populasi Ilustrasi :
Data1 : 2 3 4 5 6 7 8 3 4 5 6 7 4 3 2 5 6 7 Data2 : 7 4 5 6 8 7 8 9 5 7 7 8 8 9 4 5 6 7 Mann-Whitney Test and CI: Data1, Data2 Data1 Data2
N 18 18
Median 5.000 7.000
Point estimate for ETA1-ETA2 is -2.000 95.2 Percent CI for ETA1-ETA2 is (-3.000,-1.000) W = 245.0 Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.0056
anang kurnia (
[email protected])
16
12. Uji Kruskal-Wallis dua populasi atau lebih (RAL) • Uji nilai tengah beberapa populasi berdasarkan data contoh yang saling bebas • Pengujian dilakukan dengan memberi peringkat pada data gabungan contoh • Idenya, bila tidak ada perbedaan antar populasi, peringkat data masing-masing contoh akan memiliki kecenderungan yang sama
anang kurnia (
[email protected])
17
12. Uji Kruskal-Wallis dua populasi atau lebih (RAL) • Ilustrasi: pengujian kesamaan tingkat konsumsi rumah tangga antara tiga wilayah • Langkah-langkah:
1. Penyusunan hipotesis: H0: Tidak ada perbedaan konsumsi antar ketiga populasi H1: Ada perbedaan konsumsi antar ketiga populasi
anang kurnia (
[email protected])
18
12. Uji Kruskal-Wallis dua populasi atau lebih (RAL) 2. Pemberian peringkat pada data gabungan No
Wil 1
Rank 1
Wil 2
Rank 2
Wil 3
Rank 3
1
1
5
2
17
4
45
2
2
17
3
31
4
45
3
2
17
4
45
3
31
4
2
17
4
45
4
45
5
2
17
1
5
4
45
6
5
56.5
2
17
5
56.5
7
1
5
4
45
3
31
…
…
…
…
…
…
…
20
2
17
2
17
5
56.5
anang kurnia (
[email protected])
19
12. Uji Kruskal-Wallis dua populasi atau lebih (RAL) 3. Penghitungan jumlah peringkat untuk masing-masing contoh R1 = 391.5 R2 = 539.5 R3 = 899 4. Penghitungan statistik uji k 12 R i2 H 3(N 1) N(N 1) i 1 n i
k = banyaknya populasi H = 23.432 anang kurnia (
[email protected])
20
12. Uji Kruskal-Wallis dua populasi atau lebih (RAL) 5. Evaluasi Uji Tolak H0 bila H > 2(db = k-1;) atau nilai-p < Untuk data ilustrasi, dengan menggunakan Minitab diperoleh nilai-p = 0.000 untuk = 0.05 H0 ditolak ada perbedaan konsumsi antar ketiga wilayah
anang kurnia (
[email protected])
21
12. Uji Kruskal-Wallis dua populasi atau lebih (RAL) Ilustrasi lain:
Kruskal-Wallis Test: Data versus Populasi Kruskal-Wallis Test on Data
Populasi 1 2 3 Overall H = 20.64 H = 21.06
N 18 18 12 48
Median 5.000 7.000 8.500
DF = 2 DF = 2
Ave Rank 14.3 25.8 37.8 24.5
P = 0.000 P = 0.000
anang kurnia (
[email protected])
Z -3.92 0.51 3.81
(adjusted for ties)
22
12. Uji Friedman RAK • Uji nilai tengah beberapa populasi berdasarkan data contoh yang saling terkait (kelompok) • Pengujian dilakukan dengan memberi peringkat data pada masing-masing objek • Idenya, bila tidak ada perbedaan antar populasi, peringkat data pada masing-masing contoh akan memiliki kecenderungan yang sama
anang kurnia (
[email protected])
23
12. Uji Friedman RAK Ilustrasi: Suatu penelitian dilakukan untuk mengetahui pengaruh warna kertas (biru, hijau, oranye) terhadap tingkat respons bagi kuesioner-kuesioner yang disebarkan dengan cara ditempelkan di kaca depan mobil yang diparkir di tempat parkir toko swalayan. Lima tempat parkir toko swalayan dipilih dan ketiga warna kuesioner tersebut ditempelkan secara acak pada mobil-mobil yang diparkir di lima tempat parkir
anang kurnia (
[email protected])
24
12. Uji Friedman RAK Langkah-langkah: 1. Penyusunan hipotesis H0: Tidak ada perbedaan respon pengembalian kuesioner untuk ketiga warna H1: Ada perbedaan respon pengembalian kuesioner untuk ketiga warna 2. Pemberian peringkat pada data respon pengembalian kuesioner untuk masing-masing toko swalayan 3. Penghitungan jumlah peringkat untuk masing-masing warna kuesioner
anang kurnia (
[email protected])
25
12. Uji Friedman RAK
Tempat Parkir
Warna Kuesioner
Biru
Hijau
Oranye
1
28 (2)
34 (3)
27 (1)
2
26 (2)
29 (3)
25 (1)
3
31 (2)
35 (3)
29 (1)
4
29 (2)
31 (3)
27 (1)
5
30 (3)
29 (2)
28 (1)
Rbiru=11
Rhijau=14
Roranye=5
anang kurnia (
[email protected])
26
12. Uji Friedman RAK Langkah-langkah: 4. Penghitungan statistik uji k 12 2 χ 2r R j 3b(k 1) bk(k 1) j1
b = banyaknya objek = 5 k = banyaknya populasi = 3 2 = 8.400
anang kurnia (
[email protected])
27
12. Uji Friedman RAK Langkah-langkah: 5. Evaluasi Uji Tolak H0 bila H > 2(db = k-1;) atau nilai-p <
Untuk data ilustrasi, dengan menggunakan Minitab diperoleh nilai-p = 0.015 untuk = 0.05 H0 ditolak ada perbedaan respon pengembalian kuesioner untuk ketiga warna
anang kurnia (
[email protected])
28
12. Uji Friedman RAK Minitab Friedman Test: Respon versus Warna blocked by Parkir S = 8.40
Warna Biru Hijau Oranye
N 5 5 5
DF = 2
P = 0.015
Est Median 28.667 31.333 27.000
Sum of Ranks 11.0 14.0 5.0
Grand median = 29.000
anang kurnia (
[email protected])
29
Uji Khi-Kuadrat pada Tabel Kontingensi
12. Hubungan Antar Peubah
Dari data yang dimiliki, seringkali diinginkan untuk dievaluasi adakah keterkaitan atau hubungan antar peubah-peubah yang ada.
Peubah numerik korelasi Peubah kategorik asosiasi
anang kurnia (
[email protected])
31
12. Hubungan Antar Peubah Asosiasi
Beberapa ilustrasi asosiasi antar peubah • Hubungan antara pendapatan yang diterima dengan kepuasan kerja yang dirasakan • Hubungan antara keputusan pembelian suatu produk tertentu dikaitkan dengan jenis kelamin atau tingkat pendapatan konsumen • Hubungan antara status kredit nasabah (lancar atau macet) dengan status rumah (sendiri atau kontrak) dan lokasi tinggal (desa atau kota)
anang kurnia (
[email protected])
32
12. Hubungan Antar Peubah Tabulasi Silang Eksplorasi asosiasi antar peubah biasa diawali dengan tabulasi silang antar kedua peubah Peubah B Peubah A
Total Kategori 1
Kategori 2
...
Kategori q
Kategori 1
O11
O12
...
O1q
B1
Kategori 2
O21
O22
...
O2q
B2
...
...
...
...
...
...
Kategori p
Op1
Op2
...
Opq
Bp
Total
K1
K2
...
Kq
N
anang kurnia (
[email protected])
33
12. Hubungan Antar Peubah Hipotesis
• Pada evaluasi ada tidaknya asosiasi antar peubah, hipotesis yang diuji adalah: H0: Tidak ada asosiasi antar peubah H1: Ada asosiasi antar peubah • Apabila H0 benar, maka semestinya frekuensi masing-masing sel (frekuensi harapan) pada tabulasi silang adalah
Eij
Bi x K j N
anang kurnia (
[email protected])
34
12. Hubungan Antar Peubah Statistik Uji
• Semakin jauh nilai frekuensi sebenarnya (Oij) dengan frekuensi harapan (Eij), maka semakin besar kemungkinan hipotesis H0 salah atau tidak didukung data • Dari ide ini disusun statistik uji untuk pengujian asosiasi sebagai berikut p
q
2 hitung i 1 j1
(Oij Eij )2 Eij
anang kurnia (
[email protected])
35
12. Hubungan Antar Peubah Kriteria Penolakan H0
• Jika H0 benar, maka 2hitung menyebar 2 dengan db = (p-1)(q-1) • H0 ditolak bila: 2 2 > hitung [db=(p-1)(q-1);] nilai-p <
anang kurnia (
[email protected])
36
12. Hubungan Antar Peubah Ilustrasi • Ilustrasi: asosiasi antara pendapatan yang diterima dengan kepuasan kerja yang dirasakan
Pendapatan
Kepuasan kerja
Total
1
2
3
1
6
13
3
22
2
9
37
12
58
3
3
13
8
24
Total
18
63
23
104
anang kurnia (
[email protected])
37
12. Hubungan Antar Peubah Ilustrasi • Nilai Harapan E11 = (22)x(18)/(104) = 3.81 E21 = (58)x(18)/(104) = 10.04 … E33 = (24)x(23)/(104) = 5.31 • Statistik uji 2 2 2 (6 3.81) (9 10.04) (8 5.31) χ2 ... 3.81 10.04 5.31
2=4.094 anang kurnia (
[email protected])
38
12. Hubungan Antar Peubah Ilustrasi
• Evaluasi uji Tolak H0 bila 2 > 2[db = (B-1)(K-1);] atau bila nilai-p < dengan menggunakan Minitab diperoleh nilai-p = 0.393 untuk = 0.05 H0 diterima Tidak ada asosiasi antara pendapatan yang diterima dengan kepuasan kerja yang dirasakan
anang kurnia (
[email protected])
39
12. Hubungan Antar Peubah Minitab Tabulated statistics: Pendapatan, Kepuasan Kerja Rows: Pendapatan Columns: Kepuasan Kerja 1
2
3
All
1
6 3.81
13 13.33
3 4.87
22 22.00
2
9 10.04
37 35.13
12 12.83
58 58.00
3
3 4.15
13 14.54
8 5.31
24 24.00
18 18.00
63 63.00
23 23.00
104 104.00
All
Cell Contents:
Count Expected count
Pearson Chi-Square = 4.094, DF = 4, P-Value = 0.393 Likelihood Ratio Chi-Square = 3.877, DF = 4, P-Value = 0.423 * NOTE * 3 cells with expected counts less than 5
anang kurnia (
[email protected])
40
Regresi Logistik
12. Regresi Logistik Overview
Peubah Respons
C o n ti n u o u s
Metode
L in ear R eg res s io n A n a ly s is
C a te g o r i c a l
anang kurnia (
[email protected])
42
12. Regresi Logistik Modeling Data Biner
Yi ~ Binomial (ni, i) E(Yi) = ni i, Var(Yi) = ni i (1 - i) Model : E(Yi/ni) = i = X MKT Masalah : • Var(Yi/ni) = i(1 - i) /ni (tidak konstan) MKT terboboti • Masih memungkinan - < i < padahal 0 < i < 1 • Solusi : menggunakan canonical parameter / link function log [i/(1 - i)] = X
anang kurnia (
[email protected])
43
12. Regresi Logistik GLM: Pengembangan Model Linear Model Linear: yi ~ N(i, 2) dengan i = 1x1i + 2x2i + 3x3i + … + pxpi Komponen dalam GLM: (tidak harus normal, asal keluarga eksponensial) 1. Komponen acak y1, y2, …, yn contoh acak dimana yi ~ (i, 2) 2. Komponen sistematik merupakan fungsi dari peubah penjelas : i = ix1i + ix2i + ix3i + … + ixpi 3. Fungsi hubung menghubungkan antara fungsi dari nilai tengah komponen acak dengan komponen sistematik : g(i) = i anang kurnia (
[email protected])
44
12. Regresi Logistik GLM: Sebaran Keluarga Eksponensial • Suatu peubah acak Y termasuk dalam keluarga eksponensial jika fkp/fmp dapat dibentuk sbb Y ~ E(, )
dengan = E(Y) = b’(), 2 = Var(Y) = b’’() a(). • Untuk tetap,
• Score function dan Fisher information function : dan anang kurnia (
[email protected])
45
12. Regresi Logistik Jenis Regresi Logistik
Peubah Respon
T wo C a te g o r i e s
T h re e or Mo r e C a te g o r i e s
Jenis Regresi Logistik
B inary Yes
Binary
No
No m in al O rd in al
anang kurnia (
[email protected])
46
12. Regresi Logistik Kurva Regresi Logistik
Menggambarkan hubungan antara peluang “beli” vs “tidak beli” berdasarkan harga anang kurnia (
[email protected])
47
12. Regresi Logistik Asumsi
Pi L o g it T ra n s fo rm
P r e d i c to r
P r e d i c to r
anang kurnia (
[email protected])
48
12. Regresi Logistik Transformasi dan Model Regresi Logistik
Transformasi fungsi peluang
pi logit pi log 1 pi Model: logit (pi) = 0 + 1X1
e 0 1x1 PY 1 1 e 0 1x1 anang kurnia (
[email protected])
49
12. Regresi Logistik Transformasi dan Model Regresi Logistik
1
1
0,9
0,9
0,8
0,8
0,7
1 > 0
0,7
0,6
0,6
0,5
0,5
0,4
0,4
0,3
0,3
0,2
0,2
0,1
0,1
0
0
anang kurnia (
[email protected])
1 < 0
50
12. Regresi Logistik Uji Hipotesis: Simultan Statistik uji-G adalah uji rasio kemungkinan (likelihood ratio test) yang digunakan untuk menguji peranan peubah penjelas di dalam model secara bersama-sama (Hosmer & Lemeshow, 1989). Rumus umum uji-G untuk menguji hipotesis : H0 : 1 = 2 = … = k = 0 H1 : minimal ada satu yang tidak sama dengan 0 adalah likelihood tan pa peubah bebas G 2 ln likelihood dengan peubah bebas
Statistik G ini, secara teoritis mengikuti sebaran 2 dengan derajat bebas k. anang kurnia (
[email protected])
51
12. Regresi Logistik Uji Hipotesis: Parsial
Sementara itu, uji Wald digunakan untuk menguji parameter i secara parsial. Hipotesis yang diuji adalah: H0 : i = 0 H1 : i 0 Formula statistik Wald adalah: ˆi W SE ( ˆ ) i
Secara teori, statistik W ini mengikuti sebaran normal baku jika H0 benar.
anang kurnia (
[email protected])
52
12. Regresi Logistik Odd dan Rasio Odd
Odd (ukuran asosiasi pada regresi logistik) rasio peluang kejadian sukses dengan kejadian tidak sukses dari peubah respon. Adapun rasio odd mengindikasikan seberapa lebih mungkin, dalam kaitannya dengan nilai odd, munculnya kejadian sukses pada suatu kelompok dibandingkan dengan kelompok lainnya. Sebagai contoh, seberapa lebih besar peluang wanita untuk membeli produk dengan harga tertentu dibandingkan dengan pria.
anang kurnia (
[email protected])
53
12. Regresi Logistik Odd dan Rasio Odd
Jenis kelamin
Pria Wanita Total
Membeli produk Ya Tidak 10 90 20 60 30 150
Total
100 80 180
Odd pria
P(membeli) 0.1 0.11 P(tidak membeli) 0.9
Odd wanita
P(membeli) 0.25 0.33 P(tidak membeli) 0.75
Rasio odd antara pria dengan wanita adalah: Rasio Odd
Odd pria Odd wanita
0.11 0.33 0.33
anang kurnia (
[email protected])
54
12. Regresi Logistik Ilustrasi Tabulated statistics: JK, purchase Rows: JK Columns: purchase 0 1 All 0 139 101 240 1 130 61 191 All 269 162 431
Binary Logistic Regression: purchase versus JK Link Function: Logit Response Information Variable Value Count purchase 1 162 0 269 Total 431
(Event)
Logistic Regression Table Predictor Constant JK
Coef -0.319353 -0.437307
SE Coef 0.130749 0.202931
Z -2.44 -2.15
P 0.015 0.031
Odds Ratio 0.65
95% CI Lower Upper 0.43
0.96
Log-Likelihood = -282.976 Test that all slopes are zero: G = 4.698, DF = 1, P-Value = 0.030 anang kurnia (
[email protected])
55
Bersambung …….
anang kurnia (
[email protected])
56