Suplemen Responsi
Pertemuan
ANALISIS DATA KATEGORIK (STK351)
6
Departemen Statistika – FMIPA IPB Pokok Bahasan
Sub Pokok Bahasan
Referensi
Uji Kebaikan Suai KhiKuadrat untuk Sebaran Kontinu dan Uji Kebaikan Suai Kolmogorov Smirnov
Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu Uji Kolmogorov-Smirnov Satu Contoh Uji Lilliefors untuk Kenormalan Uji Kolmogorov-Smirnov Dua Contoh
Applied Nonparametric Statistic Daniel (1990)
Waktu
Jumat 19 Nov 2010 15.30 – 16.30
Uji Kebaikan Suai Khi-Kuadrat untuk Sebaran Kontinu Uji kebaikan suai khi-kuadrat untuk sebaran kontinu pada prinsipnya sama dengan sebaran diskret seperti yang telah dipelajari pada pertemuan sebelumnya. Sebagai ilustrasi, diberikan contoh pengujian kebaikan suai khi-kuadrat untuk sebaran normal. Sebuah contoh acak umur (life-time) aki mobil ditampilkan pada tabel berikut. Apakah umur aki mobil mengikuti sebaran normal? Life time (tahun)
Frekuensi
0–1 1–2 2–3 3–4 4–5 5–6 Total
12 94 170 188 28 8 500
Hipotesis
Sumber : http://courses.wcupa.edu/rbove/Berenson
: H0 : Umur aki mobil menyebar normal dengan ratan dan ragam yang tidak diketahui H1 : Umur aki mobil tidak menyebar normal
Statistik Uji : Jika rataan, , dan ragam, 2, tidak diketahui, kita dapat menduga keduanya menggunakan data contoh. Menghitung rataan dan ragam disarankan dilakukan dari data yang sudah dikelompokkan. Rumus untuk menghitung rataan dan ragam contoh dari data yang sudah dikelompokkan adalah : r
Rataan :
fx
i i
i 1
Ragam : 2
n
n i 1 fi xi2 r
n(n 1)
r
fx i 1 i i
2
Dalam hal ini fi adalah frekuensi pada selang/kelompok ke-i, xi adalah nilai tengah selang ke-i, dan n adalah banyaknya pengamatan. Untuk data umur
aki di atas, kita peroleh : 2.80 dan 2 0.940 , 0.970 . Langkah selanjutnya adalah menghitung frekuensi harapan untuk setiap selang dengan asumsi bahwa data menyebar normal. Pertama-tama kita menghitung frekuensi relatif harapan atau proporsi harapan untuk kemudian menghitung frekuensi harapan dengan cara mengalikan nilai proporsi harapan dengan ukuran contoh. Dalam hal ini :
xUi xLi Frek. relatif harapan : P ( z Li Z zUi ) P Z zLi dan zUi adalah bentuk normal baku dari batas bawah dan batas atas selang ke-i. Sebagai contoh, untuk selang (1 – 2) diperoleh
1 2.80 2 2.80 1.86 , dan zU 0.82 . Berdasarkan tabel normal 0.970 0.970 baku (A.2) diperoleh P ( 1.86 Z 0.82) 0.2048 0.0318 0.1730 . zL
Sehingga, frekuensi harapan untuk selang ini adalah 0.1730(500)= 86.5. Tabel berikut menampilkan tahapan di atas untuk seluruh data : Life time (tahun)
LUi
zUi
P(Z
P(zLi
–0 0–1 1–2 2–3 3–4 4–5 5–6 6– Total
0 1 2 3 4 5 6
–2.89 –1.86 –0.82 0.21 1.24 2.27 3.30
0.0019 0.0318 0.2048 0.5817 0.8920 0.9883 0.9995 1.0000
0.0019 0.0299 0.1730 0.3769 0.3103 0.0963 0.0112 0.0005 1.0000
2
Ei
Oi
(Oi – Ei) / Ei
15.90
12
0.9566
86.50 188.45 155.15 48.15
94 170 188 28
0.6503 1.8063 6.9553 8.4325
5.85
8
0.7902
500
500
19.5912
Selang (– 0) dan (6–) digabungkan dengan selang terdekatnya karena nilai frekuensi harapan untuk kedua selang tersebut kurang dari 1. Berdasarkan tabel di atas, statistik uji X 2 19.5912 dengan derajat bebas 6 – 1 – 1 – 1 = 3. Keputusan
2 : Berdasarkan tabel A.11, diketahui (10.05)( db3) 7.815 . Karena X 2 12 0.05
maka hipotesis nol ditolak dan simpulkan bahwa masa hidup aki mobil tidak menyebar normal pada taraf nyata 5%.
2/8
Uji Kolmogorov-Smirnov Satu Contoh Uji kebaikan suai khi-kuadrat yang telah dipelajari pada kesempatan sebelumnya dirancang untuk digunakan pada data kategorik: nominal ataupun ordinal. Untuk data kontinu, pengujian kebaikan suai Kolmogorov-Smirnov lebih tepat untuk digunakan. Ketika kita menguji kebaikan suai Kolmogorov-Smirnov untuk satu contoh sebenarnya kita fokus pada dua fungsi sebaran kumulatif, yaitu sebaran kumulatif yang dihipotesiskan dan sebaran kumulatif contoh teramati. Untuk menyatakan fungsi sebaran kumulatif biasanya kita menggunakan huruf kapital. Sebagai contoh, untuk x tertentu, F(x) berarti peluang bahwa nilai peubah acak X sama dengan atau lebih kecil dari x, ditulis F(x)=P(X≤x). Misalkan sebuah contoh acak berasal dari fungsi sebaran yang tidak diketahui, F(x). Kita tertarik untuk mengetahui apakah kita dapat menyimpulkan bahwa F(x) ≠ F0(x) untuk semua x. Apabila F(x) = F0(x) maka F0(x) akan sama dengan, atau mendekati, S(x) atau fungsi sebaran empiris (contoh teramati). Tujuan uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah untuk mengetahui apakah jarak penyimpangan antara F0(x) dan S(x) cukup untuk meragukan hipotesis bahwa F(x) = F0(x). Asumsi Data merupakan contoh acak yang saling bebas berukuran n, terdiri dari pengamatan X1, X2, …, Xn, yang berasal dari fungsi sebaran yang tidak diketahui, F(x). Hipotesis Misalkan F0(x) adalah fungsi sebaran yang dihipotesiskan (fungsi peluang kumulatif). a. H0 : F(x) = F0(x) untuk semua nilai x H1 : F(x) ≠ F0(x) untuk minimal satu nilai x b. H0 : F(x) ≥ F0(x) untuk semua nilai x H1 : F(x) < F0(x) untuk minimal satu nilai x c. H0 : F(x) ≤ F0(x) untuk semua nilai x H1 : F(x) > F0(x) untuk minimal satu nilai x Statistik Uji Misalkan, S(x) adalah fungsi peluang kumulatif dari data contoh, atau
S ( x)
Frek. ( X x) n
Statistik uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah : a.
H1 : F(x) ≠ F0(x) Statistik uji : D sup | S( x ) F0 ( x ) |
b.
H1 : F(x) < F0(x)
x
Statistik uji : D sup[ F0 ( x ) S ( x )]
x
c.
H1 : F(x) > F0(x) Statistik uji : D sup[ S ( x ) F0 ( x )]
x
3/8
Kaidah Keputusan Tolak H0 pada taraf nyata α jika statistik uji yang sesuai (D, D+ atau D-) lebih besar dari kuantil 1 – α tabel Kolmogorov (A.18).
Contoh : Misalkan nilai ujian mahasiswa di suatu kelas ditampilkan pada tabel berikut. Apakah kita dapat menyimpulkan bahwa nilai ujian tersebut meyebar normal dengan rataan 70 dan simpangan baku 10? Nilai ujian 61 75 91 69 69
67 53 70 67 69
Hipotesis
79 79 70 69 62
81 80 59 66 58
73 72 58 72 77
70 60 58 80 69
64 76 73 59 46
51 92 76 72 75
: H0 : F(x) = F0(x), dalam hal ini F(x) adalah fungsi sebaran contoh, dan F0(x) adalah fungsi sebaran normal dengan =70 dan =10. H1 : F(x) ≠ F0(x)
Statistik Uji : Karena hipotesis yang diuji bersifat dua arah, statistik uji yang digunakan adalah D sup | S( x ) F0 ( x ) | . x
xi
fi
fki
S(xi)
zi
P(0 ≤ Z ≤ zi)
F0(xi)
|S(xi)- F0(xi)|
|S(xi-1)- F0(xi)|
46 51 53 58 59 60 61 62 64 66 67 69 70 72 73 75 76 77 79 80 81 91 92
1 1 1 3 2 1 1 1 1 1 2 5 3 3 2 2 2 1 2 2 1 1 1
1 2 3 6 8 9 10 11 12 13 15 20 23 26 28 30 32 33 35 37 38 39 40
0.025 0.050 0.075 0.150 0.200 0.225 0.250 0.275 0.300 0.325 0.375 0.500 0.575 0.650 0.700 0.750 0.800 0.825 0.875 0.925 0.950 0.975 1.000
-2.40 -1.90 -1.70 -1.20 -1.10 -1.00 -0.90 -0.80 -0.60 -0.40 -0.30 -0.10 0.00 0.20 0.30 0.50 0.60 0.70 0.90 1.00 1.10 2.10 2.20
0.4918 0.4713 0.4554 0.3849 0.3643 0.3413 0.3159 0.2881 0.2257 0.1554 0.1179 0.0398 0.0000 0.0793 0.1179 0.1915 0.2257 0.2580 0.3159 0.3413 0.3643 0.4821 0.4861
0.0082 0.0287 0.0446 0.1151 0.1357 0.1587 0.1841 0.2119 0.2743 0.3446 0.3821 0.4602 0.5000 0.5793 0.6179 0.6915 0.7257 0.7580 0.8159 0.8413 0.8643 0.9821 0.9861
0.0168 0.0213 0.0304 0.0349 0.0643 0.0663 0.0659 0.0631 0.0257 0.0196 0.0071 0.0398 0.0750 0.0707 0.0821 0.0585 0.0743 0.0670 0.0591 0.0837 0.0857 0.0071 0.0139
0.0082 0.0037 0.0054 0.0401 0.0143 0.0413 0.0409 0.0381 0.0007 0.0446 0.0571 0.0852 0.0000 0.0043 0.0321 0.0085 0.0243 0.0420 0.0091 0.0337 0.0607 0.0321 0.0111
0.0857
0.0852
Nilai maksimum :
4/8
Pertama-tama kita hitung S(x). Kemudian, untuk mendapatkan F0(x), semua nilai x teramati diubah kedalam bentuk normal baku z, dan menggunakan tabel normal baku (A.2) dicari luas area yang sama dengan atau lebih kecil dari z. Tabel di atas meringkas prosedur tersebut. Dari tabel di atas, diperoleh D = 0.0857 Keputusan
: Berdasarkan tabel A.18, untuk pengujian hipotesis dua arah dengan n = 40 dan α = 0.05 diperoleh nilai kritis D = 0.210. Karena statistik uji D lebih kecil dari nilai kritisnya maka hipotesis nol diterima dan simpulkan bahwa nilai ujian mahasiswa diindikasikan menyebar normal dengan rataan 70 dan simpangan baku 10. Pada pengujian ini, p-value>0.20.
Catatan : Jika sebaran yang diuji adalah sebaran kontinu, selain menghitung |S(xi)- F0(xi)| kita juga perlu untuk menghitung |S(xi-1)- F0(xi)|. Statistik D merupakan satu diantara bilangan tersebut yang terbesar. Pada contoh di atas, nilai maksimum untuk |S(xi)- F0(xi)| = 0.0857 sedangkan nilai maksimum untuk |S(xi-1)- F0(xi)| = 0.0852, sehingga D = 0.0857. Akan tetapi, jika kita menguji sebaran diskret, kita cukup menghitung |S(xi)- F0(xi)|.
Uji Lilliefors untuk Kenormalan Prosedur Kolmogorov-Smirnov satu contoh hanya dapat digunakan untuk menguji hipotesis awal bahwa contoh berasal dari populasi dengan parameter tertentu yang diketahui. Jika parameter populasi tidak diketahui, dengan kata lain perlu pendugaan parameter populasi melalui data contoh, nilai kritis untuk uji Kolmogorov-Smirnov perlu dikoreksi. Salah satu prosedur yang digunakan untuk tujuan ini diperkenalkan oleh Lilliefors (1967). Uji Lilliefors digunakan untuk menguji hipotesis awal bahwa contoh berasal dari populasi yang menyebar normal atau eksponensial dengan parameter tertentu yang tidak diketahui. Untuk menguji kenormalan data, uji Lillifors mengikuti tahapan berikut : Asumsi Data merupakan contoh acak yang saling bebas berukuran n, terdiri dari pengamatan X1, X2, …, Xn, yang berasal dari fungsi sebaran yang tidak diketahui, F(x), dengan rataan dan simpangan baku yang tidak diketahui. Hipotesis H0 : Contoh berasal dari populasi yang menyebar normal H1 : Contoh bukan berasal dari populasi yang menyebar normal Statistik Uji D sup | S( x ) F0 ( x ) | x
Kaidah Keputusan Tolak H0 pada taraf nyata α jika statistik uji D lebih besar dari titik kritis yang ditampilkan pada tabel A.19(a), A.19(b) atau A.19(c).
5/8
Contoh : Berikut adalah umur penggunaan atau daya tahan lampu (dalam tahun). Apakah daya tahan lampu menyebar normal? Data tahan lampu (tahun) 2.59 2.19 2.14
Hipotesis
3.21 1.70 2.42
2.88 2.46 3.53
2.65 3.25 2.90
2.44 2.97 2.46
: H0 : Daya tahan lampu menyebar normal dengan parameter yang tidak diketahui H1 : Daya tahan lampu tidak menyebar normal
Statistik Uji : D sup | S( x ) F0 ( x ) | x
Berdasarkan perhitungan kita peroleh nilai dugaan bagi rataan, 2.6527 dan simpangan baku, 0.4790 tahun. Dengan prosedur yang sama dengan uji Kolmogorov-Smirnov satu contoh, dapat kita peroleh : xi
S(xi)
zi
F0(xi)
|S(xi)- F0(xi)|
|S(xi-1)- F0(xi)|
1.70 2.14 2.19 2.42 2.44 2.46 2.46 2.59 2.65 2.88 2.90 2.97 3.21 3.25 3.53
0.067 0.133 0.200 0.267 0.333 0.400 0.467 0.533 0.600 0.667 0.733 0.800 0.867 0.933 1.000
-1.99 -1.07 -0.97 -0.49 -0.44 -0.40 -0.40 -0.13 -0.01 0.47 0.52 0.66 1.16 1.25 1.83
0.0234 0.1422 0.1670 0.3136 0.3285 0.3437 0.3437 0.4479 0.4978 0.6824 0.6972 0.7461 0.8777 0.8938 0.9665
0.0433 0.0089 0.0330 0.0469 0.0048 0.0563 0.1229 0.0854 0.1022 0.0158 0.0362 0.0539 0.0110 0.0395 0.0335
0.0234 0.0756 0.0337 0.1136 0.0618 0.0104 0.0563 0.0187 0.0356 0.0824 0.0305 0.0128 0.0777 0.0271 0.0332
0.1229
0.1136
Nilai maksimum :
Statistik uji D = 0.1229 Keputusan
: Berdasarkan tabel A.19(c), untuk pengujian hipotesis dua arah dengan n = 15 dan α = 0.05 diperoleh nilai kritis D = 0.219. Karena statistik uji D lebih kecil dari nilai kritisnya maka hipotesis nol diterima dan simpulkan bahwa daya umur penggunaan atau tahan lampu mahasiswa diindikasikan menyebar normal. Pada pengujian ini, p-value>0.20.
6/8
Uji Kolmogorov-Smirnov Dua Contoh Uji Kolmogorov-Smirnov dua contoh digunakan untuk menguji hipotesis bahwa dua contoh yang saling bebas berasal dari populasi yang identik dengan mempertimbangkan ukuran pemusatan (lokasi) dan penyebaran. Berbeda dengan prosedur-prosedur lain yang telah dipelajari pada kesempatan sebelumnya, uji Kolmogorov-Smirnov sangat sensiitif terhadap berbagai perbedaan yang mungkin ada di antara dua sebaran. Asumsi a. b.
Data yang dianalisis terdiri dari dua contoh acak yang saling bebas dengan ukuran m dan n. Pengamatan dinotasikan sebagai X1, X2, …, Xm dan Y1, Y2, …, Yn. Data diukur setidaknya dalam skala ordinal.
Hipotesis Andaikan F1(x) dan F2(x) adalah fungsi sebaran yang tidak diketahui untuk X dan Y. Hipotesis yang dapat disusun adalah : a. H0 : F1(x) = F2(x) untuk semua nilai x H1 : F1(x) ≠ F2(x) untuk minimal satu nilai x b. H0 : F1(x) ≤ F2(x) untuk semua nilai x H1 : F1(x) > F2(x) untuk minimal satu nilai x c. H0 : F1(x) ≥ F2(x) untuk semua nilai x H1 : F1(x) < F2(x) untuk minimal satu nilai x Statistik Uji Andaikan S1(x) dan S2(x) adalah fungsi peluang kumulatif dari data contoh X dan Y, dengan :
S1 ( x)
Frek. ( X x) m
dan
S 2 ( x)
Frek. (Y x) n
Statistik uji kebaikan suai Kolmogorov-Smirnov satu contoh adalah : a. H1 : F1(x) ≠ F2(x) Statistik uji : D maksimum |S1 ( x ) S2 ( x ) | b.
H1 : F1(x) > F2(x) Statistik uji : D maksimum [S1 ( x ) S2 ( x )]
c.
H1 : F1(x) < F2(x) Statistik uji : D maksimum [S2 ( x ) S1 ( x )]
Kaidah Keputusan Tolak H0 pada taraf nyata α jika statistik uji yang sesuai (D, D+ atau D-) lebih besar dari kuantil 1 – α tabel Smirnov (A.18). Jika m = n gunakan A.18(a), jika m ≠ n gunakan A.18(b).
7/8
Contoh : Suatu ujian untuk mata kuliah yang sama dilakukan dalam dua waktu berbeda, yaitu pagi dan sore hari. Nilai ujian ditampilkan pada tabel berikut. Apakah nilai ujian pagi dan sore mempunyai fungsi sebaran yang identik? Pagi Sore
98 80
Hipotesis
82 96
92 90
88 81
94 92
85 86
86 85
90 80
80 93
95
: H0 : Nilai ujian pagi dan nilai ujian sore mempunyai sebaran yang identik H1 : Nilai ujian pagi dan nilai ujian sore mempunyai sebaran yang berbeda
Statistik Uji : D maksimum |S1 ( x ) S2 ( x ) | . Berdasarkan tabel di bawah ini diperoleh D=0.233. Nilai Ujian Pagi
Nilai Ujian Sore
x1i
fk1i
S1(xi)
x2i
fk2i
S2(xi)
80
1 1 2 3 4 5 6 7 7 8 9 9 10
0.1000 0.1000 0.2000 0.3000 0.4000 0.5000 0.6000 0.7000 0.7000 0.8000 0.9000 0.9000 1.0000
80 81
2 3 3 4 5 5 6 7 8 8 8 9 9
0.2222 0.3333 0.3333 0.4444 0.5556 0.5556 0.6667 0.7778 0.8889 0.8889 0.8889 1.0000 1.0000
82 85 86 88 90 92 94 95 98
85 86 90 92 93
96
Nilai maksimum :
Keputusan
0.1222 0.2333 0.1333 0.1444 0.1556 0.0556 0.0667 0.0778 0.1889 0.0889 0.0111 0.1000 0.0000 0.2333
: Untuk ukuran contoh 10 dan 9, berdasarkan tabel A.20(b) titik kritis D=26/45 =0.5778 (α=0.05). Karena statistik uji lebih kecil dari titik kritisnya, maka hipotesis nol diterima dan simpulkan bahwa nilai ujian pagi dan sore mempunyai fungsi sebaran yang identik.
Self-Study : 1. 2.
| S1(xi) – S2(xi) |
Selang kepercayaan (1-α)100% pada Kolmogorov-Smirnov Komparasi uji kebaikan suai khi-kuadrat dan Kolmogorov-Smirnov
Note : CMIIW (Correct Me If I’m Wrong)
8/8