STATISTICS Hanung N. Prasetyo WEEK 10
TELKOM POLTECH/HANUNG NP
A. BEBERAPA CARA UJI NORMALITAS 1. RASIO SKEWNESS DAN RASIO KURTOSIS Rasio Skewnwss = Nilai Skewnwss / S.E. Skewness Rasio Kurtosis = Nilai Kurtosis / S.E. Kurtosis Jika Nilai Rasio Diantara - 2 s/d + 2 Sebarannya Bersifat Normal 2. UJI KOLMOGOROV SMIRNOV = UJI LILLIEFOR Jika Nilai Prob. / Sig F > 5 % Sebaran Bersifat Normal Jika Nilai Prob. / Sig F < 5 % Sebaran Bersifat Tidak Normal 3. UJI SHAPIRO WILK Jika Nilai Prob. / Sig F > 5 % Sebaran Bersifat Normal Jika Nilai Prob. / Sig F < 5 % Sebaran Bersifat Tidak Normal 4. UJI Anderson-Darling 5. GAMBAR / PLOT Histogram dengan Normal Curve Q-Q Plot Pembentukan Garis Berdasarkan Nilai Z. Jika Data Tersebar Di sekeliling Garis Berdistribusi Normal 6. DETRENDED Q-Q PLOT Pembentukan Garis Untuk Mendeteksi Pola-pola Dari Titik-titik Yang Bukan bagian dari normal. Jika Data Tersebar Di Sekeliling Garis Berdistribusi Normal TELKOM POLTECH/HANUNG NP
Untuk mengetahui apakah sebuah distribusi Normal atau mendekati Normal atau bisa dianggap Normal, bisa dilakukan beberapa prosedur: 1. Melakukan metode statistik tertentu, seperti Uji Kolmogorv-Smirnov, Uji Shapiro-Wilk dan sebagainya. 2. Membuat Grafik dengan prosedur tertentu dan mengamati pola plot atau grafik tersebut. Pada kasus berikut dan hanya akan dijelaskan kedua metode tersebut.
TELKOM POLTECH/HANUNG NP
Uji Normalitas Distribusi
Kolmogorov Smirnov Metode Kolmogorov-Smirnov, yang merupakan uji kenormalan paling populer, didasarkan pada nilai D yang didefinisikan sebagai berikut: D = supx[Fn (x) – F0 (x)}
TELKOM POLTECH/HANUNG NP
Pada hakekatnya D adalah nilai deviasi absolut maksimum antara Fn (x) dan F0 (x) Nilai D ini selanjutnya dibandingkan dengan nilai D kritis untuk ukuran tes α. Stephens memberikan nilai kritis tersebut untuk berbagai kondisi pengujian Untuk α = 1%, nilai D kritis adalah 1.035*(√n – 0.01 + 0.85/√n). Sedangkan untuk α = 5% dan α = 10%, nilai D kritis berturut-turut sebesar 0.895*(√n – 0.01 + 0.85/√n) dan 0.819*(√n – 0.01 + 0.85/√n).
TELKOM POLTECH/HANUNG NP
Terdapat beberapa cara pengujian normalitas distribusi
yaitu menggunakan formula/prosedur KolmogorovSmirnov, Liliefors, dan Chi Square (X 2 ) Untuk perhitungan normalitas distribusi, dimisalkan terdapat sekelompok data dengan skala pengukuran interval dengan dua variabel bebas dan satu variabel terikat sebagai berikut :
TELKOM POLTECH/HANUNG NP
Tabel skor Variabel bebas (X) dan variabel terikat (Y) X1
X2
Y
4
1
7
4
2
12
9
8
17
12
8
20
12
10
21
TELKOM POLTECH/HANUNG NP
Dari tabel tersebut misalkan kita ingin menguji normalitas variabel Y , maka untuk memudahkan diperlukan tabel bantu sebagai berikut : Tabel bantu Perhitungan Normalitas Skor Y 7 12 17 20 21 77
f
p
kp
zx
zt
a1
1
0.2
0.2
-1.43
0.08
0.08
1
0.2
0.4
-0.58
0.28
0.08
1
0.2
0.6
0.27
0.61
0.21
1
0.2
0.8
0.78
0.79
0.19
1
0.2
1.0
0.96
0.83
0.03
5
1.0
-
0
-
-
Mean = 15.4 SD = 5.86
TELKOM POLTECH/HANUNG NP
A2 0.12 0.12 0.01 0.01 0.17 -
Langkah-langkah perhitungan : Setelah data dimasukan dalam kolom pertama dan dihitung frekuensinya, kemudian dilakukan perhitungan sebagai berikut : 1.
Cari prosentasi (p) dengan cara frekuensi (f) dibagi dengan jumlah data. Dalam contoh baris pertama di atas adalah 1 : 5 = 0.2, demikian seterusnya sampai selesai untuk setiap frekuensi.
2.
Cari Kp (prosesntase kumulatif) dengan cara menjumlahkan prosen tase kumulatif dengan prosentase di bawahnya, khusus untuk baris pertama nilai p langsung dipindahkan, untuk baris ke dua adalah 0,2 + 0.2 = 0.4, baris ke tiga 0.4 + 0.2 = 0.6, dan seterusnya.
TELKOM POLTECH/HANUNG NP
3.
Cari nilai Zx dengan cara Skor Y dikurangi dengan Mean/nilai ratarata dibagi nilai Standar Deviasi, sebagai contoh untuk baris pertama adalah (7 – 15.4)/5.86 = - 1.43. untuk baris selanjutnya dihitung dengan cara yang sama.
4. Cari nilai Z tabel (Zt) dengan melihat Tabel Kurva Normal baku (Tabel Z ) berdasarkan nilai Zx –nya, contoh untuk baris pertama. Nilai Z tabel dilihat dalam baris 1,4 dan kolom 3, diperoleh nilai Z sebesar 0.4236, karena nilai Zx – nya bernilai minus maka nilai Z tabel yang diisikan adalah 0.5 - 0.4236 = 0.0764 (0.08). bila Zx bernilai positif maka nilai Z tabel yang diisikan adalah ditambah 0.5.
TELKOM POLTECH/HANUNG NP
5. Nilai a1 diperoleh dengan cara menyelisihkan nilai Kp dengan nilai Zt di bawahnya, sedang untuk baris pertama nilai Zt langsung diisikan, contoh untuk baris kedua nilai 0.08 diperoleh dengan cara 0.2 – 0.28 = -0.08 (yang dipakai nilai mutlaknya). 6. nilai a2 diperoleh dengan menyelisihkan nilai Kp dengan nilai Zt yang sejajar, contoh untuk baris pertama 0.2 – 0.08 = 0.12. 7. setelah selesai cari nilai a maksimum, diperoleh nilai 0.21, kemudian bandingankan dengan nilai tabel pada baris N = 5, pada tingkat signifikansi 0.05 diperoleh nilai 0.565, karena a maksimum lebih kecil dari nilai D maksimum berarti distribusi normal.
TELKOM POLTECH/HANUNG NP
Uji Kenormalan Shapiro-Wilk Pengujian Shapiro-Wilk, yang diusulkan 1965,
mengkalkulasi suatu W statistik yang menguji apakah suatu sampel acak, x1, x2,..., xn mengikuti distribusi normal atau tidak. Nilai W yang kecil menunjukkan kenormalan dan persentase untuk W statistik, formula ini ditemukanoleh Simulasi Monte Carlo , telah direproduksi oleh Pearson Dan Hartley. Pengujian Shapiro-Wilk lebih baik dibandingkan dengan test yang lain.
TELKOM POLTECH/HANUNG NP
W statistik dihitung sebagai berikut:
di mana x(i) adalah nilai-nilai sampel ( x(1) adalah
yang paling kecil) dan ai adalah nilai konstanta tetap yang diturunkan dari nilai rata-rata, perbedaan dan kovarians statistik sampel ukuran n dari suatu
TELKOM POLTECH/HANUNG NP
Algoritma Shapiro Wilk Procedure Order the observations from low to high. Compute S² = (n-1)s² where s² is the sample variance. If n is even, k = n/2. If n is odd, k = (n – 1)/2. Then
where a(n+i+1) for i = 1 to k, are found in tables. Compute the test statistic. W = b² / S² A p-value is generated to evaluate the significance of
W. TELKOM POLTECH/HANUNG NP
Dalam ilmu statistika seringkali digunakan asumsi
dari bentuk data yang akan di analisis. Aasumsi yang lazim digunakan adalah data berdistribusi normal, dengan mean µ dapat digambarkan sebagai berikut:
µ
TELKOM POLTECH/HANUNG NP
Dalam kenyataannya seringkali bentuk data yang diperoleh tidak berbentuk seperti distribusi normal tetapi berbentuk menjulur ke kanan atau menjulur kekiri, seperti gambar berikut: Curve A : Skewed Right
TELKOM POLTECH/HANUNG NP
Curve B : Skewed Left
Transformasi Data Diperbolehkan untuk koreksi dari ketidaknormalan yang disebabkan oleh skewness, kurtosis, atau problem lainnya (kurang linearitas) Tidak harus dilakukan jika nilai mengandung meaningful scale Jenis transformasi : Square root – moderate violations LOG – severe, dan inverse for severe violation
TELKOM POLTECH/HANUNG NP
Agar asumsi bahwa data berdistribusi normal tetap dipenuhi maka perlu dilakukan suatu transformasi terhadap data asli. Transformasi dilakukan untuk satu angkatan data bila data yang akan ditransformasi hanya satu angkatan data. Untuk memilih fungsi transformasi yang tepat dapat digunakan tangga transformasi Tukey yang digambarkan sebagai berikut:
−
1 x2
Kuat
−
1 x
Log x
sedang
x
lemah
x2
x
lemah
menjulur ke kiri TELKOM POLTECH/HANUNG NP
x3
10 x
sedang
Kuat
menjulur kekanan
Tangga transformasi dapat dijelaskan sebagai berikut: Transformasi 10x akan membuat bentuk distribusi data menjadi menjulur kekanan secara kuat, sedangkan transformasi − 12 akan membuat bentuk distribusi x data menjadi menjulur kekiri secara kuat. Sebagai contoh jika kita memiliki data yang menjulur kekanan secara lemah maka kita dapat tranformasi agar data menjadi normal
x
TELKOM POLTECH/HANUNG NP
Transformasi Untuk data yang skewnessnya positif (pelajari apakah
artinya condong ke kiri atau ke kanan) square root dan log akan membuat data tetap pada susunan aslinya tetapi membawanya dalam sebaran, akan tetapi inverse akan membalik susunan data
Untuk data yang skewnessnya negatif (pelajari apakah
artinya condong ke kiri atau ke kanan) berlaku kebalikannya; tanpa penyesuaian, square root dan log akan membalik susunan sedangkan inverse membuatnya tetap pada susunan aslinya
TELKOM POLTECH/HANUNG NP
Original Data 1 4 9
120 100 80 60
10
40
36
20
100
0 1
2
TELKOM POLTECH/HANUNG NP
3
4
5
6
Square Root Transform 1 12
2
10 8
3 3.16227 8
6 4 2 0
6
1
2
10 TELKOM POLTECH/HANUNG NP
3
4
5
6
Log Transform 0 0.60206
2.5 2
0.954243 1
1.5 1 0.5
1.556303
0 1
2
2 TELKOM POLTECH/HANUNG NP
3
4
5
6
Inverse Transform 1 0.25
1.2
0.111111
0.8
1
0.6
0.1
0.4 0.2
0.027778
0 1
2
0.01 TELKOM POLTECH/HANUNG NP
3
4
5
6