Suplemen Responsi
Pertemuan
ANALISIS DATA KATEGORIK (STK351)
9
Departemen Statistika – FMIPA IPB Pokok Bahasan
Sub Pokok Bahasan
Pengantar Analisis untuk Data Respon Kategorik
Referensi
Data respon kategorik Sebaran peluang data kategorik Inferensia mengenai proporsi Inferensia untuk data diskret
An Introduction to Categorical Data nd Analysis (2 Edition) Agresti (2007)
Waktu
Jumat 30 Nov 2012 15.45 – 17.45
Peubah kategorik mempunyai skala pengukuran yang terdiri dari beberapa kategori. Skala pengukuran untuk peubah kategorik dapat berupa skala nominal maupun ordinal. Sebagai contoh untuk data kategorik dengan skala nominal adalah jenis kelamin (“laki-laki” atau “perempuan”), jenis tempat tinggal (“rumah”, “rumah susun”, atau “apartemen) dan lainlain. Sedangkan peubah kepuasan (“kecewa”, “menengah” atau “puas”) dan tingkat pendidikan (“SD”, “SMP”, “SMA atau “Sarjana”) merupakan contoh data kategorik dengan skala ordinal. Lebih lengkap mengenai skala ini dapat dipelajari lagi pada bab I. Peubah respon atau sering disebut sebagai peubah tidak bebas atau peubah Y dapat berupa data kategorik ataupun numerik. Model statistika untuk respon kategorik menganalisis bagaimana peubah respon terpengaruh oleh peubah-peubah penjelas (atau peubah bebas atau peubah X). Misalnya model tentang kepuasan dapat diprediksi melalui peubah harga, daya tahan, dan lain-lain.
Sebaran Peluang Data Kategorik Dalam analisis data kategorik, sebaran yang paling mendasar adalah sebaran binomial dan multinomial. Misalkan suatu kejadian dikatakan sukses bila y = 1 dan dikatakan gagal apabila y = 0. Peluang sukses P(1)=P(Y=1)=, sehingga peluang gagal P(0)=P(Y=0)=. Bentuk kejadian yang hanya terdiri dari dua kemungkinan “Sukses” atau “Gagal”, atau “1” atau “0” merupakan sebaran Bernoulli. Misalkan ada Y kejadian sukses pada n percobaan yang saling bebas, dan adalah peluang sukses, maka Y menyebar binom dengan parameter (n,). Peluang y ditulis :
P ( y ) P (Y y )
n! y (1 ) n y y !(n y )!
n y
Atau P ( y ) P (Y y ) y (1 )n y , y = 0, 1, 2, …, n Sebagai contoh, bayangkan suatu kejadian dalam pelemparan uang logam yang setimbang bersisi “angka” dan “gambar”. Lima uang logam dilempar bersama-sama. Tentukan mata peluang tidak ada satupun gambar yang muncul. Misalkan Y adalah
banyaknya sisi gambar yang muncul, sehingga n=5 dan =0.5. Sehingga untuk kejadian tidak ada satupun gambar yang muncul adalah Y=0. Peluangnya adalah :
5 0 5 0 P(Y 0) 0.5 1 0.5 0.03125 0 Peluang muncul gambar pada satu koin adalah :
5 1 5 1 P(Y 1) 0.5 1 0.5 0.15625 1 Sedangkan peluang muncul gambar tidak lebih pada dua koin adalah :
P(Y 2) P(Y 0) P(Y 1) P(Y 2) 0.5 Sebaran binomial untuk n percobaan dan peluang sukses mempunyai rata-rata (mean) dan simpangan baku :
E (Y ) n ,
n (1 )
Untuk contoh di atas, 5(0.5) 2.5 dan 5(0.5)(1 0.5) 1.1180 . Jika n besar, sebaran binom mendekati sebaran normal dengan parameter n dan
n (1 . Respon pada beberapa pengamatan kadang kala terdiri dari lebih dari dua kemungkinan. Misalnya status korban dalam kecelakaan lalu lintas mungkin saja berupa “selamat tanpa cedera”, “cedera ringan”, “cedera parah”, atau “menginggal dunia”. Jika pengamatan saling bebas, sebaran disebut multinomial. Misalkan c adalah banyaknya kategori repon dengan peluang masing-masing {1 , 2 , , c } dengan j 1 . Untuk n pengamatan, peluang multinomial bahwa sebanya n1 berada pada kategori 1, n2 pada kategori 2, ...., nc pada kategori c, dengan n j n , adalah :
n1 n2 n! nc P(n1 , n2 , , nc ) 1 2 c n1 !n2 ! nc ! Misalkan kita mempunya 10 mangkuk yang berisi 10 bola : dua merah, 3 hijau dan 5 biru. Selanjutnya kita ambil secara acak empat bola dari mangkuk tersebut dengan pengembalian. Berapa peluang terambil dua bola hijau dan dua bola biru? Pada kasus ini : n 4 , n1 nmerah 0 , n2 nhijau 2 , n3 nbiru 2 dan 1 2 /10 0.2 ,
2 3 /10 0.3 , 3 5 /10 0.5 . Sehingga peluang terambil dua bola hijau dan dua bola biru adalah :
P (0, 2, 2)
4! (0.2 0 )(0.3)2 (0.5)2 0.135 (0!)(2!)(2!)
2/5
Inferensia Mengenai Proporsi Fungsi kemungkinan dan pendugaan kemungkinan terbesar Misalkan pada n = 10 pengamatan kejadian sukses y = 0. Jika peluang sukses adalah , maka kejadian tersebut mempunyai peluang :
P (Y 0)
10! 0 (1 )10 (1 )10 (0!)(10!)
Peluang data teramati, sebagai fungsi dari parameter, ini disebut fungsi kemungkinan (likelihood function). Untuk y=0 kejadian sukses pada n=10 pengamatan, fungsi 10 kemungkinan binom adalah l ( ) (1 ) . Sebagai contoh misalnya =0.4, maka
l (0.40) (1 0.40)10 0.006 . Sebuah dugaan parameter kemungkinan terbesar (maximum likelihood estimate of a parameter) adalah nilai parameter dimana peluang dari data teramati mencapai maksimum. Dengan kata lain, nilai parameter dimana fungsi kemungkinannya mencapai maksimum. Secara umum, pada respon binom, dugaan kemungkinan maksimum bagi sama dengan p y / n . Pengujian proporsi binomial Pada sebaran binomial, penduga bagi merupakan penduga kemungkinan terbesar, yaitu proporsi, p. Sebaran penarikan contoh bagi p mempunyai rataan dan simpangan baku :
E ( p) ,
p
(1 ) n
Untuk hipotesis awal H0 : 0 , statistik uji yang digunakan adalah :
z
p 0
0 (1 0 ) n
Bila ukuran contoh n besar, statistik uji z menyebar normal baku dengan rataan nol dan simpangan baku satu. Sebagai contoh perhatikan kasus berikut ini. Di dunia telekomunikasi dikenal istilah churn analysis yang bertujuan untuk melihat kemungkinan pelanggan untuk pindah ke operator lain. Misalnya pada bulan tertentu diketahui ada sebanyak 2347 pelanggan yang keluar (churn) sebanyak 2347 pelanggan dari total contoh acak 60000 pelanggan. Apakah dapat kita katakan bahwa churn rate, perbandingan antara pelanggan yang churn dengan total pelanggan, adalah sebesar 4%?. Pada kasus ini, hipotesis yang akan diuji adalah : H0 : 0.04 H1 : 0.04 Untuk y 2347 dan n 60000 , maka proporsi p 2347 / 60000 0.039 . Maka
SE0 ( p )
0.039 0.04 0.04(1 0.04) 1.25 . 0.0008 , sehingga statistik uji z 60000 0.0008
3/5
Pada taraf nyata 5%, titik kritis sebaran normal adalah 1.96. Karena nilai mutlak statistik uji z lebih kecil dari titik kritis, maka terima H0 dan simpulkan bahwa data mendukung pernyataan bahwa churn rate adalah 4%. Selang kepercayaan proporsi binomial Misalkan SE1 ( p) adalah galat baku dari proporsi p dan ukuran contoh n besar. Selang kepercayaan 100(1α)% dua arah untuk adalah :
p z /2 SE1 ( p ) ,
SE1 ( p )
p (1 p ) n
Untuk contoh di atas, selang kepercayaan 95% bagi churn rate adalah :
0.039 1.96
0.039(1 0.039) , atau 0.039 0.0015 atau (0.0375, 0.0405) . 60000
Terlihat bahwa nilai 0 0.04 berada di dalam selang kepercayaan, sehingga konsisten dengan hasil pengujian hipotesis yang telah dilakukan sebelumnya.
Uji Wald, Score dan Perbandingan-Kemungkinan untuk Data Diskret Misalkan merupakan parameter dan hipotesis H1 : = 0 akan digunakan untuk menguji signifikansi . Uji Wald Misalkan SE ( ˆ ) adalah galat baku bagi dugaan , ˆ . Sebagai contoh, untuk pengujian parameter : SE ( ˆ )
ˆ (1 ˆ ) ˆ y , p , maka n n z
ˆ 0 SE ( ˆ )
mendekati sebaran normal baku dengan rataan nol dan simpangan baku. Padanannya, z 2 akan mendekati sebaran khi-kuadrat dengan derajat bebas satu. Statistik z 2 ini disebut sebagai statistik Wald. Untuk kasus churn rate di atas, SE ( ˆ ) diperoleh : z
0.039(1 0.039) 0.00079 . Dengan demikian 60000
0.039 0.04 1.27 , atau z 2 (1.27) 2 1.60 . 0.00079
Nilai kritis khi-kuadrat dengan derajat bebas satu dan taraf nyata 5% adalah 3.841. Dengan demikian hipotesis awal diterima. Hasil uji ini konsisten dengan hasil uji proporsi.
4/5
Uji Score Uji score sangat mirip dengan uji Wald. Perbedaannya terletak pada perhitungan galat baku. Pada uji score, galat baku dihitung dengan asumsi bahwa hipotesis nol benar. Dengan kata lain, galat baku yang digunakan adalah SE ( ) . Sebagai contoh, untuk pengujian parameter : SE ( )
ˆ 0 (1 ) ˆ , 0 . Sehingga z . Statistik uji score adalah z 2 n SE ( )
yang mendekati sebaran khi-kuadrat dengan derajat bebas satu. Untuk kasus churn rate di atas, SE ( ) diperoleh : z
0.04(1 0.04) 0.0008 . Dengan demikian 60000
0.039 0.04 1.25 , atau z 2 (1.25)2 1.56 . 0.0008
Nilai kritis khi-kuadrat dengan derajat bebas satu pada taraf nyata 5% adalah 3.841. Dengan demikian hipotesis awal diterima. Hasil uji ini konsisten dengan hasil uji proporsi dan uji Wald. Uji perbandingan-kemungkinan (likelihood-ratio) Alternatif lain yang dapat digunakan dalam inferensia data diskret adalah uji perbandingan-kemungkinan (likelihood-ratio). Uji ini menggunakan fungsi kemungkinan dari melalui perbandingan (1) nilai kemungkinan maksimum bagi parameter dengan asumsi hipotesis nol benar dan (2) nilai kemungkinan maksumum bagi parameter dengan asumsi baik hipotesis nol maupun hipotesis alternatif bisa benar. Statistik uji yang digunakan adalah
l L 2 ln 0 l1 yang menyebar khi-kuadrat dengan derajat bebas satu. Untuk kasus churn rate di atas, jika H0 : = 0.04 benar, peluang binomial untuk y = 2347 adalah
l0
60000! (0.04) 2347 (0.96)57653 0.00455 (2347!)(57653!)
yang akan dibandingkan dengan
l1
60000! 0.039 2347 0.96157653 0.00831 (2347!)(57653!)
Sehingga statistik uji :
0.00455 L 2 ln 1.21 0.00831 Nilai kritis khi-kuadrat dengan derajat bebas satu pada taraf nyata 5% adalah 3.841. Dengan demikian hipotesis awal diterima. Hasil uji ini konsisten dengan hasil tiga uji sebelumnya. E.O.F CUIWW (Correct Us If We’re Wrong) Prepared by : Nur Andi Setiabudi, S. Stat Edited by : Didin Saepudin
5/5