Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
Pokok Bahasan : DISTRIBUSI CHI-KUADRAT (CHI-SQUARE) Dosen Pengampu : Sunu Wibirama, M.Eng Jika dalam suatu percobaan atau eksperimen hanya memiliki dua hasil keluaran, seperti halnya pelemparan mata uang, kita mendapatkan sisi depan dan sisi belakang, maka distribusi normal dapat digunakan untuk menentukan apakah frekuensi kedua hasil tersebut cukup signifikan terhadap frekuensi yang diharapkan. Namun demikian, jika lebih dari dua hasil yang muncul, katakanlah ada k- hasil, maka distribusi normal tidak dapat digunakan untuk menguji perbedaan signifikan antara frekuensi hasil pengamatan dengan frekuensi yang diharapkan. Untuk melakukan uji hipothesis dengan menggunakan hasil percobaan yang memiliki lebih dari dua hasil, kita menggunakan Uji Chi-Kuadrat (Chi-Square Testing, dilambangkan dengan χ2 ). Jika kita mempunyai frekuensi observasi sebanyak k, yaitu o1, o2, o3, …., ok dan frekuensi harapan (expectation) yaitu e1, e2, e3 , …, ek, maka rumusan chi-kuadrat dituliskan:
( o i − ei ) 2 χ =∑ ei i =1 2
k
Jika χ2 = 0, maka ada kesesuaian sempurna antara hasil observasi dan nilai harapan. Jika χ2 > 0, maka antara hasil observasi dan nilai harapan tidak terjadi kesesuaian sempurna. Semakin besar nilai χ2 , ketidaksesuaian antara hasil observasi dan nilai harapan juga semakin besar. A. PERHITUNGAN PRAKTIS Pada penghitungan praktis, kita akan menggunakan hipothesis awal (H0) dan hipothesis alternatif (Ha) untuk melakukan uji hipothesis. Untuk melakukan uji statistika, kita membandingkan nilai χ2 dari hasi perhitungan dan nilai χ2 dari tabel (disebut nilai kritis χ2 ). Nilai χ2 dari tabel diperoleh dengan menggunakan derajat kebebasan (degree of freedom, dilambangkan dengan dof atau v) dan derajat signifikansi (significance level, dilambangkan dengan A atau α). Secara grafis jika derajat bebas semakin besar maka grafik distribusi chi-kuadrat akan mendekati bentuk distribusi normal. Contoh 1: Pelemparan Dadu Sebuah dadu dilempar 120 kali dan hasilnya disajikan pada tabel di bawah ( sisi angka 1 diperoleh 13 kali, sisi 2 diperoleh 28 kali, dan seterusnya). Jika dadu tersebut dipandang ideal, maka: (a) Tentukan nilai χ2 (b) Apabila digunakan derajat signifikan 5% apakah hasil tersebut menunjukkan bahwa dadu itu tidak ideal?
1
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
Sisi 1 2 3 4 5 6 Jumlah
Hasil Observasi (o) 13 28 16 10 32 21 120
Frekuensi Harapan (e) 20 20 20 20 20 20 120
Pembahasan Contoh 1: H0 Ha
: dadu tersebut ideal : dadu tersebut tidak ideal
Untuk melakukan perhitungan, kita perlu melengkapi tabel di atas, sehingga memudahkan perhitungan kita sebagai berikut: Sisi
o
e
o-e
(o-e)2
1 2 3 4 5 6 Jumlah
13 28 16 10 32 21 120
20 20 20 20 20 20 120
-7 8 -4 -10 12 1 0
49 64 16 100 144 1
( o − e) 2 e 2,45 3,20 0,80 5,00 7,20 0,05 18,70
Hasil nilai chi-kuadrat yaitu pada penjumlahan di kolom terakhir sebesar χ2 = 18,70 Dalam contoh tersebut maka derajat bebas yaitu 6 – 1 = 5 ( angka 6 berasal dari adanya 6 sisi dadu kemudian dikurangi 1) dan derajat signifikan 5%. Dari tabel distribusi chikuadrat didapat nilai kritis χ2 = 11,07. Kesimpulan: Dari hasil perhitungan, nilai χ2 hasil hitungan lebih besar dari nilai kritis (18,70 > 11,07), hipothesis atau anggapan bahwa dadu tersebut ideal kita tolak karena ada beda cukup signifikan antara hasil observasi dengan nilai harapan.
2
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
Contoh 2: Aplikasi Genetika Misalkan kita menyilangkan dua kedelai, yaitu kedelai kuning dan kedelai hijau, dan berdasarkan teori Mendel maka akan ada empat tipe kedelai A, B, C dan D dengan perbandingan 9:3:3:1. Dari percobaan didapat kedelai A sebanyak 102, kedelai B sebanyak 30, kedelai C sebanyak 42 dan kedelai D sebanyak 15. Apakah hasil percobaan tersebut sesuai dengan teori untuk derajat signifikan 5% ?
Pembahasan Contoh 2: H0 Ha
: hasil percobaan sesuai dengan teori Mendel : hasil percobaan tidak sesuai dengan teori Mendel
Kedelai
o
e
o-e
(o-e)2
A B C D Jumlah
102 30 42 15 189
106,3 35,4 35,4 11,8 188,9
- 4,3 - 5,4 6,6 3,2
18,49 29,16 43,56 10,24
( o − e) 2 e 0,17 0,82 1,23 0,87 3,09
Karena jumlah total kedelai hasil percobaan ini ada 189, maka kita harus menentukan nilai harapan yang disesuaikan dengan teori atau hipotesis perbandingan 9:3:3:1, yaitu kedelai A seharusnya ada (9/16) dari 189, atau 106,3 dan demikian seterusnya untuk kedelai B, C, dan D. Dari hitungan tersebut maka nilai χ2 = 3,09, dan kalau kita melihat tabel distribusi chikuadrat untuk derajat bebas v =3 (v = 4 - 1) dan derajat signifikan α = 5% , nilai kritis χ2 = 7,82. Kesimpulan: Dari hasil perhitungan, χ2 hasil observasi lebih kecil dari nilai kritis χ2 , anggapan atau hipothesis bahwa hasil percobaan sesuai dengan teori Mendel kita terima karena tidak ada beda signifikan antara observasi dan harapan B. PENGGUNAAN TABEL KONTINGENSI
Tabel kontingensi adalah suatu susunan himpunan angka atau obyek yang diklasifikasikan berdasar dua kriteria, satu kriteria dinyatakan dalam baris dan kriteria lain dalam kolom. Pada tabel kontingensi biasa dituliskan untuk baris yaitu j dan untuk kolom yaitu k, sehingga tabel kontingensi bersangkutan dinyatakan sebagai tabel j x k. Tujuan penggunaan tabel kontingensi adalah menentukan ada atau tidaknya hubungan antara dua kriteria yang kita uji (uji independensi). 3
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
Contoh 3: Aplikasi Facebook dan Twitter pada mahasiswa JTETI UGM Penelitian penggunaan media sosial Facebook dan Twitter di JTETI UGM mengambil sampel mahasiswa laki-laki dan perempuan, berturut-turut sejumlah 55 dan 34 orang. Dari hasil penelitian, diperoleh data sebagai berikut:
Mahasiswa laki-laki Mahasiswa perempuan JUMLAH
Facebook 24 8 32
Twitter 31 26 57
Jml Sampel 55 34 89
Dari hasil penelitian tersebut, dapatkah kita katakan bahwa mahasiswa perempuan cenderung lebih menyukai Twitter daripada Facebook? Gunakan derajat signifikan sebesar 5%. Pembahasan Contoh 3: Apabila kita melihat secara sekilas antara jumlah sampel dan hasil penelitian, kita tentu akan mengatakan bahwa “perempuan cenderung tidak menyukai Facebook” atau “perempuan cenderung lebih menyukai Twitter daripada Facebook”. Hal ini tentu asumsi yang tidak berdasar karena kita tidak melandasinya dengan bukti empiris. Untuk menguji pernyataan di atas dan mengambil kesimpulan dengan benar, kita harus mengetahui independensi antara kriteria “jenis kelamin” dan “preferensi penggunaan FB dan Twitter”. Oleh karena itu, definisikan hipothesis awal dan alternatif sebagai berikut: H0 Ha
: jenis kelamin tidak berhubungan dengan preferensi penggunaan FB dan Twitter : jenis kelamin berhubungan dengan preferensi penggunaan FB dan Twitter
Disini kita harus menentukan dulu nilai frekuensi harapan untuk masing-masing elemen yang dianalisa dan beranggapan bahwa jumlah sampel mahasiswa laki-laki dan perempuan independen (tidak saling mempengaruhi satu sama lain). Untuk menghitung frekuensi harapan konsumen FB laki-laki (dilambangkan dengan X), kita gunakan perbandingan, yakni : Frek.harapan konsumen FB laki-laki : Jumlah sampel mahasiswa laki-laki = Jumlah konsumen FB : Jumlah seluruh sampel
Atau dengan kata lain: X : 55 = 32 : 89
4
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
Maka didapat X = 19,8 , sehingga frekuensi harapan konsumen Twitter laki-laki didapat dengan 55 – 19,8 = 35,2 . Demikian seterusnya digunakan cara yang sama untuk menghitung frekuensi harapan konsumen FB dan Twitter perempuan. Data hitungan dapat kita rangkum dalam tabel berikut: Data
o
e
o-e
(o-e)2
Konsumen FB laki-laki Konsumen Twitter laki-laki Konsumen FB perempuan Konsumen Twitter perempuan
24 31 8 26 89
19,8 35,2 12,2 21,8 89,0
4,2 -4,2 -4,2 4,2
17,64 17,64 17,64 17,64
( o − e) 2 e 0,89 0,50 1,45 0,81 3,65
Secara umum maka untuk tabel kontingensi j x k maka derajat bebasnya yaitu v = (j-1) (k-1). Untuk tabel kontingensi 2 x 2 maka derajat bebasnya yaitu 1, dan dari tabel chikuadrat untuk α = 5% dan v = 1 maka nilai kritis χ2 = 3,84. Kesimpulan: Dari hasil perhitungan, χ2 hasil observasi lebih kecil dari nilai kritis χ2 , sehingga tidak ada beda signifikan antara hasil percobaan dan harapan. Maka, anggapan bahwa mahasiswa perempuan cenderung lebih menyukai Twitter daripada Facebook tidak dapat kita terima karena jenis kelamin tidak ada hubungannya dengan preferensi pemilihan media jejaring sosial (atau jenis kelamin independen terhadap preferensi pemilihan media jejaring sosial). Catatan: Apabila nilai χ2 dari tabel kontingensi memberikan hasil yang signifikan (bila dibandingkan dengan nilai kritis χ2 ), hal tersebut mengindikasikan bahwa dua kriteria yang kita uji berhubungan (tidak independen). Namun demikian, hal tersebut tidak selalu mengindikasikan adanya hubungan sebab akibat (causal relationship) antara dua kriteria yang kita uji. Sebagai contoh, meskipun sebuah tabel kontingensi yang mengelompokkan sejumlah besar perokok di daerah A dan insiden terjadinya kanker paru-paru menghasilkan nilai χ2 yang cukup signifikan, bukan berarti kita bisa menyimpulkan bahwa “merokok menjadi penyebab meningkatnya insiden kanker paru-paru di daerah A”. Hubungan antara merokok dan kanker paru-paru bisa saja terjadi karena sebuah hal yang mendorong seseorang untuk merokok dan di saat bersamaan juga menjadi penyebab terjadinya kanker paru-paru. Kesalahan dalam pengambilan keputusan disebabkan karena asumsi yang keliru, seperti “apabila dua buah kriteria berhubungan, maka kriteria yang satu menjadi penyebab munculnya kriteria yang lain”.
5
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
C. TABEL KONTINGENSI TAK SIMETRIS Untuk tabel kontingensi 2 x2 maka nilai o – e akan sama, tetapi untuk tabel j x k dimana kriteria baris dan kolom tidak sama maka akan memberi hasil lain. Mengapa derajat bebas untuk tabel 2 x 2 ditentukan nilai 1, maka kita lihat bentuk umum berikut:
a c B
Total
Total A N-A N
b d N-B
Untuk frekuensi observasi a, b, c, d maka kita memiliki hubungan sebagai berikut: a+b=A c+d=N–A a+c=B b+d=N–B
(1) (2) (3) (4)
empat persaman tersebut satu sama lain tidak independen, persaman (4) diperoleh dengan mengurangkan persamaan (3) dari hasil penjumlahan persamaan (1) dan (2) sehinga hanya ada tiga hubungan independen. Karena derajat bebas adalah banyaknya variat (data) dikurangi banyaknya hubungan independen yang ada, sehingga v = 4 – 3 = 1. Namun demikian, secara umum untuk tabel kontingensi j x k maka derajat bebasnya adalah v = (j-1) (k-1). Contoh 4 : Penjualan PC dan Laptop Sebuah perusahaan komputer di Amerika Serikat ingin menyelidiki hubungan antara bulan penjualan dengan tipe komputer (PC dan laptop) yang terjual di dunia. Dari hasil laporan divisi marketing, diperoleh data penjualan PC dan laptop untuk tahun 2010 (dalam juta buah) sebagai berikut:
PC Laptop Total
Summer 29 13 42
Autumn 19 17 36
Winter 12 20 32
Spring 18 20 38
Total 78 70 148
Kesimpulan apa yang dapat Anda ambil dari data tersebut? Untuk melakukan pengujian, gunakan derajat signifikan 5%. Pembahasan Contoh 4: Ini merupakan tabel kontingensi 2 x 4, kita akan menguji hipotesis bahwa dua kriteria klasifikasi tersebut independen. Sebelum memulai, kita mendefinisikan secara formal hipothesis awal dan hipothesis alternatif, yakni: H0 : jenis komputer tidak berhubungan dengan musim atau bulan penjualan Ha : jenis komputer berhubungan dengan musim atau bulan penjualan
6
Probabilitas dan Statistika – Jurusan Teknik Elektro dan Teknologi Informasi UGM (TKU 115)
Kemudian, kita harus menentukan frekuensi harapan yaitu: x : 78 = 42 : 148 diperoleh x = 22,1 y : 78 = 36 : 148 diperoleh y = 19,0. z : 78 = 32 : 148 diperoleh z = 16,9 demikian seterusnya. Hasilnya kita susun dalam tabulasi berikut: o
e
o-e
(o-e)2
29 19 12 18 13 17 20 20
22,1 19,0 16,9 20,0 19,9 17,0 15,1 18,0
6,9 0,0 -4,9 -2,0 -6,9 0,0 4,9 2,0
47,61 0,00 24,01 4,00 47,61 0,00 24,01 4,00
( o − e) 2 e 2,15 0,00 1,42 0,20 2,39 0,00 1,59 0,22 7,97
Karena tabel 2 x 4 maka derajat bebasnya yaitu v = 1.3 = 3, dan jika dicari dari tabel distribusi chi-kuadrat untuk v= 3 dan = 5% kita memperoleh nilai kritis χ2 = 7,82. Dari hasil perhitungan, dapat disimpulkan bahwa hasilnya signifikan (7,97 > 7,82) Kita dapat pula menguji ulang dengan menggabungkan kedua data tersebut, menjadi data per semester dan disajikan berikut:
PC Laptop
Summer and Autumn 48 30
Winter and Spring 30 40
Dimana hasil hitungannya χ2 = 5,18 dan ini jauh lebih besar dibandingkan dengan dari tabel χ2 = 3,84 sehingga hasil lebih signifikan. Kesimpulan: Dari hasil perhitungan, dapat kita lihat bahwa χ2 hasil observasi lebih besar dari nilai kritis χ2 , sehingga ada beda signifikan antara hasil percobaan dan harapan. Kita bisa menyimpulkan bahwa tipe komputer yang terjual cenderung berhubungan dengan bulan penjualan komputer. Referensi: (1) Alder, H.L. & Roessler, E.B., “Chapter 13: Chi-Square Distribution”, Introduction to Probability and Statistics, W.H. Freeman and Company, p.227-240 (2) Spiegel, M.R. & Stephens, L.,J., “Chapter 12: The Chi-Square Test”, Schaum’s Outlines of Theory and Problems of Statistics 4th Edition, Mc.Graw Hill, p. 294-299
7