STATISTIKA ILMU SOSIAL
SOPAR M.H
1
Buat Kedua Orang Tuaku
2
Table of Contents SEKELUMIT NYANYIAN SUNDA .......................................................5 BAB 1 ...................................................................................................7 PENDAHULUAN ................................................................................7 BAB 2 ................................................................................................ 26 DASAR STATISTIKA DESKRIPTIF .............................................. 26 BAB 3 ................................................................................................ 58 PENARIKAN SAMPEL ................................................................... 58 BAB 4 ................................................................................................ 69 TEORI PROBABILITAS .................................................................. 69 BAB 5 ................................................................................................ 90 DISTRIBUSI PROBABILITAS........................................................ 90 BAB 6 .............................................................................................. 126 DASAR PENGUJIAN HIPOTEIS .................................................. 126 BAB 7 .............................................................................................. 148 HIPOTESIS MENGENAI SATU POPULASI DAN ...................... 148 PENDUGAAN INTERVAL ........................................................... 148 BAB 8 .............................................................................................. 182 HUBUNGAN SIMETRIK ANTARA DUA PEUBAH .................. 182 ASOSIASI DAN KORELASI ......................................................... 182 BAB 9 .............................................................................................. 218 HUBUNGAN TAKSIMETRIS ANTARA DUA PEUBAH : ......... 218 ASOSIASI PERAMALAN DAN REGRESI .................................. 218 BAB 10 ............................................................................................ 254 HUBUNGAN ANTARA 3 PEUBAH ATAU LEBIH .................... 254 3
MISCELENAOUS PROBLEM ......................................................... 286 DAFTAR BUKU ............................................................................. 287 LAMPIRAN .................................................................................... 290 CURICULUMVITAE ................................................................... 346
4
SEKELUMIT NYANYIAN SUNDA
Ketika aku di Tanah Sunda, tahun 2005,di Program Doktor Ekonomi Padjajaran Bandung, aku ikuti Kuliah Filsafat Ilmu Sosialdari Profesor Fatimah . Filsafat Ilmu Sosial satu Prasyarat mengajukan Kualifiasi Desertasi Doktor. Statistik Ilmu Sosial juga Prasyarat Kualifikasi Doktor . Keduanya harus Lulus dengan nilai A . “Tak ada lagi yang tidak terspesialisasi , hari ini “, demikian Profesor Fatimah, “ tak ada lagi yang bisa menguasai semua Ilmu” Wetgeinstein, Filsuf Amerika, berkata “ hari ini , tidak seperti dahulu, tak ada lagi Ahli Filsafat yang menguasai Matematika “ Aku tuliskan Buku ini, Statistika Ilmu Sosial untuk Bidang Ilmu-ilmu Sosial. Berbeda dengan Ilmu alam yang aku geluti selama 25 tahun ; riset-riset ilmu sosial sangat rumit dan sangat susah , tidak seperti riset ilmu alam. Riset ilmu-ilmu sosial berisi beratus-ratus dan beribu-ribu peubah (variable). Sedang riset ilmu-ilmu alam peubahnya terlalu sedikit . Kota Medan ,memang sudah sangat ketinggalan zaman Kurikulumnya, sebab masih menggunakan Staistik untuk Jurusan Ilmu Ekonomi. Jadi belum terspesialisasi ; seperti Dokter dia masih S1, Dokter Umum, belum S2, belum Dokter Spesialisasi. Staistik hanya boleh diajarkan di Jurusan Matematik ; tapi untuk jurusan lain harus Statitika, metode, bukan sains nya . Buku Statistika Ilmu Sosial ini dapat digunakan untuk jurusan –jurusan Profesi Kependidikan, Manajemen, Akuntansi, Kedokteran , dll. Sedang untuk Riset Sains , Statistika ini tak dapat digunakan. Untuk Riset sains digunakan Ekonometrik , Ekonofisika, dll.
5
Metode Kudrat terkecil (Least Squares) yang dibahas di sini terlalu sederhana ; untuk lebih rumitnya Anda pelajari di Ekonometrik . Amat riskan memang, riset , jika tak disandarkan pada Filsafat Ilmu dan Statistika Ilmu Sosial ; ini sebuah koreksi untuk Dunia Pendidikan SUMUT yang sudah sangat usang !!! BANYAK BERJALAN BANYAK DILIHAT ,BANYAK PENGALAMAN, BANYAK PEMAHAMAN . IBARAT SEEKOR KATAK DALAM TEMPURUNG !!!
-------------Sunggal, 19 Pebruari 2015----Sopar M.H --------
6
BAB 1 PENDAHULUAN
1.1
Konsep dalam Statistika
Statistika bagian dari metode dan teknik penelitian ilmiah . Stastika sekarang diterapkan dalam penelitian ilmu sosial untuk pembuat an randangan penelitian (research design ) . Statistik dibedakan dalam 2 masalah : (1) Staistika deskriptif yaitu bidang ilmu pengetahuan statistika yang mempelajari tata cara penyusun dan penyajian data yang dikum pulkan dalam sebuah penelitian . (2) Statistik induktif atau satistik inferensial atau statistika matematis yaitu bidang ilmu pengetahuan statistika yang mempelajari tata cara penarikan kesimpulan mengenai keseluruhan populasi berdasarkan data yang diperoleh dari sebagian populasi tersebut . Penarikan kesimpulantentang keseluruhan populasi berdasarkan hanya dari pengam. atan terhadap sebagian populasi disebut induksi atau genera lisasi. Populasi dan Sampel Pada sensus 1971 ternyata 59.6 % penduduk Indonesia berumur 10 tahun atau lebih mampu membaca dan menulis huruf Latin (BPS) . Karena sensus membutuhkan uang dan tenaga kerja besar, sensus yang dilakukan hanya sensus sampel bukan pencacahan . Kelompok yang diamati tadi diasumsikan sebagai wakil( representative) dari keseluruhan penduduk . Jadi sampel adalah himpunan bagian dari sebuah himpunan populasi. Populasi adalah keseluruhan unsur-unsur yang akan diteliti . Persentase orang yang mampu membaca dan menulis dalam sampel tadi , merupakan dugaan (taksiran) untuk persentase yang terdapat dalam populasipersentase dalam populasi yang sebenarnya tidak diketahui , melainkan dugaan nilai misalnya 63.2 % . Diharapkan nilai dugaan inimendekati persentase yang sebenarnya dalam
7
populasi . perubahan persentase orang yang mampu membaca dan menulis dalam jangka yang digunakan sebagai dasar menunjukkan apakah program pendidikan yang dijalankan sukses atau tidak . Contoh ini satu kerja statistika induktif: mendugaciri populasi brdasarkan pengamatan sampel yang diperoleh.
Populasi : N orang Sampel : n orang
b orang yang mampu baca tulis
𝑁 − 𝐵 𝑏𝑢𝑡𝑎 𝑢𝑟𝑢𝑓
Sampel ditarik
b orang yang mampu baca tulis
𝑛 − 𝑏 𝑏𝑢𝑡𝑎 𝑢𝑟𝑢𝑓
Persentase b/n .100 Dihitung
Persentase B/ N .100 Tak diketahui
INDUKSI 100 b /n penduga Untuk 100 B /N
B adalah banyak orang yang mampu baca tulis dan N banyak orang da lam populasi (umur 10 tahun ke atas) , kedua bilangna tersebut tak diketahui . b dan n bilangan sejenis dalam sampel ( b orang yang mampu calis , sedangkan n jumlah sampel ) , b dan n ditentukan setelah sampel ditarik ) . Populasi Pada contoh di atas Orang Indonesia berumur 10 tahun atau lebih membentuk populasi.
8
Sampel Dalm contoh butahuruf di atas diambil sampel berlainan ( himpunan bagian yang lain dari populasi yang sama ) , kemungkinan besar akan didapatkan nilai persentase yang berlainan . Misalkan sampel kedua diperoleh 62.9 % . Berdasarkan sampel ini, , persentase populasi akan diduga sebesar 62,9 % . Berbeda dengan sampel pertama . Apakah pendugaan ini “wajar” atau “dapat dipercaya” , dapat diper tanggungjawabkan ? Jika sampelnya mahasiswa dan pelajar-pelajar , maka persentase butahuruf nya 0% . Ini takwajar dan tak dapat dipertanggungjawabkan . Sampel diambil sedemikian rupa sehingga tiap unsurpopulasi mendapat probabilitas (peluang, kesempatan) yang sama terambil dalam sampel . Sampel diambil dengan undian : tiap unsur populasi diberi nomor . Kemudian nomor dikocok, lalu ditarik sebuah unsur , diaduk lagi dan diambil unsur kedua dst. Sampel demikian disebut sampel acak sederhana (simple random sampling) , di sini unsur yan sudah ditarik dari populasi tidak dikembalikan ke populasi untuk menghindari penarikan unsur sama berulang . Teori statistik induktif hanya berdasarkan sampel acak sederhana . Statistika Penelitian Ilmu Sosial, Obyektivitas. Statistika Penelitian ilmu sosial sering memainkan peranan penting penelitian survei (survey) . Penelitian ini mengandung pertanyaan-pertanya an yang diajukan kepada tiap individu yang jawabannya telah diberi kode terlebih dulu . Penelitian sosial lain, penelitian arsip, case sudy , pengamatan , berparti sipasi dari wawancara tak tersruktur dan pembuatan film . Penelitian ini sering tak berfaedah karena tak ada penghitungan dan pengukuran . Kalau statistika dipakai untuk mengananalisis data, maka belum berarti bahwa hasilnya menjadi lebih “baik “ atau lebik “obyektif” . Obyektif artinya hasil penelitian dan analisis nya dapat diperiksa kembali oleh orang lain, dan setuju . Yang lebih penting , apa yang harus dihitung ? Apa yang relevan dihitung ? Ekonom Dunia mengukur kemakmuran Indonesia berdasarkan pendapatan per kapita , yaitu rerata pendapatan.
9
Itu sudah memberi gambaran tentang ekonomi Indonesia dan dibandingkan dengan Negara lain. Tapi di Indonesia distribusi pendapatan taksimetrik , banyak yang buta huruf dan pengangguran seumur hidup dan hanya beberapa orang berpendidikan Doktor . Dalam hal demikian, daripada mengambil reratanya , lebih relevan meng hitung median atau modusnya . Median adalah pendapatan seseorang yang berada “ditengah distribusi” . Modus adalah pendapatan yang paling sering didapat. Jadi di Indonesia modus nya adalah butahuruf , pengangguran seumur hidup yang tidak penya pendpatan alias nol . Menurut BIERSTED , bahasa ilmiah, dan konsep-konsep yang digunakan untuk merumuskan , meneliti, dan menganalisis sebuah masalah sebenarnya dipilih sedikit bebas atau – lebih baik lagi – tidak dipilih terlalu “obyektif” , karena terdapat banyak kemungkinan . Pilihan bahasa ilmiah dipengaruhi oleh kebudayaan, status sosial , umur , agama, dlsb. Seoran lulusan SMA yang ingin belajar di UNSYIAH Banda Aceh harus menempuh ujian masuk karena tiak terdapat cukup tempat untuk semua orang yang ingin menjadi mahasiswa. Apalagi sekarang Indonesia menjadi tempat Kuliah seluruh penduduk Asia Tenggara, seperti Malasyia, Pilifina, Singapus, Thailand , dan lain-lain. Mereka yang lulus ujian masuk dengan nilai-nilai yang paling tinggi bolehlah diterima di UNSYIAH . Peneliti A menganalisi soal ini sbb. : (1) Ujian masuknya terdiri dari soal pilihan ganda, oleh karenanya ujian tersebut dianggap obyektif ; (2) Kemudian, analisis ujian-ujiannya dilakukan dengan computer dank arena itu analisis tersebut dianggap obyektif ; (3) Dari (1) dan (2) disimpulkan bahwa setiap lulusan SMA di Indonesia mempunyai kesempatan (probabilitas) yang sama untuk memasuki Universitas Syiah Kuala . Peneliti B menganalisis soal yang sama sbb. : (1) Tingkat akademis SMA lebih tinggi di Banda Aceh daripada di luar NAD , karena fasilitas-fasilitas pendidikan yang lebih baik di Ibukota NAD .
10
(2) Distribusi intelegensi di luar Banda Aceh sama dengan distribusi intelegensi di Banda Aceh . (3) Karena orang dari Banda Aceh dan orang dari luar Banda Aceh mengerjakan ujian masuk PTN yang sama, maka lulusan SMA dari luar Banda Aceh mempunyai kesempatan (probabilitas) lebih kecil untuk memesuki UNSYIAH daripada lulusan SMA Banda Aceh . Peneliti A dan B melakukan analisis masalah ini dalam bahasa ilmiah yang berlainan. Kesimpulannya juga berbeda .
1.2
Matriks Data dan Peubah
Dalam ilmu sosial , baris-baris matriks mewakili satuan penelitian (orang, kota, propinsi, keluarga ) dan kolom-kolom matriks mewakili sifat yang diukur pada satuan penelitian .
Orang
Peubah Peubah 1: Peubah 2 : Umur Pendidikan formal 26 3 A 24 2 B 49 3 C 47 1 D 22 2 E 38 3 F Keterangan peubah 2 : 1 = tanpa, 2 = SD, 3 = sekolah lanjutan
Bilangan yang digunakan di sini sebagai ukuran sifat atau ciri yang diperoleh di sini nilai yang dimiliki oleh satuan penelitian untuk sebuah konsep atau pengertian tertentu . Pengertian ini disebut peubah . Di sini 2 peubah , yaitu “umur” dan “pendidikan formal” . Satuan penelitian yang digunakan adalah orang-orang yang telah ditetapkan menjadi sasaranpenelitian . Dalam tabel berikut , sasaran penelitian nya “kota” . Peubah –peubah nya :
11
Peubah (1) : Persentase keluarga yang tidak membagi tempat tinggal nya dengan keluarga lain . Peubah (2) : Persentase rumah yang didiami oleh pemiliknya . Peubah (3) : Persentase kelurga yang rumahnya bersaluran listrik .
Kota Jakarta Medan Pontianak Manado
Peubah 1 73,9 66.9 73.2 65.3
Peubah Peubah 2 50.4 56 67.1 72.1
Peubah 3 20.7 29 28 31.7
Peubah Kontinu dan Peubah Diskrit Sebuah peubah dinamakan kontinu jika nilai-nilai peubah membentuk sebuah kontinum. Artnya untuk 2 nilai sembarang selalu terdapat nilai ketiga yang berada antara 2 nilai tersebut . Kalau peubah ini bernilai a dan b ( a< b) , maka juga mengambil nilai 𝑐=
1 2
𝑎 + 𝑏 , dengan 𝑎 < 𝑐 < 𝑏 .
Biasanya kontinum ini dibentuk oleh himpunan bilangan nyataatau himpun an bagiannya . Peubah seperti umur, panjang, berat, suhu, tingkat urbanisasi , tingkat kriminalitas, tingkat agresi, tingkat kohesi kelompok (kekokohan kelompok) secara teoritis dapat dianggap sebagai peubah kontinu. Jika sebuah peubah tidak kontinu , disebut diskrit . Untuk smbarang dua nilai diskrit , tak selalu dapat ditemukan nilai ketiga di antaranya . Cpntoh-contoh peubah diskrit adalah : banyak penduduk, anggota kelurga, kelamin, propinsi tempat lahir, pilihan parpol, manyaknya tahpol, banyaknya orang bunuh diri, dan pertunjukan film .
12
Batas Ketelitian Pengukuran Nilai sebuah peubah kontinu , seperti tinggi (p) seseorang , tergantung pada ketelitian (accuracy) pengukurannya , dan dinyatakan sebagai 1.65 atau 1.635 m, dst. Pada pengukuran pertama ketelitiannya lebih rendah . 𝑝 = 1.65 𝑏𝑒𝑟𝑎𝑟𝑡𝑖 1.645 ≤ 𝑝 < 1.655 𝑚 𝑝 = 1.653 𝑏𝑒𝑟𝑎𝑟𝑡𝑖 1.6525 ≤ 𝑝 < 1.6535 𝑚 Ada batas pada tingkat ketelitian dalam proses pengukuran. Karenanya peubah kontinu ditemukan secara empirik dalam kelas-kelas (interval-interval ) seperti 1.605 ≤ 𝑝 < 1.615 𝑚, 𝑑𝑖𝑡𝑢𝑙𝑖𝑠 𝑝 = 1.61 1.615 ≤ 𝑝 < 1.625 𝑚, 𝑑𝑖𝑡𝑢𝑙𝑖𝑠 𝑝 = 1.62 𝑚 1.625 ≤ 𝑝 < 1.635 𝑚, 𝑑𝑖𝑡𝑢𝑙𝑖𝑠 𝑝 = 1.63 𝑚 dst . Jadi , setiap pengukuran mempunyai batas ketelitian . Jadi , jika peubah kontinu dioperasionalkan , maka peubah tersebut menjadi diskrit . Dalam statistika peubah diskrit sering didekati oleh peubah kontinu . Dalam 1.616 dituliskan dalam 4 angka berarti (significant figures ) . Jumlah penduduk 100 000 orang , tidak jelas berapa angka 0 di antaranya yang berarti .Akan lebih baik dituliskan 1.0 × 105 orang , jika 1 angka 0 yang dianggap berarti . Sebuah bilangan bisa juga tingkat ketelitiannya ditulisakan sbb.: 𝑝 = 1.62 ± 0.03 Di sini kesalahan pengukuran 0.03 m , buksn 0.05 . Jadi , arti nilai ini 1.59 ≤ 𝑝 < 1.65 .
13
Reduksi Data Dalam penelitian sosial , satuan analisinya sering berjumlah ratusan , dn jumlah peubah yang diamati bisa sampai 100 peubah . Data bisa diringkaskan atau direduksikan . Misalnya menghitung rerata sebuah peubah untuk mewakili nilai-nilai tsb. Data Tabel ditas dapat diurutkan sbb.:
Kota Jakarta Pontianak Medan Manado
Peubah 1 73,9 73.2 66.9 65.3
Peubah Peubah 3 20.7 29 28 31.7
Hubungan peubah 1 dan peubah 3 , makin besar nilai peubah 1, maka makin kecil nilai peubah 3 . Ukuran untuk 3 peubah atau lebih dapat diselidiki sekaligus . Analisis hubungan 2 peubah atau lebih disebutn analisis peubah berganda (multivariate analysis) atau analisis dimensi berganda . Dua analisis yang dapat dibuat : (a) Analisis matrik data berdasarkan peubah-peubah (kolom-kolom) ; (b) Analisis matriks data beritik tolak dari satuan-satuan penelitian (baris-baris) . Kedua titik –tolak iani akhirnya akan menghasilkan ringkasan matriks data yang kira-kira sama .
1.1
Pengukuran , Jenis Skala
Dari Konsep sampai Pangamatan Tujuan ilmu empirik adalah melukiskan gejala-gejala dengan deskripsi em pirik dan diusahakan mencapai penyusunan kaidah-kaidah umum.
14
Atas dasar kaidah-kaidah umum yang dirumuskan dalam teori , selanjutnya dijelaskan lagi gejala-gejala empirik yang ditemui untuk digunakan membuat ramalan-ramalan ilmiah . Tidak semua pengertian teori (theoretical concept atau theoretical construct ) dapat diukur langsung . Misalnya , bagaimana dapat diukur “intelegensi” ? Jika pengertian teori diukur , masalah tersebut dilaksanakan dengan ter lebih dulu “mengoperasionalkan” pengertian tersebut . Operasionalisasi artinya harus diusahakan memecah atau menguraikanpe ngertian teori ke dalam sejumlah dimensi yang bisa diukur . Misalnya , operasionalisasi 2 pengertian teori dilaksanakan sbb. : (a) “status sosial ekonomi” : dimensi pendapatan dan dimensi gengsi pekerjaan (professional prestige ) (b) “intelegensi” : skor dalam tes intelegensi yang terdiri dari beberapa soal ; setiap soal merupakan 1 dimensi . Dalam operasionalisasi , hakikat pengertian tidak berubah . Apakah hal yang diukur dalam satu tes intelegensi memang kira-kira sesuai dengan pengertian “intelegensi” seperti yang diartikan teori ? Pendek kata : apakah validitas pengukuran cukup baik ? TORGERSON melukiskan kerangkanya spb.: Pengertian yang dioperasionalisasikan
Pengertian teori
PT1
PT5
PT6
Data yang dapat diamati , alam
PO1
PT2
PT3
PO2
PO3
PT4
PO4
15
Garis-garis menggambarkan : ________ hubungan teoritis antara beberapa pengertian _ _ _ _ _ _ hubungan antara pengertian teori (PT) dan pengertian yang yang telah dioperasionalkan (PO) __________ __________
garis kesesuaian atau definisi operasional dari pengerti an yang dioperasionalkan
Di sini , pengertian teori 𝑃𝑇1 , 𝑃𝑇2 , 𝑃𝑇3 , 𝑑𝑎𝑛 𝑃𝑇4 yang dioperasionalkan menjadi berurut-urut 𝑃𝑂1 , 𝑃𝑂2 , 𝑃𝑂3 , 𝑑𝑎𝑛 𝑃𝑂4 . Pengertian 𝑃𝑇5 , 𝑃𝑇6 merupakan pengertian yang diamati dengan bantuan pengertian lain, melalui hubungan 𝑃𝑇1 , 𝑃𝑇2 , 𝑃𝑇3 , 𝑑𝑎𝑛 𝑃𝑇4 . Dengan demikian , pengertian 𝑃𝑇5 , 𝑃𝑇6 merupakan pengertian(peubah) yang tidak langsung diamati (unobservable ) . Pengertian 𝑃𝑇1 , 𝑃𝑇2 , 𝑃𝑇3 , 𝑑𝑎𝑛 𝑃𝑇4 merupakan pengertian atau peubah yang dapat diamati . Berbeda pengukuran dsatu ujian alam ilmu alam, dan ilmu sosial. Dalam ilmu sosial hubungan garis putus-putus labih banyak dan data yang dapat diamati kurang jelas dan berbelit-belit . Garis kesesuaian menyatakan bagaimana pengertian yang dioperasi onalisasikan diukur . Misalnya , “pengetahuan tntangkurang” , yang menjawab 6 pertanyaan dengan baik mendapat nilai “sedang” , dan yang menjawab lebih dari 6 pertanyaan dengan baik mendapat nilai “baik”. Di sini skalanya , himpunan nilai-nilai { kurang sekali, kurang, ,sedang, baik} .
Jenis-jenis Skala Jawaban terhadap pertanyaaan “ Apakah Anda puas dengan susunan baru acara radio ? “ dapat diukur sepanjang skala 𝑠𝑎𝑛𝑔𝑎𝑡 𝑝𝑢𝑎𝑠, 𝑐𝑢𝑘𝑢𝑝 𝑝𝑢𝑎𝑠, 𝑡𝑖𝑑𝑎𝑘 𝑝𝑢𝑎𝑠, 𝑠𝑎𝑛𝑔𝑎𝑡 𝑡𝑖𝑑𝑎𝑘 𝑝𝑢𝑎𝑠 . Untuk mengukur berat sepucuk surat dapat dipakai timbangan dengan skala dalam gram.
16
Skala Nominal Misalkan sebuah penelitian dilakukan di daerah pedesaan . Untuk tiap orang yang termasuk sampel , peubah “jenis pekerjaan “ diukur. Ingin diteliti apakah seorang responden yang terpilih petani atau bukan . Untuk itu digunakan 2 himpunan untuk mengelompokkan para responden tersebut , yaitu himpunan “petani” dan himpunan “lain-lain” . Tiap responden akan diamati dan dimasukkan ke dalam salah satu dari 2 him punan tersebutt . Skala yang dipakai dalam pengamatan ini mempunyai 2 titik skala : “petani” dan “lain-lain” Skala semacam itu juga dipakai jika kita menggolongkan seseorang dalam himpunan “orang Islam” , “Orang Kristem”, “orang Hindu”, “dll.”. Dalam contoh terakhir , skala untuk mengukur peubah “agama” terdiri dari 4 titik . Titik skala atau nilai skala ini disebut kelas (class) atau kategori (category) . Jenisskala ini, yang objek pengamatannya (observation) dikelompokkan ke dalam himpunan-himpunan, dinamakan nominal . Pengukuran ke dalam himpunan-himpunan itu sebenarnya sama saja dengan melihat apakah 2 objek yang diamati sama atau tidak . Proses pengukuran yang menggunakan skala nominal juga disebut klasifikasi (classification) atau penggolongan ke dalam beberapa kelas atau kategori . Skala Ordinal Kadangkala, di dalam sebuah penelitian orang ingin membedakan 2 buah pengamatan , tidak hanya menurut persamaannya atau perbedaan nya (apakah kedua pengamatann termuat dalam himpunan yang yang sama atau tidak ), tetapi juga menurut urutan atau tingkatannnya . Seorang anggota ABRI dapat diklasifikasikan menurut pangkatnya : himpun an Kapten, Letnan, dst. Antara titik sklala Kapten, Letnan,Mayor, prejurit, dll terdapat urutan tertentu : pangkat Kapten lebih tinggi dari Letnan dan lebih rendah dari Mayor . Dengan demikian , diberikan sebuah orde atau urutan tertentu diantara titik skala nya (misalnya lebih tinggi –lebih rendah , lebih tebal-lebih tipis , lebih keras-lebih lunak, lebih besar-lebih kecil ) . Skala semacam ini disebut skala ordinal . Pengukurannyan dilakukan pada tingkat ordinal : obyek-obyek dibedakan menurut persamaannya dan menurut urutannya .
17
Skala Interval Untuk menentukan apakah perbedaan pangkat , atau kedudukan sosial, antara Kapten dan Letnan sama dengan perbedaan pangkat antara Mayor dan Kapten merupakan hal yang sulit . Dalam pengukuran pada tingkat ordinal tadi , masalah “perbedaan jarak” atau “ interval” antara 2 titik skala tidak tidak diperhatikan . Jika dikatakan bahwa pengukuran dilakukan dengan skala ordinal , maka tidak dinyatakan suatu apapun tentang jarak antara 2 titik skala . Namun, ada skala-skala yang jarak antara setiap 2 titik skala nya memeng diketahui . Contohnya , skala dari tahun almanak . Kejadian-kejadian dalam sejarah bisa ditempatkan menurut waktu terjadinya : akhir PD II terjadi pada tahun 1945 M . Dengan skala seperti ini, dapat ditentukan apakah kejadian yang satu mendahului yang lain (urutan) , dan juga dapat ditentukan berapa jauhjarak dalam tahun yang memisahkan 2 kejadian tertentu . “Lima tahun kemudian “ berarti ( tenpatkanlah kejadian pada skala waktu ) 5 satuan skala(satuan skalanya adalah 1 tahun ) lebih jauh . Jarak antara 2 titik skala di sini diketahui dalam sejumlah tahun . Satu tahun adalah waktu yang dibutuhkan Bumi mengitari Matahari dalam satu putaran. Satu tahun merupakan satuan skala tersebut . Sebuah skala di mana jarak (interval) antara tiap 2 titik skalanya diketahui (di samping pembedaan menurut persamaan dan urutan titik skala nya ), dinamakan skala interval . Jadi, sebuah skala interval mempunyai semua sifat skala ordinal, ditambah dengan satu sifat khas yaitu satuan skala (scale unit) atau satuan pengukuran . Skala Rasio Tahun-tahun almanak tersebut diukur dari titik orientasi tertentu , yaitu kelahiran Mesiah yang merupakan permulaan tahun Masehi atau “tahun 0” . Namun, titik orientasi ini dipilih bebas : bagi sementara orang, titik orientasinya adalah tahun ketika Nabi Muhammad hijrah dari Mekah. Dengan skala interval ini tidak dapat dikatakan bahwa tahun 2000 M “ 2 kali sebesar , sepanjang” tahun 1000 M.
18
Orang yang menghitung tahun mulai dari tahun 800 M (tahun penobatan Karel Akbar menjadi Kaisar ) akan terpaksa menerjemahkan ini sbb. : tahun 1200 setelah penobatan Karel adalah “2 kali lebih besar” daripada tahun 200 setelah penobatan Karel. Adanya semacam keganjilan dalam deskripsirasio disebabkan oleh karena titik nol dari perhitungan tahun , dapat dipilih secara sembarang atau sekehendak peneliti .
Skala Masehi Skala Karel
0 –800
800 1000
0
200
2000 1200
Namun, ada skala yang titik nolnya tidak dipilih sembarang ; titik nol di sini mengandung arti . “Tidak berbobot” dipakai unuk menyatakan titik nol pada timbangan. “Dua kali lebih berat” berarti : bila sekantung gula beratnya 1 kg , maka 2 kantung “ 2 kali lebih berat” . Skala untuk mengukur banyaknya orang , barang , atau lain-lain : skala bilangan cacah . Bisa dikatakan “banyaknya mahasiswa yang hadir dalam kuliah kemarin 3 kali lebih besar daripada hari ini “ Titik nol yang dipilih tidak sembarang disebut murni atau sejati . Jenis skala dengan sejati (natural origin) , sehingga rasio antara sembarang 2 nilai skala juga dapat ditentukan dengan jelas , dinamai skala rasio . Skala rasio berbeda dengan skala interval . Skala rasio mampu membandingkan
𝑥𝑖 𝑥 dan 𝑘 antara 𝑥𝑗 𝑥𝑙
2 pasang skala
𝑥𝑖 , 𝑥𝑗 𝑑𝑎𝑛 𝑥𝑘 , 𝑥𝑙 sama atu tidak . skala tahun almanak adalah skala interval . Tapi jangka waktu jarak yang berlalu antara 2 kejadian membentuk sebuah skala rasio . Misalnya dapat dikatakan, dengan skala rasio , jangka waktu pertama berlangsung 5 kali lebih lama daripada yang kedua .
19
Struktur Tingkatan 4 Macam Skala Skala dirutkan menurut “daya pembeda” atau kemampuannya : Skala
Yang dapat ditentukan 2 amatan sembarang Persamaan (klasifikasi) Persamaan dan urutan Persamaan,urutan dan jarak (ada satuan pengukuran) Persamaan,urutan,jarak dan rasio (ada titik 0 murni )
Nominal Ordinal Interval Rasio
Perhatikan Strukturnya sbb. :
No
1
2
3
4
Sifat skala
Kesamaan antara 2 pengamatan :𝑦𝑎𝑥𝑖 = 𝑥𝑗 𝑎𝑡𝑎𝑢 𝑥𝑖 ≠ 𝑥𝑗 , kualifikasi penga matan dapat dilaku kan Urutan tertentu : 𝑥𝑖 > 𝑥𝑗 𝑎𝑡𝑎𝑢 𝑥𝑖 < 𝑥𝑗 , pengukur an pengamatan dapat dilakukan Kesamaan interval : 𝑥𝑖 − 𝑥𝑗 = 𝑥𝑘 − 𝑥𝑙 𝑎𝑡𝑎𝑢 𝑥𝑖 − 𝑥𝑗 ≠ 𝑥𝑘 − 𝑥𝑙 ada satuan peng ukuran Kesamaan rasio : 𝑥𝑖 𝑥𝑘 = atau 𝑥𝑗 𝑥𝑖 𝑥𝑗
𝑥𝑙 𝑥 ≠ 𝑘 𝑥𝑙
Mempunyai sifat (ya) atau tidak mempunyai sifat (tidak) Nominal Ordinal Interval Rasio Ya Ya Ya Ya
Tidak
Ya
Ya
Ya
Tidak
Tidak
Ya
Ya
Tidak
Tidak
Tidak
ya
ada titik 0
20
Dalam matris data di atas , peubah 1 (umur) diukur pada skal rasio , dan peubah 2 (pendidikan formal) diukur pada skalaordinal . Dalam pembuatanskala menurut metode dengan interval-intervalyang seolah-olah sama (method of equal –appearing intervals) , kepada tiap responden diberikan sejumlah obyek dan kemudian responden itu diminta untuk mengurutkan obyek-obyek tersebut ke dalam beberapa himpunan sedemikian rupa sehingga interval antara himpunan-himpunan ini sama menurut anggapan responden tersebut . Himpunan objek ini terdiri , misalnya, dari 100 macam pekerjaan , dan responden diminta mengurutkan pekerjaan-pekerjaan menurut statusnya , menurut sifat menarik nya , atau menurut sifat lainnya. Dalam metode ini dianggap responden itu mampu membuat sebuah skala interval , karena satuan pengukuran inilah yang akan digunakan . Dalam pembuatan skala perimbangan THURSTONE, responden hanya diminta untuk memilih obyek yang paling tinggi nilainya , (besar, berat, manrik, keras, dsb.) dari satu pasangan obyek . Jadi responden hanya membandingkan 2 obyek (method of paired comparison) dan untuk pasangan tersebut urutan menurut besarnyaditentukan , atau skala ordinal dibuat untuk 2 obyek tersebut. Responden tak usah membari informasi mengenai interval antara 2 obyek seperti dalam metode dengan interval-interval seolah-olah sama di atas . (proses ini diulang dengan pasangan obyek lain ; dari pernyataan-pernyataan subyektif beberapa responden tersebut kemudian dibuat satu skala interval untuk kelompok berdasarkan law of comparative judgment . Oleh sebagian orang, misalnya , penggolongan tidak dianggap sebagai proses pengukuran , karena besarnya satu sifat obyek tidaklah diukur dalam penggolongan . Menurut STEVENS dan COOMBS , penggolongan atau klasifikasi sebagi sebuah sebuah proses pengukuran , sehingga menjadi lebih umum dan sesuai dengan skal berdimensi berganda (multidimensional scalling) . Sebuah skla berdimensi berganda bisa dibuat berdasarkan peubah-peubah yang diukur pada skla nominal . Dalam skala 2, 3 atau lebih dimensi , titik-titik skala tidak bisa diurutkan menurut besarnya .
21
Transformasi yang Tak Mengubah Skala Misalnya penelitian agama , agama apa kah yang dianut orang yang sedang menjadi sasaran penelitiannya . Dibuat penggolongan 3 himpunan ( skala nominal) : Islam, Kristen, dll. dibri kode sbb .: Islam Kristen Dll.
: kode 1 : kode 2 : kode 3
Jika si A Kristen, maka pada baris si A dan dibawah peubah agama diisi nilai 2, dst. Kode dapat juga dibuat berlainan tanpa mengubah skala : Islam Kristen Dll.
: kode 2 : kode 3 : kode 1
Yang penting ketiganya dapat dibedakan . Skala nominal ini tak berubah karena transformasi yang sifatnya permutasi. Permutasi adalah fungsi 1-1 pada himpunan diri sendiri .) Hal ini berlaku juga untuk skala lain. Skala Ordinal si X ekivalen dengan yang dibuat si Y , bila X dan Y membuat penggolongan yang sama dan aturan titik-titik skala Y dan X sama. Misalkan titik 𝑥1 pada skala X berpadanan dengan (menunjukkan himpunan yang sama) titik 𝑦1 pada skala Y begitu juga untuk 𝑥2 dengan 𝑦2 . Skala ordinal Y ekivalen dengan skala ordinal X jika berlaku hubungan untuk tiap 𝑥1 , 𝑥2 , dan setiap 𝑦1 , 𝑦2 𝑥1 > 𝑥2 ⟺ 𝑦1 > 𝑦2 𝑥1 = 𝑥2 ⟺ 𝑦1 = 𝑦2 atau 𝑥1 > 𝑥2 ⟺ 𝑦1 < 𝑦2
22
𝑥1 = 𝑥2 ⟺ 𝑦1 = 𝑦2 Transformasi ini monoton.
Y Turun monoton
𝑦1 𝑦2
X 𝑥1
𝑥2
𝑦2 Naik monoton
𝑦1
𝑥1
𝑥2
Transformasi liniir berbentuk 𝑥 → 𝑦 = 𝑏𝑥 + 𝑎 .
𝑦3 Jarak = b
𝑦2 Jarak = b
23
Besar satuan pada skala Y adalah b kali satuan pada skala X . Jika 𝑥2 − 𝑥1 = 𝑥3 − 𝑥2 , 𝑚𝑎𝑘𝑎 𝑗𝑢𝑔𝑎 𝑦2 − 𝑦1 = 𝑦3 − 𝑦2 . Jadi , dua skala interval dikatakan ekivalen jika ada sebuah transformasi liniir antara kedua skala tersebut . Terakhir , transformasi yang tidak mengubah skla rasio adalah transformasi liniir yang memetakan titik 0 pada skala X ke titik 0 pada skala Y. Bentuk transformasi ini sbb. : 𝑥 → 𝑦 = 𝑏𝑥 Rasio-rasio yang berpadanan pada kedua skala tersebut tidak berlainan : 𝑥2 𝑥1
𝑦
= 𝑦2 1
Jadi,2 skala rasio dikatakan ekivalen jika ada sebuah transformasi liniir dengan titik 0 tetap antara kedua skala tersebut . Transformasi yang tidak mengubah sebuah skala sebenarnya mencerminkan tata tingkatan skal itu sendiri .
24
Jika seorang responden diminta untuk membuat sebuah skala interval menurut metode dengan interval-interval yang seolah-olah sama , pilihan titik 0 dan satuan skala masih bisa ditetapkan secara sembaeang . Misalnya si A, si B, si C , dan si D menilai objek 𝑠1 , 𝑠2 , 𝑠3 , 𝑠4 𝑑𝑎𝑛 𝑠5 sbb. :
Skala A : Skala B : Skala C : Skala D :
s1
s2
s3
s4
s5
1 2 0 0
3 6 2 4
6 12 5 10
8 16 7 14
11 22 10 20
Jika diperoleh hasil pengamatan seperti di atas , objek-objek 𝑠1 , 𝑠2 , 𝑠3 , 𝑠4 𝑑𝑎𝑛 𝑠5 benar-benar diukur pada skala interval , skala A, skala B , skala C , dan skala D ekivalen satu-sama lain , karena keempat skala tersebut hanyalah berbeda menurut sebuah transformasi liniir𝑦 = 𝑏𝑥 + 𝑎 :
Hubungan skala AB : satuan skala B = 2 kali satuan skala A AC : Satuan skala C = satuan skala skala A ; skala C digeser 1 satuan ke se belah kiri terhadap skala A AD : satuan skala D sama dengan 2 kali satuan skala A ; skala D digeser 1 satuan skala A terhadap skala A
Transformasi 𝑠𝐴 = 2𝑠𝐴 𝑠𝐶 = 𝑠𝐴 − 1
𝑠𝐷 = 2 𝑠𝐴 − 1 = 2𝑠𝐴 − 2
Di sini 𝑠𝐴 adalah nilai objek s pada skala A , 𝑠𝐵 adalah nilai obyek tersebut pada skala B dst . Jika peneliti ingin agar semua responden meletakkan titik nol pada tempat yang sama dan menggunakan satuan skala yang sama , maka dia mengam bil
25
2 obyek dan kemudian menentukan sendiri nilai masing-masing obyek tersebut . Selanjutnya responden diminta untuk menilai obyek yang lain sesuai dengan nilai 2 obyek baku itu . Transformasi antara 2 skala jarang tepat liniir atau tepat monoton , karena kesalahan acak (random errors ) terjadi dalam proses penentuan nilai obyek.
BAB 2 DASAR STATISTIKA DESKRIPTIF
2.1
Tabel Distribusi Frekuensi
Dalam sebuah penelitian pendapatan tahunan , dalam puluhan ribuan rupiah , terhadap 90 responden diperoleh nilai-nilai sbb.:
34 36 40 15 23 39 24 18 30
30 23 27 46 40 51 31 20 41
34 33 45 31 33 30 47 37 30
25 29 22 33 34 45 27 21 36
33 36 39 43 48 31 21 30 32
26 49 31 27 35 35 32 35 31
28 39 37 26 37 26 25 24 42
38 29 32 36 34 33 38 38 34
32 41 43 24 28 29 36 22 35
33 45 19 16 42 28 18 29 28
Nilai-nilai ini dicatat sembarang. Penyusunan atau tata aturan pertama yang dilaksanakan ialah membuat tabel yang mengurutkan nilai-nilai pendapatan tahunan ini menurut bessarnya dan mencantumkan frekuensi nilai itu di belakang tiap nilai tersebut . Frekuensi sebuah nilai adalah jumlah berapa kali nilai tersebut diukur, pendek kata berapa banyak responden mempunyai pendapatan sebesar nilai itu . Frekuensi nya dihitung satu per satu dengan turus ( / ) .
26
15 16 17
/ /
23 24 25
// /// //
31 32 33
18 19 20 21 22
// / / // //
26 27 28 29 30
/// /// //// --////--////-
34 35 36 37 38
---//// --///// --//////// --/////// ///
39 40 41
/// // //
47 48 49
/ / /
42 43 44 45 46
// //
50 51
/
/// /
Langkah berikutnya mengolongkan nilai-nilai ke dalam kelas-kelas . Setiap kelas berisi sejumlah nilai berurutan , tabel ini disebut distribusi fre kuensi yang telah dikelompokkan.
Kelas, Batas Kelas, dan Titik-Tengah Kelas Saat Anda menggolongkan nilai-nilai ke dalam kelas-kelas haruslah selalu dipikirkan berapa banyak kelas yang akan diambil, berapa lebar tiap kelas, dan manakah batas-batas kelas tersebut . Demi kesederhanaan penelaahan , umumnya : (a) Lebar setiap kelas dipilih sama besarnya (b) Banyaknya kelas diambil antara 8 s/d 20 sedemikian rupoa sehingga untuk lebar kelas diperoleh interval yang “sederhana” dalam perhitungannya .
Terlihat dari tabel di atas bahwa nilai yang paling besar adalah “ 51” dan yang paling kecil “15” . Nilai “51” mewakili sebuah pengukuran antara 50.5 dan 51.5 dan nilai “15” mewakili pengukuran antara 14.5 dan 15.5 . Jadi, leber interval yang akan tercakup oleh himpunan kelas setidaknya adalah 51.5 − 14.5 = 37 . Selanjutnya dapat diambil :
27
13 kelas dengan lebarkelas 3, yang memberikan panjang interval 13 x 3 = 39 atau 8 kelas dengan lebarkelas 5, yang memberikan panjang interval 8 x 5 = 40 atau 19 kelas dengan lebarkelas 2, yang memberikan panjang interval 19 x 2 = 38 Misalnya, banyaknya kelas ditentukan 13 , dengan lebar kelas 3. Maka kelas –kelas yang berurutan dimulai dari bawah adalah sbb. :
14.5 ≤ 𝑥 < 17.5 17.5 ≤ 𝑥 < 20.5 20.5 ≤ 𝑥 < 23.5 ⋮⋮⋮ 47.5 ≤ 𝑥 < 50.5 50.5 ≤ 𝑥 < 53.5 Di dalam kelas14.5 ≤ 𝑥 < 17.5 terdapat nilai 𝑥 = 15, 𝑥 = 16 𝑑𝑎𝑛 𝑥 = 17. Di dalam kelas17.5 ≤ 𝑥 < 20.5 terdapat nilai 𝑥 = 18, 𝑥 = 19 , 𝑑𝑎𝑛 𝑥 = 20. Dengan bantuan Tabel di atas bahwa frekuensi kelas17.5 ≤ 𝑥 < 20.5 adalah 4 , yaitu 18 muncul 2 kali, 19 satu kali, dan 20 satu kali . Namun di sini ada pula informasi yang terlewat atau hilang : kelas 17.5 ≤ 𝑥 < 20.5 diwakili oleh titik tengah kelas nya 𝑥 = 19.
Tabel Distribusi Frekuensi bagi Pengamatan-pengamatan yang Dikelom pokkan
28
Dengan bantuan Tabel di atas dapat dibuat Tabel berikutnya . Jika ditetapkan mengambil 8 kelas dengan masing-masing lebar kelas sebesar 5 , maka kelas-kelas berurutan, misalnya, sbb : 14.5 ≤ 𝑥 < 17.5; … ; 47.5 ≤ 𝑥 < 50.5; 50.5 ≤ 𝑥 < 53.5
Nilai-nilai Pengamatan 15,16,17 18,19,20 21,22,23 24,25,26 27,28,29 30,31,32 33,34,35 36,37,38 39,40,41 42,43,44 45,46,47 48,49,50 51,52,53
Batas kelas 14.5 ≤ 𝑥 17.5 ≤ 𝑥 20.5 ≤ 𝑥 23.5 ≤ 𝑥 26.5 ≤ 𝑥 29.5 ≤ 𝑥 32.5 ≤ 𝑥 35.5 ≤ 𝑥 38.5 ≤ 𝑥 41.5 ≤ 𝑥 44.5 ≤ 𝑥 47.5 ≤ 𝑥 50.5 ≤ 𝑥
< 17.5 < 20.5 < 23.5 < 26.5 < 29.5 < 32.5 < 35.5 < 38.5 < 41.5 < 44.5 < 47.5 < 50.5 < 53.5
Titik kelas
tengah
16 19 22 25 28 31 34 37 40 43 46 49 52
Frekuensi
2 4 6 8 11 14 15 11 7 4 5 2 1 n=90
Fungsi Frekuensi Kumulatif Fungsi frekuensi kumulatif dinotasikan dengan F dan frekuensi dengan f . Fungsi frekuensi f pada titik 𝑥 = 𝑎 , dituliskan 𝑓 𝑎 , ialah jumlah berapa kali 𝑥 = 𝑎muncul . Dari Tabel di atas 𝑓 22 = 6 dan 𝑓 31 = 14 ( kedua nilai x, yaitu 22 dan 31 adalah titik tengah kelas ) . Nilai fungsi frekuensi kumulatif pada titik a , dituliskan 𝐹 𝑎 , didefinisikan sebagai jumlah pengamatan yang lebih kecil atau sama dengan a . Jadi diperoleh ,
29
𝐹 22 = 𝑓 16 + 𝑓 19 + 𝑓 22 = 2 + 4 + 6 = 12 dan 𝐹 31 = 𝐹 22 + 𝑓 25 + 𝑓 28 + 𝑓 31
= 12 + 8 + 11 + 14 = 45
Jadi , 𝐹 52 = 90 . Kadangkala digunakan fungsi frekuensi relatifdan fungsi frekuensi kumulatif relatif. Keduanya diperoleh Dri frekuensi kumulatif mutlak : Titk tengah x
16 19 22 25 28 31 34 37 40 43 46 49 52
Frekuensi f
2 4 6 8 11 14 15 11 7 4 5 2 1
Frekuensi Relatif frel
Frekuensi Kumulatif F
0.02 0.04 0.07 0.09 0.12 0.16 0.17 0.12 0.08 0.04 0.06 0.02 0.01
2 6 12 20 31 45 60 71 78 82 87 89 90
Frekuensi kumulatif
Frel 0.02 0.07 0.13 0.22 0.34 0.50 0.67 0.79 0.87 0.91 0.97 0.99 1
1
n = 90
Jika n jumlah seluruh pengamatan, maka 1
1
𝑛
𝑛
𝑓𝑟𝑒𝑙 = 𝑓 𝑑𝑎𝑛 𝐹𝑟𝑒𝑙 = 𝐹 . Jadi 𝐹𝑟𝑒𝑙 mempunyai kisaran nilai dari 0 s/d 1. 2.2 Grafik Grafik memberikan bahan-bahan angka lebih baik dan cepat . Grafik yang sering histogram, polygon frekuensi .
30
Histogram .Histogram digambar di atas setiap kelas dengan luas sebanding frekuensi kelas tersebut
0.2
0.15
0.1
x pendapatan tahunan dalam Rp 10.000
0.05
20
10
30
40
50
60
Polygon Frekuensi Cara menggambarnya G G G G
:
Ambil lebar kelas sama Di atas tiap titik tengah kelas dicantumkan satu titik dengan tinggi yang sesuai dengan frekuensi kelasnya . Titik-titik tersebut dihubungkan oleh garis lurus yang membentuk polygon; Sebelum kelas pertama dan setelah kelas terakhir dibubuhkan kelas dengan frekuensi 0, sehingga polygon dimulai dan diakhiri pada sumbu horizontal (sumbu X) .
31
15
10
5
x pendapatan tahunan dalam Rp 10.000
10
20
30
40
50
60
Polygon Frekuensi Kumulatif
Nilai-nilai pada fungsi frekuensi kumulatif tidak diletakkan pada titiktengah kelas , melainkan pada batas kelas , sbb.: t
Pada batas bawah kelas pertama , frekuensi kumulatifnya bernilai 0 ; di bawah batas ini tak ada pengamatan ; t Pada batas atas kelas pertama ( batas bawah kelas kedua ), frekuensi kumulatifnya sama dengan banyaknya pengamatan dalam kelas pertama ( untuk frekuensi kumulatif relatif, nilai frekuensi kumulatif ini adalah banyaknya pengamatan dibagi dibagi dengan n ) t ………………. t Pada batas atas kelas terakhir , frekuensi kumulatifnya sama dengan n (atau 1 untuk frekuensi kumulatif relatif ), karena di bawah batas ini terdapat semua pengamatan .
F 1
32 n = 90
Fraktil ( Fractile atau Quartile ) Arti dari frekuensi kumulatif relatif adalah
𝐹 𝑎 =
:
𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑝𝑒𝑛𝑔𝑎𝑚𝑎𝑡𝑎𝑛 𝑦𝑎𝑛𝑔 𝑙𝑒𝑏𝑖 𝑘𝑒𝑐𝑖𝑙 𝑎𝑡𝑎𝑢 𝑠𝑎𝑚𝑎 𝑑𝑒𝑛𝑔𝑎𝑛 a 𝑛
Untuk 0 < 𝑞 < 1 , maka fraktilq , dilambangkan dengan 𝑥𝑞 , bagi fungsi frekuensi kumulatif F didefinisikan sebagai 𝐹 𝑥𝑞 = 𝑞 . Jadi , fraktilq , atau 𝑥𝑞 , ialah titik pada sumbupengamatan sedemikian sehingga
𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑝𝑒𝑛𝑔𝑎𝑚𝑎𝑡𝑎𝑛
𝑥 𝑦𝑎𝑛𝑔 𝑙𝑒𝑏𝑖 𝑘𝑒𝑐𝑖𝑙 𝑎𝑡𝑎𝑢 𝑠𝑎𝑚𝑎 𝑑𝑒𝑛𝑔𝑎𝑛 x q 𝑛
=𝑞
𝐹𝑟𝑒𝑙 1
q 0.75
𝐹 𝑥𝑞
33
𝑥0.5 = 32.5 ; 𝑥0.67 = 35.5 ; 𝑑𝑎𝑛 𝑥0.99 = 50.5 Konsep “ fraktil” sering digunakan di dalam fungsi probabilitas .
frel 0.2 Luas dataran = q
0.1
x 20
Xq
40
60
Perbandingan Dua Distribusi Frekuensi Seringkali 2 distribusi frekuensi (atau 2 distribusi frekuensi kumulatif ) di bandingkan .
34
Contoh , distribusi umur akseptor KB di Kab.Tangerang . Dalam penelitian ini diperoleh data mengenai distribusi umur para akseptor KB di 12 klinik. Klinik tersebut dibagi secara geografik dalam 4 kelompok . Di sini ingin dibandingkan 2 kelompok, kelompok 1, klinik-klinik sepanjang pantai (Teluk Naga, Mauk, dan Kronjo) , dan kelompok 2 , klinik-klinik di kota Tangerang (Tangerang I, Tangerang II, RSU Tangerang, ABRI ) . Kelas Umur 14,15,16 17,18,19 20,21,22 23,24,25 26,27,28 29,30,31 32,33,34 35,36,37 38,39,40 41,42,43 44,45,46
Frekuensi mutlak Pantai 6 22 55 73 56 85 17 93 34 1 2
Kota T 0 37 101 125 123 130 77 88 45 16 9
444
751
Frekuensi relatif Pantai
Kota T
0.01 0.05 0.12 0.16 0.13 0.19 0.04 0.21 0.08 0 0.01 1
0 0.05 0.14 0.17 0.16 0.17 0.1 0.12 0.06 0.02 0.01 1
Frekuensi kumulatif relatif Pantai Kota T 0 0.01 0.05 0.06 0.05 0.19 0.18 0.35 0.35 0.48 0.51 0.67 0.69 0.71 0.79 0.92 0.91 0.99 0.97 1 0.99 1
- - - - - pantai _____ Tangerang
f 0.25
Distribusi frekuensi
35
Ingin diteliti seberapa jauh distribusi umur di daerah pantai berbeda dari distribusi umur di kota Tangerang . Di sini perbandingan distribusi frekuensi mutlak gak berfaedah secara lang sung ; harus dilihat dari frekuensi relatif . Dari gambar , nyatalah bahwa di aerah pantai secara relatif lebih banyak akseptor berumur 35 tahun atau lebih daripada di kota Tangerang . Nyata di kota Tangerang secara relatif lebih banyak akseptor berumur antara 20-28 daripada di pantai . Tapi jika dilihat dari Tabel , ini sangat sukar , jadi rafik sebagai sarana penya jian data . Perbedaan apakah yang nampak dari 2 kesimpulan ? Secara sosiologis menarik, relevan ( dan secara statistika nyata atau tidak ) ti dak didalami di sini .
Bagan Melingkar (circular chart )
36
Dari kutipan Indikator Sosial 1974 (BPS : 1975,62) , terdapat pola pengeluaran keluarga-keluarga di Jakarta (belanja pendapatan) tahun 1968 /1969 . Persentase dibulatkan : 1. 2. 3. 4.
Makanan Perumahan Pakaian Aneka barng dan jasa
: 54 % : 15 % :9% : 22 %
Dalam bagan nampak bagian relatif dari pendapatan .
Aneka barang dan jasa
makanan
pakaian perumahan
Piktogram Jenis diagram ini, tiap simbol (lambing) mewakili sejumlah orang, binatang, uang, rumah, dan sebagainya. Pertumbuhan penduduk Indonesia , yang dihitung ( 1961, 1971) dan yang ke mudian diramalkan pada tahun 1978 untuk tahun 1981, 1991, dan 2001 (BPS) , dilukis sbb.:
1961
37
1971
1981
1991
2001
≡ 10 juta orang
Grafik Deret Waktu (Time Series ) Deretwaktu ialah sajian deretan nilai sebuah peubah tertentu yang disusun menurut waktu dengan interval waktu tertentu . Angka –angka penduduk Indonesia di atas merupakan deret waktu . Grafik deret waktu dibentuk dengan menampilkan peubah pada jangka wakttu tertentu . Berikut ramalan pertumbuhan penduduk Indonesia tahun 1961 sampai dengan 1991 ( Nitisastro : 1970, 249) .
Tahun Jumlah pendud uk
196 1
196 6
197 1
197 6
198 1
198 6
199 1
97
108
119
132
149
171
198
38
dalam jutaan Partum buhan antar waktu dalam jutaan
200
1 1
1 1
1 3
1 7
2 2
2 7
Jumlah penduduk dalam jutaan
150
100
50
Tahun 1961
1971
1981
1991
Dari Tabel baris 3 , dan grafik , tampak nyata sifat tak linierdari gejala per tumbuhan : potomgan garis-garis tersebut tidaklah lurus menyambung, tetapi merupakan tanjakan yang semakin tajam .
Grafik Distribusi Frekuensi pada Tingkat Pengukuran Nominaldan Ordinal Jika peuah yang diukur Nominal dan Ordinal , maka histogram atau polygonfrekuensi bukan penggambaran yang baik .
39
Dalam histogram ada assumsi bahwa frekuensi kelas terbagi secara seragam atau terbagi rata pada keseluruhan interval . Dalam kasus di mana sebuah peubah diukur pada skala nominal , tidak aka nada sebuah interval , misalnya peubah “agama” dapat mempunyai nilai – nilai “Islam”, “Hindu”, dan “ dll.” Dalam kasus demikian , lebih baiklah nilai diletakkan pada sumbu horizontal dan mendirikan garis-garis vertikal di atas tiap nilai tersebut. Demikianlah terbentuk bagan garis (line chart) .
f 150
100
50
I
H
K
L
Untuk alasan didaktik , di sini dipakai histogram sebagai penggambaran grafik untuk semua peubah yang diukur pada tingkat interval dan rasio , termasuk peubah-peubah diskrit . Untuk peubah-peubah nominal dan ordinal sejauh mungkin akan dipakai bagan garis ; di buku lain digunakan histogram .
3.2
Ukuran Pemusatan dan Ukuran Penyebaran
Sebuah ukuran merupakan besaran atau fungsi yang nilainya dihitung atas dasar nilai unsur-unsur di dalam populasi atau sampel . Ada 2 jenis ukuran yang penting :
40
(a) Ukuran yang menunjukkan tempat atau letakdistribusifrekuensi : Apakah distribusi yang satu berada di sebelah kiri atau di sebelah kanan distribusi yang lain . Ukuran ini disebut pemusatan (central tendency) . (b) Ukuran yang menunjukkan penyebaran atau disperse distribusi frekuensi : distribusi yang satu lebih lebar daripada distribusi yang lain , disebut penyebaran (disperse).
50
Pemusatan
100
penyebaran
Ukuran pemusatan dan penyebaran terutama penting dalam pembandingan 2 distribusi atau lebih . Dalam contoh di atas , ukuran pemusatan dinyatakan sbb. : Letak distribusi frekuensi untuk daerah pantai berada agak di sebelah kanan distribusi frekuensi kota Tangerang .
41
Ukuran pemusatan di antaranya : rerata hitung , modus , dan median . Ukuran penyebaran paling sering adalah simpangan baku dan simpangan kuartil .
Ukuran Pemusatan (a) Rerata Hitung ( arithmetic mean ) Rerata hitung n bilangan adalah jumlah semua bilangan tersebut dibagi n. Rerata hitung n bilangan 𝑥1 , 𝑥2 , … , 𝑥𝑛 dinyatakan dengan lambing 𝑥 . Menurut definisi
𝑥=
𝑥 1 +𝑥 2 +𝑥 3 +⋯+𝑥 𝑛 𝑛
1
𝑛 𝑖=1 𝑥𝑖
=𝑛
Jika banyaknya anak dalam 9 keluarga berurut-urut adalah 2,2,5,5,7,7,7,8, 𝑑𝑎𝑛 11, maka rerata hitung banyaknya anak per keluarga adalah : 𝑥=
1 9
2 + 2 + 5 + 5 + 7 + 7 + 7 + 8 + 11 = 6
Jika pengamatan-pengamatan nya telah diringkaskan dalam bentuk sebuah tabel frekuensi yang telah dikelompokkan , dengan kelas ke-i mempunyai titik-tengah kelas ( atau nilai kelas) 𝑥𝑖 dan frekuensi sebesar 𝑓𝑖 , maka rerata hitung dituliskan sbb. : 1
𝑥=𝑛
𝑖=1 𝑓𝑖 𝑥𝑖
, 𝑑𝑒𝑛𝑔𝑎𝑛 𝑛 =
𝑖=1 𝑓𝑖
Di sini , h adalah banyaknya kelas dalam sebuah tabel frekuensidata yang dikelompokkan . Dalam contoh di atas , tabel distribusi frekuensi yang dikelompokkan nya sbb . :
Banyak anak
2
3
4
5
6
7
8
9
10
11
42
per keluar ga (xi) : Freku ensi (fi) :
2
0
0
2
0
3
1
0
0
1
Dengan demikian rerata hitung nya : 𝑥=
1 9
2 2 + 2 5 + 3 7 + 1 8 + 1 11
=6
Rerata hitung mempunyai arti yang sejajar dengan pengertian pusat gaya berat dalam ilmu alam . Ketelitian 𝑥 biasanya dinyatakan dalam satu angka lebih banyak daripada jumlah semua data asalnya .
(b) Median Median n pengamatan adalah pengamatan yang paling tengah setelah semua pengamatan itu diurutkan menurut besarnya. Dalam kasus banyaknya pengamatan genap , tak ada pengamatan paling tengah , maka diambil median rerata dari pengamatan ke- ½ n dan pengamatan yang ke –( ½ n + 1) . Dalam contoh di atas dengan 9 keluarga dan masing-masing anaknya : 2,2,5,5,7,7,7,8, 𝑑𝑎𝑛 11 , median nya ditulis Me , yaitu pengamatan ke-5 , yaitu 𝑀𝑒 = 7 ( 𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑎𝑛𝑎𝑘 ) . Jika dalam 10 keluarga banyak anak masing-masing adalah 2,13,12,2,7,11,3,8,5, 𝑑𝑎𝑛 8 maka median nya adalah :
𝑀𝑒 =
1 2
1 2
7+8 =7 .
Untuk data yang telah disajikan dalam bentuk daftar frekuensi yang dikelompokkan , median didefinisikan sebagai titik pada sumbu pengamatan yang di bawahnya terletak separuh dari keseluruhan pengamatan .
43
Jadi , median adalah fraktil 0.5 dari fungsi frekuensi kumulatif : 𝑥0.5 . Pada contoh di atas 𝑀𝑒 = 𝑥0.5 = 32.5 . Untuk menghitung fungsi frekuensi kumukatif , kadangkala harus diadakan interpolasi . Untuk perhitungan fraktil𝑥0.75 dalam distribusi yang disajikan di atas , interpolasi nya demikian :
F C’
0.79
C
0.75
0.67
B
A
B’ X
𝑥0.75
35.5
𝑥0.67
38.5
𝑥0.79
Karena∆𝐴𝐵𝐶 dan ∆𝐴𝐵′𝐶′ sebangun, maka 𝐴𝐵: 𝐴𝐵′ = 𝐵𝐶: 𝐵′𝐶′ , sehinga
∆𝐴𝐵𝐶 =
0.08 0.12
.3 = 2 .
Dengan demikian 𝑥0.75=35.5 + 𝐴𝐵 = 37.5 . (c) Modus atau Kelas Modal Modus sejumlah pengamatan adalah pengamatan berfrekuensi terbesar. Pada distribusi frekuensi pengamatan-pengamatan yang dikelompok kan ( dengan lebar kelas konstan) , kelas yang mempunyai frekuensi terbesar dinamakan kelas modul .
44
Seringkali kelas modal ini disingkat : modus . Jadi , untuk kurva sebuah distribusi frekuensi yang berpuncak satu dan tidak terlalu taksimetrik , berlaku kurang labih hubungan antara ketiga ukuran pemusatan sbb. : 𝑥 − 𝑀𝑜 = 3 𝑥 − 𝑀𝑒
Pemakaian Ukuran Pemusatan Pilihan jenis ukuran yang dipakai untuk mengukur pemusatan mencari sifat sebuah distribusi frekuensi tergantung beberapa faktor. Jika pengamatan tidak banyak, modus sangat tergantung pada fluktuasi acak. Modus jarang digunakan. Jika distribusi frekuensi berpuncak satu dan bersifat kira-kira simetrik , rerata hitung ukuran terbaik . di sini peubah diukur pada tingkat interval ataurasio . Jika distribusi frekuensi berbentuk sangat miring , mengandung pengamat an sangat besar atau sangat kecil disbanding pengamatan lainnya , median lebih baik dari rerata hitung .
Berpuncak dua
Berpuncak satu
45 𝑥 = 𝑀𝑜 = 𝑀𝑒 Simetrik
𝑀𝑜
𝑀𝑒
𝑥
Pengamatan sangat besar
Contoh Di pedesaan, agar keluarga tani dapat mencukupi kebutuhan minimal mereka , produksi beras setiap petani harus berjumlah paling sedikit kira-kira 1000 kg . Misalkan pada tahun tertentu , 11 petani di desa masing-masing menghasilkan panen padi dalkam kg sbb. : 800,2800,600,5000,700,1200,600,500,900,500,700 .
Reratahitung panen padi pada tahun tersebut adalah 1300 kg dan median panen padi 700 kg . Dalam kasus sederhana ini , sangat tidak tepat jika hanya dikatakan bah wa rerata panen padi adalah 1300 kg , dan karenanya berada di atas minimum kebutuhan hidup . Ini disebabkan hanya 3 di antara 11 petani itu berada pada tingkat bilangan yang sangat mencolok , yaitu 2800 dan 5000 , yang jauh melebihi bilangan lain, ukuran pemusatan dapat dinyatakan lebih baik oleh median . Informasi lain mengenai bentuk distribusi ditambahkan.
Ukuran Pemusatan
Daerah pantai
Kota Tangerang
Rerata Median Modus
29.4 tahun 29.4 tahun 36.5 tahun
29.2 tahun 28.9 tahun 30.5 tahun
Berdasarkan Tabel, , distribusi ðaerah pantai sedikit sebelah kanan distribusi “kota Tangerang .
Ukuran Penyebaran
46
Dua distribusi bisa mempunyai ukuran disperse atau penyebaran berbeda, sekalipun reratanya sama . Misalnya 2 distribusi frekuensi berpuncak satu dan simetrik mempunyai rerata sama, tetapi penyebaran berbeda .
I Perbandingan lebar 2 distribusi
H
Pengamatan-pengamatan kelompok I bersifat lebih homogen , lebih dekat satu sama lain daripada kelompok II . Berikut ukuran penyebaran untuk membandingkan 2 atau lebih distribusi frekuensi .
(a) Jangkauan Ukuran penyebaran sangat sederhana dan kasar . Jangkauan ialah selisih antara pengamatan terbesar dann terkecil . Jarang digunakan. (b) Rerata Penyebaran Makin banyak pengamatan menyimpang dari pusat distribusi , makin besar nilai ukura penyebaran . Bagi tiap pengamatan ditentukan jarak antara pengamatan dari rerata . Rerata jarak-jarak tersebut disebut rerata penyebaran . Jarak sama atau lebih besar dari 0 : 𝑥4 = 7
𝑥2 = 9
𝑥 = 12
𝑥5 = 15
𝑥1 = 17
47
Rerata distribusi 𝑥 = 12. Diperoleh : 𝑥1 − 𝑥 = 17 − 12 = 5 ; 𝑗𝑎𝑟𝑎𝑘 𝑥1 𝑠𝑎𝑚𝑝𝑎𝑖 𝑥 𝑎𝑑𝑎𝑙𝑎 𝑥1 − 𝑥 = 5
dan 𝑥4 − 𝑥 = 7 − 12 = −5 ; 𝑗𝑎𝑟𝑎𝑘 𝑥4 𝑠𝑎𝑚𝑝𝑎𝑖 𝑥 𝑎𝑑𝑎𝑙𝑎 𝑥4 − 𝑥 = 5
di mana 𝑎 =
𝑎 𝑗𝑖𝑘𝑎 𝑎 ≥ 0 −𝑎 𝑗𝑖𝑘𝑎 𝑎 < 0
Jika 𝑥4 𝑑𝑎𝑛 𝑥1 terletak sama jauhnya dari 𝑥 ; 𝑥2 𝑑𝑎𝑛 𝑥5 sama jauhnya dari 𝑥 . Jika ada n pengamatan 𝑥1 , 𝑥2 , … , 𝑥𝑛 , dengan rerata𝑥 : 𝑟𝑒𝑟𝑎𝑡𝑎 𝑝𝑒𝑛𝑦𝑒𝑏𝑎𝑟𝑎𝑛 =
1 𝑛
𝑛 𝑖=1
𝑥𝑖 − 𝑥
Tanda harga mutlak jarang digunakan. Untuk pengamatan 2,2,5,5,7,7,7,8,11 , reratanya 𝑥 = 6 , sehingga rerata penyebaran nya : 𝑟𝑒𝑟𝑎𝑡𝑎 𝑝𝑒𝑛𝑦𝑒𝑏𝑎𝑟𝑎𝑛 =
1 9
4+4+1+1+1+1+1+2+5 =
20 9
(c) Simpangan Baku Nilai 𝑥𝑖 − 𝑥 , negatif jika 𝑥𝑖 < 𝑥 . 𝑥𝑖 − 𝑥 2 selalu positif . Ukuran penyebaran yang menyebar sekitar rerataberbentuk : 1 𝑛
𝑛 𝑖=1
𝑥𝑖 − 𝑥
2
Untuk ini, semakin jauh letak sebuah pengamatan dari 𝑥, makin besar nilai fungsi tersebut .
48
Jika bentuk di atas diakarkan diperoleh 1 𝑛
𝑛 𝑖=1
:
𝑥𝑖 − 𝑥
2
Bentuk ini disebut simpangan baku . Simpangan baku di atas ditulis sedikit berbeda : 𝑠=
1 𝑛−1
𝑛 𝑖=1
𝑥𝑖 − 𝑥
2
Bentuk kedua simpangan baku tersebut berbeda pada n dan 𝑛 − 1 . Jika n besar, maka perbedaan itu hilang . Nilai 𝑛 − 1 disebut banyaknya derajat bebas (degrees of freedom ) untuk simpangan baku . Dalam menghitung s , ukuran 𝑥digunakan . Jika 𝑥dan s dihitung dari pe ngamatan 𝑥1 , 𝑥2 , … , 𝑥𝑛 . Jika 𝑥sudah tetap , tak berubah-ubah , maka 𝑛 − 1 pengamatan “dapat dipilih secara bebas”. Sebuah ilustrasi , diketahui rerata 3 bilangan sama dengan 15.; bilangan per tama 11 dan yang lain 16 . Maka bilangan ketiga harus 18 . Kalok bilangan pertama 7 , yang lain 25 , tentu yang ketiga 13. Di sini hanya 2 bilangan dipilih bebas , ini berarti banyaknya derajat bebas untuk s sama dengan v = 2 . Simpangan baku di atas , pembaginya 𝑛 − 1 . Jika s dihitung dari sampel acak sederhana , maka kuadrat simpangan bakumerupakan penduga tak bias (unbiased estimator ) untuk simpangan baku populasi. Jika pengamatan makin jauh satu sama lain, atau makin menyebar, maka nilai s makin besar . Kuadrat dari simpangan baku disebut variansi .
𝑠2 =
1 𝑛−1
𝑛 𝑖=1
𝑥𝑖 − 𝑥
2
Untuk pengamatan-pengamatan dikelompokkan dalam tabel frekuensi , dengan titik tengah 𝑥𝑖 berfrekuensi 𝑓𝑖 , maka smpangan baku didefinisikan sbb. :
49
𝑠=
1 𝑛−1
𝑖=1 𝑓𝑖
2
𝑥𝑖 − 𝑥
h adalah banyak kelas . Misalkan 9 pengamatan , 2,2,5,5,7,7,7,8,11 , di mana reratanya 6 . 𝑠=
=
1 8
66 8
−4
2
+ −4
2
+ −1
2
+ −1
2
+ 1 2 + 12 + 22 + 52
= 2.9 .
Misalkan sebuah tabel frekuensi untuk pengamatan yang dikelompokkan sbb. :
𝒙𝒊
𝒇𝒊
𝒇𝒊 . 𝒙𝒊
𝒙𝒊 − 𝒙
𝒙𝒊 − 𝒙
3 6 9 12 15 18 21 24
1 3 2 9 8 5 6 3
3 18 18 108 120 90 126 72
-12 -9 -6 -3 0 3 6 9
144 81 36 9 0 9 36 81
n=37
555 Jadi , 𝒙 =
Dengan demikian 𝑠 =
1 36
𝟐
𝒇𝒊 𝒙𝒊 −𝒙 𝟐 144 243 72 81 0 45 216 243 1044
𝟓𝟓𝟓 𝟑𝟕
= 𝟏𝟓
× 1044 = 5.4
. Jika distribusi frekuensi nya kurang lebih simetrik dan berpuncak satu , maka hamper semua pengamatannya terletak dalam interval 𝑥 − 3𝑠, 𝑥 + 3𝑠 . Dengan demikian , jangkauannya hamper sama dengan 6𝑠 .
50
Ini khususnya berlaku untuk distribusi empirik yang mirip dengan distribusi probabilitasnormal . Untuk distribusi normal , hanya ¼ % dari seluruh pengamatan terletak di luar interval ±3𝑠 sekitar rerata hitung . Sifat tersebut dapat digunakan untuk menduga besarnya simpangan baku . Untuk setiap distribusi, setidaknya 89% dari seluruh pengamatan nya terletak dalam 𝑥 − 3𝑠, 𝑥 + 3𝑠 .
~6𝑠
(d) Simpangan Kuartil (semi –inter kuartile range) Simpangankuartil menggunakan fraktil𝑥0.75 dan fraktil𝑥0.25 dari fungsi frekuensi kumulatif : 𝐾=
1 2
𝑥0.75 − 𝑥0.25
Simpangan kuartil juga ditulis : 𝐾=
1 2
𝑥0.75 − 𝑥0.5 + 𝑥0.5 − 𝑥0.25
di sini 𝑥0.5 = 𝑀𝑒 .
1
F
51
0.5
K = ½ x jarak
Jadi, simpangan kuartil mengukur penyebaran pengamatan di sekitar median. Simpangan baku , sebaliknya ,mengukur penyebaran di sekitar rerata . Untuk distribusi frekuensi pendapatan di depan diperoleh 𝑥0.75 = 37.5 𝑑𝑎𝑛 𝑥0.25 = 27.3 sehingga 𝐾=
1 2
37.5 − 27.3 = 5.1 𝑝𝑢𝑙𝑢𝑎𝑛 𝑟𝑖𝑏𝑢 𝑟𝑢𝑝𝑖𝑎 .
Simpanganbaku dihitung : 𝑠 = 7.9 𝑝𝑢𝑙𝑢𝑎𝑛 𝑟𝑖𝑏𝑢 𝑟𝑢𝑝𝑖𝑎 . Simpangan baku dapat diduga secara kasar menggunakan 6𝑠 ≈ 𝑗𝑎𝑛𝑔𝑘𝑎𝑢𝑎𝑛 = 39 , 𝑗𝑎𝑑𝑖 𝑠 ≈ 6.5 . Nilai sebenarnya 𝑠 ≈ 7.9 > 𝑛𝑖𝑙𝑎𝑖 𝑎𝑚𝑝𝑖𝑟𝑎𝑛 6.5 .
Penggunaan Ukuran Penyebaran Dalam tiap definisi ukuran penyebaran digunakan jarak antara 2 pengamat an. Jadi, tiap ukuran penyebaran hanya dapat diterapkan jika peubahnya diukur pad skala interval dan rasio . Untuk peubah nominal digunakan “tingkat keseragaman” (uniformity) atau “tingkat ketidakkonsentrasian” . Jika peubah diukur pada skala interval, koeifisien tersebut dapat dianggap sebagai ukuran penyebaran .
52
Kehilangan Informasi Akibat Pengelompokkan Pengamatan Pengelompokan pengamatan dapat menghilangkan informasi , tapi penga ruh tidak begitu besar terhadap perhitungan ukuran pemusatan atau penyebaran . Perhatikan perbandingan berikut :
Data yang tak dikelompok kan 𝑥∶ 𝑠 ∶
Data yang dikelompokkan
32.4 7.84
32.6 7.91
Ukuran Lain untuk Distribusi Frekuensi Distribusi frekuensi dapt juga ditandai dari ukuran ketaksimetrisan (asymmetry ) dan ukuran derajat keruncingan kurva frekuensi (kurtosis) . Juga dapat diukur sejumllah momen (moment) bagi distribusi . Tapi dalam ilmu sosial , ukuran ini tak perlu ! !!
2.1
Distribusi Frekuensi berdimensi Berganda ; Tabel Silang
Tabel berikut data untuk 30 responden dicantumkan nilai-nilai untuk peubah kelamin ( 1 = lelaki , 2 = wanita ) , umur ( dalam tahun) dan pendi dikan sekolah ( 1 = gak pernah sekolah ; 2 = pernah waktu SD tapi sebentar ; 3 = tamat SD ) . Nomor responden ditulis pada kolom 1 dan 2 , peubah kelamin pada kolom 3 , peubah umur pada kolom 4,5 dan peubah pendidikan sekolah pada kolom 6 .
1
2
Kolom 3 4
5
6
1
2
Kolom 3 4
5
6
53
0 0 0 0 0 0 0 0 0 1 1 1 1 1 1
1 2 3 4 5 6 7 8 9 0 1 2 3 4 5
1 2 1 1 1 2 2 1 2 2 2 2 1 2 1
2 3 2 4 2 6 4 2 2 3 3 4 5 4 2
4 6 6 5 2 3 1 5 9 7 5 3 1 6 4
2 1 2 2 2 1 2 3 1 1 3 1 2 2 3
1 1 1 1 2 2 2 2 2 2 2 2 2 2 3
6 7 8 9 0 1 2 3 4 5 6 7 8 9 0
1 2 1 1 1 2 2 1 1 2 2 1 2 2 2
2 3 4 3 3 6 2 4 2 4 5 3 3 3 4
7 7 9 3 0 2 4 3 6 6 1 1 9 2 5
3 1 1 2 2 1 3 1 2 2 2 2 1 3 1
Misalkan ingin diketahui bagaiman hubungan antara peubah “umur” dan peubah “pendidikan sekolah” . Datanya diatur demikian :
.
Dalam tiap kotak dimasukkan frekuensi mengenai gabungan umur/ pen didikan sekolah . Dalam kotak di ujung kiri bawah , misalnya, akan didapatkan sejumlah responden yang berumur 31 tahun atau lebih dan yang tak berpendidikan Hasilnya , untuk data di atas , berupa sebuah tabel distribusi frekuensi ber dimensi 2 atau tabel silang (cross tabel ) berikut .
Jumlah semua frekuensi pada baris 1 menunjukkan banyaknya orang dalam sampel yang berumur 30 tahun atau lebih muda . : yaitu 10 , sedangkan jumlah semua frekuensi pada baris 2 menunjukkan banyaknya orang dalam sampelyang lebih tua dari 30 tahun, yaitu : 20 . Kolom akhir menunjukkan distribusi frekuensi peubah umur . Umur
30 tahun atau lebih muda
1
Pendidikan Sekolah 2
3
Distribusi Umur
1
5
4
10
54
Lebih tua dari 30 tahun Distribusi pendidikan sekolah
1
8
2
11
2
13
6
n = 21
Baris akhir menunjukkan distribusi frekuensi untuk peubah pendidikan sekolah . Distribusi ini disebut distribusi samping (marginal ). Dari Tabel yang berumur 30 tahun atau lebih muda (relatif) berpendidikan lebih tinggi dari yang lebih 30 tahun. Peubah kelamin dapat disertakan untuk membuat distribusi frekuensi berdimensi 3 . Tabelnya sbb. :
Umur ≤ 30 > 30
1 0 2 2
Lelaki (1) Pendidikan 2 5 4 9
3 3 0 3
8 6 14
1 1 8 9
Wanita (2) Pendidikan 2 3 0 1 4 2 4 3
2 14 16
Banyaknya responden terlampau kecil untuk dapat menarik kesimpulan. Namun dapat dilihat :
S Semua lelaki yang berumur 30 tahun atau lebih muda pernah mendapat pendidikan sekolah;
S Di antara lelaki yang berumur labih dari 30 tahun, sepertiganya S
tidak pernah sekolah karena miskin. Di antara perempuan yang berumur lebih 30 tahun, kira-kira 60% nya tidak pernah sekolah karena anak yatim .
Diagram Balok untuk Untuk Distribusi Frekuensi berdimensi 2 Di atas kotak pada distribusi berdimensi 2 ini ditempatkan sebuah balok yang volume nya sesuai dengan frekuensinya. Bentuk berdimensi 3 sbb. :
55
frekuensi
peubah 2
peubah 1
Dari sebuah distribusi frekuensi berdimensi , frekuensi dalam kotak pada baris ke-i dan kolom ke- j dilambangkan 𝑓𝑖𝑗 . Bentuk umum sebuah Tabel silang seperti di bawah . Jika semua kolom j dijumlahkan untuk i tertentu yang tetap , maka diperoleh : 𝑓𝑖. =
𝑘 𝑗 =1
𝑓𝑖𝑗 = 𝑓𝑖1 + 𝑓𝑖2 + ⋯ + 𝑓𝑖𝑗 + ⋯ + 𝑓𝑖𝑘
Di sini k banyak kelas untuk peubah 2 . 𝑓𝑖. adalah banyak responden pada kelas i dari peubah 1 . 𝑓.𝑗 =
𝑏 𝑖=1 𝑓𝑖𝑗
= 𝑓1𝑗 + 𝑓2𝑗 + ⋯ + 𝑓𝑏𝑗 ( b = banyak kelas peubah 1 ).
𝑓.𝑗 merupakan banyaknya responden yang terdapat pada kelas j untuk peubah 2 .
Peubah x
𝑦1
𝑦2
Peubah y … 𝑦𝑗
…
𝑦𝑘
𝑥1
𝑓11
𝑓11
…
…
𝑓1𝑘
𝑓1𝑗
Distri busi pinggir x 𝑓1.
56
𝑥2 𝑥3 . . 𝑥𝑖 . . 𝑥𝑏 Distri busi pinggir y
𝑓21 𝑓31 … … 𝑓𝑖1 … … 𝑓𝑏1 𝑓.1
𝑓22 𝑓32 … … 𝑓𝑖2 … … 𝑓𝑏2 𝑓.2
… … … … … … … … …
𝑓2𝑗 𝑓3𝑗 … … 𝑓𝑖𝑗 … … 𝑓𝑏𝑗 𝑓.𝑗
… … … … … … … … …
𝑓2𝑘 𝑓3𝑘 … … 𝑓𝑖𝑘 … … 𝑓𝑏𝑘 𝑓.𝑘
𝑓2. 𝑓3. . . 𝑓𝑖. . . 𝑓𝑏. 𝑛
Distribusi frekuensi berdimensi 1 untuk peubah 1 ( distribusi frekuensi pinggir dalam tabel silang : kolom akhir ) adalah :
Kelas peubah 1 : Frekuensi :
1
2
3
…
b
𝑓1.
𝑓2.
𝑓3.
…
𝑓𝑏.
1
2
3
…
k
𝑓.1
𝑓.2
𝑓.3
…
𝑓.𝑘
Untuk peubah 2 : baris akhir : Kelas peubah 2 : Frekuensi :
Sebuah ukuran yang didasarkan pada nilai 2 peubah bersamaan adalah kovariansi, untuk mengukur kuatnya hubungan antara 2 peubah .
2.5
Penggunaan dan Penyalahgunaan Statistika
DISRAELI , There are three kinds of lies : lies, damned lies, and Statistics . MICHAEL WHEELER ,survei-survei itu –dengan sengaja atau tanpa
57
sengaja –dibuat tidak begitu obyektif atau netral seperti yang sering dibayangkan orang.
BAB 3 PENARIKAN SAMPEL 3.1
Pengertian
Dalam sebuah sampel acak sederhana , setiap unsur populasi mempunyai probabilitas yang sama untuk ditarik ke dalam sampel . Sampel tak acak , sepertipurposive sample atau quota sample , tidak bisa digunakan untuk menarik kesimpulan atas dasar teori statistika tentang populasi . Sampel acak dibagi dalam 2 macam : (1) Sampel acak sederhana (2) Sampel terlapis (stratified sample) , sampel berkelompok (cluster sample), sampel sistematik (systematic sample) ,sampel bertahap (multistage sample) . Jika tak ada keterangan relevan yang lain mengenai unsur populasi , maka penarikan sampel acak sederhana paling baik . Jika keterangan tentang beberapa peubah yang relevan bagi penelitian. Keterangan tentang undur populasi ini bisa digunakan sebagai dasar untuk memilih teknik yang lebih tepat (efisien) untuk penarikan sampel. Sikap seorang pedagang dan yang bukan pedagang harus dibedakan. Selanjutnya dari tiap kelompok diambil sampel . Kedua sampel kemudian digabung membentuk sampel terlapis bagi populasi . Sampel terlapis lebih efisien dari sampel acak sederhana . Kalau di dalam rancangan penelitian nya peubah umur dianggap besaran yang paling penting untuk membedakan sikap orang , maka pelapisannya dibuat menurut kelas umur .
58
Kalau diasumsikan orang dari kampung berbeda dengan orang kota , maka pelapisan dilakukan menurut tempat tinggal di kampung atau di kota . Daftar administratif yang mencakup semua unsur populasi disebut kerangka (frame) untuk penarikan sampel . Selalu ada kekurangannya : (1) Daftar tidak lengkap, ada unsur tak terdaftar (2) Ada unsur terdaftar berulang-ulang (3) Mengandung unsur yang seharusnya tidak termasuk ke dalam populasi . Jika pada kerangka sampel terlalu besar , sampel acak tak bisa ditarik . Maka yang dlakukan penarikan sampel berkelompok (cluster) atau sampel bertahap . Berapa besar sampel harus diambil ? Tergantung banyak faktor ! Berapa anggaran penelitian, fasilitas anlisis seperti software , rancangan penelitiannya , variansi populasinya , dlsb.
Sensus dan Sensus Sampel , Survei dan Survei Sampel Sensus ialah penelitian dengan mendaftarkan seluruh populasi atau kelompok pada waktu tertentu ,dengan titik berat pencatatan atau pencacahan ciri tertentu dari populasi , misalnya sensus produksi, sensus lalin , susduk. Secara konvensional, dalam sensus setiap unsur dalam populasi diteliti. Sensus sampel adalah penelitian sebagian populasi menggunakan metode sensus . Sensus berkaitan dengan peubah “dasar” (nama,umur, kelamin, status kawin, pekerjaan dsb.) Sensus sampel meneliti peubah lebih dalam (tenaga kerja, migrasi, kesuburan /impotensi , mutu dan luas fasilitas rumah/ kumpul kerbo , dlsb.) Peubah “dasar” diukur pada setiap unsur populasi , peubah lain dari sampel , 5% atau !0% populasi . Sensus tek lengkap hanya meneliti sebagian peubah . Survei penelitian lebih dalam dari sensus . Survei sampel penelitian terhadap sebagian populasi .
Ruang Sampel
59
Ialah daftar semua kemungkinan sampel yang bisa diterik dari populasi . Contoh : 2 unsur diambil tanpa pemulihan dari populasi𝑎, 𝑏, 𝑐, 𝑑, 𝑑𝑎𝑛, 𝑒 , tanpa mengembalikan lagi ke populasi semula. Maka ruang sampel nya : 𝑎, 𝑏 , 𝑎, 𝑐 , 𝑎, 𝑑 , 𝑎, 𝑒 𝑏, 𝑐 , 𝑏, 𝑑 𝑏, 𝑒 , 𝑐, 𝑑 , 𝑐, 𝑒 , 𝑑, 𝑒 Jadi ada 10sampel. Kalok 4 unsur ditarik dari 𝑎, 𝑏, 𝑐, 𝑑, 𝑒 tanpa pemulihan , bisa aja kayak gini 𝑎, 𝑏, 𝑐, 𝑑 , 𝑎, 𝑏, 𝑐, 𝑒 , 𝑎, 𝑏, 𝑑, 𝑒 , 𝑎, 𝑐, 𝑑, 𝑒 , 𝑏, 𝑐, 𝑑, 𝑒 Ada 5 sampel . Sering dibedakan antara 𝑎, 𝑏 𝑑𝑎𝑛 𝑏, 𝑎 . Jadi sampel ditentukan dengan memperhatikan urutan penarikannya , maka sampelnya jadi 2 kali lipat atau 20 sampel. Dalam penelitian hanya 1 sampel saja yang diteliti .
3.2
Sampel Acak Sederhana
Tabel Angka Acak Prusedur undian dalam sampel acak sederhana , paling baik menggunakan angka acak , yang berisi angka 0 s/d 9 . Daftarnya berisi angka –angka diambil acak sederhana dengan pemulihan . Misalnya ingi ditarik sampel acak dengan 8 unsur dari 8134 unsur , yang dinomori 1 s/d 8134. Disediakan 10 tabel angka acak 50 baris x 50 kolom se perti Lampiran 3 . Missal pada Tabel 3 “ditusuk” sebuah angka sembarangan dan kemudian , dari kiri ke kanan ( bisa loncat ke baris berikutnya) , dapat dibaca sebuah bilangan 5 angka. Misalnya 70205 . Berarti penarikan unsur sampel dimulai pada Tabel 7 , dengan baris 02 dan kolom 05 : 7 – 02 – 05 . Pada titi ini , dari kiri ke kanan angka-angkanya dibagi dalam kelompok 4 angka .
60
Bilangan 4 angka yang diperoleh dengan cara , yang mengandung salah satu dari 0001, 0002, … , 8134, menunjukkan nomor unsur yang terambil di dalam sampel . Dengan contoh ini diperoleh 9506,7544,8196,7818, … Bilangan 1 dan 3 diabaikan : no ini gak ada di populasi . Unsur 7544 termasuk sampel , dst. Assumsi tanpa pemulihan, bilangan yang 2 kali nongol diabaikan. Pembagian bilangan 4 angka ini bisa dari kanan ke kiri atau dari atas ke bawah , atau pakelah prosedur lain . Ini bisa jugak pakek computer !
3.3
Sampel Acak lain
(a) Sampel Terlapis Populasi dibagi beberapa lapisan , subpopulasiatau stratum . Dari tiap lapisan selanjutnya ditarik sebuah sampel acak . Populasi ; N
Lapisan 1 Besar N1
Lapisan 2 besar N2
… …
Lapisan L besar NL
… Sampel bagian 1 (acak) Besar n1
Sampel bagian 2 (acak) besar n2
Sampel …bagian L (acak) besar nL
Populasi 𝑁 = 𝑁1 + 𝑁2 + ⋯ + 𝑁𝐿 unsur dan sampel terlapisnya 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝐿 unsur . Di sini , dari lapisan ke-j ditarik sampel acak berisi 𝑛𝑗 unsur 𝑗 = 1,2, … , 𝐿 . Lapisan dibuat berdasarkankriterium pokok yang relevan untuk tujuan analisis atau untuk meningkatkan keefisienan pendugaan, misalnya (1) jenis
61
kelamin, (2) kelompok umur, (3) propinsi , (4)kelas pendapatan, (5) jenis pekerjaan, (6) perusahaan , menurut besar usaha, (7) suku bangsa . Ini digunakan untuk membedakan beberapa kelompok yang dianggap relevan , sesuai rancangannya . Contoh fasilitas transport , misalnya dibandingkan sikap pedagang dan yang bukan . Biasanya sampel terlapis lebih efisien dari sampel acak sederhana . Kelompok harus homogen relatif terhadap peubah yang diteliti . Alasan lain, kerangka sampel sudah dibagi ke dalam subkerangka terlapis . Mobil sekabupaten , merupakan sebuah stratum . Metode memilih distribusi besar sampel dari tiap lapisan , yaitu pilihan 𝑛1 , 𝑛2 , … , 𝑛𝐿 dengan syarat 𝑛1 + 𝑛2 + ⋯ + 𝑛𝐿 = 𝑛 . Alokasi optimum dari 𝑛1 𝑠/𝑑 𝑛𝐿 tegantung simpangan baku dalam lapisan 𝑗 , besarnya lapisan j , 𝑁𝑗 , dan cost penarikan satu unsur dalam lapisan tersebut 𝑐𝑗 . Besarnya sampel dari lapisan j , 𝑛𝑗 , akan naik jika 𝑠𝑗 naik , jika 𝑁𝑗 naik, dan 𝑐𝑗 turun . Untuk alokasi sebanding (proporsional) berlaku : 𝑛1 𝑁1
𝑛
𝑛
𝑛
= 𝑁2 = ⋯ 𝑁𝐿 = 𝑁 2
𝐿
Jadi , dari tiap lapisan ditarik persentase unsur yang sama . Dalam penelitian sosial , sangat rumit, peubahnya sangat banyak dan tidak diukur pada skala interval atau skala rasio. Jika beberapa peubah diteliti sekaligus , umumnya alokasi optimumyang didasarkan pada peubah 1 bukan alokasi optimum untukmpeubah 1. Metode untuk itu hanya untuk peubah yang diukur pada skala interval atau skala rasio . Akibatnya , sosiolog terpaksa memilih 𝑛1 , 𝑛2 , … , 𝑛𝐿 agak intuitif . Dengan mengambil cukup banyak unsur dari tiap lapisan yang hendak dibandingkan . Jika populasi nya dibagi 2 lapisan , alokasi 𝑛1 = 5 dan 𝑛2 = 195 kurang jika dibandingkan dengan alokasi 𝑛1 = 75 dan 𝑛2 = 125, berapun 𝑁1 𝑑𝑎𝑛 𝑁2 𝑑𝑖 dalam populasinya .
62
Untuk sampel terlapis , penghitungan pendugaan rerata populasi tidak mudah . Misalkan sebuah sampel acak terlapis ditarik dari populasi dengan 2 lapisan . Misalkan lapisan pertama terdiri dari 𝑁1 unsur dan lapisan kedua terdiri dari 𝑁2 unsur. Misalnya rerata lapisannya 𝑥1 𝑑𝑎𝑛 𝑥2 . Dengan demikian , pendugaan rerata populasi dihitung :
𝑥𝑡𝑒𝑟𝑙𝑎𝑝𝑖𝑠 =
𝑁1 𝑥 1 +𝑁2 𝑥 2 𝑁1 +𝑁2
Umumnya penduga ini gak sma dengan rerata sampel , 𝑥 ∶
𝑥=
𝑛 1 𝑥 1 +𝑛 2 𝑥 2 𝑛 1 +𝑛 2
Tetapi, jika sampel acaka nya sebandingartinya: 𝑛1 𝑁1
Dan
𝑛
= 𝑁2
2
𝑥 = 𝑥𝑡𝑒𝑟𝑙𝑎𝑝𝑖𝑠 .
(b) Sampel Berkelompok Misalkan populasi yang diteliti dibagi dalam K kelompok yang saling lepas ( mutually exclusive) . Dari K kelompok ditarik sampel acak berisi k kelompok . Unsur-unsur k kelompok membentuk sampel acak berkelompok . Jadi, unsur-unsur tidak ditarik satu-persatu , melainkan kelompok per kelompok . Penarikan bisa secara acak sederhana , atau dengan probabilitas yang sebanding dengan besar kelompok masing-masing . Pembagian dalam kelompok-kelompok : (a) Populasi : anak-anak kelas III SD di Indonesia
63
Kelompok : kelas-kelas III SD di Indonesia (b) Populasi : penduduk Indonesia tahun 1978 Kelompok : keluarga-keluarga di Indonesia tahun 1978 . (c) Populasi : petani-petani disebuah daerah . Kelompok : peta daerah dibagi dalam petak-petak persegi panjang (grid) ; pada tiap petak terletak sejumlah daerah pertania , petani pemiliknya membentuk sebuah kelompok .
Banyak unsur sebuah kelompok tidak diketahui sebelum penarikan dan tidak sama untuk tiap kelompok. Dalam contoh pertama, banyak anak tidak sama di tiap kelas III SD dan daftar nama anak sebuah kelas umumnya diperoleh di sekolah bersangkutan . sebuah sampel acak sederhana terdiri 600 rumah yang mewakili populasi rumah di sebuah kota lebih baik daripada sampel acak berkelompok 20 blok yang masing-masing terdiri 30 rumah . Tapi gak mungkin menarik sampel rumah di sebuah kota , karena biaya dan waktu . Dalam sampel berkelompok, hubungan antara unsur-unsur dalam satu kelompok harus diperhatikan . Biasanya rumah di satu jalan bersifat sejenis : semua rumah besar , atau semua kerdil , atau semua sedang. Sikap terhadap sesuatu homogen, usahakan tidak homogen dengan membagi dalam kelompok-kelompok . Sampel berkelompokmyang berisi kelompok lebih kecil lebih baik . Kelompok buta huruf, pengangguran di sebuah lingkungan akan mempunyai sikap sama dan status sama yaitu pemalas , dan kumpul kerbo. Hubungan antara unsur-unsur di dalam kelompok yang sama diukur dengan koeifisien korelasi dalam kelompok , asal peubah diukur pada skala interval atau rasiom. Jika koeifisien korelasi dalam kelompok positif , artinya kelompok lebih homogen dari populasi nya , sebaliknya jika negatif. (c) Sampel Sistematik Sebuah bentu lain dari sampel acak berkelompok ialah sampel sistematik .
64
Adalah sebuah bentuk khusus di mana satu kelompok dipilih secara acak sederhana dari sejumlah K kelompok yang menyusun populasi . Misalkan orang ingin menarik sebuah sampelsistematik berisi 10 unsur dari dari populasi 1000 unsur . Nomor urut masing-masing dikumpulkan ke dalam 100 kelompok yang berisi 10 unsur . Kel.1 1 101 201 ⋮ 901
Kel.2 2 102 202 ⋮ 902
…
Kel.3 3 103 203 ⋮ 903
Kel.100 100 200 300 ⋮ 1000
Dari 100 kelompok ditarik 1 kelompok acak sederhana . Jika sampel sistematik ditarik dari seperangkat kartu , berarti kartu 1 ditarik acak sederhana dari 100 kartu pertama . Jika kartu 1 adalak kartu ke- n , maka nomor-nomor unsur yang ada dalam sampel adalah : 𝑛 + 100, 𝑛 + 200, 𝑛 + 300, … , 𝑛 + 900 Biasanya sampel sistematik merupakan pendekatan yang cukup baik, pendugaan dan keefisienan nya sama cermat dengan sampel acak sederhana . Khususnya jika kartu disusun dengan urutan acak (randomization of order ) sebelum penarikan sampel sistematik . (d) Sampel Bertahap Sampel ini ditarik bertahap . Pertama populasi dibagi menjadi berapa lapisan. Selanjutnya sejumlah lapisan dipilih ( tahap I ) . Tiap lapisan terpilih dibagi lagi dalam berapa kelompok. Dari tiap lapisan pada tahap I , dipilih lagi sejumlah kelompok (tahap II ). Dst. Angka yang dilingkarimenunjukkan yang terpilih sebagai sampel .
Lapisan (tahap 1)
I
II
III
IV
V
65
Kelompok : (tahap 2)
Unsur : a b c d (tahap 3)
1 2 3
a b c
4
5
6
a b
1 2
a b c
3
4
a bcd
Jadi , sampel yang terpilih 9 unsur : 𝐼𝐼 − 1 − 𝑎, 𝐼𝐼 − 1 − 𝑐, 𝐼𝐼 − 4 − 𝑐, 𝐼𝐼 − 6 − 𝑏, 𝑉 − 2 − 𝑏, 𝑉 − 2 − 𝑐, 𝑉 − 4 − 𝑏, 𝑉 − 4 − 𝑐, 𝑉 − 4 − 𝑑 Berikut adalah contoh penarikan sampel 2 tahap . Tahap pertama
: pilih 20 kelas dari kelas-kelas III SD di Indonesia.
Tahap Kedua
: pilih 5 murid dari tiap kelas (berjumlah 20 ) yang telah terpilih dalam tahap pertama.
Di sini sampel nya mencakup 20 × 5 = 100 murid kelas III SD di Indonesia. Sampel ini dipakek kalok gak ada daftar kerangka penarikan sampel yang mencakup semua unsur populasi ( misalnya populasinya semua murid SD di Aceh ) . Untuk sampel bertahap , kerangka penarikan sampel nya disusun bertingkat. Pada tingkat I hanya diperlukan daftar lapisan . Pada tingkat II hanya diperlukan daftar kelompok dalam tiap lapisan terpilih. Di sini gak perlu lagi daftar kelompok lapisan gak terpilih pada Tingkat I. Dst. Jika tiap penarikan dilakukan acak, sampel bertahap kadangkala pende katan yang baik bagi sampel acak sederhana .
3.1
Kesalahan , Takberjawab dan Bias
66
Hasil pengamatan dari pengukuran sampel acak digunakan menarikkesimpulan mengenai populasi . Misalnya reratasampel digunakan untuk menduga rerata populasi . Dalam proses pendugaan berapa kesalahan bisa terjadi . Ada 2 kesalahan : (a) Kesalahan disebabkan penarikan sampel(sampling error) ; (b) Kesalahan bukan disebabkan penarikan sampel ( nonsampling error) Kesalahan disebabkan penarikan sampel terjadi kerena sebuah sampel acak adalah bagian dari populasi: hanya n dari N unsur populasi yang diteliti. Banyak kemungknan menarik n unsur dari N . Tiap sampel acakbisa ditarik , nilai persentase butahuruf , tergantung pada komposisi sampel . Jadi pendugaan (estimasi) sebuah ciri (parameter) populasi , seperti rerata , sudah lumrah gak bisa sama betul dengan nilai populasi . Kesalahan bukan kerena penarikan sampel : (1) Kegagalan untuk mengukur berapa unsur yang telah ditarik dalam sampelkarena responden tidak ada di tempat pada waktu wawan cara atu karena menolak diikutkan penelitian. Ini disebut takberjawab (nonresponse) dalam sampel . (2) Proses pengukuran kurang baik kerena, operasionalisasi konsep kurang baik , pertanyaan gak jelas, responden gak menjawab dengan benar, wawancara kurang persiapan . (3) Dalam penyusunan data terjadi kesalahan, misalnya pengkodean tiap jawaban (coding) , dalam perhitungan , dll.
Ketiga kesalahan dapat menyebabkan bias (biased) dalam hasil penelitian , yaitu, tentang populasi tidak tepat kerena data pengukuran berdasarkan sampel tidak tepat . Besar kesalahan ini tidak diketahui .
67
Kesalahan jenis (2) dan (3) bisa dihindari jika rancangan penelitian baik, daftar pertanyaan dicobakan dulu dalam survei pendahuluan (pilot survei) dengan teliti .. Mengurangi takberjawab dalam sampel, kembali ke tempat responden . Jika gak bisa, terpaksa harus diduga berapa besar pengaruh orang yang tak bisa diwawancarai . Jangan mengganti responden takberjawab, tag ada gunanya . Jika besar sampel ditambah , , kesalahan penarikan sampel berkurang., tapi kesalahan yang lain bertambah, kerena penelitian makin rumit . Contoh Siapa saja dan kenapa mereka menonton acara-acara di TIM ? Metode penelitian wawancara dengan daftar pertanyaan yang dibakukan. Responden 200 orang , diwawancarai 10 menit sebelum acara dimulai. Daftar penonton pada satu malam gak tahu, jadi gak ada kerangka penarikan sampel . Sebenarnya definisi populasi nya sudah kurang tepat : semua orang yang akan menonton sebuah acara selama penelitian berlangsung . Populasi dibagi dalam berapa lapisan menurut jenis acara, yaitu music pop, teater tradisional, moder,film , dll. Pada satu malam, penonton diwawancarai. Ada yang tak sempat diwawancarai , tapi itu kecil , gak berarti. Pemilihan sampelsistematik . Yang dipilih orang yang ketiga masuk, untuk menghindari subyektivitas. Dilakukan acak sederhana . Ternyata sulit, pewawancara semua wanita, hanya 1 lelaki. Malam I , lebih 35% responden wanita. Malam II , 30% lebih wanita . Malam III, 25% wanita. Malam IV, wanita 20% . Penarkan sampel acak sederhana makin kurang baik. Gak sengaja, pewawancara wanita menyukai responden lelaki , terjadi subyektivitas ! Besar lapisan tak diketahui. Rerata umur 200 reponden tak bisa digunakan langsung untuk menduga rerata umur dalam populasi .
68
Jika besar lapisan tahun 1975 diketahui, pada tahun 1976 distribusinya diassumsikan kurang lebih sama.
BAB 4 TEORI PROBABILITAS
4.1
Penerapan Probabilitas Intuitif
0%
63.2
100%
0%
63.2
100%
0%
63.2
100%
Tingkat naik ketelitian
Pendugaan interval
Tingkat turun kepastian
Menarik kesimpulan tentang populasi dengan pasti gak mungkin , kecuali : sampelsama dengan populasi dan dugaan intervalnya mencakup segala kemungkinan yang ada . Dalam contoh persentase bebas buta huruf di atas , interval mencakup segala kemungkinan 0% -100% . Secara intuitif , semakin teliti (makin kecil) dugaan interval , makin kecil ke pastiannya . Berikut contoh persentase orang yang bebas buta huruf . Probabilitas pendugaan mencakup persentase populasi Kepastian mutlak, Pasti betul Probabilitas besar Probabilitas lebih kecil
Penggunaan pengertian probabilitas sehari-hari . Misalkan Poltak tiap Senin pukul 10 pagi pergi kuliah.Poltak berangkat dari kosan pukul 9.30 dan ternyatatepat waktu kuliah , jadi probabilitas nya besar. Begini Poltak menghitungnya : 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 𝑃𝑜𝑙𝑡𝑎𝑘 𝑡𝑒𝑝𝑎𝑡 𝑘𝑢𝑙𝑖𝑎 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 𝑃𝑜𝑙𝑡𝑎𝑘 𝑏𝑒𝑟𝑎𝑛𝑔𝑘𝑎𝑡 𝑝𝑢𝑘𝑢𝑙 9.30
69
Pecahan Poltak di atas penting dalam membuat simpulan. Bila pembilangnya 96 dan penyebutnya 100, maka
96 100
mendekati 1.
Disebut probabilitasnya besar bahwa Poltak akan tiba pada waktunya jika berangkat pukul 9.30. Kalok pecahan Poltak 0.12 , 100 kali kuliah , Poltak 88 kali gak masuk kuliah, probabilitasnya kerdil .
Situasi Berulang, Percobaan Probabilitas. Pada suatu hari, Poltak berangkat 9.30 dan ada yang nengok Poltak tepat waktu kuliah. Baru1 kali itu Poltak tepat waktu , jadi belum bisa ditentukan probabilitas kinerja Poltak. Tapi kalok 100 kali bolak-balik Poltak tepat atau nggak , baru bisa dibuat peluang kinerja Si Poltak . Coba tengok yang satu ini ! Percobaan probabilitas (random experiment) . Sebenggol logam Rp 1000, bergambar “Istana” dan “angka 1000” , dilambungkan dan tiap kali ditulis hasilnya “Istana” (b) atau kalok “angka 1000 “ (a). Missal lagi X banyak lambungan “Istana” dan Poltak ingin mengamati bagaimana prilaku nilai frekuensi relatif atau pecahan Poltak 𝑏𝑎𝑛𝑦𝑎𝑘 𝑙𝑎𝑚𝑏𝑢𝑛𝑔𝑎𝑛 𝐼𝑠𝑡𝑎𝑛𝑎 𝑏𝑎𝑛𝑦𝑎𝑘 𝑙𝑎𝑚𝑏𝑢𝑛𝑔𝑎𝑛 𝑏𝑒𝑛𝑔𝑔𝑜𝑙
=
𝑋 𝑛
pabile banyaknya lambungan (n) makin besar . Misallah lambungan 1 diperoleh a , maka untuk 𝑛 = 1, ditulis 𝑋 𝑛
0
= =0 1
Misallah lagi lambungan 2 dapat “Istana” . Jadi dalam 2 lambungan , menghasilkan “Istana” adalah 1, 𝑋 = 1; jadi pecahan Poltak ½ .
70
Kalok lambungan 3 jugak “istana” yang di Harmony itu , maka ada 2 lambungan “isatana” , jadi pecahan Poltak 𝑋 𝑛
=
2 3
Belumcapek jugak, lambungin 50 kali ? Tabelnya demikian
Banyak lambungan, n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
Hasil lambungan ken a b b a b b a a b b a b a b a a a b b a a a b b a b a b a b a b
Banyak lambungan “istana”,X 0 1 2 2 3 4 4 4 5 6 6 7 7 8 8 8 8 9 10 10 10 10 11 12 12 13 13 14 15 15 15 16
Pecahan poltak, X/n 0 0.5 0.667 0.5 0.6 0.667 0.571 0.5 0.556 0.6 0.545 0.583 0.538 0.571 0.533 0.5 0.471 0.5 0.526 0.5 0.476 0.455 0.478 0.5 0.48 0.5 0.481 0.5 0.483 0.5 0.484 0.5
71
33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
a b b b a b a b a a a b b a a b a a
Nampak pecahan Poltak
𝑋 𝑛
16 17 18 19 19 20 20 21 21 21 21 22 23 23 23 24 24 24
0.485 0.5 0.514 0.528 0.514 0.526 0.513 0.525 0.512 0.5 0.488 0.5 0.511 0.5 0.489 0.5 0.49 0.48
fluktuatif di sekitar 0.5 .
Diagram pencarnya : 𝑋/𝑛
10
20
30
40
50
n
Probabilitas menghasilkan istana adalah nilai limit untuk 𝑋/𝑛 jika n ber tambah terus tanpa batas , dan nilai limit ini gak dapat ditentukan melalui percobaan tetapi dapat diduga :
lim𝑛 →∞
𝑋 𝑛
72
X sebuah fungsi dari n . Untuk mengetahui nilai probabilitas , disusun sebuah hipotesis mengenai besarnya probabilitas( misalnya, probabilitas istana, adalah 0.5 ), kemudian hipotesis ini diuji kebenarannya dengan sebuah sampel acak .
4.2
Model Probabilitas
Jika huruf X melambangkan peubah probabilitas , peubah acak, atau peubah stokastik dalam percobaan pelambungan dadu . Peubah probabilitas X bisa mendapatkan nilai-nilai 1,2,3,4,5,6. 𝑋 = 1 ialah kejadian pelambungan dadu menghasilkan mata 1. Jadi , sebuah dadu yang “baik (seimbang)” bersifat : 𝑃 𝑋=1 =𝑃 𝑋=2 =𝑃 𝑋=3 =𝑃 𝑋=4 =𝑃 𝑋=5 =𝑃 𝑋=6 =
1 6
Sebuah kejadian pasti terjadi ialah setiap lambungan dadu menghasilkan mata 1,2,3,4,5, atau 6 : 𝑃 𝑋 ∈ 1,2,3,4,5,6 𝑃 𝑋 ∈ 1,2,3
=1
3
1
6
2
= =
Ruang Sampel dan Kejadian Misalkan , dalam sebuah percobaan diperoleh nilai (Outcome) mungkin adalah
yang
𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 Himpunan 𝑈 = 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑛 disebut ruang sampel atau himpunan hasil (event space) untuk percobaan ini. Sebuah himpunan bagian dari ruang sampel disebut kejadian (event) . Jadi himpunan bagian dari 𝑥1 , 𝑥3 , 𝑥7 dari U adalah sebuah kejadian .
Aksioma –aksioma Model Probabilitas
73
Model sebuah percobaan probabilitas bersifat : (1) Kepada tiap kejadian A di dalam percobaan probabilitas diberikan sebuah probabilitas 𝑃 𝐴 sedemikian sehingga 𝑃 𝐴 merupakan sebuah bilangan riil antara 0 dan 1 : 0 ≤ 𝑃 𝐴 ≤ 1 .(Ini berarti hinpuanan kejadian di dalam U , 𝐻 𝑈 = 𝐴, 𝐵, 𝐶, … , 𝑄 dipetakan ke himpunan bilangan riil 0,1 (2) Jika A dan B adalah 2 kejadian saling lepas (mutually exclusive) di dalam sebuah percobaan probabilitas sehingga 𝐴 𝐵 = ∅ , maka 𝑃 𝐴
𝐵 =𝑃 𝐴 +𝑃 𝐵
(3) Jika U ruang sampel sebuah percobaan probabilitas ,maka 𝑃 𝑈 = 1. Tiap model probabilitas harus memenuhi syarat-sarat di atas. Perhatikan 𝐴
𝐴 = ∅ dan
𝐴
𝐴 = 𝑈.
Jadi 1=𝑃 𝑈 =𝑃 𝐴
𝐴 =𝑃 𝐴 +𝑃 𝐴
Sehingga 𝑃 𝐴 =1−𝑃 𝐴 Di sini untuk himpunan kosong 𝑃 ∅ =0. Contoh Dalam sebuah penelitian , seorang dari kelompok A, B, C,D, dan E dipilih acak sederhana. Tiap orang mempunyai probabilitas tertentu 𝑃 𝐴 , 𝑃 𝐵 , … , 𝑃 𝐸 . Hasil penjumlahannya : 𝑃 𝐴 +𝑃 𝐵 +𝑃 𝐶 +𝑃 𝐷 +𝑃 𝐸 =1 Memilih acak sederhana :
74
𝑃 𝐴 =𝑃 𝐵 =𝑃 𝐶 =𝑃 𝐷 =𝑃 𝐸 =
1 5
Tiap orang berpeluang sama untuk terpilih . Jelaslah 𝑃 𝑜𝑟𝑎𝑛𝑔 𝑦𝑎𝑛𝑔 𝑡𝑒𝑟𝑝𝑖𝑙𝑖 𝐴 𝑎𝑡𝑎𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 =
2 5
Misalkan sebuah populasi terdiri dari 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑁 . Demikianlah 𝑃 𝑥1 = 𝑃 𝑥2 = ⋯ = 𝑥𝑁 =
1 𝑁
.
Jika bukan acak sederhana berarti peluangnya gak sama juga. Sebuah penarikan sampel acak sedserhana tanpa pemulihan dari n unsur dari sebuah populasi berunsur N , maka , penarikan 1, probabilitas terpilihnya sebuah unsur tertentu 1 𝑁
Penarikan 2, probabilitas terpilih sebuah unsur tertentu dari 𝑁 − 1 unsur tersi sa , 1 𝑁−1
Dst. diperoleh
1 𝑁−𝑛+1
.
Apa gunanya metode probabilitas ? Jika Anda hendak menguji model sosiologi mengenai gerakan migrasi . Seberapa jauh gerakan migrasi tersebut dapat didekripsikan?
Kejadian Penjumlahan : Probabilitas untuk Gabungan 2 Himpunan Bagian A dan B adalah 2 kejadian dalam sebuah percobaan dengan ruang sampel U . Kerena A dan B himpunan bagian dalam U (Universe) ,maka gabungan 𝐴 𝐵 dan interseksi𝐴 𝐵 juga himpunan bagian dalam U .
75
Jika A dan B gak memiliki unsur yang sama , menurut Aksioma Bapak Kita di atas : 𝑃 𝐴
𝐵 =𝑃 𝐴 +𝑃 𝐵
B
A
U 𝐴
𝐵=∅
Tapi kalok ada , A dan B Gak saling lepas , maka 𝑃 𝐴 𝐴
𝐵 = 𝐴−𝐵
𝐴
𝐵
𝐵 harus dihitung :
𝐵−𝐴
Lagi-lagi menurut Bapak Kita : 𝑃 𝐴
𝐵 =𝑃 𝐴−𝐵
𝑃 𝐴
𝐵
𝑃 𝐵−𝐴
U
A
B 𝐴
Kerena , 𝐴 = 𝐴 − 𝐵
𝐴
𝐵 , maka
𝑃 𝐴 =𝑃 𝐴−𝐵 +𝑃 𝐴 Dan kerena, 𝐵 = 𝐵 − 𝐴
𝐵≠∅
𝐴
𝐵
𝐵 , maka
76
𝑃 𝐵 =𝑃 𝐵−𝐴 +𝑃 𝐴
𝐵
Jadi , 𝑃 𝐴
𝐵 =𝑃 𝐴 +𝑃 𝐵 −𝑃 𝐴
𝐵
Dan disebut “kaidah penjumlahan” .
Contoh Di kontrakan ada 20 orang , 12 di antaranya beragama Islam . Dan 10 orang anak petani . Di antara beragama Islam , 4 orang anak Petani Orang Mulia . Seorang anak kos dipilih acak sederhana . Misalkan I kejadian “ beragama Muslim” dan T kejadian “anak Pak Tani Orang Mulia” . Demikianlah , 𝐼 𝑇 𝑑𝑎𝑛 𝐼 𝑇 adalah : 𝐼 𝑇 ∶ “ anak ngontrak terpilih beragama Islam atau anak Pak Tani” 𝐼 𝑇 ∶ “ anak ngontrak terpilih beragama Islam dan anak Petani jugak” Setiap anak kos mempunyai peluang
4.3
.
𝑃 𝐼 = 12.
1 12 = 20 20
𝑃 𝑇 = 10.
1 10 = 20 20
𝑃 𝐼 𝑃 𝐼
dan
1 20
𝑇
= 4.
𝑇 =
18 20
1 2 = 20 20 =𝑃 𝐼 +𝑃 𝑇 −𝑃 𝐼
𝑇 .
Probabilitas Bersyarat dan Kaidah Penggandaan ; Kebebasan Stokastik
Probabilitas Bersyarat
77
Dadu dilambungkan, hasilnya mata genap .. Jadi ruang sampel 2,4,6 . 1
Tanpa keterangan hasilnya genap , maka probabilitas tetap . 1
6
Tapi karena hasilnya genap, maka robabilitas tiap unsur . 3
Probabilitas bersyarat nya ditulis : 𝑃 2 𝑔𝑒𝑛𝑎𝑝 = 𝑃 4 𝑔𝑒𝑛𝑎𝑝 = 𝑃 6 𝑔𝑒𝑛𝑎𝑝 =
1 3
𝑃 1 𝑔𝑒𝑛𝑎𝑝 = 𝑃 3 𝑔𝑒𝑛𝑎𝑝 = 𝑃 5 𝑔𝑒𝑛𝑎𝑝 = 0
U A
C
𝑪⊂𝑨⊂𝑼
Probabilitas bersyarat untuk kejadian C pabila diketahui bahwa kejadian A telah terjadi, dinotasikan 𝑃 𝐶 𝐴 didefinisikan sebagai 𝑃 𝐶𝐴 =
𝑃 𝐶 𝑃 𝐴
Probabilitas bersyarat untuk kasus sebuah kejadian B bukan bagian dari kejadian A , atau 𝐴 𝐵 ≠ 𝐵 . Kejadian B dalam U menjadi kejadian 𝐴 𝐵 di dalam sampel terbatas 𝐴⊂𝑈. Pendek kata, pabila A telah terjadi , kejadian B dibatasi agar menjadi kejadian 𝐴 𝐵 dalam U .
U
U A
B
A
B 78
Kejadian B dalam ruang sampel
Definisi probabilitas bersyarat untuk kejadian B , pabila A diketahui telah terjadi :
𝑃 𝐵𝐴 =
𝑃 𝐴 𝐵 𝑃 𝐴
Pabila B himpunan bagian A , maka 𝐴 𝑃 𝐵𝐴 =
( asal 𝑃 𝐴 ≠ 0 ) 𝐵 = 𝐵 , sehingga
𝑃 𝐵 𝑃 𝐴
Sering ditulis
𝑃 𝐴
𝐵 = 𝑃 𝐵 𝐴 .𝑃 𝐴
disebut kaidah penggandaan untuk probabilitas. Jadi
𝑃 2 𝑔𝑒𝑛𝑎𝑝 =
𝑃 2
𝑔𝑒𝑛𝑎𝑝
𝑃 𝑔𝑒𝑛𝑎𝑝
=
1 6 1 2
1
=3
Sebaliknya pabila di dalam ruang sampel mempunyai probabilitas sama, (sedrhana) maka 𝑛 𝐻 = 𝑏𝑎𝑛𝑦𝑎𝑘 𝑢𝑛𝑠𝑢𝑟 𝑑𝑙𝑎𝑚 𝐻 :
𝑃 𝐴
𝐵 =
𝑛 𝐴 𝐵 𝑛 𝐻
,𝑃 𝐴 =
𝑛 𝐴 𝑛 𝐻
;𝑃 𝐵 𝐴 =
𝑛 𝐴 𝐵 𝑛 𝐻
Contoh Di kontrakan ada 13 lelaki dan 11 perempuan . Kepada mereka ditanyakan siapa yang ingin jadi guru SD ?
79
Tunjuk tangan 3 lelaki dan 3 perempuan menjawab “aku”, 8 lelaki dan 4 perempuan geleng kepala “aku nggak” . Terus 2 lelaki dan 4 perempuan angkat bahu “belum tahu” . Secara acak sederhana 1 orang dipilih . Berapa probabilitas nya dia lelaki yang gak ingin jadi guru SD ? Jawaban
Jenis
Aku (Y) Belum tahu (BT) Aku nggak (T) Frekuensi Pinggir Jenis
L
P
3 2 8 13
3 4 4 11
Frekuensi Pinggir jawaban 6 6 12 24
8
𝑃 𝐿
𝑇 = 24 8
𝑃 𝐿 𝑇 = 12
12
𝑃 𝑇 = 24
Contoh Ditarik 2 unsur acak sederhana dari populasi dari N unsur . Ruang sampel 𝑥𝑖 , 𝑥𝑗 𝑑𝑒𝑛𝑔𝑎𝑛 𝑖 = 1,2, … , 𝑁. Notasi 𝑥𝑖 , 𝑥𝑗 : 𝑥𝑖 terpilih duluan, 𝑥𝑗 terpilih belakangan . Jadi 𝑃
𝑥𝑖 , 𝑥𝑗
= 𝑃 𝑥𝑗
𝑝𝑎𝑑𝑎 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑏𝑒𝑙𝑘𝑎𝑛𝑔𝑎𝑛
𝑥𝑖 𝑝𝑎𝑑𝑎 𝑥𝑖 𝑝𝑎𝑑𝑎 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑃 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑑𝑢𝑙𝑢𝑎𝑛 𝑑𝑢𝑙𝑢𝑎𝑛
Tanpa pemulihan :
𝑃 𝑥𝑗
𝑝𝑎𝑑𝑎 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑏𝑒𝑙𝑎𝑘𝑎𝑛𝑔𝑎𝑛
𝑥𝑖 𝑝𝑎𝑑𝑎 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑑𝑢𝑙𝑢𝑎𝑛
0 𝑝𝑎𝑏𝑖𝑙𝑎 𝑖 = 𝑗 1 = 𝑝𝑎𝑏𝑖𝑙𝑎 𝑖 ≠ 𝑗 𝑁−1
80
Dengan pemulihan :
𝑃 𝑥𝑗
𝑝𝑎𝑑𝑎 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑏𝑒𝑙𝑎𝑘𝑎𝑛𝑔𝑎𝑛
𝑥𝑖 𝑝𝑎𝑑𝑎 𝑝𝑒𝑛𝑎𝑟𝑖𝑘𝑎𝑛 𝑑𝑢𝑙𝑢𝑎𝑛
=
1 𝑁
𝑢𝑛𝑡𝑢𝑘 𝑖, 𝑗 = 1,2, … , 𝑁
Demikianlah 𝑃
𝑥𝑖 , 𝑥𝑗
=
1 𝑁2
𝑢𝑛𝑡𝑢𝑘 𝑖, 𝑗 = 1,2, … , 𝑁
Jelas ruang sampelnya 𝑁 2 = 𝑁. 𝑁 dan tiap unsur 𝑥𝑖 , 𝑥𝑗 berpeluang sama
1 𝑁2
. Tanpa pemuliahan : Dari 𝑁. 𝑁 ruang sampel ada 1𝑥𝑁 unsur 𝑥𝑖 , 𝑥𝑗 di mana 𝑖 = 𝑗 . Jadi ruang smpel tinggal 𝑁. 𝑁 − 1𝑥𝑁 = 𝑁 𝑁 − 1 . Kalok gitu : 𝑃
𝑥𝑖 , 𝑥𝑗
=
1 𝑁 𝑁−1
𝑢𝑛𝑡𝑢𝑘 𝑖 ≠ 𝑗 .
Kejadian Bebas Stokastik Kejadian B disebut bebas stokastik dari kejadian A pabila 𝑃 𝐵 𝐴 = 𝑃 𝐵 . Ini artinya, probabilitas kejadian B selalu tetap sama aja besarnya , lepas dari apakah kejadian A telah terjadi atau tidak diketahui . Pabila B bebas stokastik dari A , maka 𝑃 𝐴 𝐵 dapat ditulis begini 𝑃 𝐴
𝐵 = 𝑃 𝐵 𝐴 .𝑃 𝐴 = 𝑃 𝐵 𝑃 𝐴
Pabila B bebas stokastik dari A , maka A jugak bebas stokastik dari B, pendek kata 𝑃 𝐵𝐴 =𝑃 𝐵 ⇔𝑃 𝐴𝐵 =𝑃 𝐴 Coba tengok yang tadi : 𝑃 𝐵 𝐴 .𝑃 𝐴 = 𝑃 𝐵 𝑃 𝐴 → 𝑃 𝐵 𝐴 = 𝑃 𝐵
81
Jika kebebasan stokastik terjadi imbal-bailk , maka kebebasan stokastik sebuah hubungan simetrik . Dari contoh di atas :
𝑃 𝐿𝑇 =
8 12
𝑃 𝐿 =
13 24
Jadi antara “Lelaki” dan “ aku nggak” tidak bebas stokastik lain. Nayatanya 𝑃 𝐿 𝑇 > 𝑃 𝐿 .
satu
sama
Contoh Seorang penduduk ditarik acak sederhana di Australia . Berpa peluang dia buta huruf ? Misallah 𝑃 𝑏𝑢𝑡𝑎 𝑢𝑟𝑢𝑓 𝑡𝑖𝑛𝑔𝑔𝑎𝑙 𝑑𝑖 𝐶𝑎𝑛𝑏𝑒𝑟𝑟𝑎 < 𝑃 𝑏𝑢𝑡𝑎𝑢𝑟𝑢𝑓 Misallah pula 𝑃 𝑏𝑢𝑡𝑎 𝑢𝑟𝑢𝑓 𝑡𝑖𝑛𝑔𝑔𝑎𝑙 𝑑𝑖 𝐶𝑎𝑛𝑏𝑒𝑟𝑟𝑎 ≈ 0.208 𝑃 𝑏𝑢𝑡𝑎𝑢𝑟𝑢𝑓 = 0.404 Berarti di Canberra terdapat relatif lebih sedikit orang butahuruf dari pada di Australia . Jadi, adelah hubungan statistik antara kejadian “buta huruf” dan kejadian “menetapdi Canberra” . Keduanya gak bebas stokastik 1-1 .
Contoh Sekali lagi , 2 unsur ditarik acak sederhana dari populasi 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑁 . Ternyata tanpa pemulihan , 2 penarikan berurutan tidak bebas stokastik 1-1. Pabila 𝑥3 terpilih pertama , maka 𝑥3 tak akan dipilih lagi. Sesungguhnya pada penarikan dengan pemulihan , semua penarikan bebas stokastik 1-1 dan untuk tiap penarikan, tiap unsur 𝑥𝑘 𝑘 = 1,2, … , 𝑁 mempunyai probabilitas konstan,
1
𝑁
.
Contoh
82
Jangan dicampuraduk pengertian intuitif dengan definisi pengertian “bebas stikastik” Sebuah populasi dari beragama Islam dan beragama Kristen. Ditarik 1 orang acak sederhana . Kejadian I dan K didefinisikan demikian : I : terpilih beragama Isalam K : terpilh beragama Kristen Keduanya sailng lepas , artinya = ∅ . Apakah ini bebas stokastik ? Not ! , kerena 𝑃 𝐼 𝐾 = 0 jugak 𝑃 𝐼 ≠ 0 Jadi tidak bebas stokastik !
4.1
Berapa Penerapan Teori Probabilitas
(a) Studi Statistik Perceraian PRESSAT , sampai kini studi perceraian belum mempunyai dasar teori yang dapat diandalkan . Perceraian akan dihubungkan dengan kejadian yang mendahuluinya yaitu pernikahan . Distribusi frekuensi (relatif) perceraian menurut lamanya pernikahan di Eropa Barat tidak banyak mengalami perubahan dalam periode 1885-1957 (tapi sekarang distribusi ini sudah lain ). Misalkan i lamanya pernikahan sampai perceraian , dihitung dalam selisih tahun kelender . Misalkan pula 𝑓𝑖 =
𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑝𝑒𝑟𝑛𝑖𝑘𝑎𝑎𝑛 𝑦𝑎𝑛𝑔 𝑠𝑒𝑡𝑒𝑙𝑎 i tahun berakhir dengan perceraian 𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑝𝑒𝑟𝑛𝑖𝑘𝑎𝑎𝑛 𝑦𝑎𝑛𝑔 𝑏𝑒𝑟𝑎𝑘𝑖𝑟 𝑑𝑒𝑛𝑔𝑎𝑛 𝑝𝑒𝑟𝑐𝑒𝑟𝑎𝑖𝑎𝑛
83
Jadi , 𝑓𝑖 merupakan nilai dugaan probabilitas bahwa sebuah pernikahan yang akan berakhir dengan perceraian akan berakhir setelah lamanya pernikahan sama dengan i tahun . Distribusi frekuensi perseraian menurut lamanya pernikahan bagi sebuah Negara di Eropa Barat , seperti Tabel di bawah . Dari Tabel diproleh hasil perhitungan : (1) 35 𝑖=0 𝑓𝑖 = 1 (2) Rerata lamanya sebuah pernikahan yang berakhir dengan perceraian adalah 11.9 tahun (3) median lamanya sebuah pernikahan yang berakhir dengan perceraian adalah 10.5 tahun .
𝒊 0 1 2 3 4 5 6 7 8
𝒇𝒊 0 0.014 0.028 0.043 0.053 0.06 0.063 0.064 0.062
𝒊 9 10 11 12 13 14 15 16 17
𝒇𝒊 0.095 0.054 0.051 0.048 0.045 0.041 0.038 0.034 0.031
𝒊 18 19 20 21 22 23 24 25 26
𝒇𝒊 0.028 0.025 0.023 0.02 0.017 0.015 0.013 0.012 0.011
𝒊 27 28 29 30 31 32 33 34 35
𝒇𝒊 0.01 0.009 0.008 0.007 0.005 0.004 0.003 0.001 0.001
Pada tahun 1938 terdaftar 28600 perceraian di sebuah Negara Eropa Barat. Untuk tiap kohortpernikahan (= himpunan pernikahan yang dilangsungkan pada tahun kelender tertentu) , selanjutnya diduga proporsi ( p) pernikahan yang pda akhirnya berakhir dengan perceraian. Nilai p ini diduga dengan data Tabel di atas dan Tabel di bawah ini mengenai banyaknya pernikahan yang dilangsungkan di Negara bersangkutan dalam priode 1900-1950 .
Tahun
N
Tahun
N
Tahun
N
Tahun
N
Tahun
N
1900 1901 1902
312 317 308
1910 1911 1912
321 321 325
1920 1921 1922
623 456 385
1930 1931 1932
342 327 315
1940 1941 1942
177 226 267
84
1903 1904 1905 1906 1907 1908 1909
309 312 316 320 328 329 321
1913 1914 1915 1916 1917 1918 1919
312 205 86 125 180 203 553
1923 1924 1925 1926 1927 1928 1929
355 355 353 345 336 339 334
1933 1934 1935 1936 1937 1938 1939
316 299 285 280 275 274 258
1943 1944 1945 1946 1947 1948 1949
219 205 393 517 427 371 341
Dari Tabel dapat dilihat pengaruh kedua PD terhadap pernikahan yang dilangsungkan (PD I : 1914-1918 dan PD II : 1939-1945 ) . Menurut model ini, dari banyaknya pernikahan yang dilangsungkan tahun 1930 𝑁1930 , sebanyak 𝑝𝑁1930 akan berakhir dengan perceraian . Selanjutnya, banyaknya pernikahan yang dilangsungkan pada 1930 itu, sebanyak 𝑓8 × 𝑝𝑁1930 akan berakhir pada tahun 1938 . Banyaknya perceraian pada tahun 1938 ( 28 600 ), dapat dipecah menurut banyaknya perceraian dari pernikahan-pernikahan yang dilangsungkan pada tahun 1903 (35 tahun sebelumnya) , banyaknya perceraian dari pernikahanpernikahan yang dilangsungkan pada 1904 (34 tahun sebelumnya) dst. sampai tahun 1938 ( 0 tahun sebelumnya) . Dituliskan : 28 600 = 𝑓0 𝑝𝑁1938 + 𝑓1 𝑝𝑁1937 + 𝑓2 𝑝𝑁1936 + ⋯ + 𝑓35 𝑝𝑁1903 Dari sini dihitung p,proporsi pernikahan yang berakhir dengan perceraian :
𝑝=𝑓𝑁
28 600
0 1938 +𝑓1 𝑁1937 +𝑓2 𝑁1936 +⋯+𝑓35 𝑁1903
= 0.086
PRESSAT , model dapat diperluas dengan memeriksa fluktuasi tahunan dari banyaknya pernikahan yang dilangsungkan ( misalnya akibat PD ) dan dengan memperkirakan , p tidak konstan untuk tiap kohort dalam 35 tahun sebelumnya .
(b) Disribusi Kota Menurut Besarnya
85
Proses pertumbuhan kota dapat digambarkan dengan sebuah model probabilitas (yang agk kasar) . Kota-kota dalam sebuah Negara tertentu dibagi –bagi dalam 5 kelas yang makin membesar berurut-urut 1,2,3,4,5 , sbb.: Kelas 1 : Kelas 2 : Kelas 3 : Kelas 4 : Kelas 2 :
5000 s/d 9 999 penduduk 10 000 s/d 19 999 penduduk 20 000 s/d 49 999 penduduk 50 000 s/d 99 999 pendu.duk 100 000 penduduk atau lebih .
Himpunan tempat-tempat yang penduduknya kurang dari 5000 orang disebut “himpunan kampung” . Kelas-kelas ditelaah pada saat kurang lebih berjarak 10 tahun satu sama lain Ada 4 aksioma model : (1) Probabilitas pertumbuhan sebuah kota dalam kelasberikutnya yang 1
lebih besar dlam 10 tahun kemudian adalah . 8
Dengan kata lain , 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 1 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠2 = 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 2 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 3 = 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 3 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 4 = 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 4 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 5 = 1/8
(2) Dlam 10 tahun , sebuah kota tak akan naik 2 tingkat atau lebih. Dengan kata lain , 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 1 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 3 = 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 2 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 4 = 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 3 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 5 = 𝑃 𝑑𝑎𝑙𝑎𝑚 10 𝑡𝑎𝑢𝑛 𝑘𝑒𝑚𝑢𝑑𝑖𝑎𝑛 𝑘𝑒𝑙𝑎𝑠 1 𝑚𝑒𝑛𝑗𝑎𝑑𝑖 𝑘𝑒𝑙𝑎𝑠 4 = ⋯ =0
(3) Tak ada kota kembali ke kelas yang lebih kecil dalam 10 tahun .
86
(4) Akibat pertumbuhan , dari “himpunan kampung” akan timbul berapa kota dalm jangka 10 tahun. Untuk Belanda diperkirakan tiap 10 tahun dari “himpunan kampung” muncul 40 kota kelas 1, 10 kota kelas 2, dan tak satu pun kelas lainnya . Pada tahun 1970 distribusi kota di negeri Belanda sbb.: Kelas 1 : Kelas 2 : Kelas 3 : Kelas 4 : Kelas 5 :
224 kota 165 kota 83 kota 25 kota 16 kota
Distribusi kota yang diramlkan untuk tahun 1980, menurut model di atas 1
𝑘𝑒𝑙𝑎𝑠 1 ∶ 224 − . 224 + 40 = 236 . 8 1
1
𝑘𝑒𝑙𝑎𝑠 2 ∶ 165 + . 224 − . 165 + 10 = 182 1
8
1
8
𝑘𝑒𝑙𝑎𝑠 3 ∶ 83 + . 165 − . 83 = 93 8 1
1
8
𝑘𝑒𝑙𝑎𝑠 4 ∶ 25 + . 83 − . 25 = 32 8 1
8
𝑘𝑒𝑙𝑎𝑠 5 ∶ 16 + . 25 = 19 8
Menurut model itu sebuah kota kelas 5 selamanya tetap menjadi kelas 5.. Bandingkan ramalan distribusi kota untuk 1980 dengan distribusi kota yang sebenarnya pada tanggal 1-1-1983 , berurut-urut 210, 182, 118,33 dan 17. Apa yang menyebabkan perbedaan ? (c) Sebuah Model mengenai Kecepatan Difusi Informasi Penyiaran sebuah metode baru pertanian dilaksanakan mingguan hanya melalui radio . Tiap minggu pembaruan teknologi (innovasi) disiarkan. Sasaran kelompok orang-orang yang mungkin pemakai (potential users) teknologi baru . Akan ditelaah , berapa besar kecepatan difusi penyiaran pada sasaran potensial tersebut ?
87
Misalkan tiap minggu , di antara pengguna potensial belum mengenal metode baru tersebut , sebagian , pmenjadi kenal dengan metode ini melalui siaran radio. Sebelum siaran pertama , semua orang gak mengenal metode baru . Setelah siaran pertama, sebagian, 1 − 𝑝 dari pemakai pemakai poten sial (perkiraan) masih belum juga mengenal metode tersebut . Setelah siaran kedua, , sebagian, 1 − 𝑝 1 − 𝑝 (perkiraan) masih ada juga yang belum kenal metode tersebut . Generalisasi , setelah k siaran radio , sesudah k minggu , tinggal, 1 − 𝑝 𝑘 saja di antara pemakai potensial yang masih gaptek metode baru . Probabilitas seorang pengguna potensial sesudah k siaran radio mengenal metode baru tersebut adalah 1− 1−𝑝
𝑘
.
Kalok 𝑝 = 0.3 . Berapa kali siaran radio mingguan diperlukan untuk mencapai hasil paling sedikit 0.75 di antara pengguna potensial akan bebas gaptek ? Tentu , 1 − 1 − 𝑝 𝑘 ≥ 0.75 untuk 𝑝 = 0.3 akan diperoleh k sbb. : k: 𝟏−
𝟏−𝒑 𝒌:
0 0
1 0.3
2 0.51
3 0.66
4 0.76
5 0.83
6 0.88
7 0.92
… …
Jadi, menurut perkiraan , sesudah 4 kali siaran radio, 75% di antara pemakai potensial bebas gaptek ! Assumsi Gak ada difusi informasi selain radio . Yang dihitung hanya yang bisa mendengar (gak boleh pekak ) . Mendengar saja belum tentu dipraktekkan , apa dikira gampang kalok gak ada modal ? , apalagi masih kumpul kerbo, belum ada tanah garapan !
88
(d) Randomized reponse model Kalok pertanyaan survei dalam sebuah penelitian mengganggu privasi bahkan prestise seseorang , mana ada responden yang mau menjawab ! Metode, randomized response didasarkan pada sebuah proses probabilitas yang menjamin seorang periset betul-betul gak tahu kepribadianresponden , namun data yang diinginkan tetap didapat . Katakanlah , seorang surveyor ingin tahu , berapa % PNS lelaki kumpul kerbo mempunyai lebih dari 1 istri ? Kalok Pempus hanya mengijinkan satu istri , bukan 1 kali kawin, per PNS lelaki , kemungkinan PNS beristri 2 atau 3 akan menjawab “tidak” , jika ditanya , apakah Anda beristri 2 atau 3 ? Dengan demikian keterandalan (reliability) datanyakecil. Sebaiknya dilakukan demikian, melalui proses probabilitas , suruh responden memilih : (1) Pertanyaan „sebenarnya‟ : „Apakah Bapak beristri lebih dari satu ?” (2) Pertanyaan „pura-pura‟ (dummy) , misalnya : „Apakah Bapak lahir pada bulan Januari ?, nggak nyambung memang ! Kalok tiap responden memilih pertanyaan dengan melambungkan dadu . Jika hasilnya 1,2,3 𝑎𝑡𝑎𝑢 4 , pertanyaan (1) akan dipilih dan dijawab “benar”. Kalok hasilnya 5 𝑎𝑡𝑎𝑢 6 , pertanyaan (2) akan dipilih dan dijawab “benar” Periset nggak boleh ngintip hasil lambungan dadu , sehingga ia nggak tahu mengenai pertanyaan mana yang dipilih dan dijawab. Dia hanya mencatat jawabnya „ya‟ atau „no‟ Kaloklah diketahui berapa % orang lahir bulan Januari (informasi BPS ) , maka % PNS yang mempunyai lebih dari 1 istri dapat diduga . Jelas ini tergantung pengertian responden. Misallah sekarang ,% orang yang born pada Januari untuk kategori responden bersangkutan 9 . Missal pulak , surveyor mendapat 39% jawaban „ya‟ di dalam sampelnya . Menerapkan kaidah penggandaan , nampaklah 𝑃 𝑗𝑎𝑤𝑎𝑏𝑎𝑛 ′𝑦𝑎′ = 𝑃 𝑗𝑎𝑤𝑎𝑏𝑎𝑛 ′𝑦𝑎′ +𝑃 𝑗𝑎𝑤𝑎𝑏𝑎𝑛 ′𝑦𝑎′
𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 1 𝑡𝑒𝑟𝑗𝑎𝑤𝑎𝑏
𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 2 𝑡𝑒𝑟𝑝𝑖𝑙𝑖
= 𝑃 ′𝑦𝑎′ 𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 1 𝑡𝑒𝑟𝑝𝑖𝑙𝑖 . 𝑃 𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 1 𝑡𝑒𝑟𝑝𝑖𝑙𝑖
89
+𝑃 ′𝑦𝑎′ 𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 2 𝑡𝑒𝑟𝑝𝑖𝑙𝑖 . 𝑃 𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 2 𝑡𝑒𝑟𝑝𝑖𝑙𝑖 Dengan dugaan probabilitas 𝑃 ′𝑦𝑎′ = 0.39 diperoleh 2
1
3
3
0.39 = 𝑃 ′𝑦𝑎′ 𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 1 𝑡𝑒𝑟𝑝𝑖𝑙𝑖 . + 0.09. sehingga 𝑃 ′𝑦𝑎′ 𝑝𝑒𝑟𝑡𝑎𝑛𝑦𝑎𝑎𝑛 1 𝑡𝑒𝑟𝑝𝑖𝑙𝑖 = 0.54 .
Diduga 54% PNS leleki beristri 2 atau 3 . Banyak juga ya ?
BAB 5 DISTRIBUSI PROBABILITAS
5.1
Distribusi Probabilitas dan Nilai Harapan
Contoh Sebuah die „seimbang‟ dilambungkan 2 kali bebas stokastiksatu sama lain. Ruang sampel nya : 1,1 2,1 3,1 4,1 5,1 6,1
1,2 2,2 3,2 4,2 5,2 6,2
1,3 2,3 3,3 4,3 5,3 6,3
1,4 2,4 3,4 4,4 5,4 6,4
1,5 2,5 3,5 4,5 5,5 6,5
1,6 2,6 3,6 4,6 5,6 6,6
Peubah X didefinisikan sebagai jumlah mata dadu yang dilemparkan dapat bernilai 2,3,4, … ,12 . Dengan demikian , X sebuah peubah probabilitas diskrit . Diperoleh untuk sampel 2,3 ,maka 𝑋 = 5. Distribusi probabilitasnya :
90
X: P(X) :
2
1 36
3
2 36
4
5
3 36
6
4 36
7
6 36
5 36
8
9
10
4 36
5 36
11
3 36
2 36
12
1 36
Probabilitas bagi nilai ekstrim 𝑋 = 2 atau 𝑋 = 12 sama dengan 𝑃 𝑋 ∈ 2,12
= 𝑃 𝑋 = 2 + 𝑃 𝑋 = 12 =
1 36
+
1 36
=
2 36
.
Kurang lebih 5% dari seluruh lambungan menghasilkan jumlah mata dadu 2 atau 12 .
Nilai Harapan X Dengan bantuan distribusi probabilitas untuk peubah X , dapat dihitung nilai harapan X (ekspektasi) . Nilai harapan X , dengan distribusi probabilitas 𝑃 𝑋 , didefinisikan sebagai 𝐸 𝑋 =
𝑋𝑃 𝑋
Kaidah : 𝑃 𝑋 = 1, distribusi probabilitas dapat dianggap sebagai distri busi frekuensi relatif . Nilai harapan 𝜇 = 𝐸 𝑋 merupakan rerata distribusi X . Jika X adalah jumlah mata dadu dari 2 lambungan sebuah dadu, maka 𝜇 = 𝐸 𝑋 = 2.
1 36
+ 3.
Nilai Harapan untuk 𝑿 − 𝜇
2 36
+ 4.
3 36
+ ⋯ + 12.
1 36
=7
𝟐
Nilai harapan untuk 𝑿 − 𝜇 sama seperti 𝐸 𝑋 :
𝟐
𝐸 𝑿−𝜇
𝟐
=
𝐸 𝑿−𝜇
𝟐
,
, dengan 𝜇 = 𝐸 𝑋 , didefinisikan dengan cara
𝑿 − 𝜇 𝟐𝑃 𝑋
91
disebut variansi peubah probabilitas X , sering dilambangkan 𝜍 2 ( 𝜍 , 𝑏𝑎𝑐𝑎 ′𝑠𝑖𝑔𝑚𝑎′) , atau 𝜍𝑋2 . Akar dari 𝜍 2 = 𝐸 𝑿 − 𝜇 𝟐 dilambangkan dengan 𝜍 dibaca simpangan baku untuk peubah probabilitas X . Dengan contoh di atas , diperoleh 𝜍2 = 𝐸 𝑿 − 𝜇
𝟐
= 2 − 7 2. =5
5 6
1 2 1 + 3 − 7 2. + ⋯ + 12 − 7 2 . 36 36 36
Jadi , 𝜍=
5
5 6
= 2.4 .
Notasi Ukuran distribusi populasi : Rerata : 𝜇 Simpangan baku : 𝜍 Koeifisien korelasi momen hasil kali : 𝜌 (“rho”) . Untuk ukuran distribusisampel : Rerata : 𝑥 Simpangan baku : 𝑠 Koeifisien korelasi momen hasil kali : 𝑟 Untuk peubah probabilitas 𝑥 : Rerata : 𝜇𝑥 Simpangan baku : 𝜍𝑥
Contoh
92
Populasi berisi usia 5 orang : A,B,C,D,E . Misalkan A berumur 17 tahun , B , 18 tahun, C ,18 tahun , D, 19 tahun, dan E,16 tahun . Dengan populasi 17,18,18,19,16 diperoleh 𝜇 = 17.6 𝑡𝑎𝑢𝑛 𝜍 = 1.02 𝑡𝑎𝑢𝑛. Pabila dari populasi ditarik sampel dengan 2 unsur , acak sederhana dengan pemulihan , maka ruang sampel nya : 17,17 18,17 18,17 19,17 16,17
17,18 18,18 18,18 19,18 16,18
17,18 18,18 18,18 19,18 16,18
17,19 18,19 18,19 19,19 16,19
17,16 18,16 18,16 19,16 16,16
Ada 25 distribusi dalam sampel . Tiap isampel dihitung reratanya. Rerata sampel diperoleh : 𝑥1 𝑥2 𝑥3 𝑥4 𝑥5
= 17 𝑥6 = 17.5 𝑥11 = 17.5 𝑥16 = 18 𝑥21 = 16.5 = 17.5 𝑥7 = 18 𝑥12 = 18 𝑥17 = 18.5 𝑥22 = 17 = 17.5 𝑥8 = 18 𝑥13 = 18 𝑥18 = 18.5 𝑥23 = 17 = 18 𝑥8 = 18.5 𝑥14 = 18.5 𝑥19 = 19 𝑥24 = 17 = 16.5 𝑥10 = 17 𝑥15 = 17 𝑥20 = 17.5 𝑥24 = 16
Peubah probabilitas 𝑋 = 𝑟𝑒𝑟𝑎𝑡𝑎 𝑠𝑎𝑚𝑝𝑒𝑙 𝑡𝑒𝑟𝑑𝑖𝑟𝑖 2 𝑢𝑛𝑠𝑢𝑟 , ditarik acak sederhana dengan pemulihan dari populasi di atas , dapat mempunyai nilai – nilai 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥25 . Distribusi penarikan sampel𝑋 diperoleh dari ruang sampel di atas 𝑋∶ 𝑃 𝑋 :
16
16.5
17
17.5
18
18.5
19
1 25
2 25
5 25
6 25
6 25
4 25
1 25
Rerata dan simpangan baku untuk 𝑋 :
93
𝜇𝑥 = 𝐸 𝑋 = 17.6 𝑡𝑎𝑢𝑛 𝜍𝑥 =
𝐸 𝑿−𝜇
𝟐
= 0.72 𝑡𝑎𝑢𝑛
Dalam praktek, untuk keperluan penelitian, hanya 1 sampel saja ditarik. Dari distribusi penarikan sampel untuk 𝑋 dapat disimpulkan , bahwa probabilitas 𝑋 = 16 tahun atau 𝑋 = 19 tahun kecil : 𝑃 𝑋 ∈ 16,19
= 𝑃 𝑋 = 16 + 𝑃 𝑋 = 19 =
1 25
+
1 25
= 0.08 .
Fungsi Distribusi Fungsi distribusi F untuk distribusi probabilitas 𝑃 𝑋 didefinisikan sebagai 𝐹 𝑋=𝑎 =𝑃 𝑋≤𝑎 Fungsi distribusi dari distribusi probabilitas 𝑋 adalah
𝑋∶ 𝑃 𝑋 : 𝐹 𝑋
16
16.5
17
17.5
18
18.5
19
1 25 1 25
2 25 3 25
5 25 8 25
6 25 14 25
6 25 20 25
4 25 24 25
1 25 1
Di sini berlaku 𝐹 𝑋 = 17 = 𝑃 𝑋 ≤ 17 = 𝑃 𝑋 = 16 + 𝑃 𝑋 = 16.5 + 𝑃 𝑋 = 16.5 =
8 25
Jugak 𝑃 16.5 ≤ 𝑋 ≤ 18.5 = 𝐹 𝑋 = 18.5 − 𝐹 𝑋 = 18.5 =
5.2
23 25
Distribusi Probabilitas Binomial
94
Katakanlah populasi T terbagi 2 himpunan bagian saling lepas A: dan 𝐴 , artinya 𝐴 𝐴 = 𝑇 𝑑𝑎𝑛 𝐴 𝐴 = ∅ .
A
Populasi demikian disebut populasi 2 cabang atau dikotomi . Juga digunakan istilah populasi Bernoulli dan populasi alternatif . Katakanlah, 3 unsur ditarik acak sederhana dengan pemulihan dari popu lasi . Katakan pula X menyatakan berapa kali sebuah unsur dari himpunan bagian A muncul di dalam sampel . Kemungkinan X bernilai : 0,1,2, 𝑎𝑡𝑎𝑢 3 . Karena sampel ditarik dengan pemulihan , maka probabilitas sebuah unsur himpunan bagian A pada penarikan berurutan sama : 𝑃 𝐴 = 𝑝 . Di sini berlaku pula 𝑃 𝐴 = 1 − 𝑃 𝐴 = 1 − 𝑝 . Maka distribusi probabilitas binomial untuk n = 3 Sampel
Probabilitas sampel
X = banyak unsur A dalam sampel
Distribusi probabilitas X
𝟏, 𝟏, 𝟏
𝑝3
3
1. 𝑝3
𝟏, 𝟏, 𝟎 𝟏, 𝟎, 𝟎 𝟎, 𝟏, 𝟏
𝑝2 1 − 𝑝 𝑝2 1 − 𝑝 𝑝2 1 − 𝑝
2
3𝑝2 1 − 𝑝
𝟏, 𝟎, 𝟎 𝟎, 𝟏, 𝟎 𝟎, 𝟎, 𝟏
𝑝 1−𝑝 𝑝 1−𝑝 𝑝 1−𝑝
1
1𝑝 1 − 𝑝
2
2
2 2
95
𝟏, 𝟎, 𝟎
1−𝑝
3
1 1−𝑝
0
3
Untuk menentukan distribusi probabilitas X , lebih dulu ditulis ruang sampel nya . Unsur himpunan bagian A dilambangkan “1” dan unsur himpunan bagian 𝐴dengan angka “0” . Ruang sampelnya : 1,1,1 , 1,1,0 , 1,0,1 , 0,1,1 , 1,0,0 , 0,1,0 , 0,0,1 , 0,0,0 Ruang sampelnya 23 = 8 sampel . Probabilitas sampel dengan urutan penarikan unsurnya : 𝟏, 𝟏, 𝟏
Samp el Proba Bilitas
𝑝3
𝟏, 𝟏, 𝟎
𝟏, 𝟎, 𝟏
𝟎, 𝟏, 𝟏
𝟏, 𝟎, 𝟎
𝟎, 𝟏, 𝟎
𝟎, 𝟎, 𝟏
𝟎, 𝟎, 𝟎
𝑝2 1 −𝑝
𝑝2 1 −𝑝
𝑝2 1 −𝑝
𝑝 1 −𝑝
𝑝 1 −𝑝
𝑝 1 −𝑝
1 −𝑝
2
2
2
3
Nilai –nilai yang diujudkan peubah probabilitas X ( = banyak unsur A dalam sampel ) membagi 4 kejadian salinglepas ruang sampel : 𝑋 = 0, 𝑋 = 1, 𝑋 = 2 𝑑𝑎𝑛 𝑋 = 3 . Koeifisien 1,3,3,1 dari distribusi probabilitas binomial untuk n = 3 di atas menunjukkan banyaknya kombinasi (combination) yang mungkin. Bentuk umum distribusi binomial , 𝑛; 𝑝 , disingkat 𝐵 𝑛; 𝑝 sbb. :
X
P(X)
0
1 1−𝑝
1
𝑛 𝑝 1−𝑝 1
𝑛
𝑛−1
96
2
𝑛 2 𝑝 1−𝑝 2
𝑛−2
3
𝑛 3 𝑝 1−𝑝 3
𝑛−3
⋮
⋮ 𝑛 𝑘 𝑝 1−𝑝 𝑘
k
𝑛−𝑘
⋮
⋮
𝒏−𝟏
𝑛 𝑝𝑛−1 1 − 𝑝 𝑛−1
1
𝑛 𝑛 𝑝 𝑛
n
Ingatlah !!! 𝑛 𝑘
=
𝑛 𝑛−𝑘
=
𝑛! 𝑘! 𝑛−𝑘 !
; 𝑛! = 1.2.3 … 𝑛
Distribusi binomial dalam Histogram : Distribusi probabilitas binomial dianggap distribusi “frekuensi relatif” . Grafik distribusi binomial untuk (1) 𝑛 = 3 , 𝑝 = (2) 𝑛 = 3 , 𝑝 =
P(x)
1 2 2 3
(1) Distribusi binomial simetrik
97
P(x)
(2) distribusi binomial tak simetrik
X 0
1
3
2
Rerata𝜇 untuk distribusi binomial𝐵 𝑛; 𝑝 adalah 𝜇=𝐸 𝑋 =
𝑛 𝑥=0 𝑥𝑃
𝑛 𝑛 𝑥 =0 𝑥 𝑘
𝑥 =
𝑝𝑥 1 − 𝑝
𝑛−𝑥
= 𝑛𝑝
Variansi distribusi probabilitas binomial𝐵 𝑛; 𝑝 adalah
𝜍2 = 𝐸 𝑿 − 𝜇
𝟐
= =
𝑛 0
𝑿−𝜇 𝑛 0
𝟐
𝑿−𝜇
𝑃 𝑥 𝟐 𝑥
𝑝 1−𝑝 Simpangan baku distribusi binomial sama dengan 𝜍=
𝐸 𝑿−𝜇
𝟐
=
𝑛−𝑥
= 𝑛𝑝 1 − 𝑝
𝑛𝑝 1 − 𝑝
98
Distribusi probabilitas binomial distribusi diskrit , kerena X bernilai diskrit 1,2, … , 𝑛 .
Tabel berapa Distribusi Probabilitas Binomial Dalam Lampiran 4 disajikan berapa distribusi probabilitas binomial untuk nilai-nilai 𝑛 = 6,7,8,9,10 𝑑𝑎𝑛 20 , dan nilai-nilai 1
𝑝 = 0.01, 0.05,0.1,0.2,0.3, , 0.4 𝑑𝑎𝑛 0.5 (jadi ada 6x9 =54 distribusi ) . 3
Tabel-tabel tersebut dapat juga dipakai untuk nilai-nilai p sama dengan 1 1 − 0.05 , 1 − 0.1 , 1 − 0.2 , 1 − 0.25 , 1 − 0.3 1 − 𝑑𝑎𝑛 3 1 − 0.4 . Jadi sesungguhnya ada 6𝑥 9 + 8 = 102 distribusi probabilitas binomial . Penjelasan : Misalkan X didistribusikan menurut distribusi 𝐵 𝑛; 𝑝 = 𝐵 6; 0.2 . Maka 𝑌 = 6 − 𝑋 didistribusikan menurut distribusi 𝐵 6; 0.8 . Kerena , pabila X banyak unsur dalam sampel A , maka 𝑌 = 𝑛 − 𝑋 banyak unsur dalam sampel 𝐴 . Kerena 𝑃 𝐴 = 0.2 , maka 𝑃 𝐴 = 1 − 0.2 = 0.8 . Hubungannya demikian : 𝑃 𝑋 =𝑎 =𝑃 𝑌 =6−𝑎 Generalisasi, pabila X terdistribusikan menurut distribusi probabilitas binomi al 𝐵 𝑛; 𝑝 , maka 𝑌 = 𝑛 − 𝑋 terdistribusikan menurut 𝐵 𝑛; 1 − 𝑝 .
X 𝑩 𝟔; 𝟎. 𝟐
𝑷 𝒀 =𝑷 𝟔−𝑿 𝑷 𝑿 =𝑷 𝟔−𝒀
Y 𝑩 𝟔; 𝟎. 𝟖
0 1
0.262 0.393
6 5
99
2 3 4 5 6
0.246 0.082 0.015 0.002 0
4 3 2 1 0
Contoh Di Pontianak , 2/3 (66,6 %) rumah ditempati pemiliknya sendiri (BPS :1977a,75) ; tahun 1968 -1969 , 67.1% . Pabila ditarik sampel acak sederhana sebesar 20 rumah dari populasi rumah di Pontianak. Berapa probabilitas dari 20 rumah itu 9 atau kurang di antara nya ditampati oleh pemiliknya ? (pemiliknya pelit , dan gak mau kumpul kerbo ) . Misallah X , banyak rumah (dalam sampel) ditempati pemiliknya . Peubah probabilitas X mungkin aja bernilai 0,1,2, … ,18,19,20 . Peubah X terdistribusikan menurut distribusi probabilitas binomialdengan 2
𝑛 = 20 𝑑𝑎𝑛 𝑝 = . 3
𝐹 𝑋 = 9 = 𝑃 𝑋 ≤ 9 = 𝑃 𝑋 = 0 + 𝑃 𝑋 = 1 + 𝑃 𝑋 = 2 + ⋯+ 𝑃 𝑋 = 9
Probabilitas-probabilitas ini dibaca dalam Lampiran 4 , kolom untuk 𝑛 = 20 𝑑𝑎𝑛 𝑝 = 1/3 . 𝑃 𝑃 𝑃 𝑃
𝑋 𝑋 𝑋 𝑋
=0 =1 =2 =3
=0 =0 =0 =0
𝑃 𝑋=4 =0 𝑃 𝑋=5 =0 𝑃 𝑋 = 6 = 0.1
𝑃 𝑋 = 7 = 0.003 𝑃 𝑋 = 8 = 0.009 𝑃 𝑋 = 9 = 0.025
𝑃 𝑋 ≤ 9 = 0 + 0 + 0 + 0 + 0 + 0 + 0.001 + 0.003 + 0.009 + 0.025 = 0.038
Secara intuitif , dapat dibayangkan bahwa probabilitas ini memang seharus nya agak kecil . (gak adalah orang yang rela rumahnya ditempati orang kecuali Orang Pontianak, terus orang itu tidur di mana ?) . Nilai harapan untuk X adalah 2
1
3
3
𝜇 = 𝐸 𝑋 = . 20 = 13
.
100
𝜍2 =
40 9
.
𝜍 ≈ 2.1 Distribusi Probabilitas untuk Proporsi 𝒑 = 𝑿/𝒏 Sebagai pengganti peubah probabilitas X , yang menyatakan banyaknya unsur A di dalam sampel , kadangkala digunakan peubah probabilitas lain, yaitu 𝑝 = 𝑋/𝑛,yang adalah bagian sampel A . Kerena n bernilai tetap untuk tiap sampel dalam ruang sampel , maka distri busi penarikan sampel untuk 𝑝 ini sama dengan distribusi penarikan sampel untuk X , perhatikan :
X
𝒑 = 𝑿/𝒏
𝑷 𝒑 =𝑷 𝑿
0
0
1−𝑝
1
1 𝑛
𝑛 2 𝑝 1−𝑝 1
𝑛−1
2
2 𝑛
𝑛 2 𝑝 1−𝑝 2
𝑛−2
⋮
⋮
⋮
n
1
𝑛 𝑛 𝑝 𝑛
𝑛
Nilai harapan 𝑝 adalah 𝜇𝑝 = 𝐸 𝑝 =
𝐸 𝑋 𝑛
=
𝑛𝑝 𝑛
=𝑝
𝑝 , proporsi dalam sampel . Variansi 𝑝 , atau nilai harapan 𝑝 − 𝜇𝑝
𝜍𝑝 2 = 𝐸
𝑝 − 𝜇𝑝
𝟐
=𝐸
𝟐
:
𝑝−𝜇𝑝 𝟐 𝑛
101
=
5.3
𝐸 𝑝−𝜇 𝑝 𝑛2
𝟐
=
𝐸 𝑋−𝜇 𝑛2
𝟐
=
𝑛𝑝 1−𝑝 𝑛2
=
𝑝 1−𝑝 𝑛
Distribusi Probabilitas Seragam untuk Peubah Kontinu
Distribusi probabilitas Seragam (persegipanjang) seperti main rolet .
1=0
1 𝑛
0.25
0.75
0.5
Interval Probabilitas jarum rolet : 𝑃 0<𝑋≤
1 4
=𝑃
1 4
<𝑋≤
1 2
=𝑃
1 2
<𝑋≤
3 4
=𝑃
3 4
<𝑋≤1 =
1 4
X , peubah probabilitas , menunjukkan posisi jarum berhenti . Pabila lingkaran dibagi n sama besar dan roletnya “seimbang”, maka 𝑃 0<𝑋≤
1 𝑛
=𝑃
1 𝑛
<𝑋≤
2 𝑛
=⋯=𝑃
𝑛−1 𝑛
<𝑋≤1 =
1 𝑛
Pabila banyak interval nterus diperbesar , maka luas interval-interval semakin kecil , dan probabilitasnya makin kecil. Jika n mendekati nilai tak hingga , luas interval pertama dan lainnya mende kati 0 . Probabilitas berhenti dalam “interval” yang panjangnya 0 menjadi 0 juga . 1
𝑃 𝑋 = 0 = lim𝑛→∞ 𝑛 = 0 102
1 𝑛
Untuk interval sembarangdengan panjang berlaku hal sama : 𝑃 𝑋 = 𝑎 = lim𝑛→∞ 𝑃 𝑎 < 𝑋 ≤ 𝑎 +
1
= lim𝑛→∞
𝑛
1 𝑛
=0
Probabilitas jarum berhenti pada skala tertentu, adalah 0. Probabilitas jarum berhenti dalam sebuah interval dengan panjang
1 tak 𝑛
sama
dengan 0 : 𝑃 𝑋=𝑎 =0 tetapi 𝑃 𝑎<𝑋≤𝑎+
1 𝑛
=
1 𝑛
Pabila peubah probabilitas X dipandang sebagai sebuah peubah probabilitas diskrit , artinya nilai-nilai X dibagi dalam sejumlah n kelompok (interval) , maka distribusi probabilitas X ditulis sbb. : 1 𝑛 1 𝑛
X:
0,
P(X) :
1 2 , 𝑛 𝑛 1 𝑛
2 3 , 𝑛 𝑛 1 𝑛
… …
𝑛−1 ,1 𝑛 1 𝑛
P(X)
X 0
( n = 15 )
1
103
1
Setiap interval di atas dipasang sebuah kolom berlebar dan tinggi 1. 𝑛
Tiap kolom berluas : 1 𝑛
𝑥1=
1 𝑛
Dalam kasus limit , di mana 𝑛 → ∞ (takhingga) , X berubah jadi peubah kontinu, artinya X dapat menjelma sembarang nilai terletak di dalam interval bilangan riil 0, 1 . Untuk peubah probabilitas kontinu X demikian, dibuatlah fungsi kepekaan probabilitas (density) . Untuk rolet , fungsi kepekaan X sama dengan 1 di dalam interval 0, 1 : 𝑓 𝑋 =
1 𝑢𝑛𝑡𝑢𝑘 0 < 𝑋 ≤ 1 0 𝑢𝑛𝑡𝑢𝑘 𝑡𝑖𝑎𝑝 𝑛𝑖𝑙𝑎𝑖 𝑋 𝑙𝑎𝑖𝑛𝑛𝑦𝑎
Luas derah menggambarkan sebuah probabilitas .
f(X)
𝑙𝑢𝑎𝑠 = 𝑃 𝑎 < 𝑋 ≤ 𝑏
1
Distribusi seragam kontinu
1
a
b
Luas daerah bergaris menunjukkan probabilitas bahwa X terletak antara a dan b . luas daerah terletak di bawah keseluruhan kurva sama dengan 1 . Jadi , 𝑃 0 < 𝑋 ≤ 1 = 1 .
104
Fungsi kepekaan ini disebut distribusi probabilitas persegipanjang seragam .
5.4
atau
Distribusi Probabilitas Normal
Berikut grafik distribusi normal dengan rerata 𝜇 𝑑𝑎𝑛 𝑠𝑖𝑚𝑝𝑎𝑛𝑔𝑎𝑛 𝑏𝑎𝑘𝑢 𝜍.
𝜍
𝜇 − 4𝜍
𝜇 − 3𝜍 𝜇 − 2𝜍
𝜇−𝜍
𝜇
𝜇+𝜍
𝜇 + 2𝜍
𝜇 + 3𝜍
Distribusi probabilitas normal , antara lain memiliki sifat : (1) Distribusinya simetrik di sekitar 𝑋 = 𝜇 (2) Mempunyai 1 puncak (3) Nilai-nilai X di antara −∞ 𝑑𝑎𝑛 + ∞ , kurva kepekaan probabilitas nya tak menyinggung sb.X , hanya menghampiri . Median dan modus nya sama aja dengan rerata 𝜇. Luas di antara kurva dan sebuah interval pada sb,X mewakili sebuah probabilitas . Luas arsiran gambar di bawah mewakili probabilitas 𝑃 𝑎 < 𝑋 ≤ 𝑏 . Luas seluruh daerah di bawah kurva sama dengan 1.
105
𝑃 −∞ < 𝑋 ≤ +∞ = 1
f(X)
X a
𝜇
b
Distribusi probabilitas normal didefinisikan tepat dengan fungsi kepekaan probabilitasnya sbb. :
𝑓 𝑋 =
1 2𝜋𝜍 2
𝑒
1 𝑥−𝜇 2 2 𝜍
−
Di sini 𝜋 𝑑𝑎𝑛 𝑒 masing-masing bernilai 𝜋 = 3.14 … 𝑒 = 2.71 … Di sini 𝜇 𝑑𝑎𝑛 𝜍 adalah 2 ciri distribusi probabilitas normal : 𝜇 = 𝑟𝑒𝑟𝑎𝑡𝑎 = 𝐸 𝑋 𝜍 = 𝑠𝑖𝑚𝑝𝑎𝑛𝑔𝑎𝑛 𝑏𝑎𝑘𝑢 =
𝐸 𝑋−𝜇
2
106
Dalam kenyataannya , bentuk yang menggambarkan distribusi-distribusi tak ada ; distribusi-distribusi tersebut hanya sebagai model untuk menggambarkan situasi empirik . Deskripsi ini hanya pendekatan terhadap yang sebenarnya. Untuk menguatkan digunakan distribusi lain bukan normal , seperti distribusi Poisson, distribusi F, distribusi khi-kuadrat, dll. 𝜍1 = 𝜍2 = 12
𝜇1 = 16
𝜇2 = 40
𝜍1 = 0.8
𝜍2 = 5
𝜇1 = 𝜇2 = 0
𝜍1 = 8
𝜍2 = 20
107
Distribusi probabilitas Normal dinotasikan dengan 𝑁 𝜇; 𝜍 . Fungsi Distribusi F Ibaratkan peubah probabilitas X terdistribusikan menurut 𝑁 𝜇; 𝜍 . Pabila diketahui fungsi distribusi X, maka dapat pula dihitung probabilitas bahwa X terletak dalam sebuah interval tertentu , sebab : 𝑃 𝑎 <𝑋 ≤𝑏 =𝐹 𝑎 −𝐹 𝑎 Nilai probabilitas diwakili luas daerah di bawah kurva distribusi pada batas b dan a . Banyak Tabel probabilitas normal, tapi sebagai patokan digunakan Tabel distribusi Normal𝑁 0; 1 . Distribusi probabilitas 𝑁 0; 1 dinamakan distribusi probabilitas normal standar .
Fungsi Distribusi 𝑵 𝟎; 𝟏 Dalam Lampiran 5 disajikan fungsi distribusi 𝑁 0; 1 untuk berbagai nilai peubah probabilitas Z yang lebih besar dari 0 . Untuk 𝑍 = 0.57 , misalnya , terlihat di baris 0.5 dan di bawah kolom 0.07 (kolom-kolom menunjukkan angka decimal kedua di belakang tanda desimal ) nilai fungsi distribusi pada 𝑍 = 0.57 . 𝐹 𝑍 = 0.57 = 𝑃 𝑍 ≤ 0.57 = 0.7157
108
Probabilitas bahwa peubah Z , yang terdistribusikan menurut 𝑁 0; 1 , akan terletak antara nilai 0.57 dan nilai 1.04 sama dengan 𝑃 0.57 < 𝑍 ≤ 1.04 = 𝐹 𝑍 = 1.04 − 𝐹 𝑍 = 0.57 = 0.8508 − 0.7157 = 0.1351
𝑃 𝑍 ≤ −𝑎 𝑃 𝑍>𝑎
−𝑎
0
+𝑎
Untuk 𝑁 0; 1 𝑏𝑒𝑟𝑙𝑎𝑘𝑢 𝑃 𝑍 < −𝑎 = 𝑃 𝑍 > 𝑎
Untuk menentukan 𝐹 𝑍 bagi nilai 𝑍 < 0 , harus digunakan sifat simetri distribusi normal tadi . Kerena , untuk tiap nilai 𝑎 > 0 berlaku 𝑃 𝑍 ≤ −𝑎 = 𝑃 𝑍 > 𝑎 = 1 − 𝑃 𝑍 ≤ 𝑎
Tengok lagi gambar atas : 𝐹 𝑍 = −𝑎 = 1 − 𝐹 𝑍 = 𝑎
Tengoklah bahwa untuk distribusi normal, 𝐹 𝑍 = −𝑎 = 1 − 𝐹 𝑍 =
𝑎hanya berlaku pabila 𝜇=0 . Jadi , untuk 𝑁 0; 1 berlaku 𝑃 −0.35 < 𝑍 ≤ 1.26 = 𝐹 1.26 − 𝐹 −0.35
109
= 𝐹 1.26 − 1 − 𝐹 0.35 = 0.8926 − 1 − 0.6368 = 0.533
−0.35
0
1.26
Hubungan Fungsi Distribusi 𝑵 𝝁; 𝝈 dengan Fungsi Distribusi 𝑵 𝟎; 𝟏 Andaikanlah peubah X berdistribusi normal sembarang , yaitu 𝜇 ≠ 0 dan 𝜍≠1. Hubungan antara 𝐹 𝑋 𝑑𝑎𝑛 𝐹 𝑍 sbb. :
𝐹 𝑋=𝑎 = 𝐹 𝑍=
𝑎−𝜇 𝜍
Di sini 𝜇 , rerata distribusi X dan 𝜍 simpangan baku distribusi X .
𝐹 𝑋=𝑎
𝐹 𝑍=
𝑎−𝜇 𝜍
110
Persamaan
𝐹 𝑋=𝑎 = 𝐹 𝑍=
𝑎−𝜇 𝜍
dijelaskan secara intuitif sbb. : pabila X berdistribusi 𝑁 𝜇; 𝜍 , maka 𝑌 = 𝑋 − 𝜇berdistribusi 𝑁 0; 𝜍 . Distribusi Y diperoleh pabila distribusi X digeser (translasi) dengan meletakkan rerata 𝜇ke posisi 0 . Nilai 0 ini merupakan rerata distribusi Y .
Digeser ke sekitar 0
𝐹 𝑌 =𝑎−𝜇
𝐹 𝑋=𝑎
X 𝜇
a
Y 0
𝑎−𝜇
Jelas bentuk distribusi Y sama dengan bentuk distribusi X . Jadi , 𝐹 𝑋 =𝑎 = 𝐹 𝑌 = 𝑎−𝜇 kerena kedua luas daerah terletak di bawah kurva tersebut .
111
Selanjutnya dilakukan transformasi : 𝑌
𝑌→𝑍=𝜍
artinya semua jarak pada sumbu Y dikali dengan
1 𝜍
.
Dari distribusi awal diketahui simpangan baku Y adalah 𝜍 . Sekarang , simpangan baku Z menjadi 1 𝜍
𝜍𝑍 = × 𝜍 = 1 𝑅𝑒𝑟𝑎𝑡𝑎 𝑍 = 𝑟𝑒𝑟𝑎𝑡𝑎 𝑌 = 0. Jadi Z berdistribusi 𝑁 0; 1 .
Perkalian dengan
1 𝜌
Z −𝟏 0
Y
𝑎−𝜇 𝜍
−1
Titik 𝑎 − 𝜇 pada sb.Y ditransformasikan ke titik 𝐹 𝑍=
𝑎−𝜇 𝜍
𝑎−𝜇 𝜍
0
𝑎−𝜇
pada sb.Z dan
=𝐹 𝑌 =𝑎−𝜇 = 𝐹 𝑌 =𝑎
Transformasi tersebut dilukiskan sbb.: X
Digeser , menjadi
Dikalikan, menjadi
112
→𝒀=𝑿−𝝁
→𝒁=
Y berdistribusi 𝑁 0; 𝜍 Fungsi distribusi =𝐹 𝑌 =𝑎−𝜇
X berdistribusi 𝑵 𝝁; 𝝈 Fungsi distribusi 𝑭 𝑿=𝒂
𝟏 𝑿−𝝁 𝒀= 𝝈 𝝈
Z berdistribusi 𝑁 0; 1 Fungsi berdistribusi 𝑎−𝜇 =𝐹 𝑍= 𝜍
Contoh Misalkan X berdistribusi 𝑁 5; 2 . Tentukan probabilitas 𝑃 𝑋 ≤ 6 = 𝑃 𝑋 = 6 .
Distribusi 𝑁 5; 2
1
5
3
9
7
Berdasarkan rumus di atas diperoleh ( jika Z berdistribusi 𝑁 0; 1 ) 𝐹 𝑋=6 =𝐹 𝑍=
6−5 2
= 𝐹 𝑍 = 0.5 = 0.6915
Di samping itu , jika ingin Anda , 𝑃 𝑋≤2 =𝐹 𝑋=2 =𝐹 𝑍=
2−5 2
= 𝐹 𝑍 = −1.5
= 1 − 𝐹 𝑍 = 1.5 = 1 − 0.9332 = 0.0668 dan 𝑃 1 < 𝑋 ≤ 5.5 = 𝐹 𝑋 = 5.5 − 𝐹 𝑋 = 1
113
=𝐹 𝑍=
5.5−5 2
=𝐹 𝑍=
1−5 2
= 𝐹 𝑍 = 0.25 − 𝐹 𝑍 = −2 = 0.9587 − 1 − 0.9772 = 0.5759
Contoh Katakanlah gaji sekelompok sales berdistribusi normal dengan rerata 12 dan simpangan baku 4, atau 𝑁 12; 4 . Distribusi normal ini dugunakan sebagai pendekatan distribusi empirik untuk 10.000 pekerja ini . Berapa orang dalam kelompok sales yang mendapat gaji antara 10 dan 15 (dalam ribu rupiah) ? 𝑃 10 < 𝐺 ≤ 15 = 𝐹 𝑋 = 15 − 𝐹 𝑋 = 10 =𝐹 𝑍=
15−12 4
=𝐹 𝑍=
10−12 4
= 𝐹 𝑍 = 0.75 − 𝐹 𝑍 = −0.5 = 0.7734 − 1 − 0.6915 = 0.4649 Jadi , ada 0.4649 × 10.000 = 4649 orang dari kelompok sales bergaji antara Rp 10.000 dan Rp 15.000
Hampiran Distribusi Binomial dengan Distribusi Normal Pabila sebuah distribusi binomial𝐵 𝑛; 𝑝 mempunyai 𝜇 = 𝑛𝑝 ≥ 5 𝑑𝑎𝑛 𝑛 1 − 𝑝 ≥ 5 , maka distribusi binomial ini bisa dihampiri dengan “baik” oleh distribusi Normal𝑁 𝜇 = 𝑛𝑝; 𝜍 = 𝑛𝑝 1 − 𝑝 . Jadi distribusi normal ini mempunyai rerata yang sama dengan rerata distribusi binomialnya .demikian juga simpangan baku nya .
114
keseluruhan
Kurva normal
Sebuah bagian diperbesar
3.5
4
4.5
Perbandingan luas kolom binomial dan luas daerah di bawah kurva Normal
Andaikan X berdistribusi binomial𝐵 𝑛; 𝑝 . 1
Distribusi 𝐵 𝑛; 𝑝 ini umumnya tidak simetrik (simetrik pabila 𝑝 = . 2
Tapi distribusi 𝑁 𝜇; 𝜍 selalu simetrik . Kerenanya sebuah distribusi tak simetrik didekati dengan distribusi simetrik . Lebih jelasnya perhatikan Tabel berikut :
115
Hampiran Probabilitas Binomial dengan Probabilitas Normal untuk Didtribusi 𝑩 𝟐𝟎; 𝟎. 𝟑 X
Kelas
Probabilitas 𝑩 𝟐𝟎; 𝟎. 𝟑 Lampiran 4
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ⋮ 20
−0.5, 0.5 0.5, 1.5 1.5, 2.5 2.5, 3.5 3.5, 4.5 4.5, 5.5 5.5, 6.5 6.5, 7.5 7.5, 8.5 8.5, 9.5 9.5, 10.5 10.5, 11.5 11.5, 12.5 12.5, 13.5 13.5, 14.5 ⋮ 19.5, 20.5
0.001 0.007 0.028 0.072 0.13 0.179 0.192 0.164 0.114 0.065 0.031 0.012 0.004 0.001 0 ⋮ 0
Probabilitas 𝑵 𝟔; 𝟐. 𝟎𝟓 Lampiran 5 𝑃 −3.17 ≤ 𝑍 < −2.68 = 0.003 𝑃 −2.68 ≤ 𝑍 < −2.20 = 0.01 𝑃 −2.20 ≤ 𝑍 < −1.71 = 0.03 𝑃 −1.71 ≤ 𝑍 < −1.22 = 0.068 𝑃 −1.71 ≤ 𝑍 < −0.73 = 0.122 𝑃 −0.73 ≤ 𝑍 < −0.24 = 0.173 𝑃 −0.24 ≤ 𝑍 < 0.24 = 0.19 𝑃 0.24 ≤ 𝑍 < 0.73 = 0.173 𝑃 0.73 ≤ 𝑍 < 1.22 = 0.122 𝑃 1.22 ≤ 𝑍 < 1.71 = 0.068 𝑃 1.71 ≤ 𝑍 < 2.20 = 0.03 𝑃 2.20 ≤ 𝑍 < 2.68 = 0.01 𝑃 2.68 ≤ 𝑍 < 3.17 = 0.003 𝑃 3.17 ≤ 𝑍 < 3.66 = 0.001 0
⋮ 0
Binomial , tak simetrik di sekitar 𝝁=𝟔
Normal ,simetrik di sekitar 𝝁=𝟔
𝑷 𝟓 = 𝟎. 𝟏𝟕𝟗 𝑷 𝟕 = 𝟎. 𝟏𝟔𝟒
𝑃 5 = 𝑃 7 = 0.173
𝑷 𝟒 = 𝟎. 𝟏𝟕𝟗 𝑷 𝟖 = 𝟎. 𝟏𝟔𝟒
𝑃 4 = 𝑃 8 = 0.173
Syarat-syarat 𝑛𝑝 ≥ 5 𝑑𝑎𝑛 𝑛 1 − 𝑝 ≥ 5, harus dipenuhi pabila himpunan distribusi binomial dengan distribusi normal bisa dianggap “cukup baik” , dapat dianggap bahwa rerata distribusi binomial itu harus cukup jauh dari batas 0 dan batas n , sehingga distribusi binomial “cukup simetrik” untuk didekati dengan distribusi normal yang simetrik .
116
n
𝜇
0
𝑛 1−𝑝 ≥5
𝑛𝑝 ≥ 5
Distribusi binomial “cukup” simetrik pabila 𝝁 “cukup” jauh dari batas 0 dan batas n
Pabila Tabel probabilitas binomial tidak diketahui (banyaknya tabel tidak terhingga kerena banyaknya nilai n dan p tak hingga ! ) , sukar kali untuk menghitung nilai probabilitasnya kalok 𝑛 ≥ 10 . Andaikan 𝑛 = 18, 𝑝 = 0.45 dan Anda ingin tahu 𝑃 𝑋 = 5 . Maka dalam prakteknya cukup sukar menghitung
𝑃 𝑋=5 =
18 5
0.45
5
0.55
13
Transformasiakan memudahkan perhitungan dengan sebuah Tabel 𝑁 0; 1 ., untuk menghitung probabilitas binomial .
Contoh 2
Di Pontianak rumah ditampati pemiliknya sendiri. 3
Sebuah sampel acak sedrhana ditarik dengan pemulihan. Sampel berisi 20 rumah . Berapa probabilitas bahwa di antara 20 rumah itu terdapat 9 atau kurang yang ditempati oleh pemiliknya sendiri ? Peubah X didistribusikan menurut distribusi binomial𝐵 𝑛 = 20; 𝑝 =
2 3
.
Kerena 𝑛𝑝 = 13
1 2 ≥ 5𝑑𝑎𝑛 𝑛 1 − 𝑝 = 6 ≥ 5 3 3
maka distribusi binomial ini dapat didekati dengan distribusinormal
117
𝑁 13
1 ;𝜍 = 3
40 = 2.11 9
Dengan begitu, probabilitas-probabilitas nya dapat dihitung dengan tabel distribusi 𝑁 0; 1 :
𝑃 𝑋𝑏𝑖𝑛 ≤ 9 ≈ 𝑃 𝑋𝑛𝑜𝑟𝑚𝑎𝑙 ≤ 9.5 = 𝑃 𝑍 <
9.5−13
1 3
2.11
= 𝑃 𝑍 < −1.82 = 1 − 𝑃 𝑍 < 1.82 = 1 − 0.9656 = 0.0344 Di depan telah diperoleh dengan Tabel probabilitas binomial 0.038 untuk probabilita ini . Satu lagi ! di atas digunakan 𝑋𝑛𝑜𝑟𝑚𝑎𝑙 ≤ 9.5bukan 𝑋𝑛𝑜𝑟𝑚𝑎𝑙 ≤ 9 , pabilaini diambil hasilnya 0.0197 . Jadi perbandingan antara binomial dan normal dapat menjadi alat koreksi yang jitu !
5.1
Distribusi Probabilitas Berdimensi Ganda
Andaikanlah X dan Y , 2 peubah diskrit . Peubah X bernilai 𝑥1 , 𝑥2 , 𝑥3 , … , 𝑥𝑠 dan peubah Y bernilai 𝑦1 , 𝑦2 , 𝑦3 , … , 𝑦𝑡 . Pada tiap nilai 𝑋 = 𝑥 dan tiap nilai 𝑌 = 𝑦 diberikan probabilitasnya yaitu 𝑃 𝑋 = 𝑥 𝑌 = 𝑦 atau 𝑃 𝑋 = 𝑥, 𝑌 = 𝑦 . Daftar 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 𝑢𝑛𝑡𝑢𝑘 𝑡𝑖𝑎𝑝 𝑥𝑖 1,2,3, … , 𝑠 𝑑𝑎𝑛 𝑡𝑖𝑎𝑝 𝑦𝑗 1,2,3, … , 𝑡 adalah probabilitas berdimensi 2 , kerena nilainya tergantung pada peubah X dan Y . Distribusi probabilitasnya didefinisikan sbb. : 𝐹 𝑋 = 𝑥𝑚 , 𝑌 = 𝑦𝑛 = 𝑃 𝑋 ≤ 𝑥𝑚 , 𝑌 ≤ 𝑦𝑛 =
𝑚 𝑖=1
𝑛 𝑗 =1 𝑃
𝑥𝑖 , 𝑦𝑗
untuk tiap 𝑚 ≤ 𝑠 𝑑𝑎𝑛 𝑡𝑖𝑎𝑝 𝑛 ≤ 𝑡 . Jadi 𝐹 𝑋 = 𝑥𝑚 , 𝑌 = 𝑦𝑛 = 𝑃 𝑥1 , 𝑦1 + 𝑃 𝑥1 , 𝑦2 + ⋯ + 𝑃 𝑥1 , 𝑦𝑛 +𝑃 𝑥2 , 𝑦1 + 𝑃 𝑥2 , 𝑦2 + ⋯ + 𝑃 𝑥2 , 𝑦𝑛
118
+𝑃 𝑥3 , 𝑦1 + 𝑃 𝑥3 , 𝑦2 + ⋯ + 𝑃 𝑥3 , 𝑦𝑛 +… + 𝑃 𝑥𝑚 , 𝑦1 + 𝑃 𝑥𝑚 , 𝑦2 + ⋯ + 𝑃 𝑥𝑚 , 𝑦𝑛 Dengan diagram CAYLEY penjumlahannya dibuat demik 𝑌𝑋
𝑦1
𝑦2
𝑥1
𝑃 𝑥1 , 𝑦1
𝑃 𝑥1 , 𝑦2
…
𝑦𝑗
…
𝑦𝑛
…
…
𝑦𝑡 ⋮
𝑥2 ⋮ 𝑥𝑖
𝑃 𝑥𝑖 , 𝑦𝑗
⋮ 𝑥𝑚
…
𝑃 𝑥𝑚 , 𝑦𝑛
⋮ 𝑥𝑠
⋮ …
…
𝑃 𝑥𝑠 , 𝑦𝑡
Contoh Sebuah populasi dari 3 bilangan 1,2,3 . Sebuah sampel acak sederhana, berisi 2 unsur , ditarik tanpa pemulihan . Andaikan X pertama ditarik , baru Y. Distribusi probabilitas berdimensi 2 nya sbb. : Peubah X 1 2 3
1 0 1 6 1 6
Peubah Y 2 1 6 0 1 6
3 1 6 1 6 0
Diperoleh ,
119
𝐹 𝑋 = 3 , 𝑌 = 1 = 𝑃 𝑋 ≤ 3, 𝑌 ≤ 1 = 𝐹 𝑋 = 2, 𝑌 = 3 = 𝑃 𝑋 ≤ 2, 𝑌 ≤ 3 =
1 3 2 3
𝐹 𝑋 = 3, 𝑌 = 3 = 𝑃 𝑋 ≤ 3, 𝑌 ≤ 3 = 1 Untuk sebuah distribusi probabilitas berganda, probabilitas pinggir untuk peubah X didefinisikan : 𝑃 𝑋 = 𝑥𝑖 =
𝑡 𝑗 =1 𝑃
𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗
Penjumlahan itu adalah jumlah semua suku dalam baris i . Distribusi probabilitas pinggir peubah X dipeoleh dari kolom akhir . Probabilitas pinggir untuk Y didefinisikan sbb.: 𝑃 𝑌 = 𝑦𝑗 =
𝑠 𝑖=1 𝑃
𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗
Penjumlahan dilakukan dalam kolom j . Diperoleh dari baris akhir . Probabilitas bersyarat untuk X, pabila diketahui 𝑌 = 𝑦𝑗 , didefinisikan sbb.:
𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 =
𝑃 𝑋=𝑥 𝑖
𝑌=𝑦 𝑗
𝑃 𝑌=𝑦 𝑗
, 𝑃 𝑌 = 𝑦𝑗 ≠ 0
Contoh Dari contoh di atas , hitunglah distribusi pinggir dan , berapa distribusi bersyarat !
Peubah X 1 2 3
1 0 1 6 1 6
Peubah Y 2 1 6 0 1 6
3 1 6 1 6 0
Distribusi pinggir X 1 3 1 3 1 3
120
Distribusi Pinggir Y
1 3
1 3
1 3
1
Pabila nilai 𝑌 = 2 (𝑏𝑒𝑟𝑠𝑦𝑎𝑟𝑎𝑡), maka distribusi X :
X:
1
2
3
𝑃 𝑋𝑌=2
1 2
0
1 2
Pabila nilai 𝑋 = 3 (𝑏𝑒𝑟𝑠𝑦𝑎𝑟𝑎𝑡), maka distribusi Y :
Y:
1
2
3
𝑃 𝑌𝑋=3
1 2
1 2
0
Kebebasan Stokastik Peubah probabilitas X dan peubah probabilitas Y disebut bebas stokastik satu sama lain iff 𝑃 𝑋 = 𝑥𝑖 , 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖 × 𝑃 𝑌 = 𝑦𝑗 untuk tiap 𝑖 ∈ 1,2,3, … , 𝑠 𝑑𝑎𝑛 𝑡𝑖𝑎𝑝 𝑗 ∈ 1,2,3, … , 𝑡 . Dalam contoh di atas peubah X dan Y tak terdistribusi dengan bebas stokastik sati sama lain, karena misalnya , 𝑃 𝑋 = 1, 𝑌 = 1 = 0 , tapi 1 1 1 𝑃 𝑋 =1 ×𝑃 𝑌 =1 = . = 3 3 9
Pengertian “bebas stokastik” untuk 2 peubah probabilitas dirumuskan juga demikian :
121
𝑃 𝑋 = 𝑥𝑖 𝑌 = 𝑦𝑗 = 𝑃 𝑋 = 𝑥𝑖
𝑢𝑛𝑡𝑢𝑘 𝑡𝑖𝑎𝑝 𝑖 ∈ 1,2, … , 𝑠 𝑑𝑎𝑛 𝑡𝑖𝑎𝑝 𝑗 ∈ 1,2, … , 𝑡
Dua Peubah Kontinu Pabila peubah probabilitas X dan peubah probabilitas Y , kontinu. Teori jadi lebih njelimet . Kedua probabilitas 𝑃 𝑋 = 𝑥, 𝑌 = 𝑦 = 0 dan 𝑃 𝑋 = 𝑥 𝑌 = 𝑦 = 0 dan teorinya harus dirumuskan melalui fungsi kepekatan𝑓 𝑋 = 𝑥, 𝑌 = 𝑦 dan 𝑓 𝑋=𝑥𝑌=𝑦 . Pabila fungsi kepekatan X sama dengan g , fungsi kepekatan Y sama dengan h dan fungsi kepekatan bersama-sama adalah f , maka X dan Y disebut bebas stokastik satu sama lain iff 𝑓 𝑋 = 𝑥, 𝑌 = 𝑦 = 𝑔 𝑋 = 𝑥 𝑌 = 𝑦 𝑢𝑛𝑡𝑢𝑘 𝑡𝑖𝑎𝑝 𝑛𝑖𝑙𝑎𝑖 𝑋 = 𝑥, 𝑑𝑎𝑛 tiap nilai nilai 𝑌 = 𝑦 .
Nilai Harapan untuk 𝑿 + 𝒀 , Variansi (X+Y) , dan Kovariansi (X,Y) Pabila X dan Y berdistribusi probabilitas diskrit𝑃 𝑋, 𝑌 , dan Y diukur skala interval , maka nilai harapan untuk 𝑋 + 𝑌 didefinisikan sbb. : 𝜇𝑋+𝑌 = 𝐸 𝑋 + 𝑌 =
𝑠 𝑡=1
𝑡 𝑗 =1
𝑥𝑖 + 𝑦𝑗 𝑃 𝑥𝑖 , 𝑦𝑗
𝑡 𝑗 =1 𝑥𝑖 𝑃
𝑥𝑖 , 𝑦𝑗 +
𝑠 𝑡=1
𝑠 𝑖=1 𝑥𝑖
𝑡 𝑗 =1 𝑃
𝑥𝑖 , 𝑦𝑗 +
𝑡 𝑗 =1 𝑦𝑗
𝑠 𝑖=1 𝑥𝑖 𝑃
𝑥𝑖 +
=
𝑠 𝑡=1
= =
𝑡 𝑗 =1 𝑦𝑗 𝑃
𝑡 𝑗 =1 𝑦𝑗 𝑃 𝑠 𝑖=1 𝑃
𝑥𝑖 , 𝑦𝑗 𝑥𝑖 , 𝑦𝑗
𝑦𝑗
= 𝐸 𝑋 + 𝐸 𝑌 = 𝜇𝑋 + 𝜇𝑌 Generalisasi , untuk sembarang c dan d diperoleh 𝐸 𝑐𝑋 + 𝑑𝑌 = 𝑐𝐸 𝑋 + 𝑑𝐸 𝑌
122
Contoh Distribusi probabilitas berdimensi 2 untuk peubah X dan Y sbb.:
X 1 2 3
Y 4 0.05 0 0.05 0.1
2 0.1 0.4 0.2 0.7
6 0.1 0.1 0 0.2
0.25 0.5 0.25 1
Distribusi berdimensi 2 didapat 𝐸 𝑋 + 𝑌 = 1 + 2 0.1 + 1 + 4 0.05 + 1 + 6 0.1 + 2 + 2 0.4 + 2 + 4 0 + 2 + 6 0.1 + 3 + 2 0.2 + 3 + 4 0.05 + 3 + 6 0 =5 Boleh jugak kayak ginian : 𝐸 𝑋 = 1 × 0.25 + 2 × 0.5 + 3 × 0.25 = 2 𝐸 𝑌 = 2 × 0.7 + 4 × 0.1 + 6 × 0.2 = 3 _____________ 5 2 Variansi 𝑋 + 𝑌 , diberi notasi 𝜍𝑋+𝑌 𝑑𝑖𝑑𝑒𝑓𝑖𝑛𝑖𝑠𝑖𝑘𝑎𝑛 sebagai nilai harapanuntuk : 𝑋 + 𝑌 − 𝐸 𝑋 + 𝑌 2 = 𝑋 − 𝜇𝑋 + 𝑌 − 𝜇𝑌 2
Maka nilai harapa nya : 𝑠
𝐸 𝑋 − 𝜇𝑋 + 𝑌 − 𝜇𝑌
2
𝑡
=
𝑥𝑖 − 𝜇𝑋 + 𝑦𝑗 − 𝜇𝑌
2
𝑃 𝑥𝑖 , 𝑦𝑗
𝑖=1 𝑗 =1
Sekarang menggunakan 𝜍 , bisa jugak dibuat ginian :
123
2 𝑣𝑎𝑟 𝑋 + 𝑌 = 𝜍𝑋+𝑌 = 𝐸 𝑋 − 𝜇𝑋 + 𝑌 − 𝜇𝑌
= 𝐸 𝑋 − 𝜇𝑋
2
= 𝐸 𝑋 − 𝜇𝑋
2
+ 𝑌 − 𝜇𝑌
2
2
+ 2 𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑌
+ 𝐸 𝑌 − 𝜇𝑌
2
+ 2𝐸 𝑋 − 𝜇𝑋 𝑌 − 𝜇𝑌
2 𝜍𝑋2 + 𝜍𝑦2 + 2𝜍𝑋𝑌 = 𝜍𝑋+𝑌
Notasi 𝜍𝑋𝑌 disebut kovariansi .. 𝜍𝑋𝑌 =
𝑠 𝑖=1
𝑡 𝑗 =1
𝑥𝑖 − 𝜇𝑋 𝑦𝑗 − 𝜇𝑌 𝑃 𝑥𝑖 , 𝑦𝑗
Pabila X dan Y bebas stokastik satu sama lain , maka 𝑃 𝑥𝑖 , 𝑦𝑗 = 𝑃 𝑥𝑖 𝑃 𝑦𝑗 , dan 𝜍𝑋𝑌 bernilai 0 : 𝜍𝑋𝑌 =
𝑠 𝑖=1
= =
𝑡 𝑗 =1 𝑠 𝑖=1
𝑥𝑖 − 𝜇𝑋 𝑦𝑗 − 𝜇𝑌 𝑃 𝑥𝑖 𝑃 𝑦𝑗 𝑥𝑖 − 𝜇𝑋 𝑃 𝑥𝑖
𝑠 𝑖=1 𝑥𝑖 𝑃
𝑥𝑖 − 𝜇𝑋
𝑡 𝑗 =1
𝑦𝑗 − 𝜇𝑌 𝑃 𝑦𝑗
𝑡 𝑗 =1 𝑦𝑗 𝑃
𝑦𝑗 − 𝜇𝑌
= 𝜇𝑋 − 𝜇𝑋 𝜇𝑌 − 𝜇𝑌 = 0 Kovariansi 𝜍𝑋𝑌 digunakan mengukur korelasi liniir peubah X dan Y , keduanya pada skala interval. Koeifisien korelasi momen hasil kali𝜌 𝑑𝑖𝑏𝑎𝑐𝑎 "𝑟𝑜" , mengukur kuatnya korelasi antaraX dan Y . 𝜍
𝜌𝑋𝑌 = 𝜍 𝑋𝑌𝜍
𝑋 𝑌
Jika Y dan Y bebas stokastik satu sama lain , maka 𝜌𝑋𝑌 = 0 ,kerena 𝜍𝑋𝑌 jugak 0 . Umumnya , 0 ≤ 𝜌𝑋𝑌 ≤ 1 . gak percaya ya udah ! Ingat !!!
124
𝜇𝑋+𝑌 , 𝜍𝑋𝑌 , 𝜌𝑋𝑌 , 𝜍𝑋+𝑌 hanya boleh digunakan untuk skala interval dan rasio . Untuk skala nominal dan ordinal gak bermakna itu !
Contoh Di atas diperoleh 𝐸 𝑋 + 𝑌 = 5 , maka 2 𝜍𝑋+𝑌 = 3 − 5 2 × 0.1 + 5 − 5 2 × 0.05 + 7 − 5 2 × 0.1 + 4 − 5 2 × 0.4 + 6 − 5 2 × 0 + 8 − 5 2 × 0.1 + 5 − 5 2 × 0.2 + 7 − 5 2 × 0.05 + 9 − 5 2 × 0
= 0.4 + 0 + 0.4 + 0.4 + 0 + 0.9 + 0 + 0.2 + 0 = 2.3 𝜍𝑋2 = 1 − 2
2
× 0.25 + 2 − 2
𝜍𝑌2 = 2 − 3
2
× 0.7 + 4 − 3
2
2
× 0.5 + 3 − 2
2
× 0.25 = 0.5
× 0.10 + 6 − 3
2
× 0.2 = 2.6
Dengan rumus 2 𝜍𝑋2 + 𝜍𝑦2 + 2𝜍𝑋𝑌 = 𝜍𝑋+𝑌 ,
Kovarians dihitung 𝜍𝑋𝑌 =
1 2
2.3 − 0.5 − 2.6 = −0.4
Dengan demikian
𝜌𝑋𝑌 = −
0.4 0.5×2.6
= −0.35
Kovariansi dapat jugak dihitung langsung sbb.: 𝜍𝑋𝑌 = 1 − 2 + 1−2 + 2−2 + 3−2 + 3−2
2−3 6−3 4−3 2−3 6−3
× 0.1 + 1 − 2 4 − 3 × 0.05 × 0.1 + 2 − 2 2 − 3 × 0.4 × 0 + 2 − 2 6 − 3 × 0.1 × 0.2 + + 3 − 2 4 − 3 × 0.05 × 0 = −0.4
125
BAB 6 DASAR PENGUJIAN HIPOTEIS
6.1
Hipotesis dan Cara Pengujian
Statistik induktif mempelajari cara penarikan kesimpulan mengenai sebuah populasi berdasarkan data sebuah sampel acak . Teori probabilitas dan distribusi probabilitas sebagai dasar statistik induktif. Distribusi probabilitas digunakan untuk mendapatkan sebuah ukuran pengujian (tes statistik) , untuk sebuah distribusi penarikan sampel . Andaikan ingin diketahui apakah sebuah logam Rp 25 dikatakan “setimbang” . Dalam statistika induktif , sebuah hipotesis ditentukan mengenai uang logam ini dan kemudian hipotesis tersebut diuji dengan sebuah percobaanprobabilitas (penarikan sampel ) Hipotesis “uang logam adalah setimbang” berarti bahwa dalam sebuah lemparanberlaku : 𝑃 𝑠𝑖𝑠𝑖 𝑏𝑢𝑟𝑢𝑛𝑔 𝑚𝑢𝑛𝑐𝑢𝑙 = 𝑃 𝑠𝑖𝑠𝑖 𝑎𝑛𝑔𝑘𝑎 𝑚𝑢𝑛𝑐𝑢𝑙 = 0.5 Pengujian hipotesis nya sbb. : Uang logam dilambungkan berapa kali secara bebas stokastik , 20 kali . X menyatakan berapa kali sisi “burung” muncul . Pabila uang logam ini benar-benar setimbang , pendek kata 𝑃 𝑏𝑢𝑟𝑢𝑛𝑔 = 𝑝 = 0.5 , maka “burung” muncul sekitar 10 kali. Misalnya , nilai 7 s/d 13 . Jika X “jauh “ dari 10 , artinya 𝑋 ∈ 0,1, … ,6,14,15, … ,20 , maka hasil percobaan itu probabilitas itu tidak sesuai dengan hipotesisnya , dan hipotesis 𝑝 = 0.5 ditolak. Himpunan yang unsur-unsurnya adalah nilai-nilai X yang dianggap tidak sesuai dengan hipotesis𝑝 = 0.5 dinamakan daerah kritis atau daerah gawat .
126
X 0
6
10
Hipotesis p = 0.5 ditolak
14
20
Hipotesis p = 0.5 ditolak
Daerah kritik 𝐷 = 0,1, … ,6,14 … ,20
Tahap-tahap pengujian hipotesis : (1) Tentukan hipotsis yang hrndak diuji; contoh uang logam , hipotesis nya 𝑝 = 0.5 ; (2) Tentukan ukuran pengujian nya : X adalah jumlah berapa kali sisi “burung” muncul dalam 20 lambungan . Nilai X yang terdapat dalam sampel menentukan apakah hipotesis𝑝 = 0.5ditolak atau tidak ; (3) Tentukan daerah kritis untuk pengujian itu, yaitu tentukan nilainilai X yang dianggap tidak sesuai dengan hipotesis𝑝 = 0.5 ; (4) Tarik sampel acak sederhana : uang logam dilambungkan 20 kali secara bebas stokastik satu sama lain ; (5) Hitung nilai X dalam sampel terpilih . Pabila nilai ini jatuh dalam daerah kritis , hipotesis 𝑝 = 0.5ditolak ; Pabila nilai X dalam sampeltidak jatuh di dalam daerah kritis , Hipotesis di dlam daerah kritis, hipotesisv 𝑝 = 0.5 .
Daerah Kritis dan Kesalahan Jenis Pertama Pemilihan daerah kritis masih bebas. Di atas , daerah kritisnya ditetapkan 𝐷 = 0,1, … ,6,14,15, … ,20 . Pabila diajukan pertanyaan , mengapa tak dipilih 𝐷 = 0, … ,5,15, … ,20 atau 𝐷 = 0, … ,7,13, , … ,20 ? Sebenarnya daerah ini boleh diambil, tapi pilihan D tidak sama sekali bebas : Secara intuitif nilai 10 tidak termasuk di dalam D ! Distribusi probabilitas bagi X akan menentukan nilai-nilai X mana yang termasuk di dalam D .
127
Pabila hipotesis𝑝 = 0.5 benar , maka X berdistribusi binomial , ini tercantum dalam Lampiran 4 . Pabila daerah kritis D diketahui , probabilitas bersyarat 𝑃 𝑋 𝑗𝑎𝑡𝑢 𝑑𝑖 𝑑𝑎𝑙𝑎𝑚 𝐷 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.5 𝑏𝑒𝑛𝑎𝑟 bisa dihitung. Berapa himpunan D, probabilitas bersyarat ini diberikan dalam Tabel berikut : daerah kritis D
Probabilitas bersyarat 𝑷 𝑿 ∈ 𝑫 𝒉𝒊𝒑𝒐𝒕𝒆𝒔𝒊𝒔 𝒑 = 𝟎. 𝟓 𝒃𝒆𝒏𝒂𝒓
𝑫 = 𝟎, 𝟏, … , 𝟓, 𝟏𝟓, … , 𝟐𝟎 𝑫 = 𝟎, 𝟏, … , 𝟔, 𝟏𝟒, … , 𝟐𝟎 𝑫 = 𝟎, 𝟏, … , 𝟕, 𝟏𝟑, … , 𝟐𝟎
0.042 0.116 0,264
Hubungan antara D dan probabilitas bersyarat bahwa pabila D lebih luas , maka 𝑃 𝑋 ∈ 𝐷 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.5 𝑏𝑒𝑛𝑎𝑟 lebih besar . Pabila X jatuh di dalam daerah kritis , hipotesis 𝑝 = 0.5ditolak . Inilah definisi daerah kritis , yaitu probabilitas bersyarat 𝑃 𝑋 ∈ 𝐷 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.5 𝑏𝑒𝑛𝑎𝑟 sama dengan 𝑃
𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.5 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝑝 = 0.5 𝑏𝑒𝑛𝑎𝑟
Ini merupakan probabilitas bahwa kesimpulan yang ditarik atas dasar hasil sampel ( yaitu bahwa hipotesis 𝑝 = 0.5 harus ditolak ) adalah kesimpulan yang salah , karena sesungguhnya hipotesis 𝑝 = 0.5 benar . Kesalahan yang terjadi pabila hipotesisnya ditolak walaupun hipotesis ini sesungguhnya benar , dinamakan kesalahan jenis pertama ( error of type). Probabilitas terjadinya kesalahan jenis pertama dinamakan ukuran kesalahan jenis pertama (size of test atau level of significance ) . Probabilitas terjadinya kesalahan jenis pertama umumnya ditulis dengan 𝛼 , 𝑏𝑎𝑐𝑎 ∶ 𝑎𝑙𝑓𝑎 .
128
𝛼=𝑃
𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.5 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝑝 = 0.5 𝑏𝑒𝑛𝑎𝑟
Diusahakan 𝛼tidak terlalu besar , artinya daerah kritis tidak boleh terlalu besar . Jika daerah kritis kosong , maka 𝛼 = 0 . Pabila demikian, mengapa tak dipilih himpunan D kosong ? Kalok tak ada nilai kritis untuk X, jelas dari definisi nilai kritis dan definisi daerah kritis hipotesis 𝑝 = 0.5 pasti akan diterima . Artinya , tak perlu penarikan sampel (percobaan probabilitas) . Mengapa 𝑝 = 0.2 atau hipotesis 𝑝 = 0.8 tak benar ? Kalok 𝑝 = 0.5 diterima , hipotesis 𝑝 = 0.2 atau hipotesis 𝑝 = 0.8ditolak . Sekalipun 𝑝 = 0.2 benar, hipotsis ini pasti ditolak. Penolakan hipotesis 𝑝 = 0.2 sekalipun sesungguhnya benar, merupakan kesa lahan jenis kedua . Artinya 𝛼 tidak boleh dipilih terlalu kecil, ini akan menyebabkan kesalahan jenis kedua jadi besar kali . Dalam ilmu-ilmu sosial 𝛼 dipilih 0.1,0.05, 𝑎𝑡𝑎𝑢 0.01 . Contoh Seorang sosiolog ingin menguji hipotsis mengenai orang Indonesia yang berumur 10 tahun atau lebih yang berbunyi sbb. : “proporsi yang buta huruf dalam populasi ini sama dengan 0.4 “. Dari populasi ini ditarik acak sederhana sebuah sampel 20 orang . Tanpa pemulihan dan dengan pemulihan hamper sama kerena populasinya besar dan sampel kecil . Andaikanlah X banyak buta huruf dalam sampel. Periset menetapkan hipotesis 𝑝 = 0.4 akan ditolak pabila 𝑋 ∈ 0,1,2,3,4,12,13, … ,20 . Berapalah probabilitas terjadi kesalahan jenis I ? Pabila hipotesis 𝑝 = 𝑃 𝑡𝑒𝑟𝑎𝑚𝑏𝑖𝑙 𝑏𝑢𝑡𝑎 𝑢𝑟𝑢𝑓 = 0.4 𝑏𝑒𝑛𝑎𝑟 , maka X berdistribusi binomial𝐵 𝑛 = 20; 𝑝 = 0.4 . Dari Tabel Lampiran 4 𝛼=𝑃
𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.4 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝑝 = 0.4 𝑏𝑒𝑛𝑎𝑟
129
= 𝑷 𝑋 ∈ 0,1,2,3,4,12,13, … ,20
𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 0.4 𝑏𝑒𝑛𝑎𝑟
= 0 + 0.003 + 0.012 + 0.035 + 0.036 + 0.015 + 0.005 + 0.01 + 0 = 0.107 .
P(X) 0.2
0.1
X 0
5
10
15
20
Luas daerah bergaris seimbang probabilitas 𝜶
6.2
Hipotesis Nol dan Hipotesis Alternatif ; Kesalahan Jenis II
Dalam pengujian hipoteis secara statistik biasanya ada 2 hipotesis yang diuji pada waktu bersamaan . Pabila sebuah hipotesis “ditolak” , yang lain “diterima” . Andaikan hipotesis 𝑝 = 0.5 uang logam ditolak , apa artinya ?
130
Beberapa kemungkinan untuk hipotesis alternative uang diterima adalah (a) 𝑝 ≠ 0.5
(b) 𝑝 > 0.5
(c) 𝑝 = 0.2
Bentuk hipotesis alternatif memengaruhi cara pengujiannya. Hipotesis alternative atau tandingan dinotasikan 𝐻𝑎 atau 𝐻1 . Hipotesis 𝑝 = 0.5 dinamakan hipotesis nol , dinotasikan dengan 𝐻0 . Dalam pasal di atas , yang diuji adalah pasangan hipotesis 𝐻0 ∶ 𝑃 𝑏𝑢𝑟𝑢𝑛𝑔 = 𝑝 = 0.5 dan 𝐻𝑎 ∶ 𝑃 𝑏𝑢𝑟𝑢𝑛𝑔 = 𝑝 ≠ 0.5 . Sekarang akan diuji pasangan hipotesis 𝐻0 ∶ 𝑝 = 0.5 𝑑𝑎𝑛 𝐻𝑎 ∶ 𝑝 = 0.2 Diuji dengan sampel acak sederhana berisi 20 unsur. Uang logam dilambungkan 20 kali secara bebasstokastik satu sama lain dan 𝑋 = 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 burung𝑚𝑢𝑛𝑐𝑢𝑙 . Pabila 𝐻0 benar , peubah X berdistribusi binomial𝐵 20; 0.5 .
0.2
𝑃 𝑋/𝐻0
0.1
0
5
10
15
Distribusi 𝐵 20; 0.5
131
𝑃 𝑋/𝐻𝑎
0.2
0.1
0
5
10
distribusi 𝐵 20; 0.2
Nilai-nilai X membentuk 1,2, … ,20 . Himpunan ini harus disekat menjadi himpunan D 𝑑𝑎𝑒𝑟𝑎 𝑘𝑟𝑖𝑡𝑖𝑠 dan him punan bagian 𝐷 𝑏𝑢𝑘𝑎𝑛 𝐷 , supaya 𝑘𝑎𝑙𝑎𝑢 𝑋 ∈ 𝐷 ⇒ 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝐻0 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝐻1 𝑑𝑖𝑡𝑒𝑟𝑖𝑚𝑎 𝑘𝑎𝑙𝑎𝑢 𝑋 ∈ 𝐷 ⇒ 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝐻𝑎 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝐻0 𝑑𝑖𝑡𝑒𝑟𝑖𝑚𝑎 Distribusi probabilitas pabila 𝐻𝑎 : 𝑝 = 0.2 benar terletak di sebelah kiri dari distribusi probabilitas pabila 𝐻0 : 𝑝 = 0.5 benar . Jadi , nilai X yang kecil lebih sesuai dengan hipotesis 𝐻𝑎 sedangkan nilai X yang besar lebih sesuai dengan hipotesis 𝐻0 . Misalnya , untuk nilai X yang kecil 𝑃 𝑋 ≤ 3 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝐻0 𝑏𝑒𝑛𝑎𝑟 = 0.001
132
sedangkan 𝑃 𝑋 ≤ 3 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 = 0.412 Ini berarti 𝑋 ≤ 3 lebih sesuai dengan 𝐻𝑎 . Untuk nilai X yang besar 𝑃 𝑋 ≥ 10 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝐻0 𝑏𝑒𝑛𝑎𝑟 = 0.588 sedangkan 𝑃 𝑋 ≥ 10 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 = 0.002 , yang berarti 𝑋 ≥ 10 sesuai dengan 𝐻0 . Oleh karena itu daerah kritis nya , yaitu nilai X yang kurang sesuai dengan 𝐻0 , dipilih satu arah (one tailed) dalam bentuk 𝐷 = 𝑛𝑖𝑙𝑎𝑖 𝑋 𝑦𝑎𝑛𝑔 "𝑡𝑒𝑟𝑙𝑎𝑙𝑢 𝑘𝑒𝑐𝑖𝑙" Pabila dipilih 𝐷 = 0,1, … ,6 , maka keputusan atas dasar hasil sampelnya , yaitu atas dasar nilai X , menjadi Nilai X : 0
Keputusan:
6
𝐻0 ∶ 𝑝 = 0.5 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝐻𝑎 𝑑𝑖𝑡𝑒𝑟𝑖𝑚𝑎
20
7
𝐻𝑎 ∶ 𝑝 = 0.2 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝐻0 𝑑𝑖𝑡𝑒𝑟𝑖𝑚𝑎
Kesalahan Jenis kedua Jadi, dengan pilihan kritis 𝐷 = 𝑋 𝑋 ≤ 6 , pabila 𝑋 ∈ 0,1, … ,6 , maka hipotesis 𝐻0 : 𝑝 = 0.5 ditolak walaupun mungkin hipotesis ini sesungguhnya benar . Probabilitas kejadian ini dinamakan probabilitas terjadinya kesalahan jenis I𝛼 dan besarnya sama dengan
133
𝛼=𝑃
𝐻0 : 𝑝 = 0.5 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝐻0 𝑏𝑒𝑛𝑎𝑟
= 𝑃 𝑋 ≤ 6 𝑋 𝑏𝑒𝑟𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝐵 20; 0.5 = 0.058 . Kalau 𝑋 ≥ 7 , hipotesis alternatif𝐻𝑎 : 𝑝 = 0.2 akan ditolak , walaupun mungkin hipotesis 𝐻𝑎 itu sesungguhnya benar . Kesalahan yang terjadi pabila hipotesis alternatif ditolak , walaupun hipote sis ini sesungguhnya benar, dinamakan kesalahan jenis kedua . Probabilitas kejadian ini disebut probabilitas terjadinya kesalahan jenis II. Ukuran kesalahan jenis II ini umumnya dilambangkan dengan huruf 𝛽 . Pabila 𝐻𝑎 : 𝑝 = 0.2 benar , berarti distribusi probabilitas X diketahui , yaitu X berdistribusi binomial 𝐵 20; 0.2 . Jadi , probabilitas terjadinya kesalahan jenis II bisa dihitung : 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑎𝑙𝑡𝑒𝑟𝑛𝑎𝑡𝑖𝑓 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝛽 = 𝑃 𝐻𝑎 : 𝑝 = 0.2 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 = 𝑃 𝑋 ≥ 7 𝑋 𝑏𝑒𝑟𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝑏𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝐵 20; 0.2 = 0.055 + 0.022 + 0.007 + 0.002 + 0 = 0.086 .
134
distribusi X pabila 𝐻𝑎 : 𝑝 = 0.2 benar 0.2
distribusi X pabila 𝐻0 : 𝑝 = 0.5 benar 0.1
0
5
10
15
20
D probabilitas terjadinya kesalahan jenis II = 𝛽 probabilitas terjadinya kesalahan jenis I = 𝛼
Hubungan antara 𝜶 𝒅𝒂𝒏 𝜷
Besarnya 𝛼 berhubungan dengan besarnya 𝛽. Untuk pasangan hipotesis𝐻0 : 𝑝 = 0.5 dan 𝐻𝑎 : 𝑝 = 0.2 , hubungannya liatlah Tabel bawah . Pabila daerah kritisD (daerah penolakan hipotesis 𝐻0 ) diambil kurang luas , maka 𝛼 jadi lebih kecil , tapi 𝛽 makin besar . 𝑫 = 𝑫𝒂𝒆𝒓𝒂𝒉 𝑷𝒆𝒏𝒐𝒍𝒂𝒌𝒂𝒏 𝑯𝟎
𝜶
𝜷
𝟎, 𝟏, 𝟐, 𝟑, 𝟒 𝟎, 𝟏, 𝟐, 𝟑, 𝟒, 𝟓 𝟎, 𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔 𝟎, 𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔, 𝟕 𝟎, 𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔, 𝟕, 𝟖
0.006 0.021 0.058 0.132 0.252
0.37 0.195 0.086 0.031 0.009
135
Hubungan ini berupa pabila 𝛼turun maka 𝛽 naik dan pabila 𝛼 naik maka 𝛽 turun . Hubungan ini juga terlihat dengan kedua distribusi binomialuntuk X , yaitu distribusi 𝐵 20; 0.5 pabila 𝐻0 benar dan distribusi 𝐵 20; 0.2 pabila 𝐻𝑎 benar .
𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 𝐻0 𝑏𝑒𝑛𝑎𝑟
0
𝛼
5
10
15
𝛽
D D kurang luas 𝛼 𝑘𝑒𝑐𝑖𝑙 , 𝛽 𝑏𝑒𝑠𝑎𝑟
136
𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 𝐻0 𝑏𝑒𝑛𝑎𝑟
0
𝛼
5
10
15
𝛽
D D lebih luas 𝛼 𝑏𝑒𝑠𝑎𝑟 , 𝛽 𝑘𝑒𝑐𝑖𝑙
Probabilitas terjadinya kesalahan jenis I , 𝛼 , dan probabilitas terjadinya kesalahan jenis II, 𝛽 , keduanya diinginkan kecil . Tapi pabila cara penarikan sampel sudah diketahui , besarnya 𝛼 dan 𝛽 tak bisa dikecili sembarangan . Contoh berikut keduanya bisa dikecili pabila n dibesari . Contoh Pada waktu pemilu 3 tahun sebelumnya , di sebuah kampung Dapil partai A memperoleh suara 20% . Seorang politikologi menduga partai A sekarang lebih terkenal. Kalok sekarang Pilkada , 40 % akan milih partai A . Andailah hipotesis 𝐻0 : 𝑝 = 0.2 dan 𝐻𝑎 : 𝑝 = 0.4akan diuji dengan sebuah sampel acak sederhana dengan pemulihan 𝑛 = 10. Orang terpilih ditanyak. Andailah X banyak orang dalam sampel yang milih partai A .
137
Kalok daerah kritis berisi nilai X yang sama dengan atau lebih besar dari 4 , berapa besar 𝛼 dan 𝛽? 𝛼 = 𝑃 𝐻0 : 𝑝 = 0.2 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝐻0 𝑏𝑒𝑛𝑎𝑟 = 𝑃 𝑋 ≥ 4 𝑋 𝑏𝑒𝑟𝑑𝑖𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝐵 10; 0.2 = 0.088 + 0.026 + 0.006 + 0.001 + 0 = 0.121 dan 𝛽 = 𝑃 𝐻𝑎 : 𝑝 = 0.4 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 = 𝑃 𝑋 ≤ 3 𝑋 𝑏𝑒𝑟𝑑𝑖𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝐵 10; 0.4 = 0.215 + 0.121 + 0.04 + 0.006 = 0.382 Kalok daerah kritis nya dipilih 𝑋 ≥ 5 , jadi luasnya lebih kecil, maka 𝛼 = 0.033 𝑑𝑎𝑛 𝛽 = 0.633 . Hitung nilai 𝛼 dan 𝛽 ini dan hubungan keduanya . Bagaimana kalok sampel acak sederhana lebih besar , misalnya 𝑛 = 20 ? Kalok daerah kritis nya diambil 𝑋 ≥ 8 , maka 𝛼 = 0.031 dan 𝛽 = 0.415 dan kalok daerah kritisnya 𝑋 ≥ 7 , maka 𝛼 = 0.086 dan 𝛽 = 0.249 . Pengujian hipotesis dengan 𝑛 = 20 ternyata lebih baik daripada poengujian dengan 𝑛 = 10 , karena, kalok 𝛼 diambil kurang lebih sama maka 𝛽lebih kecil untuk 𝑛 = 20 daripada untuk 𝑛 = 10 . Jugak, kalok 𝛽 diambil kurang lebih sama, maka 𝛼 untuk 𝑛 = 20 lebih kecil daripada 𝛼 untuk 𝑛 = 10 . Perhatikan Tabel :
n 10 20
D 𝑋≥5 𝑋≥8
𝜶 0.033 0.031
𝜷 0.633 0.415
10 20
𝑋≥4 𝑋≥7
0.121 0.086
0.382 0.249
138
Keputusan atas dasar Hasil Sampel dan Hipotesis yang Benar Apakah 𝐻0 atau 𝐻𝑎 benar , gak bisa diketahui . Itu tergantung pada hasil sampel . Probabilitas 𝛼, 1 − 𝛼, 𝛽, 1 − 𝛽 disusun dalam Tabel berikut :
Keputusan peneliti atas dasar hasil sampel 𝑯𝟎 ditolak 𝑯𝒂 ditolak
Syarat : hipotesis yang sesungguhnya benar 𝐻0 𝐻𝑎 𝛼 1−𝛼
1−𝛽 𝛽
Probabilitas bersyarat 𝛼 𝑑𝑎𝑛 𝛽 diusahakan supaya kerdil , kerena merupakan probabilitas terjadinya keputusan yang salah . Probabilitas bersyarat 1 − 𝛼 dan probabilitas bersyarat 1 − 𝛽 berarti 1−𝛼 =𝑃
𝐻0 𝑑𝑖𝑡𝑒𝑟𝑖𝑚𝑎 𝑎𝑡𝑎𝑠 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑑𝑎𝑠𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝐻0 𝑏𝑒𝑛𝑎𝑟
1−𝛽 =𝑃
𝐻𝑎 𝑑𝑖𝑡𝑒𝑟𝑖𝑚𝑎 𝑎𝑡𝑎𝑠 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑑𝑎𝑠𝑎𝑟 𝑎𝑠𝑖𝑙 𝑠𝑎𝑚𝑝𝑒𝑙 𝐻𝑎 𝑏𝑒𝑛𝑎𝑟
Kuasa Uji 𝟏 − 𝜷 Probabilitas bersyarat 1 − 𝛽 disebut jugak kuasa uji . Kalok 𝛽mendekati 0 , maka 1 − 𝛽 mendekati 1 , kuasa uji nya besar . Pada prakteknya, sering probabilitas terjadi kesalahan I diambil tetap . misalnya sebesar 0.05 atau 0.01 . Andaikan, untuk 1 pasangan hipitesis bisa digunakan 2 jenis uji . Kalok kesalahan 𝛼 yang diambil sama besarnya untuk 2 uji itu, misalnya 𝛼1 = 𝛼2 = 0.05 , maka kuasa 2 uji ini bisa digunakan untuk memilih uji paling baik .
139
Pabila 𝛽1 < 𝛽2 , yang berarti 1 − 𝛽2 > 1 − 𝛽1 , maka kuasa uji 2 > uji 1 , sehingga uji 2 dipilih .
6.3
Masalah Metodologi
Penolakan Hipotesis dan Penerimaan Hipotesis Istilah “penolakan” (rejection) dan “penerimaan” (acceptance) digunakan dalam statistika. “penolakan hipotesis” berarti “hasil pengamatan menunjukkan keadaaan yang kurang sesuai dengan dengan hipotesis “ dan “penerimaan hipotesis” berarti “menurut hasil pengamatan, keadaannya dapat dianggap sesuai dengan hipotesis “ . Hipotesis Sederhana dan Hipotesis Majemuk Probabilitas terjadinya kesalahan jenis II , 𝛽, bisa dihitung hanya kalok dalam hipotesisi 𝐻𝑎 disebut tepat satu nilai untuk 𝑝 , misalnya 𝑝 = 0.4 atau 𝑝 = 0.8, bukan 𝑝 > 0.4 atau 𝑝 ≠ 0.2. Kalok hipotesisnya 𝐻𝑎 : 𝑝 > 4 benar, maka distribusi probabilitas X belum diketahui dan karenanya 𝛽 gak bisa dihitung . Hipotesis 𝑝 = 0.4 disebut hipotesis sederhana atau hipotesis tunggal ( simple hypothesis ) . Hipotesis 𝑝 > 0.4 adalah hipotesis majemuk.(composite) kerena 𝑝 > 0.4 mempunyai pengertian yang luas , 𝑝 bisa punya nilai banyak di antara 0.4 dan 1 . Pabila hipotesis alternatif mejemuk, maka tiap nilai 𝑝 ada 𝛽 . Kuasa uji 1 − 𝛽 jugak banyak. Pabila hipotesis majemuk , 2 uji bisa dibedakan menurut kurva fungsi kuasa uji . Jika misalnya untuk tiap 𝑝 kurva kuasa uji pertama bernilai lebih besar dari kurva kuasa uji kedua (dengan 𝛼1 = 𝛼2 ) , maka uji pertama lebih baik.
140
Hipotesis Nol Hipotesis Nol adalah hipotesis yang secara relatif lebih penting dari hipotesis alternatif . Hipotesis 𝐻𝑎 tidak perlu harus simpel .𝐻𝑎 diuji tak langsung. 𝐻𝑎 ditolak pabila 𝐻0 diterima atas dasar probabilitas terjadinya kesalahan jenis I , 𝛼 . Tapi pabila kedua hipotesis sederhana, maka 𝐻0 sembarang . Contoh Apakah obat tumorberbahaya ? Sebelum dimakan , diuji dulu pengaruhnya pada sebuah sampel Acak sederhana . Obat tumor dianggap berbahaya , misalnya , pabila 1% atau lebih di antara pasien tumor mendapat pengaruh berbahayadari obat tumor, dan dianggap baik pabila kurang dari 1% . Nilai ukuran kesalahan
𝑃
𝑘𝑒𝑝𝑢𝑡𝑢𝑠𝑎𝑛 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑠𝑎𝑚𝑝𝑒𝑙 ∶ 𝑜𝑏𝑎𝑡 𝑏𝑎𝑖𝑘 𝑜𝑏𝑎𝑡 𝑡𝑢𝑚𝑜𝑟 𝑡𝑖𝑑𝑎𝑘 𝑏𝑎𝑖𝑘
dianggap lebih penting dan berat konsekuensinya dari nilai ukuran kesalahan
𝑃
𝑘𝑒𝑝𝑢𝑡𝑢𝑠𝑎𝑛 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑠𝑎𝑚𝑝𝑒𝑙 ∶ 𝑜𝑏𝑎𝑡 𝑡𝑎𝑘 𝑏𝑎𝑖𝑘 𝑜𝑏𝑎𝑡 𝑡𝑢𝑚𝑜𝑟 𝑏𝑎𝑖𝑘
Jadi , pasangan hipotesis nya 𝐻0 : 𝑝 = 0.001 dan 𝐻𝑎 : 𝑝 < 0.001 . Di sini 𝑝 , proporsi populasi yang dipengaruhi obat tumor berbahaya . Dengan demikian 𝛼 bisa dihitung . 𝛼=𝑃
=𝑃
𝑘𝑒𝑝𝑢𝑡𝑢𝑠𝑎𝑛 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑠𝑎𝑚𝑝𝑒𝑙 ∶ 𝑜𝑏𝑎𝑡 𝑏𝑎𝑖𝑘 𝑜𝑏𝑎𝑡 𝑡𝑢𝑚𝑜𝑟 𝑡𝑖𝑑𝑎𝑘 𝑏𝑎𝑖𝑘 𝑖𝑝𝑜𝑡𝑒𝑠𝑖𝑠 𝑝 = 001 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝑑𝑖𝑡𝑜𝑙𝑎𝑘 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑠𝑎𝑚𝑝𝑒𝑙 𝑝 = 0.001 𝑏𝑒𝑛𝑎𝑟
141
Ukuran 𝛽 tak bisa dihitung . Kalok 𝛽 besar, ini tidak terlalu berat sebab obat tumor tak dimakan kerena dianggap berbahaya , walaupun sesungguhnya obat tumor tak bahaya .
Bentuk Daerah Kritis : Satu Arah dan Dua Arah Kalok pasangan hipotesis diuji sbb.: 𝐻0 : 𝑝 = 0.5 dan 𝐻𝑎 : 𝑝 ≠ 0.5 Biasanya daerah kritisnya diambil 2 arah . Daerah kritis berisi nilai X yang terlalu jauh di sebelah kanan dan terlalu jauh di sebelah kiri dari nilai harapan X, yaitu 𝜇 = 𝑛𝑝 . Kalok hipotesis alternatifnya 𝐻𝑎 : 𝑝 > 0.5 𝑎𝑡𝑎𝑢 𝐻𝑎 : 𝑝 = 0.2 maka daerah kritisnya cumak 1 arah .
pasangan hipotesis
daerah kritis
X
(1) 𝐻0 : 𝑝 = 0.5 𝑎𝑡𝑎𝑢 𝐻𝑎 : 𝑝 ≠ 0.5 0
n X
(2) 𝐻0 : 𝑝 = 0.5 𝑎𝑡𝑎𝑢 𝐻𝑎 : 𝑝 > 0.5 0
n X
(3) 𝐻0 : 𝑝 = 0.5 𝑎𝑡𝑎𝑢 𝐻𝑎 : 𝑝 = 0.2 0
n
Penyajian Hasil Pengujian Pabila daerah kritisD diketahui, maka probabilitas terjadinya kesalahan jenis I bisa dihitung . Dalam ilmu-ilmu sosial , 𝛼 ditetapkan 0.05 atau 0.01 dan kemudian daerah kritisnya dihitung .
142
Di sini, 𝛼 disebut taraf penolakan uji (significance) . Andaikanlah pasangan hipotesis 𝐻0 : 𝑝 = 0.25 𝑎𝑡𝑎𝑢 𝐻𝑎 : 𝑝 > 0.25 diuji dengan sebuah sampel acak sederhana𝑛 = 20 . Dalam sampel terdapat 𝑋 = 8 . Apakah 𝐻0 ditolak ? Hipotesis 𝐻𝑎 satu arah : 𝑋 ≥ 𝑎 , dan nilai 𝑎 harus ditetapkan . Katakanlah 𝑎 ditentukan 8, yaitu nilai ukuran pengujian 𝑋 dalam sampel . Pabila 𝐻0 benar , 𝑋 berdistribusi binomial 𝐵 20; 0.25 dan 𝑃 𝑋 ≥ 8 𝐻0 benar = 0.102 . Jadi , pabila 𝛼 dipilih 0.2 , pasti 𝑋 = 8 termasuk di daerah kritis . Pabila 𝛼 dipilih < 0.102 , misalnya 0.02 , maka 𝑋 = 8 belum termasuk di daerah kritis . Pilihan 𝛼 sembarangan aja , apakah 𝛼 = 0.2 , 0.001 𝑎𝑡𝑎𝑢 0.05 .
6.1
Uji Tanda
Pengujian hipotesis mengenai populasi BERNOULLI , yaitu hipotesis berbentuk 𝑝 = 𝑝0 0 < 𝑝0 < 1 , disebut uji binomial kerna ukuran pengujiannya berdistribusi binomial pabila 𝐻0 𝑏𝑒𝑛𝑎𝑟 . Uji hipotesis 𝑝 = 0.5 disebut jugak uji tanda . Uji ini meneliti apakah nilai unsur-unsur populasi secara sistematik lebih besar dari 0 ( atau bilangan lain) , diberi tamda positif , lebih kecil dari 0, diberi tanda negatif . Di dalam pengamatan , hanya diberi tanda +, − . Ada 2 : (1) uji median populasi dan (2) hipotesis perbedaan sistematik antara 2 populasi , dengan 2 sampel berpadanan atau dengan 2 sampel berhubungan . Median Populasi Hipotesis yang diuji berbentuk 𝑃 𝑌 > 𝐴 = 𝑃 𝑌 < 𝐴 , 𝑑𝑖 𝑚𝑎𝑛𝑎 Y peubah dalam distribusi populasi . Pabila 𝑃 𝑌 = 𝐴 bernilai kecil , hipotesis di atas kurang lebih ekivalen dengan hipotesis 𝐻0 ∶ 𝑚𝑒𝑑𝑖𝑎𝑛 𝑝𝑜𝑝𝑢𝑙𝑎𝑠𝑖 = 𝐴. Pabila relatif terlalu banyak nilai A dalam poipulasi, mungkin median populasi sama dengan A ,tapi 𝑃 𝑌 > 𝐴 ≠ 𝑃 𝑌 < 𝐴 . Berikut sebuah populasi berisi 100 unsur .
143
𝒚𝟏
𝒚𝟐 … 𝒚𝟒𝟎
𝒚𝟒𝟏 … 𝒚𝟓𝟎
↓ Median
𝒚𝟒𝟏 … 𝒚𝟓𝟎
𝒚𝟗𝟏 … 𝒚𝟏𝟎𝟎
𝑦41 … 𝑦90 = 𝐴
40 unsur lebih kecil dari A
10 unsur lebih besar dari A
Andailah hipotesis 𝐻0 ∶ 𝑀𝑒 = 𝐴 dan hipotesis alternatif 𝐻𝑎 ∶ 𝑀𝑒 ≠ 𝐴diuji dengan sampel acak sederhana (dengan pemilihan ) dan 𝑛 = 100 . Pabila hipotesis 𝐻0 benar , maka X (banyaknya unsur dalam sampel yang lebih besar dari A ) berdistribusi binomial 𝐵 100; 0.5 . Andaikan dalam sampel ini terdapat 59 pengamatan yang nilainya lebih besar dari A . Apakah hasil sampel ini sesuai dengan 𝐻0 ? Distribusi 𝐵 100; 0.5 dapat didekati dengan distribusi normal dengan 𝜇 = 𝑛𝑝 𝑑𝑎𝑛 𝜍 =
𝑛𝑝 1 − 𝑝 = 5
Dengan demikian 𝑃 𝑋𝑏𝑖𝑛 ≥ 59 = 𝑃 𝑋𝑛𝑜𝑟𝑚𝑎𝑙 ≥ 58.5
=𝑃 𝑍≥
58.5−50 5
= 0.045
Z berdistribusi 𝑁 0,1 . 𝐻𝑎 , 2 arah . Jadi, pabila nilai 𝑋 = 59 merupakan batas daerah kritis kanan, maka tingkat penolakan uji nya 2 × 0.045 = 0.09 . Pabila 𝛼 sebelumnya ditetapkan 0.05 , maka hipotesis 𝐻0 diterima . Jika 𝛼 ≥ 0.09 , 𝐻0 ditolak dan diterima untuk 𝛼 < 0.09 .
Sampel Berpadanan dan Sampel Berhubungan Dua populasi dapat dibandingkan dengan mengambil 2 sampel acak sederhana dari masing-masing populasi , sampel diambil bebas stokastik satu sama lain.
144
Sampel berpadanandanberhubungantidak bebas stokastik . Andailah sebuah himpunan orang diwawancarai 2 kali. Wawancara kedua dilakukan beberapa menit, jam, bulan, atau tahun setelah wawancara pertama dilakukan . Sampel diambil acak sederhana pada waktu wawan cara I dan wawan cara II pada orang-orang sama . Tiap responden ditanyak 2 kali . Ini bisa diasumsikan penelitian 2 populasi dengan 2 sampel . Contoh Sebuah kampung mendapat bantuan program Pemkab . Seorang sosiolog ingin kali mengetahui apakah pendapatan orang di kampong itu naik setelah dikasih bantuan ? Sampel acak sederhana ditarik dari populasi pada tahun awal dilakukannya bantuan itu dan pendapatan diukur pada tahun itu. Dah itu, 2 tahun kemudian pendapatan tiap orang yang sudah pernah ditanyak diukur kembali. Pastilah ada hubungan antara 2 pengukuran pada satu orang , sampelnya disebut berhubungan . Sampel I berisi 24 pendapatan tahun permulaan program, dan sampel II berisi 24 pendapatan 2 tahun kemudian , sampel berhubungan . Katakanlah X banyak orang dalam sampel dengan pendapatan 2 lebih besar dari pendapatan 1 . Ukuran X bisa digunakan untuk menguji dengan uji tanda hipotesis mengenai populasi . 𝐻0 : 𝑃 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 2 > 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 1 = 𝑃 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 2 < 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 1 = 0.5 𝐻𝑎 : 𝑃 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 2 > 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 1 > 0.5
145
Nomor orang Pendapatan 1 Pendapatan 2 Nomor orang Pendapatan 1 Pendapatan 2 Nomor orang Pendapatan 1 Pendapatan 2
1
2
3
4
5
6
7
8
300
400
150
500
600
2400
450
1200
250
400
200
550
700
3600
600
1100
9
10
11
12
13
14
15
16
700
550
200
250
200
500
350
1500
900
600
150
200
200
600
300
2000
17
18
19
20
21
22
23
24
100
400
300
350
1700
150
400
450
100
450
250
350
2100
100
450
550
𝐻0 di atas menyebutkan bahwa populassi banyak orang yang pendapatan nya naik sama dengan banyaknya orang yang pendapatannya turun . Uji tanda hanya menggunakan keterangan mengenai nainya pendapatan atau turunnya pendapatan. Hasil sampel bisa ditulis dengan + pabila pendapatan, 0 pabila pendapatan tetap , atau – pabila pendapatan turun .
No :
1
2
3
4
5
6
7
8
9
Tanda
–
0
+
+
+
+
+
–
+
No :
10
11
12
13
14
15
16
17
18
Tanda
+
–
–
0
+
–
+
0
+
No :
19
20
21
22
23
24
Tanda
–
0
+
–
+
+
146
Pabila pendapatan tahunan tetap, artinya pendapatan 2 sama dengan pendapatan 1 , maka pengamayan ini dikeluarkan dari sampel . Yang diteliti hanya pendapatan yang berubah , menurut 𝐻0 . Jadi, hipotesis diuji dengan 20 pengamatan , 13 kali tanda + dan 7 kali tanda –. Pabila 𝐻0 benar , peubah probabilitas X (banyak tanda + dalam sampel ) berdistribusi 𝐵 20; 0.5 . Daerah kritis satu arah . Pabila 𝐻0 benar , maka probabilitas diperolehnya nilai sampel 𝑋 = 13 atau nilai yang lebih besar dari 13 sama dengan 𝑃 𝑋 ≥ 13 𝐻0 benar = 0.132 . 𝐻0 ditolak untuk tiap nilai 𝛼 ≥ 0.132 . Pabila 𝐻0 ditolak, belum membuktikan bantuan Pemkab menyebabkan ke naikan pendapatan . Peubah lain mungkin menyebabkan kenaikan . Pabila ingin melihat kenaikan murni, inflasi harus dihilangkan . Mungkin juga , batuan Pemkab hanya menyebabkan kenaikan pendapatan satu lapisan masyarakat saja , misalnya PNS yang “menyelewengkan jabatannya “ . Pedagang , pendapatan mereka naik mungkin karena organisasinya lebih tepat guna bukan karena bantuan Pemkab. Apa kelebihan ,2 sampel berhubungan ini dengan 2 sampel acak bebas stokastik ? Dalam 2 sampel berhubungan , distribusi untuk berbagai peubah tetap, misalnya umur ( distribusi umur hanya pindah 2 tahun ke kanan ) , pendidikan ,dll. kerena orang dalam 2 sampel orang yang sama . Sampel berpadanan jugak menunjukkan adanya hubungan antara satu orang dalam sampel 1 dan satu orang dalam sampel 2 . Tapi di sini tiap pasangan terdiri dari pengamatan 2 orang berbeda. Tapi lagi, berbagai peubah , seperti umur, kelamin, dan pendidikan , tetap . Jadi , dari populasi 1 , sebuah sampel ditarik. Kemudian dicari di populasi 2 , orang yang cocok dengan tiap orang dalam sampel 1. Peubah-peubah yang diteliti tidak dikontrol , dan peubah lain dikontrol . Misalnya , sikap penduduk terhadap fasilitas kota diteliti di 2 kota. Beberapa peubah dibuat tetap (ceteris paribus) kerena hendak dibedakan khususnya sikap penduduk kota 1 dengan sikap penduduk kota 2.
147
Bukan meneliti perbedaan sikap yang berumur 20 sampai 30 tahun dengan sikap berumur 31 tahun ke atas , atau sikap perempuan dan sikap lelaki.
BAB 7 HIPOTESIS MENGENAI SATU POPULASI DAN PENDUGAAN INTERVAL
7.1
Hipotesis mengenai 𝝁 dalam Populasi 𝑵 𝝁; 𝝈
Hipotesis mengenai 𝜇 akan diuji dengan ukuran pengujian (test statistic) 𝑋 , yaitu rerata sampel acak sederhana . Kerenanya , distribusi penarikan sampel untuk 𝑋harus diketahui pabila 𝐻0 (semisal 𝜇 = 30) benar . Hipotesis 𝐻0 ditolak pabila hasil sampel dianggap tak sesuai 𝐻0 .
Distribusi 𝑿 untuk sembarang Populasi Andaikan sebuah populasi , mempunyai rerata𝜇 , simpangan baku 𝜍 dan banyak unsur 𝑁 . 𝑋rerata𝑛 𝑢𝑛𝑠𝑢𝑟 dalam sampel acak sederhana ditarik dari populasi . Untuk distribusi penarikan sampel 𝑋 berlaku
𝜇𝑋 = 𝐸 𝑋 = 𝜇 Jadi , 𝑋penduga tak bias untuk 𝜇 . Pabila sampel nya ditarik dengan pemulihan , maka untuk distribusi 𝑋 berlaku
𝜍𝑋 =
𝐸 𝑋 − 𝜇𝑋
2
=
𝜍 𝑛
Pabila tak dipulihin , maka untuk distribusi 𝑋 berlaku :
148
𝜍𝑋 =
𝜍 𝑛
𝑁−𝑛 𝑁−1
Pabila 𝑁 ≫ 𝑛 , artinya N jauh lebih besar dari n , maka
𝑁−𝑛 𝑁−1
≈ 1.
Demikinlah, untuk penarikan tanpa dipulihin diperoleh
𝜍𝑋 =
𝜍 𝑛
Kasus 𝑁 ≫ 𝑛 terjasi pabila sampelnya (terhingga) ditarik dari populasi tak hingga , misalnya ditarik dari populasi kontinu seperti populasi normal . Contoh Andai sebuah populasi berisi bilangan 0,1,2,5 . Distribusi populasi nya :
X: P(X) :
0
1
1 4
2
1 4
5
1 4
1 4
dengan 𝜇=𝐸 𝑋 =2 𝜍=
𝐸 𝑋−𝜇
2
=
1 4
1
1
1
4
4
2
.4+ .1+ .9 =
14
Dari populasi ini salanjutnya ditrik sampel acak sederhana dengan pemulihan yang terdiri dari 2 unsur . Pabila 𝑋 rerata sampel , maka distribusi penarikan sampel 𝑋 : 𝑿:
0
𝑷 𝑿 :
1 16
𝟏 𝟐 2 16
1 3 16
𝟏 𝟏 𝟐 2 16
2 1 16
𝟏 𝟐 𝟐 2 16
3 2 16
𝟏 𝟑 𝟐 2 16
5 1 16
Demikianlah ,
𝜇𝑋 =
0+1+3+3+2+5+6+7+5 16
=2 149
𝜇𝑋 = 𝜇 = 𝑟𝑒𝑟𝑎𝑡𝑎 𝑝𝑜𝑝𝑢𝑙𝑎𝑠𝑖 . Demikianlah
𝜍𝑋 2 = 𝐸 𝑋 − 𝜇𝑋 =
1 16
2
=
𝑋 − 2 2𝑃 𝑋
𝑋
1
1
1
1
2
2
2
2
4 + 4 + 3 + + 0 + + 2 + 4 + 9 = 7/4
1
𝜍𝑋 = 2 7 =
𝜍 𝑛
Pabila tanpa pemulihan , maka : 𝟏 𝟐 1 6
𝑿: 𝑷 𝑿 :
𝟏 𝟏 𝟐 1 6
1 1 6
𝟏 𝟐 𝟐 1 6
3 1 6
𝟏 𝟑 𝟐 1 6
Sehingga 𝜇𝑋 = 2 𝑑𝑎𝑛 𝜍𝑋 2 =
𝜍𝑋 =
𝜍 𝑛
1 1
1 1
1
6 24+1+4+4+1+24 𝑁−𝑛 𝑁−1
=
= 7/6
7 6
Distribusi𝑿untuk Populasi 𝑵 𝝁; 𝝈 Pabila peubah acak X populasi bedistribusi normal , maka rerata sampel acak sederhana 𝑋 juga berdistribusi normal . Populasi normal bersifat tak hingga karena X kontinu . Ini berarti banyak nilai yang diujudkan X tak hingga. Jadi diasumsikan sampel diterik dengan pemulihan : n unsur dari tak hingga . Jadi,
𝜇𝑋 = 𝜇 𝜍𝑋 =
𝜍 𝑛
150
Demikianlah , distribusi sampelnya 𝑁 𝜇;
𝜍 𝑛
Hipotesis 𝝁 = 𝑨 pabila 𝝈 diketahui Sekarang hipotesis mengenai 𝜇 untuk populasi 𝑁 𝜇; 𝜍 bisa diuji . Pabila 𝜍populasidiketahui dan hipotesis nol menyatakan 𝜇 = 𝐴 , maka distribusi ukuran pengujian 𝑋diketahui pabila 𝐻0 benar . Jadi 𝑋berdistribusi 𝑁 𝐴;
𝜍 𝑛
pabila 𝐻0 benar .
𝜍𝑋 =
𝜍 𝑛
𝑋 𝜇=𝐴
Nilai kritis
Nilai kritis
Pabila 𝑋berada “terlalu jauh” dari A , maka hipotesis 𝐻0 ditolak . Pabila hipotesis alternatifnya 𝐻𝑎 : 𝜇 ≠ 𝐴 , maka daerah kritis berbentuk 2 arah dan probabilitas terjadi kesalahan jenis I , 𝛼 bisa dihitung . Contoh Sebuah populasi berdistribusi normal 𝜍 = 10 . Andai hipotesis yang diuji 𝐻0 : 𝜇 = 30
vs
𝐻𝑎 : 𝜇 ≠ 30
151
Sebuah sampel acak sederhana 25 unsur ditarik dari populasi . Andai rerata sampel diperoleh 27 . Apakah 𝐻0 ditolak ? Pabila 𝐻0 benar , maka 𝑋 berdistribusi 𝑁 30;
10 25
.
Demikianlah , probabilitas bahwa hasil sampel sama dengan atau lebih kecil dari 27 , pabila 𝐻0 benar , bisa dihitung 𝑃 𝑋 ≤ 27 𝐻0 𝑏𝑒𝑛𝑎𝑟 = 𝑃 𝑍 ≤
27−30 2
= 𝑃 𝑍 ≤ −1.5 = 0.0668
Di sini Z adlah peubah probabilitas normal standar .
1 𝛼 = 0.0668 2
1 𝛼 2
26
28
30
34
32
Kerena daerah kritis nya 2 arah ,maka taraf penolakan uji untuk hasil 𝑋 = 27samadengan2 × 0.0668 = 0.1336 . Demikianlah , 𝐻0 ditolak untuk tiap 𝛼 ≥ 0.1336 . Andailah pasangan hipotesis 𝐻0 : 𝜇 = 30
vs
𝐻𝑎 : 𝜇 = 25
jugak 𝑋diketahui pabila 𝐻𝑎 benar , yaitu 𝑁 25; 2 sehingga probabilitas terjadi kesalahan jenis II , 𝛽 bisa dihitung . Daerah kritis 1 arah . Pabila ditetapkan 𝛼 = 0.05 , maka daerah kritis nya
𝑋 ≤ 26.7 . 152
Pabila𝑃 𝑋 ≤ 𝑎 = 0.05 , maka 𝑃 𝑍≤
𝑎−30 2
= 0.05
Nilai a dihitung dari persamaan 𝑎−30
= −1.65 → 𝑎 = 26.7
2
Pabila 𝐻𝑎 benar 𝑁 25; 2
Pabila 𝐻0 benar 𝑁 30; 2
𝛼 𝛽
𝑋 25
Nilai kritis
27
30
26.7
Berdasarkan daerah kritis 𝑋 ≤ 26.7 , ukuran kesalahan 𝛽 dapat dihitung sbb. : 𝐻𝑎 ditolak atas 𝑠𝑒𝑠𝑢𝑛𝑔𝑔𝑢𝑛𝑦𝑎 𝛽=𝑃 dasar hasil sampel 𝐻𝑎 𝑏𝑒𝑛𝑎𝑟 = 𝑃 𝑋 ≤ 26.7 =𝑃 𝑍≤
𝑋 𝑏𝑒𝑟𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝑁 25; 2
26.7−25 2
= 𝑃 𝑍 ≥ 0.085 = 0.1977
Pabila 𝛼ditetapkan sebesar 0.05 , maka 𝛽 = 0.1997 dan hasil sampel 𝑋 = 27 belum termasuk ke dalam daerah kritis 𝑋 ≤ 26.7 , jadi 𝐻𝑎 .
153
Hipotesis 𝝁 = 𝑨 pabila 𝝈takdiketahui; DistribusiStudent Pada prakteknya, simpangan baku 𝜍tak diketahui . Hitungan di atas gak laku lagi . Demikianlah , 𝜍populasi diganti dengan penduga nya , yaitu S (simpangan baku sampel ) . Ibaratkan 𝑋berdistribusi 𝑁 𝜇; 𝑋 −𝜇 . 𝜍
berdistribusi 𝑁
𝜇 −𝜇
𝜍
𝜍 𝑛
, maka peubah
𝑛
. 𝑛;
𝑋−𝜇 𝜍
. 𝑛.
𝜍 𝑛
= 𝑁 0; 1 .
Pabila 𝜍tak diketahui nilainya, maka diganti S , maka ukuran pengujian hipotesis bahwa 𝜇 = 𝐴ditranformasi dengan 𝑇=
𝑋−𝜇 𝑆
. 𝑛.
Jadi peubah T tegantung 2 peubah probabilitas , 𝑋 𝑑𝑎𝑛 𝑆 . Distribusi probabilitas T sudah tua (tahun 1900) disebut distribusi Studentdengan derajat bebas sama dengan 𝑣 = 𝑛 − 1( degrees of freedom ) , distribusi –t . STUDENT , nama samara seorang Mahasiswa Matematik Amrik , tapi marga nya gak tau kita, yang jelas bukan TOGATOROP . Di buku lain diganti lagi nama Aliasnya, orang jenius emang sukak nyentrik. Sifat Distribusi Student : (a) 𝑟𝑒𝑟𝑎𝑡𝑎 = 0 (b) Distribusi bersifat kontinu , simetrik (balans) dan berpuncak satu , jadi 𝑀𝑒 = 𝑀𝑜 = 0 (c) Simpangan baku sama dengan
𝜍=
𝑣 𝑣−2
=
2
1 + 𝑣−2 pabila 𝑣 > 2 ; 154
(d) Pabila 𝑣 = 𝑛 − 1 → ∞ , makadistribusi-t mendekati distribusi normalbaku 𝑁 0; 1 . Kayak ginian :
𝜍=
𝑣 𝑣−2
=
𝑛−1 𝑛−3
=
∞ ∞−2
= 1
Pokoke , distribusi –t dengan 𝑣 ≥ 30diasumsikan kurang lebih sama dengan distribusi 𝑁 0; 1 . Illumination , fungsi kepekatandistribusi-t untuk 𝑣 = 5 𝑑𝑎𝑛 𝑣 =
2disandingkan dengan distribusi 𝑁 0; 1 .
𝑁 0; 1
𝑠𝑡𝑢𝑑𝑒𝑛𝑡 𝑣=5
−4 −3 −2 −1 0 1
2
3 4
Dalam Tabel Lampiran 6 disajikan fraktil untuk berapa distribusi-t untuk 𝑣 = ∞yang persis sama dengan fraktil-fraktil distribusi 𝑁 0; 1 . Jadi , pabila nilai 𝜍populasi tak diketahui , maka ambillah 𝑇 = 𝑋 −𝜇 . 𝑆
𝑛sebagai ukuran pengujian hipotesis mengenai rerata populasi .
Pabila 𝐻0 : 𝜇 = 𝐴 benar , maka
𝑋 −𝐴 . 𝑆
𝑛berdistribusi –t dengan derajat bebas
, 𝑑𝑏 = 𝑣 = 𝑛 − 1 . Kalok 𝑛 ≥ 30 , distribusi –t kurang lebih sama dengan distribusi normal baku𝑁 0; 1 .
155
Contoh Sebuah populasi berdistribusi normal . Diberi hipotesis 𝐻0 : 𝜇 = 7.2 vs 𝐻𝑎 : 𝜇 > 7.2 dengan sebuah sampel acak sederhana 𝑛 = 10 unsur . Katakanlah sampel nya 15,9,3,12,7,5,13,6,4,6 . Jadi , 𝑋 = 8 𝑑𝑎𝑛 𝑆 = 4.1untuk sampel . Kerena nilai 𝜍 tak tahu , maka pengujian hipotesis digunakan ukuran pengujian 𝑇 =
𝑋−𝜇 𝑆
. 𝑛.
Pabila 𝐻0 benar , maka ukuran pengujian 𝑇 =
𝑋−7.2 . 𝑆
10berdistribusi –
tdengan𝑑𝑏 = 9 . Untuk sampel ini, ukuran pengujian bernilai : 𝑇=
8−7.2 . 4.1
10 = 0.62
Dari Tabel Lampiran 6 diperoleh 𝑇0.75 𝑑𝑏 = 9 = 0.703 . Daerah kritis berbentuk 1 arah . Pabila 𝛼 = 0.25 , hipotesis 𝐻𝑎 ditolak kerena 𝑇 = 0.62tidak jatuh di dalam daerah kritis .
luas daerah 0.25
T −2
−1
0
0.62
1
2
𝑇0.75 𝑑𝑏 = 9 = 0.703
156
Pabila sampel acak sederhana 𝑛 = 100 dan 𝑋 = 8 𝑑𝑎𝑛 𝑆 = 4.1 , bagaimana pengujiannya ? Pabila 𝐻0 benar, peubah 𝑇 = 1.95 , 𝑑𝑏 = 99 . Dari Tabel Lampiran 6 diperoleh 𝑇0.975 𝑑𝑏 = 99 = 1.98(lihat baris dengan 𝑑𝑏 = 120, yang berarti 1.95 ≈ 𝑇0.975 𝑑𝑏 = 99 . Jadi, untuk tiap 𝛼 > 0.025 , 𝐻0 ditolak kerena nilai masuk dlam daerah kritis. Kerena 𝑑𝑏 = 99 besar , maka
𝑋 −7.2 . 𝑆
100hampirberdistribusi 𝑁 0; 1 .
Untuk distribusi normal baku (Tabel Lampiran 6 untuk 𝑑𝑏 = ∞ atau Tabel Lampiran 5 ) , fraktil0.975 = 1.96 , jadi dekat sekali dengan 𝑇0.975 𝑑𝑏 = 99 = 1.98 . Ini berarti fraktil distribusi normal baku boleh digunakan untuk mendekati fraktildistribusi-t dengan 𝑑𝑏 = 99 .
0.025
T 0 1.95 1.98
157
7.2
Pendugaan Interval untuk 𝝁 dari Populasi 𝑵 𝝁; 𝝈
Andailah hipotesis mengenai 𝜇 menyatakan 𝜇 = 𝐴 dan rerata sampel ack sederhana sama dengan 𝑥0 . Apakah hipotesierena s 𝜇 = 𝐴 sesuai dengan 𝑥0 ? Artinya , apkah 𝑥0 masuk dalam daerah kritis ? pabila 𝛼 diketahui . Andai daerah kritisnya 2 arah dan 𝑥0 𝑡𝑎𝑘 𝑚𝑎𝑠𝑢𝑘 𝑑𝑎𝑒𝑟𝑎 𝑘𝑟𝑖𝑡𝑖𝑠 .
𝑁 𝐴;
𝜍 𝑛
𝑁 𝐵;
𝜍 𝑛
1 𝛼 2
1 𝛼 2
𝑋 A
B 𝑥0
Ini berarti hipotesis 𝜇 = 𝐴 diterima . Pabila hipotesis mengenai 𝜇 populasi menyatakan 𝜇 = 𝐵 , maka hipotesis ini juga diterima , kerena 𝑥0 juga tak termasuk dalam darah kritis distribusi 𝑁 𝐵;
𝜍 𝑛
.
Dugaan interval untuk 𝜇 , pabila 𝛼 diketahui (misalnya 0.05) berisi semua nilai 𝜇 yang akan diterima atas dasar nilai sampel 𝑥0 . Dugaan interval ini disebut juga interval kepercayaan 1 − 𝛼 100% untuk 𝜇( confidence) . Berikut digambarkan interval kepercayaan berbentuk 2 arah kerena daaerah kritisnya 2 arah . Pada gambar, 𝜇𝑏 = 𝜇𝑏𝑎𝑤𝑎 sama dengan nilai untuk 𝜇 supaya 𝑥0 terletak pada batas daerah kritis di sebelah kanan. Dan 𝜇𝑎 = 𝜇𝑎𝑡𝑎𝑠 sama dengan nilai untuk 𝜇 supaya 𝑥0 terletak pada batas daerah kritis di sebelah kiri .
158
Untuk semua nilai 𝜇 yang bersifat 𝜇𝑏 ≤ 𝜇 ≤ 𝜇𝑎 , 𝑥0 tidak termasuk daerah kritis . Jadi semua nilai 𝜇 dalam interval ini dianggap “sesuai dengan hasil sampel : 𝑥0 “ Perhitungan 𝜇𝑏 𝑑𝑎𝑛 𝜇𝑎 dilakukn sbb.: Pabila 𝑥0 adalah batas daerah kritis di sebelah kanan , maka 𝑥0 adalah fraktil 1
1− 𝛼 2
untuk distribusi 𝑁 𝜇𝑏 ;
𝜍 𝑛
atau
𝑍
1 2
1− 𝛼
=
𝑥 0 −𝜇 𝑏 𝜍
𝑛adalah
1
fraktil 1 − 𝛼 untuk distribusi 𝑁 0; 1 . 2
Jadi 𝜇𝑏 = 𝑥0 − 𝑍
1−12𝛼
𝜍 𝑛
.
1 𝛼 2
1 𝛼 2
𝑋 𝜇𝑏
𝑥0
𝜇𝑎
Interval kepercayaan 1 − 𝛼
Hasil sampel ,𝒙𝟎 , sesuai dengan tiap nilai 𝝁 antara 𝝁𝒃 dan 𝝁𝒂
𝒙𝟎
159
𝑁 𝜇𝑏 ;
𝜍 𝑛
1 𝛼 2
𝜇𝑏 𝑥1−1𝛼 = 𝑥0 2
𝑁 𝜇𝑎 ;
1 𝛼 2
𝜍 𝑛
𝜇𝑎 𝑥1𝛼 = 𝑥0 2
𝒙𝟎 pada batas daerah kritis
Pabila 𝑥0 batas daerah kritis di sebelah kiri , maka 𝑥0 adalah fraktil untuk distribusi 𝑁 𝜇𝑎 ;
𝜍 𝑛
𝑥 0 −𝜇 𝑎
atau
𝜍
1
𝑛adalah fraktil 2 𝛼
1 2
𝛼
untuk
distribusi𝑁 0; 1 = 𝑍1𝛼 . 2
Jadi ,
𝜇𝑎 = 𝑥0 − 𝑍1𝛼 2
𝜍 𝑛
= 𝑥0 + 𝑍
1 2
1− 𝛼
𝜍 𝑛
160
Singkat kata, pabila sebuah sampel acak sederhana ditarik dari populasi normal ,dan rerata sampel ini sama dengan 𝑥0 , maka intervalkepercayaan 2 arah 1 − 𝛼 untuk 𝜇 populasinya adalah
𝑥0 − 𝑍 1−1𝛼 2
𝜍 , 𝑛
𝑥0 + 𝑍 1−1𝛼 2
𝜍 𝑛
di sini Z adalah peubah probabilitas normal baku, 𝜍adalah simpangan baku populasi dan n adalah banyaknya unsur dalam sampel . Usually , nilai 𝜍populasi gak tahu dan 𝜍ditransformasi dengan nilai S sampel . 𝑥 0 −𝜇𝑏 1 Di sini belakulah 𝑛adalah fraktil 1 − 2 𝛼 untuk distribusi-t ( 𝑆 𝑥 0 −𝜇𝑏 1 𝑑𝑏 = 𝑛 − 1 = 𝑇 1−1𝛼 dan 𝑛adalah fraktil2 𝛼 untuk distribusi-t 𝑆 2 𝑑𝑏 = 𝑛 − 1 = 𝑇1𝛼 . 2
Interval kepercayaan 1 − 𝛼 2 arah , di sini
𝑥0 − 𝑇 1−1𝛼 2
𝑆 , 𝑛
𝑥0 + 𝑇 1−1𝛼 2
𝑆 𝑛
Ini sesuai teori pertama yang sudah Anda bahas , bahwa 𝑋 −𝜇 𝑆
𝑛
berdistribusi –t dengan 𝑑𝑏 = 𝑛 − 1 . Ingatlah !!! 𝜇 populasi bernilai tetap , namun nilainya gak tahu kita . Jadi , 𝜇 bukan sebuah peubah acak ! Tapi , batas bawah dan batas atasinterval kepercayaan tegantung 𝑋 ( rerata sampel ) . Kerena 𝑋 peubah acak , maka interval kepercayaaan juga peubah acak , tegantung pada sampel acak dipilih .
161
Contoh Dari sebuah populasi normal ditarik sebuah sampel acak sederhana . Sampel berisi 25 unsur dan 𝑥0 = 37 𝑑𝑎𝑛 𝑆 = 10 . Simpangan baku populasi gak tahu. Tentukan interval kepercayaan 0.9 dan interval kepercayaan 0.99 bagi 𝜇 populasi . Menurut rumus , interval kepercayaan 0.9 adalah
37 − 𝑇0.95 Kerena
𝑑𝑏 = 24
10 , 25
37 + 𝑇0.95
𝑇0.95 𝑑𝑏 = 24 = 1.711,
𝑑𝑏 = 24
maka
10 25
𝑇0.95 𝑑𝑏 = 24
10 25
=
3.422 sehinggaselangkepercayaan 0.9 untuk 𝜇 ditransformasi 37 − 3.4 , 37 + 3.4 atau 33.6 , 40.4 . Menurut rumus , interval kepercayaanan 0.99 bagi 𝜇 adalah
37 − 𝑇0.995
𝑑𝑏 = 24
10 , 25
37 + 𝑇0.995
𝑑𝑏 = 24
10 25
Karena 𝑇0.995 𝑑𝑏 = 24 = 2.797 , maka interval tersebut ditransformasi
37 − 5.6 , 37 + 5.6
atau 31.4 , 42.6 .
Lebar Interval berkaitan Tingkat Kepercayaan 𝟏 − 𝜶 Contohdi atas, ada hubungan antara lebar interval kepercayaan dengan nilai 1−𝛼 : Kepercayaan 𝟏 − 𝜶 0.9 0.95 0.99
Interval 33.6 , 40.4 32.9 , 41.1 31.4 , 42.6
162
Pabila tingkat kepercayaan tinggi; maka lebar interval , besar , yang berimplikasi pendugaan kurang teliti . Apa arti interval kepercayaan 1 − 𝛼 ?, yaitu probabilitas bahwa inter val yang didapat secara acak ( atas dasar smpel acak) ini mencakup rerata populasi 𝜇 ( yang bernilai tetap dan harus diduga) sama dengan 1 − 𝛼 . Kalok lebar interval besar , besar pula derajat kepastian (kepercayaan) bahwa interval ini mencakup 𝜇 populasi. Kalok kurang besar, berarti pendugaannya labih teliti ( atas dasar data yang sama) , derajat kepercayaan jadi lebih kecil . Kalok pendugaan untuk 𝜇 tidak merupakan interval , tapi hanya satu nilai rerata sampel𝑥0 ( titik estimasi) , maka tingkat kepercayaan 0 ! Sampel yang ditarik satu dari kemungkinan tak hingga ; probabilitas bahwa rerata sampel ini 𝑥0 tepat sama dengan 𝜇 populasi kecil sekali (0) .
Interval Kepercayaan Satu Arah Seperti daerah kritis , interval kepercayaan untuk 𝜇 bisa juga diambil 1 arah . Perhatikan gambar berikut untuk 𝜇 ≥ 𝜇𝑏𝑎𝑤𝑎 .
𝛼
𝛼
𝑋 𝜇0
𝑥0
Interval kepercayaan 1 arah : 𝜇 ≥ 𝜇𝑏
163
Usually , disajikan interval kepercayaan 2 arah . Hubungan Interval Kepercayaan dengan Pengujian Hipotesis Metode menentukan interval kepercayaan sama dengan (ekivalen) pengujian hipotesis majemuk . Misallah interval kepercayaan 0.95 untuk 𝜇 diperoleh (atas dasar sampel acak sederhana) , yaitu 24.6 , 29.4 . Di sini , hipotesis 𝐻0 : 𝜇 = 25 akan diterima dengan 𝛼 = 0.05 . Jugak 𝐻0 : 𝜇 = 27.3 akan diterima. Semua diterima pabila 24.6 ≤ 𝐴 ≤ 29.4 dan 𝛼 = 0.05 .
7.3
Hipotesis tentang 𝝈 dan Interval Kepercayaan untuk 𝝈 dalam 𝑵 𝝁; 𝝈
Hipotesis mengenai 𝜍 populasi normal diuji dengan simpangan baku sebuah sampel acak sederhana S sebagai ukuran pengujiannya . Nilai harapan 𝐸 𝑆 2 = 𝜍 2 . Jadi ,𝑆 2 merupakan pendugatak bias bagi 𝜍 2 . Jadi, pabila hipotesis 𝐻0 ∶ 𝜍 = 𝐴 diuji, maka hipotesis ini akan ditolak pabila S berada “terlalu jauh” dari A , atau kalok 𝑆 2 “terlalu jauh” dari 𝐴2 .
Distribusi Probabilitas Khi-Kuadrat Pengujian hipotesis mengenai 𝜍 populasi normal digunakan distribusi untuk peubah probabilitasKhi-kuadrat dengan 𝑣 derajat bebas . Peubah Khi-kuadrat dinotasikan dengan 𝜒 2 . Sifat distribusi 𝜒 2 𝑣 : (1) 𝜒 2 𝑣 sebuah peubah kontinu yang tak negatif : 0 ≤ 𝜒 2 𝑣 < ∞ ; (2) 𝑟𝑒𝑟𝑎𝑡𝑎 distribusi 𝜒 2 𝑣 sama dengan v ; (3) 𝑣𝑎𝑟𝑖𝑎𝑛𝑠𝑖𝑛𝑦𝑎 𝑠𝑎𝑚𝑎 𝑑𝑒𝑛𝑔𝑎𝑛 2v , sehingga simpangan baku nya sama dengan 2𝑣 : (4) 𝑝𝑎𝑏𝑖𝑙𝑎 𝑣 > 2 , maka moduds distribusi ini adalah 𝑣 − 2 .
164
𝑓 𝜒2 0.2
𝑣=4
𝑣=8
0.1
𝜒2 5
10
Fungsi kepekatan Khi –kuadrat untuk 𝒗 = 𝟐 dan 𝒗 = 𝟖
Untuk tiap nilai v ada satu distribusi 𝜒 2 𝑣 , seperti halnya pada distribusi –t𝑇 𝑣 . Beberapa fraktil yang penting untuk distribusi ini disajikan dalam Tabel Lampiran 7 . Dalam 1 baris , nilai v tetap. Kalok 𝑣 > 100 , distribusi untuk 𝜒 2 𝑣 menghampiri distribusi normal dengan 𝜇 = 𝑣 dan 𝜍 = 2𝑣 dengan baik ; jadi Distribusi 𝜒 2 𝑣
----------------------- v ∞
𝑁 𝑣; 2𝑣
165
merupakan hampiran yang baik pabila 𝑣 > 100 . Hampiran ini sesuai dengan dalil limit pusat .
Hipotesis 𝑯𝟎 : 𝝈 = 𝑨 untuk Populasi 𝑵 𝝁; 𝝈 Andailah sebuah populasi berdistribusi 𝑁 𝜇; 𝜍 dan 𝑆 2 adalah variansi sampel acak sederhana dengan n unsur yang ditarik dari populasi . Dengan demikian
𝑛−1 2 𝑆 𝜍2
berdistribusi Khi-kuadrat 𝜒 2 𝑛 − 1 .
Singkat kata 𝑆 2 berdistribusi
𝜍2 𝑓 𝑛−1
𝜒2 𝑣 = 𝑛 − 1
.
𝑓 𝜒2
1 𝛼 2
1 𝛼 2
𝜒2 𝜇𝜒 2 = 𝑣
𝜒 2 1𝛼 2
𝜒 2 1−1𝛼 2
Andailah hipotesis 𝐻0 : 𝜍 = 𝐴akan diuji versus hipotesis alternatif 𝐻𝑎 : 𝜍 ≠ 𝐴 . Pabila𝐻0 benar , maka 𝑆 2 didistribusikan menurut 2
𝐴2 2 𝜒 𝑛−1
𝑣 = 𝑛 − 1 dan
𝜇𝑆 2 = 𝐸 𝑆 2 = 𝐴 kerena 𝐸 𝜒 2 = 𝑛 − 1 .
Hipotesis 𝐻0 ditolak pabila 𝑆 2 dalam sampel berada terlalu jauh dari 𝐴2 . Jadi , daerah kritis untuk 𝑆 2 berisi nilai-nilai yang memenuhi ketaksamaan 𝑛−1 2 𝑆 𝐴2
≤ 𝜒21𝛼 𝑛 − 1 𝑎𝑡𝑎𝑢 2
𝑛−1 2 𝑆 𝐴2
≥ 𝜒21−1𝛼 𝑛 − 1 2
166
atau 𝐴2
𝐴2
𝑆 2 ≤ 𝑛−1 𝜒21𝛼 𝑛 − 1 𝑎𝑡𝑎𝑢 𝑆 2 ≥ 𝑛−1 𝜒21𝛼 𝑛 − 1 2
2
Contoh Untuk sebuah populasi 𝑁 𝜇; 𝜍 , hipotesis 𝐻0 : 𝜍 = 10dengan hipotesis alternatif 𝐻𝑎 : 𝜍 ≠ 10diuji berdasarkan sebuah sampel acak sederhana yang berisi 15 unsur . Dalam sampel simpangan baku nya sama dengan 6 . Akan diputuskan apakah hipotesis 𝐻0 ditolak atau diterima . Untuk sampel ini nilai besaran
𝑛−1 2 𝑆 sama 𝜍2
dengan
14×36 100
= 5.04, pabila
hipotesis 𝐻0 benar . 2 Dalam Tabel Lampiran 7 , untuk 𝑣 = 14 diperoleh 𝜒0.025 14 = 5.63 .
5.04
0
5.63
Jadi, untuk tiap 𝛼 ≥ 0.05 nilai yang diperoleh dari sampel 5.04 termasuk ke dalam daerah kritis , kerena daerah kritis nya 2 arah . Jadi, hipotesis 𝐻0 ditolak untuk tiap 𝛼 ≥ 0.05 .
Interval Kepercayaan untuk 𝝈 𝒅𝒂𝒍𝒂𝒎 𝑵 𝝁; 𝝈 Interval kepercayaan 1 − 𝛼 untuk 𝜍 , dirumuskan atas dasar 𝑃
𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙 𝑑𝑖𝑝𝑒𝑟𝑜𝑙𝑒 𝑎𝑐𝑎𝑘 , 𝑎𝑡𝑎𝑠 𝑑𝑎𝑠𝑎𝑟 𝑠𝑎𝑚𝑝𝑒𝑙 𝑎𝑐𝑎𝑘, 𝑚𝑒𝑛𝑐𝑎𝑘𝑢𝑝 𝜍 𝑝𝑜𝑝𝑢𝑙𝑎𝑠𝑖 𝑏𝑒𝑟𝑛𝑖𝑙𝑎𝑖 𝑡𝑒𝑡𝑎𝑝 𝑑𝑎𝑛 𝑎𝑟𝑢𝑠 𝑑𝑖𝑑𝑢𝑔𝑎
=1−𝛼
Nilai 𝜍𝑏𝑎𝑤𝑎 dan nilai 𝜍𝑎𝑡𝑎𝑠 ditentukan sedemikian rupa sehingga tiap 𝜍𝑏𝑎𝑤𝑎 ≤ 𝐴 ≤ 𝜍𝑎𝑡𝑎𝑠 nilai besaran
𝑛−1 2 𝑆 tidak 𝐴2
masuk ke dalam daerah kritis
untuk 𝜒 𝑣 , pendek kata agar hipotesis 𝐻0 : 𝜍 = 𝐴tidak ditolak . 2
167
Dalam daerah 𝜍𝑏𝑎𝑤𝑎 ≤ 𝐴 ≤ 𝜍𝑎𝑡𝑎𝑠 nilai untuk
𝑛−1 2 mencapai 𝐴2
maksimum
pabila A bernilai minimum , yaitu 𝐴 = 𝜍𝑏𝑎𝑤𝑎 . Jadi, batas atas daerah kritisnya diperoleh sbb. : 𝑛 −1 𝜍𝑏𝑎𝑤𝑎
2
𝑆 2 = 𝜒21−1𝛼 𝑛 − 1 𝑎𝑡𝑎𝑢 𝜍𝑏𝑎𝑤𝑎 2 = 2
𝑛−1 𝑆 2 𝜒2 1
1− 𝛼 2
1 𝛼 2
𝜒 2 1−1𝛼 2
Nilai 𝜍𝑎𝑡𝑎𝑠 diperoleh : 𝑛 −1 𝜍𝑎𝑡𝑎𝑠
2 2 2 2 𝑆 = 𝜒1𝛼 𝑎𝑡𝑎𝑢 𝜍𝑎𝑡𝑎𝑠 = 2
𝑓 𝜒2
𝑛−1 𝑆 2 𝜒21 2
𝛼
1 𝛼 2
𝜒2 𝜒 2 1𝛼 2
168
Interval kepercayaan 1 − 𝛼 untuk variansi 𝜍 2 adalah 𝜍𝑏𝑎𝑤𝑎 2 ≤ 𝜍2 ≤ 𝜍𝑎𝑡𝑎𝑠 2 yaitu 𝑛−1 𝑆 𝜒2 1
2
𝑛−1 𝑆 𝜒21
,
1−2𝛼
2
2𝛼
Dari interval kepercayaan untuk 𝜍 2 ini , maka interval kepercayaan 1 − 𝛼 untuk 𝜍diperoleh dengan rumus : 𝑛−1 𝑆 𝜒2 1
2
,
1−2𝛼
𝑛−1 𝑆 𝜒21
2
2𝛼
Contoh Untuk contoh di atas , 𝑛 = 15 dan simpangan baku 6 . Ingin ditentukan interval kepercayaan 0.95 dan juga interval kepercayaan 0.9 untuk 𝜍atas dasar data tersebut . Pabila 𝛼 = 0.05 , maka digunakan fraktil 0.025 dan fraktil 0.975 dari distribusi 𝜒 2 𝑣 = 14 : 2 2 𝜒0.025 𝑣 = 14 = 5.63 dan 𝜒0.975 𝑣 = 14 = 26.12
Batas bawah untuk interval kepercayaan 0.95 adalah
𝜍𝑏𝑎𝑤𝑎 =
14×62 26.12
= 4.4
Batas atas untuk interval kepercayaan 0.95 adalah
𝜍𝑎𝑡𝑎𝑠 =
14×62 5.63
= 9.5
Jadi, interval kepercayan 0.95 untuk 𝜍sama dengan 4.4 , 9.5 . Pabila 𝛼 = 0.01 , maka
169
2 2 𝜒0.05 𝑣 = 14 = 6.57 dan 𝜒0.95 𝑣 = 14 = 23.68sehingga
𝜍𝑏𝑎𝑤𝑎 =
14×62 23.68
= 4.6dan 𝜍𝑎𝑡𝑎𝑠 =
14×62 6.57
= 8.8
Jadi, interval kepercayan 0.9 untuk 𝜍sama dengan 4.6 , 8.8 . Dari 2 interval kepercayaan ini bahwa hipotesis 𝐻0 : 𝜍 = 19 untuk tiap𝛼 ≥ 0.05 . Simpangan baku sampel 𝑆 = 6 termasuk ke dalam interval kepercayaan. Kedua interval kepercayaan tidak simetrik terhadap 6.
7.4
Populasi Kurang Lebih Normal ; Dalil Limit Pusat
Dalam praktek Anda akan menemukan populasi tak diketahui atau tidak tepat normal , untuk ini diajukan Dalil Limit Pusat .
Dalil Limit Pusat Misalkan peubah-peubah acak 𝑋1 , 𝑋2 , … , 𝑋𝑛 , berdistribusi sama dan bebas stokastik satu sama lain ; 𝜇 rerata dan 𝜍 simpangan baku distribusi tsb. 𝜇 , 𝜍 𝑡𝑒𝑟𝑖𝑛𝑔𝑔𝑎 . Misallah peubah 𝑆𝑛 didefinisikan sbb. : 𝑆𝑛 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 yaitu , jumlah n peubah probabilitas itu . Untuk distribusi 𝑆𝑛 Anda peroleh 𝜇𝑆𝑛 = 𝑟𝑒𝑟𝑎𝑡𝑎 𝑆𝑛 = 𝑛𝜇 dan 𝜍𝑆𝑛 = 𝑠𝑖𝑚𝑝𝑎𝑛𝑔𝑎𝑛 𝑏𝑎𝑘𝑢 𝑆𝑛 = 𝜍 𝑛 Dan
𝜇𝑋+𝑌 = 𝜇𝑋 + 𝜇𝑌
2 Untuk bebas stokastik𝜍𝑋𝑌 = 0 sehingga 𝜍𝑋+𝑌 = 𝜍𝑋2 + 𝜍𝑌2
170
Dalil Limit Pusat 𝑆𝑛 −𝜇 𝑆 𝑛 𝜍𝑆 𝑛
=
𝑆𝑛 −𝑛𝜇 𝜍 𝑛
=
𝑆𝑛 −𝜇 𝑛 𝜍 𝑛
samadengan distribusi normal baku 𝑁 0; 1 pabila 𝑛 → ∞ . 𝑛 → ∞ berarti n cukup besar . Kayak ginian : 𝑆𝑛 −𝜇 𝑛 𝜍 𝑛
=
𝑛
𝑆𝑛 −𝜇 ∞ 𝜍 ∞
=
∞ ∞
𝑛𝜇
−𝜇
𝜍 𝑛
=
0
𝜍 𝑛
=0
=→ 1
Penerapanuntuk 𝑿 Dalil limit pusat berlaku untuk rerata sebuah sampel acak sederhanadengan pemulihan dari sembarang populasi : 𝑋=
1 𝑛
𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛 → 𝑆𝑛 = 𝑛𝑋 = 𝑋1 + 𝑋2 + ⋯ + 𝑋𝑛
Tiap 𝑋𝑖 didistribusikan menurut distribusi populasi . Kerena penarikan sampel acak sederhana dengan pemulihan, maka n peubah 𝑋𝑖 didistribusikan bebas stokastik satu sama lain . Missal populasi berisi 4 bilangan 0,6,12, 𝑑𝑎𝑛 24 . Jadi, distribusi populasi nya : X:
0
6
12
24
P(X) :
1 4
1 4
1 4
1 4
Banyak unsur dalam sampel bertambah besar dan populasi tidak normal .
171
𝒏=𝟐 𝑿 𝒏=𝟐 ∶ 𝑷 𝑿 ∶
0
3
6
9
12
15
18
24
1 16
2 16
3 16
2 16
3 16
2 16
2 16
1 16
𝒏=𝟑 𝑿 𝒏 =𝟑 ∶ 𝑷 𝑿 ∶
0
2
4
6
8
10
12
14
16
18
20
24
1 64
3 64
6 64
7 64
9 64
9 64
10 64
6 64
6 64
3 64
3 64
1 64
0
1½
3
4½
6
7½
9
10½
12
13½
15
1 256
4 256
10 256
16 256
23 256
28 256
34 256
32 256
31 256
24 256
22 256
𝒏=𝟒 𝑿 𝒏 =𝟒 ∶ 𝑷 𝑿 ∶ 𝑿 𝒏 =𝟒 ∶ 𝑷 𝑿 ∶
16½
18
19½
21
24
12 256
10 256
4 256
4 256
1 256
Sekalipun 𝑛 = 4 masih kecil , terlihat bahwa distribusi untuk 𝑋 𝑛 = 4 sudah agak simetrik. Untuk𝑛 → ∞ terdapat distribusi normal , yaitu distribusi simetrik , menurut dalil limit pusat . Hipotesis 𝜇 = 𝐴 𝑑𝑎𝑛 𝜍 = 𝐴 hanya untuk populasi yang peubahnya diukur pada skala interval . Contoh Pada contoh uji tanda di depan , hipotesis nya diuji lagi dengan perumusan hipotesis mengenai rerata 𝜇𝑈 , kerena besarnya selisih pendapat , yaitu 𝑈 = 𝑌 − 𝑋, juga diketahui . Y dan X diukur pada skala rasio . Hipotesis mengenai 𝜇 yang diuji adalah 𝐻0 : 𝜇𝑈 = 0 𝑣𝑠 𝐻𝑎 : 𝜇𝑈 > 0 .
172
Pengujian dilakukan dengan ukuran pengujian 𝑈 , rerata selisih 𝑌 − 𝑋 dalam 2 sampel berhubungan . Datanya : Nomor orang 𝑿𝒊 𝒀𝒊 𝑼𝒊 Nomor orang 𝑿𝒊 𝒀𝒊 𝑼𝒊 Nomor orang 𝑿𝒊 𝒀𝒊 𝑼𝒊
1
2
3
4
5
6
7
8
300 250 −50
400 400 0
150 200 50
500 550 50
600 700 100
2400 3600 1200
450 600 150
1200 1100 −100
9
10
11
12
13
14
15
16
700 900 200
550 600 50
200 150 −50
250 200 −50
200 200 0
500 600 100
350 300 −50
1500 2000 500
17
18
19
20
21
22
23
24
100 100 0
400 450 50
300 250 −50
350 350 0
1700 2100 400
150 100 −50
400 450 50
450 550 100
Pabila 𝐻0 benar , 𝑇 =
𝑈 𝑆
𝑛 didistribusikan menurut distribusi-t dengan
𝑑𝑏 = 23 . Untuk data 2 sampel berhubungan ini berlaku 𝑈 = 110 dan 𝑆𝑈 = 271 , sehingga 𝑇 =
110 271
24 = 1.99 .
Karena 𝐻𝑎 : 𝜇𝑈 > 0 , daerah kritisnya 1 arah dan berisi nilai-nilai 𝑇 23 “terlalu besar” . Dalam Tabel Lampiran 6 terlihat 𝑃 𝑇 23 ≥ 1.99 ≈ 0.03 . Jadi , untuk tiap 𝛼 ≤ 0.003 hipotesis 𝐻0 ditolak . Artinya jangka waktu 2 tahun rerata pendapatan penduduk naik.
173
7.5
Uji Peringkat Bertanda (rank) Wilcoxon
Pada uji tanda hanya ingin tahu apakah sebuah peubah lebih besar (+) atau lebih kecil ( – ) dari sebuah nilai A . Hipotesis nol yang diuji adalah 𝑃 𝑋 > 𝐴 = 𝑃 𝑋 < 𝐴 .
+
−
positif
negatif
A
Keadaan ini bisa dianggap hipotesis mengenai median populasi , 𝑀𝑒 = 𝐴. Dengan uji peringkat bertanda akan diuji apakah sebuah distribusi populasi ( kontinu) simetrik di sekitar A . Pabila sebuah populasi simetrik di sekitar A, maka benar bahwa 𝑃 𝑋>𝐴 =𝑃 𝑋<𝐴 . Tetapi, sebaliknya pabila diketahui 𝑃 𝑋 > 𝐴 = 𝑃 𝑋 < 𝐴 belum tentu bahwa populasi ini simetrik . Perhatikan :
Tak simetrik
A
174
simetrik
−
A
+
Jadi, hipotesis yang diuji dengan uji peringkat bertanda lebih tepat dari hipotesis yang diuji dengan uji tanda . Pada uji peringkat bertanda pengamatan dalam sampel harus diurut menurut besarnya . Pabila peubah diukur pada skala ordinal , ini sudah merupakan syarat yang cukup untuk menggunakan uji tsb. Pengukuran skala interval tidak keharusan . Distribusi tek perlu diketahui dengan tepat. Hipotesis hanya mengatakan distribusi simetrik. Jika populasi ditranslasi sejauh – 𝐴 , maka distribusi tak berubah, sehingga pengujian populasinya simetrik di sekitar 0 atau tidak. Uji di bawah ini, dianggap 𝐴 = 0 . Jadi, hipotesis yang diuji : 𝐻0 : 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝑝𝑜𝑝𝑢𝑙𝑎𝑠𝑖 (kontinu) simetrik di sekitar 0 Vs 𝐻𝑎 : 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑠𝑖 𝑝𝑜𝑝𝑢𝑙𝑎𝑠𝑖 (kontinu) gak simetrik di sekitar 0 Kali pertama harus dicari ukuran pengujian (test) dan distribusinya ! Untuk uji peringkat bertanda , ukuran pengujian V diperoleh sbb. : (1) Pengamatan bernilai 0 , tidak dihitung
175
(2) n pengamatan ≠ 0 yang tersisa dalam sampel terurut menurut besar nilai mutlak (3) pada tiap nilai mutlak tsb. dibubuhkan peringkatnya; nilai mutlak paling kecil diperingkat 1 dan paling besar n (4) bilangan peringkat sebuah pengamatan mendapat tanda dari nilai pengamatan (5) ukuran pengujian V didefinisikan sebagai jumlah n bilangan peringkat bertanda . Jadi, untuk pengamatan-pengamatan 𝑥1 , 𝑥2 , … , 𝑥𝑛 berlaku 𝑥𝑖 → 𝑥𝑖 → 𝑦𝑖 = 𝑘
𝑟𝑖 = 𝑘 𝑝𝑎𝑏𝑖𝑙𝑎 𝑥𝑖 > 0 𝑟𝑖 = −𝑘 𝑝𝑎𝑏𝑖𝑙𝑎 𝑥𝑖 < 0
dalam hal ini 𝑦𝑖 adalah bilangan peringkat untuk 𝑥𝑖 dalam himpunan 𝑥1 , 𝑥2 , … , 𝑥𝑖 , … , 𝑥𝑛 dan 𝑟𝑖 adalah bilangan peringkat bertanda nya . Ukuran pengujiannya adalah
𝑉=
𝑛 𝑖=1 𝑟𝑖
Contoh Untuk 5 pengamatan 10,4, −13,6, −7 diperoleh Pengamatan mutlak yang diurutkan 𝑥𝑖 : 4 6 −7 10 −13 Bilangan peringkat 𝑦𝑖
:
Bilangan peringkat bertanda 𝑟𝑖 :
1
2
3
4
1
2
−3 4
5 −5
Jadi, 𝑉 = 1 + 2 + −3 + 4 + −5 = −1 untuk sampel ini . Pabila hipotesis 𝐻0 (populasi simetrik di sekitar 0 ) benar , maka distribusi probabilitas untuk V bernilai 𝜇𝑉 = 0 dan 𝜍𝑉 =
1 6
𝑛 𝑛 + 1 2𝑛 + 1
Kalok semua pengamatan positif , maka 𝑉 = 1 + 2 + ⋯ + 𝑛
176
1
= 𝑛 𝑛 + 1 dan kalok semua negatif , maka −1 + −2 + ⋯ + −𝑛 2
1
= − 𝑛 𝑛 + 1 , jadi 2
1
1
2
2
− 𝑛 𝑛+1 ≤𝑉 ≤ 𝑛 𝑛+1 Jelas kali, distribusi V harus simetrik di sekitar 0 kalok 𝐻0 benar , kerena
𝑃
𝑝𝑒𝑛𝑔𝑎𝑚𝑎𝑡𝑎𝑛 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑑𝑎𝑝𝑎𝑡 𝑝𝑒𝑛𝑔𝑎𝑚𝑎𝑡𝑎𝑛 𝑦𝑎𝑛𝑔 𝑚𝑒𝑛𝑑𝑎𝑝𝑎𝑡 =𝑃 𝑝𝑎𝑛𝑔𝑘𝑎𝑡 𝑖 bertanda + 𝑝𝑎𝑛𝑔𝑘𝑎𝑡 𝑖 bertanda −
kerena distribusi populasinya simetrik di sekitar 0. Rumus Distribusi simetrik 𝜇𝑉 = 0 dan 𝜍𝑉 =
1 6
𝑛 𝑛 + 1 2𝑛 + 1
, untuk 𝑛 = 5 akan dicari distribusi bagi V . Pabila 𝐻0 benar ( populasi simetrik di sekitar 0 ) dan sampel acak sederhana, tiap bilangan peringkat mendapat tanda + dengan probabilitas ½ dan tanda – dengan probabilitas ½ pula . Untuk n unsur (pengamatan ) banyaknya kemungkinan tersebut sama dengan 2𝑛 , kerena n tempat diisi dengan + atau – ( Lampirn 0) . Masing-masing dari 2𝑛 kemungkinan dalam ruang sampel mempunyai proba bilitas terambil yang sama, jadai distribusi V bisa ditentukan . Untuk 𝑛 = 5 bilangan peringkatnya adalah 1,2,3,4,5 , sehingga ada 25 = 32 kemungkinan untuk membubuhkan satu dari 2 tanda +, − pada 5 bilangan peringkat . Tabel berikut mencantumkan nilai V per sampel . Untuk distribusi ini diperoleh 𝜇𝑉 = 0 dan 𝜍𝑉 =
1 6
. 5 6 11 = 55 ≈ 7.4
Dalam Tabel Lampiran 8 dicantumkan nilai kritis untuk 𝑛 = 1 s/d 𝑛 = 100 dan berapa nilai 𝛼 , yaitu 𝛼 = 0.01 , 𝛼 = 0.02 , 𝛼 = 0.05 𝑑𝑎𝑛 𝛼0.1 .
177
Sampel 𝟏𝟐𝟑𝟒𝟓
V
Sampel 𝟏𝟐𝟑𝟒𝟓
V
Sampel 𝟏𝟐𝟑𝟒𝟓
V
+++++ ++++ −
15 5 7 9 11 13 −3 −1
+ −++ − − +++ − ++− − + + −+ −+ − ++ −+
1 3 1 3 5 5 7 9
++ −−−
−9 −7 −5 −3 −5 −3 −1 −1
+++ − + ++ − ++ + − +++ − ++++ +++ − − ++ − + −
+ −−++ − + − ++ −− +++
+ −+ −− + − −+ − + −−− + − ++ −− − + − + − − + −− + −− ++ −
Sampel 𝟏𝟐𝟑𝟒𝟓
V
−− + −+
1 3 −13 −11 −9 −7 −5 −15
−−− ++ + −−−− − + −−− −− + −− −−− + − −−−− + −−−−−
+ + + + += 1 + 2 + 3 + 4 + 5 = 15 + + + + −= 1 + 2 + 3 + 4 + −5 = 5 − − + + += −1 + −2 + 3 + 4 + 5 = 9
Untuk 𝑛 = 5 → −15, −14, … , 1,2, … , 15 → 𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑘 𝑑𝑖 𝑠𝑒𝑘𝑖𝑡𝑎𝑟 0 . −𝟏𝟓
−𝟏𝟑
−𝟏𝟏
−𝟗
−𝟕
−𝟓
−𝟑
−𝟏
P(V) :
1 32
1 32
1 32
2 32
2 32
3 32
3 32
3 32
V:
𝟏
𝟑
𝟓
𝟕
𝟗
𝟏𝟏
𝟏𝟑
𝟏𝟓
P(V) :
3 32
3 32
3 32
2 32
2 32
1 32
1 32
1 32
V:
25 = 32 𝑘𝑒𝑚𝑢𝑛𝑔𝑘𝑖𝑛𝑎𝑛 → 𝑟𝑢𝑎𝑛𝑔 𝑠𝑎𝑚𝑝𝑒𝑙 . 𝑃 3 = 𝑃 3,3,3 =
1 32
+
1 32
+
1 32
=
3 32
Untuk per 𝛼 𝑑𝑎𝑛 n , nilai A pada Tabel adalah nilai positif dan yang masuk dalam daerah kritis 2 arah pada batas berikut :
178
1 − 𝑛 𝑛+1 2
A
𝐴−2
0
−𝐴 + 2
1 𝑛 𝑛+1 2
A
Jadi, A sudah masuk dalam daerah kritis dan 𝐴 − 2 nilai pertama untuk V lebih kecil dari A dan belum masuk daerah kritis . Berarti 𝐴 ≈ 𝑉1−1𝛼 dan −𝐴 ≈ 𝑉1𝛼 atau 2
2
1
1
𝑃 𝑉≥𝐴 ≈ 𝛼
dan 𝑃 𝑉 ≤ −𝐴 ≈ 𝛼
2
2
Persamaan ini tidak tepat benar , kerena peubah V peubah diskrit . Pabila 𝑛 > 100 , distribusi V dapat dihampiri dengan distribusi normal 𝑁 𝜇𝑉 ; 𝜍𝑉 , yaitu 𝑁 0;
1 6
𝑛 𝑛 + 1 2𝑛 + 1
Dan kerenanya fraktil-fraktilV distribusi normal .
dicari dengan Tabel Lampiran 5 untuk
Pengamatan Bernilai Sama Pabila pengamatan bernilai sama , bilangan peringkat dibubuhkan pada pengamatan dan dirata-ratakan . Misallah nilai mutlak pengamatan diurut : −1 1 2 −7 7 −7 14 15 1 2 3 4 5 6 7 8
bilangan peringkat
1
1 2
1
1 2
3
5
5
5
7
8
Jadi, −1 1 menempati tempat 1 dan tempat 2 , kedua nya bernilai sama . Kerenanya, bilangan peringkat yang dibubuhkan sama dengan rerata , 1+2 2
1
=1 . 2
179
Catatan Untuk pengamatan banyak bernilai sama , biasanya 1
𝜍𝑉 <
6
𝑛 𝑛 + 1 2𝑛 + 1 .
Contoh Uji peringkat bertanda sering diterapkan pada 2 sampel berhubungan . Ingin diuji , apakah perbedaan antara pasangan berhubungan bisa diasumsikan dari sebuah populasi yang simetrik di sekitar 0 . Dari contoh di atas , selisih u pendapatan 24 orang pada 2 waktu berbeda . Daftar nilai mutlak : 𝒖𝒊 ∶
−𝟓𝟎
−𝟓𝟎
−𝟓𝟎
−𝟓𝟎
−𝟓𝟎
−𝟓𝟎
𝟓𝟎
𝒓𝒊 : 𝒖𝒊 ∶ 𝒓𝒊 :
−6 50 6
−6 50 6
−6 50 6
−6 50 6
−6 −100
−6 100
6 100
−13
13
13
𝒖𝒊 ∶ 𝒓𝒊 :
100
150 16
200 17
400 18
500
13
1 2
19
1 2
1 2
200
1 2
20
Ukuran pengujian V sama dengan
𝑉=
20 𝑖=1 𝑟𝑖
= 111
Di sini digunakan Tabel Lampiran 8 baris untuk 𝑛 = 20 . Pabila 𝛼 = 0.02 , batas daerah kritis sama dengan 124 , sedang untuk 𝛼 = 0.05 , batas ini sama dengan 106 . Dengan uji 2 arah , pabila hipotesis alternatifnya sama dengan penolakan hipotesis 𝐻0 . 𝐻0 ditolak pabila 𝛼 diambil lebih besar atau sama dengan 0.05 . Pabila 𝐻𝑎 bahwa median populasi lebih besar dari 0 dan / atau distribusi populasi taksimetrik dengan ekor panjang di sebelah kanan, maka sebagai daerah kritis dipilih 1 arah dan 𝐻0 ditolak tiap 𝛼 ≥ 0.025 .
180
−210
(minimum)
0
111
210
(hasil sampel )
(maksimum)
Uji tanda dan uji peringkat bertanda disebut uji bebas .
181
BAB 8 HUBUNGAN SIMETRIK ANTARA DUA PEUBAH ASOSIASI DAN KORELASI
Hubungan Statistik Mengukur kuatnya hubungan antara dua peubah atau lebih , misalnya hubungan antara peubah “ tingkat pendidikan” dan pe ubah “ sikap terhadap KB “ . Hubungan itu mungkin kuat, lamahatau tidak ada sama sekali . Kuat jika , semua orang berpendidikan tinggi (PT) bersikap positip dan pendidikan rendah (SMA ) bersikap negatif . Tak ada hubungan sama sekali jika semuanya tingkat pendidikan besikap positif. Hubungan di sini adalah hubungan statistik antara dua pe ubah Hubungan fungsional antara dua peubah tidak didasarkan pada distribusi probabilitas; artinya kalau nilai pertama diketahui , maka nilai peubah kedua dapat ditentukan dengan tepat. Hubungan statistic antara 2 peubah dibedakan antara hubung an yang simetrik dan hubungan yang tak simetrik . Jika salah satu peubah dianggap peubah bebas (independent variable) dan kalau diteliti bagaimana peubah kedua (peubah tak bebas) tergantung pada peubah pertama tadi ; hubungan ini tak simetrik. Seringkali hubungan antara dua peubah diasumsikan imbal-balik (mutual relationship) , saling tergantung satu sama lain (in terdependent) ; hubungan ini simetrik (seimbang) . Hubungan statistic antara 2 peubah atau lebih disebut aso siasi atau korelasi . Asosiasi untuk pengukuran skala nominal ; korelasi untuk hubungan antara peubah ordinal, ordinal, rasio . Untuk skala ordinal sering disebut korelasi peringkat (rank cor relation) . Kuatnya asosiasi diukur dengan ukuran C menurut Crammer , Y menurut Yule, (lambda) menurut Mr.Goodman dan Krus kal . Ukuran C mengukur ketergantungan imbal-balik dua peubah .Ukuran pengukuran peramalan (prediksi) . Untuk peubah A dan peubah B, ukuran AB memberi informasi tentang nilai peubah A jika peubah B diketahui , biasanya ABBA .
182
Ukuran korelasi peringkat yang sering digunakan Kendall ( , baca : tau ) , Goodman dan Kruskal ( baca : gamma ) , dan r Spearman , ketiganya bersifat simetrik . Ukuran d Somers , tak simetrik . Jika 2 peubah diukur pada skala interval atau rasio , diukur kuatnya korelasi dengan koeifisien korelasi momen hasil kali r , sifatnya simetrik . Untuk peubah ordinal, interval atau rasio , tak simetrik dilakukan regresi . Untuk 2 peubah interval , ukuran korelasi tak simetrik adalah rasio korelasi2 ( dibaca eta ) yang disajikan dalam regresi . Tiap ukuran ini bernailai 0 , jika tak ada hubungan antara 2 peubah tersebut . Bernilai 1 (– 1) kalau hubungan kedua peubah paling kuat. Pengertian asosiasi (korelasi) antara 2 peubah dapat dihubungkan dengan kebebasan stokastik . Jika 2 peubah didistribusikan secara bebasstokastik satu sama lain , maka ukuran asosiasi (korelasi) nya bernilai 0 , tapi sebalikntya tak berlaku . 8.1
Dua Peubah Nominal : C
Missal peubah A diukur pada skala nominal dengan bkate gori, yaitu 𝐴1 , 𝐴2 , … , 𝐴𝑖 , … , 𝐴𝑏 ; dan peubah B diukur pada skala nominal dengan k kategori , yaitu 𝐵1 , 𝐵2 , … , 𝐵𝑗 , … , 𝐵𝑘 . Misal pulak semua unsur populasi nya disusun dalam sebuah table silang (contingency table) , two-ways table atau cross table ) peubah A kali peubah B , yang terdiri dari b baris dan k kolom . Peubah A A1 A2 ⋮ Ai ⋮ Ab
B1 F11 F21 Fi1 Fb1 F.1
⋮ ⋮
B2 F12 F22 Fi2 Fb2 F.2
Peubah B Bj F1j F2j ⋮ ... Fij ⋮ ... Fbj ... F.j ... ... ...
⋮ ⋮
... ... ...
Bk F1k F2k
...
Fik
... ...
Fbk F.k
⋮ ⋮
F1 F2 Fi
⋮ ⋮
Fb N
Dalam table ini kotaj (i,j) berisi frekuensi unsur yang bersifat Ai dan Bj . Frekuensi ini akan dituliskan Fij . F (huruf besar) ti dak berarti frekuensi kumulatif , tetapi frekuensi populasi . Lambang f (huruf kecil) akan digunaka untuk frekuensi sampel .
183
Frekuensi-frekuensi pinggir dituliskan Fi dan Fij . Jika satu unsur ditarik secara acak sederhana dari , maka diperoleh 𝑃 𝐴𝑖
𝐵𝑗 =
𝐹𝑖𝑗 𝑁
, 𝑃 𝐴𝑖 =
𝐹𝑖 𝑁
, 𝑃 𝐵𝑗 =
𝐹𝑗 𝑁
Antara peubah A da peubah B disebut tak berasosiasi jika 𝑃 𝐴𝑖
𝐵𝑗 = 𝑃 𝐴𝑖 . 𝑃 𝐵𝑗
untuk setiap 𝑖 ∈ 1,2, … , 𝑏 dan setiap 𝑗 ∈ 1,2, … , 𝑘 . Ini berarti kejadian A1bebas stokastik terhadap kejadian B1 , kejadian B2,… , kejadian Bk ; kejadian A2bebas stokastik terhadap kejadian B1 , kejadian B2,… , kejadian Bk ;… , kejadian Abbebas stokastik terhadap kejadian B1 , kejadian B2,… , kejadian Bk . Ketakbebasan Stokastik dan Asosiasi “Ketakbebasanstokastik” antara 2 peubah A dan B , tidak mempunyai arti sama (ekivalen) dengan pengertian “asosiasi” antara 2 peubah tersebut dalam sebuah table silang . Jika peubah A dan peubah B bebas stokastik satu sama lain , maka tak ada asosiasi antara A dan B yang disajikan sebuah table silang , tidak berlaku untuk sebaliknya. Misalkan peubah A dan peubah B peubah diskrit . Peubah A hanya bisa bernilai a1 atau a2, dan peubah B hanya bisa bernilai b1, b2 atau b3 . Misalkan distribusi populasi berdimensi 2 sbb.:
A a1 a2
b1 10 30 40
B b2 30 10 40
b3 60 60 120
100 100 200
Dari definisi “kebebasan stokastik” dapat disimpulkan bahwa peubah A dan peubah B tidak bebas stokostik . Diperoleh misalnya , 𝑃 𝐴 = 𝑎1
𝐵 = 𝑏1 = 0.05 , 𝑃 𝐴 = 𝑎1 = 0.5 , 𝑃 𝐵 = 𝑏1 = 0.2
184
sehingga 𝑃 𝐴 = 𝑎1 . 𝑃 𝐵 = 𝑏1 ≠ 𝑃 𝐴 = 𝑎1
𝐵 = 𝑏1
Misalkan hubungan antara peubah A dan peubah B disajikan dalam table silang, dengan klasifikasi definisi sbb. : kejadian 𝐴1 = 𝐴 = 𝑎1 ;kejadian 𝐴2 = 𝐴 = 𝑎2 dan kejadian 𝐵1 = 𝐵 ∈ 𝑏1 , 𝑏2 ;kejadian 𝐵1 = 𝐵 = 𝑏3 . A
B B1 40 40 80
A1 A2
B2 60 60 120
100 100 200
Jelas tidak ada asosiasi . Karena , 𝑃 𝑃 𝑃 𝑃
𝐴1 𝐴1 𝐴2 𝐴2
𝐵1 𝐵2 𝐵1 𝐵2
= 0.2 = = 0.3 = = 0.2 = = 0.2 =
𝑃 𝑃 𝑃 𝑃
𝐴1 𝐴1 𝐴2 𝐴2
.𝑃 .𝑃 .𝑃 .𝑃
𝐵1 𝐵2 𝐵1 𝐵2
= 0.5𝑥0.4 = 0.5𝑥0.6 = 0.5𝑥0.4 = 0.5𝑥0.6
Jika klasifikasinya dibuat lain : kejadian 𝐴1 = 𝐴 = 𝑎1 ;kejadian 𝐴2 = 𝐴 = 𝑎2 dan kejadian 𝐵2 = 𝐵 ∈ 𝑏3 , 𝑏2 ;kejadian 𝐵1 = 𝐵 = 𝑏1 . Maka ,
A A1 A2
B B1 10 30
B2 90 70
100 100
185
40
160
200
Ada asosiasi antara peubah A dan B. Misalnya,diperoleh 𝑃 𝐴1
𝐵1 = 0.05 , 𝑃 𝐴1 = 0.5 , 𝑃 𝐵1 = 0.2
Sehingga 𝑃 𝐴1
𝐵1 ≠ 𝑃 𝐴1 . 𝑃 𝐵1
Seringkali pemilihan klasifikasi dipengaruhi oleh syarat-syarat yang harus dipenuhi sehubungan dengan hipotesis tentang asosiasi yang hendak diuji . Jadi asosiasi tidak sama dengan ketakbebasan stokastik . Ukuran C dan Ukuran X2 Untuk mengukur kuatnyaasosiasi antara peubah A dan B , dapat dilakukan sbb. Jika gak ada asosiasi antara A dan B , maka probabilitas bahwa sebuah unsur populasi termasuk dalam kotak (i,j)dalam table silang adalah sbb.: 𝑃 𝐴𝑖
𝐵𝑗 = 𝑃 𝐴𝑖 . 𝑃 𝐵𝑗 = 𝑝𝑖𝑗
untuk setiap 𝑖 ∈ 1,2, … , 𝑏 dan setiap 𝑗 ∈ 1,2, … , 𝑘 . Seandainya tak ada asosiasi antara kedua peubah itu dan seluruh N unsur populasi didistribusikan dalam kotak table dengan probabilitas masingmasing , maka 𝐸𝑖𝑗 = 𝑓𝑟𝑒𝑘𝑢𝑒𝑛𝑠𝑖𝑦𝑎𝑛𝑔𝑑𝑖𝑎𝑟𝑎𝑝𝑘𝑎𝑛𝑑𝑎𝑙𝑎𝑚𝑘𝑜𝑡𝑎𝑘 𝑖, 𝑗 = 𝑁. 𝑝𝑖𝑗 = 𝑁. 𝑃 𝐴𝑖 . 𝑃 𝐵𝑗 =
𝐹𝑖. ×𝐹.𝑗 𝑁
Demikianlah, karena banyaknya unsur yang termasuk di dalam kotak (i,,j) , yaitu Xij , berdistribusi Binomial B(N;pij) , maka probabilitas ( 1 – 𝑝𝑖𝑗 ) adalah probabilitas bahwa sebuah unsur termasuk ke dalam sebuah kotak yang lain .
186
Jadi , jika tak ada asosiasi antara A dan B akan diperoleh Tabel frekuensi yang diharapkan 𝐹𝑖. ×𝐹.𝑗
𝐸𝑖𝑗 = Peubah A A1 A2 ⋮ Ai ⋮ Ab
B1 E11 E21 Ei1
B2 E12 E22
⋮
Ei2
⋮
Eb1 F.1
𝑁
Peubah B Bj E1j E2j ⋮ ... Eij ⋮ ... Ebj ... F.j ... ... ...
⋮ ⋮
Eb2 F.2
... ... ...
Bk E1k E2k
...
Eik
... ...
Ebk F.k
⋮ ⋮
F1 F2 Fi
⋮ ⋮
Fb N
Selisih 𝐹𝑖𝑗 − 𝐸𝑖𝑗 untuk setiap kotak (i ,j) akan termasuk rumus untuk ukuran asosiasi . Misalkan dipilih
𝑋2 =
𝑏 𝑖=1
𝐹𝑖𝑗 −𝐸𝑖𝑗 𝑘 𝑗 =1 𝐸𝑖𝑗
2
Kalau gak ada asosiasi antara peubah A dan peubah B, maka
=
𝐹𝑖. ×𝐹.𝑗 𝑁
Untuk setiap nilai i dan setiap nilai j , sehingga 𝑋 2 = 0 . Bahwa 𝑋 2 = 0 , hanya jika 𝐹𝑖𝑗 = 𝐸𝑖𝑗 ; dengan kata lain , jika 𝑋 2 = 0 , berarti gak ada asosiasi antara peubah A dan B . Namun demikian ukuran 𝑋 2 tak memenuhi syarat nilai tertinggi nya , yaitu 1 . Dapat dibuktikan bahwa 0 ≤ 𝑋 2 ≤ 𝑁. min
𝑏, 𝑘 − 1
di sini N banyak unsur populasi , b adalah banyak baris table silang, k banyaknya kolom table silang , min (𝑏, 𝑘) bilangan terkecil dari b dan k .
187
𝑋 2 untuk table dengan 𝑏 = 2, 𝑘 = 3 tidak bisa dibandingkan dengan nilai 𝑋 2 untuk, misalnya , table dengan 𝑏 = 5, 𝑘 = 8 Ini berarti nilai
.
𝑋 2 untuk table silang dengan N = 200 tidak bisa disbanding kan dengan nilai 𝑋 2 untuk, misalnya , table silang dengan N = 500 . Selain itu, nilai
Karenanya ukuran asosiasi C Crammer didefinisikan sbb. :
𝐶=
𝑋2 𝑁. min
𝑏,𝑘 −1
Ukuran C Crammer ini bernilai antara 0 dan 1 untuk tiap table silang . Nilai C = 0 terjadi iffgak ada asosiasi antara peubah A dan B . Nilai C = 1 berarti asosiasi nya terkuat . Rumus 𝑋 2 dituliskan sbb. : 𝑏 𝑖=1
𝑋2 = 𝑁
𝐹𝑖𝑗 2 𝑘 𝑗 =1 𝐹 ×𝐹 𝑖.
.𝑗
−1
Ini dibuktikan dengan menukarkan 𝐸𝑖𝑗 dengan 𝐹𝑖. × 𝐹.𝑗 /𝑁 . Rumus C dituliskan sbb. :
𝐶=
1 min
𝑏,𝑘 −1
𝑏 𝑖=1
𝐹𝑖𝑗 2 𝑘 𝑗=1 𝐹𝑖. ×𝐹.𝑗
−1
Contoh : Data 1000 orang disusun menurut peubah “tempat tinggal” (kota X, kota Y ) dan peubah “ pendapatan” (tinggi, rendah) :
Kota X Y
Pendapatan Tinggi Rendah 180 420 120 280
600 400
188
300
700
1000
Untuk populasi 1000 orang ini, ternyata tidak ada asosiasi antara peubah “pendapatan” dan peubah “tempat tinggal” , karena
=
𝐹𝑖𝑗 2 2 𝑗=1 𝐹𝑖. ×𝐹.𝑗
2 𝑖=1
𝐶=
180 2 300 ×600
+
420 2 700 ×600
+
−1 120 2
300 ×400
+
280 2 700 ×400
−1
= 0.18 + 0.42 + 0.12 + 0.28 − 1 = 0 Jadi C = 0 . Berarti distribusi frekuensi relatif di kota X sama dengan distribusi frekuensi relatif di kota Y : 0.3 bagian berpandapatan tinggi dan 0.7 bagian berpendapatan rendah . Jika satu orang ditarik secara acak sederhana dari populasi ini, maka P(pendapatan tinggi tinggal di X ) = P (pendapatan tinggi tinggal di Y ) = P(pendapatan tinggi) = 0.3. dan P(pendapatan rendah tinggal di X ) = P (pendapatan rendah Tinggal di Y ) = P(pendapatan rendah) = 0.7.
Contoh : Populasi 1000 orang disusun mnurut peubah “tempat tinggal” dan peubah “pendapatan” dengan klasifikasi :
Kota A B
Tinggi 100 0
Pendapatan Sedang 0 0
Rendah 0 400
100 400
189
0 200 300
C D
300 0 300
0 0 400
300 200 1000
Nilai C mencapai maksimum : 1
𝐶=
=
100 2
2 300 ×100
1 1 2 3
+
400 2 400 ×400
+
300 2 300 ×300
+
200 2 300 ×200
−1
2
+1+1+ −1 = 1 3
Jika tempat tinggal seseorang diketahui , maka pendapatan nya juga diketahui dengan pasti : di kota A hanya terdapat orang berpendapatan tinggi di kota B hanya terdapat orang berpendapatan rendah di kota C hanya terdapat orang berpendapatan sedang di kota D hanya terdapat orang berpendapatan tinggi C Crammer dalam Sampel Dalam penelitian yang ditarik sampel nya dari populasi selanjutnya dihitung ukuran asosiasi untuk sampel acak sederhana . Peubah A A1 A2 ⋮ Ai ⋮ Ab
B1 f11 f21 fi1 fb1 f.1
⋮ ⋮
B2 f12 f22 fi2
Peubah B Bj f1j f2j ⋮ ... fij ⋮ ... fbj ... f.j ... ... ...
⋮ ⋮
fb2 Ff2
Nilai probabilitas𝑃 𝐴𝑖
𝐵𝑗
... ... ...
Bk f1k f2k
...
fik
... ...
fbk f.k
, probabilitas 𝑃 𝐴𝑖
⋮ ⋮
f1 f2 fi
⋮ ⋮
fb n
, dan proba bilitas
. 𝑃 𝐵𝑗 tidak diketahui , karena terdapat di populasi . Untuk sampel , nilai probabilitas nya harus diduga .
190
𝑃 𝐴𝑖 diduga dengan
𝑓𝑖 , 𝑛
𝑃 𝐵𝑗 diduga dengan
𝑓𝑗 𝑛
dan 𝑃 𝐴𝑖
𝐵𝑗 diduga dengan
𝑓 𝑖𝑗 𝑛
.
Ukuran asosiasi didefinisikan dengan
𝐶=
1 min
𝑏,𝑘 −1
𝑏 𝑖=1
: 2
𝑓𝑖𝑗 𝑘 𝑗=1 𝑓 𝑖. ×𝑓 .𝑗
−1
Ukuran Asosiasi lain didasarkan pada X2 Ukuran 𝑋 2 harus dibedakan dari peubah probabilitas khi-kuadarat, 𝜒 2 (𝑣) . Jika beberapa syarat nya dipenuhi , distribusi penarikan sampel untuk 𝑋 2 kurang labih sama dengan distribusi probabilitas untuk 𝜒 2 (𝑣 = 𝑏−1 𝑘−1 ). Untuk statistic deskriptif saja, ukuran asosiasi C lebih baik daripada 𝑋 2 karena sifatnya 0 ≤ 𝐶 ≤ 1 . Ukuran asosiasi lain yang didasarkan pada 𝑋 2 , antara nya 𝜑 2 , P dan T . Ukuran C Rammer sering ditulis V Crammer, sebagai ukuran simetrik yang paling baik . Di sini n banyaknya unsur dalam sampel , b banyak baris , dan k banyak kolom di table silang .
(a) Koeifisien fi-kuadrat 𝜑2 =
𝑋2 𝑛
(b) Koeifisien Kontingensi menurut Person (Contingency coefficient)
𝑃=
𝑋2 𝑛 + 𝑋2
191
(c) Koeifisien asosiasi menurut Tschuprow
𝑇=
𝑋2 𝑛
𝑏−1 𝑘−1
Ukuran Y Yule tidak didasarkan pada 𝑋 2 , hanya berlaku untuk table silang dengan 2 baris dan 2 kolom ( b =2 , k = 2 ) .
Dua Peubah Ordinal : 𝝉 Kendall Matriks data untuk n unsur sampel mengandung peubah X, yang diukur pada skala ordinal , dan peubah Y , yang juga diukur pada skala ordinal . Karena keduanya pada skala ordinal , maka nilai 𝑥1 , 𝑥2 , … , 𝑥𝑛 dapat diurutkan menurut besarnya , begitu juga 𝑦1 , 𝑦2 , … , 𝑦𝑛 dapat diurut menuurt besarnya . Unsur Peubah X Peubah Y
: : :
1 x1 y1
2 x2 y2
3 x3 y3
… … …
n xn yn
Akan diperiksa apakah salah satu dari 3 kemungkinan di bawah ini juga berlaku jika 𝑥𝑗 > 𝑥𝑖 : (1) Secara sistematik 𝑦𝑗 > 𝑦𝑖 ; korelasi peringkat antara X dan Y dikata kan positif , (2) Secara sistematik 𝑦𝑗 < 𝑦𝑖 ; , peringkat antara X dan Y dikata kan negatif , (3) Tidak benar bahwa secara sistematik 𝑦𝑗 < 𝑦𝑖 , atau 𝑦𝑗 > 𝑦𝑖 tidak ada korelasi peringkat antara X dan Y ( atau korelasi antara keduan nya tidak kuat ) . Contoh : Misalkan peubah status social (X) diukur pada skala ordinal dari 1 (rendah) sampai dengan 15 (tinggi) , dan peubah sikap terhadap kehadiran
192
salesdi kota (Y) diukur pada skala ordinaldari –5 (negatif) sampai dengan +5 (positif) . Data pasangan (xi,yj) untuk 7 orang diberikan : Status sosial (X) 3
5
6
7
8
12
13
Sikap (Y)
3
2
0
1
–4
0
2
Kalau X bertambah , maka Y berkurang . Hubungan keduanya negatif . Ada ketidakjelasan , karena terjadi kasus 𝑥𝑗 > 𝑥𝑖 dan 𝑦𝑗 > 𝑦𝑖 yaitu (3,2) dan (5,3) , (7,0) dan (8,1) , dan (12, - 4 ) dan (13,0) . Jadi , hubungan antara 2 peubah tidakterlalu kuat . Berikut 𝑥𝑖 , 𝑦𝑖 akan disebut pengamatan i dan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 disebut sebuah pasangan . Definisi ukuran korelasi peringkat𝜏 Kendall didasarkan pada perbandingan sebuah pengamatan 𝑥𝑖 , 𝑦𝑖 dengan sebuah pengamatan lain 𝑥𝑗 , 𝑦𝑗 , dengan 𝑖 ≠ 𝑗 , yang diambil dari pengamatan 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 yang ada . Untuk setiap pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 ada 7 kemungkinan berikut : Kemungkinan
Contoh
1. 𝑥𝑗 > 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 > 𝑦𝑖 Pasangan selaras (concordant)
1,4 , 3,7
2. 𝑥𝑗 < 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 < 𝑦𝑖 Pasangan selaras (concordant)
3,7 , 1,4
3. 𝑥𝑗 > 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 < 𝑦𝑖 Pasangan tak selaras (concordant)
1,4 , 3,2
4. 𝑥𝑗 < 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 > 𝑦𝑖 Pasangan tak selaras (concordant)
3,2 , 1,4
5. 𝑥𝑗 = 𝑥𝑖
Pengamatan X bernilai sama (ties on X )
1,4 , 1,7
6. 𝑦𝑗 = 𝑦𝑖
Pengamatan Y bernilai sama (ties on Y )
1,4 , 3,4
7. 𝑥𝑗 = 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 = 𝑦𝑖 Pengamatan X bernilai sama Pengamatan Y bernilai sama
1,4 , 1,4
193
Karena ada n pengamatan 𝑥𝑖 , 𝑦𝑖 , maka dapat dibandingkan sebanyak 𝑛 1 = 𝑛 𝑛−1 2 2 pasangan
𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗
, yaitu :
𝑥1 , 𝑦1 dibandingkan dengan 𝑥2 , 𝑦2 sampai dengan 𝑥𝑛 , 𝑦𝑛 : 𝑛 − 1 per bandingan 𝑥1 , 𝑦1 dibandingkan dengan 𝑥2 , 𝑦2 sampai dengan 𝑥𝑛 , 𝑦𝑛 : 𝑛 − 2 per bandingan dan seterusnya sampai 𝑥1 , 𝑦1 dibandingkan dengan 𝑥2 , 𝑦2 sampai dengan 𝑥𝑛 , 𝑦𝑛 : 1 per bandingan Total banyaknya perbandingan adalah : 1
𝑛 −1 + 𝑛 − 2 + 𝑛 − 3 + ⋯+ 1 = 𝑛 𝑛 −1 2
1
Untuk semua 𝑛 𝑛 − 1 perbandingan itu didefinisikan besaran P,Q,T X , 2
TY dan TXY sebagai berikut : P adalah banyaknya pasangan selaras Q adalah banyaknya pasangan tak selaras TX adalah banyaknya pasangan dengan 𝑥𝑗 = 𝑥𝑖 TY adalah banyaknya pasangan dengan 𝑦𝑗 = 𝑦𝑖 TXY adalah banyaknya pasangan selaras 𝑥𝑗 = 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 = 𝑦𝑖 . Sementara diperkirakan bahwa T X , TY dan TXY bernilai nol , atau kecil sekali kalau dibandingkan dengban nilai P dan / atau nilai Q . Kalau demikian , maka korelasi peringkattidak kuat jika nilai P kurang lebih sama dengan nilai Q . Jika korelasi peringkat antara kedua peubah tersebut positif, P harus lebih besar daripada Q . Kalau korelasi peringkat antara kedua peubah tersebut negatif , P harus lebih daripada Q .
194
Dalam data mengenai “nilai statistika “ dan “ nilai sosiologi” di atas , datanya sudah tersusun : X
:2
3
4
5
6
7
8
9
Y
:3
4
5
6
7
5
7
8
Nilai-nilai peubah sudah diurut . Ini menyederhanakan perhitungan P dan Q . Selanjutnya nilai P ditentukan dengan baris untuk peubah Y . Untuk nilai Y pada tempat pertama ( dari kiri ) ditentukan berapa kali ada nilai yang lebih besar yang terletak di sebelah kanan tempat pertama itu dalam baris Y . Itu juga dilakukan untuk nilai Y pada tempat kedua ( dari kiri) : ditentukan berapa kali ada nilai yang lebih besar yang terletak di sebelah kanan tempat kedua itu dalam baris Y . Dan seterusnya, tempat ketiga sampai dengan tempat ke – (n-1) . Untuk setiap tempat dalam baris untuk peubah Y diperoleh sebuah bilangan dan nilai P sama dengan jumlah bilangan-bilangan tersebut. Dalam contoh di atas diperoleh : Untuk nilai Y = 3: 7 kali , yaitu nilai 4,5,6,7,5,7,8,. Untuk nilai Y = 4: 6 kali , yaitu nilai 5,6,7,5,7,8 Untuk nilai Y = 5: 5 kali , yaitu nilai 6,7,7,8 Untuk nilai Y = 6: 4 kali , yaitu nilai 7,7,8 Untuk nilai Y = 7: 3 kali , yaitu nilai 8 Untuk nilai Y = 5: 2 kali , yaitu nilai 7,8 Untuk nilai Y = 7: 1 kali , yaitu nilai 8 Dengan demikian diperoleh 𝑄 =0+0+0+1+1+0+0= 2. Nilai (P –Q) digunakan sebagai ukuran korelasi perangkat . Jika 𝑃 − 𝑄 > 0 berarti lebih banyak pasangan selaran daripada yang tak selaras ; Jika 𝑃 − 𝑄 < 0 berarti lebih banyak pasangan tak selaran daripada yang selaras ; Dan Jika 𝑃 − 𝑄 = 0 berarti tidak ada hubungan antara niali-nilai peubah X dan nilai-nilai peubah Y .
195
1
1
2
2 1
Akan tetapi − 𝑛 𝑛 − 1 ≤ + 𝑛 𝑛 − 1 . (Kalau TX≠ 0 atau TY≠ 0 , 1
maka nilai − 𝑛 𝑛 − 1 dan nilai + 𝑛 𝑛 − 1 tidak mungkin bisa dicapai ) . 2
2
Oleh karena itu dicari sebuah ukuran yang nilainya −1 𝑑𝑎𝑛 1 , untuk setiap nilai n. Ukuran 𝑃 − 𝑄 tidak bisa digunakan untuk membdingkan kuat nya korelasi peringkat dalam 2 sampel yang besarnya berbeda . Oleh karena itu
𝜏=1 2
𝑃−𝑄 𝑛 𝑛 −1
sebuah ukuran Kendall , ukuran korelasi peringkat yang baik, karena −1 ≤ 𝜏 ≤ 1 . jika gak ada korelasi peringkat , nilai ukuran 𝜏 sama dengan 0 . untuk “nilai statistika” dan “nilai sosiologi” dalam . 1
1
2
2
Dari contoh di atas P = 24 , Q = 2 dan 𝑛 𝑛 − 1 =
8 8 − 1 = 28
.
Jadi ukuran 𝜏 Kendall bernilai
𝜏=1 2
𝑃−𝑄 𝑛 𝑛 −1
=
24−2 28
22
= 28
Untuk contoh sebelumnya mengenai hubungan “status sosial” dan “sikap” diperoleh 𝑃 =1+0+0+1+0+1 =0 𝑄 = 4 + 5 + 4 + 1 + 2 + 0 = 16 1 2
𝑛 𝑛−1 =
1
3−16
13
2
7 7 − 1 = 21
sehingga
𝜏=
21
= 21
Pengamatan yang Bernilai Sama Jika himpunan 𝑥1 , 𝑥2 , … , 𝑥𝑛 mengandung nilai yang sama (ties) , misalnya 𝑥3 = 𝑥7 = 𝑥8 = 𝑥11 = 𝑥17 = 3 , atau himpunan
196
𝑦1 , 𝑦2 , … , 𝑦𝑛 mengandung nilai yang sama, sering digunakan ukuran korelasi peringkat𝜏𝑏 yang berbeda sedikit dengan 𝜏 . Ini penting jika satu atau beberapa nilai sering muncul dalam himpunan 𝑥1 , 𝑥2 , … , 𝑥𝑛 , atau dalam himpunan 𝑦1 , 𝑦2 , … , 𝑦𝑛 , dengan kata lain kalau TX atau TY menjadi besar . Koeifisien 𝜏𝑏 akan sama dengan koeifisien 𝜏 jika gak ada pengamatan yang bernilai sama . Koeifisien korelasi pangkat𝜏𝑏 Kendall didefisikan sebagai :
𝜏𝑏 =
𝑃−𝑄 1 𝑛 2
𝑛−1 −𝑇𝑋
1 𝑛 2
𝑛−1 −𝑇𝑌
di sini P, Q, TX dan TY didefinisikan seperti di atas . TX adalah banyaknya pasangan dengan 𝑥𝑗 = 𝑥𝑖 dari sejumlah
1 𝑛 2
𝑛−1
pembandingan
pengamatan 𝑥𝑖 , 𝑦𝑖 dengan 𝑥𝑗 , 𝑦𝑗 . Jadi , jika 𝑥1 , 𝑥2 , … , 𝑥𝑛 digolongkan ke dalam h kelas masing-masing dengan frekuensi 𝑢1 , 𝑢2 , … , 𝑢 sbb. : Nilai pengamatan X :
a1
a2
…
ah
Frekuensi
u1
u2
…
uh
:
maka diperoleh 𝑢1 2
+
𝑢2 2
+
𝑢3 2
pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 Dengan demikian 𝑢1 𝑖=1 2
𝑇𝑋 =
+ ⋯+
𝑢 2
= 𝑇𝑋
dengan 𝑥𝑗 = 𝑥𝑖 .
=
1 2
𝑖=1 𝑢𝑖
𝑢𝑖 − 1
Dengan cara sama diperoleh 1
𝑇𝑌 = 2
𝑘 𝑖=1 𝑣𝑖
𝑣𝑖 − 1
di ini 𝑣𝑖 banyaknya nilai Y yang sama dengan 𝑏𝑖 .
197
Di sini 𝑇𝑋 = 0bilagak ada pengamatan X yang bernilai sama , karena dalam hal ini 𝑢𝑖 = 1 untuk tiap I . Nilai 𝑇𝑌 = 0 jika gak ada pengamatan Y yang bernilai sama . Untuk data dalam contoh di atas , yaitu : 𝑥𝑖 :2 3
4
5
6
7
8
9
𝑦𝑖 : 3 4
5
6
7
5
7
8
diperoleh 𝑇𝑋 = 0karena tak ada pengamatan X yang bernilai sama . untuk pengamatan Y berdistribusi : Nilai 𝑌 𝑏𝑖 : 3
4
5
6
7
8
Frekuensi :
1
2
1
2
1
1
Dengan demikian 𝑇𝑌 = 0 + 0 + 1 + 0 + 1 + 0 = 2 , sehingga nilai
𝜏𝑏 menjadi 24−2
𝜏𝑏 =
Perbedaan nilai
28−0 28−2
22
=
22 27
22
𝜏 = 28 dan nilai 𝜏𝑏 = 27 kecil , karena nilai 𝑇𝑋 dan nilai 𝑇𝑌
juga kecil . Pengamatan yang bernilai sama merupakan kesulitan untuk metode yang menggunakan bilangan peringkat di dalam statitika bebas distribusi .
Perbandingan 𝜸 Goodman dan Kruskal dengan 𝝉 Kendall Ukuran 𝛾 Goodman dan Kruskal 𝑃−𝑄
𝛾 = 𝑃+𝑄 di sini P dan Q didefinisikan seperti rumus 𝜏 di atas .
198
1
Jika gak ada pengamatan yang bernilai sama, maka 𝑃 + 𝑄 = 𝑛 𝑛 − 1 , 2
sehingga 𝛾 = 𝜏. Jika ada pengamatan yang bernilai sama, maka nilai 𝛾 tidak sama dengan nilai 𝜏 . di sini 𝛾 > 𝜏 . Untuk populasi , ukuran “gamma” dilambangkan Γ (huruf besar Yunani untuk gamma ) . Makna Γ dihubungkan dengan probabilitas . Misalkan satu pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 ditarik acak sederhana dari populasi , maka Γ=𝑃
𝑝𝑎𝑠𝑎𝑛𝑔𝑎𝑛 𝑥𝑗 ≠ 𝑥𝑖 𝑑𝑎𝑛 𝑝𝑎𝑠𝑎𝑛𝑔𝑎𝑛 𝑥𝑗 ≠ 𝑥𝑖 𝑑𝑎𝑛 −𝑃 𝑦𝑗 ≠ 𝑦𝑖 𝑠𝑒𝑙𝑎𝑟𝑎𝑠 𝑡𝑎𝑘 𝑠𝑒𝑙𝑎𝑟𝑎𝑠 𝑦𝑗 ≠ 𝑦𝑖
di sini jelas bahwa Γ mengukur kuatnya korelasiperingkat di dalam populasi . Hanya pasangan-pasangan 𝑥𝑗 ≠ 𝑥𝑖 𝑑𝑎𝑛𝑦𝑗 ≠ 𝑦𝑖 yang dihitung . Di dalam sampel , probabilitas tidak diketahui hanya pendugaan dengan P dan Q : 𝑃 𝑝𝑎𝑠𝑎𝑛𝑔𝑎𝑛 𝑠𝑒𝑙𝑎𝑟𝑎 𝑥𝑗 ≠ 𝑥𝑖 𝑑𝑎𝑛𝑦𝑗 ≠ 𝑦𝑖 𝑑𝑖𝑑𝑢𝑔𝑎 𝑜𝑙𝑒
𝑃 𝑃+𝑄
𝑃 𝑝𝑎𝑠𝑎𝑛𝑔𝑎𝑛 𝑡𝑎𝑘 𝑠𝑒𝑙𝑎𝑟𝑎 𝑥𝑗 ≠ 𝑥𝑖 𝑑𝑎𝑛𝑦𝑗 ≠ 𝑦𝑖 𝑑𝑖𝑑𝑢𝑔𝑎 𝑜𝑙𝑒
. 𝑄 𝑃+𝑄
.
Jadi ukuran korelasi peringkat dalam sampel, 𝛾 , adalah
𝛾=
𝑃 𝑃+𝑄
−
𝑄 𝑃+𝑄
=
𝑃−𝑄 𝑃+𝑄
Dalam 2 contoh di atas ada pengamatan yang bernilai sama . Dengan demikian 𝛾 dan nilai 𝜏berbeda sedikit : Contoh di atas : 𝛾 =
22 6
,𝜏 =
22 28
Contoh di atas : 𝛾 =
13 19
, 𝜏 = 21
13
22
13
Karena ada pengamatan bernilai sama, maka 𝜏𝑏 = dan 𝜏𝑏 = − 20 . 27 Jelas ketiganyatidak ekivalen jika ada pengamatan yang bernilai sama .
199
8.2
Dua Peubah Interval : Koeifisien Korelasi Momen Hasil Kali
Skala interval atau skala rasio . Untuk peubah ini rerata hitung bisa dipakai sebagai ukuran pemusatan dan deviasi standar sebagai ukuran penyebaran . Koeifisien korelasi ini tak dapat digunakan untuk peubah skala ordinal dan nominal . Di dalam matriks data terdapat n pasangan 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 . Berikut grafik diagram tebar nya (scatter diagram )
A y1
B
y2 X3 X1
X2
y3 C
a.korelasi positif kuat , x bertambah , y bertambah
c.korelasi negatif : x bertambah y berkurang
200
b. korelasi tak kuat , x bertambah , y bertambah
d. tak ada korelasi
f. korelasi tak linier
100 100
100 e.korelasi kuat tak linier
100
Grafik (a), (b),(c) korelasi antara peubah X dan Y liniir(lurus) . Grafik (d) tidak ada korelasi (lemah sekali) . Grafik (e) dan (f) korelasi tak linier . Daerah “awan” terdiri dari pasangan titik-titik 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 . Titik 𝑥 , 𝑦 terletak di dalam awan diasumsi pusat awan . Di sini 𝑥= 𝑦=
1 𝑛 1 𝑛
𝑛 𝑖=1 𝑥𝑖
= 𝑟𝑒𝑟𝑎𝑡𝑎 𝑝𝑒𝑢𝑏𝑎 𝑋
𝑛 𝑖=1 𝑦𝑖
= 𝑟𝑒𝑟𝑎𝑡𝑎 𝑝𝑒𝑢𝑏𝑎 𝑌
201
Sumbu S dan T melewati pusat 𝑥 , 𝑦 . Sumbu S sejajar dengan sumbu X , dan sumbu T sejajar dengan sumbu Y . \
T
Y
I
II
S
𝑦 IV
III
X 𝑥
Dalam awan ini “X brtambah, maka Y bertambah” , banyak pasangan terletak di dalam kuadran I dan III , namun banyak nya pasangan di dalam kuadran II dan kuadran IV tidak besar .Jika pasangan 𝑥𝑖 , 𝑦𝑖 terletak di da lam kuadran I atau III maka 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 > 0 , karena di dalam kuadran I 𝑥𝑖 − 𝑥 > 0 dan 𝑦𝑖 − 𝑦 < 0 .
T
Y
𝑥𝑖 , 𝑦𝑖
𝑦𝑖 Kuadran I
𝑦𝑖 − 𝑦 > 0 𝑥, 𝑦 .
𝑦 𝑦𝑗
S
𝑥𝑗 , 𝑦𝑗
xj
X xi
𝑥 𝑥𝑖 − 𝑥 >0
Jika pasangan 𝑥𝑖 , 𝑦𝑖 terletak di dalam kuadran II atau kuadran IV, maka 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 < 0 karena di Kudran II 𝑥𝑖 − 𝑥 < 0 dan 𝑦𝑖 − 𝑦 > 0 dan di kuadran IV 𝑥𝑖 − 𝑥 > 0 dan 𝑦𝑖 − 𝑦 < 0 .
202
Jadi , jika awannya memberi gambaran bahwa “ X bertambah, maka Y bertambah” , penjumlahan semua unsur 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 bernilai positif : 𝑛 𝑖=1
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 > 0
Hal ini disebabkan karena frekuensi kejadian 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 > 0 ada lah besar , sedangkan frekuensi kejadian 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 < 0 adalah kecil untuk 𝑖 ∈ 1,2,3, … , 𝑛 . Juga, bobot 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 di kudran I dan III lebih besar daripada bobotnya di dalam kuadran II dan IV : pasangan di dalam kuadran II dan kuadran IV terletak dekat pusat 𝑥 , 𝑦 , sedangkan pasa ngan di dalam kuadran I dan III beberapa kali terletak jauh dari pusat 𝑥 , 𝑦 .
_
+
+
–
Kalok awannya “X naik, maka Y turun” maka penjumlahan unsur-unsur 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 bernilai negatif : 𝑛 𝑖=1
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 < 0
Ini karena frekuensi kejadian 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 < 0 besar dan frekuensi kejadian 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 > 0 kecil .
203
Y T
–
+
𝑦
S
+
𝑥
X
– Jika bentuk awannya kurang lebih persegipanjang atau bulat , maka jumlah unsur-unsur 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 bernilai mendekati 0 : 𝑛 𝑖=1
Y
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 0
T
S 𝑦
𝑥
X
Ini karena banyaknya titik pada kuadran I dan III kurang lebih sama dengan banyaknya titik pada kuadran II dan IV , dan juga bobot nya kurang lebih sama .
204
Jadi , jumlah 𝑛 𝑖=1
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
bisa dijadikan sebuah ukuran korelasi . Akan tetapi dapat dibuktikan bahwa
𝑛 𝑖=1
− 𝑛 − 1 𝑠𝑋 𝑠𝑌 ≤
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 ≤ 𝑛 − 1 𝑠𝑋 𝑠𝑌
di sini 𝑠𝑋 adalah deviasi standard peubah X , dan 𝑠𝑌 adalah deviasi standar peubah Y . Tapi jumlah ini tak bisa dipakai untuk membandingkan kuatnya korelasi liniir dalam 2 sampel 𝑛1 ≠ 𝑛2 , atau 𝑠𝑋1 ≠ 𝑠𝑋2 , 𝑠𝑌1 = 𝑠𝑌2 . Karena nya , koeifisien korelasi momen hasil kali (product moment correlation cooeficient) didefinisikan PEARSON sbb. :
𝑟=
𝑛 𝑖=1 𝑥 𝑖 −𝑥
𝑦 𝑖 −𝑦
𝑛−1 𝑠𝑋 𝑠𝑌
Disebut koeifisien korelasi saja ! dulunya koeifisien korelasi liniir . Jadi, jika gak ada korelasi liniir , 𝑟 = 0 ; jika positif paling kuat , 𝑟 = 1 ; Dan negatif paling kuat , 𝑟 = −1 . Tunjukkan sendiri Anda ! , bahwa 𝑟 = ±1 jika 𝑦𝑖 = 𝑎 + 𝑏𝑥𝑖 , dengan lain kata semua pasangan pengamatan terletak tepat pada sebuah garis lurus . Petunjuk membuktikan :
𝑠𝑌 = 𝑏 𝑠𝑋 𝑛 𝑖=1
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 𝑏
𝑛 𝑖=1
𝑥𝑖 − 𝑥
2
Hubungan statistic tersebut telah menjadi hubungan fungsional . Ukuran 1 𝑛−1
𝑛 𝑖=1
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
di dalam definisi koeifisien korelasi disebut kovariansi (covariance) untuk peubah X dan Y .
205
Kovariansi dinotasikan dengan 𝑠𝑋𝑌 , karenanya dapatlah dituliskan
𝑟=
𝑠𝑋𝑌 𝑠𝑋 𝑠𝑌
Untuk sebuah distribusi probabilitas berdimensi 2 (misalnya distribusi dalam sebuah populasi berdimensi 2 ) dikenal kovariansi 𝜍𝑋𝑌 dan koeifisien korelasi𝜌𝑋𝑌 . Contoh : Diketahui 5 pasangan 𝑥𝑖 , 𝑦𝑖 sbb. −4,3 , −1,1 , 0,0 , 2,0 , 3,1 . Menghitung koeifisien korelasi momen hasil kali .
𝒙𝒊
𝒚𝒊
𝒙𝒊 − 𝒙
𝒚𝒊 − 𝒚
-4 -1 0 2 3 0
3 1 0 0 1 5
-4 -1 0 2 3 0
2 0 -1 -1 0 0
𝒙𝒊 −𝒙
𝟐
16 1 0 4 9 30
𝒚𝒊 − 𝒚 4 0 1 1 0 6
𝟐
𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚 -8 0 0 -2 0 -10
Menjumlahkan kolom 1 , rerata peubah X dihitung : 𝑥 = 0 . Menjumlahkan kolom 2 , rerata peubah Y dihitung : 𝑦 = 1 . Menjumlahkan kolom 5 , 𝑠𝑋 dihitung : 𝑠𝑋 =
30
Menjumlahkan kolom 6 , 𝑠𝑌 dihitung : 𝑠𝑌 =
6
4
4
.
.
Jadi −10
𝑟= 4
30 6 4 4
=−
10 180
= −0.75 .
Korelasi , Korelasi liniir, dan Kebebasan Stokastik Misalkan dalam sebuah populasi berdimensi 2, peubah X dan Y didistribusikan secara bebas stokastik satu sama lain , maka dapat dibukti
206
kan koeifisien korelasi 𝜌 (baca “rho”) dalam populasi tersebut sama dengan 0. Tetapi, jika di dalam populasi berlaku 𝜌𝑋𝑌 = 0 , belum berarti peubah X dan peubah Y terdistribusi secara bebas stokastiksatu sama lain . Mungkin ada hubungan tak liniir antara kedua peubah tersebut. Tetapi beberapa populasi ternyata “𝜌𝑋𝑌 = 0” dan “X dan Y terdistribusi secara bebas stokastik adalah dua pernyataan ekivalen. Contoh populasi normal berdimensi 2 (bivariate normal population) , koeifisien korelasi 𝜌bisa dianggap sebuah ukuran mengukur kuatnyaketakbebasan (interdependence) peubah X dan Y : Jika 𝜌𝑋𝑌 = 0 ⟺X dan Y bebas stokastik Jika 𝜌𝑋𝑌 ≠ 0 ⟺ X dan Y takbebas stokastik
Di dalam populasi normal berdimensi 2 , maka korelasi hubungan antara 2 peubah (kalok ada)hanya terjadi dalam bentuk liniir. Biasanya 𝜌populasi tidak diketahui dan koeifisien korelasi diduga dengan r dari pengamatan sampelacak sederhana . Pendugaan ini hanya boleh diasumsikan pendugaan kuatnya ketakbebasan X dan Y di dalam populasi nya berbentuk (kurang lebih) normal berdimensi 2 . Untuk sembarang sebuah populasi , r hanya bisa digunakan untuk menduga kuatnya korelasi liniir . Ada kemungkinan bahwa hipotesis “𝜌𝑝𝑜𝑝𝑢𝑙𝑎𝑠𝑖 = 0"diterima dalam hal ini . Namun tidak berarti bahwa tidak ada hubungan antara kedua peubah . Hubungan ini mungkin dalam bentuk takliniir , korelasinya kurang lebih 0,terdapat hubungan antara keduanya dalam bentuk tak liniir . Koeifisien Determinasi Ukuran 𝑟 2 disebut koeifisien dterminasi ( cooeificient of determination atau index of determination ) . Koeifisien determinasi ini juga dipakai untuk mengukur kuatnyakorelasi linier , bahwa 0 ≤ 𝑟 2 ≤ 1 karena −1 ≤ 𝑟 ≤ 1 . Koeifisien regresi ini dihubungkan dengan garis regresi . Koeifisien Korelasi Peringkat Spearman
207
Untuk n pasangan 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 , korelasi peringkat dapat juga dihitung menurut cara SPEARMAN sbb. Pada bilangan,bilangan 𝑥1 , 𝑥2 , … , 𝑥𝑛 dibubuhkan bilangan peringkat 𝑃𝑖 ∈ 1,2, … , 𝑛 dan pada bilangan-bilangan 𝑦1 , 𝑦2 , … , 𝑦𝑛 dibubuhkan bilanganperingkat𝑅𝑖 ∈ 1,2, … , 𝑛 . Koeifisien korelasi peringkat Spearman , 𝑟𝑠 , dihitung seperti koeifisien korelasi momen hasil kali r , tapi untuk n pasangan bilangan peringkat 𝑃1 , 𝑅1 , 𝑃2 , 𝑅2 , … , 𝑃𝑛 , 𝑅𝑛 . Untuk contoh di atas dengan 5 pasangan −4,3 , −1,1 , 0,0 , 2,0 , 3,1 , koeifisien korelasi r telah dihitung. Perhitungan koeifisien korelasi peringkat Spearman untuk data yang sama sbb. 𝒙𝒊
𝒚𝒊
𝑷𝒊
𝑹𝒊
𝑷𝒊 −𝑷
𝑹𝒊 −𝑹
𝑷𝒊 −𝑷
-4 -1 0 2 3 0
3 1 0 0 1 5
1 2 3 4 5 15
5 3½ 1½ 1½ 3½ 15
-2 -1 0 1 2 0
2 ½ -1 ½ -1 ½ ½ 0
4 1 0 1 4 10
𝑠𝑃 =
10
𝑟𝑆 =
−5
4
𝑑𝑎𝑛 𝑠𝑅 =
𝟐
𝑹𝒊 −𝑹 4 ¼ 2¼ 2¼ ¼ 9
𝟐
𝑷𝒊 − 𝑷 𝑹𝒊 −𝑹 -4 -1/2 0 -1 ½ 1 -5
9 4
Jadi , 10 9 4 4 4
=−
5 90
= −0.53
menurut rumus
𝑟𝑆 =
𝑃𝑖 −𝑃 𝑅𝑖 −𝑅 𝑛 𝑖=1 𝑛−1 𝑠 𝑠 𝑃 𝑅
Koeifisien korelasi peringkat Spearman , 𝑟𝑆 , dihitung dengan cara seperti koeifisien korelasi r , tapi 𝑟𝑆 bukan merupakan ukuran korelasi liniir , melainkan sebuah ukuran korelasi peringkat , seperti halnya 𝜏 KENDALL. Sifat-sifat 𝑟𝑆 mirip dengan sifat 𝜏 .
208
8.3
Uji Asosiasi dan Korelasi
Sering ukuran asosiasi atau korelasi dihitung dari sampel acak sederhana. Nilai ukuran sampel digunakan untuk menarik kesimpulan mengenai asosiasi atau korelasi dalam populasi berdimensi 2 . Akan diuji pasangan Hipotesis 𝐻0 𝑑𝑎𝑛 𝐻𝑎 dengan hipotesis nol nya berbentuk 𝐻0 : tidak ada asosiasi (korelasi peringkat ,korelasi liniir) . Bentuk 𝐻0 berbeda dalam beberapa hal . Jika ujinya tentang asosiasi , hipotesis alternative nya hanya bisa berbentuk “ada asosiasi” (penyangkalan 𝐻0 ) . Tapi kalok korelasi peringkat atau korelasi liniir yang diuji , hipotesis alter natif nya bisa juga berbentuk “korelasi peringkat (korelasi liniir) positif” , atau “korelasi peringkat (korelasi liniir) negatif “ . Uji Asosiasi Untuk menguji psangan hipotesis sebuah populasi berdimensi 2 𝐻0 𝐻1
: tidak ada asosiasi antara kedua peubah : ada asosiasi antara kedua peubah tersebut
tidak digunakan ukuran pengujian C Crammer , melainkan akan digunakan ukuran 𝑘
𝑏
2
𝑋 = 𝑗 =1 𝑖=1
𝑓𝑖𝑗 − 𝑒𝑖𝑗 𝑒𝑖𝑗
2
di sini , 𝑓𝑖𝑗 adalah frekuensi yang didapat di dalam kotak 𝑖, 𝑗 pada table untuk data sampel (acak sederhana) dan 𝑒𝑖𝑗 =
𝑓 𝑖 ×𝑓 𝑗 𝑛
209
adalah nilai frekuensi harapan dalam kotak 𝑖, 𝑗 jika 𝐻0 benar . Jika 𝑋 2 diambil sebagai ukuran pengujian , maka distribusi penarikan sampel (sampling distribution) untuk 𝑋 2 harus diketahui . Misalkan sampel nya ditarik acak sederhana dengan pemulihan dari populasi dan 𝑒𝑖𝑗 > 5 𝑢𝑛𝑡𝑢𝑘 𝑡𝑖𝑎𝑝 𝑖 ∈ 1,2, … , 𝑏 𝑑𝑎𝑛 𝑡𝑖𝑎𝑝 𝑗 ∈ 1,2, … , 𝑘 . Jika syarat itu dipenuhi, distribusi penarikan sampel untuk 𝑋 2 , jika 𝐻0 benar , kurang lebih sama dengan distribusi untuk 𝜒 2 (khi –kuadrat) dengan banyaknya derajat bebas 𝑣 = 𝑏 − 1 𝑘 − 1 . Hipotesis nol hanya ditolak kalau 𝑋 2 terlalu besar , karna nilai 𝑋 2 = 0 atau nilai yang kecil sesuai hipotesis null . Jika probabilitas terjadinya kesalahan jenis pertama 𝛼diketahui , maka nullhipothesis ditolak kalaok di dalam sampel 2 𝑋 2 ≥ 𝜒1−𝛼 𝑣 = 𝑏−1 𝑘−1 .
Syarat 𝑒𝑖𝑗 ≥ 5 untuk tiap dalam table silangtak usah dipenuhi lengkap ! Menurut COCHRAN (1954) untuk sekurang-kurangnya 80% dari kotak harus berlaku 𝑒𝑖𝑗 ≥ 5 dan untuk kotak lain 𝑒𝑖𝑗 ≥ 1 . Jika syarat ini tak dipenuhi , pengujian dengan distribusi 𝜒 2 ( yang pada da sarnya sebuah hampiran atau pendekatan untuk distribusi 𝑋 2 ! ) tak boleh di gunakan . Jika demikian, beberapa kotak peubah A dan /atau beberapa kotak peubah B bisa digabungkan supaya table silang nya disederhanakan ( b dan /atau k menjadi lebih kecil) . Contoh untuk b =4 , k =5 ,dan n = 80 Peubah A
𝐵1
𝐵2
Peubah B 𝐵3
:
𝐵4
𝐵5
𝑨𝟏 𝑨𝟐 𝑨𝟑 𝑨𝟒 10
10
40
10
10
20 20 20 20 80
210
Nilai-nilai harapan dalam kolom pertama, kedua, keempat dan kelima diduga sama besar , yaitu 𝑒𝑖𝑗 =
10×20 80
= 2.5 < 5
Jadi , syarat tak dipenuhi . Tabel disederhanakan ! Kotak 𝐵1 dan 𝐵2 digabungkan dan juga kotak 𝐵4 dan kotak 𝐵5 . Hasilnya : Peubah A
Peubah B 𝐵4 atau𝐵5 𝐵3
𝐵1 atau 𝐵2
𝑨𝟏 𝑨𝟐 𝑨𝟑 𝑨𝟒 20
40
20 20 20 20 80
20
Syarat 𝑒𝑖𝑗 ≥ 5 sudah dipenuhi tiap kotak. Apakah penggabungan itu bermakna ? Klasifikasi menurut 𝐵1 ,𝐵2 , 𝐵3 , 𝐵4 ,𝐵5 , tidak sembarangan ! Khususnya jangan coba mendapat nilai nyata (significant value ) untuk ukuran 𝑋 2 dengan sebuah klasifikasi pilihan sengaja ! , yakni setelah data dikumpulkan dan disajikan dalam table ! Pengertian asosiasi tergantung pada klasifikasi pilihan ! . Dengan mengubah klasifikasi , maka hipotesis juga berubah , karena table silangnya dah berubah ! Contoh :
Pendaptan Kota
Tinggi
Rendah
X Y
100 100 200
500 300 800
600 400 1000
211
Jika data ini hasil dari sampel acak sederhana yang ditarik dengan pemulihan dari sebuah populasi , apakah dalam populasi berlaku hipotesis : 𝐻0 𝐻1
: tidak ada asosiasi antara pendapatan dan tempat tinggal : ada asosiasi antara pendapatan dan tempat tinggal
Untuk data diperoleh 𝑋 2 = 10.4 . Ukuran pengujian 𝑋 2 kurang lebih didistribusikan menurut 𝜒 2 𝑣 = 1 jika 𝐻0 benar . Dari Tabel Lampiran 7 diperoleh : 2 2 𝜒0.995 𝑣 = 1 = 7.9 dan 𝜒0.999 𝑣 = 1 = 10.8
Hipotesis nol ditolak ! untuk tiap 𝛼 ≥ 0.005
Pengujian Korelasi Peringkat Kendall Misalkan ukuran korelasi peringkat menurut KENDALL untuk tiap populasi dinotasikan dengan 𝜌𝐾 . Pasangan hipotesis 𝐻0 ∶ 𝜌𝐾 = 0 𝑑𝑎𝑛 𝐻𝑎 ∶ 𝜌𝐾 ≠ 0 ( 𝑎𝑡𝑎𝑢 𝜌𝐾 > 0 𝑎𝑡𝑎𝑢 𝜌𝐾 < 0 ) bisa diuji dengan 𝜏 dari sebuah sampel acak sederhana . Karena
𝜏=1 2
sedangkan
1 2
𝑃−𝑄 𝑛 𝑛 −1
𝑛 𝑛 − 1 bukan sebuah peubah acak , maka sebagai ukuran
pengujianhipotesis tersebut boleh diambil 𝑆 = 𝑃 − 𝑄 . Kalok 𝐻0 benar , distribusi untuk S berbentuk simetrik di sekitar 0 . Berarti 𝑆1𝛼 = 𝑆1−1𝛼 . 2
2
Kalok 𝜌𝐾 = 0 , maka di dalam sampel , S tidak “boleh jauh” dari 0 . Dalam Tabel Lampiran 9, nilai kritik untuk berbagai nilai 𝛼 dan 4 ≤ 𝑛 ≤ 40 .
212
Kalok banyaknya unsur di dalam sampel (n) lebih besarndari 40, distribusi untuk 𝑆−𝜇 𝑆 𝜍𝑆
=
18 𝑛 𝑛 −1 2𝑛+5
bisa dihampiri dengan baik oleh distribusi 𝑁 0; 1 . distribusi untuk 𝜏 , juga distribusi untuk S. Contoh Misalkan data mengenai nilai statistika (X) dan nilai pengantar sosiologi (Y) di contoh di atas diperoleh dari sebuah sampel acak sederhana , yang ditarik dengan pemulihan dari populasi mahasiswa tingkat II . Hipotesis diuji 𝐻0 ∶ 𝜌𝐾 = 0 𝑑𝑎𝑛 𝐻𝑎 ∶ 𝜌𝐾 > 0 ( 𝑘𝑜𝑟𝑒𝑙𝑎𝑠𝑖 𝑝𝑒𝑟𝑖𝑛𝑔𝑘𝑎𝑡 𝑝𝑜𝑠𝑖𝑡𝑖𝑓; 𝑋 𝑛𝑎𝑖𝑘 , 𝑚𝑎𝑘𝑎 𝑌 𝑗𝑢𝑔𝑎 𝑛𝑎𝑖𝑘) Untuk 𝑛 = 8pasangan sampel ini diperoleh 𝑆 = 𝑃 − 𝑄 = 24 − 2 = 22 . Dari Tabel Lampiran 9 diperoleh 𝑆0.995 ≈ 22. Jadi hipotsis 𝐻0 ditolak ! untuk seiap 𝛼 ≥ 0.005.
Pengujian Korelasi Liniir Koeifisien korelasi momen hasil kali mengukur korelasi liniir aja ! Ukuran rsampel merupakan pengujian untuk hipotesis 𝜌populasi . Yang diuji adalah hipotesis mengenai korelasi dalam bentuk liniir saja ! Pasangan hipotesis yang diuji di sini adalah 𝐻0 ∶ 𝜌 = 0 𝑑𝑎𝑛 𝐻𝑎 ∶ 𝜌 ≠ 0 ( 𝑎𝑡𝑎𝑢 𝜌 > 0 𝑎𝑡𝑎𝑢 𝜌 < 0 ) Di dalam Tabel Lampiran 10beberapa fraktil distribusi untuk 𝑟1 kalok 𝐻0 benar , dicantumkan .
213
Kalok 𝐻0 benar, distribusi r ( dari sebuah sampelacak sederhana ) simetrik di sekitar 0, jadi 𝑟1𝛼 = −𝑟1−1𝛼 . 2
2
Dalam table tesebut , kolom pertama dituliskan 𝑛 − 2 dan bukan n . Pengujian hipotesis 𝐻0 : 𝜌 = 0 lawan 𝐻𝑎 : 𝜌 ≠ 0 𝜌 > 0, 𝜌 < 0 dilakukan sama dengan pengujian tentang korelasi peringkat : kalau r “terlalu jauh” dari 0 , maka hipotesis 𝐻0 akan ditolak ! Misalkan pada sebuah pengujian, hipotesis 𝜌 = 0 , yaitu “ gak ada kore lasi liniir “ , akan diterima (hipotesis 𝜌 ≠ 0 ditolak ) . Secara umum, keadaan ini belum berarti bahwa sama sekali tidak ada hubungan statistik antara kedua peubah tersebut . Mungkin ada korelasi tak liniir dalam populasi . Untuk sebuah populasi normal berdimensi 2 (bivariate) , hubungan hanya ter jadi dalam bentuk liniir . Jadi untuk populasi normal berdimensi 2 , kesimpulan tentang nilai 𝜌 ekivalen dengan kesimpulan tentang kebebasan stokastik (𝜌 = 0) atau kuatnya ketakbebasan stokastik 𝜌 ≠ 0 antara kedua peubah tersebut . Untuk sembarang populasi tak berlaku !.
8.1
Interpretasi Nilai Ukuran Korelasi
Jika pada populasi berdimensi 2 , hipotesis 𝜌 = 0ditolak dengan 𝛼 ≥ 0.01 , misalnya , maka secara statistik dianggap selesai . Untuk setiap 𝛼 ≥ 0.01 dapat ditarik kesimpulan bahwa ada korelasi liniir dalam populasi ! Nilai koeifisien korelasisampel dikatakan nyata (significant) untuk setiap 𝛼 ≥ 0.01 . Walaupun secara statistik sudah selesai , untuk seorang ahli sosiologi , psikologi atau bidang lain , bahasan ilmiah dari soal ini belum boleh dianggap selesai sampai di situ . Interpretasi nilai r ( atau 𝜏 𝐾𝑒𝑛𝑑𝑎𝑙𝑙 , C Crammer ) masih perlu. Mungkin korelasi antara X dan Y secara statistik nyata , tapi dilihat dari sudut ilmu-ilmu sosial atau sudut praktis , angka itu bisa saja sama sekali tidak penting atau tak perlu diperhatikan . Untuk kukuhnya dasar empirik , biasanya nilai ukuran asosiasi (atau korela si) dalam sebuah kelompok atau dalam sebuah situasi harus dibandingkan dengan nilai ukuran asosiasi (atau korelasi) dalam kelompok lain , atau
214
dalam sebuah situasi harus dibandingkan dengan nilai ukuran asosiasi ( atau korelasi ) dalam kelompok lain atau dalam situasi lain . Baru setelah perbandingan itu , relevansi (pentingnya) sebuah nilai r ( atau 𝜏 , atau C ) dapat ditentukan . Misalkan, dari sebuah sampel acak sederhana yang terdiri dari 100 pelajar diperoleh koeifisien korelasi𝑟 = 0.6 antara “intelegensi” dan “prestasi di sekolah” . dengan nilai 0.6 ini , hipotesis alternative “ada korelasi antara intelegensi dan prestasi sekolah” diterima . Tapi apakah hasil ini penting ? Mungkin korelasi liniir antara intelegensi dan prestasi sekolah biasanya bernilai antara 0.4 dan 0.7 . Kalok memang demikian, nilai 𝑟 = 0.6gak luar biasa ! Jika misalnya 𝑟 = 0.75 diperoleh dari sampel daerah tertentu , maka nilai ini hasil yang penting; situasi di daerah tersebut tidak “biasa” dan gejala ini perlu dijelaskan ! , tidak cukup hanya dari sudut statistik . Satu contoh lagi tentang korelasi antara sifat manusia dan bentuk badan pendek. Biasanya korelasi itu gak ada . Misalkan dari sebuah sampelacak sederhana , yang terdiri dari 100 orang, diperoleh 𝑟 = 0.4 . Hasil itu juga penting , karena gak biasa ditemui . Lalu dirangsanglah kegiat an ilmiah dari peneliti, untuk mengamati gejala itu secara lebih mendalam . Jadi , sebuah nilai untuk korelasi atau asosiasi biasanya harus dibanding kan untuk beberapa kelompok atau pasangan peubah lain. Misalnya , untuk sekelompok mahasiswa korelasi antara “nilai statistika” dan “nilai bahasa Inggris” . Hal ini juga berlaku untuk ukuran statistik lain . Kalok diketahui bahwa laju kesuburan total (total fertility rate) di Jatim sama dengan 4.7 , maka rerata ini hanya mendapat arti jika dibandingkan dengan angka lain . Misalnya , untuk keseluruhan Indonesia angka ini 5.6 dan untuk Sumut 7.1 . Sebuah hasil yang menyulitkan interpretasi nilai ukuran korelasi, dan sering bisa menyesatkan peneliti , adalah bahwa hubungan statistik ini sama sekali tidaksama dengan hubungan sebab-akibat (causal relationship) . Simaklah yang satu ini ! Sejak 1971 banyaknya pesawat telpon di Indonesia dan banyaknya korban (mati) kecelakaan lalin , keduanya naik tiap tahun (BPS :1977a,86, dan 99) . Di sini ada korelasi statistik , tapi gak ada hubungan sebab-akibat . Banyaknya telpon tidak dianggap sebab banyaknya korban kecelakaan lalin , dan sebaliknya. Kalok diperkirakan korelasi ini benar-benar ada , ditinjau
215
dari causalitas , maka lebih baik supaya misalnya banyaknya pesawat telpon dikurangi , supaya banyaknya korban kecelakaan lalin berkurang ! Hubungan statistik demikian disebut korelasi khayal (illusory correlation) atau korelasi takberarti (nonsense correlation) . Biasanya sebuah peubah A tidak berhubungan dengan peubah B saja, tapi berhubungan dengan banyak peubah lain. Artinya , terdapat korelasi bergan da (multiple correlation)antara banyak peubah sekaligus . Akan tetapi hubungan antara 2 peubah nisa diteliti tanpa pengaruh peubah lain melalui korelasi parsial , ceterisparibus (peubah lain diasumsikan konstan ). Dalam analisis korelasi parsial antara 2 peubah A dan B, dicari peubah lain 𝐶, 𝐷, … , 𝐿 , yang mungkin berhubungan dengan A dan B . Contohnya, “umur” berhubungan dengan “berat badan” dan “pengetahuan umum” . Kemudian korelasi A dan B ditentukan untuk kelompok-kelompok homogen dari segi umur , misalnya kelompok umur 7-8 tahun , umur 9-10 tahun, dst. Kalok satu kelompok homogen relatif terhadap peubah C (peubah C konstan) , homogen relatif terhadap peubah D, dst. , diperoleh korelasi antara A dan B, artinya bahwa korelasi antara A dan B tidak disebabkan oleh 𝐶, 𝐷, … , 𝐿 .
Korelasi Semu (Spurious Correlation) Sebenarnya spurious correlation berpengertian sendiri. Dikatakan semu , jika korelasi disebabkan metode pengolahan data nya , padahal dalam data mentahnya gakada korelasi . Ini bisa terjadi misalnya, seandainya korelasi antara indicator-indikator digunakan dalam analisis . Contoh data fiktif : Misalkan , peubah A adalah sikap seseorang terhadap sebuah masalah pengangguran di sekitarnya , yang diukur pada skala 0 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 , 1 (𝑝𝑜𝑠𝑖𝑡𝑖𝑓) , dan peubah B adalah status sosial seseorang ,yang diukur pada skala 0 𝑏𝑢𝑡𝑎 𝑢𝑟𝑢𝑓 , 1 𝑑𝑜𝑘𝑡𝑜𝑟 . Data diperoleh dari 4 daerah . Misalkan , peubah X dan peubah Y didefinisi kan sbb. : X = persentase orang yang bersikap positif di sebuah daerah ( X berdasar
216
kan nilai-nilai peubah A dan akan disebut sebuah indicator untuk daerah tersebut ) .
Y = persentase orang yang ber- status sosial Doktor di sebuah da erah ( Y berdasarkan nilai-nilai peubah B dan merupakan seb buah indicator untuk daerah tersebut ) . Untuk keempat daerah itu, peubah X dan peubah Y dihitung .
Daerah X: Y:
I 0 0
II 60 40
III 80 60
IV 100 80
Jelas, ada korelasi antara peubah X dan Y , yang merupakan indicator – indikator untuk daerah tersebut. Tetapi belum berarti, bahwa juga ada korelasi (asosiasi) antara peubah A dan B. Misalkan data mentah keempat daerah tersebut sbb. Daerah Orang A: B:
Dae rah Oran g A: B:
1 0 0
2 0 0
I 3 0 0
4 0 0
5 0 0
6 0 1
7 0 1
II 8 9 1 1 0 0
10 1 0
11 1 0
12 1 1
IV 13 1 1
14 1 1
15 1 1
2 8 1 1
2 9 1 1
3 0 1 1
III 1 6 0 1
1 7 0 1
1 8 0 1
1 9 1 0
2 0 1 0
2 1 1 0
2 2 1 0
2 3 1 0
2 4 1 0
2 5 1 1
2 6 1 1
2 7 1 1
Kalok data mentah ini disajikan dalam sebuah table silang, ternyata gak ada asosiasi antara peubah A dan B, seperti nampak di table di bawah ini . Perhatikan bahwa indicator X dan indicator Y diukur untuk daerah ,sedangkan peubah A dan B diukur untuk orang.
217
Untuk keempat daerah ini dapatlah ditarik kesimpulan berikut . Kalaok persentase orang yang berstatus Doktor (Y) bertambah di satu daerah, persentase orang yang bersikap positif (X) bertambah juga . Meskipun demikian , dari pernyataan ini gak bisa disimpulkan bahwa orangyang berstatus Doktor secara reklatif bersikap lebih positif daripada orang yang berstatus buta huruf .
A (Sikap) Negatif Positif
Data mentah ; C = 0 B (Status sosial) B.huruf Doktor 5 5 10 10
Dalam perhitungan korelasi antara X dan Y , satuan penelitian dan satuan analisis adalah daerah . Dalam perhitungan korelasi( asosiasi) antara A dan B , satuan penelitian dan satuan analisisnya adalah orang . Seandainya ada korelasi antara X dan Y , tapi gak ada korelkasi antara A dan B, maka korelasi antara X dan Y disebut semu . Jadi korelasi semu terjadi bila ada korelasi pada tingkat kelompok (daerah) tetapi gak adakorelasi pada tingkat unsur kelompok (orang) .
BAB 9 HUBUNGAN TAKSIMETRIS ANTARA DUA PEUBAH : ASOSIASI PERAMALAN DAN REGRESI Ukuran asosiasi dan korelasi dalam Bab 8 adalah ukuran simetrik, hubungan statistik imbal-balik , di mana kedua peubah tergantung sama lain (interdependent) . Dalam Bab ini hubungan taksimetrik , di sini nilai peubah A akan digunakan untuk mendapatkan keterangan tentang nilai peubah B . Atau nilai peubah B akan digunakan meramalkan nilai peubah A . 9.1
Asosiasi Peramalan : Ukuran Lambda
Dalam populasi 600 orang , peubah “jenis kelamin” (A) dan peubah “agama” (B) termuat seperti di bawah.
218
Andaikan satu orang diambil dari populasi secara acak sederhana . Jika diminta untuk meramalkan nilai peubah B untuk orng yang diambl itu, maka ramalan yang paling “baik”, menurut metode kemungkinan maksimum (maximum likelihood method) , adalah “Islam”, karena Islam yang terbesar. Pendek kata, P(Islam) > P(Kristen) >P(Lain-lain). Jenis Kelamin Pria Wanita
Islam 240 60 300
Agama Kristen 90 110 200
Lain-lain 70 30 100
400 200 600
Jika yang terambil adalah seorang wanita, peramalan untuk nilai peubah B yang “terbaik” (likelihood method) adalah “Kristen” karena 𝑃 𝐾𝑟𝑖𝑠𝑡𝑒𝑛 𝑤𝑎𝑛𝑖𝑡𝑎 > 𝑃 𝐼𝑠𝑙𝑎𝑚 𝑤𝑎𝑛𝑖𝑡𝑎 > 𝐿𝑎𝑖𝑛 − 𝑙𝑎𝑖𝑛 𝑤𝑎𝑛𝑖𝑡𝑎 . Kalau yang terambil seorang pria, ramalan untuk nilai peubah B adalah “Islam”, karena 𝐼𝑠𝑙𝑎𝑚 𝑝𝑟𝑖𝑎 > 𝑃 𝐾𝑟𝑖𝑠𝑡𝑒𝑛 𝑝𝑟𝑖𝑎 > 𝑃 𝐿𝑎𝑖𝑛 − 𝑙𝑖𝑎𝑛 𝑝𝑟𝑖𝑎 . Generalisasi , jika peubah A memuat nilai-nilai 𝐴1 , 𝐴2 , … , 𝐴𝑏 dan peubah B memuat nilai –nilai 𝐵1 , 𝐵2 , … , 𝐵𝑘 , prosedur maximum likelihood sbb . : (a) Jika nilai A tidak diketahui, ambillah nilai Bp yang bersifat 𝑃 𝐵𝑃 = 𝑚𝑎𝑘𝑠 𝑃 𝐵𝑗 yaitu nilai terbesar dalam 𝑃 𝐵1 , 𝑃 𝐵2 , … , 𝑃 𝐵𝑘 (b) Jika nilai A diketahui , Ai , ambillah nilai Bq yang bersifat 𝑃 𝐵𝑞 𝐴𝑖 = max 𝑃 𝐵𝑗 𝐴𝑖 𝑗
= 𝑛𝑖𝑙𝑎𝑖 𝑡𝑒𝑟𝑏𝑒𝑠𝑎𝑟 𝑑𝑎𝑙𝑎𝑚 𝑃 𝐵1 𝐴𝑖 , 𝑃 𝐵2 𝐴𝑖 , … , 𝑃 𝐵𝑘 𝐴𝑖 Hasil ramalan yang diperoleh melalui ini mungkin benar , bisa juga salah. Probablitas bahwa nilai ramalan tersebut salah dihitung sbb.: (a) 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 = 1 − max𝑗 𝑃 𝐵𝑗 = 1 − 𝑃 𝐵𝑝 (b) 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴 = 𝐴𝑖 = = 1 − max 𝑃 𝐵𝑗 𝐴𝑖 = 1 − 𝑃 𝐵𝑞 𝐴𝑖 𝑗
219
Peramalan nilai B jika A diketahuitergantung pada nilai A mana di antara nilai-nilai tersebut yang diketahui . Untuk Tabel di atas dengan 𝐴1 = 𝑝𝑟𝑖𝑎 ; 𝐴2 = 𝑤𝑎𝑛𝑖𝑡𝑎 . Dengan demikian, 𝑃 "𝐼𝑠𝑙𝑎𝑚" 𝑝𝑟𝑖𝑎 = max𝑗 𝑃 𝐵𝑗 𝑝𝑟𝑖𝑎 =
240
= 0.6 ,
400
sehingga nilai B akan diramalkan “Islam” jika nilai A adalah pria . begitu jugak 𝑃 "𝐾𝑟𝑖𝑠𝑡𝑒𝑛" 𝑤𝑎𝑛𝑖𝑡𝑎 = max𝑗 𝑃 𝐵𝑗 𝑤𝑎𝑛𝑖𝑡𝑎 =
110 200
= 0.55 ,
sehingga nilai B akan diramalkan “Kristen” kalau nilai A adalah wanita . Untuk 𝐴1 , 𝐴2 , … , 𝐴𝑏 , setiap kali bisa dihitung probabilitas bahwa nilai B akan menghasilkan ramalan yang salah : 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴1 𝑑𝑖𝑘𝑒𝑡𝑎𝑢𝑖 = 1 − max𝑗 𝑃 𝐵𝑗 𝐴1 ⋮ 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴𝑖 𝑑𝑖𝑘𝑒𝑡𝑎𝑢𝑖 = 1 − max𝑗 𝑃 𝐵𝑗 𝐴𝑖 ⋮ 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴𝑏 𝑑𝑖𝑘𝑒𝑡𝑎𝑢𝑖 = 1 − max𝑗 𝑃 𝐵𝑗 𝐴𝑏 Dengan demikian untuk populasi berdimensi 2 didefinisikan : 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑑𝑖𝑘𝑒𝑡𝑎𝑢𝑖 = = 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴 1 . 𝑃 𝐴 1 +𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴 2 . 𝑃 𝐴 2 + ⋯ + 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑏 . 𝑃 𝐴 𝑏 = 𝑃 𝐵 𝑠𝑎𝑙𝑎 = 1−
𝑏 𝑖=1 𝑃
𝐴1 + 𝑃 𝐵 𝑠𝑎𝑙𝑎 𝐵 𝑏𝑒𝑛𝑎𝑟
𝐴2 + ⋯ + 𝑃 𝐵 𝑠𝑎𝑙𝑎
𝐴𝑏
𝐴𝑖
220
Nilai ini merupakan rerata hitung untuk probabilitas bersyaratb bahwa ramalan nilai B salah , jika diketahui A bernilai 𝐴1 , 𝐴2 , … , 𝐴𝑏 . Untuk Tabel di atas , nilai rerta ini adalah 𝑃 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑑𝑖𝑘𝑒𝑡𝑎𝑢𝑖 = 400 200 = 0.4 × + 0.45 × ≈ 0.42. 600 600
Jika ada hubungan antara peubah A dan B , keterangan tentang nilai peubah A akan mengurangi probabilitas bahwa rtamalan nilai B salah . Jadi , selisih
𝑃
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎
𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 −𝑃 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴
mengukur kuatnya asosiasi peramalan antara A dan B ( B yang diramalkan) . Untuk mendapat ukuran baku , yang digunakan pada keperluan ini dan akan memudahkan penelaahan, perlu dicari ukuran bernilai antara 0 dan 1. Dengan demikian didefinisikan ukuran 𝜆𝐵 𝐴 menurut GOODMAN dan KRUSKAL untuk asosiasi peramalan sbb.:
𝑃
𝜆𝐵 𝐴 =
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎
𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 −𝑃 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 𝑃 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴
Untuk Tabel di atas dihitung :
𝑃
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎
𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 = 0.42 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴
221
dan
𝑃
300 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 = = 0.5 600 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐴
𝜆𝐵 𝐴 =
0.5−0.42 0.5
= 0.16
Ukuran asosiasi peramalan𝜆𝐴 𝐵 didefinisikan sbb. :
𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 −𝑃 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐵 𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 𝑃 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐵
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑠𝑎𝑙𝑎
𝑃
𝜆𝐴 𝐵 =
Untuk Tabel di atas , ukuran 𝜆𝐴 𝐵 dihitung sbb. : 𝑃
𝑃
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑠𝑎𝑙𝑎
𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 200 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 = = 0.333 600 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐵
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 = 𝑃 𝑤𝑎𝑛𝑖𝑡𝑎 𝐼𝑠𝑙𝑎𝑚 . 𝑃 𝐼𝑠𝑙𝑎𝑚 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑠𝑎𝑙𝑎 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐵 +𝑃 𝑝𝑟𝑖𝑎 𝐾𝑟𝑖𝑠𝑡𝑒𝑛 . 𝑃 𝐾𝑟𝑖𝑠𝑡𝑒𝑛 + 𝑃 𝑤𝑎𝑛𝑖𝑡𝑎 𝐿𝑎𝑖𝑛 − 𝑙𝑎𝑖𝑛
=
60
.
300
300 600
+
90
.
200
200 600
+
30
.
100
100 600
= 0.1 + 0.15 + 0.05 = 0.3 .
Jadi , 𝜆𝐴 𝐵 =
0.333 −0.3 0.333
=
0.033 0.333
= 0.1 .
Perhatikan bahwa 𝜆𝐴 𝐵 ≠ 𝜆𝐵 𝐴
222
Semua uraian diatas untuk menelaah populasi . Untuk menelaah sampel , besarnya probabilitas-probablitas dalam rumus 𝜆harus diduga , seperti perhitungan C CRAMMER ( X2 ) .
𝜆𝐵
𝐴
=
=
1−max 𝑗
𝑓 .𝑗 𝑛
𝑓 𝑖𝑗
− 1− 𝑏𝑖=1 max 𝑗 𝑛
1−max 𝑗 𝑓 𝑖𝑗 𝑏 𝑖=1 max 𝑗 𝑛
𝑓 .𝑗 𝑛
− max 𝑗
𝑛−max 𝑗
𝑓 .𝑗
𝑓 .𝑗 𝑛
𝑛
dan
𝜆𝐴
𝐵
=
𝑓 𝑖𝑗 𝑓 𝑖. 𝑘 𝑗 =1 max 𝑖 𝑛 − max 𝑖 𝑛 𝑓 𝑛−max 𝑖 𝑖. 𝑛
Cara perhitungannya persis sama dengan perhitungan populasi . Kalau Tabel di atas memuat data sampel , maka
𝜆𝐵
𝐴
=
240+110 −300
𝜆𝐴
𝐵
=
240+110+70 −400
600−300
50
= 300 = 0.17
dan
Perhatikan nilai 𝜆𝐴 belumnya .
600−400 𝐵
=
20 200
= 0.1
𝑑𝑎𝑛 𝜆𝐵 𝐴 ini sudah diperoleh dalam perhitungan se
223
Contoh Sikap
Pendapatan Cukup 47 60 41 148
Tinggi 32 32 23 87
Positif Netral Negatif
Rendah 54 39 95 188
133 131 159 423
Peubah A (Sikap) dan peubah B (pendapatan) . Untuk data tersebut diperoleh
𝜆𝐴
𝐵
=
32+60+95 −159 423−159
=
28 264
𝜆𝐵
𝐴
=
54+60+95 −188 423−188
= 235 = 0.09
= 0.11
21
Perhitungan C Crammer lebih sulit ! Ukuran 𝜆𝐴 𝐵 𝑑𝑎𝑛 𝜆𝐵 𝐴 mengukur asosiasi taksimetrik. Tetapi dapat juga ditentukan sebuah ukuran asosiasi simeirik yang mirip dengan ukuran taksimetrik, definisinya sbb. :
𝜆=
𝑓 𝑖𝑗 𝑘 𝑗 =1 max 𝑖 𝑛
𝑓 − max 𝑖 𝑖. +
𝑛 −max 𝑗
𝑛 𝑓 .𝑗 𝑛
+
𝑓 𝑖𝑗 𝑏 𝑖=1 max 𝑗 𝑛
− max 𝑗
𝑓 .𝑗 𝑛
𝑓 𝑛−max 𝑖 𝑖. 𝑛
Karenanya , nilai 𝜆 selalu terletak antara nilai 𝜆𝐴 𝐵 dan 𝜆𝐵 𝐴 . Untuk data di atas
𝜆=
:
32+60+95 + 54+60+95 −159−188 2.423−159−188
= 0.10
224
9.2
Ukuran Ketidakpastian dan Ukuran Reduksi Ketidakpastian
Dalam teori informatika digunakan ukuran ketidakpastian yang disebut entropi atau ukuran banyaknya keterangan . Misalkan peubah A didistribusikan menurut distribusi probabilitas Nilai Ai : Probabilitas P(Ai)
A1 0.01
A2 0.98
A3 0.01
Jika distribusi tersebut diketahui dan kalok satu unsur ditarik dari populasi ini secara acak sederhana, jelas percobaan itu “hampir pasti” akan menghasilkan nilai A2 . Distribusi probabilitas yang lain untuk peubah A mungkin adalah, misalnya ,
Nilai Ai : Probabilitas P(Ai)
A1 1/3
A2 1/3
A3 1/3
Lebih baik hasil percobaan tidak diramalkan karena setiap nilai A mempu nyai probabilitas sama. Dalam kasus ini peramalan tak pasti (uncertainty) . Ukuran ketidakpastian merupakan ukuran antara 0 dan 1 . Dalam kasus pertama , kettdakpastian kecil sekali , mendekati 0. Dalam kasus kedua, ketidakpastian dalam peramalan nya mencapai maksimum , yaitu ukurannya bernilai 1. Definisi untuk ukuran ketidakpastian, dalam dengan banyak kelas 3 adalah
𝐻 𝐴 =−
3 1𝑃
𝐴𝑖 . log 3 𝑃 𝐴𝑖 = −
1 log 10 3
3 1𝑃
𝐴𝑖 . log10 𝑃 𝐴𝑖
Di mana 0 ≤ 𝐻 𝐴 ≤ 1 . Dalam Tabel Lampiran 11 dicantumkan nilai-nilai log10 𝑎 dan 𝑎 × log10 𝑎untuk bilangan-bilangan bulat a yang bernilai antara 1 dan 1000 . dengan Tabel ini , distribusi probabilitas pertama, mempunyai nilai H (A) :
225
𝐻 𝐴 =− =−
1 log 10 3 1
log 10 3
0.01 log10 0.01 + 0.98 log10 0.98 + 0.01 log10 0.01 0.01 −2 + 0.98 −0.01 + 0.01 −2
= 0.1
Untuk distribusi probabilitas kedua (distribusi seragam) diperoleh 𝐻 𝐴 =1. Perhatikan Tabel berikut :
P(A1) 0
Distribusi P(A2) P(A3) 0 1
H(A)
Penjelasan
0
0
1
0
0
0.01 0.02 0.05 0.2 1/3
0.98 0.9 0.7 0.6 1/3
0.01 0.08 0.25 0.2 1/3
0.1 0.34 0.68 0.86 1
Nilai A3 pasti , konsentrasi ter besar Nilai A2 pasti , konsentrasi ter besar Konsentrasi besar Konsentrasi “kecil” Distribusi seragam,m konsen trasi terkecil
Perhatikan bahwa nilai A boleh diukur pada skala nominal . Yang digunakan adalah penggolongan nilai-nilai A saja , dengan distribusi probabilitas nya . Nilai H(A) dapat digunakan untuk mengukur “tingkat keseragaman” atau “tingkat Ketidakkonsentrasian” sebuah distribusi , bisa juga diaasumsikan sebagai ukuran penyebaran kalok diukur pada skala interval . Seringkali distribusinya disajikan dalam frekuensi mutlak : Nilai Ai :
A1
A2
A3
Frekuensi fi
f1
f2
f3
dengan 𝑁 = 𝑓1 + 𝑓2 + 𝑓3 . Di sini 𝑃 𝐴𝑖 =
𝑓𝑖 𝑁
, jadi 𝐻 𝐴 ditulis sbb. :
226
𝐻 𝐴 =− =
1 𝑁.log 10 3
1
3 𝑓𝑖 1 𝑁
log 10 3
. log10
𝑁. log10 𝑁 −
3 1 𝑓𝑖
𝑓𝑖 𝑁
=
. log10 𝑓𝑖
Nilai-nilai 𝑓𝑖 . log10 𝑓𝑖 dicantumkan di dalam Lampiran 11 untuk berbagai f dari 1 s/d 1000 . Sampai di sini baru diuraikan ukuran ketidakpastian untuk distribusi dengan 3 kelas saja . Tetapi ukuran H bisa juga untuk 2, 4,5 atau lebih kelas . Generalaisasi banyak kelas b . Distribusi probabilitas nya : Nilai Ai : Probabilitas 𝑷 𝑨𝒊 :
A1
…
A2
𝑃 𝐴1
𝑃 𝐴2
Ai
…
𝑃 𝐴𝑖
… …
Ab 𝑃 𝐴𝑏
dan definisi untukukuran ketidakpastian ny adalah : 𝐻 𝐴 =− =−
1 log 10 𝑏
𝑏 1
𝑃 𝐴𝑖 . log 𝑏 𝑃 𝐴𝑖
𝑏 1
𝑃 𝐴𝑖 . log10 𝑃 𝐴𝑖
Jika distribusi nya dinyatakan dalam frekuensimutlak , maka 𝑃 𝐴𝑖 =
𝑓𝑖 𝑁
dan 𝑁 =
𝑏 𝑖=1 𝑓𝑖
sehingga ukuran H dapatlah ditulis 𝐻 𝐴 =
1 𝑁.log 10 3
𝑁. log10 𝑁 −
3 1 𝑓𝑖
. log10 𝑓𝑖
Ukuran Ketidakpastian dalam Tabel Silang
227
Ukuran ketidakpastian di atas hanya berlaku untuk distribusi probabilitas satu peubah . Misalkan distribusi probabilitas untuk peubah A dan B seperti Tabel di ba wah . Jika satu unsur ditarik dari populasi acak sederhana, maka, misalnya, 𝑃 𝐴1
𝐵2 = 0.25 , 𝑃 𝐴3
𝐵2 = 0.05 , 𝑃 𝐴1 𝐵2 =
0.25 0.55
dan 𝑃 𝐵1 𝐴3 =
0.05
0.25
Peubah A Peubah A A1 A2 A3 Distribusi ping gir untuk pe ubah B
B1
B2
0.1 0.3 0.05 0.45
0.25 0.1 0.2 0.55
Distribusi ping gir untuk peubah A 0.35 0.4 0.25 1
Dari Tabel silang, tersedia beberapa ukuran ketidakpastian , yaitu 𝐻 𝐴, 𝐵 , 𝐻 𝐴 𝐵 , 𝑑𝑎𝑛 𝐻 𝐵 𝐴 . Definisi 𝐻 𝐴, 𝐵 mirip dengan definisi 𝐻 𝐴 di atas, yaitu 𝐻 𝐴, 𝐵 = − =−
2 𝑖=1
2 𝑗 =1 𝑃
1
2 𝑖=1
log 10 6
𝐴𝑖 2 𝑗 =1 𝑃
𝐵𝑗 . log 6 𝑃 𝐴𝑖 𝐴𝑖
𝐵𝑗
𝐵𝑗 . log10 𝑃 𝐴𝑖
𝐵𝑗
di mana 0 ≤ 𝐻 𝐴, 𝐵 ≤ 1 . Dari Tabel diperoleh 𝐻 𝐴, 𝐵 =
1 0.78
0.1. log10 0.1 + 0.25 log10 0.25 + 0.3 log10 0.3
+0.1 log10 0.1 + 0.05 log10 0.05 + 0.2 log10 0.2
228
=−
1 0.78
0.1. −1 + 0.25 0.4 − 1 + 0.30.48 − 1
+0.1 −1 + 0.05 0.7 − 2 + 0.2 0.3 − 1 =−
1 0.78
0.72
=
0.78
−0.1 − 0.15 − 0.16 − 0.1 − 0.07 − 0.14
= 0.92 .
Definisi 𝐻 𝐴 𝐵 mirip dengan definisi 𝑃
𝑟𝑎𝑚𝑎𝑙𝑎𝑛 𝑛𝑖𝑙𝑎𝑖 𝐴 𝑠𝑎𝑙𝑎
𝑡𝑖𝑑𝑎𝑘 𝑎𝑑𝑎 𝑘𝑒𝑡𝑒𝑟𝑎𝑛𝑔𝑎𝑛 𝑡𝑒𝑛𝑡𝑎𝑛𝑔 𝑛𝑖𝑙𝑎𝑖 𝐵
Dalam Tabel di atas ada 2 nilai untuk peubah B . Untuk setiap nilai B ditentukan ukuran ketidakpastian peubah A, , jika nilai B diketahui, yaitu 𝐻 𝐴 𝑛𝑖𝑙𝑎𝑖 𝐵 = 𝐵1 dan 𝐻 𝐴 𝑛𝑖𝑙𝑎𝑖 𝐵 = 𝐵2 . Di sini , pengertian rumus distribusi probabilitas bersyarat𝑃 𝐴 𝐵1 dan 𝑃 𝐴 𝐵2 akan digunakan 𝐻 𝐴 𝐵1 = =−
3 𝑖=1 𝑃 1 log 10 6
𝐴1 𝐵1 . log 6 𝑃 𝐴1 𝐵1 3 𝑖=1 𝑃
𝐴1 𝐵1 . log10 𝑃 𝐴1 𝐵1
dan 𝐻 𝐴 𝐵2 = =−
3 𝑖=1 𝑃 1 log 10 6
𝐴1 𝐵2 . log 6 𝑃 𝐴1 𝐵2 3 𝑖=1 𝑃
𝐴1 𝐵2 . log10 𝑃 𝐴1 𝐵2
Dengan demikian 𝐻 𝐴 𝐵 didefinisikan sebagai 𝐻 𝐴 𝐵 = 𝑃 𝐵1 . 𝐻 𝐴 𝐵1 + 𝑃 𝐵2 . 𝐻 𝐴 𝐵2 Untuk distribusi probabilitas berdimensi 2 Tabel sebelumnya berlaku definisi sbb. : 𝐻 𝐵 𝐴 = 𝑃 𝐴1 . 𝐻 𝐵 𝐴1 + 𝑃 𝐴2 . 𝐻 𝐵 𝐴2 + 𝑃 𝐴3 . 𝐻 𝐵 𝐴3
229
Generalisasi , dengan b nilai untuk peubah A , 𝐴1 , 𝐴2 , … , 𝐴𝑏 dan k nilai untuk peubah B, yaitu 𝐵1 , 𝐵2 , … , 𝐵𝑘 berlaku 𝐻 𝐴, 𝐵 = −
𝑏 𝑖=1
𝑘 𝑗 =1 𝑃
=− 𝐻 𝐴𝐵 =
𝑘 𝑗 =1 𝑃
𝑏 𝑖=1
𝐵𝑗 . log 𝑏𝑘 𝑃 𝐴𝑖 𝑘 𝑗 =1 𝑃
𝐴𝑖
𝐵𝑗
𝐵𝑗 . log10 𝑃 𝐴𝑖
𝐵𝑗
𝐵𝑗 . 𝐻 𝐴 𝐵 𝑗
=−
𝐻 𝐵𝐴 =
1 log 10 𝑏𝑘
𝐴𝑖
𝑘 𝑗 =1
𝑏 𝑖=1 𝑃
=−
𝑏 𝑖=1 𝑃
𝐴𝑖 𝐵𝑗 . log 𝑏𝑘 𝑃 𝐴𝑖 𝐵𝑗
𝐴𝑖 . 𝐻 𝐵 𝐴
𝑘 𝑗 =1 𝑃
𝐴𝑖
𝑏 𝑖=1 𝑃
𝐵𝑗 𝐴𝑖 . log 𝑏𝑘 𝑃 𝐵𝑗 𝐴𝑖
Dapat dibuktikan bahwa (a) (b) (c) (d)
0 ≤ 𝐻 𝐴, 𝐵 ≤ 1 𝐻 𝐴, 𝐵 = 𝐻 𝐴 + 𝐻 𝐵 𝐴 = 𝐻 𝐵 + 𝐻 𝐴 𝐵 𝐻 𝐴 𝐵 ≤ 𝐻 𝐴 𝑑𝑎𝑛 𝐻 𝐵 𝐴 ≤ 𝐻 𝐵 Jika A dan B bebas stokastik satu sama lain , maka 𝐻 𝐴 𝐵 = 𝐻 𝐴 dan 𝐻 𝐵 𝐴 ≤ 𝐻 𝐵 , sehingga 𝐻 𝐴, 𝐵 = 𝐻 𝐴 + 𝐻 𝐵 .
𝐻 𝐴 mengukur banyaknya keterangan (informasi) tentang nilai A yang diperoleh kalok percobaan probabilitas tersebut dilakukan , atau besar nya ketidakpastian tentang hasilnya yang ada sebelum percobaan tersebut . Jadi ,jika percobaan probabilitas dilakukan , ketidakpastian tentang hasilnya (nilai A ) yang ada sebelum percobaan dihilangkan ; setelah percobaan , hasil nya dan karenanya didapat keterangan yang besarnya 𝐻 𝐴 . Dalam persamaan (b) disebuatkan bahwa ketidakpastian tentang hasil 𝐴𝑖 𝐵𝑗 𝑖 = 1,2, … , 𝑏 𝑑𝑎𝑛 𝑗 = 1,2, … , 𝑘 sebelum percobaan , sama dengan ketidakpastian tentang hasil nilai A sebelum percobaan ditambah dengan ketidakpastian tentang hasil nilai B , jika nilai A sudah diketahui .
230
𝐻 𝐴, 𝐵 juga sama dengan ketidakpastian tentang hasil B sebelum percobaan ditambah ketidakpastian tentang hasil nilai A jika nilai B sudah diketahui . Dalam ketidaksamaan (c) disebutkan bahwa ketidakpastian tentang nilai A, jika nilai B sudah diketahui , adalah lebih kecil dari atau sama dengan ketidakpastian tentang hasil nilai A jika tidak ada keterangan tentang B . Ini juga berlaku untuk 𝐻 𝐵 𝐴 , artinya 𝐻 𝐵 𝐴 ≤ 𝐻 𝐵 .
Ukuran Reduksi Ketidakpastian untuk 2 Peubah Jadi 𝐻 𝐵 − 𝐻 𝐵 𝐴 mengukur kuatnya hubungan antara peubah A dan B. Jika A dan B bebas stokastik satu sama lain , maka 𝐻 𝐵 𝐴 = 𝐻 𝐵 dan oleh karena itu 𝐻 𝐵 − 𝐻 𝐵 𝐴 = 0 . Jika ada asosiasi antara A dan B , maka 𝐻 𝐵 𝐴 ≤ 𝐻 𝐵 . Jika antara A dan B terdapat hubungan fungsional , maka nilai B dapat di peroleh dengan pasti jika nilai A diketahui . Di sini berlaku 𝐻 𝐵 𝐴 = 0 dan oleh karenanya 𝐻 𝐵 − 𝐻 𝐵 𝐴 = 𝐻 𝐵 . Karena diperlukan ukuran asosiasiteksimetrik yang bernilai 0 dan 1 , maka didefinisikan ukuran asosiasi𝑇𝐵 𝐴 sbb. :
𝑇𝐵 𝐴 =
𝐻 𝐵 −𝐻 𝐵 𝐴 𝐻 𝐵
𝑇𝐵 𝐴 = 0 , jika A dan B bebas stokastik satu sama lain . 𝑇𝐵 𝐴 = 1, jika nilai B dapat ditentukan dengan pasti jika nilai A diketahui , yaitu jika ada hubungan fungsionalantara A dan B . Ukuran asosiasi𝑇𝐴 𝐵 didefinisikan sbb. :
𝑇𝐴 𝐵 =
𝐻 𝐴 −𝐻 𝐴 𝐵 𝐻 𝐴
Karena 𝐻 𝐴, 𝐵 = 𝐻 𝐴 + 𝐻 𝐵 𝐴 = 𝐻 𝐵 + 𝐻 𝐴 𝐵
, maka 𝑇𝐴 𝐵 dan
𝑇𝐵 𝐴 dituliskan 𝑇𝐴 𝐵 =
𝐻 𝐴 +𝐻 𝐵 −𝐻 𝐴,𝐵 𝐻 𝐴
dan
231
𝑇𝐵 𝐴 =
𝐻 𝐴 +𝐻 𝐵 −𝐻 𝐴,𝐵 𝐻 𝐵
Ukuran 𝑇𝐴 𝐵 disebut ukuran reduksiketidakpastian untuk A, jika B diketahui . Contoh Untuk Tabel di atas akan 𝑇𝐴 𝐵 dan 𝑇𝐵 𝐴 . 𝐻 𝐴 =− =− =−
1 log 10 6 1 0.78
1 0.78
0.35 log10 0.35 + 0.4 log10 0.4 + 0.25 log10 0.25
0.35 0.54 − 1 + 0.4 0.6 − 1 + 0.25 0.4 − 1
−0.16 − 0.16 − 0.15 = 0.6
𝐻 𝐵 =− =−
1 log 10 6
1 log 10 6
0.45 log10 0.45 + 0.55 log10 0.55
−0.16 − 0.14 = 0.38 .
Sebelumnya sudah dihitung 𝐻 𝐴, 𝐵 = 0.92 . Oleh karenanya , 𝐻 𝐴 𝐵 = 𝐻 𝐴, 𝐵 − 𝐻 𝐵 = 0.54 dan 𝐻 𝐵 𝐴 = 𝐻 𝐴, 𝐵 − 𝐻 𝐴 = 0.32. Dengan demikian, ukuran ketidakpastian nya
𝑇𝐴 𝐵 =
0.6+0.38−0.92 0.6
= 0.1
𝑇𝐵 𝐴 =
0.6+0.38−0.92 0.38
= 0.16
Contoh Diberikan
232
Tempat tinggal
Kemampuan Buta huruf Tidak buta huruf 6 30 36 28
Daerah kota Daerah pedesaan
42
36 64
58
100
Ukuran asosiasi𝑇𝐴 𝐵 dan 𝑇𝐵 𝐴 akan dihitung . Misalkan peubah A adalah tempat tinggal dan peubah B adalah kemampuan baca tulis . Frekuensinya diubah menjadi probabilitas relatif
Peubah A
Peubah B B1 0.06 0.36 0.42
A1 A2
𝐻 𝐴, 𝐵 = −
B2 0.3 0.28 0.58
0.36 0.64 1
1 (0.06 log10 0.06 + 0.3 log10 0.3 log10 4
+ 0.36log10 0.36 + 0.28log10 0.28) =−
𝐻 𝐴 =− =−
𝐻 𝐴 =− =−
1 0.6
−0.07 − 0.16 − 0.15 = 0.9
1 0.36 log10 0.36 + 0.64 log10 0.64 log10 4 1 0.6
0.36 −0.44 + 0.64 −0.12
= 0.47
1 0.42 log10 0.42 + 0.58 log10 0.58 log10 4 1 0.6
0.42 062 − 1 + 0.58 076 − 1
= 0.5
233
Dengan demikian diperoleh
𝑇𝐴 𝐵 =
0.47 +0.5−0.9 0.47
𝑇𝐵 𝐴 =
0.07 0.5
0.07
= 0.47 = 0.15
= 0.16
(Karena perhitungannya tidak teliti sekali , nilai 𝑇𝐴 𝐵 dan 𝑇𝐵 𝐴 tidak tepat betul ) . Jika nilai ukuran asosiasi𝑇𝐴 𝐵 dan 𝑇𝐵 𝐴 ini dengan nilai 𝜆𝐴 𝐵 dan 𝜆𝐵 𝐴 un tuk tabel silang yang sama , yaitu
𝜆𝐴 𝐵 =
36+30 −64 36
= 0.06 dan
𝜆𝐵 𝐴 =
36+30 −42 42
= 0.19
Untuk sampel , probabilitas-probabilitas dalam perhitungan 𝐻 𝐴, 𝐵 , 𝐻 𝐴 𝐵 , 𝑑𝑎𝑛 𝐻 𝐵 𝐴 tidak diketahui . Seperti dalam perhitungan 𝜆𝐴 𝐵 dan 𝜆𝐵 𝐴 , probabilitas tersebut diduga dengan frekuensi relatif dari tabel silang . Dengan diperolehnya 𝐻 𝐴, 𝐵 , 𝐻 𝐴 𝐵 , 𝑑𝑎𝑛 𝐻 𝐵 𝐴 , sebuah ukuran asosiasi yang simetrik dalam A dan B didefinisikan sebagai
𝑇=
𝐻 𝐴 +𝐻 𝐵 −𝐻 𝐴,𝐵 min 𝐻 𝐴 ,𝐻 𝐵
di sini 𝐻 𝐴 , 𝐻 𝐵 adalah nilai terkecil antara 𝐻 𝐴 𝑑𝑎𝑛 𝐻 𝐵 . 9.3
Koeifisien Korelasi Peringkat d Somers
Koeifisien korelasi peringkattaksimetrik . Andaikan sebuah sampel n pengamatan : 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 . Peubah X dan Y keduanya diukur pada skala ordinal . Ada pengamatan X yang sama , dan / atau pengamatan Y bernilai sama . Ini disebabkan metode pengukuran batas ketelitian , misalnya, X dan Y peubah diskrit .
234
Perhitungan koeifisien korelasi peringkat , dilakukan pembandingan seba nyak 𝑁=
𝑛 2
1
= 𝑛 𝑛−1 2
pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 . Dalam perbandingan itu , didefinisikan 𝑃, 𝑄, 𝑇𝑋 , 𝑇𝑌 , 𝑑𝑎𝑛 𝑇𝑋𝑌 sbb. : 𝑃 = 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 𝑥𝑗 > 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 > 𝑦𝑖 = 𝑏𝑎𝑛𝑦𝑎𝑘 𝑝𝑎𝑠𝑎𝑛𝑔𝑎𝑛 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 yang 𝑠𝑒𝑙𝑎𝑟𝑎𝑠 (concordant) di antara N pasangan. 𝑄 = 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 𝑥𝑗 > 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 < 𝑦𝑖 = 𝑏𝑎𝑛𝑦𝑎𝑘 𝑝𝑎𝑠𝑎𝑛𝑔𝑎𝑛 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 yang 𝑡𝑎𝑘𝑠𝑒𝑙𝑎𝑟𝑎𝑠 (concordant) di antara N pasangan. 𝑇𝑋 ada berapa kali 𝑥𝑗 = 𝑥𝑖 jadi 𝑇𝑋 =
1 2
𝑖=1 𝑢𝑖
𝑢𝑖 − 1 (banyak pasangan benilai sama di X )
𝑇𝑌 ada berapa kali 𝑦𝑗 = 𝑦𝑖 jadi 𝑇𝑌 =
1 2
𝑘 𝑖=1 𝑣𝑖
𝑣𝑖 − 1 (banyak pasangan benilai sama di Y )
𝑇𝑋𝑌 ada berapa kali 𝑥𝑗 = 𝑥𝑖 dan 𝑦𝑗 = 𝑦𝑖 Dalam perhitungan 𝑇𝑋 sudah termasuk 𝑇𝑋𝑌 , yaitu berapa kali 𝑥𝑗 = 𝑥𝑖 dan 𝑦𝑗 = 𝑦𝑖 . Dalam perhitungan 𝑇𝑋 sudah termasuk 𝑇𝑋𝑌 , yaitu berapa kali 𝑥𝑗 = 𝑥𝑖 dan 𝑦𝑗 = 𝑦𝑖 . Dimikanlah 𝑇𝑋 − 𝑇𝑋𝑌 adalah berapa kali 𝑥𝑗 = 𝑥𝑖 dan 𝑦𝑗 ≠ 𝑦𝑖 dan 𝑇𝑌 − 𝑇𝑋𝑌 adalah berapa kali 𝑥𝑗 ≠ 𝑥𝑖 dan 𝑦𝑗 = 𝑦𝑖 .
235
Dengan definisi ini, berlakulah : 1
𝑁 = 𝑛 𝑛 − 1 = 𝑃 + 𝑄 + 𝑇𝑋 − 𝑇𝑋𝑌 + 𝑇𝑌 − 𝑇𝑋𝑌 + 𝑇𝑋𝑌 2
= 𝑃 + 𝑄 + 𝑇𝑋 + 𝑇𝑌 − 𝑇𝑋𝑌 untuk tiap sampel
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛
.
Rumus 𝜏, 𝜏𝑏 , 𝛾 dilukiskan sbb. : 𝜏=
𝑃−𝑄 𝑁
𝑃−𝑄
𝜏𝑏 = 𝛾=
𝑁−𝑇𝑋
𝑁−𝑇𝑌
𝑃−𝑄 𝑁− 𝑇𝑋 +𝑇𝑌 −𝑇𝑋𝑌
=
𝑃−𝑄 𝑃+𝑄
Ketiga ukuran korelasi peringkat 𝜏, 𝜏𝑏 , 𝛾 simetrik dalam X dan Y . Artinya jika dipertukarkan satu sama lain diperoleh rumus yang sama . WILSON (1974) membuat ukuran simetrik lain : 𝑃−𝑄
𝑒 = 𝑁−𝑇
𝑋𝑌
= 𝑃+𝑄+ 𝑇
Dalam 𝑒, hanya 𝑇𝑋𝑌 pasangan
𝑃−𝑄
𝑋 −𝑇𝑋𝑌
𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗
+ 𝑇𝑌 −𝑇𝑋𝑌
dengan 𝑥𝑗 = 𝑥𝑖 dan 𝑦𝑗 = 𝑦𝑖 ,
tak termasuk pembagi 𝑁 − 𝑇𝑋𝑌 . Ukuran korelasi peringkat taksimetrik adalah 𝑑𝑋 𝑌 dan 𝑑𝑌 𝑋 SOMMERS , didefinisikan sbb. : 𝑑𝑋 𝑌 =
𝑃−𝑄 𝑁−𝑇𝑌
= 𝑃+𝑄+ 𝑇
𝑃−𝑄 𝑋−𝑇𝑋𝑌
𝑑𝑌 𝑋 =
𝑃−𝑄 𝑁−𝑇𝑋
= 𝑃+𝑄+ 𝑇
𝑃−𝑄 𝑌 −𝑇𝑋𝑌
236
Ukuran 𝑑𝑋 𝑌 merupakan ukuran asosiasi untuk meramalkan apakah nilai X bertambah, bernilai sama ,atau kurang , pabila diketahui bahwa nilai Y bertambah ? Kerenanya, yang dibandingkan pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 , dengan 𝑥𝑗 = 𝑥𝑖 dan 𝑦𝑗 ≠ 𝑦𝑖 mungkin terjadi : 𝑑𝑋 𝑌 =
𝑃−𝑄 𝑁−𝑇𝑌
Jadi, peubah Y dianggap bebas , peubah X dianggap tak bebas . Bila ukuran 𝑑𝑋 𝑌 bernilai positif , berarti nilai X lebih sering bertambah dari pada kurang , pabila diketahui bahwa nilai Y bertambah . Contoh Perhatikan jenis pekerjaan mertua (peubah X) dan jenis pekerjaan anak (peubah Y ) sbb. :
Peubah X
1 2 3 4 𝒗𝒊
𝒖𝒊
Peubah Y 1 1 1 0 0 2
2 1 2 1 1 5
3 0 1 4 3 8
4 0 0 3 2 5
2 4 8 6 20
1
Untuk 20 pengamatan 𝑥𝑖 , 𝑦𝑖 diperoleh 𝑁 = 𝑛 𝑛 − 1 = 190 . 2
Penghitungan P dan Q membandingkan pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 dengan 𝑥𝑗 ≠ 𝑥𝑖 dan 𝑦𝑗 ≠ 𝑦𝑖 . Jadi, yang dibandingkan hanya pasangan yang tidak masuk baris yang sama dan yang tak masuk kolom sama . Untuk sebuah pengamatan 𝑥𝑗 , 𝑦𝑗 dalam persegipanjang (pp) kanan bawah bersifat 𝑥𝑗 > 𝑥𝑖 dan 𝑦𝑗 > 𝑦𝑖 . Pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 dalam perhitungan P .
merupakan pasangan selaras, dan termasuk
237
Nilai Q ditentukan mirip dengan perhitungan P . Dalam perhitungan Q termasuk pengamatan dalam pp kiri bawh yang bersifat 𝑥𝑗 > 𝑥𝑖 dan 𝑦𝑗 < 𝑦𝑖 , yaitu pengamatan takselaras dengan 𝑥𝑖 , 𝑦𝑖 . Seperti :
𝑥𝑖 , 𝑦𝑖
Termasuk P
Termasuk Q
Perhitungan P dan Q dimulai dari kiri-atas ke kanan-bawah untuk 𝑥𝑖 , 𝑦𝑖 . Demikianlah 𝑃 =1 2+1+1+4+3+2 +1 1+4+3+3+2 +1 1 + 4 + 3 + 1 + 3 + 2 + 2 4 + 3 + 3 + 2 + 1 3 + 2 +4 2 = 86 𝑄 = 1 1 + 1 1 + 1 + 4 1 + 3 1 + 3 = 19
Perhitungan 𝑇𝑌 𝑑𝑎𝑛 𝑇𝑌 menggunakan distribusi frekuensi pinggir : 𝑇𝑋 =
1
𝑇𝑌 =
1
2
2
4 𝑖=1 𝑢𝑖
𝑢𝑖 − 1 =
1
4 𝑖=1 𝑣𝑖
𝑣𝑖 − 1 =
1
2
2
2 1 +4 3 +8 7 +6 5
= 50
2 1 +5 4 +8 7 +5 4
= 49
238
Perhitungan 𝑇𝑋𝑌 dengan menggunakan frekuensi 𝑓𝑘𝑚 dalam kotak 𝑥𝑖 = 𝑘 dan 𝑦𝑖 = 𝑚 : 𝑇𝑋𝑌 =
1
=
1
2
2
4 𝑘=1
4 𝑚 =1 𝑓𝑘𝑚
𝑓𝑘𝑚 − 1
2 1 +4 3 +3 2 +3 2 +2 1
= 14
Apakah P,Q, 𝑇𝑋 , 𝑇𝑌 , 𝑇𝑋𝑌 sudah benar ? 𝑁 = P + Q + 𝑇𝑋 + 𝑇𝑌 + 𝑇𝑋𝑌 = 190 1
hasil nya sama dengan perhitungan 𝑁 = 𝑛 𝑛 − 1 2
Demikianlah ,
dan
𝑑𝑌 𝑋 =
𝑃−𝑄 𝑁−𝑇𝑋
= 140
67
𝑑𝑋 𝑌 =
𝑃−𝑄 𝑁−𝑇𝑌
= 141
67
Setiap ukuran korelasi pringkat di atas bernilai positif . Berarti pekerjaan putra kurang lebih setingkat dengan jenis pekerjaan ayah nya (sebagai KULI butahuruf) .
9.1
Regresi Liniir 2 Peubah Interval
Ukuran asosiasi peramalan 𝜆𝐴 𝐵 dan ukuran reduksi ketakpastian𝑇𝐴 𝐵 bisa digunakan pabila 2 peubahnya diukur pada skala nominal saja . Ukuran korelasi peringkat𝑑𝑋 𝑌 dapat digunakan untuk 2 peubah ordinal . Regresi hanya berlaku pabila 2 peubahnya diukur pada skala interval . Regresi merupakan hubungan taksimetrik , artinya nilai peubah 1 meramal kan nilai peubah 2 . Peubah 1 disebut peubah bebas (independent variable) atau regresor dan peubah 2 disebut peubah takbebas . Pabila ingin diteliti bagaimana sikap orang tergantung pada umurnya ? Umur sebagai peubah bebas, sikap peubah tak bebas .
239
Sampel bisa ditarik belapis, di mana per lapisan kelompor berumur sama ; nilai peubah umur ditentukan sebelum wawan cara . Kemudian 1 per lapisan , diukur sikapnya pada skala interval . Peubah bebas biasa dipilih peubah dasar , semisal status sosial (sales) , pendapatan , pengalaman jadi kuli , dll . Peubah dasar ini mudah diukur . Regresi meneliti hubungan taksimetrik , dan mencari bentuk hubungan . Lebih sering hubungannya liniir kerena gampang , kerena garis lurus saja . Pabila sebuah penelitian mempunyai diagram tebar , dan hubungan 2 peubahnya ditentukan liniir , bagaimana mencari garis lurus terbaik ?
Diketahui 2 garis 𝑙1 𝑑𝑎𝑛 𝑙2 . Mencari garis lurus paling sesuai digunakan metode kuadrat terkecil (least squares) Metode ini digunakan dengan penyesuaian ( fitting) . Dalam metode ini ditentukan nilai koeifisien arah b dan nilai potong a dalam persamaan garis 𝑙1 ≡ 𝑌 = 𝑏𝑋 + 𝑎 . Garis lurus dituliskan dengan 𝑌 = 𝑏𝑋 + 𝑎 sebagai penduga hubungan taksimetrik X dan Y sebenarnya . Andaillah 𝑥𝑖 , 𝑦𝑖 berada pada awan tebar . Selisih antara 𝑦𝑖 ramalan dan nilai data 𝑦𝑖 adalah 𝑦𝑖 − 𝑦𝑖 , jadi jaraknya 𝑦𝑖 − 𝑦𝑖 = 𝑦𝑖 − 𝑦𝑖 2 .
240
Jumlah jarak n titik 𝑥𝑖 , 𝑦𝑖 dalam diagram tebar adalah 𝑃 𝑎, 𝑏 =
𝑛 𝑖=1
𝑦𝑖 − 𝑦𝑖
2
=
𝑛 𝑖=1
𝑏𝑥𝑖 + 𝑎 − 𝑦𝑖
2
Jumlah tersebut , mengukur besarnya kesalahan dalam menduga garis lurus tersebut . Jumlah ini tergantung pada garis mana yang dipilih untuk peramalan. Fungsi P tergantung pada nilai b dan nilai a . Dipilih nilai b dan a supaya jumlah 𝑃 𝑎, 𝑏 𝑡𝑒𝑟𝑘𝑒𝑐𝑖𝑙 . Garis yang diperoleh disebut garis regresi Y terhadap X . Caranya demikian
𝑌, 𝑌
𝑦𝑙
𝑦𝑙
X 𝑥𝑙 𝑌 = 𝑏𝑋 + 𝑎
Pabila nilai peubah 𝑋 = 𝑥𝑖 , maka ramalan nilai peubah Y adalah 𝑦𝑖 = 𝑏𝑥𝑖 + 𝑎 . Jumlah 𝑃 𝑎, 𝑏 ditulis dengan fungsi kuadrat dalam a : 𝑃 𝑎, 𝑏 = =
𝑛 𝑖=1 𝑛 𝑖=1
𝑏𝑥𝑖 + 𝑎 − 𝑦𝑖
2
𝑏𝑥𝑖 − 𝑦𝑖 + 𝑎
2
241
= =
𝑛 𝑖=1 𝑛 𝑖=1
𝑏𝑥𝑖 − 𝑦𝑖 2 + 2𝑎 𝑏𝑥𝑖 − 𝑦𝑖 + 𝑎2 𝑏𝑥𝑖 − 𝑦𝑖 2 + 2𝑎 𝑏𝑛𝑥 − 𝑛𝑦 + 𝑛𝑎2
di sini 𝑛 𝑖=1 𝑥𝑖
= 𝑛𝑥
𝑛 𝑖=1 𝑦𝑖
dan
= 𝑛𝑦
𝑃 𝑎, 𝑏 = 𝑛𝑎2 + 𝐴𝑎 + 𝐵 𝐴 = 2𝑛 𝑏𝑥 − 𝑦
𝑛 𝑖=1
;𝐵=
𝑏𝑥𝑖 − 𝑦𝑖
𝐴
𝐴2
𝐴 2 2𝑛
+ 𝐵−
2
𝐴2
𝑃 𝑎, 𝑏 = 𝑛 𝑎2 + 2 2𝑛 𝑎 + 4𝑛 2 − 4𝑛 2 + 𝐵 =𝑛 𝑎+
𝐴2 4𝑛
𝑃 𝑎, 𝑏
𝐵−
𝐴2 4𝑛
−
𝐴 2𝑛
Nilai minimum tercapai pabila
𝑎+
𝐴 2𝑛
= 0atau 𝑎 = −
𝐴 2𝑛
= 𝑦 − 𝑏𝑥
Substitusi 𝑎 = 𝑦 − 𝑏𝑥 ke 𝑃 𝑎, 𝑏 , untuk memperoleh b terkecil 𝑃 𝑎 = 𝑦 − 𝑏𝑥 , 𝑏 = =
𝑛 𝑖=1
𝑥𝑖 − 𝑥
2
𝑛 𝑖=1
𝑏2 − 2
𝑏 𝑥𝑖 − 𝑥 − 𝑦𝑖 − 𝑦 𝑛 𝑖=1
2
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑏 +
𝑛 𝑖=1
𝑦𝑖 − 𝑦
2
242
Minimum dicapai pabila
𝑏=
𝑛 𝑖=1 𝑥 𝑖 −𝑥 𝑦 𝑖 −𝑦 𝑛 2 𝑖=1 𝑥 𝑖 −𝑥
Kerena 1 𝑛−1
𝑛 𝑖=1
𝑥𝑖 − 𝑥
2
= 𝑠𝑋2
adalah variansi nilai-nilai 𝑥1 , 𝑥2 , …, 𝑥𝑛 1 𝑛−1
𝑛 𝑖=1
dan
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 = 𝑠𝑋𝑌
adalah variansi untuk nilai 𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , … , 𝑥𝑛 , 𝑦𝑛 , maka koeifisien arah b ditulis
𝑏=
𝑠𝑋𝑌 𝑠𝑋2
Diperoleh garis regresi Y terhadap X dengan metode kuadrat terkecil 𝑌 = 𝑏𝑋 + 𝑎 = 𝑏𝑋 + 𝑦 − 𝑏𝑥 =
𝑠𝑋𝑌 𝑠2𝑋
𝑋−𝑥 +𝑦
Koeifisien arah regresi garis regresi Y terhadap X dinotasikan dengan 𝑏𝑌 𝑋 . Koeifisien determinasi 𝑟 2 dapat dihubungkan dengan 𝑏𝑌 𝑋 𝑑𝑎𝑛 𝑏𝑋 𝑌 . Koeifisien korelasi 2 garis regresi didefinisikan sbb.:
𝑟=
1 𝑛 −1
𝑛 𝑖=1
𝑥 𝑖 −𝑥 𝑦 𝑖 −𝑦 𝑠𝑋 𝑠𝑌
𝑠𝑋𝑌
=𝑠
𝑋 𝑠𝑌
=𝑏𝑌 𝑋 𝑏𝑋 𝑌
243
Contoh Fakultas FKIP Ekonomi tahu bagaimana pengaruh sistem pengajaran pada kemampuan mahaiswa untuk menganalisis masalah ekonomi . Lalu paham mampu menganalisis masalah ekonomi dioperasionalkan sebagai sebuah peubah yang diukur pada skala interval . Nilai peubah diukur pada 12 mahasiswa Tk.I , 10 mahasiswa Tk.II dan 8 mahasiswa Tk.III . Ingin diramal nilai kemampuan (peubah Y) dari nilai tingkat (peubah X) dengan garis regresi Y terhadap X . Data fiktif 30 mahasiswa sbb.:
244
Tk. (X)
Kemampuan (Y)
Rerata per Tk.
I II III
10,13,16,17,20,21,21,21,23,24,26,28 18,20,21,24,25,25,26,27,29,33 20,24,25,26,27,29,34,39
20 24.8 28
Diperoleh 𝑥= 𝑦=
1 30 1 30
12 × 1 + 10 × 2 + 18 × 3 = 1.9 12 × 20 + 10 × 24.8 + 8 × 28 = 23.7
Garis regresi melalui 1.9 ,23.7 , sebagai pusat tebar. 𝑠𝑋2 =
19.5 29
; 𝑠𝑌2 =
1053 .9 29
𝑑𝑎𝑛
𝑠𝑋𝑌 = 78.9 29
245
𝑏𝑌 𝑋 = 4 Garis regresi Y terhadap X 𝑌=
𝑠𝑋𝑌 𝑠2𝑋
𝑋 − 𝑥 + 𝑦 = 4𝑋 + 16.1
Pabila seorang mahasiswa diketahui duduk pada Tk.I , diramalkan nilai kemampuan menganalisis masalah ekonomi sebesar 4 1 + 16.1 = 28.1 . Koeifisien determinasi
𝑟2 = 𝑠
𝑠𝑋𝑌 2 𝑋
2𝑠 2 𝑌
= 0.3 → 𝑟 = 0.55
Kuat Korelasi dan Koeifisien Determinasi Kuatnya korelasi liniir diukur dengan koeifisien korelasi momen hasilkali r , atau kudratnya, koeifisien detrminasi.
246
Sudut 𝛼kecil artinya korelasi liniir kuat . 𝑟 2 = 𝑏𝑌 𝑋 𝑏𝑋 𝑌 mengukur besarnya sudut 𝛼 . Pabila 𝑟 2 = 𝑏𝑌 𝑋 𝑏𝑋 𝑌 = 1 ⇔ 𝛼 = 0𝑜 → 𝑔𝑎𝑟𝑖𝑠 𝑏𝑒𝑟𝑖𝑚𝑝𝑖𝑡 . Demikianlah 𝑟 2 = 𝑏𝑌 𝑋 𝑏𝑋 𝑌 = 0 ⇔ 𝛼 = 90𝑜 → 𝑔𝑎𝑟𝑖𝑠 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑌 𝑠𝑒𝑗𝑎𝑗𝑎𝑟 𝑆𝑏. 𝑋 . Pabila 𝑏𝑌 𝑋 ditentukan , maka diberikan sebagian simpangan nilai Y di sekitar 𝑦. Artinya peubah Y tergantung X , jadi pabila X berubah demikianlah Y menurut persamaan 𝑌 = 𝑏𝑌 𝑋
𝑋−𝑥 +𝑦
Y
𝑦𝑖 𝑦𝑖 − 𝑦 = selisih total
𝑦𝑖
𝑦𝑖 − 𝑦 =selisih yang belum dijelaskan oleh regresi
𝑦𝑖 − 𝑦 =selisih yang sudah dijelaskan oleh regresi
𝑦
X 𝑥𝑖
247
Jadi, nilai peubah Y didistribusikan sekitar 𝑦 dan sebagian penyebaran dalam nilai Y dijelaskan oleh regresi Y terhadap X ; pendek kata nilai X tidak tetap dan demikianlah Y . Dituliskan demikian 𝑦𝑖 − 𝑦 = 𝑦𝑖 − 𝑦𝑖 + 𝑦𝑖 − 𝑦 atau 𝑠𝑒𝑙𝑖𝑠𝑖 𝑡𝑜𝑡𝑎𝑙 = 𝑠𝑒𝑙𝑖𝑠𝑖 𝑏𝑒𝑙𝑢𝑚 𝑡𝑒𝑟𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 + 𝑠𝑒𝑙𝑖𝑠𝑖 𝑡𝑒𝑙𝑎 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 Selisih belum dijelaskan kerena pengaruh acak , pabila korelasinya benarbenar liniir. Pabila tak tepat liniir , selisih belum dijelaskan karena 2 faktor , antara korelasi takliniir yang ada dengan korelasi liniir (pengaruh sistematik) ; kedua pengaruh acak . Pabila selisih total 𝑦𝑖 − 𝑦 dikudrat dan dijumlahkan untuk tiap 𝑖 = 1,2, … , 𝑛 , maka diperoleh 𝑛 𝑖=1
𝑦𝑖 − 𝑦
2
=
𝑛 𝑖=1
𝑦𝑖 − 𝑦𝑖
2
+
𝑛 𝑖=1
𝑦𝑖 − 𝑦
2
atau 𝑆𝑆 𝑇𝑜𝑡𝑎𝑙 = 𝑆𝑆 𝑏𝑒𝑙𝑢𝑚 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 + 𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑙𝑖𝑛𝑖𝑖𝑟 SS (sum of squares) . 𝑆𝑆 𝑏𝑒𝑙𝑢𝑚 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 merupakan simpangan Y di sekitar garis regresi Y terhadap X . Kerenanya, sebuah ukuran kuatnya korelasi antara X dan Y sama dengan 𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑆𝑆 𝑇𝑜𝑡𝑎𝑙
Kerena 𝑦𝑖 = 𝑏𝑌 𝑋
=
𝑛 𝑖=1 𝑛 𝑖=1
𝑦 𝑖 −𝑦 2 𝑦 𝑖 −𝑦𝑖 2
𝑥𝑖 − 𝑥 + 𝑦, maka
248
𝑛 𝑖=1 𝑛 𝑖=1
𝑦𝑖 − 𝑦 𝑦𝑖 − 𝑦𝑖
2 2
=
𝑏𝑌 𝑋 2 𝑛 𝑖−1
= 𝑏𝑌 𝑋 2
𝑠2𝑋 𝑠2𝑌
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 2
𝑛 𝑖−1
1 2
2
=
𝑛−1 𝑏𝑌 𝑋 2 1 𝑛−1
𝑛 𝑖−1 𝑛 𝑖−1
𝑥𝑖 − 𝑥
2
𝑦𝑖 − 𝑦
2
= 𝑟2
Jadi , interpretasinya 𝑟2 =
𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑌 𝑡𝑒𝑟𝑎𝑑𝑎𝑝 𝑋 𝑆𝑆 𝑇𝑜𝑡𝑎𝑙 ,𝑌
Contoh Untuk contoh di atas , koeififsien determinasinya 𝑟2 =
𝑟2 =
𝑠𝑋𝑌 2
𝑠𝑋 2 𝑠𝑌 2
= 0.3
𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑌 𝑡𝑒𝑟𝑎𝑑𝑎𝑝 𝑋 𝑆𝑆 𝑇𝑜𝑡𝑎𝑙 ,𝑌
=
30 𝑦 −𝑦 2 𝑖=1 𝑖 30 𝑦 −𝑦 2 𝑖=1 𝑖 𝑖
Untuk Tk.I (X = 1) diramalkan nilai 𝑌 = 20.1 menurut garis regresi . Untuk Tk.II (X = 2 ) diramalkan nilai 𝑌 = 24.1 dan untuk Tk.III untuk tingkat III ( X = 3) diramalkan nilai 𝑌 = 28.1 . 𝑦 = 23.7, maka nilai 𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑔𝑎𝑟𝑖𝑠 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑌 𝑡𝑒𝑟𝑎𝑑𝑎𝑝 𝑋 : 30
𝑦𝑖 − 𝑦
2
= 12 20.1 − 23.7
2
+ 10 24.1 − 23.7
2
+ 8 28.1 − 23.7
2
𝑖=1
= 312.6 Ada 12 pengamatan 𝑥𝑖 , 𝑦𝑖 dengan 𝑥𝑖 = 1 , yaitu 1,10 , 1,13 , 1,16 , … ,
249
1,28 ; ada 10 pengamatan 𝑥𝑖 , 𝑦𝑖 dengan 𝑥𝑖 = 2 dan 8 pengamatan 𝑥𝑖 , 𝑦𝑖 dengan 𝑥𝑖 = 3 . Kerenanya 20.1 − 23.7 2 muncul 12 dalam jumlah kuadrat, dst . 30 1=1
𝑦𝑖 − 𝑦𝑖
2
= 1053.9
Jadi, 𝑟2 =
312 .6 1053 .9
= 0.3 .
Rasio Korelasi Eta Kuadrat Koeifisien determinasi 𝑟 2 merupakan ukuran korelasi simetrik . Tetapi ada ukuran taksimetrik untuk mengukur kebaikan suai (goodness of fit) sebuah garis regresi . Ukuran ini adalah rasio korelasi Y terhadap X , dinotasikan 𝑒𝑌2 𝑋 untuk sampel dan 𝜂𝑌2 𝑋 untuk populasi (𝜂 , 𝑏𝑎𝑐𝑎 ∶ 𝑒𝑡𝑎 ). Umumnya 𝑒𝑌2 𝑋 ≠ 𝑒𝑋2 𝑌 . Makna rasio korelasi𝑒𝑌2 𝑋 mirip 𝑟 2 . Contoh di atas ada 3 kelompok . Per kelompok ada berapa nilai Y . Kelompok i terdiri 𝑛𝑖 pengamatan 𝑥1 , 𝑦𝑖1 , 𝑥2 , 𝑦𝑖2 , … , 𝑥𝑖 , 𝑦𝑖𝑛 . Rerata kelompok 𝑦𝑖 =
1 𝑛𝑖
𝑛𝑖 𝑖=1 𝑦𝑖𝑗
Jumlah kuadrat antar kelompok didefinisikan 𝑆𝑆 𝑎𝑛𝑡𝑎𝑟 𝑘𝑒𝑙𝑜𝑚𝑝𝑜𝑘 =
𝑘 𝑖=1 𝑛𝑖
𝑦𝑖 − 𝑦
2
𝑦 rerata 𝑛 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘 nilai Y dalam k kelompok . Bobot𝑛𝑖 besar kelompok i . Dengan definisi rasio korelasi
𝑒𝑌2 𝑋 =
𝑆𝑆 𝑎𝑛𝑡𝑎𝑟 𝑘𝑒𝑙𝑜𝑚𝑝𝑜𝑘 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 ,𝑌
=
𝑘 2 𝑖=1 𝑛 𝑖 𝑦 𝑖 −𝑦 2 𝑛𝑖 𝑘 𝑖=1 𝑗 =1 𝑦 𝑖𝑗 −𝑦
250
Koeifisien determinasi
𝑟2 =
𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑔𝑎𝑟𝑖𝑠 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑆𝑆 𝑡𝑜𝑡𝑎𝑙 ,𝑌
=
𝑘 𝑛 𝑦 −𝑦 2 𝑖=1 𝑖 𝑖 2 𝑛𝑖 𝑘 𝑖=1 𝑗=1 𝑦𝑖𝑗 −𝑦
Perbedaaan antara 𝑒𝑌2 𝑋 dengan 𝑟 2 terletak di pembilang : 𝑦𝑖 rerata kelompok i. 𝑦𝑖 nilai Y diramalkan pabila nilai 𝑋 = 𝑥𝑖 diketahui .
Y
𝑦𝑖
𝑦𝑖 𝑦𝑖
X 𝑥𝑖
Rasio korelasi bisa juga digunakan pabila X merupakan peubah nominal , seperti analisis variansi . Tetapi koeifisien determinasi𝑟 2 hanya boleh digunakan pabila Y dan X kedua nya merupakan peubah interval . Untuk rasio korelasi , berlaku bahwa sebuah peubah ditetapkan (peubah X) . Dalam tiap kelompok dengan X tertentu terdapat beberapa nilai Y . Rasio korelasi merupakan ukuran kuatnya korelasi taksimetrik .
251
Contoh Untuk contoh di atas
Kelompok 1 : Kelompok 2 : Kelompok 3 :
𝑦 = 23.7 𝑑𝑎𝑛 𝑠𝑌2 =
𝒏𝒊
𝒚𝒊
12 10 8
20 24.8 28
1053 .9 29
Jadi,
𝑒𝑌2 𝑋 =
12 20−23.7 2 +10 24.8−23.7 2 +8 28−23.7 2 1053 .7
= 0.31
Bandingkan dengan 𝑟 2 = 0.3 . Untuk tiap populasi berdimensi 2 , berlaku : 0 ≤ 𝜌2 ≤ 𝜂𝑌2 𝑋 ≤ 1 Disimpulkan demikian : (a) 𝜌2 = 0 pabila , dan tidak pabila , X dan Y bebas stokastik satu sama lain (b) 𝜌2 = 𝜂𝑋2 𝑌 = 1 , iff hubungan antara X dan Y fungsional liniir (c) 𝜌2 < 𝜂𝑋2 𝑌 = 1 , iff antara X dan Y fungsional tak liniiir . (d) 𝜌2 = 𝜂𝑋2 𝑌 < 1 , jika dan hinya jika hubungan antara X dan Y liniir, tak fungsional (e) 𝜌2 < 𝜂𝑋2 𝑌 < 1 tak ada hubungan fungsional ; ada sebuah kurva regresi takliniir X terhadap Y , menjelaskan hubungan antara X dan Y lebih baik dari kurva regresi liniir X terhadap Y . Jadi, 𝜂𝑋2 𝑌 − 𝜌2 merupakan indicator ( bukan ukuran , kerena nilainya tergantung pada n dan k ) untuk adanya regresi takliniir .
252
Kuat Korelasi tak bisa diukur dengan 𝒃𝒀 𝑿 Koeifisien regresi 𝑏𝑌 𝑋 tak bisa digunakan langsung untuk mengukur kuatnya korelasi antara X dan Y secara langsung . Kerena besarnya 𝑏𝑌 𝑋 tergantung pada sebuah pengukuran untuk peubah X dan Y . Andailah pendek badan (peubah X) diukur dalam cm dan berat badan (peubah Y) diukur dalam kg . Berat badan diramalkan dari pendek badan , pendek kata garis regresi Y terhadap X akan ditentukan . Kedua peubah diukur pada skala rasio . Untuk sebuah sampel diperoleh garis regresi 𝑌 = 0.8𝑋 − 70
𝑏𝑌 𝑋 = 0.8
Jadi , pabila pendek badan 175 cm , ramalan beratnya sama dengan 0.8 × 175 − 70 𝑘𝑔 = 70𝑘𝑔 .
253
Jadi , nilai koeifisien regresi 𝑏𝑌 𝑋 tergantung pada satuan pengukuran. Namun , tidak untuk 𝑑𝑌 𝑋 Somers , 𝑟 2 , 𝑒𝑌2 𝑋 . Jadi , 𝑟 2 dan 𝑒𝑌2 𝑋 bisa digunakan mengukur kuatnya korelasi 2 peubah . Pabila peubah X dan Y dibakukan sehingga 𝑋 = 𝑌 = 0 dan 𝑠𝑋 = 𝑠𝑌 = 1 , maka diperoleh 𝑏𝑌 𝑋 = 𝑟𝑋𝑌
BAB 10 HUBUNGAN ANTARA 3 PEUBAH ATAU LEBIH
10.1
Korelasi dan Korelasi Parsil
Korelasi antara 2 peubah mungkin merupakan korelasi khayalan belaka . Dicobalah meneliti hubungan statistik 2 peubah , pabila peubah lain bernilai tetap (ceteris paribus ) , asosiasi ini disebut parsil . Misalkan , sebuah penelitian terdapat hubungan antara peubah umur dan peubah nonton bareng . Diperkirakan peubah pendidikan PT berhubungan dengan 2 peubah tadi . Diperkirakan lagi , lebih baik hubungan antara peubah umur dan nonton bareng untuk berapa kelimpok homogen (bernilai sama) terhadap peubah pendidikan PT, artinya peubah pendidikan PT tetap . Dalam kelompok pendidikan PT S2 ( peubah pendidikanPT S2 bernilai tetap ), dst . Korelasi parsil antara peubah X dan Y , pabila Z bernilai tetap z, ditulis koerlasi 𝑋𝑌 𝑍 = 𝑧 . Pabila Z bernilai 𝑧1 , 𝑧2 𝑑𝑎𝑛 𝑧3 , maka terdapat 3 korelasi parsil, korelasi 𝑋𝑌 𝑍 = 𝑧1 ,korelasi 𝑋𝑌 𝑍 = 𝑧2 dan korelasi 𝑋𝑌 𝑍 = 𝑧3 . Korelasi biasa atau korelasi pinggir antara X dan Y , yaitu pabila tak ada peubah lain bernilai tetap , ditulis sebagai korelasi 𝑋, 𝑌 . Nalisis antara 3 peubah X,Y dan Z sekalugus reidri dari perbandingan nilai korelasi biasa antara 2 peubah dengan nilai korelasi parsil , dan perbandingan antara nilai korelasi itu untuk beberapa nilai peubah ketiga .
254
Pabila peubah Z mempunyai 4 nilai , maka nilai korelasi 𝑋𝑌 dapat dibandingkan dengan nilai korelasi parsil 𝑋𝑌 𝑍 = 𝑧1 , nilai korelasi parsil 𝑋𝑌 𝑍 = 𝑧2 , nilai korelasi parsil 𝑋𝑌 𝑍 = 𝑧3 dan nilai korelasi parsil 𝑋𝑌 𝑍 = 𝑧4 , dan keempatnya dibandingkan satu sama lain . Dapat juga dibandingkan nilai korelasi 𝑋𝑍 dengan nilai korelasi 𝑋𝑍 𝑌 = 𝑦1 ,nilai korelasi 𝑋𝑍 𝑌 = 𝑦2 dst . Nilai korelasi dan nilai korelasi parsil ditentukan dengan ukuran korelasi dan ukuran asosiasi yang sudah diketahui, khususnya , khususnya C, 𝜏 , dan r . Ada berapa kemungkinan dalam perbandingan nilai korelasi 𝑋𝑌 dengan nilai korelasi parsil 𝑋𝑌 𝑍 = 𝑧𝑖 . Pertama , misalkan ukuran korelasi 𝑋𝑌 tidak sama dengan 0, tapi untuk tiap nilai Z berlaku bahwa ukuran korelasi 𝑋𝑌 𝑍 = 𝑧𝑖 sama dengan 0 . Di sini , dikatakan bahwa korelasi antara X dan Y sepenuhnya disebabkan oleh peubah Z . Dengan kata lain , Z berhubungan X dan Z juga berhubungan dengan Y , dan oleh karena itu juga harus ada hubungan antara X dan Y . Di sini , korelasi 𝑋𝑌 yang ada , di sini korelasi 𝑋𝑌 menurut statistika disebut korelasi khayal (illusory) . Kedua, ukuran korelasi 𝑋𝑌 tidak sama dengan 0 dan juga ukuran kore lasi parsil 𝑋𝑌 𝑍 = 𝑧𝑖 tidak semua sama dengan 0 . Di sini berlaku, nilai ukuran korelasi 𝑋𝑌 𝑍 = 𝑧1 ≠ 𝑋𝑌 𝑍 = 𝑧2 ≠ 𝑋𝑌 𝑍 = 𝑧3 , 𝑑𝑠𝑡. Demikianlah, bahwa korelasi antara peubah X dan Y dirinci (specified) menurut menurut nilai peubah Z. Pabila, ternyata bahwa nilai ukuran korelasi 𝑋𝑌 lebih kuat dari ukuran korelasi parsil 𝑋𝑌 𝑍 = 𝑧𝑖 untuk tiap nilai 𝑧𝑖 , dikatakan sebagian hubungan antara X dan Y disebabkan oleh peubah Z . Ketiga,bahwa ukuran korelasi 𝑋𝑌 bernilai 0 dan juga bahwa untuk tiap nilai 𝑧𝑖 ukuran korelasi 𝑋𝑌 𝑍 = 𝑧𝑖 bernillai 0 . Di sini dikatakan bahwa peubah Z tidak menyelubungi (doesn‟t mask ) korelasi antara X dan Y . Keempat, bahwa ukuran korelasi 𝑋𝑌 bernilai 0 , tapi ukuran korelasi parsil 𝑋𝑌 𝑍 = 𝑧𝑖 tidak bernilai 0 untuk tiap 𝑍1 . Di sini peubah Z menyelubungi (mask) hubungan antara X dan Y. Perhatikan :
255
𝒔
Ukuran korelasi parsil 𝑿𝒀 𝒁 = 𝒛𝟏 𝒅 𝑿𝒀 𝒁 = 𝒛𝒌 Semua bernilai 0 Tak semua bernilai 0
Ukuran korelasi 𝑿𝒀
Tak bernilai 0
1.korelasi 𝑋𝑌 khayal secara sebab-aikibat (detection) 3.korelasi 𝑋𝑌 tidak terselubung oleh peubah Z (not masked)
Bernilai 0
10.2
2. korelasi 𝑋𝑌 dirinci (specifification) 4.korelasi 𝑋𝑌 terselubung oleh peubah Z (elaboration)
Asosiasi Parsil untuk Peubah Nominal
Asosiasi Khayal Asosiasi khayal tak bisa dijelaskan dengan akal atau logika sebab akibat. Di sini , kemungkinan ada peubah lain Z yang sepenuhnya menyebabkan asosiasi antara X dan Y . Andailah dalam sebuah penelitian terdapat data pendapatan (peubah X) dan penilaian fasilitas pendidikan tersedia ( peubah Y ) . Asosiasi 𝑿𝒀 khayal Pendapatan 𝑿𝒀 × 𝒑𝒆𝒏𝒊𝒍𝒂𝒊𝒂𝒏 𝒀 𝑪 𝑿𝒀 = 𝟎. 𝟐𝟓 X
Y Cukup
Tinggi Rendah
60 100
Tidak cukup 100 60
160 160
160
160
320
256
Umur 𝒁 = "𝒎𝒖𝒅𝒂" Pendapatan 𝑿 × 𝒑𝒆𝒏𝒊𝒍𝒂𝒊𝒂𝒏 𝒀 𝑪 𝑿𝒀 𝒁 = 𝒎𝒖𝒅𝒂 = 𝟎 X
Y Cukup
Tinggi Rendah
Tidak cukup 10 30 40
30 90 120
40 120 160
Umur 𝒁 = "𝒕𝒖𝒂" Pendapatan 𝑿 × 𝒑𝒆𝒏𝒊𝒍𝒂𝒊𝒂𝒏 𝒀 𝑪 𝑿𝒀 𝒁 = 𝒕𝒖𝒂 = 𝟎 X
Y Cukup
Tinggi Rendah
30 10 40
Tidak cukup 90 30 120
120 40 160
Ternyata ada asosiasiantara “pendapatan” dan “penilaian fasilitas” bagi 320 orang tsb. ; C Crammer 0.25 . Tapi , pabila kelompok 320 orang dibagi menurut umur ( = peubah Z) dalam kelompok “muda” dan kelompok “tua” , diperoleh : tak ada asosiasi antara pendapatan dan fasilitas pendidikan . Di sini, peubah umur (Z) sepenuhnya menyebabkan adanya asosiasi antara pendapatan (X) dan penilaian fasilitas (Y ) . Pabila umur orang bertambah , pendapatannya juga bertambah, dan penilaian fasilitas terhdap fasilitas pendidikan menjadi lebih negatif . Dapat juga dibuat demikian : 𝑢𝑚𝑢𝑟 𝑍 × 𝑝𝑒𝑛𝑖𝑙𝑎𝑖𝑎𝑛 𝑌 𝑢𝑛𝑡𝑢𝑘 𝑋 = 𝑡𝑖𝑛𝑔𝑔𝑖 dan 𝑢𝑚𝑢𝑟 𝑍 × 𝑝𝑒𝑛𝑖𝑙𝑎𝑖𝑎𝑛 𝑌 𝑢𝑛𝑡𝑢𝑘 𝑋 = 𝑟𝑒𝑛𝑑𝑎
257
Umur 𝒁 × 𝒑𝒆𝒏𝒊𝒍𝒂𝒊𝒂𝒏 𝒀 ; 𝑿 = 𝒕𝒊𝒏𝒏𝒈𝒊 𝑪 𝒁𝒀 𝑿 = 𝒕𝒊𝒏𝒈𝒈𝒊 = 𝟎. 𝟒𝟓 Z
Y Cukup
Muda Tua
Tidak cukup 10 90 100
30 30 60
40 120 160
Umur 𝒁 × 𝒑𝒆𝒏𝒊𝒍𝒂𝒊𝒂𝒏 𝒀 ; 𝑿 = 𝒓𝒆𝒏𝒅𝒂𝒉 𝑪 𝒁𝒀 𝑿 = 𝒓𝒆𝒏𝒅𝒂𝒉 = 𝟎. 𝟒𝟓 Z
Y Cukup
Muda Tua
90 10 100
Tidak cukup 30 30 60
120 400 160
Hubungan sebab-akibat antara 3 peubah X, Y, dan Z dibuat diagramnya Dalam sebuah diagram sebab akibat , anak panah menunjukkan hubungan sebab-akibat dimulai dari peubah yang dianggap sebab dan diakhiri peubah yang diasumsikan akibat . X (pendapatan )
umur
Y ( penilaian fasilitas )
Di atas , tidak ada panah dari X ke Y atau sebaliknya. Walaupun 𝐶 𝑋𝑌 = 0.25 , namun hubungan antara X dan Y tak dianggap hubungan sebab-akibat , kerena
258
𝐶 𝑋𝑌 𝑍 = "𝑚𝑢𝑑𝑎" = 𝐶 𝑋𝑌 𝑍 = "𝑡𝑢𝑎" = 0 . Tapi Tabel 𝐶 𝑋𝑌 di atas “sesuai” dengan model sebab-akibat . Dengan 3 peubah , tidak boleh digambarkan anak panah dari X dan Y , pabila asosiasi 𝑋𝑌 𝑍, 𝑢𝑛𝑡𝑢𝑘 𝑡𝑖𝑎𝑝 𝑛𝑖𝑙𝑎𝑖 𝑍 = 0 .
Asosiasi Dirinci Andailah asosiasi 𝑋𝑌 𝑎𝑑𝑎, artinya 𝐶 𝑋𝑌 ≠ 0, juga nilai asosiasi 𝑋𝑌 𝑍 = 𝑧1 ≠ 𝑋𝑌 𝑍 = 𝑧2 . Di sini , asosiasi 𝑋𝑌 dirinci menurut nilai peubah Z . Contoh di atas , hubungan antara peubah umur 𝑋 dan peubah pendidikan formal 𝑌 diteliti .
Asosiasi 𝑿𝒀 , 𝐀𝐬𝐨𝐬𝐢𝐚𝐬𝐢 𝑿𝒀 𝒁 = "𝒍𝒆𝒍𝒂𝒌𝒊" 𝐀𝐬𝐨𝐬𝐢𝐚𝐬𝐢 𝑿𝒀 𝒁 = "𝒘𝒂𝒏𝒊𝒕𝒂" Umur 𝑿 × 𝒑𝒆𝒏𝒅𝒊𝒅𝒊𝒌𝒂𝒏 𝒇𝒐𝒓𝒎𝒂𝒍 𝒀 𝑪 = 𝟎. 𝟓𝟗 X
15-25 26 +
Y SD atau kurang 30 120 150
SMP + 80 20 100
110 140 250
𝒁 = "𝒍𝒆𝒍𝒂𝒌𝒊" ; 𝑿 × 𝒀 𝑪 = 𝟎. 𝟔𝟖 X
15-25 26 +
Y SD atau kurang 10 60 70
SMP + 45 10 55
55 10 125
259
𝒁 = "𝒘𝒂𝒏𝒊𝒕𝒂" ; 𝑿 × 𝒀 𝑪 = 𝟎. 𝟓𝟏 X
15-25 26 +
Y SD atau kurang 20 60 80
SMP + 35 10 45
55 70 125
Diduga bahwa, tak ada hubungan sebab-akibat antara umur dan jenis kelamin ( sebenarnya ada assosiasi parsiallemah ) .
X (umur) Y (pendididikan formal Z (jenis kelamin )
Asosiasi 𝑿𝒀 Tidak Terselubung oleh Z Peubah Z dikatakan tidak menyelubungi asosiasi 𝑋𝑌 , pabila 𝐶 𝑋𝑌 = 0 dan juga 𝐶 𝑋𝑌 𝑍 = 𝑧1 = 𝐶 𝑋𝑌 𝑍 = 𝑧2 = 0 . Perhatikan : Dalam sebuah penelitian , ditemukan bahwa sikap terhadap sebuah masalah tertentu tidak berbeda antara orang yang beragama Islam dan orang beragama Katolik . Jadi,tak ada asosiasi antara peubah agama 𝑋 dan peubah sikap 𝑌 . Diduga peubah umur 𝑍 merupakan sebuah menyelubungi asosiasi antara X dan Y . Pendek kata, diduga bahwa untuk Z tetap dan bernilai “muda” , ada asosiasi antara X dan Y , begitupun untuk bernilai “tua” .
260
Kerenanya , Tabel Silang 𝐶 𝑋𝑌 𝑍 = "𝑚𝑢𝑑𝑎" dan 𝐶 𝑋𝑌 𝑍 = "𝑡𝑢𝑎" disu sun . Asosiasi 𝑿𝒀 Tak Terselubung oleh Z Agama (X) × 𝒔𝒊𝒌𝒂𝒑 𝒀 𝑪=𝟎 X Y Positif Negatif Islam Kristen
300 300 600
150 150 300
450 450 900
𝒁 = "𝒎𝒖𝒅𝒂" ; 𝑿 × 𝒀 𝑪=𝟎 X
Islam Kristen
Y Positif
Negatif
200 200 400
100 100 200
300 300 600
𝒁 = "𝒕𝒖𝒂" ; 𝑿 × 𝒀 𝑪=𝟎 X
Islam Kristen
Y Positif
Negatif
100 100 200
50 50 100
150 150 300
Perhatikan , per Tabel , tak adaasosiasi . Jadi, peubah umur (Z) tak menyelubungiasosiasi antara agama (X) dan sikap (Y) .
261
Sekalipun dalam data ini umur (Z) tak menyelubungi asosiasi antara X dan Y , namun masih mungkin terdapat peubah lain yang menyelubungi asosiasi 𝑋𝑌 . Asosiasi 𝑿𝒀 Terselubung oleh Z Asosiasi 𝑋𝑌 terselubung oleh Z, pabila 𝐶 𝑋𝑌 = 0 tapi 𝐶 𝑋𝑌 𝑍 = 𝑧2 ≠ 0 Andailah ditarik sampel terlapis , menurut tempat tinggal (peubah X) , desa atau kota . Sikap terhadap satu hal (peubah Y) dibandingkan untuk daerah pedesaan dan perkotaan . Dalam Tabel silang 𝑋 × 𝑌 ternyata gak ada asosiasi . Diduga peubah pendidikan formal (Z) memengaruhi X dan Y , kerenanya dibuat tabel silang 𝑋 × 𝑌 untuk 𝑍 = 𝑟𝑒𝑛𝑑𝑎 dan tabel 𝑋 × 𝑌 untuk 𝑍 = 𝑡𝑖𝑛𝑔𝑔𝑖 . Dari Tabel ternyata, untuk kelompok homogen terhadap pendidikan (nilai Z tetap ) , ada asosiasi antara tempat tinggal dan sikap . Asosiasi ini lebih kuat untuk kelompok berpendidikan tinggi 𝐶 = 0.5 dari kelompok berpendidikan rendah 𝐶 = 0.29 . Di antara orang-orang berpendidikan rendah , tinggal di pedesaan secara relatif lebih banyak bersifat negatif , sebliknya di antara orang tinggal di pedesaan, berpendidikan tinggi, secara relatif lebih banyak yang bersikap positif. Ini , dilanjutkan dengan membandingkan tabel silang pendidikan formal 𝑍 × 𝑠𝑖𝑘𝑎𝑝 𝑌 untuk daerah pedesaan dan juga untuk perkotaan (nilai X tetap ) .
Asosiasi 𝑿𝒀 Terselubung oleh Z Tempat Tinggal (X) × 𝒔𝒊𝒌𝒂𝒑 𝒀 𝑪=𝟎 X Y Positif Negatif Desa Kota
400 200 600
400 200 600
800 400 1200
262
𝒑𝒆𝒏𝒅𝒊𝒅𝒊𝒌𝒂𝒏 𝒁 𝒓𝒆𝒏𝒅𝒂𝒉 ; 𝑿 × 𝒀 𝑪 = 𝟎. 𝟐𝟗 X
Y
Desa Kota
Positif
Negatif
250 150 400
350 50 400
600 200 800
𝒑𝒆𝒏𝒅𝒊𝒅𝒊𝒌𝒂𝒏 𝒁 𝒕𝒊𝒏𝒈𝒈𝒊 ; 𝑿 × 𝒀 𝑪 = 𝟎. 𝟓 X
Desa Kota
Y Positif
Negatif
250 150 400
350 50 400
600 200 800
Asosiasi 𝒁𝒀 𝑿 = 𝒅𝒆𝒔𝒂 dan asosiasi 𝒁𝒀 𝑿 = 𝒌𝒐𝒕𝒂 Tempat Tinggal (X) desa ;Z× 𝒀 𝑪 = 𝟎.29 Z Y Positif Negatif Rendah Tinggi
250 150 400
350 50 400
600 200 800
263
Tempat Tinggal (X) kota ; Z× 𝒀 𝑪 = 𝟎.5 Z Y Positif Negatif Rendah Tinggi
150 50 200
50 150 200
200 200 400
Peubah pendidikan 𝑍 lebih memengaruhi sikap orang di daerah perko taan 𝐶 = 0.5 dari sikap orang di daerah pedesaan 𝐶 = 0.29 . Hati-hatilah menarik simpulan. Mungkin ada peubah lain di luar pendidikan yang menyebabkan perbedaan tsb. Diagramnya demikianlah :
Y (Sikap) X ( tempat tinggal) Z (pendidikan )
Andailah , diagram sebab-akibat dibuat hanya dengan peubah X , peubah Y dan peubah Z . Diduga, tak ada peubah lain yang relevan menggambarkan situasi empirik tsb. Pabila demikian, panah dari X ke Y atau dari Y ke X taklah digambar pabila 𝐶 𝑋𝑌 𝑍 = 𝑧1 = 𝐶 𝑋𝑌 𝑍 = 𝑧1 = 0. Pabila 𝐶 𝑋𝑌 𝑍 = 𝑧 1 > 0 𝑑𝑎𝑛 𝐶 𝑋𝑌 𝑍 = 𝑧1 > 0, maka bolehlah ditarik panah tersebut . Pabila 𝐶 𝑋𝑌 𝑍 = 𝑧1 = 0 𝑑𝑎𝑛 𝐶 𝑋𝑌 𝑍 = 𝑧1 > 0 , boleh dibuat diagram sebab-akibat , satu untuk 𝑍 = 𝑧1 dan untuk 𝑍 = 𝑧2
264
Tabel di atas dapat juga digambar demikian , bila sesuai : Y (sikap) Y (sikap)
X(tempat tinggal)
X(tempat tinggal) Z(pendidikan) Z(pendidikan)
GALTUNG , hubungan sebab-akibat sebagaim sebuah proses , yaitu hubungan imbsl-balik (mutually) perlu diteliti 𝑋 ⟺ 𝑌 . Analisis sebab akibat yang betul ada pada analisis time series (deret waktu) ; menggambarkan jangka waktu tertentu , seperti data 18 tahun ke atas . Jadi gak betul kalok cross-section (hanya 1 tahun saja ) .
10.3
Korelasi Parsil dan Regresi Berganda Peubah Interval .
Asumsi : 3 peubah X,Y dan Z didistribusikan Normal berdimensi 3 . Korelasi antara X dan Y diperiksa , pabila peubah Z bernilai tetap. Untuk tiap nilai 𝑍 = 𝑧 , 𝑋 𝑑𝑎𝑛 𝑌 berdistribusi normal dimensi 2 dengan koeifisien korelasi
𝜌𝑋𝑌 𝑍 =
𝜌 𝑋𝑌 −𝜌 𝑋𝑍 𝜌 𝑌𝑍 2 1−𝜌 𝑋𝑍
2 1−𝜌 𝑌𝑍
𝜌𝑋𝑌 𝑍 , koeifisien korelasi parsil pabila nilai Z tetap, sedang 𝜌𝑋𝑌 ,𝜌𝑋𝑍 𝑑𝑎𝑛 𝜌𝑌𝑍 koefisien korelasi momen hasil kali biasa . Kuat korelasiparsil 𝑋𝑌 𝑍 = 𝑧 tak tergantung nilai Z untuk sebuah distribusi berdimensi 3 . Berbeda denan hasil untuk peubah nominal, umumnya 𝐶 𝑋𝑌 𝑍 = 𝑧1 ≠ 𝐶 𝑋𝑌 𝑍 = 𝑧2 .
265
Koeifisien 𝜌𝑋𝑌 𝑍 ukuran simetrik dalam X dan Y, 𝜌𝑋𝑌 𝑍
= 𝜌𝑌𝑋 𝑍 .
Pabila populasi nya tidak berdistrbusi normal dimensi 3, koeifisirn korelasi parsil didefinisikan dengan rumus 𝜌𝑋𝑌 𝑍 . Di sini ,untuk populasi tidk normal , 𝜌𝑋𝑌 𝑍 = 𝑟𝑒𝑟𝑎𝑡𝑎 𝑑𝑎𝑟𝑖 𝑋𝑌 𝑍 = 𝑧1 , 𝑋𝑌 𝑍 = 𝑧2 , … , 𝑋𝑌 𝑍 = 𝑧𝑛 . Untuk sampel , koeifisien korelasiparsil
𝑟𝑋𝑌 𝑍 =
𝑟𝑋𝑌 −𝑟𝑋𝑍 𝑟𝑌𝑍 1−𝑟2𝑋𝑍 1−𝑟2𝑌𝑍
Contoh Peubah X, Y, Z diukur pada skala interval dengan definisi : 𝑋 = 𝑢𝑚𝑢𝑟 (𝑡𝑎𝑢𝑛) 𝑌 = 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 𝑡𝑎𝑢𝑛𝑎𝑛 𝑟𝑖𝑏𝑢 𝑅𝑝 𝑍 = 𝑠𝑖𝑘𝑎𝑝 𝑡𝑒𝑟𝑎𝑑𝑎𝑝 𝑃𝑀𝐴 (𝑠𝑘𝑎𝑙𝑎 0 = 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 𝑘𝑒 100 = 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 . Dari sampel diperoleh 𝑟𝑋𝑌 = 0.4 , 𝑟𝑋𝑍 = 0.3 , 𝑟𝑌𝑍 = 0.6 . 𝑟𝑋𝑌 𝑍 = 0.29,𝑟𝑋𝑍 𝑌 = 0.08 , 𝑟𝑌𝑍 𝑋 = 0.55 . Nilai 𝑟𝑋𝑍 𝑌 = 0.08 , bahwa peubah umur (X) tak memengaruhi langsung peubah sikap terhadap PMA (Z) 𝑟𝑌𝑍 𝑋 = 0.55 bahwa pendapatan memengaruhi sikap terhadap PMA, pabila peubah tetap . Data ini “sesuai” dengan model sebab-akibat
266
X (umur)
Z (sikap thd.PMA)
Y (pendapatan)
Hubungan Korelasi Parsil dengan Regresi Berganda Andailah sebuah penelitian diperoleh n pengamatan untuk 3 peubah : 𝑥1 , 𝑦1 , 𝑧1 , 𝑥2 , 𝑦2 , 𝑧2 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑧𝑛 . Andai pula , korelasi antara X,Y , dan Z liniir , ingin dicari dataran regresi X terhadap Y dan Z , yaitu koeifisien regresi𝑎𝑋 ,𝑏𝑋𝑌 𝑍 , dan 𝑏𝑋𝑍 𝑌 𝑋 = 𝑎𝑋 + 𝑏𝑋𝑌 𝑍 𝑌 + 𝑏𝑋𝑍 𝑌 𝑍 Dataran regresi dicari dengan metode kuadrat terkecil . Pertama didefinisikan fungsi P sbb. : 𝑃 𝑎𝑋 , 𝑏𝑋𝑌 𝑍 , 𝑏𝑋𝑍 𝑌 = =
𝑛 𝑖=1 𝑛 𝑖=1
𝑥𝑖 − 𝑥𝑖
2
𝑥𝑖 − 𝑎𝑋 − 𝑏𝑋𝑌 𝑍 𝑌 − 𝑏𝑋𝑍 𝑌 𝑍
2
Dicari nilai terkecil fungsi P terhadap awan 𝑥1 , 𝑦1 , 𝑧1 , 𝑥2 , 𝑦2 , 𝑧2 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑧𝑛 . Dataran regresi ini : 𝑋 − 𝑥 = 𝑏𝑋𝑌 𝑍 𝑌 − 𝑦 + 𝑏𝑋𝑍 𝑌 𝑍 − 𝑧 di mana
𝑟 −𝑟 𝑟𝑌𝑍 𝑠𝑋 𝑏𝑋𝑌 𝑍 = 𝑋𝑌 𝑋𝑍 1−𝑟2𝑌𝑍 𝑠𝑌
267
Untuk dataran regresi Y terhadap X dan Z , dengan koeifisien 𝑎𝑋 ,𝑏𝑌𝑍 𝑋 , dan 𝑏𝑌𝑋 𝑍 , maka 𝑟 −𝑟 𝑟𝑋𝑍 𝑠𝑌 𝑏𝑌𝑋 𝑍 = 𝑌𝑋 𝑌𝑍 1−𝑟2𝑋𝑍 𝑠𝑋
jadi , 2 𝑏𝑋𝑌 𝑍 𝑏𝑌𝑋 𝑍 = 𝑟𝑋𝑌 𝑍
Demikianlah , koeifisien korelasi parsil berhubungan dengan koeifisien regresi berganda sbb. : 2 𝑟𝑋𝑌 𝑍 = 𝑏𝑋𝑌 𝑍 𝑏𝑌𝑋 𝑍 Demikianlah , persamaan dataran regresi berganda 𝑋 = 𝑎𝑋 + 𝑏𝑋𝑌 𝑍 𝑌 + 𝑏𝑋𝑍 𝑌 𝑍 Dapat dihitung , bahwa nilai 𝑋 bertambah sebesar 𝑏𝑋𝑌 𝑍 pabila nilai Y bertambah 1 dan Z tetap . Ini artinya, 𝑏𝑋𝑌 𝑍 merupakan koeifisien arah garis potong antara dataran regresi dengan dataran 𝑍 = 0 . Nilai 𝑋 𝑌 = 2, 𝑍 = 2 merupakan ramalan nilai X yang terletak di dataran regresi .
268
dataran regresi
X
Garis potong dengan Z = 0
𝑋 𝑌 = 2, 𝑍 = 2
𝑏𝑋𝑌 𝑍
Garis potong dengan Y = 0
𝑏𝑋𝑍 𝑌
2
Z
2 (0,2,2)
Y
Koeifisien Korelasi Berganda Koeifisien korelasi berganda (multiple) kuadrat , 𝑅𝑋2 𝑌𝑍 , mengukur kebaikan suai (goodness of fit ) dataran garis regresi X terhadap Y dan Z dengan titik sampel 𝑥1 , 𝑦1 , 𝑧1 , 𝑥2 , 𝑦2 , 𝑧2 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑧𝑛 .
𝑅𝑋2 𝑌𝑍 = =
𝑛 𝑖=1 𝑛 𝑖=1
𝑥 𝑖 −𝑥 2 𝑥 𝑖 −𝑥 2
2 𝑛 𝑖=1 𝑎 𝑋 + 𝑏 𝑋𝑌 𝑍 𝑦 𝑖 + 𝑏 𝑋𝑍 𝑌 𝑧 𝑖
𝑛 𝑖=1
𝑥𝑖 −𝑥 2
269
=
𝑆𝑆 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑜𝑙𝑒 𝑑𝑎𝑡𝑎𝑟𝑛 𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑋 𝑡𝑒𝑟 𝑎𝑑𝑎𝑝 𝑌 𝑑𝑎𝑛 𝑍 𝑆𝑆 𝑇𝑜𝑡𝑎𝑙 𝑢𝑛𝑡𝑢𝑘 𝑋
Pabila semua titik 𝑥1 , 𝑦1 , 𝑧1 , 𝑥2 , 𝑦2 , 𝑧2 , … , 𝑥𝑛 , 𝑦𝑛 , 𝑧𝑛 , semuanya dekat dataran regresi X terhadap Y dan Z , maka 𝑅𝑋2 𝑌𝑍 mendekati 1. 𝑅𝑋2 𝑌𝑍 dapat juga didefinisikan seabgai 2 𝑅𝑋2 𝑌𝑍 = 𝑟𝑋𝑋
𝑟𝑋𝑋 adalah koeifisien korelasi biasa antara nilai X dalam sampel dengan nilai 𝑋 , yang diramalkan dataran regresi . Jadi, 𝑅𝑋 𝑌𝑍 adalah pasangan koeifisien korelasi 𝑥1 , 𝑥1 , 𝑥2 , 𝑥2 , … , 𝑥𝑛 , 𝑥𝑛 . Jadi , 0 ≤ 𝑅𝑋2 𝑌𝑍 ≤ 1 . 2 2 𝑅𝑋2 𝑌𝑍 = 1 − 1 − 𝑟𝑋𝑌 1 − 𝑟𝑋𝑍 𝑌 2 2 = 1 − 1 − 𝑟𝑋𝑍 1 − 𝑟𝑋𝑌 𝑍
=
2 2 𝑟𝑋𝑌 −2𝑟 𝑋𝑌 𝑟 𝑋𝑍 𝑟 𝑌𝑍 +𝑟𝑋𝑍 2 1−𝑟𝑌𝑍
Pabila X tak tergantung Z , artinya 𝑏𝑋𝑍 𝑌 = 0 𝑎𝑡𝑎𝑢 𝑟𝑋𝑍 𝑌 = 0 , maka 2 𝑅𝑋2 𝑌𝑍 = 𝑟𝑋𝑌
𝑅𝑋 𝑌𝑍 = + 𝑅𝑋2 𝑌𝑍
, 0 ≤ 𝑅𝑋 𝑌𝑍 ≤ 1
Contoh Dalam contoh di atas hubungan antara peubah umur (X) , pendapatan (Y) , dan sikap terhadap PMA (Z) , diperoleh
270
𝑟𝑋𝑌 = 0.4 , 𝑟𝑋𝑌 𝑍 = 0.29 𝑟𝑋𝑍 = 0.3 , 𝑟𝑋𝑍 𝑌 = 0.08 𝑟𝑌𝑍 = 0.6 , 𝑟𝑌𝑍 𝑋 = 0.55 Dataran regresi Z terhadap X dan Y . Goodness of fit : 𝑅𝑍2 𝑋𝑌 =
𝑆𝑆 𝑑𝑒𝑣𝑖𝑎𝑠𝑖 𝑑𝑖𝑗𝑒𝑙𝑎𝑠𝑘𝑎𝑛 𝑜𝑙𝑒 𝑑𝑎𝑡𝑎𝑟𝑛 𝑟𝑒𝑔𝑟𝑒𝑠𝑖 𝑍 𝑡𝑒𝑟 𝑎𝑑𝑎𝑝 𝑋 𝑑𝑎𝑛 𝑌 𝑆𝑆 𝑑𝑒𝑣𝑖𝑎𝑠𝑖 𝑇𝑜𝑡𝑎𝑙 𝑢𝑛𝑡𝑢𝑘 𝑍 2 2 = 1 − 1 − 𝑟𝑍𝑋 1 − 𝑟𝑍𝑌 𝑋
= 1 − 1 − 0.3
2
1 − 0.55
2
= 0.36
𝑅𝑍 𝑋𝑌 = 0.6 = 𝑟𝑌𝑍 = 𝑟𝑍𝑌 Ini artinya ramalan Y dan X untuk Z tak lebuh baik dari hanya oleh ramalan Y saja untuk Z . Diagram sebab-akibat nya : 𝑌 𝑝𝑒𝑛𝑑𝑎𝑝𝑎𝑡𝑎𝑛 → 𝑍 𝑠𝑖𝑘𝑎𝑝 .
Bentuk Geometrik dan Model Regresi Liniir Liniir artinya garis lurus dan bidang datar . Sebuah model regresi liniir pabila fungsinya liniiir dalam koeifisien regresinya (parameter) a,b,c,… Model Regresi Liniir dalam Koeifisien (1) 𝑋 = 𝑎 + 𝑏𝑌 + 𝑐𝑍 , bentuk bidang datar , liniir dalam Y dan Z (2) 𝑋 = 𝑎 + 𝑏𝑌 2 , liniir dalam koefisien a dan b, bentuk parabola.
271
10.4
Koeifisien Peringkat Parsil
Ukuran 𝜏 Kendall dpat digunakan untuk untuk korelasi parsil 2 peubah ordinal , peubah ke-3 tetap . Korelasi Spearman tidak digunakan untuk parsil. Koeifisien korelasi peringkat parsil
𝜏𝑋𝑌 𝑍 , ukuran korelasi antara X
dengan Y dan Z tetap .
𝜏𝑋𝑌 𝑍 =
𝜏𝑋𝑌 =
𝜏 𝑋𝑌 −𝜏 𝑋𝑍 𝜏 𝑌𝑍 2 1−𝜏 𝑋𝑍
𝑃𝑋𝑌 −𝑄𝑋𝑌 𝑁
2 1−𝜏 𝑌𝑍
, 𝜏𝑋𝑌 =
1
𝑁 = 𝑛 𝑛 − 1 , banyaknya pasangan 2
𝑃𝑋𝑍 −𝑄𝑋𝑍 𝑁
𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗
𝑃𝑌𝑍 −𝑄𝑌𝑍
, 𝜏𝑌𝑍 =
𝑁
yang dibandingkan ;
𝑃𝑋𝑌 banyak pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑥𝑗 , 𝑦𝑗 selaras;𝑄𝑋𝑌 pasangan tak selaras . Pabila ada pengamatan yang sama untuk X , Y atau Z , rumus di atas jadi
𝜏𝑏,𝑋𝑌 𝑍 =
𝜏 b ,𝑋𝑌 −𝜏 b ,𝑋𝑍 𝜏 𝑏,𝑌𝑍 1−𝜏 b2 ,𝑋𝑍
2 1−𝜏 𝑏,𝑌𝑍
di sini
𝜏b,𝑋𝑌 = 𝜏b,𝑌𝑍 =
𝑃𝑋𝑌 −𝑄𝑋𝑌 𝑁−𝑇𝑋 𝑁−𝑇𝑌
, 𝜏b,𝑋𝑌 =
𝑃𝑋𝑍 −𝑄𝑋𝑍 𝑁−𝑇𝑋 𝑁−𝑇𝑍
,
𝑃𝑌𝑍 −𝑄𝑌𝑍 𝑁−𝑇𝑌 𝑁−𝑇𝑍
𝑇𝑋 banyaknya 𝑥𝑖 = 𝑥𝑗 dalam pembandingan
𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 .
𝜏𝑋𝑌 𝑍 , digunakan untuk analisis sebab-akibat , khusunya meneliti apa kah sebuah korelasi antara 2 peubah , khayal ? Pabila 𝜏𝑋𝑌 𝑍 = 0.02 𝑑𝑎𝑛 𝜏𝑋𝑌 = 0.32 , korelasi peringkat antara X dan Y , khayal, kerena Z-lah yang menyebabkan korelasi antara X dan Y .
272
X Z
atau
X
Z
Y
Y
REYNOLDS, analisis sebab-akibat dengan korelasi pringkat parsil boleh digunakan untuk peubah sakala interval, minimal ada 5 kelas(nilai) untuk tiap peubah . Jadi untuk 𝑥1 , 𝑥2 , 𝑥3 , 𝑥4 , 𝑥5 𝑏𝑒𝑟𝑙𝑎𝑘𝑢 𝑥1 < 𝑥2 < 𝑥3 < 𝑥4 < 𝑥5 . Namun nilai 𝜏𝑋𝑌 𝑍 dapat digunakan untuk 3 peubah ordinal atau lebih . Ini harus digunakan hati-hati untuk n kecil .
Korelasi Peringkat Parsil atas Dasar kesepadanan (matching) Adanya kemiripan antara 𝜏𝑋𝑌 𝑍 dengan koeifisien korelasi parsil 𝑟𝑋𝑌 𝑍 menjadi penting menggunakan 𝜏𝑋𝑌 𝑍 dan bukan peringkat lain dalam menganalisis peubah ordinal. QUADE, definisi peringkat parsil atas dasar kesepadanan (matching) ,mungkin bermanfaat , ditulis 𝜏m ,𝑋𝑌 𝑍 . Dua amatan 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 disebut pasangan sepadan (matched pair) relatif terhadap peubah Z , pabila, 𝑧𝑖 kurang lebih sama dengan 𝑧𝑗 . Apakah 𝑧𝑖 ≈ 𝑧𝑗 atau tidak, yang menentukan sebuah aturan tertentu dan tepat. Andailah , peubah Z sikap pada sebuah soal , diukur pada skala ordinal 0 s/d 100 . Amatan 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 𝑑𝑎𝑛 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 diasumsikan sepadan relatif terhadap Z , pabila ibaratnya , beda antara 𝑧𝑖 𝑑𝑎𝑛 𝑧𝑗 ≤ 5: −5 ≤ 𝑧𝑖 − 𝑧𝑗 ≤ 5
273
Amatan
3,7,24 , 13, −5,28
sepadan .
1
Andailah di antara 𝑁 = 𝑛 𝑛 − 1 pasangan 2
𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 ada
𝑀𝑍 pasangan yang diasumsikan sepadan relatif terhadap peubah Z . Didefinisikan 𝑃𝑚 ,𝑋𝑌 dan 𝑄𝑚 ,𝑋𝑌 sbb. : 𝑃𝑚 ,𝑋𝑌 = 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 𝑥𝑗 > 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 > 𝑦𝑖 𝑎𝑡𝑎𝑢 𝑥𝑗 < 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 < 𝑦𝑖 di anta ra 𝑀𝑍 pasangan sepadan relatif terhadap Z = 𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑋 𝑑𝑎𝑛 𝑌 𝑠𝑒𝑙𝑎𝑟𝑎𝑠 𝑑𝑖 𝑎𝑛𝑡𝑎𝑟𝑎 𝑀𝑍 pasangan sepadan . 𝑄𝑚 ,𝑋𝑌 = 𝑏𝑒𝑟𝑎𝑝𝑎 𝑘𝑎𝑙𝑖 𝑥𝑗 > 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 < 𝑦𝑖 𝑎𝑡𝑎𝑢 𝑥𝑗 < 𝑥𝑖 𝑑𝑎𝑛 𝑦𝑗 > 𝑦𝑖 di anta ra 𝑀𝑍 pasangan sepadan relatif terhadap Z = 𝑏𝑎𝑛𝑦𝑎𝑘𝑛𝑦𝑎 𝑋 𝑑𝑎𝑛 𝑌 tak 𝑠𝑒𝑙𝑎𝑟𝑎𝑠 𝑑𝑖 𝑎𝑛𝑡𝑎𝑟𝑎 𝑀𝑍 pasangan sepadan
Selanjutbya didefinisikan 𝜏m,𝑋𝑌 𝑍 sbb. : 𝜏m,𝑋𝑌 𝑍 =
𝑃𝑚,𝑋𝑌 −𝑄𝑚,𝑋𝑌 𝑀𝑍
Ukuran ini merupakan selisih antara proporsi pasngan selaras dan proporsi pasangan tak selaras
𝑄𝑚 ,𝑋𝑌 𝑀𝑍
di antara 𝑀𝑍
𝑃 𝑚 ,𝑋𝑌 𝑀𝑍
pasangan sepadan
relatif terhadap peubah Z . Ukuran 𝜏m,𝑋𝑌 𝑍 dianggap rerata nilai 𝜏𝑋𝑌 (𝑍 = 𝑧1 ) ,𝜏𝑋𝑌 𝑍 = 𝑧2 , … , 𝜏𝑋𝑌 (𝑍 = 𝑧𝑘 ) . Definisi digeneralisasi untuk lebih satu peubah Z pada ukuran 𝜏m,𝑋𝑌 𝑍 1 ,𝑍 2 ,… ,𝑍(𝑘) di mana pasangan 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 1 , 𝑧𝑖 1 , … 𝑧𝑖 𝑘 , 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 1 , 𝑧𝑗 1 , … 𝑧𝑗 𝑘 Disepadankan relatif terhadap peubah 𝑍 1
𝑠 𝑑
𝑝𝑒𝑢𝑏𝑎 𝑍 𝑘 .
274
Contoh Perhitungan Koeifisian Korelasi Peringkat Parsil Metode kesepadanan No Res pon den
U mur
Ke terli batan da lam masa lah po litik
Je nis kela min
Pen dapat an tahun an
𝒊 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
𝑋 1 2 2 5 3 3 4 3 1 4 5 2 4 3
𝑌 2 10 6 8 7 10 9 5 6 9 1 4 12 3 2 4 9 5 5 6 7 3 4 7 6
𝑍 1 1 1 1
𝑈 85 92 93 96 100 102 103 109 115 118 120 123 128 83 86 98 99 105 106 111 114 121 131 135 140
4 3 2 1 3 5 3 3 3 5 4
1 1 1 1 1 1 1 1 1 w w w w w w w w w w w w
Per hitu ngan 𝜏𝑋𝑌
𝐹𝑖 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
Per hitu ngan 𝜏𝑚 ,𝑋𝑌 𝑍
𝐺𝑖
+19 −13 +1 +8 +1 −2 +7 +2 −3 +5 −12 +2 +6 0 −5 +1 −6 +2 +3 +1 −1 +2 +2 +1 0
𝐹𝑖 12 11 10 9 8 7 6 5 4 3 2 1 0 11 10 9 8 7 6 5 4 3 2 1 0
𝐺𝑖
19 −4 +4 0 +4 0 +2 +1 0 0 −2 +1 0 0 −5 +1 −6 +2 +3 +1 −1 +2 +2 +1 0
Per hitu ngan 𝜏𝑚 ,𝑋𝑌 𝑍 𝑈
𝐹𝑖 2 4 4 3 3 2 1 2 3 3 2 1 0 1 0 3 2 3 2 2 1 1 2 1 0
𝐺𝑖
+2 −2 +4 −1 +1 −1 +1 0 −1 0 −2 +1 0 −1 0 −2 0 +2 +1 0 0 0 +2 +1 0
275
300
21
144
15
48
5
Definisi peubah : Peubah X = umur, diukur dalam 5 kelas ; Peubah Y = perasaaan responden tentang keterlibatan diri dalam masa lah –masalah politik , yang diukur pada skala dari 0 s/d 100 peubah Z = jenis kelamin ; peubah U = pendapatan tahunan dalam ribuan rupiah . Andailah ukuran 𝜏m,𝑋𝑌 𝑍 𝑈 dihitung , ukuran korelasi peringkat parsil sepadan relatif terhadap Z dan U . Dua amatan 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑢𝑖 𝑑𝑎𝑛 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 , 𝑢𝑗 dikatakan sepadan relatif terhadap peubah Z (jenis kelamin) pabila 𝑧𝑖 = 𝑧𝑗 . Andailah amatan tersebut dianggap sepadan relatif terhadap U (pendapatan tahunan) pabila selisih antara 𝑢𝑖 dan 𝑢𝑗 tak lebih dari 10 (dalam ribu Rp) . Andailah 𝐹𝑖 didefinisikan sebagai berapa kali 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑢𝑖 sepadan dengan amatan 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 , 𝑢𝑗 untuk 𝑗 > 𝑖 . Dengan demikian 𝑀=
𝑛 𝑖=1 𝐹𝑖
menyatakan banyak pasangan
𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑢𝑖 , 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 , 𝑢𝑗
sepadan di
1
antara sejumlah 𝑁 = 𝑛 𝑛 − 1 pasangan dalam data . 2
Andailah pula 𝐺𝑖 didefinisikan sebagai banyaknya X yang selaras dengan Y (artimya 𝑥𝑖 > 𝑥𝑗 dan 𝑦𝑖 > 𝑦𝑗 atau 𝑥𝑖 < 𝑥𝑗 dan 𝑦𝑖 < 𝑦𝑗 ) dikurangi dengan banyaknya X yang tidak selaras dengan Y (artimya 𝑥𝑖 < 𝑥𝑗 dan 𝑦𝑖 > 𝑦𝑗 atau 𝑥𝑖 > 𝑥𝑗 dan 𝑦𝑖 < 𝑦𝑗 ) di antara 𝐹𝑖 perbandingan 𝑥𝑖 , 𝑦𝑖 , 𝑧𝑖 , 𝑢𝑖 dengan amatan sepadan 𝑥𝑗 , 𝑦𝑗 , 𝑧𝑗 , 𝑢𝑗 jika 𝑗 > 𝑖 . Demikianlah ,
𝑃𝑚 ,𝑋𝑌 − 𝑄𝑚 ,𝑋𝑌 =
𝑛 𝑖=1 𝐺𝑖
yaitu berapa kali X selaras dengan Y dikurangi dengan berapa kali X tidak tidak selaras dengan Y di antara M pasangan sepadan .
276
Dalam baris akhir Tabel dicantumkan nilai 𝑃 − 𝑄 dan nilai M untuk perhitungan 𝜏𝑋𝑌 , 𝜏m,𝑋𝑌 𝑍 𝑑𝑎𝑛 𝜏m,𝑋𝑌 𝑍 𝑈 . Nilai-nilai ini merupakan jumlah bilangan dalam kolom bersangkutan . Diperoleh , 𝜏𝑋𝑌 =
21 300
= 0.07 ; 𝜏m,𝑋𝑌 𝑍 =
𝜏m,𝑋𝑌 𝑍 𝑈 =
10.5
5 48
15 144
= 0.104 ;
= 0.104
Pembuatan Skala Berdimensi Berganda
Analisis pasal 10 dapat digunakan untuk puluhan peubah , tapi metodenya gak ada yang mampu dan efisien , karena membutuhkan puluhan Tabel silang . Pembuatan tabel dapat dilakukan dengan computer . Dalam ilmu sosial bersifat : (1) Umumnya peubahnya banyak sekali ( 50 atau lebih ) (2) Peubah tersebut diukur pada skala nominal (klasifikasi saja) atau skala ordinal . Sampai tahun 1960 , metode berdimensi berganda , didasarkan pada anggapan bahwa peubah diukur pada skala interval atau rasio, dan anggapan peubah berdistribusi normal , itulah lemahnya riset klasik . Berapa metode klasik itu : analisis jalur, korelasi kanonik, analisis variansi (ANOVA) , analisis kovariansi, analisis faktor , dan analisis diskriminasi . Sejak 1960, TORGERSON ,membuat skala berdimensi berganda ; KRUSKAL mencari metode berdimensi berganda untuk peubah skala ordinal . Sejak 1970 , DE LEEUW , TAKANE , YOUNG, VAN de GEER , dikem bangkan skala nominal. Tahun 1990 , muncul SPSS CATEGORIES .
277
Contoh Riset di pusat seni TIM Jakarta , dilakukan Wim van Zanten . Responden dimintak, a.l. memilih 3 jenis kesenian paling disenangi di antara 10 jenis yang ada : M1 M2 M3 M4 M5
teater tradisional teater modern musik tradisional musik klasik melukis/seni rupa
M6 M7 M8 M9 M10
tari tradisional tari modern musik pop film penulisan sastra
Kemudian, 10 jenis kesenian itu dianggap 10 peubah dengan 2 nilai : „dipilih‟ dan „tak dipilih‟ . Untuk masing-masing 205 responden diperoleh data tentang 10 peubah nominal . Dalam riset dicari striktur dalam pilihan responden : pilihan dilakukan menurut prinsip yang mana , atau faktor mana yang menentukan pilihan ? Faktor-faktor ini adalah peubah yang tak dapat diamati langsunbg (unobserved) . Analisis dilakukan di Universitas Leiden Belanda , dengan program computer HOMALS 2 . Kali pertama, dalam program HOMALS 2 , dihitung sebuah matriks asosiasi , yang mengukur kuatnya asosiasi antara 10 peubah tersebut . Hasilnya dengan ukuran C Crammer sbb. :
𝑴𝟏 𝑴𝟐 𝑴𝟑 𝑴𝟒 𝑴𝟓 𝑴𝟔 𝑴𝟕 𝑴𝟖 𝑴𝟗 𝑴𝟏𝟎
𝑴𝟏
𝑴𝟐
𝑴𝟏𝟑
𝑴𝟒
𝑴𝟓
𝑴𝟔
𝑴𝟕
𝑴𝟖
0.13 0.13 0.2 0.17 0.13 0.09 0.11 0.28 0.15
0.2 0.09 0.08 0.23 0.15 0.19 0.04 0.17
0 0 0.04 0.07 0.21 0.26 0.17
0 0.07 0.09 0.27 0.12 0.1
0.13 0.07 0.08 0.11 0.14
0.03 0.15 0.21 0.25
0 0.09 0.11
0.12 0.12
𝑴𝟗
0
278
Pabila 𝐶 𝑀𝑖, 𝑀𝑗 relatif bernilai besar, artinya berlaku satu dari yang 2 ini : (1) Seorang responden yang memilih jenis kesenian i secara relatif seringkali juga memilih jenis kesenian j , hubungan ini dapat disebut hubungan positif (2) Seorang responden yang memilih jenis kesenian i , secara relatif seringkali tidak memilih jenis kesenian j ; atau menghindari pilihan jenis kesenian j ; hubungan ini disebut hubungan negatif . Sidtuasi kedua, misalnya diwakili 𝑀1 𝑡𝑒𝑡𝑎𝑒𝑟 𝑡𝑟𝑎𝑑𝑖𝑠𝑖𝑜𝑛𝑎𝑙 × 𝑀9 𝑓𝑖𝑙𝑚 . Situasi pertama, misalnya diwakili 𝑀2 𝑡𝑒𝑡𝑎𝑒𝑟 𝑚𝑜𝑑𝑒𝑟𝑛 × 𝑀10 𝑝𝑒𝑛𝑢𝑙𝑖𝑠𝑎𝑛 𝑠𝑎𝑠𝑟𝑎 . Kedua tabel silang ini disajikan di bawah ini 0 = 𝑡𝑎𝑘 𝑑𝑖𝑝𝑖𝑙𝑖 ; 1 = 𝑑𝑖𝑝𝑖𝑙𝑖 𝑴𝟏
𝑴𝟗 0
1
0
73 (51%)
71 (49%)
144
1
49 (80%) 122 (60%)
12 (20%) 83 (40%)
61 205
𝐶 = 0.28 Hubungan negatif
𝑴𝟐
𝑴𝟏𝟎 0
1
0
97 (85%)
17 (15%)
114
1
65 (71%) 162 (79%)
26 (29%) 43 (21%)
91 205
𝐶 = 0.17
279
Hubungan positif YULE ,sebuah matriks asosiasi dengan ukuran 𝑌 𝑀𝑖, 𝑀𝑗 lebih cocok untuk analisis sederhana . Dengan program HOMALS 2 dicari struktur geometric 10 peubah tersebut menurut sebuah proses tertentu , yaitu principal component analysis Untuk peubah nominal, (ordinal, atau interval) yang sebelumnya dikuantifikasi , sbb. : (1) Tiap jenis kesenian Mi akan digambarkan dalam satu gambar (struktur geometric dimensi 3 (boleh dimensi 2) (2) Pabila secara relatis seringkali terjadi bahwa seorang responden memilih Mi bersama Mj, maka titik untuk Mi dan titik untuk Mj terletak dekat satu sama lain . Jadi, hubungan positif antara Mi dan Mj menghasilkan jarak kecil antara Mi dan Mj dalam gambar; dan (3) Pabila secara relatif seringkali terjadi bahwa seorang responden yang memilih Mi tidak memilih Mj, maka titik yang mewakili Mi dan titik yang mewakili Mj terletak jauh satu sama lain . Jadi , hubungan negatif antara Mi dan Mj menghasilkan jarak besar antara Mi dan Mj dalam gambar . Dengan program diperoleh sebuah gambar dimensi 3 . Posisi tiap Mi dicirikan dengan 3 koordinat 𝑚𝑖1 , 𝑚𝑖2 , 𝑚𝑖3 . Ketiga sumbu disebut faktor atau peubah yang tidak langsung teramati . Ini artinya , 2 peubah “dekat” satu sama lain , pabila 2 titik dekat sistem sb.1 –sb.2 dan dekat sistem sb.1-sb.3 .
280
a.
Gambar Dimensi 3 M3 M6 M1
M4
Sb.3
M5 M2
M7
M10 M9
M8 Sb.1
Sb.2
Sb.3
M1
M4 M5
Sumbu 1 – Sumbu -2
b.
M6
M7
Sb.1 Sb.2 M10 M1
M2
M2 M10
M6 M3
Sb.1 M9
M4
M8 M9
M8
Stuktur geometric 10 peubah
M7
M5
281
Ada 3 himpunan , terdiri dari 2 jenis kesenian yang dapat dianggap “dekat” : 𝑀10 𝑝𝑒𝑛𝑢𝑙𝑖𝑠𝑎𝑛 𝑠𝑎𝑠𝑡𝑟𝑎 , 𝑀2 𝑡𝑒𝑡𝑎𝑡𝑒𝑟 𝑚𝑜𝑑𝑒𝑟𝑛 𝑀4 𝑚𝑢𝑠𝑖𝑘 𝑘𝑙𝑎𝑠𝑖𝑘 , 𝑀5 𝑚𝑒𝑙𝑢𝑘𝑖𝑠 dan 𝑀1 𝑡𝑒𝑎𝑡𝑒𝑟 𝑡𝑟𝑎𝑑𝑖𝑠𝑖𝑜𝑛𝑎𝑙 , 𝑀6 𝑡𝑎𝑟𝑖 𝑡𝑟𝑎𝑑𝑖𝑠𝑖𝑜𝑛𝑎𝑙 Sebuah acara kesenian dapat mempunyai beberapa sifat . Responden juga diminta memilih 3 dari 11 sifat yang paling menarik : S1 mengandung pendidikan anak-anak , berisi teladan-teladan S2 mengandung hal-hal yang bersifat politik S3 biaya penyelenggaraan nya murah S4 mengandung hal-hal yang melanggar tata susila S5 mengandung kritik pada hal-hal tak adil S6 bermutu tinggi S7 dapat dimengerti oleh banyak orang S8 mempunyai hubung dengan nilai-nilai tradisional S9 mencerminkan kehidupan sehari-hari S10 mempunyai ciri kepribadian nasional S11 menampilkan bentuk-bentuk baru . Sb.2 S6 S3
S11 S8
S1 S5
Sb.1 S10 S9 S7
S2
282
S10
Sb.3
S5
S1 S7
S11 Sb.1
S9 S6 S8 S3 S2
Struktur geometrik 10 sifat
Sb.2
M3 S8
S11
M4
S6
S3 M1
M2 S2
M6
M5
S5
Sb.1
M10 S1 M7 S7 S10
S9 Struktur geometrik 10 peubah bersama 10 sifat
M9 M8
283
M6
S10
S8 M1
Sb.3
M3 M7
S1
M8 S11
S7
S6
Sb.1
M2 M10 S5
M9
S9
S2 M4
S3 M5
Sifat S4 ( hal yang melanggar tata susila) hanya dipilih 3 dari 205 kali dan kerenanya itu dikeluarkan analisis ini. Berkaitan dengan ini dikatakan bahwa kelompok responden ini homogen relatif terhadap peubah S4 ini, atau S4 hampir tak membedakan (discriminate) antara responden –responden . Untuk 10 sifat yang lain juga dibuat gambar geometrik 3 dimensi dengan computer HOMALS 2 . Hasil analisis nya disajikan dalam gambar 2 dimensi , spt di atas. Di atas , tak terdapat struktur yang jelas , hanya S8 (nilai tradisional) dan S3 (biaya penyelenggaraannya murah) merupakan 2 titik yang “dekat” . Tapi , lenih baik menarik atu menggabungkan 10 peubah jenis kesenian dan 10 peubah sifat acara , dan kemudian melakukan analisis yang sama. Hasilnya seperti gambar di atas .
284
Dari analisis ini diperoleh berapa himpunan yang terdiri dari berapa jenis kesenian dan sifat acara , misdalnya ( penggolongn yang agak sembarang ; untuk informasi lebih teliti , liat gambar ) A.
B. C.
Teater modern (M2) , penulisan sastra (M10) , dan acara yang mengandung hal yang bersifat politik (S2) , mengandung kritik atas hal yang tidak adil (S5) , menampilkan bentuk-bentuk baru (S11); Music pop (M8) , film (M9) dan acara yang mencerminkan kehidupan sehari-hari (S9) ; Teater tradisional (M11) , tari tradisional (M6) dan acara yang mempunyai hubungan kuat dengan nilai tradisional (S8) .
Kadangkala dalam struktur geometrik itu terdapat satu sumbu yang dapat dianggap peubah yang tidak (langsung) teramati (unobservasi ) atau faktor . Di gambar atas , sumbu 3 dapat disebut faktor “kepribadian nasional “ dan sumbu 1 disebut faktor “keterlibatan dalam politik” dari kiri (ya) ke kanan (tidak) . SPSS mempunyaimkemampuan yang sama dengan HOMALS 2.
285
MISCELENAOUS PROBLEM Riset profesi Pendidikan : Ingin dilihat perbedaan hasil belajar siswa dengan pemberian Meto de Belajar Diskusi dan sebelum diberi metode diskusi . Riset profesi Manajemen SDM (Sumber Daya Manusia) : Ingin diteliti perbedaan kinerja pegawai dengan 3 pendekatan sistem MSDM mekanis, pathernal , dan sosial . Riset Akuntansi
:
Ingin dilihat Kinerja Keuangan Kota Medan , dengan peubah PAD (pendapatan Asli Daerah) dan PDRB (Produk Domestik Regional Bruto) Riset profesi Kedokteran : Ingin dilihat pengaruh pemberian obat Antalgin terhadap penderita Diabetes di Kecamatan Medan Sunggal . Riset Pertanian : Ingin dilihat pertumbuhan Padi dengan perlakuan pemberian pupuk TSP di Desa Marihat Sionggang, Kecamatan Panribuan, Kab.Simalungun . Riset profesi Agama : Ingin dilihat minat mahsiswa menjadi Sarjana Theologi dilihat dari Latar belakang Keluarga (Status Sosial ) . Riset Sosiologi : Ingin dilihat , apa penyebab perkawinan yang membawa pasangan perkawainan menjadi pangangguran sepanjang masa (tak punya status sosial )?
286
DAFTARBUKU
Cooper.Emory.1998.Metode Penelitian Bisnis.Jilid 1 &2.Erlangga Jakarta. Nazir.1988.Metode Penelitian.Ghalia Indonesia.Jakarta. Sarwono,J.2007.Analisis Jalur untuk Riset Bisnis dengan SPSS.Andi. Yogya yakarta Wijaya .2001.Statistika Non Parametrik (Aplikasi Program SPSS).Alfabeta. Cirebon . Wim van Zanten .1994.Stastika untuk Ilmu-ilmu Sosial.Gramedia.Jakarta.
287
LAMPIRAN 1 : MATRIKS DATA
Dengan matris data di bawah ini dikumpulkan data mengenai enam peubah yang diukur pada 100 responden . Berikut kode sebuah penelitian fiktif : Kolom
Peubah
1 dan 2 3 dan 4
No responden Umur
5
Tempat lahir
6
Agama
7,8,dan 9
Pendapatan tahunan
10
Tertarik politik atau nggak
11
Keterlibatan politik
Kode
Arti
Kedua kolom ini Menunjukkan umur (dalam ta hun) dari tiap res ponden 1 2 3 4 5 6 1 2 3 4 5
1
Jawa/ Madura Sumatera Kalimantan Sulawesi Pulau-pulau lain Gak tau Islam Budha/Hindu Protestan Katolik Lain-lain atau gak tau Ketiga kolom ini menunjukkan pendapatan tahunan (ribu rupiah) per responden Sedikit atau gak ada sama kali
2
lumayan
3 1
besar kale Menjauhi politik uang
288
2
Biasa aja atau netral
3
Terlibat politik
289
LAMPIRAN
290
291
Lampiran
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
CURICULUMVITAE
Identitas
Pendidikan
: Nama Lahir
: 1. 2. 3. 4. 5. 6.
: Sopar M.H. : 19 Pebruari 1967 di Balik Papan , Kalimantan Timur.
SD NEGERI 060922 TANJUNG REJO SMP BUDI BERSUBSIDI SUNGGAL , MEDAN SMPP NEGERI 24 , MEDAN SUNGGAL /IPA /TAMAT 1986 IKIP NEGERI MEDAN /SARJANA PENDIDIKAN MATEMATIKA/ TAMAT 1991 UNSYIAH BANDA ACEH /MAGISTER SAINS EKONOMI / TAMAT 2005 UNPAD BANDUNG / PROGRAM DOKTOR SAINS EKONOMI / MASUK 2005
Pekerjaan
: Dosen PNS KOOPERTIS WIL. I SUMUT Pengalaman yang Pernah Diemban : 1. Dosen MATEMATIKA ASTRONOMI , MATEMATIKA TEHNIK , MATEMATIKA EKONOMI Akademi Maritim Belawan (AMB) ,Medan , Tahun 2001 – 20 05. 2. Dosen MATEMATIKA EKONOMI , EKONOMIMIKRO , EKONOMI MAKRO di Universitas HKBP NOMMENSEN , UHN Medan , 2012 – sekarang . Jabatan : Sekretaris PPL (Program Pengalaman Lapangan ) FKIP HKBP NOMMENSEN MEDAN . Riset : Simulasi Gauss Seidel- Reformasi Pajak Indonesia .2003. Computable General Equilibrium.Pemanasan Global Indonesia.2005. Crowding OutMakroekonometrik Karo .2014. Sopar M.H.
346
347