8ab II StatistikDeskriptip
KAT A KUNCI Diagram Frekuensi yaitu diagram batang yang menggambarkan banyaknya observasi dari setiap kategori. Mean yaitu suatu nilai yang didapat dari penjumlahan semua nilai pengamatan dibagi dengan jumlah pengamatan (sama dengan rata-rata). Median merupakan nilai tengah dari suatu deretan angka yang teratur baik dari atas maupun dari bawah. Deviasi Standar adalah akar pangkat dua dari varian. Varian merupakan ukuran penyimpangan dari suatu rangkaian pengamatan. Simbol dari
varian adalah (J2 (sigma kuadrat). PENGGUNAANNILAI SENTRAL: MEAN,MEDIAN,MODUS Jika anda dihadapkan pada sejumlah data yang cukup banyak, maka akan sulit untuk mengerti data itujika tidak meringkasnya. Misalnya anda sedang mengurus penjualan pizza, dan anda hams mengikuti pola penjualan harian beberapa jenis piza yang berlainan. Anggaplah anda telah melakukan observasi dan memperoleh informasi penjualan harian pizza peperoni selama 9 hari: 40
56
38
63
59
52
49
46
MEAN Deretan informasi di atas disebut data kasar (raw data). Dari data kasar tersebut dapat dihitung nilai rata-ratanya. Untuk menghitung nilai rata-rata kita hanya menjumlahkan seluruh nilai observasi dibagi dengan jumlah observasi. Nilai rata-rata disebut juga mean. Nilai rata-rata dapat dihitung sebagai berikut: 40 + 36 + 38 + 63 + 59 + 52 + 49 + 46
441 --
9
=49.0
9
5 - -
-
- - -
Jadi nilai rata-rata atau mean dari penjualan pizza pepperoni adalah 49 per hari. Kita dapat menurunkan fonnula dari mean atau rata-rata. Anggaplah n sebagai jumlah observasi, misalnya Xl' X2'...,Xn.Angka di bawah dan di samping X disebut subscript. Kita menggunakan lambang X (X bar) sebagai simbul rata-rata. Fonnuasli itu dapat ditulis:
X= n Rata-rata adalah salah satu contoh dari statistik. Kitapun dapat menghemat penulisan fonnula rata-rata yaitu dengan menggunakan notasi penjumlahan. Untuk notasi penjumlahan kita menggunakan huruf besar Yunani sigma: W.Wx berarti "menjumlahkan seluruh nilai X". Rata-rata dapat ditulis sebagai berikut: X
= (WX)/n
Kadang-kadang lambang penjumlahan ditulis sebagai berikut: n
~=x. ":"j
I
1
Arti dari penulisan ini adalah kita mulai menjumlahkan nilai X dari i=i sampai i=n.
MEDIAN Median adalah titik tengah dari deretan data yang telah diurutkan. Untuk menghitung median kita harns meletakkan data dalam suatu aturan/urutan dari yang terbesar ke yang terkecil atau sebaliknya. Di bawah ini adalah contoh deretan angka dari infonnasi penjualan harian pizza pepperoni: 1.
2. 3. 4. 5.
63 59 56 49 49
6. 46 7. 40 8. 38 9. 38
Dari urutan ini nilai median adalah 49(jika daftar data terlalu panjang, dapat menggunakan komputer untuk membuat urutan tersebut. Urutan tidak hanya dari atas ke bawah tapi bisa jua sebaliknya).
6
Jika jumlah observasi merupakan angka yang ganjil akan mudah untuk mendapatkan satu nilai tengah. Bagaimana bila jumlah observasi menunjukkan angka yang genap? Anggaplah kita mempunyai delapan data observasi penjualan harian pizza Mushroom: 1. 2. 3. 4.
53 52 49 48
5. 6. 7. 8.
47 46 44 41
Kita telah menempatkan data dalarn suatu uruan yang teratur, narnun di sini kita tidak menemukan satu nilai tengtah. Dalarn hal ini nilai median sarna dengan nilai antara dua angka yang terletak paling dekat dengan bagian tengah. Dalarn soal ini dua angka yang paling dekat dengan bagian tengah adalah 47 dan 48 (nilai keempat dan kelima), dengan demikian median adalah nilai yang berada di tengah nilai 47 dan 48 atau 47.5. Andajuga dapat menemukan median dengan mencari rata-ratanilai duaangka yang berada paling dekat dengan bagian tengah itu yaitu: 47.5
= (47 + 48)/2
Sepertijuga rata-rata medianjuga merupakan ukuran nilai sentral dari sebuah distribusi. Kadang-kadang median lebih baik dalarn mengukur nilai sentral daripada mean. Misalnya, informasi penjualan harian bacon/pineappple pizza selama 9 hari adalah sebagai berikut: 36
35
37
29
36
340
35
36
Dari informasi tersebut dapat dilihat bahwa ada satu hari pengiriman pizza yang banyak. Jika nilai sentral dihitung dengan menggunakan nilai rata-rata (mean) hasilnya:
623
= 69.22 4 Dari hasil tersebut dapat kita lihat ternyata tidak satupun dari kenyataan yang mendekati angka 69.22. Bagaimana bila kita menggunakan median? Langkah pertarna adalahmenyusun informasi itu secara teratur: 1. 2. 3. 4. 5.
340 39 37 36 36
6. 7. 8. 9.
36 35 35 29
kemudian tentukan mediannya. Lihatlah bahwa pengukuran nilai sentral dengan median dalarn hal ini lebihbanyak daripada mean karena lebih mewakili nilai sebenarnya yang terjadi setiap hari. 7
--
Secara umum bila dalam suatu deretan nilai terdapat nilai ekstrim (jauh di atas atau di bawah nilai-nilai yang lain), rata-rata tidak dapat mewakili seluruh niiai yang ada pada deretan tersebut. Dalam hal ini median menjadi ukuran bila nilai sentral yang lebih baik dari median.
MODUS Modul adalah nilai yang paling seringterjadi. Jika ada nilai yang muncul berkali-kalidan frekuensinya paling banyak, maka nilai itu disebut modus. Untuk penjualan pepperoni nilai modusnya adalah 38, karena angka 38 terjadi dua kali sementara nilai yang lain hanya muncul tidak lebih dari satu kali saja. Untuk penjualan bacon/pineapple sebagai modul adalah 36, karena 36 muncul tiga kali. Untuk penjualan mushroom pizza tidak ada nilai modusnya karena tidak ada satupun nilai yang terjadi lebih dari satu kali. Banyakjuga muncul distribusi yang menghasilkan bentuk simetris dimana nilai mean, median dan modus berada di tengah, di tempat yang sarna, tetapi adajuga distribusi yang mempunyai nilai modus lebih dari satu. Distribusi yang mempunyai dua modus disebut diomodal distribution. YANG HARDS DIINGA T 1.
Notasi penjumlahan: hurns besar Yunani sigma, W, berarti "Jumlahkan semua nilai."
n Misalnya : L. XI=Xl + X2 + i=l 2.
...+ Xn
Pengukuran nilai sentral: n
mean (rata-rata)
=X =
X.I
=L.
n
;; I
n
median: bila angka-angka sudah diatur dalam suatu susunan yang teratur yaitu dari yang terbesar ke yang terkecil atau sebaliknya, nilai median adalah nilai yang berada persis di tengah deretan angka tersebut. modus: nilai dalarn suatu deretan yang frekuensi terjadinya paling banyak.
PENGUKURANPENYIMPANGAN:VARIANDAN DEVIASISTANDAR Akan sangat membantu bila kita juga mempunyai jalan untuk mengukur penjualan harian yang tidak dapat diperkirakan. Kita akan menggunakan simpangan atau bentangan untuk menunjukkan tingkat penyebaran dari nilai rata-ratanya. Jika total penjualan pizza sudah pasti setiap harinya, maka tidak ada simpangan/bentangan. Disisi lain jika anda menjua1400 pizza dalam setengah waktu dan 'nol pizza (tidak menjual satu pizza pun) pada setengah waktu yang lain maka nilai rata-ratanya adalah sarna yaitu 400 tetapi tingkat simpangannya besar. Salah satu jalan untuk mengukur simpangan secara mudah adalah mencari perbedaan antara niali tertinggi dengan nilai terkecil / terendah. Cara ini disebut
8
._-range (jangkauan). Range penjualan pepperoni adalah: 6-38=25. Untuk bacon/pineaplle jangkaunnya adalah 340-29=311. Range rnenggambarkan bentangan antara nilai tertinggi dengan nilai terendah, tetapi tidak tepat untuk rnengukur bentangan keseluruhan distribusi. Range tidak rnernberikaninformasi apapun. Selain nilai tertinggi dan nilai terendah. Berikut ini adalah deretan angka yang rnernpunyai range (jangkauan) sarna. a
b
500 250 250 250 250 0
500 490 480 20 10 0
tetapi tampak jelas bahwa penyebaran keseluruhan dari deret b lebih besar dari penyebaran
deret a. Ada satu rnasalah dalam range yang rnernpunyai pengaruh besar dengan adanya nilai yang sangat besar atau sangat keci!. Pernecahan rnasalah tersebut dengan interquaritle range (atau IQR). Langkah-Iangkah untuk rnenghitung IQR: 1. letakan deretan angka dalam susunan yang teratur. 2. dapatkan nilai yang terletak pada 3/4 bagian dari deret itu (disebutthird quartile atau 75th percentile) . 3. dapatkan angkayang terletak pada 1/4bagian dari deret itu (disebutfIrstquatile atau 25th percentile). 4. kernudian carilah selisih dari kedua nilai tersebut. Contoh: 1. 500 5. 399 9. 300 13.97 2. 480 6.371 10. 277 14.96 3.460 7.370 11.200 15. 70 4.405 8.360 12.103 16.66 Oalam deret itu ada 16 angka, rnaka fIrst quartile dari deret itu adalah angka ke 4 (nilainya 405) dan third quartile adalah angka ke 12 (nilainya 103). Maka besarnya IQR adalah 405 103 = 302. Oalam soal ini besarnya range adalah 500 - 66 = 434. YANG HARUS DIINGA T 1.
Oistribusi dari deretan angka-angka dapatditunjukkan secarakhusus dengan rnenghitung quartiles dan percentiles: quartiles: fIrst quartile adalah angka yang berada dalam deretan angka pada posisi di seperernpat bagian dari deret itu; third quartile adalah angka yang berada dalam deretan angka pada posisi di tiga perernpat bagian dari deret itu. percentiles: angka yang berada pada posisi ke p% dari deret tersebut.
9 - - --
2.
Range: nilai tertinggi dikurangi nilai terendah.
interquartile range: nilai third quartile dikurangi dengan nilai first quartile. Kita masih membutuhkan perhitungan simpangan yang dihitung dengan menggunakan seluruh angka dalam deret itu. Kita lihat kembali penjualan pepperoni dim ana rata-rata penjualannya adalah 49. Hal ini sangat membantu untuk menemukan seberapa jauh simpangan angka-angka penjualan itu dari nilai rata-ratanya (yaitu 49). Untuk mendapatkan simpangan kita mengurangi 49 dengan masing-masing angka penjualan dan kemudian memberinya nilai absulut (ditandai dengan dua garis vertikal: II).
Penjualan
Pepperoni
Jarak dari rata-rata
40 56 38 38 63 59 52 49 46
9 = I 40 - 49 I 7 = I 56 - 49 I 11 = I 38 - 49 I 11 = I 38 - 49 I 14 = I 63 - 49 I 10 = I 59 - 49 I 3 = I 52 - 49 I o = I 49 - 49 I 3 = I 46 - 49 I
Secara sederhana kita dapat menghitung rata-rata jaraknya:
68
9 + 7 + 11 + 11 + 14 + 10 + 3 + 0 + 3
9 = 7.556
9
Jumlah itu disebut deviasi absolut rata-rata (mean absolute deviation). Secara umum
dapatdiforrnulasikansebagaiberikut :
L m.=11Xi
-X I
= n
n
VARIAN Deviasi absolut rata-rata sangat baik untuk mengukur simpangan, karena hal ini menjelaskan pada kita jarak rata-rata dari tiap angka pada deretan angka dengan rata-ratanya
10
(mean). Tetapi untuk beberapa tujuan lebih baikmengkuadratkan setiap deviasi dankemudian ambil rata-rata dari keseluruhan deviasi kuadrat. Angka ini disebut varian. Untuk menghitung varian dari penjualan pepperoni, mula-mula kita menjumlahkan kuadrat masing-masing deviasi: (40-49)2 + (56-49)2 + (38-49)2 + (38-49)2 + (63-349)2 + (59-49)2 + (52-49)2 + (49-49)2 + (46-49)2 = 92 + 72 + 112+ 1F + 142+ 102+ 32 + 02 + 32 = 81 + 49 + 121 + 121 + 196 + 100 + 9 + 0 + 9
= 686
Kemudian kita membagi angka yang dihasilkan tadi dengan 9 karena ada 9 data dalam daftar:
686 vanan
=
= 76,222 9
Varian sering dilambangkan dengan (X2 (sigma kuadrat). Kita juga sering menuliskan var(x) untuk menyatakan varian dari x. Formula varian secara umum adalah:
var(x) =
cr2
= n n
= n Formula yang lebih sederhana untuk menghitung varian: var(x) = x2 - X2 X selalu berarti rata-rata (mean); X 2berarti kuadrat dari rata-rata. Sebagai contoh adalah penjualan pepperoni. X =49 dan nilai x. Dalam kasus kita:
x =492 =2401. x juga berarti rata-rata dari kuadrat setiap 2
2
9
11
----
----
-
-
---
=
1600 + 3136 + 1444 + 1444 + 3969 + 3969 + 3481 + 2704 + 2401 + 211
9 22295
=
=2,477.222 9
Dengan demikian variannya adalah: var(x)
= X 2 - X 2 = 2477.222 - 2401 = 76.222
Di sini nampak bahwa hasilnya sarna dengan perhitungan terdahulu. DEVIASI STANDAR Varian adalah ukuran yang baik untuk simpangan, tetapi mempunyai satu kekurangan utarna yaitu: sukar untuk menginterpretasikan nilai dari varian. Apakah nilai varian sebesar 76.222 menunjukkan penyebaran yang besar atau kecil? Seringkali lebih baik menggunakan
akar kuadrat dari varian yang disebut deviasi standar. deviasi standar x
=cr=
--J
var(x)
= n
deviasi standar x
= n
Dalam kasus kita deviasi standarnya adalah 76,222 = 8,731 pizza. Deviasi standar x diukur dengan satuan yang sarna dengan satuan untuk mengukur x. Jika kita ingin mengetahui apakah simpangan terhadap rata-rata relatifbesar atau tidak, kita dapat menghitung koefisien variasinya : deviasi standar Koefisien Variasi =
cr
= mean
x
Untuk pizza pepperoni, koefisien variasinya 8,731149= 0,178 = 17,8%. 12
I.
2.
Berikut ini ada beberapa hal yang menarik untuk disebutkan: Paling tidak 75% dari angka-angka dalam daftar berada dalam dua deviasi standar dari rata-rata. Dengan rata-rata sebesar 49 dan deviasi standar sebesar 8,731, kita dapat menghitung dua deviasi standar dibawah rata-rata (mean) yaitu : 49 - 2 x 8,731 = 4917,462 = 31,538 dan dua deviasi standar di atas rata-rata yaitu : 49 + 2 x 8,731 = 49 + 17,462= 566,462. Kemudian kita akan tabu bahwa 75% dari penjualan pepperoni harian berada di antara 31,538 dan 66,462. Secara umum proporsi angka dalam tabel antara k deviasi standar dari rata-rata paling tidak 1 - 1/k2. Hasil ini dikenal dengan Teori Chebyshev.
Teori Chebyshev diterapkan pada setiap daftar kemungkinan angka. Jika anda ingin mengetahui lebihjauh distribusi dari angka-angka tersebut, anda dapat membuat pemyataan yang lebih pasti. Secara khusus, bila angka-angka tersebut mengikuti suatu pola umum, distribusinya disebut distribusi normal, kemudian 68 persen dari angka-angka akan berada dalam satu deviasi standar dari rata-rata dan 95 persen dari angka-angka itu berada dalam dua deviasi standar dari rata-rata. cr2dan crdisebut varian populasi dan deviasi standar populasi. Sekarang anggaplah kita ingin mengetahui penj~alan harian pizza pepperoni untuk satu tahun, tetapi kita telah melakukan observasi hanya 9 hari secara acak. Dalam kasus ini kita tidak mengetahui nilai sesungguhnya dari rata-rata (mean) ataupun deviasi standar dari penjualan pizza dalam satu tahun. Tetapi kita akan memperkirakan bahwa rata-rata dari sampel mendekati nilai rata-rata dari populasi, dan kita akan memperkirakan varian sampel (sample variance) akan mendekati nilai varian dari populasi. Akar kuadrat dari varian sampel disebut deviasi standar sampel. Ada dua formula yang berbeda untuk menghitung varian dari sampel : cara 1 :
varian sampel = S.2
=
n
= n
deviasi standar sampel
13
--
-
cara2 varian sampel =s/
=
n-l n
= n-l
devisastandar= S2
Catatan
=
:
cara 2 sarna dengan cara 1kecuali pada pembagiannya, pada cara 1adalah n dan pada cara 2 adalah n-1. Bila nilai n besar, maka tidak ada perbedaan yang berarti apakab kita membagi dengan n atau dengan n-1, sehingga dalarn kasus ini nilai S(2akan dekat dengan nilai st Dalam kasus peppperoni kita tabu S(2=76.222 dan s( =8.731. Sedangkan besamya nilai
s/ dan S2: ns (2 s/
=
n-1
:-= 85.750
YANG HARUS DIINGAT 1. Deviasi absolut rata-rata
= n
2.
JikaandamempunyaidaftarangkasebanyakN (XI'x2'...,xN),maka data ini menunjukkan populasi secara keseluruhan. N L.;=1 (xi-x)2
var(x) = 0'2=
N 14
= N
cr = 3.
...J
var (x)
=
...J
X2
- X2
Jika anda mempunyai daftar angka sejumlah n (Xl' X2' ..., Xn) maka data ini akan mewakilinya sampel. Varian Sampel, cara 1: n
-
(Xi x)2
Li=l S)2
= =
S 2 2
n
Deviasi Standar Sampel, cara 1 :
s)
=
Varian Sampel, cara 2 : n S22=
n-l n
_ -
S2 I n-l n
= n-l
15 - ---
-
Deviasi Standar Sampel, cara 2 : n
n-l
n n-l DIAGRAM
FREKUENSI
Masalah akan menjadi lebih rumit bila kita dihadapkan pada deretan angka yang panjang. Misalnya kita hams mengatur kelompok marching band. Kita ingin mengetahui tinggi (dalam inci) anggota marching band: 64,65,68,67,67,64,69,66,66,66, 68,71,67,67,70,65,65,66,70,64, 67,68,66,68,64,65,67,66,69,68, 65,69,68,67,68,67,67,67,66,66. Bila kita hams membuat daftar secarakeseluruhan, maka kita dihadapkan pada pekerjaan yang berat. Untuk membantu menyederhanakan daftar yaitu dengan menghitung jumlah orang pada tiap-tiap ukuran tinggi dan membuat tabel seperti berikut ini:
Tinggi
Frekuensi
64 65 66 67 68 69 70 71
3 5 8 11 7 3 2 1
Jumlah individu pada masing-masing ukuran tinggi disebut frekuensi dari tinggi tersebut, sehinggatabel di atas disebuttabel frekuensi.Perhatikanlahbahwa kita mendapatkan gambaran yang lebihjelas tentang distribusi tinggi melalui tabel frekuensi daripada dari tabel yang belum disederhanakan. 16
Kita dapat memperoleh gambaran yang juga jelas dengan menggambarkan tabel frekuensi yang disebut dengan diagram frekuensi atau histogram (lihat gambar 2-1). Gambar 2-1
12 II 10 9 8 '" c
" = "" " u::
7
6 5 4 3 2
o
62 63 64 65 66 67 68 69 70 71 72 73 74 TInggi
Tinggi tiap-tiap batang menunjukkanjumlah ditunjukkan oleh letak batang.
individu yang memiliki tinggi seperti yang
Kita juga dapat menggunakan informasi dari tabel frekuensi untuk menghitung rata-rata. Kita dapat menghitung total keseluruhan tinggi seperti berikut :
M+M+M+ ~+~+~+~+~+ ~+~+~+~+~+~+~+~+ ~+~+~+~+~+~+~+~+~+~+~+ ~+~+~+~+~+~+~+ ~+~+~+ W+W+ 71=2676 Setelah anda perhatikan angka-angka tersebut, anda akan mengerti cara yang mudah, yaitu kita hanya mengalihkan masing-masing ukuran tinggi dengan frekuensinya, dan menjumlahkan hasil perkalian seluruhnya. Berikut ini adalah cara mengerjakannya:
17 --
-
Frekuensi
Tinggi 64 65 66 67 68 69 70 71
3 5 8 11 7 3 2 1
Tinggi x Frekuensi 192 325 523 723 476 207 140 71 2676
Jumlah
Bila total tinggi adalah 2676 dan anggota berjumlah 40 orang, maka kita dapat menghitung rata-rata tingginya yaitu 66~9. Andaikan kita mempunyai daftar angka yang berisi nilai-nilai yang berbeda-beda sebanyak m (XI' x2' ,.., xm).Anggaplah f1 adalah frekuensi dari XI' Misalnya XI=64 dan fl = 3, maka fl mewakili frekuensi dari XIdan n adalah total jumlah observasi yang sarna dengan:
Kemudian rata-rata dapat dihitung dengan formula sebagai berikut : rata-rata
= n
=
m ~ ~i=l
f.x. 11
n Kita juga dapat menghitung median dari data tabel frekuensi. Jika ada 40 orang, maka tinggi median adalah nilai tengah dari tinggi orang ke 20 dan ke 21. Dari tabel frekuensi kita dapat melihat bahwa 27 orang mempunyai tinggikurang atau sarna dengan 67 inci, dan 24 orang mempunyai tinggi lebih atau sarna dengan 67, Dengan demikian baik orang ke 20 maupun ke 21 mempunyai tinggi 67 inci, dan inilah mediannya. Kita tahu bahwa 50% dari anggota marching band mempunyai tinggi kurang atau sarna dengan 67, Kita juga ingin mengetahui berapa persen orang yang mempunyai tinggi kurang atau sarna dengan 65, Dari tabel frekuensi kita dapat menghitung bahwa 8 orang berada dalam kategori ini, jadi 8/40 = 20% anggota marching band mempunyai tinggi kurang atau sarna dengan 65. Perhitungan ini adalah contoh yang umum dari konsep perseratus (percentiles).
18
Kita dapat menghitung banyaknya perseratus yang berbeda-beda dari sekumpulan angka. Misalnya perseratus ke 25 adalah angka yang berada pada urutan ke 25% dari deretan angka tersebut, perseratus ke 60 adalah angka yang berada pada urutan ke 60% dari deretan angka tersebut dan seterusnya. Varian dari tinggi anggota marching band dapat kita hitung dengan menggunakan informasi frekuensi dari salah satu formula berikut:
-
n ~
2
""i=1 fi (Xi-X)
var(x)
= n n
=
L.1=I
f.I x.2 I
n Dalam kasus kita, kita mempunyai varian 1.69 dan deviasi standar 1.64. DATA DIKELOMPOKKAN Sekarang kita akan menganalisa pendapatan kotor yang disesuaikan untuk dapat menggambarkanpajak yang dapat ditarikpada tabun 1980.Tentu kita tidak inginmelihatsuatu daftar yang berisi 93616278 nilai pendapatan kotor yang berbeda. Kita juga tidak ingin membuatdaftarfrekuensiuntuksetiapkemungkinannilaipendapatan,walaupunkitamemerlukan informasi dalam bentuk tabel frekuensi. Bagian dari model tabel frekuensi adalah seperti berikut ini.
Pendapatan
Frekuensi
Rp 10000.00 10000.01 10000.02 10000.03 10000.04
32 29 43 17 25
Dalam hal ini kita tidak benar-benar memperhatikan berapa orang yang mempunyai pendapatan Rp 10000.02 yang mungkin saja berbeda dengan berpendapatan Rp 10000.03.
19 --
--
Yang kita inginkan adalah data yang disajikan dalam tabel frekuensi dimana data dikelompokkan menurut kategori yang lebih luas. Data seperti ini disebut data yang dikelompokkan. Berikut ini adalah tabel frekuensi dari data yang dikelompokkan:
Pendapatan Kotor yang disesuaikan (Rp 1000)
Jumlah yang dapat ditarik
Pendapatan Kotor yang disesuikan (Rp 1000)
Jumlah yang dapat ditarik
0 0-1 1-2 3-4 4-5 5-6 6-7 7-8 8-9 9 -10 10-11 11 - 12 12 -13
626582 3013967 4268874 3925807 3735373 3841183 3783388 3787354 3540525 3417185 3204017 2927049 2892089
13 - 14 14 - 15 15 - 20 20 - 25 25 - 30 30 - 40 40- 50 50 - 75 75 - 100 100 - 200 200 - 500 500 - 1000 > 1000
2734286 2521221 11083032 9127402 6779115 7911046 3034287 2009790 524031 434041 97232 12105 4112
Bila ada seseorang yang berpendapatan persis Rp 10000.00 dimana dia akan ditempatkan? Kita akan menempatkan orang tersebut pada kelas 10 -11 ribuan, jadi secara teknis semua kelas harns diatur dengan ini: 10 ribu dan lebih besar dari 10 ribu tetapi kurang dari 11 ribu, dan seterusnya. Kita ingin menghitung rata-rata pendapatan nasional yang disesuaikan. Pada waktu kita menghitung tinggi rata-rata anggota marching band kita menggunakan rumus berikut ini: m ""
~i=l
f.x.
I I
x=
n Tetapi untuk data yang dikelompokkan dalam kelas-kelas perhitungan rata-rata menjadi lebih rumit. Sebagai contoh, pada tabel dinyatakan bahwa ada 3417185 orang berpendapatan antara Rp 9000 dan Rp 10000. Tetapi kita tidak mengetahui secara pasti distribusi pendapatan pada kelas ini. Mungkin dari 3417185 semuanya berpenghasilan Rp 9000.57 atau mungkin kesemuanya berpenghasilan 9999.71. Kita hanya dapat memperhatikan bahwa pendapatan
20
dari 3417185 orang mungkin tersebar pada interval dari Rp 9000 sampai Rp 10000. Dengan demikian kita dapat mengasumsikan bahwa jika keseluruhan dari 3417185 orang berasal dalam kelas ini, maka kita dapat menemukan bahwa rata-rata pendapatan adalah Rp 9500 (nilai tengah dari dua batas interval). Dalam kasus ini IRS menyatakan bahwa pendapatan rata-rata sebenarnya untuk individu-individu pada kelas ini adalah Rp 9495. Jadi asumsi kita tidak terlalu jauh. Secara umum kita tidak mengetahui nilai rata-rata sesungguhnya dari semua nilai dalam suatu kelas. Sehingga kita mengasumsikan bahwa rata-rata adalah nilai tengah antara titik tertinggi dan titik terendah dalam suatu interval. (batas dari interval disebut class limit dan nilai tengahnya disebut class mark) Jika f1 adalah jumlah observasi dalam kelas i dan xi adalah class mark untuk kelas i, kemudian kita dapat menghitung rata-rata (x bar) dengan formula berikut:
x= n
x= n Kita dapat menggunakan formula ini untuk menghitung pendapatan rata-rata: 626502 x 0 + 3013967 x 500 + ... Kita akan melakukan perhitungan sampai pada kelas terakhir: 4112
> 1000000
Pada kelas ini tidak ada batas atasnya. 4112 orang yang berada pada kelas ini mungkin seluruhnya berpendapat 1000001 atau mungkin semuanya berpendapatan 300000oo. Distribusi frekuensi kita tidak memberikan informasi yang cukup untuk dapat memperkirakan berapa pendapatan rata-rata dari kelas ini. Tipe kelas seperti ini disebut open-ended class. Open-ended class dapat terjadi dibagian atas ataupun bagian paling bawah dari data yang dikelompokkan, dan ini menimbulkan masalah beberapa perhitungan statistik termasuk perhitungan rata-rata. Jika kita tidak mendapatkan nilai rata-rata dari open-ended class, maka kita tidak dapat menghitung rata-ratadari data. Hal yang terbaik yang dapatkitalakukan adalah mengestimasi rata-rata. Untuk masalah kita ini perhitungan rata-rata pendapatan adalah sebagai berikut:
626582 x 0 + 3013967 x 500 + 4268874 x 1500 +...4112 x 2278392
x= 93616278 = Rp 17638
21 -
---
--
Hasil ini lebih besar dari nilai sesungguhnya karena rata-rata untuk setiap kelas cenderung lebih rendah dari nilai tengah kelas itu, terutarna untuk kelas yang tinggi. Kita juga dapat menghitung median dari pendapatan kotor yang telah disesuaikan. Jika totalpenerimaan93616278,kita harns mendapatkanbahwa46808139 berasaldari pendapatan yang lebih rendah dan 46808138 berasal dari pendapatan yang lebih tinggi. Kita dapat melakukannya dengan proses coba-coba (trial and error). Dengan menjumlahkan 626582 + 3013967 + 4268874, kita akan mendapatkan bahwa 7909423 orang (atau 8.4% dari total) berpendapat kurang dari Rp2000. Jelaslah bahwa median lebih besar dari Rp2000. Dengan perhitungan yang sarna kita akan mendapatkan 44452489 orang (atau 47.5% dari total) berpendapatan dibawah Rp12000dan 47344278 orang (atau50.6% dari total) berpendapatan dibawah Rp13000. Informasi ini tidak menjelaskan kepada kita berapa nilai median dari pendapatan. Kita mengetahui bahwa pendapatan median berada di atas Rp12000 dan di bawah Rp13000. Dengan demikian kita dapat mempersempit penelitian kita tentang pendapatan median dengan memperhatikan 2892089 orang yang berpendapatan antara Rp12000 dan Rp13000. Tabel frekuensi tidak menyediakan informasi yang cukup untuk memghitung nilai median sesungguhnya, jadi sekali lagi kita harns membuat asumsi. Kita mengasumsikan bahwa 2892089 orang yang berada dalarn kelas ini didistribusikan secara merata. Dengan kata lain seperempat bagian dari individu-individu tersebut berpendapatan antara Rp12000 sampai 12250, seperempat bagian lagi berpendapatan antara 12250 sampai 12500 dan seterusnya. Jika 46808139 orang dari total populasi berpendapatan di bawah pendapatan median, maka kita dapat menghitung: 46808139 orang berpendapatan kurang dari median - 44452489 orang yang berpendapatan kurang dari Rp 12000 = 2355650 orang yang berpendapatan di atas Rp 12000 tetapi kurang dari median. Dengan demikian 2355650/2892089 = 81.5% orang yang berpendapatan pada kelas pendapatan antara Rp12000dan Rp13000berada bibawah median, dan kita mengasumsikan bahwa distribusi dari kelas ini merata maka kita dapat menghitung pendapatan median sebagian berikut: Rp12000 + 0.815 x 1000 = 12815 Berikut ini adalah formula perhitungan median dimana kelas median sudah ditentukan (asumsi distribusi nilai-nilai dalam kelas median tidak diinformasikan):
22
median
= XL +
dimana
XL
(N/2 - nL)2 nm
batas kelas bawah dari kelas median dalarn contoh kita adalah Rp12000
N
: totaljumlah populasidalamcontohkita 93616278
nm w
: jumlah kelas median dalam contoh kita 2892089 : luasnya atau pesarnya kelas median dalam contoh kita Rp1000
Untuk mendapatkan varian dan deviasi standar dari pendapatan, pertama-tama kita menggunakan di bawah ini untuk menghitung x 2: m
L.
1::;;1
f.x2 1 1
n X2
var(x) a
= 1005241180 = 6941270000 = 26346
HISTOGRAM Penggambaran diagram frekuensi dari data pendapatan dapat dilihat pada gambar 2-2. Dari diagram frekuensi pada gambar tersebut dapat terlihat adanya lonjakan yang tajam untuk pendapatan di atas Rp15000, tetapi ini tidak berarti bahwa ada begitu banyak orang yang berpendapatan di atas Rp150000 dari pada di bawah Rp150000. Hal ini terjadi karena kelas di atas Rp15000 lebih lebar daripada kelas di bawah Rp15000. Ada 110883032 orang berpendapatan di bawah Rp 15000 dan 2521221 orang berada di atas % 15000. Diagram yang benar untuk menggambarkan situasi ini disebut histogram.
Gambar 2-2
l-
e--
10l-
9 I-
-
'"
8 I-
.-----
7 I-
-
6 l'" 5 Ic" " l..I<:
"
u:
4
3 I2 lI'o
24 6 8 1012 15
20
25
30
Pendapatan
40
50
(ribuan)
23
--
Berikutini adalah caramembuathistograrn. Mula-mulacoba W1tukmenggambarkanfrekuensi W1tukdata pendapatan yang mempunyai lebar kelas yang sarna yaitu Rp 1000. Untuk pendapatan dati Rp15000 sampai Rpl6000 atau dati Rp16000 sampai Rp17000 dan seterusnya tidak kita ketahuijumlahindividuanya. Tetapi sekali lagikitamengasumsikan bahwasemua pendapatan pada kelas antara Rp 15000 dan Rp20000 terdistribusi secara merata, sehingga 1/5bagian berpendapatan dati Rp15000 sarnpai RpI6000, 1/5 bagian lagi berpendapatan dati Rpl6000 sampai 17000 dan seterusnya. Porsi diagram frekuensi yang barn dapat dilihat pada gambar 2-3. Gambar 2-3
5 .i:> 4
g'"
c OJ :::> ""
3 2
J:
o
24 6 8 1012 15
20
25
30
Pendapatan
40
50
(ribuan)
Anda dapat melihatbahwa distribusi ini tidak simetris.Lebih banyak yang berpendapatan tinggi daripada yang berpendapatan rendah. Dalam kasus ini distribusi yang dihasilkan mempunyai eior yang panjang di bagian kanan atau dengan kata lain distribusinya miring ke kanan. Bila distribusi miring ke kanan maka rata-ratanya akan berada di atas nilai meaianya. Untuk data pendapatan ini kita menemukan bahwa rata-rata adalah Rp17638 dan nilai medianya adalah Rp12815. Berikut ini adalah prosedur untuk menggambarkan histogram: 1. Lebar masing-masing segiempat pada diagram hams proporsional dengan lebar kelas yang diwaiili. Sebagai contoh, pada kasus di atas, segiempat yang mewakili kelas dengan lebar Rp5000 hams limakali lebih lebar daripada segiempat yang mewakili kelas dengan lebih Rpl000. 2. Tinggi untuk masing-masing segiempat hams proporsional denganjumlah obyek dalam kelas tersebut dibagi dengan lebar kelasnya. Jadi daerah segiempat.hams proporsional dengan jumlah obyek yang sesuai dengan kategorisnya. Sebagai contoh, ada 2734286 orang berada dalam kategori Rp13000 dan Rp14000, maka tinggi dari segiempat hams proporsional yaitu 2734286/1000 = 3734.286. Demikian juga untuk 9127402 orang yang berada pada kategori antara Rp20000 dan Rp25000, maka tinggi dari segiempatnya adalah 9127402/5000 = 1825.48. Dengan kata lain segiempat antara Rp13000 dan Rp14000 hams 2734.286/1825.48 = 1.498 kali tinggi segiempat antara Rp2000 dan Rp25000.
24
GRAFIK LAIN Ada banyak tipe graftk yang dapat kita tunjukkan di sini. Anggaplah kita mempunyai data pengambilan harian di bank data ini sudah dikelompokkan: Pengambilan
Frekuensi
500 - 600 600 - 700 700 - 800 800 - 900 900 - 1000 1000 - 1100 1100 - 1200
12 36 63 81 77 42 24
Kita dapat memplot informasi ini dalam histogram (lihat gambar 2-4). Gambar 2-4
90 80 70 60 50 40 30 20 10 300 400
500 600 700 800 900 1,000 1,1001,2001,300 Pengambilan
POLIGON FREKUENSI Dengan informasi yang sama dapat digambar diagram yang disebut poligon frekuensi. Kita menggunakan batang pada histogram yang mewakili masing-masing kelas, kita menempatkan titik-titik pada nilai tengah masing-masing kelas. Setelah itu kita hubungkan titik-titik itu dengan suatu garis (lihat gambar 2-5).
25 -
--
Gambar2-5
90 80 70 60 50 40 30 20 10 300 400 500 600 700 800 900 1,000 1,100I;ID 1,300 Pengambilan
OGIV Ada baiknya juga kita menghitung frekuensi kumulatif. Frekuensi kumulatif untuk masing-masing kelas adalah totaljumlah observasi pada suatu kelas atau kelas di bawahnya.
Pengambilan 500 - 600 600 - 700 700 - 800 800 - 900 900 - 1000 1000 - 1100 1100 -1200
Frekuensi
Frekuensi Kumulatif
12 36 63 81 77 42 24
12 48 111 192 269 311 335
GrafIk untuk frekuensi kumulatif disebut ogiv (lihat gambar 2-6)
26
Gambar 2-6
360 330 300 270 240 '" c
210
::I '"
180
"
"-
ISO 120 90 60 30 300 400 500 600 700 800 900 1,000 1,100I,JD 1,300 Pengambilan
DIAGRAM LING KARAN (PIE CHART) Diagram terbaik dalam menggambarkan total kuantitas yang dibagi kedalam beberapa kategori yang berbeda adalah diagram lingkaran (pie chart). Setiap bagian dari diagram lingkaran menunjukkan suatu kategori. Setiap bagian harns proporsional dengan bagian dari total kategori yang diwailkan. Gambar 2-7 adalah diagram lingkaran yang menggambarkan sumber-sumber penerimaan Pemerintah Antah Berantah pada tahun 1984.
Gambar 2-7
Individual income tax 44%
Social insurance 36%
27
---
--
YANG HARUS DIINGAT 1.
Untuk data yang terlalu banyak, sangatlah sulit untuk membuat daftar secarakeseluruhan. Data tersebut harns kita ringkat dan dibagi ke dalam beberapa kategori dan kemudian hitung semua obyek dalam tiap kategori, hasilnya disebut frekuensi. Jika kita mempunyai m kelompok dan fi adalah frekuensi dari kelompok i, maka formula rata-ratanya (mean) adalah: m ~
mean
=
f. X.1
"""i:;:;l1
= n
m
2.
dimana n =Li=1 adalah jumlah total data observasi dan Xiadalah nilai tengah dari kelas i. Data yang dinyatakan dalam bentuk grafIk juga bersifat sangat informatif. Untuk data yang dikelompokkan, distribusi dapat ditunjukkan dengan diagram frekuensi. Frekuensi ditunjukkan oleh tingginya batang. Diagram tipe lain adalah poligon frekuensi (yang dibentuk dari penempatan titik-titik pada nilai tengah setiap kategori secara proporsional dengan jumlah obyek pada setiap kategori), ogiv (grafIk dari distribusi kumulatit) dan diagramlingkaran(dimanasetiapkategoridiwakilkanolehbagian-bagiandalamlingkaran yang besarnya tergantung pada proporsi obyek-obyek dalam setiap kategori).
ISTILAH-ISTILAH YANG HARUS DIPELAJARI rata-rata OglV bimodal open-ended class nilai sentral perseratus (percentile) diagram lingkaran (pie chart) teori Chebyshev class limit deviasi standar populasi class mark varian pupulasi koefIsien variasi quartil range dispersi data kasar diagram frekuensi poligon frekuensi deviasi standar sampel tabel frekuensi varian sampel data dikelompokkan kemiringan deviasi standar histogram statistik jarak antar kuartil mean subkrip deviasi absolut rata-rata notasi penjuOllahan median tail varian modus distribusi normal 28