STK 211 Metode statistika
© Agus Mohamad Soleh
• Merupakan teknik penyajian dan peringkasan data sehingga menjadi informasi yang mudah dipahami • Apa yang disajikan dan diringkas? --> PEUBAH • Univariate vs Bivariate vs Multivariate • Type: Kategorik vs Numerik •
Numerik: Diskret vs Kontinu
• •
Kategorik : Nominal vs Ordinal Numerik: Interval vs Rasio
• Skala Pengukuran:
© Agus Mohamad Soleh
• Bagaimana cara menyajikan data? – Tabel – Grafik
• Bagaimana cara meringkas data? – Ukuran Pemusatan – Ukuran Penyebaran
© Agus Mohamad Soleh
© Agus Mohamad Soleh
• Tabel disajikan untuk menyajikan statistik berdasarkan observasi atau kategori • Peubah Kategori: Tabel Frekuensi, Tabel kontingensi • Peubah Numerik: Dikategorikan © Agus Mohamad Soleh
Tabel Kontingensi Tabel Frekuensi
© Agus Mohamad Soleh
• Menyusun Kategori: – Tentukan jumlah kelas (Sturges' rule ): k = 3.3 log (n)+1 – Tentukan lebar kelas : l = (Xmax - Xmin)/k – Tetapkan nilai awal (≤ Xmin) – Tentukan batas masing-masing kelas – Hitung frekuensi pengamatan pada masing-masing kelas – Frekuensi Relatif : cari proporsi dari masingmasing kelas
© Agus Mohamad Soleh
• Peubah: Tinggi – n kelas: k = 3.3 log(21) + 1 = 5.36 ≈ 6 – lebar kelas: l = (176 - 151) / 6 = 4.2 ≈ 5
© Agus Mohamad Soleh
• Tabel Ringkasan Statistik Peubah
Jenis Kelamin
Tinggi
Perempuan Laki-laki
Berat
Perempuan Laki-laki
N
Mean
StDev
Minimum
Median
Maximum
9
160.56
5.43
151
161
169
12
166.25
5.07
159
165
176
9
53.89
5.62
45
54
60
12
64.75
8.04
52
63
82
© Agus Mohamad Soleh
• Pie Chart Umumnya untuk Peubah Kategorik
© Agus Mohamad Soleh
• Bar Chart Jenis Kelamin 12
Peubah Kategorik
8 6 4 2 0
Laki-laki
Perempuan
Laki-laki
200.00
Peubah Numerik
Rata-rata
Jumlah
10
Perempuan
150.00 100.00 50.00 0.00
Tinggi
Berat © Agus Mohamad Soleh
Penyajian Data dengan Grafik
© Agus Mohamad Soleh
Sebuah grafik dari suatu sebaran frekuensi Bisa distribusi dari frekuensi-nya atau frekuensi relatif-nya Digunakan untuk melihat distribusi dari data:
– Melihat ukuran penyebaran dan ukuran pemusatan data – Melihat adanya data outlier – Mendeteksi ada bimodus/tidak © Agus Mohamad Soleh
Histogram of data1, data2 -6 data1
40
0
2
4
-2
-4
-2
0
2
4
2
3
4
Frequency
15 15 10
10
5
-6
1 data3
20
10
10
0
20
15
20
-1
data1
25
20
5
5
0
0
Ukuran Pemusatan relatif sama namun ukuran penyebaran relatif berbeda
-2
-1
0
1
2
3
4
0
Ukuran Pemusatan relatif berbeda namun ukuran penyebaran relatif sama Histogram of C14
bimodus
30 25 20
outlier
Frequency
Frequency
Histogram of data1, data3 -2
data2
30
0
-4
15 10 5
?
0
-2
-1
0
1
2 C14
3
4
5
© Agus Mohamad Soleh
WEIGHT
FREQUENCY
Ke kiri
Skewed Menjulur to Right
Simetrik Symmetric
FREQUENCY
FREQUENCY
Skewed Menjulur to Left
WEIGHT
Ke Kanan
WEIGHT
© Agus Mohamad Soleh
Data 2 58
57
50
56
44
59
43
52
55
49
43
43
49
55
58
48
46
42
44
48
40
40
42
Selang kelas
Tengah Kelas
38-41
39.5
58
42-45 57
43.5 50
43
43 46-49
49 47.5
40
40 50-53
42 51.5
69
70 54-57 58-61 Total
67 55.5 59.5
Tepi Batas kelas
Turus
Data|| 3 37.5 - 41.5
Frekuensi
Frekuen si Relatif
2
0.09
% 8.70%
56 44 |||| || 59 41.5 - 45.5 55 58 48
43 7 46
52 0.30 55 30.43% 49 42 44 48
69 69 || 51.5 - 53.5 65 77
80 2 67
75 0.09 70 8.70% 68 76 73 65
45.5 - 49.5
|||I
53.5 - 57.5
||||
57.5 - 61.5
|||
79 69
5
0.22
21.74%
0.17
17.39%
3
0.13
13.04%
23
1
100.00%
4
© Agus Mohamad Soleh
• Berdasasarkan tabel sebaran frekuensi tersebut maka tampilan histogramnya sebagai berikut: 7 6
Frequency
5 4 3 2 1 0
40
44
48
52
56
60
Sebagain besar berusia kurang dari 50 tahun, sedangkan frekuensi paling banyak berada pada usia 44 tahun. Bentuk sebaran tidak simetrik, terdapat dua kelompok usia (kurag dari 50 tahun dan lebih dari 50 tahun) bimodus © Agus Mohamad Soleh
7
6
6
5
5 Frequency
Frequency
7
4 3
4 3
2
2
1
1
0
40
44
48
52
56
0
60
40
45
50
55
60
7
Bentuk histogram tidak unik tergantung nilai awal dan lebar batang (bandwidth)
6
Frequency
5 4 3 2 1 0
40
45
50
55
60
© Agus Mohamad Soleh
• Sebuah diagram yang menampilkan distribusi dari data numerik yang sudah terurut dari terkecil dan terbesar • Sesuai dengan namanya diagram dahan daun terdiri dari bagian dahan dan bagian daun. Bagian daun selalu terdiri dari satu digit. Bagian dahan terletak di sebelah kiri dan bersesuaian dengan bagian daun (jika ada) di sebelah kanan • Secara visual,diagram dahan daun hampir sama dengan bar chart dimana kategori-kategorinya didefinisikan dengan struktur desimal dari bilangan yang ada
© Agus Mohamad Soleh
• Mendapatkan sebaran dari data – Mendapatkan ukuran penyebaran dan ukuran pemusatan data – Mendeteksi adanya data outlier (jika ada) – Mendeteksi ada bimodus/tidak Stem-and-leaf of Contoh1 Leaf Unit = 1.0
pusat
1 4 7 (4) 9 5 3 1
2 3 4 5 6 7 8 9
5 579 138 0445 5569 36 12 3
N
= 20
Terlihat sebaran dari data aslinya
© Agus Mohamad Soleh
Output MINITAB Stem-and-leaf of Contoh1 N = 20 Informasi satuan Leaf Unit = 1.0 dari daun satuan
Frekuensi kumulatif dari jumlah daun pada masing-masing dahan. Dihitung dari atas dan bawah sampai ketemu di posisi median
1 4 7 (4) 9 5 3 1
2 3 4 5 6 7 8 9
5 579 138 0445 5569 36 12 3
Bagian daun
Bagian dahan © Agus Mohamad Soleh
• Pisahkan bagian dahan dan daun. Untuk contoh diatas misalkan dahan berupa puluhan dan daunnya berupa satuan • Bagian dahan urutkan dari terkecil sampai terbesar 23 4 5 6 7 8 9
© Agus Mohamad Soleh
•
Plot daun sesuai dengan dahan yang tersedia. Sebagai langkah awal untuk memudahkan pekerjaan identifikasi secara berurutan dari data yang ada 2 3 4 5 6 7 8 9
5 795 183 4405 5569 63 21 3
•Urutkan bagian daun dari terkecil sampai yang terbesar
2 3 4 5 6 7 8 9
5 579 138 0445 5569 36 12 3
© Agus Mohamad Soleh
• Perhatikan data berikut: • Nilai minimum: 8 dan maks : 38 • Diagram Dahan Daun: 0 1 2 3
899 02235666779 01344689 18
© Agus Mohamad Soleh
• Aturan main: dahan 1 untuk digit 0-4 dan 0 899 dahan 2 untuk digit 5-9 1 02235666779 2 01344689 • Perhatikan data berikut: 3 18 Stem-and-leaf of Contoh2 Leaf Unit = 1.0 3 7 (7) 10 5 2 1
0 1 1 2 2 3 3
N
= 24
899 0223 5666779 01344 689 1 8 © Agus Mohamad Soleh
• Bagi dahan ke dalam 5 dahan per 10 nilai bilangan. Aturan main sebagai berikut: * untuk daun 0 dan 1,t untuk 2 dan 3, f untuk 4 dan 5, s untuk 6 dan 7, dan “.” untuk 8 dan 9 • Perhatikan data berikut:
© Agus Mohamad Soleh
Output MINITAB 0t 3 f 45 s 77 . 899 1* t f s . 2* t f s
0011 223 4455 67 8
7
Stem-and-leaf of Contoh3
Leaf Unit = 1.0 1 3 5 8 (4) 11 8 4 2 1 1 1 1
0 0 0 0 1 1 1 1 1 2 2 2 2
N
= 23
3 45 77 Aturan banyaknya dahan 899 yang digunakan : 0011 antara 4-12 dahan 223 4455 Sesuaikan dengan 67 informasi yang diperoleh 8
7
berkaitan dengan bentuk sebaran, ukuran pemusatan dan penyebaran data
© Agus Mohamad Soleh
• informasi ukuran pemusatan dan penyebaran (berupa kuartil) • informasi bentuk sebaran • informasi data ekstrim
© Agus Mohamad Soleh
© Agus Mohamad Soleh
• • • • •
hitung statistik lima serangkai (Min, Q1, Q2, Q3, Max) hitung pagar dalam atas
–
PDA = Q3 + 3/2 (Q3-Q1)
–
PDB = Q1 - 3/2 (Q3-Q1)
hitung pagar dalam bawah deteksi keberadaan pencilan, yaitu data yang nilainya kurang dari PDB atau data yang lebih besar dari PDA gambar kotak, dengan batas Q1 sampai Q3, dan letakkan tanda garis di tengah kotak pada posisi Q2 © Agus Mohamad Soleh
• Tarik garis ke kanan, mulai dari Q3 sampai data terbesar di dalam batas atas • Tarik garis ke kiri, mulai dari Q1 sampai data terkecil di dalam batas bawah • tandai pencilan dengan lingkaran kecil
© Agus Mohamad Soleh
• Statistik 5 serangkai dari data sbb: Me
48
Q1 Q3
43
Min Max
40
55 59
• PDA = 55 + 1.5 (55 – 43) = 73 • PDB = 43 – 1.5 (55 - 43) = 25 • Tidak ada pencilan © Agus Mohamad Soleh
Boxplot of data 1
40
45
50 data 1
55
60
Sebaran data tidak simetrik, karena nilai median lebih dekat ke Q1 menjulur ke kanan Tidak ada pencilan © Agus Mohamad Soleh
Stem-and-leaf of data 1 N = 23 Leaf Unit = 1.0
Me Q1 Q3
9 4 (5) 4 9 5 7 5 1 6 1 6 1 7 1 7 1 8
002233344 68899 02 556788
Min Max
48 43 40
55 80
PDA = 55 + 1.5 (55 – 43) = 73 PDB = 43 – 1.5 (55 - 43) = 25 Pencilan : 80
0
© Agus Mohamad Soleh
Boxplot of data 1
40
50
60 data 1
70
80
Sebaran data tidak simetrik, karena nilai median lebih dekat ke Q1 menjulur ke kanan Terdapat nilai pencilan (80) © Agus Mohamad Soleh
© Agus Mohamad Soleh
© Agus Mohamad Soleh
• Tujuan Mendeskripsikan data Mengetahui karakteristik data sesederhana mungkin tetapi memiliki pengertian yang dapat menjelaskan data secara keseluruhan • Data Numerik memiliki pusat dan keragaman: Ukuran pemusatan Ukuran penyebaran
© Agus Mohamad Soleh
© Agus Mohamad Soleh
• Definisi:
– merupakan suatu gambaran (informasi) yang memberikan penjelasan bahwa data memiliki satu (mungkin lebih) titik nilai dimana dia memusat atau terkumpul
• Beberapa Ukuran:
– Median – Modus – Nilai tengah (rataan/rata-rata/rerata)
© Agus Mohamad Soleh
• Definisi : suatu nilai data yang membagi dua sama banyak kumpulan data yang telah diurutkan. • Langkah Teknis: – Urutkan data dari kecil ke besar – Cari posisi median (nmed=(n+1)/2) – Nilai median
• Jika nmed bulat, maka Median=X(n+1)/2 • Jika nmed pecahan, maka Median=(X(n)/2+ X(n)/2+1)/2 (rata-rata dua pengamatan yang berada sebelum dan setelah posisi median)
© Agus Mohamad Soleh
• Merupakan nilai pengamatan yang paling sering muncul • Dalam satu gugus data dapat mengandung lebih dari satu modus • Dapat digunakan untuk semua jenis data, tapi paling banyak digunakan untuk data kategorik atau data diskret dengan hanya sedikit nilai yang mungkin muncul
Modus © Agus Mohamad Soleh
• Definisi: merupakan ukuran yang menimbang data menjadi dua kelompok data yang memiliki massa yang sama • Apabila x1, x2, ...,xN adalah anggota suatu populasi terhingga berukuran N, maka nilai tengah populasinya adalah: 1 m= N
N
åX
i
i =1
© Agus Mohamad Soleh
• sedangkan jika x1, x2, ...,xn adalah anggota suatu contoh berukuran n, maka rata-rata contoh tersebut adalah: 1 x= n
n
åX
i
i =1
dalam Bahasa Inggris, rata-rata populasi disebut dengan mean dan ratarata contoh disebut average © Agus Mohamad Soleh
Mean = Median = Mode
© Agus Mohamad Soleh
• Perhatikan data berikut: 1, 3, 6, 7, 8, 9, 10, 12 Data tersebut memiliki rata-rata = 7 dan median = 7.5
• Selanjutnya pada data berikut 1, 3, 6, 7, 8, 9, 10, 120 memiliki rata-rata = 20.5 dan median = 7.5
© Agus Mohamad Soleh
• Kedua data di atas hanya memiliki satu data yang berbeda yaitu yang terakhir. Terlihat bahwa nilai rata-rata berbeda jauh ketika ada data yang ekstrim. Rata-rata memiliki sifat tidak kekar (robust), artinya terpengaruh oleh nilai ekstrim.
© Agus Mohamad Soleh
• Jika ada nilai ekstrim besar, maka rata-rata akan bergeser ke kanan (ke nilai besar). • Sebaliknya jika ada data yang ekstrim kecil, ratarata akan bergeser ke kiri. diperlukan kehati-hatian ketika menggunakan rata-rata. • Untuk mengatasi keberadaan data ekstrim sering disarankan menggunakan 5% trimmed mean (rata-rata terpangkas 5%), yaitu menghitung ratarata dengan membuang 2.5% data terkecil dan 2.5% data terbesar. © Agus Mohamad Soleh
• Deskripsi data pendapatan per kapita di Indonesia seringkali menimbulkan salah pengertian karena disajikan dalam bentuk rata-rata. • Karena ada segelintir orang yang memiliki pendapatan (sangat) tinggi maka rata-rata pendapatan masyarakat Indonesia akan cenderung lebih tinggi dibandingkan kenyataannya. © Agus Mohamad Soleh
• Berdasarkan uraian di atas, maka mendeskripsikan data bertipe numerik seringkali tidak cukup hanya menggunakan satu angka berupa ukuran pemusatan. • Besaran lain yang perlu juga dimunculkan dalam mendeskripsikan data numerik adalah ukuran penyebaran.
© Agus Mohamad Soleh
© Agus Mohamad Soleh
• Definisi : suatu ukuran untuk memberikan gambaran seberapa besar data menyebar dalam kumpulannya. • Beberapa Ukuran: – – – – –
Wilayah (Range) Jarak Antar Kuartil (Interquartile Range) Ragam (Variance) Simpangan Baku (Standard Deviation) dll
© Agus Mohamad Soleh
• Definisi : suatu ukuran yang dihitung dari selisih pengamatan terkecil dengan pengamatan terbesar W = X[N]-X[1] • Ukuran ini cukup baik digunakan untuk mengukur penyebaran data yang simetrik dan nilai pengamatannya menyebar merata. • Tetapi ukuran ini akan menjadi tidak relevan jika nilai pengamatan maksimum dan minimum merupakan data-data ekstrem
© Agus Mohamad Soleh
• Definisi : Jarak antar kuartil mengukur penyebaran 50% data ditengah-tengah setelah data diurut. • Ukuran penyebaran ini merupakan ukuran penyebaran data yang terpangkas 25% yaitu dengan membuang 25% data yang terbesar dan 25% data terkecil.
© Agus Mohamad Soleh
• Definisi : suatu nilai data yang membagi
empat sama banyak kumpulan data yang telah diurutkan
• Langkah Teknis – Metode Belah dua – Metode Interpolasi
© Agus Mohamad Soleh
• Urutkan data dari kecil ke besar • Cari posisi kuartil
– nq2=(n+1)/2 – nq1=(nq2*+1)/2= nq3, nq2* posisi kuartil dua terpangkas (pecahan dibuang)
• Nilai kuartil 2 ditentukan sama seperti mencari nilai median. Kuartil 1 dan 3 prinsipnya sama seperti median tapi kuartil 1 dihitung dari kiri, sedangkan kuartil 3 dihitung dari kanan. © Agus Mohamad Soleh
• Urutkan data dari kecil ke besar • Cari posisi kuartil – nq1=(1/4)(n+1) – nq2=(2/4)(n+1) – nq3=(3/4)(n+1)
• Nilai kuartil dihitung sebagai berikut:
– Xqi=Xa,i + hi (Xb,i-Xa,i) – Xa,i = pengamatan sebelum posisi kuartil ke-i, Xb,i = pengamatan setelah posisi kuartil ke-i dan hi adalah nilai pecahan dari posisi kuartil
© Agus Mohamad Soleh
• Posisi Q2 = nQ2 = (5+1) / 2 =3 • Posisi Q1 = ¼(5+1) = 1.5 • Posisi Q3 = ¾(5+1) = 4.5 Data terurut: 3 4 5 6
8
Median=5 Q1= 3 + 0.5(4-3) = 3.5 Q3=6+ 0.5(8-6)=7 © Agus Mohamad Soleh
• Posisi Q2 = nQ2 = (6+1) / 2 =3.5 • Posisi Q1 = ¼(6+1) = 1.75 • Posisi Q3 = ¾(6+1) = 5.25 Data terurut: 3 4 5 6 8
8
Median=5.5
Q1= 3 + 0.75(4-3) = 3.75 Q3=8+ 0.25(8-8)=8 © Agus Mohamad Soleh
• Jarak antar kuartil dihitung dari selisih antara kuartil 3 (Q3) dengan kuartil 1 (Q1): JAK atau IQR = Q3 -Q1 • Ukuran ini sangat baik digunakan jika data yang dikumpulkan banyak mengandung data pencilan © Agus Mohamad Soleh
• Definisi : Ragam merupakan ukuran penyebaran data yang mengukur rata-rata jarak kuadrat semua titik pengamatan terhadap titik pusat (rataan). • Apabila x1, x2, ...,xN adalah anggota suatu populasi terhingga berukuran N, maka ragam populasinya adalah N
s
2
1 = N
å
( Xi - m ) 2
i =1
© Agus Mohamad Soleh
• apabila x1, x2, ...,xn adalah anggota suatu contoh berukuran n, maka ragam contoh tersebut adalah: s
2
1 = n-1
n
å
( Xi -
x )2
i =1
© Agus Mohamad Soleh
• Definisi : Merupakan akar dari ragam, yaitu s simpangan baku populasi dan s simpangan baku sampel. diperoleh satuan yang sama dengan data aslinya
© Agus Mohamad Soleh
• Perhatikan hasil ringkasan terhadap data pendapatan masyarakat (juta rupiah per bulan) dari dua kabupaten berikut ini:
© Agus Mohamad Soleh
• Jika kita hanya menyajikan nilai rata-rata saja dari kedua kabupaten, maka dinyatakan bahwa masyarakat di kedua kabupaten memiliki pendapatan yang relatif sama. • Penjelasan yang lebih banyak akan diperoleh jika kita melihat nilai-nilai simpangan bakunya. • Kabupaten A memiliki simpangan baku yang lebih besar daripada Kabupaten B. Artinya, pendapatan masyarakat di Kabupaten A lebih heterogen dibandingkan di Kabupaten B. Implikasi dari informasi ini terhadap kesimpulan bisa signifikan.
© Agus Mohamad Soleh
© Agus Mohamad Soleh