LAPORAN
PRAKTIKUM ANALISIS DATA EKSPLORATIF
GEMPUR SAFAR (10877) Asisten SIGIT SAMAPTAAJI BAGUS PRAMULYA
Dosen Dra. SRIHARYATMI KARTIKO, M.Sc. LABORATORIUM KOMPUTASI MATEMATIKA DAN STATISTIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA & ILMU PENGETAHUAN ALAM
UNIVERSITAS GADJAH MADA YOGYAKARTA 2007
ANALISIS DATA EKSPLORATIF 1. Dasar Teori A.
Bentuk Visual Data Bentuk visual data atau basa disebut angkatan merupakan bentuk yang dikonstruksikan dari data yang merupakan visualisasi dari data tersebut, artinya dari bentuk ini dapat dilihat misalnya pengelompokkan data, pusat data, penyebaran data, sampai bentuk distribusi data. Bentuk visual dari data dapat dilihat dari daftar tally, dan diagram batang dan daun. Kedua bentuk visualisasi data ini memiliki kelebihan dan kekurangan masing-masing. Daftar tally secra garis besar dapat membantu dalam mengetahui pemusatan, persebaran dan bentuk distribusi data. Namun, bentuk visualisai data ini memiliki satu kekurangan, yaitu kita tidak dapat melihat nilai dari setiap observasi secara lengkap, sebab sebagian besar daftar tally disajikan dalam bentuk berkelompok (dalam bentuk interval), dan bahkan jika secara tunggal, kita hanya akan mempunyai beberapa nilai observasi yang mewakili nilai observasi yang sama. Kelemahan daftar tally
ini dapat kita tutpi dengan bentuk
visualisasi lainnya, yaitu diagram batang dan daun. Selain memiliki fungsi yang sama dengan daftar tally, bentuk visualisasi ini juga memiliki beberapa kelebihan seperti dapat digunakan dalam pembuatan array data, dan membandingan 2 buah angkatan data. Secara garis besar, bentuk-bentuk angkatan terdiri dari: univorm
B.
Simetris
Ringkasan Numerik
Menjurai Keatas
Menjurai kebawah
Berpuncak Ganda
Ringkasan numerik terdiri atas dua macam, yaitu: a.
Ukuran pusat yang berfungsi menunjukan letak pusat dari data, dan;
b.
Ukuran sebaran yang berfungsi menunjukan seberapa besar data menyebar.
a. Ukuran Pusat Ukuran pemusatan data terdiri atas: •
Rata-rata Penghitungan rata-rata melibatkan seluruh observasi yang terdapat di dalam data. n
_
x=
∑
i= 1
xi
n
•
Median Median adalah observasi yang terletak ditengah setelah data diurutkan dari nilaiobservasi terkecil menuju terbesar atau sebaliknya. Median ini membantu mengatasi masalah harga ekstrim pada rata-rata, karena median tidak terpengaruh oleh harga ekstrim. Bila ukuran data agak besar, penentuan median dapat mengikuti langkah-langkah berikut: 1.
mengurutkan data
2.
menghitung nilai n(banyak observasi)/2
3.
n/2 membesar ke k (n/2
k)
(aturan tambahan, jika n/2 = m ½ dan m ¾ maka k = m+1 dan jika n/2 = m atau m 1/3 maka k = m + ½ ) 4.
median adalah observasi ke-k dari terkecil atau dari
terbesar •
Kuartil Kuartil adalah harga yang membagi data menjadi empat bagian yang sama yang selanjutnya disebut k1, k2 (median) dan k3.
Kuartil dapat ditentukan dengan terlebih dahulu menentukan nilai n/4 p, dan selanjutnya diperoleh: k1 = observasi ke-p dari yang terkecil k3 = observasi ke-p dari yang terbesar. •
Modus Modus adalah harga yang muncul dengan frekuensi paling banyak. Suatu data bisa memiliki hanya satu modus, atau lebih dari 2 modus, bahkan tidak mempunyai modus atau dapat dikatan semua observasi adalah modus. Oleh karena itu, nilai modus jarang digunakan dalam menentukan pemusatan data.
•
Trirata Trirata adalah suatu ukuran pusat yang tidak dipengaruhi oleh harga ekstrim. Trirata dapat dicari dengan menjumlahkan k1, k3, dan 2 kali median dan selanjutnya di bagi 4 (empat). Atau secara matematis : Trirata =
•
k1 + 2 k 2 + k 3 4
Rata-rata tengah Rata-rata tengah adalah rata-rata dari observasi yang terletak di antara kuartil 1 dan kuartil 3 tidak termasuk kuartil 1 dan kuartil 3 tersebut.
b. Ukuran Sebaran Ukuran sebaran data terdiri atas: Range (jangkauan) Deviasi Kuartil Mean Deviasi Variansi Standar Deviasi
C.
Penggunaan Ringkasan Numerik
D.
Transformasi Angakatan Data
2. Permasalahan Adapun permasalahan yang akan dislesaikan pada laporan kali ini, yaitu: 1.
Bagaimanakah cara membuat visualisasi data ?
2. Bagaimanakah cara untuk membuat ringkasan numerik ? 3. Bagaimanakah cara untuk melakukan standardisasi dan transformasi ? Dan untuk menyelesaikan ketiga permasalahan tersebut, terlebih dahulu akan diselesaikan contoh soal berikut: a.
untuk memutuskan jumlah konter servis dalam sebuah supermarket, diperlukan data lama waktu antrian. Berikut ini adalah data lama waktu antrian (dalam menit): 3.6
1.9
1.1
1.4
0.6
1.1
1.6
1.8
0.2
2.8
1.2
1.9
2.1
0.3
1.3
2.5
0.8
5.2
0.3
1.1
3.1
1.1
1.0
0.5
0.8
0.5
0.4
0.4
0.9
1.8
0.2
1.2
2.3
1.2
0.7
0.3
1.0
0.6
1.8
0.4
3.1
1.1
1.4
1.1
4.5
1.3
1.7
0.6
1.8
0.8
0.9
0.8
1.1
0.7
1.6
1.7
0.7
1.3
2.2
0.6
i. buatlah visualisasi data dan ringkasan numeriknya ! ii. berapa proporsi antrian yang kurang atau sama dengan 1 menit ? b.
Ahli lingkungan hidup melakukan survey terhadap 28 ekor lumba-lumba untuk mengetahui tingkat akumulasi zat mercury pada mamalia laut. Konsentrasi air raksa (Hg) pada hati lumba-lumba tersebut diukur dalam microgram per gram berat. Di bawah ini adalah data surveynya : 1.70
183
221
286
101
264
316
1.72
168
406
315
209
85.4
481
8.8
218
252
241
445
314
118
5.9
180
329
397
485
278
318
Dari data-data tersebut divisualisasikan dengan membuat bentuk-bentuk visulisasi data diantaranya daftar tally, diagram batang dan daun, dan rigkasan numerik.
Buatlah visualisasi data dan ringkasan numeriknya ! c. Empat mahasiswa statistika ingin membandingkan jumlah pengunjung pada 4 wartel yang ada di suatu kecamatan. Kemudian mereka melakukan pengamatan selama beberapa hari, dan didapat hasil sebagai berikut:
i.
wartel1
wartel2
wartel3
wartel4
29 19 24 14 21 13 18 17 30 23 18 23 21 22 19
31 19 31 26 30 22 29 26 32 30 23 26 27 28 32
13 20 15 12 18 24 11 17 12 18 17 12 22 18 16
26 18 27 29 24 25 23 27 36 27 25 29 29 29 22
Buatlah boxplot, diagram batang dan daun, serta ringkasan numerik untuk data tersebut, lalu interprestasikan hasilnya !
ii. Lakukan standardisasi terhadap data yang ada dengan pusat mean dan sebaran standar deviasi ! iii.
Untuk perbandingan, lakukan standardisasi terhadap data yang ada dengan pusat median dan sebaran range !
iv. Ulangi langkah 1 untuk data soal nomor 2 dan 3 ! v. Simpulkan hasilnya ! d.
Lakukanlah transformasi data untuk variable head L, head W, Neck G, length, chest G, dan weight pada file Bears.MTW. i. Buatlah boxplot untuk tiap-tiap variable tersebut ! ii. Hitunglah nisbah untuk setiap transformasinya ! iii. Lakukan transformaasi data hingga diperoleh data yang dapat dikatan simetris !
3. Pembahasan Permasalahan a. Berikut ini adalah data lama waktu antrian (dalam menit):
Setelah kita menginputkan data yang akan dianalisis, selanjutnya kita akan membuat visualisasi dan ringkasan numeric dari data tersebut: a. Visualisasi data: Visualisasi data akan disajikan dalam bentuk daftar tally dan diagram batang dan daun. Kedua bentuk visualisasi ini dapat kita buat secara manual maupun dengan menggunakan perangkat lunak Minitab. •
Daftar tally Secara Manual 1.
data akan dibuat kedalam kelas-kelas interval dengan lebar interval= { nilai tertinggi(5,2) – nilai terendah (0,2)}/ jumlah kelas yang kita inginkan (missal 8)=0,63 dibulatkan 0,6.
2.
setelah
diketahui
lebar
interval,
selanjutnya
data
diklasifikasikan kedalam kelas masing-masing: 0,2 – 0,7
|||| |||| |||| ||
17
0,8 – 1,3
|||| |||| |||| |||| |
21
1,4 – 1,9
|||| |||| ||
12
2,0 – 2,5
||||
4
2,6 – 3,1
|||
3
3,2 – 3,7
|
1
4,4 – 4,9
|
1
5,0 – 5,5
|
1
3,8 – 4,3
Menggunakan Minitab: 3.
setelah
data
diinputkan
kedalam
worksheet
minitab,
selanjutnya klik menu Stat tables tally, dan akan muncul kotak dialog berikut:
4.
Kemudian masukan variabel atau kolom tempat data yang akan dibuat daftar tally-nya kedalam kolom variables dan aktirkan counts, percents, cumulative counts dan cumulative percents. Kemudian klik OK.
Dan outputnya seabagai berikut:
•
Diagram Batang dan daun Secara Manual: Batang Daun (satuan) (persepuluhan)
0
22333444556666777888899
1
001111111222333446677888899
2
12358
3
16
4
5
5
2
Menggunakan Minitab 1.
Inputkan data, klik Stat EDA steam and leaf Muncul kotak dialog berikut:
2. Masukan variable C1, aktifkan trim outlier, dan masukan increment
0.6, dan klik OK
b. Ringkasan Numerik: Oleh karena ringkasan numeric terdiri dari mean, median, kuartil, standar deviasi, variansi sdan sebagainya yang cukup menyita waktu jika diselesaikan dengan cara manual, maka akan diselesaikan dengan menggunakan minitab. 1.
inputkan data, klik calc row statistic (column statistic) atau jika kita ingin sekaligus menampilkan semua ringkasan numeric kita bisa klik stat basic statistic store (display) descriptive statistic dan muncul kotak dialog berikut:
masukan variable C1 dan klik OK dan muncul outputnya:
2.
•
Menghitung proporsi antrian yang kurang dari atau sama dengan 1 menit. Dengan menggunakan minitab tentu saja terlebih dahulu menginput data, kita dapat menghitung proprsi tersebut, caranya : 1.
Klik calc probability distribution normal , dan muncul kotak dialog berikut:
2.
oleh karena proporsi yang akan dihitung adalah kurang dari sama dengan 1 menit, maka aktifkan cumulative probability dan masukan nilai mean dan standar deviasi yang telah kita peroleh pada ringkasan numeric, klik OK, dan outputnya:
3.
sehingga, proporsi proporsi antrian yang kurang dari atau sama dengan 1 menit adalah 0, 3560.
a.
berikut ini adalah data Konsentrasi air raksa (Hg) pada hati 28 ekor lumbalumba diukur dalam microgram per gram berat:
1. Daftar tally setelah data diinputkan kedalam worksheet minitab, selanjutnya klik menu Stat tables tally, dan akan muncul kotak dialog berikut:
Kemudian masukan variabel atau kolom tempat data yang akan dibuat daftar tally-nya kedalam kolom variables dan aktirkan counts, percents, cumulative counts dan cumulative percents. Kemudian klik OK. Dan outputnya
2. Diagram Batang dan Daun Inputkan data, klik Stat EDA steam and leaf Muncul kotak dialog berikut:
Masukan variable C1, aktifkan trim outlier, dan masukan increment 0.6, dan klik OK , dan outputnya sebagai berikut:
3. Ringkasan Numerik a.
inputkan data, klik calc row statistic (column statistic) atau jika kita ingin sekaligus menampilkan semua ringkasan numeric kita bisa klik stat basic statistic store (display) descriptive statistic dan muncul kotak dialog berikut:
4.
masukan variable C1 dan klik OK dan muncul outputnya:
b. Berikut ini data perbandingan Jumlah Pengunjung di 4 wartel berbeda:
a. Boxplot, Diagram Batang dan Daun, Ringkasan Numerik •
Boxplot
•
Diagran Batang dan Daun
•
Ringkasan Numerik
b. Standarisasi •
Pusat mean, sebaran standar deviasi
•
Pusat median , sebaran range Output akan sekaligus ditampilkan secara bersamaan, sebagai berikut:
jumlah ByVar1 Mean1
StDev1
Median1
Range2
mean/stdv
med/rang
29 19 24 14 21 13 18 17 30 23 18 23 21 22 19 31 19 31 26 30 22 29 26 32 30 23 26 27 28 32
4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 4.75795 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052 3.87052
21 21 21 21 21 21 21 21 21 21 21 21 21 21 21 28 28 28 28 28 28 28 28 28 28 28 28 28 28 28
17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 13 13 13 13 13 13 13 13 13 13 13 13 13 13 13
1.73744 -0.36430 0.68657 -1.41518 0.05605 -1.62535 -0.57448 -0.78465 1.94762 0.47640 -0.57448 0.47640 0.05605 0.26622 -0.36430 0.91288 -2.18747 0.91288 -0.37893 0.65452 -1.41238 0.39616 -0.37893 1.17125 0.65452 -1.15402 -0.37893 -0.12057 0.13779 1.17125
0.470588 -0.117647 0.176471 -0.411765 0.000000 -0.470588 -0.176471 -0.235294 0.529412 0.117647 -0.176471 0.117647 0.000000 0.058824 -0.117647 0.230769 -0.692308 0.230769 -0.153846 0.153846 -0.461538 0.076923 -0.153846 0.307692 0.153846 -0.384615 -0.153846 -0.076923 0.000000 0.307692
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 20.7333 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667 27.4667
13 20 15 12 18 24 11 17 12 18 17 12 22 18 16 26 18 27 29 24 25 23 27 36 27 25 29 29 29 22
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 16.3333 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000 26.4000
3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 3.88526 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729 4.06729
17 17 17 17 17 17 17 17 17 17 17 17 17 17 17 27 27 27 27 27 27 27 27 27 27 27 27 27 27 27
13 13 13 13 13 13 13 13 13 13 13 13 13 13 13 18 18 18 18 18 18 18 18 18 18 18 18 18 18 18
c. Boxplot hasil standarisasi •
Pusat mean, sebaran standar deviasi
•
Pusat median , sebaran range
-0.85794 0.94374 -0.34318 -1.11533 0.42897 1.97327 -1.37271 0.17159 -1.11533 0.42897 0.17159 -1.11533 1.45850 0.42897 -0.08579 -0.09835 -2.06526 0.14752 0.63925 -0.59007 -0.34421 -0.83594 0.14752 2.36029 0.14752 -0.34421 0.63925 0.63925 0.63925 -1.08180
-0.307692 0.230769 -0.153846 -0.384615 0.076923 0.538462 -0.461538 0.000000 -0.384615 0.076923 0.000000 -0.384615 0.384615 0.076923 -0.076923 -0.055556 -0.500000 0.000000 0.111111 -0.166667 -0.111111 -0.222222 0.000000 0.500000 0.000000 -0.111111 0.111111 0.111111 0.111111 -0.277778
d. Analisis Data Bears Berikut ini data Bears yang diperoleh dari Minitab:
Selanjutnya akan dibuat boxplot dari tiap-tiap variable terhadap nomor observasi Variabel Head L
Variabel Head W
Variabel Neck G
Variabel Length
Variabel Chest G
Variabel Weight
Selanjutnya akan dilakukan penghitungan nisbah untuk setiap transformasi dengan terlebih dahulu menentukan transformasi: Penentuan Median dan IQR1 setiap variabel: Stat Basic Statistic Strore Descriptive Statistics (masukan variabel yang kaan ditransformasi, By variabel Obs. No dan pada Statistics aktifkan median dan Interquartil range (klik OK, pada Option aktifkan store a row of output for each row of output (klik OK) dan klik OK.)
Kemudian plot log median n vs log IQR n (n = 1,2,3,4,5,6 (variabel)) Stat Regression Fitted Line Plot (pada response [y] : IQR dan pada response [x] : Median, dan type of regression model : Linear, kemudian pada Option pilih transformation dan aktifkan logten of Y, logten of X, display logscale foe Y variable, display logscale foe X variable, (klik OK) klik OK.) Regression Analysis: IQR1 versus Median1 The regression equation is log(IQR1) = 27.9035 - 24.6367 log(Median1) S = 0.140443 R-Sq = 49.8 % Analysis of Variance Source DF SS Regression 1 2.72200
R-Sq(adj) = 49.5 % MS 2.72200
F 138.002
P 0.000
Error Total
139 140
2.74168 5.46368
0.01972
Regression Analysis: IQR3 versus Median3 The regression equation is log(IQR3) = 20.7916 - 15.3559 log(Median3) S = 0.0456390 R-Sq Analysis of Variance Source DF Regression 1 Error 139 Total 140
= 78.2 % SS 1.03621 0.28953 1.32573
R-Sq(adj) = 78.0 % MS 1.03621 0.00208
F 497.480
P 0.000
Regression Analysis: IQR5 versus Median5 The regression equation is log(IQR5) = 25.7772 - 16.1040 log(Median5) S = 0.0595329 R-Sq Analysis of Variance Source DF Regression 1 Error 139 Total 140
= 79.8 % SS 1.95033 0.49264 2.44296
R-Sq(adj) = 79.7 % MS 1.95033 0.00354
F 550.292
P 0.000
Regression Analysis: IQR4 versus Median4 The regression equation is log(IQR4) = 6.29832 - 2.92332 log(Median4) S = 0.0729883 R-Sq = 3.9 % Analysis of Variance Source DF SS Regression 1 0.030339 Error 139 0.740494 Total 140 0.770833
R-Sq(adj) = 3.2 % MS 0.0303389 0.0053273
F 5.69499
P 0.018
Regression Analysis: IQR6 versus Median6 The regression equation is log(IQR6) = -12.7473 + 6.78642 log(Median6) S = 0.0695991 R-Sq Analysis of Variance Source DF Regression 1 Error 139 Total 140
= 46.9 % SS 0.59493 0.67332 1.26825
R-Sq(adj) = 46.5 % MS 0.594930 0.004844
F 122.817
P 0.000
Dari hasil regresi antara log median vs log dq, diperoleh kemiringan (slope) atau nilai nisbah untuk setiap variabel yaitu: 1.
Variabel Head L, sebesar - 24.6367
2.
Variabel Head W, tidak diperoleh
3.
Variabel Neck G, sebesar - 15.3559
4.
Variabel Length, sebesar - 2.92332
5.
Variabel Chest G, sebesar - 16.1040
6.
Variabel Weight, sebesar + 6.78642
Oleh karena nilai nisbah yang diperoleh sangat besar sehingga menyulitkan kita untuk mengambil transformasi yang tepat, maka permasalahan ini akan diselesaikan dengan menggunakan Box-Cox. Stat Control Charts Box-Cox Transformation Pada single column masukan variabel yang akan dibuat box-cox-nya Pada subgroup size, masukan variabel obs. No Tentukan lokasi penyimpanan data yang telah ditransformasi pada kolom tertentu. Output:
Dari hasil Box-Cox, diperoleh nilai-nilai Lamba estimasi dari masingmasing variabel yang selanjutnya menunjukan pangkat transformasi dari masing-masing variabel berikut: 1.
Variabel Head L, sebesar 1,012
2. Variabel Head W, sebesar -0,224 3. Variabel Neck G, sebesar 0,787 4. Variabel Length, sebesar 1,910 5. Variabel Chest G, sebesar 0,674 6.
Variabel Weight, sebesar 0,337
Setelah diperoleh datya hasil tranformasi, selanjutnya dibuat box plot Dari data hasil transformasi untuk melihat apakah ada perubahan bentuk boxplot setelah data ditransformasi dan mengarah ke bentuk normal (simetris). a. Transformasi variabel Head L
b.
Transformasi variabel Head W
c.
Transformasi variabel Neck G.
d.
Transformasi variabel Length
e.
Transformasi variabel Chest G.
f.
Transformasi variabel Weight
4. Kesimpulan