KOMPUTASI STATISTIK 1. MANAJEMEN DATA Manajemen data di R dapat dilakukan dengan fasilitas (1) R-GUI, yaitu RCommander yang dapat diakses dengan mengaktifkan library Rcmdr dan (2)
R AB AY A
menuliskan perintah melalui comment line di R‐Console. 1.1 MANAJEMEN DATA DENGAN R-COMMANDER R (PACKAGE:: RCMDR)
Langkah awal untuk manajemen data dengan R‐Commander R Commander adalah melakukan
install package Rcmdr,, yaitu klik pada menu Tools kemudian pilih Install Packages, pilih Install From: Repository (CRAN). Kemudian ketikkan Rcmdr pada kolom Packages (separate multiple with space or comma).Install comma). packages demikian, dilakukan saat Aktifkan
package
library(Rcmdr)pada R-Console Console. >library(Rcmdr)
dengan
menuliskan
SU
internet.
terkoneksi
perintah
ST AT
IS
TI K
A
U
N
IP A
Setelah Rcmdr aktif, akan ada jendela baru baru seperti yang ditunjukkan oleh Gambar 1.1.
Gambar 1.1 Tampilan R‐Commander
Setelah package Rcmdr aktif, manajemen data dapat dilakukan, diantaranya:
data entry, editing, importing & exporting data, data dan transforming dataset dataset. A. Data Entry Data entry atau pengisian data dengan R‐Commander R Commander dilakukan melalui menu Data, pilih New Data Set,, ketik nama data pada kolom enter name for data set pada jendela New data set,, klik OK (Gambar 1.2). Misalkan nama data adalah
Page 1 Prodi Statistika UNIPA Surabaya
data_penjualan.Setelah Setelah klik OK, maka akan muncul jendela pertanyaan: Data set data
R AB AY A
already exists. Overwrite data set? Pilih Yes (Gambar 1.3).
N
IP A
SU
Gambar 1.2 Jendela New Data Set
U
Gambar 1.3 Dialog Overwrite Data
Gambar 4., merupakan jendela data editor untuk membuat variabel‐‐variabel yang ada
A
dalam data. Ketikkan judul kolom variabel pada V1. Untuk menambah baris dan kolom
TI K
klik add row dan add column. column. Misalkan data yang berisikan nama keterangan produk
ST AT
IS
dan jumlah barang dari tiap produk ditampilkan pada Gambar 1.4.
Gambar 1.4 Jendela Data Editor
Page 2 Prodi Statistika UNIPA Surabaya
Pada jendela R Commander terlihat bahwa dataset yang aktif adalah data_penjualan (Gambar 1.5). Untuk menampilkan data yang telah dibuat, ketikkan data_penjualan pada kolom R Script kemudian klik submit (Gambar 1.5). Maka, table
R AB AY A
data_penjualan akan tampil pada kolom console pada jendela R Studio (Gambar 1.6).
U
N
IP A
SU
Gambar 1.5 Tampilan R Commander setelah Data Entry
A
Gambar 1.6 Tampilan R‐console dengan data_penjualan
TI K
Selain itu, data data_penjualan juga dapat dilihat dengan mengeklik menu View data set pada jendela R Commander pada Gambar 1.5.
IS
B. Editing data
Editing data dapat dilakukan melalui klik menu Edit data set di sebelah dataset
ST AT
yang aktif pada jendela R Commander Commander seperti yang terlihat pada Gambar 1.5. Setelah mengeklik edit data set maka jendela data editor (Gambar 1.4) akan muncul kembali dan proses editing dapat dilakukan. C. Importing data Importing data dilakukan apabila data yang akan diolah tersimpan dalam for format data dari program lain, seperti file teks (clipboard), mc. Excel, spss, minitab, dan lain sebagainya. Contoh importing data pada modul ini yaitu importing data dari program excel. Langkah‐langkah langkah yang importing data excel juga dapat diterapkan pada for format data program lainnya. Page 3 Prodi Statistika UNIPA Surabaya
Untuk mengimpor data, pilih menu data kemudian pilih import data data, dan klik from Excel file pada R Commander (Gambar 1.7). Setelah itu, ketikkan nama/judul dataset pada kolom Enter name of data set pada jendela Import Excel Data Set. Centang kotak Variables name in first row of spreadsheet (judul/nama variabel ada pada baris pertama pada dataset excel) dan Convert character data to factors
SU
R AB AY A
(Gambar 1.8).
A
U
N
IP A
Gambar 1.7 Jendela R Commander untuk Importing Data
TI K
Gambar 1.8 Jendela Import Excel Data Set
Setelah jendela import excel data set di‐OK, di OK, maka lakukan pencarian dataset dan pilih dataset tersebut dari direktori tersimpan. Setelah file dataset dipilih akan muncul
IS
jendela select one table,, pilih sheet yang memuat dengan dataset. Pada Pada R Commander
ST AT
terlihat bahwa dataset yang aktif berbeda dengan dataset sebelumnya. Untuk melihat data set hasil importing excel klik View data setpada R Commander. Pengolahan data dilakukan dengan memilih data dari data set yang akan
dianalisis. Untuk memilih data dari kumpulan dataset yang telah dibuat dan aktif dilakukan dengan cara: (1) pilih menu data pada R Commander, (2) pilih active data set kemudian (4) pilih data yang akan dianalisis. set, dan (3) klik select active data set, D. Transformasi Data Set Transformasi dataset atau pengaturan variabel pada dataset dapat dilakukan dengan memilih menu manage variables in active data set pada R Commander. Page 4 Prodi Statistika UNIPA Surabaya
Terdapat beberapa pilihan yang ada dalam menu tersebut, diantaranya recode variables dan compute new variable. variable Recode variables adalah pilihan untuk mengode ulang variabel pada dataset aktif. Misalnya dataset aktif yang terpilih adalah dataset data_penjualan. Akan dilakukan nilai‐nilai yang ada recode untuk variabel jumlah. jumlah Recode dilakukan dengan mengode nil
R AB AY A
dalam variabel jumlah ke dalam variabel baru dengan nilai yang berbeda. Gambar 1.9, merupakan jendela recode variables yang muncul setelah
set. Pilih mengeklik recode variables pada menu manage variables in active data set variabel yang akan di‐recode recode pada kolom Variables to recode (pick one or more) more), beri nama/judul variabel baru hasil recode pada kolom New variable name or prefix for multiple recodes(misalkan (misalkan jumlah_recode), isi kolom enter recode directives directives,
0:10 = 1
SU
dengan formula sebagai berikut:
jumlah‐ nilai kurang dari 10 pada variabel jumlah bernilai 1 pada variabel jumlah _recode.
nilai antara 11 dan 15 pada variabel jumlah bernilai 2 pada variabel
IP A
11:15 = 2
jumlah_recode.
nilai antara 16 sampai 25 pada variabel jumlah bernilai 3 p pada variabel
N
16:25 = 3
ST AT
IS
TI K
A
U
jumlah_recode.
Gambar 1.9 Jendela Recode Variables
Page 5 Prodi Statistika UNIPA Surabaya
R AB AY A
Gambar 1.10 data_penjualan dengan Variabel Recode: jumlah_recode
Hasil recode variables menambah variabel pada data_penjualan yang ditampilkan pada Gambar 1.10.
Selanjutnya adalah pilihan compute new variable(CNV) pada menu manage
variables in active data set. set. CNV merupakan pilihan untuk membuat variabel baru
TI K
A
U
N
IP A
SU
yang dihasilkan oleh fungsi operasi dari variabel yang sudah ada.
Gambar 1.11.Jendela 1.11. Compute New Variable
Misalkan akan dibuat variabel baru dari variabel jumlah pada dataset
IS
data_penjualan dengan nama proporsi. Langkah‐langkah langkah yang harus dilakukan setelah
ST AT
mengeklik CNV adalah (1) pilih variabel yang akan digunakan sebagai fungsi untuk variabel baru (dalam modul ini adalah jumlah), ), (2) ketikkan nama variabel baru pada kolom New variable name (misal: proporsi), (3) 3) Ketikkan fungsi operasi yang akan digunakan pada kolom Expression to compute (dalam modul ini adalah proporsi dengan rumus: jumlah/sum(jumlah), sum merupakan fungsi penjumlahan seluruh nilai dalam satu kolom, jumlah), ), dan (4) klik OK(Gambar OK 1.11). Gambar 1.12, menampilkan data_penjualan terbaru setelah mendapatkan tambahan variabel proporsi proporsi.
Page 6 Prodi Statistika UNIPA Surabaya
1.2 MANAJEMEN DATA DENGAN COMMENT LINE
R AB AY A
Gambar 1.12 data_penjualan dengan Tambahan Variabel Proporsi
Comment line atau pada software R disebut R Console merupakan kolom khusus
pada jendela R untuk menuliskan perintah. Selain dilakukan di R Commander, manajemen data juga dapat dilakukan di R Console. Pada R, data memiliki sifat data
SU
(atribut), yaitu tipe data dan mode data. Tipe data berupa vector vector, matriks, list,
dataframe, array, factor, function (built in command). ). Sedangkan mode data meliputi
IP A
logical,numeric, complex,, dan character.Perbedaan .Perbedaan dari tiap mode data adalah sebagai berikut.
: Mode data yang dihasilkan dari perbandingan antar objek yang
Logical
Numeric
: Nilai desimal maupun bilangan bulat (integer)
ST AT
IS
TI K
A
U
N
menghas menghasilkan nilai kebenaran TRUE atau FALSE
Complex
: Suatu bilangan dengan penambahan nilai imajiner i misal: 2 + 2i
Page 7 Prodi Statistika UNIPA Surabaya
: Objek string yang diawali dan diakhiri dengan tanda petik (“___”).
Character
Fungsi as.character()digunakan as.character()digunakan untuk mengubah mode data yang
R AB AY A
lain menjadi mode character.
Penamaan suatu objek dalam R yang dituliskan dalam R Console, harus dimulai
dengan huruf (dapat berupa erupa kombinasi huruf besar dan huruf kecil, angka, dan
titik).Perlu diingat bahwa penaaman suatu objek sensitive terhadap huruf besar dan
huruf kecil (A berbeda dengan a).Assignment dilakukan dengan menambahkan < a). <‐ atau
SU
tanda = setelah nama objek. Tanda pagar pagar (#) merupakan sebuah perintah bahwa keterangan setelah tanda # bukan merupakan suatu assignment yang harus diproses. Beberapa tipe data dalam R, akan dijelaskan sebagai berikut.
IP A
A. Data berupa Vektor atau Array Satu Dimensi
Vektor atau array satu dimensi merupakan himpunan yang terdiri dari beberapa
N
mode data (numeric, logical, logical character,, dsb).Vector merupakan suatu bentuk data
U
tunggal.Vektor hanya terdiri dari satu mode data meskipun tersusun dari beberapa mode data.
merupakan
suatu
TI K
seq().seq()
A
Function yang digunakan untuk membentuk suatu vector adalah c()atau function
untuk
membuat
suatu
vector
yang
ST AT
IS
memungkinkan adanya increment dari suatu deret bilangan.
Page 8 Prodi Statistika UNIPA Surabaya
R AB AY A
B. Data berupa Matriks
Jika vector merupakan data array satu dimensi, maka matriks dapat dikatakan sebagai data array dua dimensi. Matriks tersusun dari baris dan kolom dan elemen
suatu matriks merupakan mode data yang sama. Function yang digunakan untuk
SU
membentuk suatu matriks adalah matrix().. Formula itu membentuk suatu matriks
berukuran 1x1 adalah matrix(data, nrow=1, ncol=1). ncol=1) Pengisian matriks baris perbaris
IS
TI K
A
U
N
IP A
dilakukan dengan menggunakan perintah optionalbyrow=T pada function matrix().
ST AT
Function length() untuk ntuk mengetahui jumlah jumlah elemen matriks sementara dim()
digunakan untuk mengetahui dimensi matriks. Untuk mengetahui tipe data matriks menggunakan function class(). class() Sedangkan function mode() digunakan untuk mengetahui mode matriks.
Matriks merupakan sebuah data yang memiliki memiliki beberapa operasi matematika, seperti perkalian (tanda * digunakan untuk operasi perkalian tiap elemen matriks dan Page 9 Prodi Statistika UNIPA Surabaya
tanda %*% digunakan untuk perkalian matriks), invers (menggunakan function
Selain
itu,
function
terdapat
yang
R AB AY A
solve()), ), dan transpose (menggunakan function t()) yang dijabarkan n sebagai berikut.
dapat
digunakan
untuk
menambahkan/menggabungkan baris matriks dan kolom matriks, yaitu dengan
U
N
IP A
SU
menggunakan function rbind() dan cbind().
A
C. Data berupa Data Frame
TI K
Data frame merupakan bentuk data yang hampir sama dengan matriks, yaitu terdiri dari baris dan kolom. Perbedaannya adalah mode data pada data frame dapat
IS
berbeda untuk setiap kolom, sedangkan matriks harus memiliki mode data yang sama disetiap elemen kolom.
ST AT
Data frame dapat diartikan suatu tabel dimana setiap kolom merupakan suatu
nilai nilai dari variabel tersebut. Function yang variabel yang barisnya merupakan nilai‐nilai digunakan untuk membuat tabel dengan data frame adalah data.frame() data.frame(). Function names()digunakan untuk memberi atau mengubah kolom/variabel dari tabel data frame.
Page 10 Prodi Statistika UNIPA Surabaya
R AB AY A
Terdapat beberapa perintah untuk mengektrasi bagian‐bagian bagian bagian tertentu dari
sebuah data frame yang telah dibentuk. Misalkan dari data frame data_penjualan,
ekstraksi data dilakukan untuk mengambil me merek Asus yang dibeli oleh Anto, maka perintah yang digunakan adalah: #kolom ke-2 ke dan baris ke-2
N
IP A
SU
> data_penjualan[2,2]
A
> data_penjualan$merek “merek”] > data_penjualan[“merek”]
U
Sedangkan untuk mengekstrak variabel merek digunakan perintah sebagai berikut. #dalam bentuk vector
TI K
D. Data berupa Data List
Data list merupakan suatu vector. Berbeda dengan vector yang telah dijelaskan
IS
sebelumnya, yaitu hanya terdiri dari satu mode data, data list merupakan suatu vector
ST AT
yang setiap elemennya dapat terdiri dari dari beberapa mode data atau bahkan tipe data yang berbeda. Function yang digunakan untuk membuat data list adalah list(). Seperti halnya matriks maupun data frame, ekstraksi sebagain data list dapat dilakukan.
Page 11 Prodi Statistika UNIPA Surabaya
R AB AY A
Function str() digunakan untuk mengetahui mode atau jenis data yang ada pada setiap
IS
TI K
A
U
N
IP A
SU
elemen data list.
ST AT
1.2.1 Importing Data Setelah mengetahui tipe dan mode data, Importing data juga dapat dilakukan
melalui comment line di R Console. Perlu diketahui bahwa setiap format file mempunyai tipe file (extension)) yang berbeda. Format ASCII dengan pemisah koma memiliki tipe file *.csv, tipe file dengan
pemisah tab adalah *.txt, dan *.dat untuk pemisah spasi.Excel memiliki tipe file *.xls, SPSS memiliki tipe file *.sav, minitab memiliki tipe file *.mtw, sedangkan stata memiliki tipe file *.dta. A. Membaca File ASCII Page 12 Prodi Statistika UNIPA Surabaya
ASCII merupakan suatu standar internasional dalam kode huruf dan simbol seperti Hex dan Unicode tetapi ASCII lebih bersifat universal, contohnya 124 adalah untuk karakter "|". ASCII selalu digunakan oleh komputer dan alat komunikasi lain untuk menunjukkan teks. Bilangan‐bilangan Bilangan dalam file ASCII dipisahkan oleh spasi, tab, tanda akhir baris atau tanda baris baru, serta pembatas yang lain (Suhartono, Suhartono, 2008).
R AB AY A
Terdapat beberapa cara yang dapat digunakan untuk meng‐import import data dari file ASCII ke dalam bentuk file R. Misalkan data tersimpan dalam format data *.txt yang tersimpan dalam notepad, yang berupa data sebagai berikut. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Importing data ta dengan bentuk data demikian dapat dilakukan dengan beberapa
IP A
SU
cara, yaitu dengan menggunakan function scan(), read.table(), dan read.delim() read.delim().
N
Function read.table() dan read.delim() juga dapat digunakan jika data berupa
U
tabel atau data frame. read.table() merupakan suatu function yang digunakan apabila data tersimpan dalam tipe file *.txt dan pemisah kata berupa satu atau beberapa spasi,
A
tab, maupun enter. Jika data telah tersimpan di suatu direktori maka argumen dalam
TI K
function menggunakan direktori ktori data tersimpan. UNIPA\\MODUL
R\\1.
\3. materi_konsep\\
AD-importing
ST AT
IS
>data= read.table("d:\\notepad.txt",header=TRUE)
Akan tetapi, apabila data belum tersimpan di suatu direktori manapun, langkah yang harus dilakukan adalah blok semua data yang ada di notepad kemudian copy data (Ctrl + C), kemudian ketikkan functionread.table(“clipboard”, read.table(“clipboard”, header=TRUE) pada R Console dan tekan enter.
Page 13 Prodi Statistika UNIPA Surabaya
Function read.delim() digunakan hanya jika pemisah kata berupa tab. Function ini dapat digunakan baik ketika data telah tersimpan maupun belum tersimpan. Langkah
R AB AY A
yang harus dilakukan sama seperti pada function read.table().. Argumen headerpada read.delim() tidak perlu dituliskan sebab default R telah menentukan bahwa baris
SU
pertama pada ada tabel merupakan nama kolom/variabel.
B. Importing Data dari File Excel
IP A
Untuk mengimpordata dari file excel menggunakan comment line pada R Console, tipe file harus diubah menjadi *.txt atau *.csv. Data dapat diimpor melalui function read.table() jika data disimpan dalam tipe file *.txt atau read.csv() jika tipe
TI K
A
U
N
file *.csv.
IS
Apabila data belum tersimpan di direktori manapun, maka langkah langkah‐langkah yang
ST AT
harus dilakukan untuk mengimpor data sama seperti mengimpor data di notepad. Langkah‐langkah yang harus dilakukan adalah blok semua data yang ada di worksheet excel
kemudian
copy
data
(Ctrl
+
C),
kemudian
ketikkan
functionread.table(“clipboard”, read.table(“clipboard”, header=TRUE) atau read.delim(“clipboard) pada R Console dan tekan enter. Untuk menampilkan beberapa baris saja saja dari suatu data maka gunakan perintah data3[1:5,].. Sementara untuk menampilkan beberapa kolom menggunakan perintah data3[,1:2].
Page 14 Prodi Statistika UNIPA Surabaya
R AB AY A
C.
Importing Data dari Software Statistik
SU
Sebelum melakukan importing data dari software statistic ke dalam R, paket ((package) foreign harus diinstall dan diaktifkan melalui library(foreign).. Setiap format file software statistik memiliki function yang berbeda dengan software statistik lainnya. : read.mtp untuk mengimpor file minitab *.mtw
2. SPSS
: read.spss untuk mengimpor file SPSS *.sav
3. SAS
: read.ssd atau read.xport
4. S+
: read.S
5. Stata
: read.dta
6. Sytat
: read.sytat
ST AT
IS
TI K
A
U
N
IP A
1. Minitab
Berikut ini merupakan perbedaan beberapa function yang dapat digunakan untuk mengimpor data dalam semua format data (kecuali software statistik):
Page 15 Prodi Statistika UNIPA Surabaya
read.table() digunakan jika pemisah kata berupa satu atau beberapa spasi, tab, enter atau lainnya (argumen sep). sep). Jika data berupa numerik maka desimal (argumen dec) disimbolkan dengan titik (.). Jika header tidak didefinisikan dalam function maka baris pertama tidak dianggap sebagai nama kolom/variabel melainkan nilai tabel itu sendiri. Sehingga jika menginginkan baris pertama sebagai nama kolom maka perlu
R AB AY A
didefinisikan header=TRUE. header=TRUE read.csv() digunakan jika pemisah kata berupa koma (,), desimal desimal disimbolkan dengan
tanda titik (.) dan baris pertama pasti dianggap sebagai nama kolom tanpa perlu mendefinisikan argumen header.
Read.csv2() digunakan jika pemisah kata berupa titik koma (;), desimal disimbolkan
perlu mendefinisikan argumen header.
SU
dengan tanda koma (,) dan baris pertama pasti dianggap sebagai nama kolom tanpa
Read.delim() digunakan jika pemisah kata berupa titik tab, desimal disimbolkan
mendefinisikan an argumen header.
IP A
dengan tanda titik (.) dan baris pertama pasti dianggap sebagai nama kolom tanpa perlu
N
Read.delim2() digunakan jika pemisah kata berupa titik tab, desimal disimbolkan
U
dengan tanda koma (,) dan baris pertama pasti dianggap sebagai nama kolom tanpa
A
perlu mendefinisikan argumen header.
TI K
Selain impor dari format file seperti yang yang telah dijelaskan, adapula package RODBCmerupakan package yang harus di‐install dan diaktifkan terlebih dahulu jika ingin mengimpor file dari format database seperti Microsoft Access, termasuk format
IS
database dalam excel. Formula yang digunakan untuk mengimpor mengimpor format file database
ST AT
dari excel adalah sebagai berikut.
>library(RODBC)
namafile.xls") >data=odbcConnectExcel("namafile >dataku=sqlFetch(data, , "mysheet") >odbcClose(data)
Sedangkan untuk mengimpor file database dari access, formula yang digunakan adalah sebagai berikut.
>library(RODBC) namafile.xls") >data=odbcConnectAccess("namafile >dataku=sqlFetch(data, , "mysheet") >odbcClose(data)
Page 16 Prodi Statistika UNIPA Surabaya
1.2.2 Exporting Data Ekspor data dilakukan untuk menyimpan file data R ke format file lain. Ekspor data membutuhkan package khusus yang perlu di‐install yaitu, xlsReadWrite xlsReadWriteuntuk ekspor data ke excel, untuk ekspor data ke Excel Spreadsheet dibutuhkan packagexlsx, dan foreign untuk ekspor data ke software statistik lainnya (SPSS, Minitab, SAS, dsb).
R AB AY A
>library(xlsReadWrite) #ekspor ke excel >library(xlsx) library(xlsx) #ekspor ke spreadsheet excel >library(foreign) # ekspor ke software statistik >write.xls(NamaDataDalamR,”c:/NamaData.xls”) # ekspor data dalam bentuk excel >write.table(NamaDataDalamR,”c:/NamaData.txt”,sep=” t”) # ekspor data dalam bentuk txt >write.table(NamaDataDalamR,”c:/NamaData.txt”,sep=”\t”) package="SAS") #ekspor >write.foreign(NamaDataDalamR,”c:/NamaData.txt” NamaDataDalamR,”c:/NamaData.txt” "c:/NamaData.sas", .sas", data dalam SAS
2. PENGUJIAN NORMALITAS DAN HOMOGENITAS DATA 2.1 Pengujian Normalitas Data
SU
Pengujian normalitas data melalui software R dilakukan dengan menginstall dan mengaktifkan package nortest.Pengujian nortest.Pengujian normalitas data dengan package tersebut
meliputi: (1) Uji Anderson‐Darling Anderson dengan function ad.test(),, (2) Uji Shapiro Shapiro‐Wilk
IP A
dengan function Shapiro.test(), Shapiro.test() dan (3) Uji Kolmogorov‐Smirnov rnov dengan function lillie.test().. Hipotesis dalam pengujian normalitas adalah sebagai berikut.
N
H0 : Data berdistribusi normal, X ~ N ( , 2 )
U
H1 : Data tidak berdistribusi normal
Data yang akan digunakan sebagai contoh aplikasi pengujian normalit normalitas data di
A
R adalah data iris pada variabel Sepal.Length. Misalkan data didefinisikan oleh variabel
TI K
SL. Untuk melakukan pengujian dengan R‐Commander R Commander data dibentuk menjadi data frame terlebih dahulu. Pengujian normalitas dengan ketiga pengujian tersebut juga
IS
dapat dilakukan melalui fasilitas R-Commander.
ST AT
>iris > SL=iris$Sepal.Length > SL=data.frame(SL) #bentuk data sebagai data frame
Setelah data set diaktifkan, yaitu pilih data SL pada menu active data set, untuk menguji normalitas pilih menu statistics kemudian summaries iesdan klik test of normality(Gambar 2.1).
Page 17 Prodi Statistika UNIPA Surabaya
R AB AY A
Gambar 2.1 Menu Test of Normality pada R‐Commander
Pada jendela Test of Normality (Gambar 2.2) diketahui bahwa terdapat beberapa pilihan pengujian normalitas data, default menggunakan Uji Shapiro Shapiro‐
Wilk.Pada modul ini, data SL dengan R-Commander dilakukan dengan Uji Shapiro Shapiro‐ Wilk.Hasil pengujian ditampilkan pada R‐Console R Console pada Gambar 2.3.B 2.3.Berdasarkan hasil
SU
pengujian Shapiro‐Wilk Wilk yang disajikan pada Gambar 2.3, diketahui bahwa data SL tidak
TI K
A
U
N
IP A
P berdistribusi normal karena P‐Value kurang dari 5%.
ST AT
IS
Gambar 2.2 Jendela Test of Normality
Gambar 2.3 Output Test of Normality dengan Shapiro‐Wilk Shapiro dengan R‐Commander
Uji normalitas data SL melalui comment line dilakukan dengan uji Kolmogorov Kolmogorov‐ Smirnov. Pengujian normalitas dengan comment line tidak bisa dilakukan jika bentuk data adalah data frame. Hasil uji Kolmogorov‐Smirnov Kolmogorov Smirnov yang disajikan pada Gamba Gambar 2.4 disimpulkan bahwa data tidak berdistribusi normal.
Page 18 Prodi Statistika UNIPA Surabaya
dengan Comment Line Output Uji Kolmogorov‐Smirnov Kolmogorov
R AB AY A
Gambar 2.4
2.2 Pengujian Homogenitas Data
Uji homogenitas data merupakan uji kesamaan varians. Dalam R, uji homogenitas data dapat dilakukan melalui R-Commander dan R-Console Console. Fasilitas uji homogenitas data yang disediakan oleh R adalah, uji F dua variansi, Uji Bartlett, dan Uji
Levene. Melalui R‐Commander, Commander, pengujian homogenitas ada pada menu statistics,
A
U
N
IP A
SU
variances,, dan pilih metode pengujian yang akan dilakukan (Gambar 2.5).
TI K
Gambar 2.5 Uji Homogenitas Data dalam R‐Commander
Data yang akan digunakan diambil dari data bawaan R, yaitu data sleep. Data sleep merupakan data yang menunjukkan pengaruh pemberian obat tidur terhadap
IS
penambahan lama tidur. Terdapat Ter tiga variabel, yaitu (1) extra menunjukkan
ST AT
bertambah atau berkurangnya lama tidur, (2) group menunjukkan jenis obat yang diberikan, dan (3) ID adalah identitas pasien. Uji homogenitas data dilakukan untuk mengetahui homogenitas varians dari
masing masing jenis obat tidur. Untuk melakukan lama tidur yang dihasilkan oleh masing‐masing pengujian melalui R-Commander Commander data dibentuk menjadi sebuah data frame dengan namasleepd.
>data(“sleep”) #memanggil data >sleepd=data.frame(sleep)
Hipotesis yang digunakan adalah sebagai seb berikut.
Page 19 Prodi Statistika UNIPA Surabaya
H0 : Varians obat tidur jenis 1 sama dengan obat tidur jenis 2 (Varians homogen)
12 22 H1 : Varians obat tidur jenis 1 tidak sama dengan obat tidur jenis 2 (Varians tidak homogen)
12 22
R AB AY A
2.2.1 Uji F Dua Varians
Commander terbuka, pilih data sleepd sleepdsebagai active Setelah jendela R‐Commander datasetdan pilih Two-Variances Variances F-Test(TF)setelah F setelah melakukan tahapan seperti
Gambar 2.5. Jendela dialog TF dengan menu Data dan Optionsakan akan tampil seperti pada Gambar 2.6. Pilih variabel yang y bertindak sebagai grup pada kolom Groups (pick one) dan pilih variabel respon pada kolom Response Variable (pick one).. Sedangkan menu
(a)
ST AT
IS
TI K
A
U
N
IP A
SU
options digunakan akan untuk menentukan hipotesis alternatif (H1).
(b)
F (a) Data, (b) Options Gambar 2.6 Jendela Two Variances F‐Test
Pengujian dengan comment line dituliskan sebagai berikut.
>var.test(sleep$extra~sleep$group,alternative="two.sided",conf.level=0.95)
Terdapat argumen alternative pada function var.test(),, yang digunakan untuk menentukan hipotesis alternatif. Untuk hipotesis dua arah gunakan argumen two.sided, less untuk selisih < 0, dangreater dan untuk selisih > 0. Page 20 Prodi Statistika UNIPA Surabaya
Kesimpulan yang dihasilkan dengan uji TF baik melalui R‐Commander R Commander ataupun comment line adalah varians antara obat tidur jenis 1 dan jenis 2 sama, atau varians
SU
R AB AY A
diantara keduanya homogen (Gambar 2.7).
Gambar 2.7 Output uji TF
IP A
2.2.2 Uji Bartlett
Uji Bartlett dapat digunakan jika sampel yang akan diuji lebih dari dua. Sebagai
N
contoh kasus dengan sampel lebih dari dua, data yang digunakan adalah data bawaan R,
U
yaitu InsectSprays.
Data tersebut menginformasikan tentang jumlah serangga yang digunakan
A
(count)) untuk setiap insektisida yang berbeda (spray).Ada ( ).Ada enam jenis inse insektisida yang
TI K
digunakan.Pengujian homogenitas dilakukan untuk mengetahui kesamaan varians dari jumlah serangga yang digunakan dari keenam jenis insektisida. insektisida.Hipotesis yang
ST AT
IS
digunakan sebagai berikut.
H 0 : 12 22 62 H 1 : minimal ada satu i2 2j
Gambar 2.8 Jendela Bartlett’s Test
Page 21 Prodi Statistika UNIPA Surabaya
Pengujian homogenitas melalui R‐Commander R Commander dilakukan dengan memilih Bartlett’s test pada Gambar 2.5, kemudian menentukan variabel variabel‐variabel yang digunakan sebagai variabel faktor dan variabel respon (Gambar 2.8). Sebelumnya definisikan data sebagai data frame frame agar dapat diolah melalui R R‐Commander. Sedangkan pengujian melalui comment line,, dilakukan dengan perintah sebagai berikut.
IP A
SU
R AB AY A
>bartlett.test(InsectSprays$count, bartlett.test(InsectSprays$count, InsectSprays$spray)
Gambar 2.9 Output Bartlett’s Test
Output yang diperoleh ditampilkan pada Gambar 2.9.Berdasarkan hasil
N
pengujian dengan Bartlett’s test diketahui bahwa varians dari keenam jenis insektisida
A
2.2.3 Uji Levene
U
tidak homogen karena P‐Value Value yang dihasilkan sangat kecil (kurang dari 5%).
TI K
Sama halnya dengan uji Bartlett, uji Levene dapat digunakan untuk menguji kesamaan varians dari beberapa sampel. Data yang digunakan sama seperti pada
IS
pengujian dengan Bartlett’s test, yaitu InsectSprays. Setelah melalui tahapan pada Gambar 2.5 akan muncul jendela seperti Gambar 2.10 yang digunakan untuk memilih
ST AT
variabel sebagai faktor dan sebagai respon.
Gambar 2.10 Jendela Levene’s Test
Page 22 Prodi Statistika UNIPA Surabaya
Untuk melakukan pengujian melalui comment line,function function yang digunakan adalah leveneTest(). Perintah yang dituliskan melalui R-Console Consoleadalah sebagai berikut. >leveneTest(InsectSprays$count, leveneTest(InsectSprays$count, InsectSprays$spray)
Output yang dihasilkan baik melalui R-Commander maupun comment line
R AB AY A
ditampilkan pada Gambar 2.11.Berdasarkan informasi pada Gambar 2.11 diketahui bahwa hasil pengujian dengan uji levene menyatakan bahwa vvarians keenam
IP A
SU
insektisida tidak homogen.
Gambar 2.11 Output Levene’s Test
N
3. PENGUJIAN HIPOTESIS RATA-RATA SATU SAMPEL
U
Pengujian hipotesis rata‐rata rata dilakukan dengan uji t. Misalkan pada data sleep
A
rata‐rata lama tidur seperti yang telah digunakan pada subbab 2.2, diduga bahwa rata
TI K
pasien yang mengonsumsi obat tidur jenis apapun bertambah selama 2 jam. Uji rata rata‐ rata satu sampel dengan uji t dilakukan untuk mengetahui kebenaran hipotesis
H0 : 2 H1 : 2
ST AT
IS
tersebut.Hipotesis yang digunakan adalah sebagai berikut.
Uji rata‐rata rata satu sampel dengan R‐Commander R Commander dilakukan melalui menu
Statistics, pilih Means,, dan pilih Single sample t-test (Gambar 3.1). Kemudian akan muncul jendela seperti Gambar 3.2. Pada kolom Variable (pick one) pilih extra yang akan diuji rata‐ratanya, ratanya, inputkan nilai hipotesis rata‐rata, rata rata, yaitu 2 pada kolom Null hypothesis: mu=, dan n pilih hipotesis alternative yang akan digunakan (pada modul ini pilih Population mean !=mu0. !=mu0 Uji rata‐rata rata satu sampel dengan comment line, dilakukan kukan dengan function t.test().. Perintah yang dituliskan adalah sebagai berikut. Page 23 Prodi Statistika UNIPA Surabaya
R AB AY A
>t.test(sleep$extra, alternative='two.sided', mu=2 conf.level=.95)
IP A
SU
Gambar 3.1 Uji Rata‐Rata dalam R‐Commander
N
Gambar 3.2 Jendela Single‐Sample t‐Test
U
P‐Value yang dihasilkan dari uji t sebesar 0.3208 (lebih besar dari 5%). Oleh karena itu dapat disimpulkan bahwa rata‐rata rata lama tidur pasien yang mengonsumsi
ST AT
IS
TI K
A
obat tidur bertambah selama 2 jam adalah benar (Gambar 3.3).
Gambar 3.3 Output Uji t‐ Rata‐rata Satu Sampel
Page 24 Prodi Statistika UNIPA Surabaya
4. PENGUJIAN HIPOTESIS RATA-RATA SAMPEL INDEPENDEN DAN BERPASANGAN 4.1 Pengujian Hipotesis Rata-rata Rata Sampel Independen Pengujian hipotesis rata‐rata rata rata sampel independen atau saling bebas adalah pengujian untuk membandingkan embandingkan nilai rata‐rata rata rata dari dua kelompok tertentu (yang dipilih secara acak) yang disebabkan oleh perlakuan berbeda yang diberikan di tiap
R AB AY A
kelompok. Berdasarkan data sleep, sleep, terdapat dua kelompok pasien dimana setiap kelompok diberikan dua jenis obat tidur yang berbeda, obat jenis 1 dan obat jenis 2. Berdasarkan
pemberian kedua jenis obat tersebut, diduga bahwa penambahan lama tidur obat jenis
1 lebih banyak daripada penambahan lama tidur obat jenis 2.Hipotesis yang diberikan adalah sebagai berikut.
SU
H 0 : 1 2 H 1 : 1 2
Uji independen dengan uji t digunakan untukmenguji hipotesis tersebut. Proses
IP A
pengujian melalui R-Commander Commander dilakukan setelah data terbentuk menjadi data frame yang telah dibentuk pada subbab 2.2, yaitu sleepd.. Setelah dataset diaktifkan, pengujian
N
independen sampel t‐test test dapat dilakukan dilakukan dengan memilih menu Independent
U
samples t-test seperti Gambar 3.1.
Gambar4.1 merupakan jendela Independent Samples t-test dengan menu data
A
dan options.Menu data digunakan untuk memilih variabel yang diuji.Pilih variabel
TI K
group data sleepd pada kolom Groups (pick one) dan pilih variabel extra sebagai variabel respon. Sedangkan menu options digunakan untuk menentukan hipotesis
IS
alternative (pada modul ini pilih Difference > 0), ), selang kepercayaan, dan asumsi homogenitas varians. Pada subbab 2.2.1, 2.2.1, telah didapatkan kesimpulan bahwa varians
ST AT
kedua jenis obat tidur sama. Oleh karena itu, pilih Yes pada kolom pertanyaan assume equal variances?.
(a)
Page 25 Prodi Statistika UNIPA Surabaya
R AB AY A
(b) Gambar 4.1Jendela Independent Samples t‐Test
Uji rata‐rata rata sampel independen melalui comment line menggunakan function
t.test(). Terdapat argumen logical, logical yaitu var.equalsama dengan TRUE jika varians data diasumsikan sama, sedangkan FALSE jika varians data kedua kelompok tidak sama. Perintah dalam comment line dituliskan sebagai berikut.
alternative='greater',
conf.level=.95,
TI K
A
U
N
IP A
SU
>t.test(sleep$extra~sleep$group, sleep$extra~sleep$group, var.equal=TRUE,data=sleep)
4.2 Uji t‐ Rata‐rata Sampel Independen Gambar 4.2Output
IS
Berdasarkan output yang dihasilkan oleh uji t sampel independen, diperoleh
ST AT
kesimpulan bahwa H0 gagal ditolak, karena P‐Value P Value bernilai besar (Gambar 4.2). Sehingga dapat diartikan bahwa penambahan lama tidur obat jenis 1 tidak lebih banyak daripada penambahan lama tidur obat jenis 2. 4.2 Pengujian Hipotesis Rata-Rata Rata Sampel Berpasangan Uji hipotesis sampel pel berpasangan digunakan untuk membandingkan membandingkan nilai rata rata‐
rata dari indivual/objek yang sama, akan tetapi memiliki subjek yang berbeda. Subjek berbeda terjadi atas perlakuan yang berbeda.Dengan berbeda.Dengan kata lain, uji hipotesis sampel berpasangan merupakan pengujian untuk menguji apakah terdapat perbedaan pada
Page 26 Prodi Statistika UNIPA Surabaya
satu individu sebelum dan sesudah dilakukan suatu perlakuan. perlakuan. Uji hipotesis rata rata‐rata sampel berpasangan menggunakan uji t. Uji t untuk hipotesis rata‐rata rata rata sampel berpasangan dengan R, dapat dilakukan melalui R‐Commander Commander dan comment line seperti uji hipotesis lainnya yang telah dijelaskan. Akan tetapi, struktur data yang digunakan pada uji sampel berpasangan
R AB AY A
berbeda dengan uji sampel independen. Sebagai contoh kasus, data yang digunakan adalah data sleepdengan
memisalkan data tersebut merupakan data kualitas sebuah obat tidur. Variabel extra
merupakan lama tidur pasien sebelum dan sesudah diberikan obat tidur. tidur.Variabel Group merupakan pakan informasi pemberian obat tidur, dimana nilai 1 menyatakan lama
tidur pasien sebelum diberikan obat tidur dan nilai 2 merupakan lama tidur pasien
SU
setelah diberi obat tidur.Pabrik ingin mengetahui kualitas obat tidur terhadap
penambahan lama tidur dari 10 pasien,, dengan dugaan pemberian obat tidur dapat menambah lama tidur pasien.Hipotesis pasien Hipotesis yang digunakan adalah sebagai berikut.
IP A
H 0 : 1( tanpa obat tidur ) 2 ( dengan obat tidur ) H 1 : 1( tanpa obat tidur ) 2( dengan obat tidur )
N
Seperti yang telah disebutkan sebelumnya, struktur data untuk uji t sampel
U
berpasangan berbeda dengan uji uji t sampel independen. Untuk itu diperlukan perubahan struktur data dengan cara seperti yang ditampilkan pada Gambar 4.3. Struktur data
ST AT
IS
TI K
A
sleep yang baru dinamai dengan sleepB.
Page 27 Prodi Statistika UNIPA Surabaya
R AB AY A SU IP A
N
Gambar 4.3 Perubahan Struktur Data Sleep
U
R‐ Setelah mengaktifkan data set sleepB,, analisis dengan menggunakan R
A
Commander dilakukan dengan memilih Paired t-test seperti Gambar 3.1. dapat dilihat
TI K
pada jendela R-Commander Commander,, adanya perubahan struktur data menyebabkan fasilitas pengujian independent samples t‐test, t one‐way ANOVA, dan multi‐way way ANOVA menjadi
IS
non‐aktif.
Pada jendela Paired t-Test(Gambar t 4.4), pilih variabel tanpaObat sebagai
ST AT
variabel pertama dan denganObat sebagai variabel kedua pada menu Data. Kemudian, pada menu Options,, pilih hipotesis alternatif Difference < 0,, sesuai dengan hipotesis yang telah ditentukan sebelumnya.Setelah itu, tentukan selang kepercayaan yang diinginkan (pada modul ini 95%).
Page 28 Prodi Statistika UNIPA Surabaya
SU
(b)
R AB AY A
(a)
Gambar 4.4 Jendela Paired t‐Test
IP A
Selain menggunakan R‐Commander, R Commander, uji t sampel berpasangan juga dapat dilakukan melalui function t.test() yang dituliskan pada R‐Console. Console. Argumen logical
N
yang harus dituliskan pada formula t.test()adalah paired sama dengan TRUE untuk
U
menyatakan bahwa pengujian an yang dilakukan adalah sampel berpasangan. >t.test(sleepB$tanpaObat,sleepB$denganObat, t.test(sleepB$tanpaObat,sleepB$denganObat, alternative='less',conf.level=.95, paired=TRUE)
A
Berdasarkan hasil analisis dengan menggunakan uji t sampel berpasangan,
TI K
diketahui bahwa P‐Value Value yang dihasilkan kecil.Oleh kecil.Oleh karena itu dapat disimpulkan bahwa H0 ditolak.Artinya, terjadi penambahan lama tidur setelah pasien meminum obat
ST AT
IS
tidur (Gambar 4.5).
4. Output Uji t‐ Rata‐rata Sampel Berpasangan Gambar 4.5
Page 29 Prodi Statistika UNIPA Surabaya
5. ANALISIS REGRESI Regresi linier adalah suatu metode analisis untuk mengetahui hubungan fungsional antar variabel.Regresi linier dibedakan menjadi dua, yaitu regresi linier
5.1 REGRESI LINIER SEDERHANA
R AB AY A
sederhana dan regresi linier berganda.
Regresi linier sederhana merupakan metode regresi yang hanya memiliki satu prediktor). matematis, regresi linier sederhana dituliskan peubah bebas (variabel prediktor).Secara sebagai berikut.
Y 0 1 X Y 0 1 X
SU
Dengan
: Nilai pengamatan dari variabel tak bebas (variabel dependen/variabel
Y
Y
IP A
respon)
: Nilai ramalan/prediksi dari variabel tak bebas (variabel dependen/variabel respon)
U
prediktor)
N
: Nilai pengamatan dari variabel bebas (variabel independen/variabel
X
: intersep atau konstanta konstan
1
: slope atau koefisien kemiringan model regresi
: error atau nilai kesalahan prediksi
TI K
A
0
IS
Paket (package)) untuk analisis regresi dengan bantuan software R biasanya telah ter terinstall otomatis dalam software (package stats).
ST AT
Contoh aplikasi analisis regresi dengan software R menggunakan data: waktu
yang diperlukan untuk memroduksi suatu produk (run ( time/rt) /rt) dan jumlah produk size ), data dipilih secara acak, dan didapatkan 20 jenis yang akan di produksi (run run size/rs), produk (Sheather, ____).. Dalam modul ini akan diteliti apakah jumlah produk yang diproduksi (disebut sebagai variabel prediktor X)) memengaruhi waktu produksi (disebut sebagai variabel respon Y). Langkah‐langkah, syntax, syntax output, dan interpretasi output yang dilakukan untuk analisis regresi dengan software R adalah sebagai berikut.
Page 30 Prodi Statistika UNIPA Surabaya
1. Membuat data frame Misalkan data frame yang dibuat diberi namaproduction nama yang mempunyai dua variabel: variabel Y,, yaitu run time (rt) dan variabel X adalah run size (rs). Perin Perintah‐ perintah yang digunakan sebagai berikut.
IP A
SU
R AB AY A
>production<- data.frame(rt=c(195, 215, 243, 162, 185, 231, 234, 166, 253, 196, 220, 168, 207, 225, 169, 215, 147, 230, 208, 172), rs=c(175, 189, 344, 88, 114, 338, 271, 173, 284, 277, 337, 58, 146, 277, 123, 227, 63, 337, 146, 68)) 22 > #untuk memanggil data, gunakan perintah “nama data frame”, yaitu production >production
N
Gambar 5.1 Function dan Output Data Frame Production
U
Gambar 5.1 menampilkan data frame dari data production, yang meliputi data
A
run time (rt)) dan run size (rs) masing‐masing masing masing sebanyak 20 observasi jenis produk.
TI K
2. Membuat scatter plot dan analisis korelasi untuk data production Function yang digunakan untuk membuat scatter plot adalah plot. Tanda ~ merupakan tanda yang digunakan untuk menjalankan menjalankan proses regresi.Formula yang
IS
digunakan adalah variabel respon ~ variabel predictor 1+variabel predictor
ST AT
2+…+variabel predictor p. >plot(rt ~ rs, data = production, xlab="run size", ylab="run time", main="productivity")
Page 31 Prodi Statistika UNIPA Surabaya
R AB AY A
Gambar 5.2 Scatterplot antara Run Size (X) dan Run Time (Y)
IP A
SU
> #xlab, ylab, dan main merupakan perintah untuk memberi judul >cor.test(production$rt,production production$rs)
Gambar 5.3 Function dan Output Matriks Korelasi antara X dan Y
N
Gambar 5.2 menampilkan scatterplot antara variabel X dan variabel Y dari 20
U
data observasi. Berdasarkan Gambar 5.3 diketahui nilai korelasi antara X dan Y sebesar
A
0.854, menunjukkan bahwa terdapat hubungan positif antara variabel X dan Y. p‐value
TI K
dari pengujian pearson correlation (1.615e‐06) 06) lebih kecil dari 5% sehingga hubungan antara variabel X dan Y signifikan secara statistik.
IS
3. Membuat model regresi dari data production Function yang digunakan untuk membuat model regresi adalah lm. Misalkan
ST AT
“reg” adalah nama untuk model regresi yang terbentuk.
>reg<- lm(rt ~ rs, data=production) > #gunakan perintah “reg” untuk memanggil output >reg
Gambar 5.4Formula 5.4 dan Output Model Regresi
Page 32 Prodi Statistika UNIPA Surabaya
Berdasarkan Gambar 5.4 5 diketahui bahwa model regresi dari data production, yaitu hubungan antara jumlah produk (X) ( dan lama produksi (Y)) adalah sebagai berikut.
Yˆ 149.747 0.259 X Dari model regresi tersebut, diketahui bahwa terdapat hubungan positif antara variabel X dan Y yang ditunjukkan oleh nilai slope positif sebesar 0.259.Nilai slope tersebut
R AB AY A
( ) sebesar 0.259 satuan waktu diartikan sebagai rata‐rata rata kenaikan waktu produksi (Y) akibat kenaikan per satuan jumlah produk (X). (
Function summary digunakanuntuk digunakanu resi data production lebih melihat hasil regresi lengkap. Beberapa eberapa informasi yang diberikanadalah nilai residual, koefisien regresi beserta nilai signifikansi (p‐value), value), dan nilai‐ nilai nilai untuk uji kebaikan model
U
N
IP A
SU
>summary(reg)
A
Gambar 5.5 5Function dan Output Summary dari Model Regresi egresi
TI K
Nilai minimum dan maksimum residual yang dihasilkan oleh model regresi sebesar ‐28.597 28.597 dan 29.627. Berdasarkan hasil uji t pada Gambar 5.5 5.5, diketahui bahwa
IS
jumlah produk (X)) berpengaruh signifikan terhadap waktu produksi ((Y). Hal tersebut
ST AT
disebabkan p‐value value dari uji t (sebesar 1.61e‐06) 1.61e lebih kecil dari 5% . Nilai Adjusted R squared menunjukkan bahwa variabel prediktor (X) ( ) mampu menjelaskan varians dari variabel respon (Y)) sebesar 71.52%, persen sisanya dijelaskan dijelaskan oleh variabel lain (Gambar 5.5).
Gambar 5.6 6 merupakan plot dengan garis regresi antara X dengan Y,
menunjukkan variasi observasi yang kecil dari garis regresi yang terbentuk.
Page 33 Prodi Statistika UNIPA Surabaya
R AB AY A
Gambar 5.6 Plot dengan Garis Regresi
Gambar 5.6 6 dapat diperoleh dengan menggunakan formula‐formula formula berikut.
>plot(production$rs, production$rt, xlab="run size", ylab="run time", main="productivity") >lines(production$rs, fitted(reg), col="red") #untuk membuat garis regresi antara variabel rs (X) dan nilai prediksi Y (fitted itted values Y )
SU
4. Selang Kepercayaan (Confident Confident Interval) Interval 95%
Function confint merupakan function untuk ntuk menghitung taksiran interval dari satu atau lebih parameter pada model yang diestimasi.
N
IP A
>confint(reg, level=0.95)
U
Gambar 5.7 Formula dan Output Selang Kepercayaan (Confident Interval)) Parameter ˆ 0 dan ˆ1
A
Gambar 5.7 7 menunjukkan nilai ˆ 0 (parameter parameter taksiran intersep intersep) terletak antara
132.251 ˆ0 167.244 0.181 ˆ 0.337 1
ST AT
IS
dan 0.337.
TI K
132.251 dan 167.244 sementara nilai ˆ1 (parameter taksiran X) terletak antara 0.181
Nilai selang kepercayaan yang tidak melewati nilai nol menyimpulkan bahwa jumlah (rt produk (rs) berpengaruh terhadap waktu produksi (rt). 5. Menampilan Analysis of Variance (ANOVA) anovamerupakan function yang digunakan untuk menampilkan hasil Analysis of
Variance (ANOVA) dari model regresi yang telah terbentuk. Tabel ANOVA menujukkan kesesuaian model, yang diketahui dari signifikansi parameter parameter terhadap variabel respon yang dilakukan secara bersamaan dengan uji F. >anova(reg)
Page 34 Prodi Statistika UNIPA Surabaya
Gambar 5.8 Formula dan OutputANOVA
R AB AY A
Gambar 5.8 menunjukkan bahwa model regresi linier sederhana yang telah terbentuk telah mewakili data yang ada. Hal tersebut disebabkan oleh p p‐value dari uji F (nilai statistik F sebesar 48.717) lebih kecil dari 5% , yaitu sebesar 1.615e 1.615e‐06. 6. Diagnostic Plot
Diagnostic plot menampilkan 4 plot, yaitu (1) plot antara fitted values (nilai‐nilai kuantil normal dari standardized residuals prediksi) dan residual, (2) plot antara kuantil‐kuantil
SU
(residual yang distandarisasi), (3) plot antara fitted values dan akar standardized residuals,, dan (4) plot antara laverage dan standardized residual. Formula Formula‐formula yang
IP A
digunakan untuk membuat diagnostic plot adalah sebagai berikut.
IS
TI K
A
U
N
>layout(matrix(c(1,2,3,4),2,2)) # untuk membuat 4 plot dalam 1 halaman >plot(reg)
Gambar 5.9 Diagnostic Plot
ST AT
Berdasarkan Gambar 5.9 9 diketahui bahwa tidak terjadi heteroskedastisitas
karena plot antara fitted values dan standardized residual tidak membentuk pola tertentu.
7. Evaluasi Kesesuaian dan Asumsi Model Regresi Evaluasi kesesuaian model dilakukan dengan pengecekan multikolinieritas.
Asumsi‐asumsi asumsi yang harus terpenuhi dalam analisis regresi sebelum dilakukan inferensia statistik adalah (1) varians residual homogen (homoscedasticity), (2) autokorelasi, dan (3) residual berdistribusi normal.
Page 35 Prodi Statistika UNIPA Surabaya
Function yang digunakan untuk untuk pengecekan multikolinieritas adalah vif. Sebelum menggunakan vif, library car harus ter‐install terlebih dahulu. >library(car) >vif(reg)
R AB AY A
Gambar 5.10 Formula Pengujian Multikolinieritas
perhitungan nilai VIF, Pada Gambar 5.10 10 terlihat adanya error dalam komputasi perhitung
sebab multikolinieritas dapat terjadi pada model regresi yang memiliki minimal dua variabel predictor X.
Sementara itu, formula‐formula formula formula yang digunakan untuk melakukan pengujian asumsi‐asumsi asumsi yang harus dipenuhi oleh model regresi sebagai berikut berikut (perlu diingat
SU
bahwa pengujian asumsi dilakukan terhadap residual dari model regresi).
IP A
>residual= residuals(reg) #untuk memanggil residual yang dihasilkan oleh model regresi >library(stats) #package untuk deteksi normalitas >shapiro=shapiro.test(residual) dual) #deteksi normalitas >library(lmtest) #package untuk deteksi homoskedas dan autokorelasi >homoskedas=bptest(reg) #deteksi homoskedas >autokorr=dwtest(reg) #deteksi autokorelasi
Berdasarkan uji shapiro‐wilk shapiro yang tersaji pada Gambar 5.11 11 diketahui bahwa
N
residual telah berdistribusi normal karena p‐value p value (sebesar 0.892) lebih besar dari
ST AT
IS
TI K
A
U
5% (H0 : residual berdistribusi normsal, gagal ditolak).
Gambar 5.11 Function dan OutputUji Asumsi Residual
Page 36 Prodi Statistika UNIPA Surabaya
Uji homoskedastisitas dilakukan dengan uji Breusch‐Pagan Pagan (uji BP).P BP).P‐value yang dihasilkan oleh uji BP (sebesar 0.750) lebih besar dari 5% sehingga asumsi homoskedastisitas residual terpenuhi. autokorelasi Uji durbin‐watson watson merupakan uji untuk mendeteksi adanya autokorela residual.Gambar 11.menunjukkan bahwa tidak ada autokorelasi pada residual model
R AB AY A
regresi karena p‐value value (sebesar 0.967) lebih besar dari 5% (H0: tidak ada autokorelasi residual, gagal ditolak). Berdasarkan pengujian asumsi‐asumsi asumsi asumsi yang telah
dilakukan, seluruh asumsi dalam model regresi telah terpenuhi, sehingga dapat
disimpulkan model regresi telah sesuai menggambarkan data dan inferensia statistik dapat dilakukan. 5.2 REGRESI LINIER BERGANDA
SU
Perbedaan mendasar antara regresi linier sederhana dan regresi linier berganda terletak pada jumlah variabel prediktor.Regresi linier sederhana hanya mempunyai satu
IP A
variabel prediktor sementara regresi linier berganda mempunyai lebih dari satu variabel prediktor.Semua pengujian yang dilakukan pada pada regresi linier sederhana juga
N
dilakukan pada regresi linier berganda.
A
U
Y 0 1 X 1 p X p Y 0 1 X 1 p X p
TI K
1. Memanggil Data yang akan Digunakan Data yang akan digunakan sebagai contoh aplikasi model regresi berganda
IS
adalah data Menu Pricing (Sheather, (Shea 2009),, yaitu harga menu (Price, Y) di salah satu
ST AT
restoran khas Itali di Manhattan, rating yang diberikan pelanggan untuk makanan (Food, x1 ), rating yang diberikan pelanggan untuk dekorasi (Decor, x 2 ), dan rating yang diberikan pelanggan untuk pelayanan (Service, x3 ). Misalkan data tersimpan di direktori D: dalam folder – UNIPA dengan nama file
data nyc.csv. Untuk memanggil data yang tersimpan dalam format csv ke R, function yg digunakan adalah read.csv.. Misalkan data yang akan dipanggil dinamai “data”.
>data=read.csv("D:\\UNIPA UNIPA\\MODUL Datasets R\\regresi\\Datasets Simon J. Sheather\\Data\\nyc.csv",header=TRUE) nyc.csv",header=TRUE) #tanda ”\\” ” digunakan untuk membuka folder yang menyimpan data, header=TRUE RUE merupakan perintah bahwa baris pertama dalam dataset csv merupakan judul variabel
Page 37 Prodi Statistika UNIPA Surabaya
>data[1:5,] #jika ingin menampilkan data yang telah di ekspor ke R hanya pada baris ke ke-1 sampe ke-5
Karena dataset nyc.csv yang telah terekpor ke R dengan nama data, mempunyai memiliki 7 kolom, tetapi tidak semua kolom akan digunakan dalam analisis regresi, maka dibuat dataset baru yang hanya memuat variabel‐variabel variabel variabel yang digunakan dalam analisis, yaitu variabel dalam kolom ke‐3 6 (Gambar 5.12). ke sampai kolom ke‐6
SU
R AB AY A
>dt=data[,3:6] #marupakan dataset baru (nama: dt) yang diambil dari dataset “data” pada kolom ke-3 sampai ke-6
Gambar 5.12Function 5.12 dan Dataset Menu Pricing
IP A
2. Membuat scatter plot dan Analisis Korelasi untuk Data dt (Menu Pricing) Function yang digunakan untuk menampilkan scatterplot antara variabel Y danX
N
seperti pada Gambar 5.13 13 adalah plot dengan formula sebagai berikut berikut.
ST AT
IS
TI K
A
U
>plot(Price plot(Price ~ Food+Decor+Service, data=dt)
Gambar 5.13a Scatterplot antara Price Y dan Food x1
Gambar 5.13bScatterplot antara Price Y dan Decor x 2
Page 38 Prodi Statistika UNIPA Surabaya
R AB AY A
Gambar 5.13cScatterplot antara Price Y dan Service
x3
Gambar 5.14a 14a menunjukkan nilai korelasi antar variabel X dan Y cukup besar, bernilai diatas 0.5.Nilai korelasi setiap variabel bernilai positif, sehingga dapat disimpulkan bahwa terjadi hubungan searah antar variabel. Misalkan jika rating meningkat. Informasi dari Gambar makanan (food) meningkat maka harga (price) akan meningkat.
SU
14b, korelasi antar variabel signifikan secara statistik karena nilai p p‐value yang
IP A
dihasilkan disetiap variabel prediktor dan respon lebih kecil dari 5% (Tolak H0).
ST AT
IS
TI K
A
U
N
5.14a dan Output Korelasi Gambar 5.14aFunction
Gambar 5.14b
Output Function dan Outputp‐value Uji Korelasi Pearson
Page 39 Prodi Statistika UNIPA Surabaya
3. Membuat Model Regresi dari Data dt Seperti pada regresi linier sederhana, membuat model regresi linier berganda pada R ditunjukkan pada Gambar 15.Berdasarkan Gambar 5.15 15 dapat dituliskan model regresi yang terbentuk sebagai berikut. Y 24.641 1.556x1 1.847 x2 0.135x3
R AB AY A
Model regresi yang dihasilkan menjelaskan bahwa setiap kenaikan 1 satuan
rating atas makanan disaat variabel lainnya lainnya tetap maka akan menaikkan harga menu
makanan sebesar $US 1.556. Jika rating atas dekorasi naik sebesar 1 satuan rating maka
harga makanan akan bertambah sebesar 1.847 ($US). Sedangkan jika rating pelayanan bertambah 1 satuan maka harga makanan akan bertambah bertambah sebesar 0.135 ($US).
Pengujian inferensi yang pertama dilakukan adalah pengujian pengaruh variabel
(H0) dari pengujian ini adalah sebagai berikut.
SU
predictor secara bersamaan terhadap respon dengan menggunakan uji F. Hipotesis awal
H 0 : 1 2 p 0
IP A
H 0 : food decor service 0 Jika H0 ditolak maka pengujian inferensi selanjutnya, yaitu uji individu parameter dapat
N
dilakukan. Berdasarkan Gambar 5.15 diketahui bahwa H0 ditolak karena p p‐value dari uji
U
F lebih kecil dari 5% . Oleh karena itu, uji individu parameter dapat dilakukan.
A
Uji individu parameter dilakukan dengan uji t. Berdasarkan uji t, diketahui
TI K
bahwa variabel x3 tidak berpengaruh signifikan terhadap Y sebab p‐value value dari uji t lebih besar dari 5% .Nilai adjusted R-Squared R menunjukkan bahwa variabel prediktor ((X) mampu menjelaskan varians dari variabel respon (Y) ( ) sebesar 61%. Nilai residual yang
ST AT
IS
dihasilkan dari model regresi berkisar antara ‐14.8440 14.8440 dan 19.058 (Gambar 5.15).
Page 40 Prodi Statistika UNIPA Surabaya
R AB AY A
SU
Gambar 5.15 Function dan Output Regresi
4. Selang Kepercayaan (Confident Confident Interval) Interval 95%
Gambar 5.16 16 menunjukkan selang kepercayaan untuk masing‐masing masing masing parameter
TI K
A
U
N
IP A
taksiran dari variabel predictor yang dapat dituliskan sebagai berikut. 34.027 0 15.254 0.819 1 2.292 1.418 2 2.277 0.646 3 0.916
IS
Gambar 5.16Selang 5.16 Kepercayaan Parameter Taksiran Regresi
ST AT
Nilai selang kepercayaan pada parameter taksiran untuk variabel service x3 yang
memuat nilai nol menunjukkan bahwa variabel x3 tidak berpengaruh terhadap variabel Y.
5. Menampilan Analysis nalysis of Variance (ANOVA) Analysis of Variancepada pada regresi berganda dengan software R merupakan uji F
secara parsial (partial F-test test). ). Berdasarkan Gambar 16., diketahui bahwa hasil uji F secara parsial menyebutkan bahwa variabel x3 tidak berpengaruh karena hasil uji F memiliki p‐value value lebih besar dari 5% (gagal tolak H0).
Page 41 Prodi Statistika UNIPA Surabaya
R AB AY A
Gambar 5.17 TabelAnova
Pada software R, dapat diketahui pengaruh penambahan variabel prediktor baru
terhadap model. Analisis dilakukan dengan bantuan model regresi lain yang memiliki variabel predictor dengan model yang telah dibentuk (dalam modul ini adalah model
reg1)) yang sama ditambahkan minimal satu variabel prediktor baru. Misalkan model
baru yang akan dibentuk dinamai d model regresi reg2 dengan penambahan variabel
SU
prediktor East yang ada pada dataset awal. ANOVA dengan R dilakukan dengan membandingkan model regresi reg1 dengan model reg2.Function Function yang digunakan sebagai berikut.
IS
TI K
A
U
N
IP A
>anova(reg1,reg2)
ST AT
Gambar 5.18 18 Langkah‐langkah ANOVA Regresi Berganda di R
Berdasarkan Gambar 5.18 18 diketahui bahwa terdapat pengaruh yang signifikan yang
diberikan oleh variabel east terhadap harga menu ketika variabel prediktor x1 , x 2 , dan
x3 telah diperhitungkan. Hal tersebut disebabkan oleh p‐value p value dari uji F lebih kecil dari
5% (Tolak H0).
Page 42 Prodi Statistika UNIPA Surabaya
6. Diagnostic Plot, Evaluasi Kesesuaian dan Asumsi Model Regresi Berdasarkan Gambar 5.19 19 diketahui bahwa tidak terjadi heteroskedastisitas karena plot antara fitted values dan standardized residual tidak membentuk pola
Gambar 5.19Diagnostic Plot
R AB AY A
tertentu.
SU
Evaluasi kesesuaian dan asumsi model regresi ditampilkan pada Gambar
5.20.Berdasarkan Gambar 5.20 5. diketahui iketahui bahwa tidak terdapat multikolinieritas pada
IP A
model regresi karena nilai VIF yang dihasilkan kurang dari 10.
Berdasarkan informasi pada Gambar 5.20,, disimpulkan bahwa residual telah
N
berdistribusi normal sebab p‐value p bernilai 0.079 (lebih besar dari 5% ). Asumsi homoskedastisitas residual juga terpenuhi karena p‐value p value dari uji BP lebih besar dari
U
5% . Akan tetapi, asumsi tidak ada autokorelasi terlanggar karena p p‐value dari uji
ST AT
IS
TI K
A
Durbin‐Watson Watson lebih kecil dari 5% (H0: tidak ada autokorelasi residual, ditolak).
Gambar 5.20 Evaluasi Kesesuaian Model dan Deteksi Asumsi
Page 43 Prodi Statistika UNIPA Surabaya
6. ARIMA Salah satu model dalam pendekatan deret waktu atau timeseries adalah model ARIMA. Model ARIMA terdiri dari 3 bentuk, yaitu AR, MA, dan ARMA.Secara umum, model ARIMA dituliskan sebagai berikut (Cryer, 1986; Wei, 2006). (1 1 B p B p )(1 B ) d Z t 0 (1 1 B q B q ) a t ,
R AB AY A
B merupakan operator erator mundur ( B k Z t Z t k ) . p dan q merupakan orde dari model
ARIMA dengan mengidentifikasi plot Autocorrelation Function (ACF) dan Partial
Autocorrelation Function (PACF) pada data yang telah stasioner. Identifikasi plot ACF dan PACF diringkas pada Tabel 6.1. Tabel 6.1 Identifikasi Model dengan Plot ACF dan PACF ACF
PACF
Plot turun cepat secara exponensial/sinusoidal (dies down)
Terputus setelah lag p (cuts off di lag p)
MA(q)
Terputus setelah lag q (cuts off di lag q)
Plot turun cepat secara exponensial/sinusoidal (dies down)
ARMA(p,q)
Plot turun cepat secara exponensial/sinusoidal (dies down)
Plot turun cepat secara exponensial/sinusoidal (dies down)
AR(p) atau MA(q)
Terputus setelah lag q (cuts off di lag q)
White Noise (Random)
Tidak ada yang keluar batas/ tidak ada yang signifikan
Tidak ada yang keluar batas/ tidak ada yang signifikan
IP A
SU
AR(p)
N
Model
TI K
A
U
Terputus setelah lag p (cuts off di lag p)
Analisis timeseries dengan model ARIMA di R dilakukan hanya melalui perintah comment line.. Plot ACF dibuat dengan function ARMAacf(),, demikian pula untuk
IS
membuat plot PACF function yang digunakan adalah ARMAacf() dengan menambahkan
ST AT
argumen pacf sama dengan TRUE. Gambar 6.1 merupakan perintah yang digunakan untuk membuat plot ACF dan
PACF teoritis itis dengan model AR(1). AR(
Gambar 6.1 Scrip Plot ACF dan PACF
Page 44 Prodi Statistika UNIPA Surabaya
Plot yang dihasilkan oleh model ARIMA(1,0,0) atau model AR(1) dengan nilai koefisien parameter (phi)) sebesar 0.8 ditampilkan pada Gambar 6.2. Berdasarkan Gambar 6.2 terlihat bahwa plot ACF model AR(1) membentuk pola dies down.
SU
R AB AY A
Sedangkan pola terputus setelah lag 1 pada plot ACF.
Gambar 6.3 Plot ACF dan PACF Model AR (1)
IP A
Gambar 6.3 merupakan scrip yang yang digunakan untuk membuat model MA(2) dan model ARMA(1,1). Model MA(2) terbentuk dengan koefisien parameter 1 1.5 dan
N
2 0.7 . Sedangkan model ARMA(1,1) memiliki koefisien parameter AR 0.7 dan
ST AT
IS
TI K
A
U
MA 0.4 . Pola plot yang tergambar pada Gambar 6.3 sesuai dengan Tabel 6.1.
(a)
(b) Gambar 6.3 Script(a) Model MA(2) dan (b) Model ARMA(1,1)
Page 45 Prodi Statistika UNIPA Surabaya
Selanjutnya,
arima() merupakan
function
yang dapat digunakanuntuk
mengetahui nilai taksiran model ARIMA dari suatu data time series series. Berdasarkan
arima(x, order = c(0L, 0L, 0L), seasonal = list(order order = c(0L, 0L, 0L), period =NA), = xreg = NULL, include.mean = TRUE, transform.pars = TRUE, fixed = NULL, init = NULL, method = c("CSS-ML", ML", "ML", "CSS"), n.cond, SSinit = c("Gardner1980", "Rossignol2011"), optim.method = "BFGS", optim.control = list(), kappa = 1e6)
atau secara singkat dapat dituliskan sebagai berikut.
SU
arima(x, order = c(0L, 0L, 0L), seasonal = list(order order = c(0L, 0L, 0L), period =NA), = method = c("CSS-ML", ML", "ML", "CSS"))
R AB AY A
informasi fasilitas help di R, diketahui formula arima() adalah sebagai berikut.
dimanax merupakan sebuah data univariate time series, order adalah spesifikasi model ARIMA (p,d,q), seasonal adalah spesifikasi pola musiman (seasonal) ) sekaligus periode (
IP A
model, dan method adalah pilihan metode estimasi parameter yang dikehendaki (maximum likelihood atauminimize atau conditional sum-of-squares).
N
time series presidents, Misalkan pada data yang disediakan oleh R, yaitu data time
U
ingin diketahui apakah model ARIMA(1,0,0) dan ARIMA(3,0,0) cocok dengan data tersebut. Untuk mengetahui nilai taksiran dari model ARIMA menggunakan function
A
arima() sedangkan untuk mengetahui kebaikan model menggunakan function tsdiag()
TI K
dengan statistik uji yang digunakan adalah statistik uji Ljung‐Box. Ljung Box. Proses pengujian
ST AT
IS
ditampilkan pada Gambar 6.4.
Gambar 6.5 Scrip Pengujian Model ARIMA (1,0,0) dan ARIMA (3,0,0)
Gambar 6.6 merupakan output hasil tsdiag(fit1) untuk menguji residual model telah memenuhi asumsi white whit noise.. Berdasarkan Gambar 6.6 diketahui bahwa asumsi white noise terlanggar karena terdapat lag yang keluar dari batas pada plot ACF residual. Untuk mengetahui P‐Value P statistik uji Ljung‐Box,function on yang digunakan
Page 46 Prodi Statistika UNIPA Surabaya
adalah Box.test(), formula yang dijalankan dengan comment line adalah sebagai berikut.
SU
R AB AY A
>Box.test(resid(fit1), lag = 2, type = "Ljung-Box", "Ljung fitdf = 1)
IP A
Residual ACF Residual, dan P‐value Statistik Uji Ljung Gambar 6.6 PlotStandardized Standardized Residual, Ljung‐Box
Argumen dalam Box.test()meliputiBox.test(x, Box.test() Box.test(x, lag, type, fitdf), diuraikan sebagai berikut.
: residual model atau data univariate time series
‐ lag
: lag koefisien autokorelasi (lag > fitdf)
U
N
‐ x
A
‐ type : metode pengujian yang digunakan, antara lain: Box-Pierce danLjung-Box
TI K
‐ fitdf : jumlah derajat bebas yang dikurangi jika x merupakan residual model (fitdf=p+q)
Berdasarkan output hasil pengujian white noise dengan Ljung Ljung‐Box yang
IS
ditampilkan pada Gambar 6.7, diketahui bahwa model fit1, yaitu model ARIMA ARIMA(1,0,0)
ST AT
tidak memenuhi asumsi white noise. Hal tersebut dikarenakan P‐Value P Value yang dihasilkan kurang dari 5%.
Gambar 6.7Output Uji Ljung Box
Untuk mengetahui nilai prediksi dari masing‐masing masing masing variabel data president, function yang digunakan adalah predict(),, seperti yang ditampilkan pada Gambar 6.5. Berdasarkan hasil asil prediksi dengan menggunakan model fit2 atau ARI ARIMA(3,0,0)
Page 47 Prodi Statistika UNIPA Surabaya
diketahui pada tahun 1075, nilai Qtr1 sebesar 9.245 dan Qtr4 sebesar 14.482 14.482.Informasi lengkap ditampilkan pada Gambar 6.8.
R AB AY A
Gambar bar 6.8 Output Prediksi Model ARIMA(3,0,0)
DAFTAR PUSTAKA
Cryer, J.D. 1986.Time Time Series Analysis. Analysis Boston. PWS‐KENT ‐KENT Publishing Company.
Draper, N.R. dan Smith, H. 1981.Applied 1981.Applied Regression Analysis.Second Edition Edition. JohnWiley & Sons, Inc.
SU
Help R
Sheater, Simon. J. 2009. A Modern Approach to Regression with R. R. USA.Springer USA.Springer. Suhartono. 2008. Analisis Data Statistik dengan R. R. Surabaya. Lab. Statistik Komputasi,
IP A
ITS.
Time Series Analysis Univariate and Multivariate Methods, Second Wei, W.W.S. 2006.Time
ST AT
IS
TI K
A
U
N
Edition.. New York. Pearson Education, Inc.
Page 48 Prodi Statistika UNIPA Surabaya