PENGEMBANGAN PAKET R UNTUK ANALISIS MULTIVARIAT DENGAN ANTAR MUKA USER FRIENDLY
TRI MIRANTI
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
RINGKASAN TRI MIRANTI. Pengembangan Paket R untuk Analisis Multivariat dengan Antar Muka User Friendly. Dibimbing oleh AJI HAMIM WIGENA dan AGUS MOHAMAD SOLEH. Tingkat pembajakan perangkat lunak di Indonesia masih cukup tinggi termasuk perangkat lunak statistika. R merupakan perangkat lunak untuk analisis statistika yang dapat digunakan secara legal dan dapat dikembangkan serta didistribusikan secara bebas. Penggunaan R dalam analisis statistika masih kurang terutama oleh para peneliti non-statistisi di Indonesia, karena pemakaiannya yang relatif tidak mudah. Oleh karena itu perlu dilakukan penyusunan paket R dengan antar muka pengguna. Penyusunan paket ini menggunakan perangkat lunak R dan paket R tambahan terutama paket untuk analisis multivariat. Paket R yang dikembangkan ini menggunakan Tcl/Tk sehingga dapat memudahkan pengguna untuk melakukan analisis statistika secara mudah dan legal. Paket yang diberi nama AMV (Analisis Multivariat) merupakan paket analisis multivariat yang memiliki antar muka user friendly dan berbagai fungsi analisis multivariat. AMV mempunyai empat menu utama yaitu Menu File, Menu Data, Menu Statistika, dan Menu Bantuan. Pengujian dilakukan dengan metode black box yaitu dengan membandingkan keluaran AMV dengan keluaran perangkat lunak statistika komersial seperti SAS, MINITAB dan SPSS. Hasil pengujian menunjukkan bahwa AMV sudah cukup mampu menyelesaikan analisis statistika sesuai dengan fungsinya. Kata kunci: R, Paket R, Analisis multivariat, Tcl/Tk
PENGEMBANGAN PAKET R UNTUK ANALISIS MULTIVARIAT DENGAN ANTAR MUKA USER FRIENDLY
TRI MIRANTI
Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Statistika pada Departemen Statistika
DEPARTEMEN STATISTIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010
Judul : Pengembangan Paket R untuk Analisis Multivariat dengan Antar Muka User Friendly Nama : Tri Miranti NRP : G14052128
Menyetujui Pembimbing I,
Pembimbing II,
Dr. Ir. Aji Hamim Wigena, M.Sc NIP. 195209281977011001
Agus Mohamad Soleh, S.Si, MT NIP. 197503151999031004
Mengetahui : Ketua Departemen,
Dr. Ir. Hari Wijayanto, MS NIP. 196504211990021001
Tanggal Lulus :
RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 4 Juli 1988. Penulis merupakan anak ketiga dari lima bersaudara, anak dari pasangan Moh.Sapri dan Sarminah. Penulis menyelesaikan pendidikan sekolah dasar pada tahun 1999 di SDN Kenari 02 Petang, Jakarta kemudian melanjutkan ke pendidikan menengah pertama di SMP Negeri 18 Jakarta dan lulus pada tahun 2002. Selanjutnya penulis lulus dari SMA Negeri 77 Jakarta pada tahun 2005 dan pada tahun yang sama di terima di Institut Pertanian Bogor melalui jalur USMI. Pada tahun 2006 penulis diterima di Departemen Statistika, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama kuliah di IPB, penulis aktif dalam beberapa kegiatan kepanitiaan dan organisasi kemahasiswaan IPB. Pada tahun pertama di IPB penulis aktif dalam UKM UKF IPB sebagai bendahara divisi reptil dan amphibi. Selain itu, penulis aktif di kegiatan kepanitiaan Gamma Sigma Beta dan pernah dipercaya menjadi ketua pelaksana pada kegiatan survey politik kampus tahun 2008. Selain kegiatan kampus, penulis juga aktif sebagai asisten mata kuliah metode penarikan contoh tahun 2008, pemandu di Agro Edutourism IPB dan pengajar privat di berbagai tempat. Pada awal tahun 2009 penulis melakukan kegiatan praktek lapang di Metro TV, Jakarta.
KATA PENGANTAR Maha suci Allah SWT yang telah menciptakan segala sesuatu dengan kadarnya, memberikan banyak kenikmatan dan keagungan kepada kita semua. Puji dan Syukur penulis panjatkan kepada Allah SWT atas segala karunia dan nikmat-Nya sehingga penulis dapat mendapatkan banyak kemudahan dalam menyelesaikan karya ilmiah ini. Sholawat serta salam semoga tetap kita haturkan kepada Nabi Muhammad SAW baik dalam keadaan lapang maupun sempit. Karya ilmiah ini diberi judul “Pengembangan Paket R untuk Analisis Multivariat dengan Antar Muka User Friendly“. Penyusunan paket ini menggunakan perangkat lunak R dan paket R tambahan lainnya terutama paket untuk membuat antar muka pengguna. Pembuatan paket R ini dapat memudahkan pengguna untuk melakukan analisis statistika secara mudah dan legal. Paket yang diberi nama AMV (Analisis Multivariat) merupakan paket analisis multivariat yang memiliki tampilan antar muka dan berbagai fungsi analisis multivariat. AMV mempunyai empat menu utama yaitu Menu File, Menu Data, Menu Statistika, dan Menu Bantuan. Pengujian yang dilakukan dengan berbagai perangkat lunak yang telah ada menunjukkan bahwa AMV sudah cukup mampu menyelesaikan analisis statistika sesuai dengan fungsinya. Terima kasih penulis ucapkan kepada semua pihak yang telah membantu penulis mulai dari proses awal hingga terselesaikanya karya ilmiah ini, antara lain: 1. Bapak Dr. Ir. Aji Hamim Wigena, M.Sc dan Bapak Agus Mohamad Soleh, S.Si, MT. atas bimbingan, arahan, dan perhatian kepada penulis. 2. Dr. Ir. Muhammad Nur Aidi, MS selaku penguji luar. 3. Bapak, Mama, Ka Mila, Ka Vivi, Rian, Dwi dan Syiraqu atas do’anya, kasih sayang, motivasi dan dukungan lahir dan batin selama ini. 4. Teman-teman seperjuangan, Melisa, Angga Warella, dan Anton Kisworo atas semua saran, diskusi, dan kenangan selama mengerjakan karya ilmiah ini. 5. Teman-teman pembahas seminar (Sufi dan Mufti) dan teman-teman yang bersedia hadir pada seminar. 6. Teman sekostanku mbo, ndut, baki, othel, mpus, asti, lidi, yuni, safi, putri, aan dan mamah atas semua canda tawa dan “warna” yang kalian berikan padaku. 7. Seluruh personil Statistika 42. Nama kalian akan selalu terpatri di hati penulis. Akhirnya tiada ucapan yang lebih pantas penulis sampaikan kecuali rasa syukur yang tak terhingga kepada Allah SWT, semoga karya tulis ini dapat bermanfaat untuk semua pihak yang membutuhkan.
Bogor, Januari 2010
Penulis
vii
DAFTAR ISI Halaman DAFTAR GAMBAR ......................................................................................................... viii DAFTAR LAMPIRAN ...................................................................................................... viii PENDAHULUAN .................................................................................................................1 Latar Belakang..................................................................................................................1 Tujuan...............................................................................................................................1 Ruang Lingkup .................................................................................................................1 TINJAUAN PUSTAKA.........................................................................................................1 Perangkat Lunak R ...........................................................................................................1 Rekayasa Perangkat Lunak...............................................................................................1 Analisis Multivariat ..........................................................................................................2 Uji Normal Ganda ............................................................................................................2 Analisis Komponen Utama...............................................................................................2 Analisis Faktor..................................................................................................................3 Analisis Gerombol............................................................................................................3 Analisis Biplot ..................................................................................................................4 METODOLOGI .....................................................................................................................4 HASIL DAN PEMBAHASAN ..............................................................................................4 Kebutuhan Sistem.............................................................................................................4 Analisis Perancangan Sistem............................................................................................5 Diagram aliran data level 0 .........................................................................................5 Diagram aliran data level 1 .........................................................................................5 Diagram aliran data level 2 .........................................................................................5 Diagram aliran data level 3 .........................................................................................5 Implementasi Sistem.........................................................................................................8 Menu File ....................................................................................................................8 Menu Data...................................................................................................................8 Menu Statistika ...........................................................................................................9 Menu Bantuan...........................................................................................................10 Pengujian ........................................................................................................................11 Batasan dan Keterbatasan Sistem ...................................................................................11 Studi Kasus .....................................................................................................................11 KESIMPULAN ....................................................................................................................12 SARAN ................................................................................................................................12 DAFTAR PUSTAKA ..........................................................................................................12 LAMPIRAN.........................................................................................................................14
viii
DAFTAR GAMBAR
1. 2. 3. 4. 5.
Halaman Diagram aliran data level 0 ........................................................................................5 Diagram aliran data level 1 ........................................................................................6 Diagram aliran data level 2 proses 1 ..........................................................................7 Diagram aliran data level 2 proses 7 ..........................................................................7 Diagram aliran data level 3 proses 7.3 .......................................................................8
DAFTAR LAMPIRAN
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Halaman Halaman utama AMV ................................................................................................15 Tampilan fungsi Uji Normal Ganda...........................................................................15 Tampilan fungsi Analisis Komponen Utama .............................................................16 Tampilan fungsi Analisis Faktor................................................................................17 Tampilan fungsi Analisis Gerombol Hierarki............................................................18 Tampilan fungsi Analisis Gerombol K-Means ..........................................................18 Tampilan fungsi Analisis Biplot ................................................................................19 Perbandingan hasil AMV dengan berbagai perangkat lunak .....................................20 Keluaran fungsi Uji Normal Ganda ...........................................................................21 Perbandingan hasil Analisis Komponen Utama dengan berbagai perangkat lunak ...........................................................................................21 Perbandingan hasil Analisis Faktor dengan berbagai perangkat lunak ...........................................................................................23 Perbandingan hasil Analisis Gerombol Hierarki dengan MINITAB .........................24 Perbandingan hasil Analisis Gerombol K-Means dengan SAS .................................26 Perbandingan hasil Analisis Biplot dengan SAS .......................................................27
1
PENDAHULUAN Latar Belakang Dewasa ini, perkembangan perangkat lunak untuk analisis statistika semakin banyak mengikuti laju perkembangan ilmu statistika itu sendiri. Namun di Indonesia pembajakan terhadap perangkat lunak tersebut masih tinggi. Dalam Sixth Annual Global Software Piracy Study untuk tahun 2008, Indonesia mendapat peringkat ke-12 sebagai negara pembajakan perangkat lunak di dunia. Dan berdasarkan hasil survei Bussiness Software Alliance menyatakan bahwa tingkat pembajakan perangkat lunak di Indonesia sebesar 85% pada tahun 2008 (Kusumaputra, 2009). Tentunya kondisi ini merugikan negara dalam hal hubungan bilateral antara negara Indonesia dengan luar negeri. Upaya yang dapat dilakukan dalam memerangi tingkat pembajakan di Indonesia adalah dengan mengembangkan perangkat lunak open source yang legal. Perangkat lunak untuk analisis statistika yang dapat digunakan secara legal dan dapat dikembangkan serta didistribusikan secara bebas salah satunya adalah R. Penggunaan R dalam analisis statistika di Indonesia masih kurang. Hal ini dikarenakan pemakaiannya relatif tidak mudah, terutama bagi peneliti non-statistisi. Oleh karena itu, diperlukan pembuatan paket R dengan antar muka sehingga memudahkan pengguna non-statistisi dalam melakukan analisis statistika. Karya ilmiah ini difokuskan hanya pada paket analisis multivariat yang merupakan satu kesatuan dari empat karya ilmiah. Tujuan Tujuan karya ilmiah ini ialah menyusun dan mengembangkan paket R untuk analisis multivariat dengan antar muka pengguna sehingga mudah digunakan. Ruang Lingkup Pembuatan karya ilmiah ini merupakan penyusunan paket R untuk analisis multivariat yang mudah digunakan. Analisis multivariat tersebut mencakup : Uji normal ganda Analisis komponen utama Analisis faktor Analisis gerombol hierarki Analisis gerombol k-means Analisis biplot Karya ilmiah ini merupakan bagian dari satu kesatuan empat karya ilmiah yang ada.
Ruang lingkup untuk ketiga karya ilmiah lainnya mencakup : Analisis statistika dasar meliputi ukuran lokasi, ukuran pemusatan dan penyebaran, statistika deskriptif, kovarian dan korelasi, uji kenormalan, dan inferensia dasar (Kisworo 2009 ; Melisa 2009 ; Warella 2010). Statistika Grafik (Warella, 2010). Analisis regresi meliputi model/koefisien regresi, analisis ragam, uji parsial, uji asumsi, penentuan selang kepercayaan dan selang prediksi bagi dugaan respon, nilai VIF, sisaan, sisaan terstandarkan, dugan respon, indikator data berpengaruh (Leverages, Cook’s Distance, DFFITS, DFBETAS, dan COVRATIO), dan prosedur pemilihan peubah prediktor (Melisa, 2009). Analisis rancangan percobaan meliputi model RAL, RAK, RBSL, faktorial RAL, faktorial RAK, Split plot, uji asumsi, dan uji lanjut (Kisworo, 2009). Analisis deret waktu mencakup plot deret waktu, pemulusan, pemodelan ARIMA, dan uji asumsi (Warella, 2010). Karya ilmiah ini hanya difokuskan pada penyusunan paket R untuk analisis multivariat. TINJAUAN PUSTAKA Perangkat Lunak R R merupakan sebuah perangkat lunak yang digunakan untuk analisis statistika dan grafik. Dasar R adalah bahasa pemrograman S yang dikembangkan oleh AT&T’s Bell Laboratories. R dapat berjalan pada sistem operasi Unix, Windows, dan Mac. Saat ini, versi terakhir perangkat lunak ini ialah R 2.10.0 (Hornik, 2009). R menyimpan data dan fungsi dalam suatu tempat yang disebut package. Ada dua jenis paket R yaitu paket standar yang harus ada dalam setiap R dan paket yang dikembangkan oleh banyak ahli. Rekayasa Perangkat Lunak Rekayasa perangkat lunak ialah disiplin ilmu yang membahas semua aspek produksi perangkat lunak, mulai dari tahap awal spesifikasi sistem sampai pemeliharaan sistem setelah digunakan (Sommerville, 2003). Tahapan utama dalam pengembangan perangkat lunak ialah: 1. Analisis dan definisi persyaratan Seluruh kebutuhan perangkat lunak harus bisa didapatkan dalam fase ini, termasuk
2
2.
3.
4.
5.
didalamnya kegunaan perngakat lunak yang diharapkan pengguna dan batasan pernagkat lunak. Informasi ini biasanya dapat diperoleh melalui wawancara, survei atau diskusi. Perancangan sistem dan perangkat lunak Tahap ini bertujuan untuk memberikan gambaran apa yang seharusnya dikerjakan dan bagaimana tampilannya. Tahap ini membantu dalam menspesifikasikan kebutuhan hardware dan sistem serta mendefinisikan arsitektur system secara keseluruhan. Implementasi dan pengujian unit Dalam tahap ini dilakukan pemrograman. Pembuatan perangkat lunak dipecah menjadi modul-modul kecil yang nantinya akan digabungkan ke dalam tahapan berikutnya. Selain itu dalam tahap ini juga dilakukan pemeriksaan terhadap modul yang dibuat, apakah sudah memenuhi fungsi yang diinginkan atau belum. Integrasi dan pengujian sistem Pada tahap ini dilakukan penggabungan modul-modul yang sudah dibuat dan dilakukan pengujian. Pengujian dilakukan untuk mengetahui apakah perangkat lunak yang telah dibuat sudah sesuai dengan rancangannya atau tidak. Operasi dan pemeliharaan Perangkat lunak yang telah dibuat dioperasikan dan dilakukan pemeliharaan. Pemeliharaan termasuk dalam memperbaiki kesalahan yang tidak ditemukan pada langkah sebelumnya.
Analisis Multivariat Analisis multivariat muncul ketika peneliti memiliki n buah amatan dan setiap amatan dilakukan pengukuran p buah karakteristik (peubah). Gugus data dalam multivariat berbentuk matriks dengan baris ke-i merupakan amatan ke-i (i=1,…,n), sedangkan kolom ke-j merupakan peubah ke-j (j=1,…,p) yang diukur pada setiap amatannya. Bentuk matriksnya sebagai berikut :
x11 x1 p X x n1 x np Uji Normal Ganda Salah satu metode yang dapat digunakan dalam pengujian normal ganda suatu data ialah metode Shapiro-Wilk. Metode ini menggunakan pendekataan statistik tataan
dalam mendapatkan nilai statistik ujinya. Hipotesis yang diuji ialah : H0 : data mengikuti sebaran normal ganda H1 : data tidak mengikuti sebaran normal ganda Statistik uji yang digunakan :
M 1 2 log G Wi p
i 1
dimana :
W i G Wi log 1W i Dengan , , dan merupakan nilai yang didapat dari tabel. Data mengikuti sebaran normal ganda jika nilai statistik uji M1 <
2 , 2 p
dengan p ialah
banyaknya peubah (Srivastava, 2002). Analisis Komponen Utama Analisis komponen utama adalah metode analisis peubah ganda yang bertujuan memperkecil dimensi peubah asal sehingga diperoleh peubah baru (komponen utama) yang tidak saling berkorelasi tetapi menyimpan sebagian besar informasi yang terkandung pada peubah asal (Jolliffe, 2002). Misalkan X1, X2, ... , Xp adalah peubah acak yang menyebar menurut sebaran tertentu dengan vektor nilai tengah dan matriks peragam . Komponen utama merupakan kombinasi linier terboboti dari peubah-peubah asal yang mampu menerangkan data secara maksimum. Komponen utama ke-j dari p peubah dapat dinyatakan sebagai
Y j a ij x1 a 2 j x 2 ... a pj x p a' x dan keragaman komponen utama ke-j adalah : Var(Y j ) j ; j = 1, 2, ..., p 1, 2, ..., p adalah akar ciri yang diperoleh dari persaman Σ I 0 dimana 1 2 ... p 0. Vektor ciri a sebagai pembobot dari transformasi linear peubah asal diperoleh dari persamaan ( Σ j I )a j 0 . Total keragaman komponen utama adalah 1 + 2 + ... + p = tr() dan persentase total keragaman data yang mampu diterangkan oleh komponen utama ke-j adalah
j tr ( Σ )
100 % .
Korelasi antara peubah ke-i dengan komponen utama ke-j dinyatakan sebagai
3
rxi y j
ai j
dengan j adalah akar ciri
si matriks peragam S (penduga ).
Analisis Faktor Analisis faktor adalah salah satu analisis yang banyak digunakan para statistisi peubah ganda. Analisis faktor merupakan suatu teknik peubah ganda untuk menganalisis saling ketergantungan beberapa peubah secara simultan dengan tujuan untuk menyederhanakan dari bentuk hubungan antara beberapa peubah yang diteliti menjadi sejumlah faktor yang lebih sedikit daripada peubah yang diteliti. Faktor adalah kumpulan peubah-peubah dimana faktor tersebut tetap mencerminkan peubah-peubah aslinya. Vektor acak x dengan p komponen memiliki rataan µ dan matriks peragam ∑. Model faktor dibentuk agar x menjadi linier dan bergantung dengan beberapa peubah acak yang tidak dapat terobservasi, yaitu F1, F2, … ,Fm yang disebut dengan faktor umum, dan p sumber keragaman dari ε1, ε2, …, εp disebut dengan faktor khusus. Pada umumnya model analisis faktor ialah sebagai berikut (Johnson&Wichern, 2002) :
X1 1 L11F1 L12F2 ... L1mFm 1
X2 2 L21F1 L22F2 ... L2mFm 2 Xp p Lp1F1 Lp2F2 ... LpmFm p atau dalam bentuk matriks menjadi :
X μ px1 L pxm Fmx1 ε px1
keterangan : Xi : vektor acak yang memiliki p komponen pada amatan ke-i dengan i=1,2,…,p µi : rataan dari peubah ke-i Lij : bobot faktor (factor loading) dari peubah ke-i dan faktor ke-j Fj : faktor umum ke-j εi : faktor khusus peubah ke-i Pada analisis faktor dikenal istilah rotasi faktor. Rotasi faktor akan dilakukan jika matriks loading faktor yang didapat sulit untuk diinterpretasikan maka disarankan untuk mentransformasi matriks loading faktor tersebut dengan mengalikan matriks orthogonal terhadapnya sehingga interpretasi yang bermakna menggunakan matriks yang baru itu memungkinkan.
Analisis Gerombol Analisis gerombol merupakan suatu metode peubah ganda untuk mengelompokan n objek pengamatan ke dalam m gerombol karakteristik(m≤n) berdasarkan karakteristiknya. Tujuan dari penggerombolan ini untuk menemukan gerombol alamiah dari sekumpulan unit pengamatan, dengan harapan keragaman antar unit pengamatan dalam gerombol lebih homogen (mirip) dibandingkan keragaman antar unit pengamatan yang berbeda gerombol (Jolliffe, 2002). Prinsip analisis gerombol didasarkan pada ukuran kemiripan atau ketakmiripan dari setiap individu (objek), yang dinyatakan dalam fungsi jarak (Johnson & Winchern, 2002). Salah satu ukuran jarak yang paling umum dipakai dalam analisis gerombol adalah ukuran jarak Euclid yang didefinisikan sebagai berikut :
p 2 dij X ik X jk k 1
1/ 2
dengan : dij : jarak antara objek ke-i dan objek ke-j Xik : nilai objek ke-i pada peubah ke-k Xjk : nilai objek ke-j pada peubah ke-k p : nilai peubah yang diamati Menurut Johnson & Wichern (2002) ada dua metode penggerombolan, yaitu : 1. Metode gerombol berhierarki Metode gerombol berhierarki digunakan bila banyaknya gerombol yang akan dibentuk tidak diketahui sebelumnya dan banyaknya amatan tidak besar. Dalam metode ini terdapat beberapa metode perbaikan jarak yang dapat digunakan, antara lain metode pautan tunggal, metode pautan lengkap, metode pautan rataan, metode pautan median, metode pautan centroid dan metode pautan Mcquitty. Hasil dari metode gerombol dapat digambarkan dalam bentuk diagram pohon yang disebut dendogram. 2. Metode gerombol tak-berhierarki Metode gerombol tak-berhierarki umumnya digunakan bila banyaknya gerombol yang akan dibentuk telah ditentukan jumlahnya dan banyaknya amatan relatif besar. Salah satu metode tak berhierarki yang umum digunakan adalah metode K-rataan yang diperkenalkan oleh Mac-Queen.
4
Analisis Biplot Biplot merupakan grafik yang merepresentasikan informasi dari data matriks berukuran nxp, dimana n menunjukan jumlah contoh (pengamatan) dan p menunjukan jumlah peubah (Johnson & Winchern, 2002). Metode ini tergolong dalam analisis eksplorasi peubah ganda yang ditunjukan untuk menyajikan data peubah ganda dalam peta dua dimensi, sehingga perilaku data mudah dilihat dan diinterpretasikan. Biplot adalah teknik statistika deskriptif yang dapat menyajikan secara simultan n obyek pengamatan terhadap p peubah dalam ruang dua dimensi, sehingga ciri-ciri peubah dan obyek pengamatan serta posisi relatif antar obyek pengamatan dengan peubah dapat dianalisis (Jolliffe, 2002). Konsep analisis biplot berdasarkan pada SVD (Singular Avlue Decomposition). Misal data yang digunakan untuk dianalisis berupa matriks X berpangkat r, berukuran nxp(n banyaknya objek dan p banyaknya peubah) yang terkoreksi terhadap rataanya, maka penerapan SVD terhadap matriks X sebagai berikut : ...…….(1) X = U L A’ keterangan : U : matriks ortoghonal yang berukuran nxr A : matriks ortoghonal yang berukuran pxr dimana kolomnya merupakan vektor ciri dari matriks X’X L : matriks diagonal berukuran rxr dengan unsur-unsur diagonalnya ialah akar kuadrat dari akar ciri X’X sehingga 1 2 ... r Jika didefinisikan matriks G = ULα dan matriks H’ = L1-αA’ untuk 0 ≤ α ≤ 1, maka menurut Jolliffe (2002) persamaan (1) dapat ditulis menjadi X = GH’ dan elemen ke(i,j) dari X dapat ditulis xij = gi’hj dimana gi’, i = 1,2,…,n dan hj’ , j = 1,2,…,p merupakan baris-baris dari matriks G dan H. vektor gi dan hj keduanya memiliki r elemen. METODOLOGI Pembuatan paket R ini mengikuti kaidah rekayasa perangkat lunak melalui tahapantahapan sebagai berikut : 1. Analisis dan identifikasi kebutuhan sistem Tahapan ini melihat kebutuhan pengguna meliputi batasan, tujuan, masukan, dan keluaran dari perangkat lunak. Hal ini dilakukan dengan menggali informasi dari perangkat lunak statistika yang sudah ada
2.
3.
4.
5.
seperti Minitab, SPSS, dan SAS mengenai analisis multivariat. Analisis perancangan sistem Perancangan sistem merupakan tahapan dalam merancang sistem yang sudah direncanakan. Hal yang dilakukan pada tahapan ini ialah membuat diagram aliran data, dan merancang tampilan antar muka sistem. Implementasi dan pengujian unit Tahap ini mengimplementasikan rancangan yang sudah dibangun ke dalam bahasa S dengan menggunakan perangkat lunak R dan paket-paket R yang berhubungan dengan sistem. Untuk antar muka pengguna digunakan paket R bernama tcl/tk dan tcl/tk2 (Dalgaard 2001, 2002). Implementasi sistem diiringi dengan pengujian tiap unit sistem untuk melihat apakah tiap unit telah memenuhi spesifikasi yang telah ditentukan. Integrasi dan pengujian sistem. Tahapan ini dilakukan dengan menyatukan semua unit sistem menjadi suatu perangkat lunak yang utuh serta dilakukan pengujian terhadap perangkat lunak tersebut. Pengujian perangkat lunak dilakukan dengan metode black box yaitu dengan membandingkan keluaran perangkat lunak yang dibuat dengan keluaran perangkat lunak yang sudah ada sebelumnya. Operasi dan pemeliharaan. Tahapan ini menitikberatkan pada dokumentasi dari sistem yang telah dibuat seperti spesifikasi perangkat lunak, deskripsi perangkat lunak, dan cara penggunaan perangkat lunak. HASIL DAN PEMBAHASAN
Kebutuhan Sistem AMV (analisis multivariat) merupakan nama dari paket R yang dikembangkan. Paket ini menyediakan tampilan antar muka bagi pengguna dalam melakukan prosedur analisis multivariat. Adapun analisis multivariat yang disajikan dalam paket ini antara lain ialah uji normal ganda, analisis komponen utama, analisis faktor, analisis biplot, analisis gerombol hierarki dan analisis gerombol kmeans. Pengembangan paket ini memanfaatkan beberapa paket lainnya seperti tcl/tk, tcl/tk2, tkrplot, xlsReadWrite, dan mvShapiroTest. Paket tcl/tk dan tcl/tk2, digunakan untuk membuat tampilan antar muka pengguna. Paket tkrplot digunakan untuk membuat tampilan antar muka untuk grafik.
5
Paket xlsReadWrite digunakan untuk mengimpor dan mengekspor data dari dan ke file Excel 2003. Paket mvShapiroTest untuk menjalankan fungsi uji normal ganda. Analisis Perancangan Sistem Perancangan sistem merupakan tahapan dalam merancang sistem yang sudah direncanakan. Hal yang dilakukan pada tahapan ini ialah membuat diagram aliran data. Diagram aliran data ialah alat perancangan sistem yang berorientasi pada alur data dengan konsep dekomposisi. Pembuatan diagram aliran data ini dapat digunakan untuk penggambaran analisis maupun rancangan sistem yang mudah dikomunikasikan oleh profesional sistem kepada pemakai maupun pembuat program. Diagram aliran data dibuat mulai dari level yang paling rendah sampai dengan level terakhir sampai tidak bisa didekomposisi lagi. Level tertinggi pada sistem ini ialah level 3. a. Diagram aliran data level 0 Paket AMV memungkinkan pengguna memasukkan data ke sistem dan menerima hasil pengolahan data tersebut yang ditampilkan ke monitor, disimpan dalam bentuk file, dan dicetak. Diagram aliran data level 0 ini terdapat pada Gambar 1 di bawah ini.
Gambar 1 Diagram aliran data level 0 b. Diagram aliran data level 1 Diagram aliran data level 1 merupakan diagram aliran data secara keseluruhan dari empat karya ilmiah lainnya yang merupakan satu-kesatuan. Proses yang ada dalam AMV hanya menjalankan analisis multivariat (proses 7). Proses analisis multivariat berawal dari pengguna memasukkan data. Sebelum ke proses analisis multivariat, data tersebut akan melalui proses manajemen data. Hasil analisis
multivariat akan ke proses cetak output. Gambaran mengenai diagram aliran data level 1 ini tersaji pada Gambar 2. c. Diagram aliran data level 2 Proses manajemen data (proses 1) didekomposisi lagi menjadi dua proses yaitu proses input data manual dan proses impor data. Hasil input data manual atau impor data tersebut akan dimanfaatkan oleh analisis multivariat. Untuk lebih jelasnya mengenai aliran data level 1 proses 1 ini dapat dilihat pada Gambar 3. Proses analisis multivariat didekomposisi lagi menjadi proses yang lebih rinci pada diagram aliran data level 2 (Gambar 4), yaitu proses analisis komponen utama, uji normal ganda, analisis gerombol dan analisis faktor. Untuk proses analisis komponen utama (proses 7.1), data yang masuk akan diproses fungsi analisis komponen utama. Hasil dari analisis tersebut akan ke proses cetak output atau ke proses screeplot dan proses biplot. Proses screeplot (proses 7.5) mengambil hasil nilai keragaman seluruh komponen utama dan kemudian dibentuklah menjadi screeplot. Hasil proses screeplot ini akan ke proses cetak output. Sedangkan untuk proses biplot (proses 7.6), proses ini memanfaatkan nilai keragaman, nilai koefisien, dan nilai skor hasil analisis komponen utama. Hasil proses biplot ini akan ke proses cetak output. Untuk uji normal ganda dan analisis gerombol, data yang masuk akan diproses dan hasilnya akan ke proses cetak output. Sedangkan untuk analisis faktor, setelah data masuk melalui proses manajemen data maka data akan diproses oleh fungsi analisis faktor. Hasil analisis faktor ini akan ke proses cetak output atau ke proses hitung nilai koefisien (proses 7.7). Proses hitung nilai koefisien memanfaatkan nilai skor hasil analisis faktor. Hasil proses hitung nilai koefisien ini akan ke proses cetak output. d. Diagram aliran data level 3 Diagram aliran data level 3 (Gambar 5) merupakan dekomposisi dari proses analisis gerombol yang terdiri dari analisis gerombol hierarki dan analisis gerombol k-means. Data yang masuk akan diproses fungsi analisis gerombol hierarki (proses 7.3.1) dan hasilnya akan ke proses cetak output. Aliran data untuk fungsi analisis gerombol k-means serupa dengan aliran data analisis gerombol hierarki yaitu data yang masuk akan diproses fungsi analisis gerombol k-means (proses 7.3.2) dan hasilnya akan ke proses cetak output.
6
Monitor
Printer
Pengguna
File/Disk
Gambar 2 Diagram aliran data level 1
6
7
Pengguna
Gambar 3 Diagram aliran data level 2 proses 1
Gambar 4 Diagram aliran data level 2 proses 7
8
Gambar 5 Diagram aliran data level 3 proses 7.3 Implementasi Sistem Implementasi sistem menggunakan program R dan beberapa paket tambahan lainnya. Paket tambahan tersebut antara lain paket tcl/tk, dan tcl/tk2 untuk antarmukanya, paket tkrplot untuk antar muka bagi grafik, paket xlsReadWrite yang digunakan untuk mengimpor dan mengekspor data dari dan ke file Excel 2003, dan paket mvShapiroTest untuk uji normal ganda. AMV (analisis multivariat) tersusun oleh pilihan menu di bagian atas dan jendela hasil di bawah menu untuk menampilkan output. Menu AMV terdiri dari empat menu utama yaitu Menu File, Menu Data, Menu Statistika, dan Menu Bantuan. Halaman utama AMV terdapat pada Lampiran 1. Menu File Menu File terdiri dari empat fungsi utama yaitu : 1. Impor Dataset Fungsi ini digunakan untuk mengimpor data dengan format *.xls dan *.csv. File MS.Excel 2003 yang akan diimpor telah berisi data pada Sheet1 dengan format nama peubah di baris pertama diikuti dengan data di baris berikutnya. 2. Ekspor Dataset Fungsi ini digunakan untuk mengekspor data dengan format *.xls dan *.csv. Hasil ekspor dataset tersebut akan tersimpan di dalam My Documents dengan nama file Data.xls atau Data.csv. Data tersebut akan terletak pada Sheet 1 dengan format nama
peubah di baris pertama diikuti dengan data di baris berikutnya. Jika data yang akan diekspor memiliki nama pengamatan maka kolom pertama akan berisi nama pengamatan diikuti dengan data pada kolom berikutnya. 3. Simpan Hasil Fungsi “Simpan Hasil” untuk menyimpan hasil perhitungan. Fungsi ini dapat menyimpan hasil yang terdapat pada jendela hasil dalam bentuk teks dengan ekstensi *.txt. Selain itu hasil dapat juga disimpan dengan ekstensi *.doc atau *.docx. 4. Keluar Fungsi “Keluar” untuk keluar dari AMV. Menu Data Menu data merupakan menu untuk memasukkan dan mencetak data. Fungsifungsi dalam AMV akan berjalan jika data sudah dimasukkan baik melalui input manual atau impor data. Menu ini terdiri dari empat fungsi, yaitu: 1. Buat Dataset Baru Fungsi ini digunakan untuk memasukan data ke dalam sistem secara manual. Data akan tersimpan dalam dataframe baru yang diberi nama “Data”. AMV hanya mampu menggunakan satu dataset aktif. 2. Lihat Dataset Fungsi ini digunakan untuk melihat data yang sudah dimasukkan baik melalui input manual atau impor data pada jendela baru.
9
3. Edit Dataset Fungsi ini digunakan untuk mengedit data yang sudah dimasukkan ke sistem atau menambahkan data pada dataset. 4. Cetak Dataset Fungsi ini digunakan untuk mencetak data yang tersimpan pada jendela hasil. Menu Statistika Menu Statistika ialah menu utama dalam AMV yang berisi perhitungan-perhitungan Statistika. Menu ini terdiri dari empat fungsi dan satu submenu. Satu submenu tersebut ialah submenu analisis gerombol yang terdiri dari dua fungsi. Jadi terdapat enam fungsi dalam paket AMV ini. Keenam fungsi tersebut antara lain ialah : 1. Uji Normal Ganda Fungsi ini digunakan untuk uji kenormalan suatu matriks data. Hasil pengujiannya berupa statistik uji dan nilai-p. Uji ini menggunakan pendekatan uji ShapiroWilk untuk normal ganda. Tampilan antar muka untuk fungsi ini terdapat pada Lampiran 2. Sintaks R yang digunakan untuk pengujian nomal ganda suatu matriks data ini menggunakan fungsi mvShapiro.Test dari paket mvShapiroTest. Data <- as.matrix(Data) mvShapiro.Test(Data)
2. Analisis Komponen Utama Fungsi ini digunakan untuk melakukan analisis komponen utama. Hasil analisis dari fungsi ini ialah nilai akar ciri dan nilai koefisien komponen utama. Selain hasil tersebut, fungsi ini juga menyediakan pilihan-pilihan seperti nilai skor komponen utama, screeplot dan biplot. Untuk hasil nilai skor komponen utama tersimpan ke dalam dataset. Sedangkan untuk screeplot dan biplot, hasilnya akan disajikan pada jendela baru yang dapat disalin atau disimpan. Tampilan antar muka fungsi ini tersaji dalam Lampiran 3. Fungsi analisis komponen utama ini berdasarkan fungsi princomp yang dimodifikasi. Pada awalnya fungsi princomp ialah sebagai berikut : princomp <- function(x,…) {covmat <- cov.wt(x) cv <- covmat$cov cen <- covmat$center edc <- eigen(cv, symmetric = TRUE) ev <- edc$values sdev<- sqrt(ev) sc <- rep(1, ncol(cv))
scr <- scale(x, center = cen, scale = sc) %*% edc$vectors }
Fungsi princomp di atas kemudian dimodifikasi menjadi fungsi princomp1. Modifikasi fungsi princomp yang dilakukan terletak pada penentuan nilai akar ciri dan nilai skor komponen utama. Berikut sintaks fungsi princomp1 yang merupakan modifikasi dari fungsi princomp : princomp1 <- function(x,…) { covmat <- cov.wt(x) cv <- covmat$cov cen <- covmat$center edc <- eigen(cv, symmetric = TRUE) ev <- edc$values sdev<- ev scr <- scale(x, center = TRUE, scale = TRUE) %*% edc$vectors }
Dengan adanya modifikasi fungsi princomp menjadi fungsi princomp1 maka sintaks R untuk analisis komponen utama sebagai berikut : aku <- princomp1(Data, cor = TRUE, scores = TRUE)
Screeplot : screeplot(aku)
Biplot : biplot(aku)
3. Analisis Faktor Sesuai dengan nama fungsinya, fungsi ini digunakan untuk analisis faktor. Hasil analisis fungsi ini antara lain nilai keragaman dan nilai loadings. Beberapa pilihan hasil juga tersaji pada fungsi ini antara lain pilihan hasil nilai skor dan nilai koefisien. Sama halnya dengan analisis komponen utama, hasil skor pada analisis faktor ini juga akan tersimpan ke dalam dataset. Sedangkan untuk hasil lainnya akan ditampilkan pada jendela hasil. Tampilan antar muka untuk fungsi ini terdapat pada Lampiran 4. Fungsi analisis faktor ini didasarkan pada fungsi factanal sehingga terdapat keterbatasan pengguna dalam menentukan jumlah faktor. Selain itu fungsi factanal juga memiliki keterbatasan dalam menghasilkan nilai koefisien. Sehingga untuk penentuan nilai koefisien dibuat fungsi tersendiri.
10
Penentuan nilai koefisien ini memanfaatkan nilai skor hasil fungsi factanal karena nilai skor yang dihasilkan dari fungsi factanal merupakan hasil perkalian antara nilai koefisien dengan data yang dibakukan. Sintaks R untuk analisis faktor ialah (misal, jumlah faktor = 1) : faktor <- factanal(Data, factors=1,scores =c("none", "regression", "Bartlett"), rotation = "varimax")
Koefisien Analisis Faktor : Data2 <- scale(Data, center=TRUE, scale=TRUE) Data2 <- as.matrix(Data2) skor
<- faktor$scores
koef
<- solve(t(Data2)%*% Data2) %*% (t(Data2)%*%skor)
4. Analisis Gerombol Hierarki Fungsi ini digunakan untuk analisis gerombol hierarki. Hasil dari fungsi ini ialah dendogram dan anggota gerombol. Dendogram disajikan dalam jendela baru, sedangkan untuk anggota gerombol ditampilkan pada jendela hasil. Tampilan antar muka untuk fungsi ini terdapat pada Lampiran 5. Sintaks R analisis gerombol hierarki ini sebagai berikut : gerh <- hclust(dist(Data, method=c(“euclidean”, ”manhattan”)), method =c("complete", ”single”, “average”, “median”, “centroid”, “mcquitty”))
Dendogram : plot(gerh, hang=-1)
Anggota Gerombol gerombol=3) :
(misal,
jumlah
rect.hclust(ger.hierarki, k=3, border=”red”)
5. Analisis Gerombol K-Means Fungsi ini digunakan untuk melakukan analisis gerombol k-means. Hasil dari fungsi ini ialah pusat gerombol, ukuran gerombol, jumlah kuadrat dalam gerombol, anggota gerombol dan plot hasil analisis gerombol k-means. Untuk anggota
gerombol akan tersimpan ke dalam dataset. Tampilan antar muka tersaji pada Lampiran 6. Sintaks R yang digunakan untuk fungsi ini ialah (misal, jumlah gerombol=3) : gerk <- kmeans(Data, centers = 3, iter.max = 10, algorithm = c("Hartigan-Wong", "Lloyd","Forgy", "MacQueen"))
Plot hasil Analisis Gerombol K-Means : plot(Data, col=ger.kmeans$cluster) points(ger.kmeans$centers, col=1:3,pch=8,cex=2)
6. Analisis Biplot Fungsi ini dapat melakukan analisis biplot. Hasil fungsi ini ialah biplot, nilai keragaman kedua komponen, dan koordinat untuk peubah serta pengamatannya. Tampilan antar muka bagi fungsi ini ditampilkan pada Lampiran 7. Fungsi analisis biplot yang dibangun memanfaatkan fungsi biplot.princomp dari paket stats. Sintaks R fungsi biplot ini adalah (misalnya nilai alpha=1) : aku <- princomp1(Data, cor = TRUE, scores = TRUE)
Biplot : biplot(aku, scale=1)
Nilai keragaman kedua komponen : ragam <- summary(aku) prop <- ragam[[1]] prop <- prop/sum(prop) prop <- prop[1:2]
Koordinat untuk peubah : lam <- sqrt(ragam[[1]][1:2]) n <- aku[[5]] lam <- lam*sqrt(n) lam <- lam^1 koef <- loadings(aku) koef.1 <- koef[] peub <-t(t(koef.1[,1:2])*lam)
Koordinat untuk pengamatan : pengamatan
Menu Bantuan Menu ini digunakan untuk memberikan informasi terhadap penggunaan AMV. Menu ini terdiri dari dua fungsi yaitu : 1. Bantuan AMV Fungsi ini berisi tentang dokumentasi penggunaan AMV.
11
2. Tentang AMV Fungsi ini berisi informasi tentang versi AMV dan pengembang AMV. Pengujian Dalam pengujian paket AMV ini, data yang digunakan ialah data USArrests yang bersumber dari data contoh di R. Pengujian AMV dilakukan mulai dari implementasi fungsi-fungsi AMV hingga pengujian AMV secara menyeluruh. Pengujian dilakukan dengan membandingkan hasil AMV dengan hasil perangkat lunak lainnya seperti Minitab, SPSS, dan SAS. Hasil pengujiannya sebagai berikut : 1. Analisis Komponen Utama Terdapat perbedaan hasil akar ciri, vektor ciri dan nilai skor antara AMV dengan SAS atau MINITAB. Karena perbedaan tersebut, maka dilakukan modifikasi fungsi princomp menjadi princomp1 sehingga hasil akar ciri dan skor komponen utama AMV sama dengan SAS/MINITAB. Modifikasi fungsi tersebut telah dijelaskan sebelumnya. Tetapi untuk hasil vektor ciri AMV dengan SAS/MINITAB tetap berbeda. Hal ini dikarenakan nilai vektor ciri yang tidak unik. Tetapi besaran vektor ciri yang dihasilkan sama besar. Perbedaan hasil vektor ciri antara AMV dan SAS dapat dilihat pada Lampiran 8. 2. Analisis Faktor Indikator yang digunakan pada pengujian untuk analisis faktor ialah nilai loadings. Hasil pengujian menunjukkan bahwa AMV, SAS, MINITAB dan SPSS menghasilkan nilai loadings yang sama. 3. Analisis Gerombol Hierarki Ukuran gerombol dijadikan indikator dalam pengujian analisis gerombol hierarki ini. Hasil pengujian fungsi ini tersaji dalam Lampiran 8. Penggerombolan hasil AMV sama dengan SAS, MINITAB, ataupun SPSS, hanya urutan gerombolnya berbeda. 4. Analisis Gerombol K-Means Untuk analisis gerombol k-means, pusat gerombol hasil AMV sama dengan pusat gerombol hasil SAS, hanya urutan gerombolnya berbeda. Urutan gerombol pada AMV diurutkan dari pusat gerombol terbesar ke pusat gerombol terkecil, sedangkan untuk SAS urutan gerombolnya tidak diurutkan berdasarkan pusat gerombol.
5. Analisis Biplot Keragaman kedua komponen menjadi indikator dalam pengujian analisis biplot. Pengujian menunjukkan bahwa keragaman kedua komponen hasil AMV dengan hasil SAS sama yaitu komponen pertama sebesar 62.39% dan komponen kedua sebesar 24.34%. Dari hasil pengujian, AMV telah mampu menghasilkan hasil yang sesuai untuk perhitungan-perhitungan statistik yang dibuat. Batasan dan Keterbatasan Sistem Sistem ini mempunyai batasan yaitu tergantung pada program R dan beberapa paket R lainnya (tcl/tk, tcl/tk2, tkrplot, dan mvShapiroTest). xlsReadWrite, Sedangkan keterbatasan sistem ini antara lain ialah : Hanya satu dataset yang dapat digunakan dalam analisis Impor data hanya terbatas pada data berekstensi .xls dan .csv. Ekspor data hanya terbatas pada data berekstensi .xls dan .csv. Pemilihan peubah hanya bisa dilakukan satu per satu Menu untuk manipulasi data masih terbatas. Untuk analisis faktor ada keterbatasan pengguna dalam menentukan jumlah faktornya. Untuk analisis gerombol hierarki, hasil anggota gerombolnya hanya dapat disajikan pada jendela hasil tanpa dapat dimasukkan ke dalam dataset. Studi Kasus Pengujian paket AMV tidak hanya menggunakan data contoh USArrests saja tapi juga menggunakan data asli yaitu data PDRB tahun 2007. Data asli tersebut digunakan untuk melihat perilaku hasil AMV untuk data asli. Hasil AMV untuk data asli ini juga akan dibandingkan dengan perangkat lunak statistika lainnya seperti SAS atau MINITAB. Berikut bahasan hasil AMV untuk tiap fungsinya : 1. Uji Normal Ganda Hasil pengujian untuk fungsi uji normal ganda ini berupa nilai statistik uji dan nilai-p. Nilai statistik uji yang didapat sebesar 0.7638 dengan nilai-p < 2.2e-16 (Lampiran 9). Fungsi uji normal ganda pada paket AMV ini menggunakan metode Shapiro-Wilk. Perangkat lunak statistika lainnya seperti SAS dan MINITAB tidak ada fungsi uji normal ganda yang
12
2.
3.
4.
5.
berdasarkan metode Shapiro-Wilk. Jadi untuk fungsi ini tidak dilakukan perbandingan hasil dengan SAS dan MINITAB. Analisis Komponen Utama Sama halnya dengan pengujian pada data contoh, pengujian dengan data asli juga memberikan perbedaan arah untuk hasil vektor ciri AMV dengan vektor ciri SAS atau MINITAB. Tetapi nilai akar ciri, proporsi keragaman dan kumulatif keragaman hasil AMV sama dengan hasil SAS dan MINITAB. Dan untuk screeplot yang dihasilkan oleh AMV sama dengan screeplot hasil MINITAB. Perbandingan fungsi analisis komponen utama dengan berbagai perangkat lunak ini tersaji pada Lampiran 10. Analisis Faktor Fungsi analisis faktor menghasilkan nilai loadings, keragaman, nilai koefisien dan nilai skor. Untuk nilai loadings dan keragaman hasil AMV sama dengan nilai loadings dan keragaman hasil SAS dan MINITAB. Sedangkan perbandingan AMV dengan MINITAB untuk nilai koefisien hasilnyapun sama. Perbandingan fungsi analisis faktor secara lengkap terdapat pada Lampiran 11. Analisis Gerombol Hierarki Anggota gerombol pertama hasil AMV ialah pengamatan ke-12 (Jawa Barat). Sedangkan anggota gerombol kedua hasil AMV yaitu pengamatan ke-4 (Riau) dan ke-23 (Kalimantan Timur). Dan anggota gerombol ketiganya merupakan 30 pengamatan lainnya. Hasil penggerombolan tersebut sama dengan hasil penggerombolan MINITAB hanya urutan gerombolnya saja yang berbeda. Untuk lebih jelasnya mengenai hasil penggerombolan AMV dan MINITAB dapat dilihat pada Lampiran 12. Analisis Gerombol K-Means Perbandingan hasil analisis gerombol kmeans antara AMV dengan SAS pada data contoh sebelumnya menunjukkan bahwa pusat gerombol hasil AMV sama dengan pusat gerombol hasil SAS. Namun untuk perbandingan menggunakan data asli terdapat perbedaan hasil pusat gerombol antara AMV dengan SAS. Dan ukuran gerombol yang dihasilkan AMV dengan SAS juga berbeda sehingga penggerombolan yang dihasilkan juga berbeda. Perbedaan hasil AMV dengan SAS disajikan dalam Lampiran 13.
6. Analisis Biplot Analisis biplot pada paket AMV menghasilkan nilai keragaman kedua komponen, koordinat peubah, koordinat pengamatan dan biplot. Untuk nilai keragaman kedua komponen, hasil AMV dengan SAS sama. Tapi untuk hasil biplotnya terdapat perbedaan arah namun kedekatan antar objek, antar peubah dan objek dengan peubahnya relatif sama. Hasil biplot dengan AMV dan SAS terdapat pada Lampiran 14. KESIMPULAN Penelitian ini berhasil membangun paket R yang diberi nama AMV. Paket AMV ini memiliki tampilan antar muka dengan fungsi uji normal ganda, analisis komponen utama, analisis faktor, analisis gerombol hierarki, analisis gerombol k-means dan analisis biplot. AMV terdiri dari empat menu utama yaitu Menu File, Menu Data, Menu Statistika, dan Menu Bantuan. Pengujian yang dilakukan menunjukkan bahwa paket ini sudah cukup mampu melakukan analisis statistika yang telah ditentukan. Paket ini memudahkan pengguna untuk melakukan analisis statistika secara mudah dan legal walaupun analisis yang ada masih terbatas.
1. 2. 3. 4. 5. 6.
SARAN Saran untuk penelitian selanjutnya ialah : Lebih dari satu dataset yang dapat digunakan dalam analisis. Impor dan ekspor data tidak terbatas pada data berekstensi .xls dan .csv tetapi mencakup .MTB, .sav dan .sas. Pemilihan peubah lebih dari satu dapat dilakukan secara bersamaan. Mengembangkan fungsi untuk manipulasi data seperti transformasi peubah. Untuk analisis gerombol hierarki, hasil anggota gerombolnya dapat dimasukkan ke dalam dataset. Mengembangkan paket R dengan tampilan antar muka pengguna untuk analisis multivariat lainnya seperti analisis korespondensi, analisis diskriminan, dan analisis korelasi kanonik. DAFTAR PUSTAKA
Dalgaard, P. 2001. A Primer on the R-Tcl/Tk Package. Rnews 2001 volume 1/3. http://cran.rproject.org/doc/Rnews/Rnews_20013.pdf.
13
Dalgaard, P. 2002. Changes to the R-Tcl/Tk package. Rnews 2002 volume 2/3. http://cran.rproject.org/doc/Rnews/Rnews_20023.pdf. Hornik, K. 2009. Frequently Asked Questions on R. http://www.r-project.org/. [18 Mei 2009]. Johnson, R. A. dan D. W. Wichern. 2002. Statistical Applied Multivariate Analysis Fifth Edition. New Jersey : Prentice Hall. Jolliffe, I. T. 2002. Principal Component Analysis Second Edition. New York : Springer-Verlag. Kisworo, A. 2009. Pengembangan Paket R untuk Praktisi Perancangan Percobaan dengan Tampilan Antarmuka User Friendly. [Skripsi]. Departemen Statistika FMIPA IPB, Bogor. Kusumaputra, R. A. 2009. Tingkat Pembajakan "Software" di Indonesia Kembali Naik 1 Persen. http://tekno.kompas.com/read/xml/20 09/05/12/17240360/tingkat.pembajak an. [10 November 2009]. Melisa.
2009. Pengembangan Paket R Analisis Regresi Linier dengan Antarmuka User Friendly bagi Departemen Praktisi. [Skripsi]. Statistika FMIPA IPB, Bogor.
Sommerville, I. 2003. Software Engineering (Rekayasa Perangkat Lunak)/Edisi 6/Jilid 1. Hanum Y; penerjemah. Jakarta : Erlangga. Terjemahan dari : Software Engineering, 6th edition. Srivastava, M.S. 2002. Methods of Multivariate Statistics. New York : John Wiley & Sons, Inc. Warella, A. 2010. Pengembangan Paket R untuk Analisis Deret Waktu dengan Antar Muka User Friendly. [Skripsi]. Departemen Statistika FMIPA IPB, Bogor.
LAMPIRAN
15
Lampiran 1 Halaman utama AMV
Lampiran 2 Tampilan fungsi Uji Normal Ganda
16
Lampiran 3 Tampilan fungsi Analisis Komponen Utama
17
Lampiran 4 Tampilan fungsi Analisis Faktor
18
Lampiran 5 Tampilan fungsi Analisis Gerombol Hierarki
Lampiran 6 Tampilan fungsi Analisis Gerombol K-Means
19
Lampiran 7 Tampilan fungsi Analisis Biplot
20
Lampiran 8 Perbandingan hasil AMV dengan berbagai perangkat lunak Fungsi Analisis Komponen Utama
Indikator Vektor ciri komponen 1
AMV Murder -0.5348746 Assault -0.5807524 UrbanPop -0.2849753 Rape -0.5435301
Minitab Murder Assault UrbanPop Rape
Analisis Faktor
-0.535 -0.581 -0.285 -0.544
Loadings
Murder 0.820 Assault 0.973 UrbanPop 0.274 Rape 0.693
Murder Assault UrbanPop Rape
0.820 0.973 0.274 0.693
Analisis Gerombol Hierarki
Ukuran gerombol
Gerombol 1 Gerombol 2 Gerombol 3
Analisis Gerombol KMeans
Pusat gerombol
Gerombol 1 2 3
Murder 11.72 8.21 4.27
Biplot
Keragaman kedua komponen
Komponen 1 Komponen 2
62.39% 24.34%
1 1 47
Cluster 1 Cluster 2 Cluster 3 Assault 275.00 173.29 87.55
SPSS
47 1 1
SAS Murder 0.534875 Assault 0.580752 UrbanPop 0.284975 Rape 0.543530
-
Murder Assault UrbanPop Rape Cluster 1 Cluster 2 Cluster 3
0.820 0.973 0.274 0.693 47 1 1
-
-
-
-
Murder Assault UrbanPop Rape
0.82006 0.97269 0.27430 0.69282
Cluster 1 Cluster 2 Cluster 3
47 1 1
Cluster 1 2 3
Murder 4.27 11.72 8.21
Komponen 1 Komponen 2
62.39% 24.34%
Assault 87.55 275.00 173.29
20
21
Lampiran 9 Keluaran fungsi Uji Normal Ganda Hasil Uji Normal Ganda ====================== Uji Normal Ganda dengan Metode Shapiro-Wilk data: DataMatriks MVW = 0.7638, nilai-p < 2.2e-16 Lampiran 10 Perbandingan hasil Analisis Komponen Utama dengan berbagai perangkat lunak Hasil akar ciri dan vektor ciri dengan AMV Hasil Analisis Komponen Utama ============================= Komponen 1 Komponen 2 Komponen 3 Komponen 4 Akar Ciri 2.6482463 1.0129912 0.31590443 0.022858055 Proporsi Keragaman 0.6620616 0.2532478 0.07897611 0.005714514 Kumulatif Keragaman 0.6620616 0.9153094 0.99428549 1.000000000 Komponen 1 Komponen 2 Komponen 3 Komponen 4 PRT -0.5408684 0.06811360 0.8354114 0.07006872 PTB -0.1304354 0.96576830 -0.1749526 0.14024899 INDT -0.6000089 -0.03373194 -0.3244451 -0.73047025 LSTRK -0.5748367 -0.24802075 -0.4076944 0.66470580 Hasil akar ciri dan vektor ciri dengan MINITAB Eigenvalue Proportion Cumulative
Variable PRT PTB INDT LSTRK
2.6482 0.662 0.662
PC1 -0.541 -0.130 -0.600 -0.575
1.0130 0.253 0.915
PC2 -0.068 -0.966 0.034 0.248
0.3159 0.079 0.994
PC3 0.835 -0.175 -0.324 -0.408
0.0229 0.006 1.000
PC4 0.070 0.140 -0.730 0.665
Hasil akar ciri dan vektor ciri dengan SAS
1 2 3 4
Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 2.64824634 1.63525516 0.6621 0.6621 1.01299118 0.69708674 0.2532 0.9153 0.31590443 0.29304638 0.0790 0.9943 0.02285806 0.0057 1.0000
prt ptb indt lstrk
Prin1 0.540868 0.130435 0.600009 0.574837
Eigenvectors Prin2 Prin3 0.068114 -.835411 0.965768 0.174953 -.033732 0.324445 -.248021 0.407694
Prin4 0.070069 0.140249 -.730470 0.664706
22
Lampiran 10 Lanjutan Screeplot dengan AMV
1.5 0.0
0.5
1.0
Akar Ciri
2.0
2.5
Screeplot
Komponen 1
Komponen 2
Komponen 3
Komponen 4
Screeplot dengan MINITAB
Scree Plot of PRT, ..., LSTRK 3.0 2.5
Eigenvalue
2.0 1.5 1.0 0.5 0.0 1
2
3 Component Number
4
23
Lampiran 11 Perbandingan hasil Analisis Faktor dengan berbagai perangkat lunak Nilai loadings dan koefisien dengan AMV Hasil Analisis Faktor ===================== Loadings: Faktor1 PRT 0.918 PTB 0.226 INDT 0.839 Faktor1 Keragaman 1.598 Proporsi Keragaman 0.533 Koefisien Analisis Faktor ========================= Faktor1 PRT 0.66226146 PTB 0.02717803 INDT 0.32416675 Nilai loadings dan koefisien dengan MINITAB Variable PRT PTB INDT
Factor1 0.918 0.226 0.839
Communality 0.842 0.051 0.705
Variance % Var
1.5979 0.533
1.5979 0.533
Factor Score Coefficients Variable PRT PTB INDT
Factor1 0.662 0.027 0.324
Nilai loadings dengan SAS Factor Pattern Factor1 0.91761 prt 0.22615 ptb indt 0.83947 Variance Explained by Each Factor Factor Weighted Unweighted Factor1 7.76965536 1.59785605
24
Lampiran 12 Perbandingan hasil Analisis Gerombol Hierarki dengan MINITAB Anggota gerombol hasil AMV dan MINITAB Nama pengamatan
AMV
MINITAB
NAD
3
1
Sumatera Utara
3
1
Sumatera Barat Riau
3 2
1 2
Jambi Sumatera Selatan
3 3
1 1
Bengkulu Lampung
3 3
1 1
Bangka Belitung
3
1
Kepulauan Riau
3
1
Jakarta Jawa Barat
3 1
1 3
Jawa Tengah Yogyakarta
3 3
1 1
Jawa Timur Banten
3 3
1 1
Bali NTB
3 3
1 1
NTT
3
1
Kalimantan Barat
3
1
Kalimantan Tengah Kalimantan Selatan
3 3
1 1
Kalimantan Timur Sulawesi Utara
2 3
2 1
Sulawesi Tengah Sulawesi Selatan
3 3
1 1
Sulawesi Tenggara
3
1
Gorontalo
3
1
Sulawesi Barat Maluku
3 3
1 1
Maluku Utara
3
1
Papua Barat
3
1
Papua
3
1
25
Lampiran 12 Lanjutan Dendogram hasil AMV
Jarak
3
20
7
24
27
19
31
28
30
29
25
21
32
14
9
17
5
22
18
8
26
1
6
10
33
2
16
11
13
15
4
23
12
0e+00
2e+04
4e+04
6e+04
8e+04
Dendogram
Dendogram hasil MINITAB
Dendrogram with Single Linkage and Euclidean Distance
Similarity
64.43
76.29
88.14
100.00
1
3 20
7 24 19 27 28 31 30 29 21 25 32 14 17
9
5 22 18
Observations
8 26 10
6 33 16
2 11 13 15
4 23 12
26
Lampiran 13 Perbandingan hasil Analisis Gerombol K-Means dengan SAS Anggota gerombol hasil AMV dan SAS Nama pengamatan NAD Sumatera Utara Sumatera Barat Riau Jambi Sumatera Selatan Bengkulu Lampung Bangka Belitung Kepulauan Riau jakarta Jawa Barat Jawa Tengah Yogyakarta Jawa Timur Banten Bali NTB NTT Kalimantan Barat Kalimantan Tengah Kalimantan Selatan Kalimantan Timur Sulawesi Utara Sulawesi Tengah Sulawesi Selatan Sulawesi Tenggara Gorontalo Sulawesi Barat Maluku Maluku Utara Papua Barat Papua
AMV
SAS 3 2 3 2 3 3 3 3 3 3 2 1 2 3 1 2 3 3 3 3 3 3 2 3 3 3 3 3 3 3 3 3 3
2 2 2 1 2 2 2 2 2 2 2 3 3 2 3 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2
Ukuran dan pusat gerombol hasil AMV Hasil Analisis Gerombol K-Means =============================== [,1] [,2] [,3] Jumlah_Kuadrat_Dalam_Gerombol 3782301192 16527256510 4129352411 Ukuran_Gerombol 2 6 25 Pusat Gerombol PRT PTB INDT 1 76168.280 11963.370 195222.02 2 28246.132 31277.282 66792.10 3 8539.226 5559.123 4962.98
27
Lampiran 13 Lanjutan Ukuran dan pusat gerombol hasil SAS
Cluster
Cluster Summary Radius Maximum Distance Exceeded from Seed to Observation 19194.1 23507.9 13750.5 79854.6 40675.3 73666.6
Frequency
RMS Std Deviation
2 28 3
1 2 3
Cluster Means prt ptb 27769.8750 89698.9900 9413.7689 5147.6504 72056.2367 9012.1033
Cluster 1 2 3
indt 56481.1900 11122.8064 163623.3867
Lampiran 14 Perbandingan hasil Analisis Biplot dengan SAS Hasil biplot dengan AMV Hasil Biplot ============================= Nilai Keragaman Kedua Komponen Komponen 1 Komponen 2 0.6206372 0.3028694 Biplot -4
-2
0
JawJaw a Barat a Timur
2
Jaw a Tengah
Sumatera Utara
INDT PRT
0.0
Banten jakarta Lampung Kalimantan Barat Bali Sumatera Barat Tengah NTT Yogyakarta Sulaw esi Tenggara Bengkulu Sulaw esi Barat Tengah Gorontalo Maluku Sulaw esi Utara Maluku Utara SulawKalimantan esi Selatan Papua Barat Kepulauan Riau Bangka Belitung Kalimantan Selatan Jambi NAD NTB
-2
-0.2
Sumatera Selatan
-4
-0.4
Papua
PTB
-0.6
-0.4
-0.2 Komponen 1
-6
Riau Kalimantan Timur
-0.6
Komponen 2
2
0
0.2
-6
0.0
0.2
Nearest Cluster
Distance Between Cluster Centroids
2 1 1
97689.6 97689.6 141248
28
Lampiran 14 Lanjutan Hasil biplot dengan SAS
3
pt b 2 Kal i m ant Ri au 1 Papua Sum at er a N B NAD Jam bi K al iTm ant B angkaB K epul e aua P apuaB ar S ul aw esi M G S al or M B ul S al engkul ul ukuU ont aw uku aw esi al esi tm u S ul K al aw ium esi ant Y ogyakar S ul N T aw T B S al at er a K al iiesi m ant Lam pung j akar Bant en t a Sum at er a
0
JawaTeng
Jaw aTiaB m u Jaw ar a
t ipr ndt
-1 -1
0
1 Di m ensi on 1 ( 62. 1% )
2